Математика и информатика. Ръководство за обучение през целия курс

Често оценителят трябва да анализира пазара на недвижими имоти в сегмента, в който се намира обектът на оценка. Ако пазарът е развит, може да бъде трудно да се анализира целия набор от представени обекти, следователно за анализ се използва извадка от обекти. Тази извадка не винаги е хомогенна, понякога се налага нейното изчистване от крайности - твърде високи или твърде ниски пазарни оферти. За целта се прилага доверителен интервал. Цел това учение- извършване на сравнителен анализ на два метода за изчисляване на доверителния интервал и избор на най-добрата опция за изчисление при работа с различни проби в системата estimatica.pro.

Доверителен интервал - интервал от стойности на характеристиките, изчислени въз основа на извадка, която с известна вероятност съдържа оценения параметър население.

Смисълът на изчисляването на доверителния интервал е да се изгради такъв интервал въз основа на данните от извадката, така че да може да се твърди с дадена вероятност, че стойността на оценения параметър е в този интервал. С други думи, доверителният интервал с определена вероятност съдържа неизвестната стойност на оцененото количество. Колкото по-широк е интервалът, толкова по-голяма е неточността.

Има различни методи за определяне на доверителния интервал. В тази статия ще разгледаме 2 начина:

  • чрез медианата и стандартното отклонение;
  • чрез критичната стойност на t-статистиката (коефициент на Стюдънт).

Етапи сравнителен анализ различни начиниИзчисление на CI:

1. формира извадка от данни;

2. обработвам го статистически методи: изчисляване на средна стойност, медиана, дисперсия и др.;

3. изчисляваме доверителния интервал по два начина;

4. Анализирайте почистените проби и получените доверителни интервали.

Етап 1. Извадка от данни

Извадката е формирана чрез системата estimatica.pro. Извадката включва 91 оферти за продажба на 1-стайни апартаменти в 3-та ценова зона с тип планиране "Хрушчов".

Таблица 1. Първоначална проба

Цената на 1 кв.м., к.у.

Фиг. 1. Първоначална проба



Етап 2. Обработка на първоначалната проба

Обработката на извадката чрез статистически методи изисква изчисляване на следните стойности:

1. Средно аритметично

2. Медиана - число, което характеризира извадката: точно половината от елементите на извадката са по-големи от медианата, другата половина е по-малка от медианата

(за извадка с нечетен брой стойности)

3. Диапазон - разликата между максималните и минималните стойности в извадката

4. Дисперсия - използва се за по-точна оценка на вариацията в данните

5. Стандартното отклонение за извадката (наричано по-нататък RMS) е най-често срещаният индикатор за дисперсията на коригиращите стойности около средноаритметичната стойност.

6. Коефициент на вариация - отразява степента на дисперсия на коригиращите стойности

7. коефициент на колебание - отразява относителното колебание на екстремните стойности на цените в извадката около средната

Таблица 2. Статистически показатели на оригиналната извадка

Коефициентът на вариация, който характеризира хомогенността на данните, е 12,29%, но коефициентът на колебание е твърде голям. По този начин можем да заявим, че оригиналната извадка не е хомогенна, така че нека да преминем към изчисляване на доверителния интервал.

Етап 3. Изчисляване на доверителния интервал

Метод 1. Изчисляване чрез медиана и стандартно отклонение.

Доверителният интервал се определя, както следва: минималната стойност - стандартното отклонение се изважда от медианата; максималната стойност - стандартното отклонение се добавя към медианата.

Така доверителният интервал (47179 CU; 60689 CU)

Ориз. 2. Стойности в рамките на доверителен интервал 1.



Метод 2. Изграждане на доверителен интервал чрез критичната стойност на t-статистиката (коефициент на Стюдънт)

С.В. Грибовски в книгата " Математически методиоценка на стойността на имота” описва как да се изчисли доверителният интервал чрез коефициента на Студент. При изчисляване по този метод самият оценител трябва да зададе нивото на значимост ∝, което определя вероятността, с която ще бъде изграден доверителният интервал. Обикновено се използват нива на значимост от 0,1; 0,05 и 0,01. Те съответстват на доверителни вероятности от 0,9; 0,95 и 0,99. С този метод се изчисляват истинските стойности математическо очакванеи дисперсията са практически неизвестни (което почти винаги е вярно при решаване практически задачиоценки).

Формула за доверителен интервал:

n - размер на извадката;

Критичната стойност на t-статистиките (разпределенията на Стюдънт) с ниво на значимост ∝, броят на степените на свобода n-1, което се определя от специални статистически таблици или с помощта на MS Excel (→"Статистически"→ СТУДРАСПОБР);

∝ - ниво на значимост, приемаме ∝=0,01.

Ориз. 2. Стойности в рамките на доверителния интервал 2.

Стъпка 4. Анализ на различни начини за изчисляване на доверителния интервал

Два начина за изчисляване на доверителния интервал - чрез медианата и коефициента на Стюдънт - доведоха до различни стойностиинтервали. Съответно бяха получени две различни пречистени проби.

Таблица 3. Статистически показатели за три извадки.

Индекс

Първоначална проба

1 вариант

Вариант 2

Означава

дисперсия

Коеф. вариации

Коеф. трептения

Брой излезли от експлоатация обекти, бр.

Въз основа на извършените изчисления можем да кажем, че стойностите на доверителните интервали, получени по различни методи, се пресичат, така че можете да използвате всеки от методите за изчисление по преценка на оценителя.

Ние обаче вярваме, че при работа в системата estimatica.pro е препоръчително да изберете метод за изчисляване на доверителния интервал в зависимост от степента на развитие на пазара:

  • ако пазарът не е развит, приложете метода на изчисление чрез медианата и стандартното отклонение, тъй като броят на пенсионираните обекти в този случай е малък;
  • ако пазарът е развит, приложете изчислението чрез критичната стойност на t-статистиката (коефициент на Стюдънт), тъй като е възможно да се формира голяма първоначална извадка.

При изготвянето на статията са използвани:

1. Грибовски С.В., Сивец С.А., Левикина И.А. Математически методи за оценка на стойността на имущество. Москва, 2014 г

2. Данни от системата estimatica.pro

И др.. Всички те са оценки на техните теоретични двойници, които биха могли да бъдат получени, ако имаше не извадка, а генералната съвкупност. Но уви, общото население е много скъпо и често недостъпно.

Концепцията за интервална оценка

Всяка примерна оценка има известно разсейване, защото е случайна променлива в зависимост от стойностите в конкретна проба. Следователно, за по-надеждни статистически заключения, трябва да се знае не само точкова оценка, но и интервал, който с голяма вероятност γ (гама) обхваща прогнозния показател θ (тета).

Формално това са две такива стойности (статистика) T1(X)и T2(X), Какво T1< T 2 , за които при дадено ниво на вероятност γ условието е изпълнено:

Накратко, вероятно е γ или повече истинската стойност е между точките T1(X)и T2(X), които се наричат ​​долна и горна граница доверителен интервал.

Едно от условията за конструиране на доверителни интервали е неговата максимална стеснимост, т.е. трябва да е възможно най-кратък. Желанието е съвсем естествено, т.к. изследователят се опитва да локализира по-точно находката на желания параметър.

От това следва, че доверителният интервал трябва да покрива максималните вероятности на разпределението. и самата партитура да е в центъра.

Тоест вероятността за отклонение (на истинския показател от оценката) нагоре е равна на вероятността за отклонение надолу. Трябва също да се отбележи, че за изкривените разпределения интервалът отдясно не е равен на интервала отляво.

Фигурата по-горе ясно показва, че колкото по-високо е нивото на доверие, толкова по-широк е интервалът - пряка връзка.

Това беше малко въведение в теорията за интервално оценяване на неизвестни параметри. Нека да преминем към намирането на доверителни граници за математическото очакване.

Доверителен интервал за математическо очакване

Ако оригиналните данни са разпределени върху , тогава средната стойност ще бъде нормална стойност. Това следва от правилото, че линейна комбинация от нормални стойности също има нормално разпределение. Следователно, за да изчислим вероятностите, бихме могли да използваме математическия апарат на нормалния закон за разпределение.

Това обаче ще изисква познаването на два параметъра - очакваната стойност и дисперсията, които обикновено не са известни. Можете, разбира се, да използвате оценки вместо параметри (средно аритметично и ), но тогава разпределението на средната стойност няма да е съвсем нормално, то ще бъде леко изравнено. Гражданинът Уилям Госет от Ирландия умело отбеляза този факт, когато публикува откритието си в броя на Biometrica от март 1908 г. За целите на секретността Госет подписа със Студент. Така се появи t-разпределението на Стюдънт.

Но нормалното разпределение на данните, използвано от К. Гаус при анализа на грешките в астрономическите наблюдения, е изключително рядко в земния живот и е доста трудно да се установи това (за висока точност са необходими около 2 хиляди наблюдения). Следователно най-добре е да се откажете от предположението за нормалност и да използвате методи, които не зависят от разпределението на оригиналните данни.

Възниква въпросът: какво е разпределението на средноаритметичното, ако се изчислява от данните на неизвестно разпределение? Отговорът дава добре познатата в теорията на вероятностите Централна гранична теорема(CPT). В математиката има няколко негови версии (формулировките са усъвършенствани през годините), но всички те, грубо казано, се свеждат до твърдението, че сумата от голям брой независими случайни променливи се подчинява на нормален законразпространение.

При изчисляване на средноаритметичното се използва сумата от случайни променливи. От това се оказва, че средноаритметичното има нормално разпределение, при което очакваната стойност е очакваната стойност на изходните данни, а дисперсията е .

Умни хоразнаем как да докажем CLT, но ние ще проверим това с помощта на експеримент, проведен в Excel. Нека симулираме извадка от 50 равномерно разпределени случайни променливи (използвайки Функции на ExcelСЛУЧАЙНО МЕЖДУ). След това ще направим 1000 такива проби и ще изчислим средноаритметичната стойност за всяка. Нека разгледаме тяхното разпространение.

Вижда се, че разпределението на средната е близко до нормалния закон. Ако обемът на пробите и техният брой се увеличат още повече, тогава сходството ще бъде още по-добро.

Сега, след като се убедихме сами във валидността на CLT, можем, използвайки , да изчислим доверителните интервали за средната аритметична стойност, които покриват истинската средна стойност или математическото очакване с дадена вероятност.

За да зададете горната и долната граница, трябва да знаете параметрите нормална дистрибуция. По правило те не са, следователно се използват оценки: средноаритметичнои дисперсия на извадката. Отново този метод дава добро приближение само за големи проби. Когато извадките са малки, често се препоръчва да се използва разпределението на Student. Не вярвайте! Разпределението на Стюдънт за средната стойност възниква само когато оригиналните данни имат нормално разпределение, тоест почти никога. Ето защо е по-добре незабавно да зададете минималната лента за количеството необходими данни и да използвате асимптотично правилни методи. Казват, че 30 наблюдения са достатъчни. Вземете 50 - няма да сбъркате.

T 1.2са долната и горната граница на доверителния интервал

– средноаритметично извадково

s0– извадково стандартно отклонение (безпристрастно)

н – размер на извадката

γ – ниво на достоверност (обикновено равно на 0,9, 0,95 или 0,99)

c γ =Φ -1 ((1+γ)/2)е реципрочната на стандартната функция на нормалното разпределение. С прости думи, това е броят на стандартните грешки от средната аритметична стойност до долната или горната граница (посочените три вероятности съответстват на стойностите от 1,64, 1,96 и 2,58).

Същността на формулата е, че се взема средноаритметичното и след това от него се отделя определена сума ( с γ) стандартни грешки ( s 0 /√n). Всичко се знае, вземете и пребройте.

Преди масовото използване на компютри, за получаване на стойностите на функцията на нормалното разпределение и нейната обратна функция, те използваха . Те все още се използват, но е по-ефективно да се обърнете към готовите Формули на Excel. Всички елементи от горната формула ( , и ) могат лесно да бъдат изчислени в Excel. Но има и готова формула за изчисляване на доверителния интервал - НОРМА ЗА ДОВЕРИЕ. Синтаксисът му е следният.

CONFIDENCE NORM(alpha, standard_dev, size)

алфа– ниво на значимост или ниво на достоверност, което в горната нотация е равно на 1-γ, т.е. вероятността математическитеочакването ще бъде извън доверителния интервал. При ниво на увереност 0,95, алфа е 0,05 и т.н.

standard_offе стандартното отклонение на данните от извадката. Не е необходимо да изчислявате стандартната грешка, Excel ще раздели на корен от n.

размерът– размер на извадката (n).

Резултатът от функцията CONFIDENCE.NORM е вторият член от формулата за изчисляване на доверителния интервал, т.е. полуинтервал. Съответно долната и горната точка са средната ± получената стойност.

По този начин е възможно да се изгради универсален алгоритъм за изчисляване на доверителните интервали за средноаритметичното, което не зависи от разпределението на изходните данни. Цената за универсалността е нейната асимптотична природа, т.е. необходимостта от използване на относително големи проби. Въпреки това през века модерни технологиисъбирането на точното количество данни обикновено не е трудно.

Тестване на статистически хипотези с помощта на доверителен интервал

(модул 111)

Един от основните проблеми, решавани в статистиката, е. Накратко същността му е следната. Прави се например предположение, че очакванията на общата съвкупност са равни на някаква стойност. След това се конструира разпределението на извадковите средни, които могат да се наблюдават с дадено очакване. След това разглеждаме къде в това условно разпределение се намира реалната средна стойност. Ако надхвърли допустимите граници, тогава появата на такава средна е много малко вероятна, а при еднократно повторение на експеримента е почти невъзможна, което противоречи на изложената хипотеза, която е успешно отхвърлена. Ако средното не надхвърли критичното ниво, тогава хипотезата не се отхвърля (но и не се доказва!).

И така, с помощта на доверителни интервали, в нашия случай за очакванията, можете също да тествате някои хипотези. Много лесно се прави. Да предположим, че средноаритметичната стойност за някаква извадка е 100. Тества се хипотезата, че очакването е, да речем, 90. Тоест, ако поставим въпроса примитивно, той звучи така: може ли да е така, с истинската стойност на средно равно на 90, наблюдаваната средна стойност е 100?

За да се отговори на този въпрос, ще е необходима допълнителна информация за стандартното отклонение и размера на извадката. Да кажем, че стандартното отклонение е 30, а броят на наблюденията е 64 (за лесно извличане на корена). Тогава стандартната грешка на средната стойност е 30/8 или 3,75. За да изчислите 95% доверителен интервал, ще трябва да отделите две стандартни грешки от двете страни на средната стойност (по-точно 1,96). Доверителният интервал ще бъде приблизително 100 ± 7,5 или от 92,5 до 107,5.

По-нататъшното разсъждение е следното. Ако тестваната стойност попада в доверителния интервал, това не противоречи на хипотезата, тъй като се вписва в границите на случайни флуктуации (с вероятност от 95%). Ако тестваната точка е извън доверителния интервал, тогава вероятността за такова събитие е много малка, във всеки случай под приемливото ниво. Следователно хипотезата се отхвърля като противоречаща на наблюдаваните данни. В нашия случай хипотезата за очакване е извън доверителния интервал (тестваната стойност от 90 не е включена в интервала от 100±7,5), така че трябва да бъде отхвърлена. Отговаряйки на примитивния въпрос по-горе, човек трябва да каже: не, не може, във всеки случай това се случва изключително рядко. Често това показва конкретна вероятност за погрешно отхвърляне на хипотезата (p-ниво), а не дадено ниво, според което е изграден доверителният интервал, но повече за това друг път.

Както можете да видите, не е трудно да се изгради доверителен интервал за средната стойност (или математическото очакване). Основното нещо е да хванете същността и тогава нещата ще тръгнат. На практика повечето използват 95% доверителен интервал, който е с ширина около две стандартни грешки от двете страни на средната стойност.

Това е всичко за сега. Всичко най-хубаво!

Нека се направи извадка от обща съвкупност, подчинена на закона нормалноразпространение хN( м; ). Това основно допускане на математическата статистика се основава на централната гранична теорема. Нека общото стандартно отклонение е известно , но математическото очакване на теоретичното разпределение е неизвестно м(означава ).

В този случай средната стойност на извадката , получена по време на експеримента (раздел 3.4.2), също ще бъде случайна променлива м;
). След това "нормализираното" отклонение
N(0;1) е стандартна нормална случайна променлива.

Проблемът е да се намери интервална оценка за м. Нека конструираме двустранен доверителен интервал за м така че истинското математическо очакване да му принадлежи с дадена вероятност (надеждност) .

Задайте такъв интервал за стойността
означава да се намери максималната стойност на това количество
и минимум
, които са границите на критичната област:
.

защото тази вероятност е
, тогава коренът на това уравнение
може да се намери с помощта на таблиците на функцията на Лаплас (Таблица 3, Приложение 1).

Тогава с вероятност може да се твърди, че случайната величина
, тоест желаната обща средна принадлежи на интервала
. (3.13)

стойността
(3.14)

Наречен точностоценки.

Номер
квантилнормално разпределение - може да се намери като аргумент на функцията на Лаплас (Таблица 3, Приложение 1), като се има предвид отношението 2Ф( u)=, т.е. F( u)=
.

Обратно, според зададената стойност на отклонението възможно е да се намери с каква вероятност неизвестната обща средна принадлежи на интервала
. За да направите това, трябва да изчислите

. (3.15)

Нека бъде взета произволна извадка от генералната съвкупност по метода на повторната селекция. От уравнението
може да се намери минимумобем на повторно вземане на проби ннеобходими, за да се гарантира, че доверителният интервал с дадена надеждност не надвишава предварително зададената стойност . Необходимият размер на извадката се изчислява по формулата:

. (3.16)

Изследване точност на оценката
:

1) С увеличаване на размера на извадката нвеличина намалява, а оттам и точността на оценката се увеличава.

2) В нарастванадеждност на оценките стойността на аргумента се увеличава u(защото Е(u) нараства монотонно) и следователно се увеличава . В този случай увеличаването на надеждността намаляваточността на неговата оценка .

Оценка
(3.17)

Наречен класически(където Tе параметър, който зависи от и н), защото той характеризира най-често срещаните закони на разпределение.

3.5.3 Доверителни интервали за оценка на очакването на нормално разпределение с неизвестно стандартно отклонение 

Нека се знае, че генералната съвкупност е подчинена на закона за нормалното разпределение хN( м;), където стойността корен квадратенотклонения неизвестен.

За да се изгради доверителен интервал за оценка на общата средна стойност, в този случай се използва статистика
, който има разпределение на Student с к= н–1 степен на свобода. Това следва от факта, че N(0;1) (виж т. 3.5.2), и
(вижте точка 3.5.3) и от дефиницията на разпределението на Стюдънт (част 1. точка 2.11.2).

Нека намерим точността на класическата оценка на разпределението на Стюдънт: т.е. намирам Tот формула (3.17). Нека вероятността за изпълнение на неравенството
дадено от надеждност :

. (3.18)

Тъй като TSt( н-1), очевидно е, че Tзависи от и н, така че обикновено пишем
.

(3.19)

където
е функцията на разпределение на Student с н-1 степен на свобода.

Решаване на това уравнение за м, получаваме интервала
който с надеждност  покрива неизвестния параметър м.

Стойност T , н-1 , използван за определяне на доверителния интервал случайна величина T(н-1), разпространен от Студент с н-1 степен на свобода се нарича Студентски коефициент. Трябва да се намери по дадени стойности ни  от таблиците " Критични точкиСтудентски разпределения. (Таблица 6, Приложение 1), които са решенията на уравнение (3.19).

В резултат на това получаваме следния израз точност доверителен интервал за оценка на математическото очакване (общо средно), ако дисперсията е неизвестна:

(3.20)

По този начин има обща формула за конструиране на доверителни интервали за математическото очакване на общата съвкупност:

където е точността на доверителния интервал в зависимост от известната или неизвестната дисперсия се намира по формулите съответно 3.16. и 3.20.

Задача 10.Бяха проведени някои тестове, резултатите от които са посочени в таблицата:

х аз

Известно е, че те се подчиняват на нормалния закон за разпределение с
. Намерете оценка м* за математическо очакване м, изградете 90% доверителен интервал за него.

Решение:

Така, м(2.53;5.47).

Задача 11.Дълбочината на морето се измерва с инструмент, чиято системна грешка е 0, а случайните грешки се разпределят по нормалния закон със стандартно отклонение =15м. Колко независими измервания трябва да се направят, за да се определи дълбочината с грешки не повече от 5 m с ниво на сигурност 90%?

Решение:

Според условието на проблема имаме хN( м; ), където =15 м, =5m, =0,9. Нека намерим обема н.

1) При дадена надеждност = 0,9 намираме от таблици 3 (Приложение 1) аргумента на функцията на Лаплас u = 1.65.

2) Познаване на дадената точност на оценката =u=5, намери
. Ние имаме

. Следователно броят на опитите н25.

Задача 12.Температурно вземане на проби Tза първите 6 дни на януари е представен в таблицата:

Намерете интервал на доверие за очакване мобща популация с доверителна вероятност
и оценете общото стандартно отклонение с.

Решение:


и
.

2) Безпристрастна оценка намерете по формула
:

=-175

=234.84

;
;

=-192

=116


.

3) Тъй като общата дисперсия е неизвестна, но нейната оценка е известна, тогава да се оцени математическото очакване мизползваме разпределение на Стюдънт (Таблица 6, Приложение 1) и формула (3.20).

защото н 1 =н 2 =6, тогава,
, с 1 =6,85 имаме:
, следователно -29.2-4.1<м 1 < -29.2+4.1.

Следователно -33,3<м 1 <-25.1.

По същия начин имаме
, с 2 = 4,8, така че

–34.9< м 2 < -29.1. Тогда доверительные интервалы примут вид: м 1 (-33,3;-25,1) и м 2 (-34.9;-29.1).

В приложните науки, например в строителните дисциплини, за оценка на точността на обектите се използват таблици с доверителни интервали, които са дадени в съответната справочна литература.

Споделете с приятели или запазете за себе си:

Зареждане...