Доверителен интервал в статистиката. Доверителен интервал

Доверителен интервалса граничните стойности на статистическата величина, която с дадена доверителна вероятност γ ще бъде в този интервал с по-голям размер на извадката. Означава се като P(θ - ε . На практика вероятността за доверие γ се избира от стойностите γ = 0.9 , γ = 0.95 , γ = 0.99, достатъчно близки до единица.

Сервизно задание. Тази услуга определя:

  • доверителен интервал за общата средна стойност, доверителен интервал за дисперсията;
  • доверителен интервал за стандартното отклонение, доверителен интервал за общата фракция;
Полученото решение се записва във файл на Word (вижте примера). По-долу има видео инструкция за попълване на първоначалните данни.

Пример #1. В колективна ферма от общо стадо от 1000 овце 100 овце са подложени на селективно контролно стригане. В резултат на това е установен среден настриг на вълна от 4,2 кг на овца. Определете с вероятност от 0,99 стандартната грешка на пробата при определяне на средното срязване на вълна на овца и границите, в които се намира стойността на срязване, ако дисперсията е 2,5. Пробата не се повтаря.
Пример #2. От партидата внесени продукти на поста на Московската северна митница е взета в произволен ред повторно вземане на проби 20 проби от продукт "А". В резултат на проверката е установено средно съдържание на влага на продукт "А" в пробата, което се оказва 6% със стандартно отклонение от 1%.
Определете с вероятност от 0,683 границите на средното съдържание на влага в продукта в цялата партида внесени продукти.
Пример #3. Анкета сред 36 ученици показа, че средният брой учебници, в които четат академична година, се оказа равно на 6. Ако приемем, че броят учебници, прочетени от един ученик за семестър, е нормален законразпределение със стандартно отклонение, равно на 6, намерете: A) с надеждност 0,99, интервална оценка за математическо очакванетази случайна променлива; Б) с каква вероятност може да се твърди, че средният брой учебници, прочетени от студент за семестър, изчислен за тази извадка, се отклонява от математическото очакване по абсолютна стойност с не повече от 2.

Класификация на доверителните интервали

По вида на параметъра, който се оценява:

По тип проба:

  1. Доверителен интервал за безкрайно вземане на проби;
  2. Доверителен интервал за крайната проба;
Вземането на проби се нарича повторно вземане на проби, ако избраният обект се върне към общата популация, преди да се избере следващият. Пробата се нарича неповтаряща се.ако избраният обект не бъде върнат в общата съвкупност. На практика обикновено се работи с неповтарящи се проби.

Изчисляване на средната извадкова грешка за случаен подбор

Несъответствието между стойностите на показателите, получени от извадката, и съответните параметри населениеНаречен грешка в представителността.
Обозначения на основните параметри на генералната и извадковата съвкупност.
Примерни формули за средна грешка
преизбираненеповтаряща се селекция
за средатаза споделянеза средатаза споделяне
Съотношението между границата на извадкова грешка (Δ), гарантирана с известна вероятност P(t),и средната грешка на извадката има формата: или Δ = t μ, където T– коефициент на доверителност, определен в зависимост от степента на вероятност P(t) съгласно таблицата на интегралната функция на Лаплас.

Формули за изчисляване на размера на извадката с подходящ метод на случаен подбор

Доверителни интервали.

изчисление доверителен интервалсе базира на средната грешка на съответния параметър. Доверителен интервал показва в какви граници с вероятност (1-а) е истинската стойност на оценявания параметър. Тук a е нивото на значимост, (1-a) се нарича още ниво на доверие.

В първата глава показахме, че например за средноаритметичната стойност истинската средна стойност на съвкупността се намира в рамките на 2 средни грешки на средната стойност около 95% от времето. По този начин границите на 95% доверителен интервал за средната стойност ще бъдат два пъти по-далеч от средната стойност на извадката. средна грешкасредно, т.е. ние умножаваме средната грешка на средната стойност по някакъв фактор, който зависи от нивото на достоверност. За средната и разликата на средните стойности се приема коефициентът на Стюдънт (критичната стойност на критерия на Стюдънт), за дела и разликата на дяловете - критичната стойност на критерия z. Продуктът на коефициента и средната грешка може да се нарече пределна грешказададен параметър, т.е. максимумът, който можем да получим, когато го оценяваме.

Доверителен интервал за средноаритметично : .

Ето примерната средна стойност;

Средна грешка на средноаритметичната стойност;

с-извадково стандартно отклонение;

н

f = n-1 (Коефициент на ученика).

Доверителен интервал за разлика на средните аритметични стойности :

Тук е разликата между извадковите средни стойности;

- средната грешка на разликата на средните аритметични;

s 1, s 2 -извадкови стандартни отклонения;

n1,n2

Критична стойност на критерия на Стюдънт за дадено ниво на значимост а и брой степени на свобода f=n1 +n2-2 (Коефициент на ученика).

Доверителен интервал за акции :

.

Тук d е извадковият дял;

– грешка на средния дял;

н– размер на извадката (размер на групата);

Доверителен интервал за споделят различия :

Ето разликата между примерните дялове;

е средната грешка на разликата между средните аритметични стойности;

n1,n2– размери на извадката (брой групи);

Критичната стойност на критерия z при дадено ниво на значимост a ( , , ).

Изчислявайки доверителните интервали за разликата в показателите, ние, първо, директно виждаме възможните стойности на ефекта, а не само неговата точкова оценка. Второ, можем да направим заключение относно приемането или опровергаването на нулевата хипотеза и, трето, можем да направим заключение относно силата на критерия.

Когато тествате хипотези с помощта на доверителни интервали, трябва да се придържате към следващото правило:

Ако 100(1-a)-процентният доверителен интервал на средната разлика не съдържа нула, тогава разликите са статистически значими на ниво на значимост a; напротив, ако този интервал съдържа нула, тогава разликите не са статистически значими.

Всъщност, ако този интервал съдържа нула, това означава, че сравняваният показател може да бъде повече или по-малко в една от групите в сравнение с другата, т.е. наблюдаваните разлики са случайни.

По мястото, където се намира нулата в рамките на доверителния интервал, може да се прецени силата на критерия. Ако нулата е близо до долната или горната граница на интервала, тогава е възможно кога по-големи числасравнявани групи, разликите биха достигнали статистическа значимост. Ако нулата е близо до средата на интервала, това означава, че както увеличението, така и намаляването на показателя в експерименталната група са еднакво вероятни и вероятно наистина няма разлики.

Примери:

За да сравните оперативната смъртност при използване на два различни вида анестезия: 61 души са били оперирани с първия вид анестезия, 8 са починали, с помощта на втория - 67 души, 10 са починали.

d 1 \u003d 8/61 \u003d 0,131; d 2 \u003d 10/67 \u003d 0,149; d1-d2 = - 0,018.

Разликата в леталността на сравняваните методи ще бъде в диапазона (-0,018 - 0,122; -0,018 + 0,122) или (-0,14; 0,104) с вероятност 100(1-a) = 95%. Интервалът съдържа нула, т.е. хипотеза за една и съща смъртност при две различни видовеанестезията не може да се отрече.

По този начин смъртността може и ще намалее до 14% и ще се увеличи до 10,4% с вероятност от 95%, т.е. нула е приблизително в средата на интервала, така че може да се твърди, че най-вероятно тези два метода наистина не се различават по смъртност.

В примера, разгледан по-рано, средното време за докосване беше сравнено в четири групи студенти, които се различаваха по своите резултати от изпитите. Нека изчислим доверителните интервали на средното време за пресоване за студенти, които са издържали изпита за 2 и 5 и доверителния интервал за разликата между тези средни стойности.

Коефициентите на Стюдънт се намират от таблиците на разпределението на Стюдънт (виж Приложението): за първа група: = t(0,05;48) = 2,011; за втората група: = t(0,05;61) = 2,000. Така доверителните интервали за първата група: = (162,19-2,011 * 2,18; 162,19 + 2,011 * 2,18) = (157,8; 166,6) , за втората група (156,55- 2,000*1,88; 156,55+2,000*1,88) = (152,8 ; 160.3). И така, за тези, които са издържали изпита за 2, средното време за натискане варира от 157,8 ms до 166,6 ms с вероятност от 95%, за тези, които са издържали изпита за 5 - от 152,8 ms до 160,3 ms с вероятност от 95% .

Можете също така да тествате нулевата хипотеза, като използвате доверителни интервали за средните стойности, а не само за разликата в средните стойности. Например, както в нашия случай, ако доверителните интервали за средните се припокриват, тогава нулевата хипотеза не може да бъде отхвърлена. За да се отхвърли хипотеза при избрано ниво на значимост, съответните доверителни интервали не трябва да се припокриват.

Да намерим доверителния интервал за разликата в средното време за натискане в групите, издържали изпита за 2 и 5. Разликата в средните: 162.19 - 156.55 = 5.64. Коефициент на студент: \u003d t (0,05; 49 + 62-2) \u003d t (0,05; 109) \u003d 1,982. Груповите стандартни отклонения ще бъдат равни на: ; . Изчисляваме средната грешка на разликата между средните: . Доверителен интервал: \u003d (5,64-1,982 * 2,87; 5,64 + 1,982 * 2,87) \u003d (-0,044; 11,33).

Така че разликата в средното време на пресоване в групите, издържали изпита на 2 и на 5, ще бъде в диапазона от -0,044 ms до 11,33 ms. Този интервал включва нула, т.е. средното време за пресоване за тези, които са издържали изпита с отличен резултат, може както да се увеличи, така и да се намали в сравнение с тези, които са издържали изпита незадоволително, т.е. нулевата хипотеза не може да бъде отхвърлена. Но нулата е много близо до долната граница, времето за натискане е много по-вероятно да намалее за отличните подаващи. По този начин можем да заключим, че все още има разлики в средното време на щракване между тези, които са преминали с 2 и с 5, просто не можахме да ги открием за дадена промяна в средното време, разпространението на средното време и размерите на извадката.



Силата на теста е вероятността за отхвърляне на неправилна нулева хипотеза, т.е. намерете разликите там, където наистина са.

Силата на теста се определя въз основа на нивото на значимост, големината на разликите между групите, разпространението на стойностите в групите и размера на извадката.

За t-тест на Стюдънт и дисперсионен анализможете да използвате диаграми за чувствителност.

Силата на критерия може да се използва при предварителното определяне на необходимия брой групи.

Доверителният интервал показва до каква степен дадена вероятностсе намира истинската стойност на оценения параметър.

С помощта на доверителни интервали можете да тествате статистически хипотези и да правите заключения относно чувствителността на критериите.

ЛИТЕРАТУРА.

Гланц С. - Глава 6.7.

Реброва О.Ю. - с.112-114, с.171-173, с.234-238.

Сидоренко Е. В. - стр. 32-33.

Въпроси за самопроверка на учениците.

1. Каква е силата на критерия?

2. В какви случаи е необходимо да се оцени силата на критериите?

3. Методи за изчисляване на мощността.

6. Как да проверите статистическа хипотезаизползвайки доверителен интервал?

7. Какво може да се каже за силата на критерия при изчисляване на доверителния интервал?

Задачи.

В предишните подраздели разгледахме въпроса за оценката на неизвестния параметър аедно число. Такава оценка се нарича "точкова". В редица задачи се изисква не само намиране на параметъра аподходяща числена стойност, но също така да оцени нейната точност и надеждност. Необходимо е да се знае до какви грешки може да доведе подмяната на параметъра анеговата точкова оценка аи с каква степен на увереност можем да очакваме, че тези грешки няма да надхвърлят познатите граници?

Проблеми от този вид са особено важни за малък брой наблюдения, когато точковата оценка и ве до голяма степен случаен и приблизителната замяна на a с a може да доведе до сериозни грешки.

Да се ​​даде представа за точността и надеждността на оценката а,

в математическа статистикаизползвайте така наречените доверителни интервали и доверителни вероятности.

Нека за параметъра аполучена от безпристрастна оценка от опита а.Искаме да оценим възможната грешка в този случай. Нека зададем някаква достатъчно голяма вероятност p (например p = 0,9, 0,95 или 0,99), така че събитие с вероятност p да може да се счита за практически сигурно, и да намерим стойност на s, за която

След това диапазонът от практически възможни стойности на грешката, която възниква при подмяна ана а, ще бъде ± s; големи абсолютни грешки ще се появят само с малка вероятност a = 1 - p. Нека пренапишем (14.3.1) като:

Равенството (14.3.2) означава, че с вероятност p неизвестната стойност на параметъра апопада в интервала

В случая трябва да се отбележи едно обстоятелство. Преди многократно разглеждахме вероятността случайна променлива да попадне в даден неслучаен интервал. Тук ситуацията е различна: ане случаен, а случаен интервал / r. Произволно неговата позиция по оста x, определена от нейния център а; като цяло дължината на интервала 2s също е случайна, тъй като стойността на s се изчислява, като правило, от експериментални данни. Следователно в този случай би било по-добре да се интерпретира стойността на p, а не като вероятността за „улучване“ на точката ав интервала / p, но като вероятността произволен интервал / p да покрие точката а(фиг. 14.3.1).

Ориз. 14.3.1

Вероятността p се нарича ниво на уверености интервалът / p - доверителен интервал.Интервални граници ако. a x \u003d a-пясък а 2 = а +и се наричат граници на доверие.

Нека да дадем още една интерпретация на концепцията за доверителен интервал: той може да се разглежда като интервал от стойности на параметри а,съвместими с експерименталните данни и не им противоречат. Всъщност, ако се съгласим да считаме събитие с вероятност a = 1-p практически невъзможно, тогава тези стойности на параметъра a, за които а - а> s трябва да бъдат разпознати като противоречащи на експерименталните данни и тези, за които |a - а a t na 2 .

Нека за параметъра аима безпристрастна оценка а.Ако знаехме закона за разпределение на количеството а, проблемът с намирането на доверителния интервал би бил доста прост: достатъчно е да се намери стойност на s, за която

Трудността се състои в това, че законът за разпределение на оценката азависи от закона за разпределение на количеството хи, следователно, върху неговите неизвестни параметри (по-специално, върху самия параметър а).

За да се преодолее тази трудност, може да се приложи следният грубо приблизителен трик: заменете неизвестните параметри в израза за s с техните точкови оценки. Със сравнително големи числаексперименти П(около 20 ... 30) тази техника обикновено дава задоволителни резултати по отношение на точността.

Като пример, разгледайте проблема с доверителния интервал за математическото очакване.

Нека произведени П х,чиито характеристики са математическото очакване Tи дисперсия д- неизвестен. За тези параметри бяха получени следните оценки:

Необходимо е да се изгради доверителен интервал / р, съответстващ на доверителната вероятност р, за математическото очакване Tколичества х.

При решаването на този проблем използваме факта, че количеството Tе сумата Пнезависими еднакво разпределени случайни променливи X чи според централната гранична теорема за достатъчно големи Пнеговият закон на разпределение е близък до нормалния. На практика, дори при сравнително малък брой термини (от порядъка на 10 ... 20), законът за разпределение на сумата може приблизително да се счита за нормален. Ще приемем, че стойността Tразпределени по нормалния закон. Характеристиките на този закон - съответно математическото очакване и дисперсията са равни Tи

(вижте глава 13, подраздел 13.3). Да приемем, че стойността дни е известна и ще намерим такава стойност Ep, за която

Прилагайки формула (6.3.5) от глава 6, ние изразяваме вероятността от лявата страна на (14.3.5) по отношение на функцията на нормалното разпределение

където е стандартното отклонение на оценката T.

От уравнението

намерете стойността на Sp:

където arg Ф* (x) е обратната функция на Ф* (Х),тези. такава стойност на аргумента, за която функцията на нормалното разпределение е равна на Х.

дисперсия Д,чрез които се изразява стойността а 1P, не знаем точно; като негова приблизителна стойност можете да използвате оценката д(14.3.4) и поставете приблизително:

По този начин проблемът за конструиране на доверителен интервал е приблизително решен, който е равен на:

където gp се определя от формула (14.3.7).

За да се избегне обратната интерполация в таблиците на функцията Ф * (l) при изчисляване на s p, е удобно да се състави специална таблица (Таблица 14.3.1), в която са изброени стойностите на количеството

в зависимост от r. Стойността (p определя за нормалния закон броя на средните стойности стандартни отклонения, които трябва да бъдат отделени отдясно и отляво на центъра на дисперсията, така че вероятността за попадение в получената област да е равна на p.

Чрез стойността на 7 p доверителният интервал се изразява като:

Таблица 14.3.1

Пример 1. Проведени са 20 експеримента за стойността х;резултатите са показани в табл. 14.3.2.

Таблица 14.3.2

Изисква се да се намери оценка на за математическото очакване на количеството хи конструирайте доверителен интервал, съответстващ на ниво на доверие p = 0,8.

Решение.Ние имаме:

Избирайки за начало n: = 10, съгласно третата формула (14.2.14) намираме безпристрастната оценка д :

Според таблицата 14.3.1 намираме

Граници на доверието:

Доверителен интервал:

Стойности на параметрите T,лежащи в този интервал са съвместими с експерименталните данни, дадени в табл. 14.3.2.

По подобен начин може да се конструира доверителен интервал за дисперсията.

Нека произведени Пнезависими експерименти върху случайна променлива хс неизвестни параметри от и A, и за дисперсията дполучава се безпристрастната оценка:

Изисква се приблизително да се изгради доверителен интервал за дисперсията.

От формула (14.3.11) се вижда, че стойността дпредставлява

количество Пслучайни променливи от формата . Тези стойности не са

независими, тъй като всеки от тях включва количеството T,зависим от всички останали. Въпреки това може да се покаже, че като Пзаконът за разпределение на тяхната сума също е близък до нормалния. Почти при П= 20...30 вече може да се счита за нормално.

Нека приемем, че това е така, и да намерим характеристиките на този закон: математическото очакване и дисперсията. От резултата д- безпристрастен, значи M[D] = D.

Изчисляване на дисперсията Д Де свързано с относително сложни изчисления, така че даваме израза му без извод:

където c 4 - четвъртият централен момент на количеството х.

За да използвате този израз, трябва да замените в него стойностите на 4 и д(поне приблизително). Вместо дможете да използвате оценката Д.По принцип четвъртият централен момент може да бъде заменен и с неговата оценка, например със стойност от формата:

но такава замяна ще даде изключително ниска точност, тъй като като цяло, с ограничен брой експерименти, моментите висок редопределени с големи грешки. На практика обаче често се случва формата на закона за разпределение на количеството хизвестен предварително: неизвестни са само неговите параметри. Тогава можем да опитаме да изразим u4 по отношение на Д.

Нека вземем най-честия случай, когато стойността хразпределени по нормалния закон. След това неговият четвърти централен момент се изразява по отношение на дисперсията (вижте глава 6, подраздел 6.2);

и формула (14.3.12) дава или

Заместване в (14.3.14) на неизвестното днеговата оценка д, получаваме: откъде

Моментът u 4 може да бъде изразен чрез дсъщо и в някои други случаи, когато разпределението на колич хне е нормално, но външният му вид е известен. Например, за закона за еднаква плътност (вижте Глава 5) имаме:

където (a, P) е интервалът, на който е даден законът.

Следователно,

По формулата (14.3.12) получаваме: от където намираме приблизително

В случаите, когато формата на закона за разпределение на стойността 26 е неизвестна, при оценяване на стойността на a /) все пак се препоръчва да се използва формулата (14.3.16), ако няма специални основания да се смята, че този закон е много различен от нормалния (има забележим положителен или отрицателен ексцес) .

Ако приблизителната стойност на a /) се получи по един или друг начин, тогава е възможно да се конструира доверителен интервал за дисперсията по същия начин, както го изградихме за математическото очакване:

където стойността в зависимост от дадената вероятност p се намира в табл. 14.3.1.

Пример 2. Намерете приблизително 80% доверителен интервал за дисперсията на случайна променлива хпри условията на пример 1, ако е известно, че стойността хразпределени по закон, близък до нормалния.

Решение.Стойността остава същата като в табл. 14.3.1:

Съгласно формулата (14.3.16)

Съгласно формулата (14.3.18) намираме доверителния интервал:

Съответният диапазон от стойности на стандартното отклонение: (0,21; 0,29).

14.4. Точни методи за конструиране на доверителни интервали за параметрите на случайна променлива, разпределени по нормалния закон

В предишния подраздел разгледахме грубо приблизителни методи за конструиране на доверителни интервали за средната стойност и дисперсията. Тук даваме представа за точните методи за решаване на същия проблем. Подчертаваме, че за точното намиране на доверителните интервали е абсолютно необходимо да се знае предварително формата на закона за разпределение на количеството х,като има предвид, че това не е необходимо за прилагането на приблизителни методи.

Идеята за точните методи за конструиране на доверителни интервали е следната. Всеки доверителен интервал се намира от условието, изразяващо вероятността за изпълнение на някои неравенства, които включват оценката, която ни интересува а.Закон за разпределение на оценките ав общ случайзависи от параметрите на неизвестното количество х.Понякога обаче е възможно да се предадат неравенства от случайна променлива акъм някаква друга функция на наблюдаваните стойности X p X 2, ..., X стр.чийто закон на разпределение не зависи от неизвестни параметри, а зависи само от броя на експериментите и от формата на закона за разпределение на количеството х.Случайни променливи от този вид играят голяма роля в математическата статистика; най-подробно са изследвани за случай на нормално разпределение на величината х.

Например доказано е, че при нормално разпределение на количеството хпроизволна стойност

предмет на т.нар Закон за разпределение на студентас П- 1 степен на свобода; плътността на този закон има формата

където G(x) е известната гама функция:

Доказано е също, че случайната величина

има "разпределение % 2 " с П- 1 степени на свобода (виж глава 7), чиято плътност се изразява с формулата

Без да се спираме на изводите на разпределения (14.4.2) и (14.4.4), ще покажем как те могат да бъдат приложени при конструиране на доверителни интервали за параметрите Тай Д.

Нека произведени Пнезависими експерименти върху случайна променлива х,разпределени по нормалния закон с неизвестни параметри TIO.За тези параметри, оценки

Необходимо е да се конструират доверителни интервали и за двата параметъра, съответстващи на доверителната вероятност p.

Нека първо изградим доверителен интервал за математическото очакване. Естествено е този интервал да се приеме симетричен по отношение на T; означаваме с s p половината от дължината на интервала. Стойността на sp трябва да бъде избрана така, че условието

Нека се опитаме да преминем от лявата страна на равенството (14.4.5) от случайна променлива Tкъм случайна променлива T,разпределени по Закона на студента. За да направим това, умножаваме двете части на неравенството |m-w?|

до положителна стойност: или, използвайки нотацията (14.4.1),

Нека намерим число / p такова, че стойността / p да може да бъде намерена от условието

От формула (14.4.2) се вижда, че (1) - дори функция, така че (14.4.8) дава

Равенството (14.4.9) определя стойността / p в зависимост от p. Ако имате на разположение таблица с интегрални стойности

тогава стойността / p може да бъде намерена чрез обратна интерполация в таблицата. Въпреки това е по-удобно да съставите таблица със стойности / p предварително. Такава таблица е дадена в Приложението (Таблица 5). Тази таблица показва стойностите в зависимост от доверителната вероятност p и броя на степените на свобода П- 1. Като определи / p според таблицата. 5 и ако приемем

намираме половината от ширината на доверителния интервал / p и самия интервал

Пример 1. Проведени са 5 независими експеримента върху случайна променлива х,нормално разпределени с неизвестни параметри Tи около. Резултатите от експериментите са дадени в табл. 14.4.1.

Таблица 14.4.1

Намерете оценка Tза математическото очакване и конструиране на 90% доверителен интервал / p за него (т.е. интервалът, съответстващ на доверителната вероятност p = 0,9).

Решение.Ние имаме:

Съгласно таблица 5 от заявлението за П - 1 = 4 и p = 0,9 намираме където

Доверителният интервал ще бъде

Пример 2. За условията на пример 1 от подраздел 14.3, приемайки стойността хнормално разпределени, намерете точния доверителен интервал.

Решение.Съгласно таблица 5 от приложението намираме при П - 1 = 19ir =

0,8 / р = 1,328; оттук

Сравнявайки с решението на пример 1 от подраздел 14.3 (e p = 0,072), виждаме, че несъответствието е много малко. Ако запазим точността до втория знак след десетичната запетая, тогава доверителните интервали, намерени чрез точния и приблизителния метод, са еднакви:

Нека да преминем към конструирането на доверителен интервал за дисперсията. Помислете за безпристрастната оценка на дисперсията

и изразете случайната променлива дчрез стойността V(14.4.3) с разпределение x 2 (14.4.4):

Познаване на закона за разпределение на количеството V,възможно е да се намери интервалът / (1 ), в който попада с дадена вероятност p.

разпределителен закон k n _ x (v)стойността на I 7 има формата, показана на фиг. 14.4.1.

Ориз. 14.4.1

Възниква въпросът: как да изберем интервала / p? Ако законът за разпределение на количеството Vбеше симетричен (като нормален закон или разпределение на Стюдънт), би било естествено интервалът /p да се приеме за симетричен по отношение на математическото очакване. В случая законът k n _ x (v)асиметричен. Нека се съгласим да изберем интервала /p, така че вероятностите за извеждане на количеството Vизвън интервала отдясно и отляво (защриховани области на фиг. 14.4.1) бяха еднакви и равни

За да конструираме интервал / p с това свойство, използваме Table. 4 приложения: съдържа числа y)такова, че

за количеството V,с x 2 -разпределение с r степени на свобода. В нашия случай r = n- 1. Поправете r = n- 1 и намерете в съответния ред на таблицата. 4 две стойности х 2 -едното съответства на вероятност, другото - вероятности Нека ги обозначим

стойности на 2и xl?Интервалът има y 2,с лявата си страна и y ~десен край.

Сега намираме необходимия доверителен интервал /| за дисперсията с граници D, и D2,който покрива точката дс вероятност p:

Нека построим такъв интервал / (, = (?> b A), който покрива точката дако и само ако стойността Vпопада в интервала / r. Нека покажем, че интервалът

удовлетворява това условие. Наистина неравенствата са еквивалентни на неравенствата

и тези неравенства се изпълняват с вероятност p. Така се намира доверителният интервал за дисперсията, който се изразява с формулата (14.4.13).

Пример 3. Намерете доверителния интервал за дисперсията при условията на пример 2 от подраздел 14.3, ако е известно, че стойността хразпределени нормално.

Решение.Ние имаме . Съгласно таблица 4 от заявлението

намираме при r = n - 1 = 19

По формулата (14.4.13) намираме доверителния интервал за дисперсията

Съответен интервал за стандартно отклонение: (0,21; 0,32). Този интервал само малко надвишава интервала (0,21; 0,29), получен в пример 2 на подраздел 14.3 по приблизителния метод.

  • Фигура 14.3.1 разглежда доверителен интервал, който е симетричен относно a. Като цяло, както ще видим по-късно, това не е необходимо.

Често оценителят трябва да анализира пазара на недвижими имоти в сегмента, в който се намира обектът на оценка. Ако пазарът е развит, може да бъде трудно да се анализира целия набор от представени обекти, следователно за анализ се използва извадка от обекти. Тази извадка не винаги е хомогенна, понякога се налага нейното изчистване от крайности - твърде високи или твърде ниски пазарни оферти. За целта се прилага доверителен интервал. Цел това учение- извършване на сравнителен анализ на два метода за изчисляване на доверителния интервал и избор на най-добрата опция за изчисление при работа с различни проби в системата estimatica.pro.

Доверителен интервал - изчислен въз основа на извадката, интервалът от стойности на атрибута, който с известна вероятност съдържа оценения параметър на генералната съвкупност.

Смисълът на изчисляването на доверителния интервал е да се изгради такъв интервал въз основа на данните от извадката, така че да може да се твърди с дадена вероятност, че стойността на оценения параметър е в този интервал. С други думи, доверителният интервал с определена вероятност съдържа неизвестната стойност на оцененото количество. Колкото по-широк е интервалът, толкова по-голяма е неточността.

Има различни методи за определяне на доверителния интервал. В тази статия ще разгледаме 2 начина:

  • чрез медианата и стандартното отклонение;
  • чрез критичната стойност на t-статистиката (коефициент на Стюдънт).

Етапи сравнителен анализ различни начиниИзчисление на CI:

1. формира извадка от данни;

2. обработвам го статистически методи: изчисляване на средна стойност, медиана, дисперсия и др.;

3. изчисляваме доверителния интервал по два начина;

4. Анализирайте почистените проби и получените доверителни интервали.

Етап 1. Извадка от данни

Извадката е формирана чрез системата estimatica.pro. Извадката включва 91 оферти за продажба на 1-стайни апартаменти в 3-та ценова зона с тип планиране "Хрушчов".

Таблица 1. Първоначална проба

Цената на 1 кв.м., к.у.

Фиг. 1. Първоначална проба



Етап 2. Обработка на първоначалната проба

Обработката на извадката чрез статистически методи изисква изчисляване на следните стойности:

1. Средно аритметично

2. Медиана - число, което характеризира извадката: точно половината от елементите на извадката са по-големи от медианата, другата половина е по-малка от медианата

(за извадка с нечетен брой стойности)

3. Диапазон - разликата между максималните и минималните стойности в извадката

4. Дисперсия - използва се за по-точна оценка на вариацията в данните

5. Стандартното отклонение за извадката (наричано по-нататък RMS) е най-често срещаният индикатор за дисперсия на коригиращите стойности около средната стойност аритметична стойност.

6. Коефициент на вариация - отразява степента на дисперсия на коригиращите стойности

7. коефициент на колебание - отразява относителното колебание на екстремните стойности на цените в извадката около средната

Таблица 2. Статистически показатели на оригиналната извадка

Коефициентът на вариация, който характеризира хомогенността на данните, е 12,29%, но коефициентът на колебание е твърде голям. По този начин можем да заявим, че оригиналната извадка не е хомогенна, така че нека да преминем към изчисляване на доверителния интервал.

Етап 3. Изчисляване на доверителния интервал

Метод 1. Изчисляване чрез медиана и стандартно отклонение.

Доверителният интервал се определя, както следва: минималната стойност - стандартното отклонение се изважда от медианата; максималната стойност - стандартното отклонение се добавя към медианата.

Така доверителният интервал (47179 CU; 60689 CU)

Ориз. 2. Стойности в рамките на доверителен интервал 1.



Метод 2. Изграждане на доверителен интервал чрез критичната стойност на t-статистиката (коефициент на Стюдънт)

С.В. Грибовски в книгата " Математически методиоценка на стойността на имота” описва как да се изчисли доверителният интервал чрез коефициента на Студент. При изчисляване по този метод самият оценител трябва да зададе нивото на значимост ∝, което определя вероятността, с която ще бъде изграден доверителният интервал. Обикновено се използват нива на значимост от 0,1; 0,05 и 0,01. Кореспондират си вероятности за доверие 0,9; 0,95 и 0,99. С този метод истинските стойности на математическото очакване и дисперсията се считат за практически неизвестни (което почти винаги е вярно при решаване практически задачиоценки).

Формула за доверителен интервал:

n - размер на извадката;

Критичната стойност на t-статистиките (разпределенията на Стюдънт) с ниво на значимост ∝, броят на степените на свобода n-1, което се определя от специални статистически таблици или с помощта на MS Excel (→"Статистически"→ СТУДРАСПОБР);

∝ - ниво на значимост, приемаме ∝=0,01.

Ориз. 2. Стойности в рамките на доверителния интервал 2.

Стъпка 4. Анализ на различни начини за изчисляване на доверителния интервал

Два начина за изчисляване на доверителния интервал - чрез медианата и коефициента на Стюдънт - доведоха до различни стойностиинтервали. Съответно бяха получени две различни пречистени проби.

Таблица 3. Статистически показатели за три извадки.

Индекс

Първоначална проба

1 вариант

Вариант 2

Означава

дисперсия

Коеф. вариации

Коеф. трептения

Брой излезли от експлоатация обекти, бр.

Въз основа на извършените изчисления можем да кажем, че стойностите на доверителните интервали, получени по различни методи, се пресичат, така че можете да използвате всеки от методите за изчисление по преценка на оценителя.

Ние обаче смятаме, че при работа в системата estimatica.pro е препоръчително да изберете метод за изчисляване на доверителния интервал в зависимост от степента на развитие на пазара:

  • ако пазарът не е развит, приложете метода на изчисление чрез медианата и стандартното отклонение, тъй като броят на пенсионираните обекти в този случай е малък;
  • ако пазарът е развит, приложете изчислението чрез критичната стойност на t-статистиката (коефициент на Стюдънт), тъй като е възможно да се формира голяма първоначална извадка.

При изготвянето на статията са използвани:

1. Грибовски С.В., Сивец С.А., Левикина И.А. Математически методи за оценка на стойността на имущество. Москва, 2014 г

2. Данни от системата estimatica.pro

Един от методите за решаване статистически задачие изчисляването на доверителния интервал. Използва се като предпочитана алтернатива точкова оценкас малък размер на извадката. Трябва да се отбележи, че процесът на изчисляване на доверителния интервал е доста сложен. Но инструментите на програмата Excel ви позволяват да я опростите донякъде. Нека да разберем как това се прави на практика.

Този метод се използва, когато интервална оценкаразлични статистика. Основната задача на това изчисление е да се отърве от несигурността на точковата оценка.

В Excel има две основни опции за извършване на изчисления този метод: когато дисперсията е известна и когато е неизвестна. В първия случай функцията се използва за изчисления НОРМА ЗА ДОВЕРИЕ, а във втория ДОВЕРИЕ.СТУДЕНТ.

Метод 1: Функция CONFIDENCE NORM

Оператор НОРМА ЗА ДОВЕРИЕ, която се отнася до статистическата група функции, се появява за първи път в Excel 2010. По-ранните версии на тази програма използват нейния аналог ДОВЕРИЕ. Задачата на този оператор е да изчисли доверителния интервал с нормална дистрибуцияза средната популация.

Синтаксисът му е както следва:

CONFIDENCE NORM(alpha, standard_dev, size)

"Алфа"е аргумент, указващ нивото на значимост, което се използва за изчисляване на нивото на достоверност. Нивото на доверие е равно на следния израз:

(1-"Алфа")*100

"Стандартно отклонение"е аргумент, чиято същност е ясна от името. Това е стандартното отклонение на предложената извадка.

"Размерът"е аргумент, който определя размера на извадката.

Всички аргументи към този оператор са задължителни.

функция ДОВЕРИЕима абсолютно същите аргументи и възможности като предишния. Синтаксисът му е:

TRUST(алфа, стандартна_разработка, размер)

Както можете да видите, разликите са само в името на оператора. Тази функция е запазена в Excel 2010 и по-новите версии в специална категория от съображения за съвместимост. "Съвместимост". Във версиите на Excel 2007 и по-стари той присъства в основната група статистически оператори.

Границата на доверителния интервал се определя по формулата със следната форма:

X+(-)НОРМА ЗА ДОВЕРИЕ

Където хе средната стойност на извадката, която се намира в средата на избрания диапазон.

Сега нека да разгледаме как да изчислим доверителния интервал, като използваме конкретен пример. Проведени са 12 теста, които са дали различни резултати, които са посочени в таблицата. Това е нашата съвкупност. Стандартното отклонение е 8. Трябва да изчислим доверителния интервал при 97% ниво на достоверност.

  1. Изберете клетката, в която ще се покаже резултатът от обработката на данните. Щракване върху бутона "Вмъкване на функция".
  2. Появява се Съветник за функции. Отидете на категория "статистически"и маркирайте името "ДОВЕРИЕ. НОРМА". След това кликнете върху бутона Добре.
  3. Отваря се прозорецът с аргументи. Неговите полета естествено съответстват на имената на аргументите.
    Поставете курсора на първото поле - "Алфа". Тук трябва да посочим нивото на значимост. Както си спомняме, нашето ниво на доверие е 97%. В същото време казахме, че се изчислява по следния начин:

    (1 ниво на доверие)/100

    Тоест, като заместим стойността, получаваме:

    Чрез прости изчисления откриваме, че аргументът "Алфа"се равнява 0,03 . Въведете тази стойност в полето.

    Както знаете, стандартното отклонение е равно на 8 . Следователно в полето "Стандартно отклонение"просто запишете това число.

    В полето "Размерът"трябва да въведете броя на елементите на извършените тестове. Както си спомняме, те 12 . Но за да автоматизираме формулата и да не я редактираме всеки път, когато се извършва нов тест, нека зададем тази стойност не на обикновено число, а с помощта на оператора ПРОВЕРКА. И така, поставяме курсора в полето "Размерът"и след това щракнете върху триъгълника, който се намира вляво от лентата с формули.

    Появява се списък с наскоро използвани функции. Ако операторът ПРОВЕРКАизползван от вас наскоро, трябва да е в този списък. В този случай просто трябва да кликнете върху името му. В противен случай, ако не го намерите, преминете към точката „Още функции...“.

  4. Изглежда вече познато за нас Съветник за функции. Връщам се към групата "статистически". Там избираме името "ПРОВЕРКА". Кликнете върху бутона Добре.
  5. Появява се прозорецът с аргументи за горния оператор. Тази функция е предназначена да изчислява броя на клетките в посочения диапазон, които съдържат числови стойности. Синтаксисът му е следният:

    БРОЙ(стойност1, стойност2,…)

    Аргументна група "Стойности"е препратка към диапазона, в който искате да изчислите броя клетки, попълнени с числови данни. Общо може да има до 255 такива аргумента, но в нашия случай се нуждаем само от един.

    Поставете курсора в полето "Стойност1"и като задържите левия бутон на мишката, изберете диапазона на листа, който съдържа нашето население. Тогава неговият адрес ще се покаже в полето. Кликнете върху бутона Добре.

  6. След това приложението ще извърши изчислението и ще покаже резултата в клетката, в която се намира. В нашия конкретен случай формулата се оказа така:

    ДОВЕРИТЕЛНА НОРМА(0,03;8;БРОЙ(B2:B13))

    Общият резултат от изчисленията беше 5,011609 .

  7. Но това не е всичко. Както си спомняме, границата на доверителния интервал се изчислява чрез добавяне и изваждане от средната стойност на извадката на резултата от изчислението НОРМА ЗА ДОВЕРИЕ. По този начин се изчисляват съответно дясната и лявата граница на доверителния интервал. Самата извадкова средна стойност може да се изчисли с помощта на оператора СРЕДНО АРИТМЕТИЧНО.

    Този оператор е предназначен да изчислява средноаритметичната стойност на избрания диапазон от числа. Той има следния доста прост синтаксис:

    СРЕДНО(число1, число2,...)

    Аргумент "номер"може да бъде или една единствена числова стойност, или препратка към клетки или дори цели диапазони, които ги съдържат.

    Така че изберете клетката, в която ще се покаже изчислението на средната стойност, и щракнете върху бутона "Вмъкване на функция".

  8. отваря Съветник за функции. Назад към категорията "статистически"и изберете име от списъка "СРЕДНО АРИТМЕТИЧНО". Както винаги, щракнете върху бутона Добре.
  9. Стартира се прозорецът с аргументи. Поставете курсора в полето "Номер 1"и с натиснат ляв бутон на мишката изберете целия диапазон от стойности. След като се изведат координатите в полето, щракнете върху бутона Добре.
  10. След това СРЕДНО АРИТМЕТИЧНОизвежда резултата от изчислението към елемент на листа.
  11. Изчисляваме дясната граница на доверителния интервал. За да направите това, изберете отделна клетка, поставете знака «=» и добавете съдържанието на елементите на листа, в които се намират резултатите от изчисляването на функциите СРЕДНО АРИТМЕТИЧНОи НОРМА ЗА ДОВЕРИЕ. За да извършите изчислението, натиснете бутона Въведете. В нашия случай получихме следната формула:

    Резултат от изчислението: 6,953276

  12. По същия начин изчисляваме лявата граница на доверителния интервал, само този път от резултата от изчислението СРЕДНО АРИТМЕТИЧНОизвадете резултата от изчислението на оператора НОРМА ЗА ДОВЕРИЕ. Оказва се формулата за нашия пример от следния тип:

    Резултат от изчислението: -3,06994

  13. Опитахме се да опишем подробно всички стъпки за изчисляване на доверителния интервал, така че описахме всяка формула подробно. Но можете да комбинирате всички действия в една формула. Изчисляването на дясната граница на доверителния интервал може да се запише по следния начин:

    AVERAGE(B2:B13)+CONFIDENCE(0.03;8;COUNT(B2:B13))

  14. Подобно изчисление на лявата граница би изглеждало така:

    AVERAGE(B2:B13)-CONFIDENCE.NORM(0.03;8;COUNT(B2:B13))

Метод 2: Функция TRUST.STUDENT

Освен това в Excel има друга функция, която е свързана с изчисляването на доверителния интервал - ДОВЕРИЕ.СТУДЕНТ. Появява се едва след Excel 2010. Този оператор извършва изчисляването на доверителния интервал на популацията, използвайки разпределението на Стюдънт. Много е удобно да се използва в случай, че дисперсията и съответно стандартното отклонение са неизвестни. Синтаксисът на оператора е:

TRUST.STUDENT(alpha,standard_dev,размер)

Както можете да видите, имената на операторите в този случай останаха непроменени.

Нека да видим как да изчислим границите на доверителния интервал с неизвестно стандартно отклонение, използвайки примера на същата популация, която разгледахме в предишния метод. Нивото на доверие, както и последния път, ще вземем 97%.

  1. Изберете клетката, в която ще се направи изчислението. Кликнете върху бутона "Вмъкване на функция".
  2. В отвореното Съветник за функцииотидете на категория "статистически". Изберете име "ДОВЕРИЕ.СТУДЕНТ". Кликнете върху бутона Добре.
  3. Стартира се прозорецът с аргументи за посочения оператор.

    В полето "Алфа", като се има предвид, че нивото на доверие е 97%, записваме числото 0,03 . Вторият път няма да се спираме на принципите на изчисляване на този параметър.

    След това поставете курсора в полето "Стандартно отклонение". Този път този показател е непознат за нас и трябва да бъде изчислен. Това се прави с помощта на специална функция - STDEV.V. За да извикате прозореца на този оператор, щракнете върху триъгълника вляво от лентата с формули. Ако не намерим желаното име в списъка, който се отваря, отидете на елемента „Още функции...“.

  4. бяга Съветник за функции. Преминаване към категория "статистически"и маркирайте името "STDEV.B". След това щракнете върху бутона Добре.
  5. Отваря се прозорецът с аргументи. операторска задача STDEV.Vе определението стандартно отклонениепри вземане на проби. Синтаксисът му изглежда така:

    STDEV.V(число1,число2,…)

    Лесно е да се досетите, че аргументът "номер"е адресът на елемента за избор. Ако селекцията е поставена в единичен масив, тогава като използвате само един аргумент, можете да дадете връзка към този диапазон.

    Поставете курсора в полето "Номер 1"и както винаги, като държите левия бутон на мишката, изберете набора. След като координатите са в полето, не бързайте да натискате бутона Добрезащото резултатът ще е грешен. Първо трябва да се върнем към прозореца с аргументи на оператора ДОВЕРИЕ.СТУДЕНТза да направи последния аргумент. За да направите това, щракнете върху съответното име в лентата с формули.

  6. Прозорецът с аргументи на вече познатата функция се отваря отново. Поставете курсора в полето "Размерът". Отново кликнете върху вече познатия ни триъгълник, за да отидете на избора на оператори. Както разбирате, имаме нужда от име "ПРОВЕРКА". Тъй като използвахме тази функцияпри изчисляване в предишния метод, в този списъктам е, така че просто щракнете върху него. Ако не го намерите, следвайте алгоритъма, описан в първия метод.
  7. Влизане в прозореца с аргументи ПРОВЕРКА, поставете курсора в полето "Номер 1"и със задържан бутон на мишката изберете колекцията. След това щракнете върху бутона Добре.
  8. След това програмата изчислява и показва стойността на доверителния интервал.
  9. За да определим границите, отново ще трябва да изчислим средната стойност на извадката. Но като се има предвид, че алгоритъмът за изчисление използва формулата СРЕДНО АРИТМЕТИЧНОсъщото като в предишния метод и дори резултатът не се е променил, няма да се спираме на това подробно втори път.
  10. Сумиране на резултатите от изчислението СРЕДНО АРИТМЕТИЧНОи ДОВЕРИЕ.СТУДЕНТ, получаваме дясната граница на доверителния интервал.
  11. Изваждане от резултатите от изчислението на оператора СРЕДНО АРИТМЕТИЧНОрезултат от изчислението ДОВЕРИЕ.СТУДЕНТ, имаме лявата граница на доверителния интервал.
  12. Ако изчислението е написано в една формула, тогава изчислението на дясната граница в нашия случай ще изглежда така:

    СРЕДНО(B2:B13)+УВЕРЕНИЕ НА УЧЕНИКА(0,03,STDV(B2:B13),БРОЙ(B2:B13))

  13. Съответно формулата за изчисляване на лявата граница ще изглежда така:

    СРЕДНО(B2:B13)-УВЕРЕНИЕ НА УЧЕНИКА(0,03,STDV(B2:B13),БРОЙ(B2:B13))

Както можете да видите, инструментите Excel програмидават възможност значително да се улесни изчисляването на доверителния интервал и неговите граници. За тези цели се използват отделни оператори за проби, чиято дисперсия е известна и неизвестна.

Споделете с приятели или запазете за себе си:

Зареждане...