Намерете 90 доверителен интервал. Доверителен интервал

Нека изградим в MS EXCEL довериеинтервал за оценка на средната стойност на разпределението в случая известна стойностдисперсия.

Разбира се изборът ниво на довериенапълно зависи от поставената задача. По този начин степента на доверие на пътника в надеждността на самолета, разбира се, трябва да бъде по-висока от степента на доверие на купувача в надеждността на електрическата крушка.

Формулиране на задача

Да приемем, че от население като взе пробаразмер n. Предполага се, че стандартно отклонение това разпределение е известно. Необходимо въз основа на това пробиоцени неизвестното средно разпределение(μ, ) и конструирайте съответния двустранно доверителен интервал.

Точкова оценка

Както е известно от статистика(да го наречем X вж) е безпристрастна оценка на средната стойносттова населениеи има разпределението N(μ;σ 2 /n).

Забележка: Ами ако трябва да построите доверителен интервалв случай на разпространение, което не е нормално?В този случай идва на помощ, което казва, че с достатъчно голям размер проби n от разпространение не- нормално, извадково разпределение на статистики Х срще бъде приблизителнокореспондирам нормална дистрибуцияс параметри N(μ;σ 2 /n).

Така, точкова оценка средата разпределителни стойностиимаме е извадкова средна стойност, т.е. X вж. Сега да се заемем доверителен интервал.

Изграждане на доверителен интервал

Обикновено, знаейки разпределението и неговите параметри, можем да изчислим вероятността случайна променлива да приеме стойност от зададения от нас интервал. Сега нека направим обратното: да намерим интервала, от който попада случайната променлива дадена вероятност. Например от имоти нормална дистрибуция известно е, че с вероятност от 95%, случайна променлива, разпределена върху нормален закон , ще попадне в интервала приблизително +/- 2 от средна стойност(вижте статията за). Този интервал ще служи като наш прототип за доверителен интервал.

Сега да видим дали знаем разпределението , да изчислим този интервал? За да отговорим на въпроса, трябва да уточним формата на разпространение и неговите параметри.

Знаем каква е формата на разпространение нормална дистрибуция(не забравяйте, че говорим за разпределение на пробите статистика X вж).

Параметърът μ ни е неизвестен (просто трябва да се оцени с помощта на доверителен интервал), но имаме оценката му X cf,изчислено въз основа на проба,които могат да се използват.

Вторият параметър е извадково средно стандартно отклонение ще се знае, то е равно на σ/√n.

защото не знаем μ, тогава ще изградим интервала +/- 2 стандартни отклоненияне от средна стойност, но от известната му оценка X вж. Тези. при изчисляване доверителен интервалние НЯМА да приемем това X вжще попадне в интервала +/- 2 стандартни отклоненияот μ с вероятност от 95%, като ще приемем, че интервалът е +/- 2 стандартни отклоненияот X вжс вероятност от 95% ще покрие μ - средната стойност на общата съвкупност,от кое проба. Тези две твърдения са еквивалентни, но второто твърдение ни позволява да конструираме доверителен интервал.

В допълнение, ние прецизираме интервала: случайна променлива, разпределена върху нормален закон, с 95% вероятност попада в интервала +/- 1.960 стандартни отклонения,не +/- 2 стандартни отклонения. Това може да се изчисли с помощта на формулата \u003d НОРМА.СТ.ОБР ((1 + 0,95) / 2), см. примерен файл Sheet Spacing.

Сега можем да формулираме вероятностно твърдение, което ще ни послужи за формиране доверителен интервал:
„Вероятността, че средно населениеразположен от проба среднав рамките на 1.960" стандартни отклонения на средната стойност на извадката", е равно на 95%.

Стойността на вероятността, спомената в твърдението, има специално име , което е свързано сниво на значимост α (алфа) чрез прост израз ниво на доверие =1 . В нашия случай ниво на значимост α =1-0,95=0,05 .

Сега, въз основа на това вероятностно твърдение, ние пишем израз за изчисляване доверителен интервал:

където Zα/2 стандартен нормална дистрибуция(такава стойност на случайна променлива z, Какво П(z>=Zα/2 )=α/2).

Забележка: Горен α/2-квантилопределя ширината доверителен интервалв стандартни отклонения извадкова средна стойност. Горен α/2-квантил стандартен нормална дистрибуциявинаги е по-голямо от 0, което е много удобно.

В нашия случай при α=0,05, горен α/2-квантил е равно на 1,960. За други нива на значимост α (10%; 1%) горен α/2-квантил Zα/2 може да се изчисли по формулата \u003d NORM.ST.OBR (1-α / 2) или, ако е известно ниво на доверие, =NORM.ST.OBR((1+ниво на достоверност)/2).

Обикновено при изграждане доверителни интервали за оценка на средната стойностизползвай само горна α/2-квантили не използвайте по-ниско α/2-квантил. Това е възможно, защото стандартен нормална дистрибуциясиметричен спрямо оста x ( плътност на разпространението мусиметрично около средно, т.е. 0). Следователно няма нужда да се изчислява долен α/2-квантил(нарича се просто α /2-квантил), защото то е равно горна α/2-квантилсъс знак минус.

Спомнете си, че независимо от формата на разпределението на x, съответната случайна променлива X вжразпределени приблизително глоба N(μ;σ 2 /n) (вижте статията за). Следователно, в общ случай, горният израз за доверителен интервале само приблизително. Ако x е разпределено върху нормален закон N(μ;σ 2 /n), тогава изразът за доверителен интервале точен.

Изчисляване на доверителен интервал в MS EXCEL

Да решим проблема.
Времето за реакция на електронния компонент към входния сигнал е важна характеристика на устройството. Инженер иска да начертае доверителен интервал за средното време за реакция при ниво на достоверност от 95%. От предишен опит инженерът знае, че стандартното отклонение на времето за реакция е 8 ms. Известно е, че инженерът е направил 25 измервания, за да оцени времето за реакция, средната стойност е 78 ms.

Решение: Инженерът иска да знае времето за реакция на електронно устройство, но той разбира, че времето за реакция не е фиксирана, а случайна променлива, която има собствено разпределение. Така че най-доброто, на което може да се надява, е да определи параметрите и формата на това разпределение.

За съжаление от условието на задачата не знаем формата на разпределението на времето за реакция (не е задължително да е нормално). , това разпределение също е неизвестно. Само той е известен стандартно отклонениеσ=8. Следователно, докато не можем да изчислим вероятностите и да конструираме доверителен интервал.

Въпреки това, въпреки че не знаем разпределението време отделен отговор, знаем, че според CPT, разпределение на пробите средно време за реакцияе приблизително нормално(ще приемем, че условията CPTсе извършват, т.к размерът пробидостатъчно голям (n=25)) .

Освен това, средно аритметичнотова разпределение е равно на средна стойностразпределения на единичния отговор, т.е. μ. НО стандартно отклонениена това разпределение (σ/√n) може да се изчисли по формулата =8/ROOT(25) .

Известно е също, че инженерът е получил точкова оценкапараметър μ равен на 78 ms (X cf). Следователно сега можем да изчислим вероятностите, защото знаем формата за разпространение ( нормално) и неговите параметри (Х ср и σ/√n).

Инженерът иска да знае очаквана стойностμ от разпределението на времето за реакция. Както беше посочено по-горе, това μ е равно на очакване на извадковото разпределение на средното време за отговор. Ако използваме нормална дистрибуция N(X cf; σ/√n), тогава желаното μ ще бъде в диапазона +/-2*σ/√n с вероятност приблизително 95%.

Ниво на значимосте равно на 1-0,95=0,05.

Накрая намерете лявата и дясната граница доверителен интервал.
Лява граница: \u003d 78-NORM.ST.INR (1-0,05 / 2) * 8 / КОРЕН (25) = 74,864
Дясна граница: \u003d 78 + НОРМА. ST. OBR (1-0,05 / 2) * 8 / КОРЕН (25) \u003d 81,136

Лява граница: =NORM.INV(0,05/2, 78, 8/SQRT(25))
Дясна граница: =NORM.INV(1-0,05/2, 78, 8/SQRT(25))

Отговор: доверителен интервалпри 95% ниво на достоверност и σ=8мсексе равнява 78+/-3.136ms

AT примерен файл на лист Sigmaизвестен създаде форма за изчисляване и изграждане двустранно доверителен интервалза произволно пробис даден σ и ниво на значимост.

Функция CONFIDENCE.NORM().

Ако стойностите пробиса в диапазона B20:B79 , а ниво на значимостравно на 0,05; след това MS EXCEL формула:
=СРЕДНО(B20:B79)-УВЕРЕНИЕ(0,05,σ, БРОЯ(B20:B79))
ще върне лявата граница доверителен интервал.

Същата граница може да се изчисли по формулата:
=СРЕДНО(B20:B79)-NORM.ST.INV(1-0,05/2)*σ/SQRT(БРОЙ(B20:B79))

Забележка: Функцията TRUST.NORM() се появи в MS EXCEL 2010. По-ранните версии на MS EXCEL използваха функцията TRUST().

Доверителни интервали.

Изчисляването на доверителния интервал се основава на средната грешка на съответния параметър. Доверителен интервал показва в какви граници с вероятност (1-а) е истинската стойност на оценявания параметър. Тук a е нивото на значимост, (1-a) се нарича още ниво на доверие.

В първата глава показахме, че например за средноаритметичната стойност истинската средна стойност на съвкупността се намира в рамките на 2 средни грешки на средната стойност около 95% от времето. По този начин границите на 95% доверителен интервал за средната стойност ще бъдат два пъти по-далеч от средната стойност на извадката. средна грешкасредно, т.е. ние умножаваме средната грешка на средната стойност по някакъв фактор, който зависи от нивото на достоверност. За средна и разлика на средните стойности се приема коефициентът на Стюдънт (критичната стойност на критерия на Стюдънт), за делът и разликата на дяловете – критичната стойност на критерия z. Продуктът на коефициента и средната грешка може да се нарече пределна грешказададен параметър, т.е. максимумът, който можем да получим, когато го оценяваме.

Доверителен интервал за средноаритметично : .

Ето примерната средна стойност;

Средна грешка на средноаритметичната стойност;

с-извадково стандартно отклонение;

н

f = n-1 (Коефициент на ученика).

Доверителен интервал за разлика на средните аритметични стойности :

Тук е разликата между извадковите средни стойности;

- средната грешка на разликата на средните аритметични;

s 1, s 2 -примерни средства стандартни отклонения;

n1,n2

Критична стойност на критерия на Стюдънт за дадено ниво на значимост а и брой степени на свобода f=n1 +n2-2 (Коефициент на ученика).

Доверителен интервал за акции :

.

Тук d е извадковият дял;

– грешка на средния дял;

н– размер на извадката (размер на групата);

Доверителен интервал за споделят различия :

Ето разликата между примерните дялове;

е средната грешка на разликата между средните аритметични стойности;

n1,n2– размери на извадката (брой групи);

Критичната стойност на критерия z при дадено ниво на значимост a ( , , ).

Чрез изчисляване на доверителните интервали за разликата в индикаторите, ние, първо, директно виждаме възможните стойности на ефекта, а не само неговите точкова оценка. Второ, можем да направим заключение относно приемането или опровергаването на нулевата хипотеза и, трето, можем да направим заключение относно силата на критерия.

Когато тествате хипотези с помощта на доверителни интервали, трябва да се придържате към следващото правило:

Ако 100(1-a)-процентният доверителен интервал на средната разлика не съдържа нула, тогава разликите са статистически значими на ниво на значимост a; напротив, ако този интервал съдържа нула, тогава разликите не са статистически значими.

Всъщност, ако този интервал съдържа нула, това означава, че сравняваният показател може да бъде повече или по-малко в една от групите в сравнение с другата, т.е. наблюдаваните разлики са случайни.

По мястото, където се намира нулата в рамките на доверителния интервал, може да се прецени силата на критерия. Ако нулата е близо до долната или горната граница на интервала, тогава е възможно кога по-големи числасравнявани групи, разликите биха достигнали статистическа значимост. Ако нулата е близо до средата на интервала, това означава, че както увеличението, така и намаляването на показателя в експерименталната група са еднакво вероятни и вероятно наистина няма разлики.

Примери:

За да сравните оперативната смъртност при използване на два различни вида анестезия: 61 души са били оперирани с първия вид анестезия, 8 са починали, с помощта на втория - 67 души, 10 са починали.

d 1 \u003d 8/61 \u003d 0,131; d 2 \u003d 10/67 \u003d 0,149; d1-d2 = - 0,018.

Разликата в леталността на сравняваните методи ще бъде в диапазона (-0,018 - 0,122; -0,018 + 0,122) или (-0,14; 0,104) с вероятност 100(1-a) = 95%. Интервалът съдържа нула, т.е. хипотеза за една и съща смъртност при две различни видовеанестезията не може да се отрече.

По този начин смъртността може и ще намалее до 14% и ще се увеличи до 10,4% с вероятност от 95%, т.е. нула е приблизително в средата на интервала, така че може да се твърди, че най-вероятно тези два метода наистина не се различават по смъртност.

В примера, разгледан по-рано, средното време за докосване беше сравнено в четири групи студенти, които се различаваха по своите резултати от изпитите. Нека изчислим доверителните интервали на средното време за пресоване за студенти, които са издържали изпита за 2 и 5 и доверителния интервал за разликата между тези средни стойности.

Коефициентите на Стюдънт се намират от таблиците на разпределението на Стюдънт (виж Приложението): за първа група: = t(0,05;48) = 2,011; за втората група: = t(0,05;61) = 2,000. Така доверителните интервали за първата група: = (162,19-2,011 * 2,18; 162,19 + 2,011 * 2,18) = (157,8; 166,6) , за втората група (156,55- 2,000*1,88; 156,55+2,000*1,88) = (152,8 ; 160.3). И така, за тези, които са издържали изпита за 2, средното време за натискане варира от 157,8 ms до 166,6 ms с вероятност от 95%, за тези, които са издържали изпита за 5 - от 152,8 ms до 160,3 ms с вероятност от 95% .

Можете също така да тествате нулевата хипотеза, като използвате доверителни интервали за средните стойности, а не само за разликата в средните стойности. Например, както в нашия случай, ако доверителните интервали за средните се припокриват, тогава нулевата хипотеза не може да бъде отхвърлена. За да се отхвърли хипотеза при избрано ниво на значимост, съответните доверителни интервали не трябва да се припокриват.

Да намерим доверителния интервал за разликата в средното време за натискане в групите, издържали изпита за 2 и 5. Разликата в средните стойности: 162.19 - 156.55 = 5.64. Коефициент на студент: \u003d t (0,05; 49 + 62-2) \u003d t (0,05; 109) \u003d 1,982. Груповите стандартни отклонения ще бъдат равни на: ; . Изчисляваме средната грешка на разликата между средните: . Доверителен интервал: \u003d (5,64-1,982 * 2,87; 5,64 + 1,982 * 2,87) \u003d (-0,044; 11,33).

Така че разликата в средното време на пресоване в групите, издържали изпита на 2 и на 5, ще бъде в диапазона от -0,044 ms до 11,33 ms. Този интервал включва нула, т.е. средното време за пресоване за тези, които са издържали изпита с отличен резултат, може както да се увеличи, така и да се намали в сравнение с тези, които са издържали изпита незадоволително, т.е. нулевата хипотеза не може да бъде отхвърлена. Но нулата е много близо до долната граница, времето за натискане е много по-вероятно да намалее за отличните подаващи. По този начин можем да заключим, че все още има разлики в средното време на щракване между тези, които са преминали с 2 и с 5, просто не можахме да ги открием за дадена промяна в средното време, разпространението на средното време и размерите на извадката.



Силата на теста е вероятността за отхвърляне на неправилна нулева хипотеза, т.е. намерете разликите там, където наистина са.

Силата на теста се определя въз основа на нивото на значимост, големината на разликите между групите, разпространението на стойностите в групите и размера на извадката.

За t-тест на Стюдънт и дисперсионен анализможете да използвате диаграми за чувствителност.

Силата на критерия може да се използва при предварителното определяне на необходимия брой групи.

Доверителният интервал показва в какви граници се намира истинската стойност на оценения параметър с дадена вероятност.

С помощта на доверителни интервали можете да тествате статистически хипотези и да правите заключения относно чувствителността на критериите.

ЛИТЕРАТУРА.

Гланц С. - Глава 6.7.

Реброва О.Ю. - с.112-114, с.171-173, с.234-238.

Сидоренко Е. В. - стр. 32-33.

Въпроси за самопроверка на учениците.

1. Каква е силата на критерия?

2. В какви случаи е необходимо да се оцени силата на критериите?

3. Методи за изчисляване на мощността.

6. Как да тестваме статистическа хипотеза с помощта на доверителен интервал?

7. Какво може да се каже за силата на критерия при изчисляване на доверителния интервал?

Задачи.

И други Всички те са оценки на техните теоретични двойници, които биха могли да бъдат получени, ако имаше не извадка, а генералната съвкупност. Но уви, общото население е много скъпо и често недостъпно.

Концепцията за интервална оценка

Всяка примерна оценка има известно разсейване, защото е случайна променлива в зависимост от стойностите в конкретна проба. Следователно, за по-надеждни статистически изводи, трябва да се знае не само точковата оценка, но и интервалът, който с голяма вероятност γ (гама) обхваща прогнозния показател θ (тета).

Формално това са две такива стойности (статистика) T1(X)и T2(X), Какво T1< T 2 , за които при дадено ниво на вероятност γ условието е изпълнено:

Накратко, вероятно е γ или повече истинската стойност е между точките T1(X)и T2(X), които се наричат ​​долна и горна граница доверителен интервал.

Едно от условията за конструиране на доверителни интервали е неговата максимална стеснимост, т.е. трябва да е възможно най-кратък. Желанието е съвсем естествено, т.к. изследователят се опитва да локализира по-точно находката на желания параметър.

От това следва, че доверителният интервал трябва да покрива максималните вероятности на разпределението. и самата партитура да е в центъра.

Тоест вероятността за отклонение (на истинския показател от оценката) нагоре е равна на вероятността за отклонение надолу. Трябва също да се отбележи, че за изкривените разпределения интервалът отдясно не е равен на интервала отляво.

Фигурата по-горе ясно показва, че колкото по-високо е нивото на доверие, толкова по-широк е интервалът - пряка връзка.

Това беше малко въведение в теорията за интервално оценяване на неизвестни параметри. Нека да преминем към намирането на граници на доверие за математическо очакване.

Доверителен интервал за математическо очакване

Ако оригиналните данни са разпределени върху , тогава средната стойност ще бъде нормална стойност. Това следва от правилото, че линейна комбинация от нормални стойности също има нормално разпределение. Следователно, за да изчислим вероятностите, бихме могли да използваме математическия апарат на нормалния закон за разпределение.

Това обаче ще изисква познаването на два параметъра - очакваната стойност и дисперсията, които обикновено не са известни. Можете, разбира се, да използвате оценки вместо параметри (средно аритметично и ), но тогава разпределението на средната стойност няма да е съвсем нормално, то ще бъде леко изравнено. Гражданинът Уилям Госет от Ирландия умело отбеляза този факт, когато публикува откритието си в броя на Biometrica от март 1908 г. За целите на секретността Госет подписа със Студент. Така се появи t-разпределението на Стюдънт.

Но нормалното разпределение на данните, използвано от К. Гаус при анализа на грешките в астрономическите наблюдения, е изключително рядко в земния живот и е доста трудно да се установи това (за висока точност са необходими около 2 хиляди наблюдения). Следователно най-добре е да се откажете от предположението за нормалност и да използвате методи, които не зависят от разпределението на оригиналните данни.

Възниква въпросът: какво е разпределението на средноаритметичното, ако се изчислява от данните на неизвестно разпределение? Отговорът дава добре познатата в теорията на вероятностите Централна гранична теорема(CPT). В математиката има няколко негови версии (формулировките са усъвършенствани през годините), но всички те, грубо казано, се свеждат до твърдението, че сумата от голям брой независими случайни променливи се подчинява на нормалния закон за разпределение.

При изчисляване на средноаритметичното се използва сумата от случайни променливи. От това се оказва, че средноаритметичното има нормално разпределение, при което очакваната стойност е очакваната стойност на изходните данни, а дисперсията е .

Умни хоразнаем как да докажем CLT, но ние ще проверим това с помощта на експеримент, проведен в Excel. Нека симулираме извадка от 50 равномерно разпределени случайни променливи (използвайки Функции на ExcelСЛУЧАЙНО МЕЖДУ). След това ще направим 1000 такива проби и ще изчислим средноаритметичната стойност за всяка. Нека разгледаме тяхното разпространение.

Вижда се, че разпределението на средната е близко до нормалния закон. Ако обемът на пробите и техният брой се увеличат още повече, тогава сходството ще бъде още по-добро.

Сега, след като се убедихме сами във валидността на CLT, можем, използвайки , да изчислим доверителните интервали за средната аритметична стойност, които покриват истинската средна стойност или математическото очакване с дадена вероятност.

За да се установят горната и долната граница, е необходимо да се знаят параметрите на нормалното разпределение. По правило те не са, следователно се използват оценки: средноаритметичнои дисперсия на извадката. Отново този метод дава добро приближение само за големи проби. Когато извадките са малки, често се препоръчва да се използва разпределението на Student. Не вярвайте! Разпределението на Стюдънт за средната стойност възниква само когато оригиналните данни имат нормално разпределение, тоест почти никога. Ето защо е по-добре незабавно да зададете минималната лента за количеството необходими данни и да използвате асимптотично правилни методи. Казват, че 30 наблюдения са достатъчни. Вземете 50 - няма да сбъркате.

T 1.2са долната и горната граница на доверителния интервал

– средноаритметично извадково

s0– извадково стандартно отклонение (безпристрастно)

н – размер на извадката

γ – ниво на достоверност (обикновено равно на 0,9, 0,95 или 0,99)

c γ =Φ -1 ((1+γ)/2)е реципрочната на стандартната функция на нормалното разпределение. С прости думи, това е броят на стандартните грешки от средната аритметична стойност до долната или горната граница (посочените три вероятности съответстват на стойностите от 1,64, 1,96 и 2,58).

Същността на формулата е, че се взема средноаритметичното и след това от него се отделя определена сума ( с γ) стандартни грешки ( s 0 /√n). Всичко се знае, вземете и пребройте.

Преди масовото използване на компютри, за получаване на стойностите на функцията на нормалното разпределение и нейната обратна функция, те използваха . Те все още се използват, но е по-ефективно да се обърнете към готовите Формули на Excel. Всички елементи от горната формула ( , и ) могат лесно да бъдат изчислени в Excel. Но има и готова формула за изчисляване на доверителния интервал - НОРМА ЗА ДОВЕРИЕ. Синтаксисът му е следният.

CONFIDENCE NORM(alpha, standard_dev, size)

алфа– ниво на значимост или ниво на достоверност, което в горната нотация е равно на 1-γ, т.е. вероятността математическитеочакването ще бъде извън доверителния интервал. При ниво на достоверност от 0,95, алфа е 0,05 и т.н.

standard_offе стандартното отклонение на данните от извадката. Не е необходимо да изчислявате стандартната грешка, Excel ще раздели на корен от n.

размерът– размер на извадката (n).

Резултатът от функцията CONFIDENCE.NORM е вторият член от формулата за изчисляване на доверителния интервал, т.е. полуинтервал. Съответно долната и горната точка са средната ± получената стойност.

По този начин е възможно да се изгради универсален алгоритъм за изчисляване на доверителните интервали за средната аритметична стойност, който не зависи от разпределението на изходните данни. Цената за универсалността е нейната асимптотична природа, т.е. необходимостта от използване на относително големи проби. Въпреки това през века модерни технологиисъбирането на точното количество данни обикновено не е трудно.

Тестване на статистически хипотези с помощта на доверителен интервал

(модул 111)

Един от основните проблеми, решавани в статистиката, е. Накратко същността му е следната. Прави се например предположение, че очакванията на общата съвкупност са равни на някаква стойност. След това се конструира разпределението на извадковите средни, които могат да се наблюдават с дадено очакване. След това разглеждаме къде в това условно разпределение се намира реалната средна стойност. Ако надхвърли допустимите граници, тогава появата на такава средна е много малко вероятна, а при еднократно повторение на експеримента е почти невъзможна, което противоречи на изложената хипотеза, която е успешно отхвърлена. Ако средното не надхвърли критичното ниво, тогава хипотезата не се отхвърля (но и не се доказва!).

И така, с помощта на доверителни интервали, в нашия случай за очакванията, можете също да тествате някои хипотези. Много лесно се прави. Да предположим, че средноаритметичната стойност за някаква извадка е 100. Тества се хипотезата, че очакваната стойност е, да речем, 90. Тоест, ако поставим въпроса примитивно, той звучи така: възможно ли е с истинската стойност на средно равно на 90, наблюдаваното средно е 100?

За да се отговори на този въпрос, ще е необходима допълнителна информация за стандартното отклонение и размера на извадката. Да кажем, че стандартното отклонение е 30, а броят на наблюденията е 64 (за лесно извличане на корена). Тогава стандартната грешка на средната стойност е 30/8 или 3,75. За да изчислите 95% доверителен интервал, ще трябва да отделите две стандартни грешки от двете страни на средната стойност (по-точно 1,96). Доверителният интервал ще бъде приблизително 100 ± 7,5 или от 92,5 до 107,5.

По-нататъшното разсъждение е следното. Ако тестваната стойност попада в доверителния интервал, това не противоречи на хипотезата, тъй като се вписва в границите на случайни флуктуации (с вероятност от 95%). Ако тестваната точка е извън доверителния интервал, тогава вероятността за такова събитие е много малка, във всеки случай под приемливото ниво. Следователно хипотезата се отхвърля като противоречаща на наблюдаваните данни. В нашия случай хипотезата за очакване е извън доверителния интервал (тестваната стойност от 90 не е включена в интервала от 100±7,5), така че трябва да бъде отхвърлена. Отговаряйки на примитивния въпрос по-горе, човек трябва да каже: не, не може, във всеки случай това се случва изключително рядко. Често това показва конкретна вероятност за погрешно отхвърляне на хипотезата (р-ниво), а не дадено ниво, според което е изграден доверителният интервал, но повече за това друг път.

Както можете да видите, не е трудно да се изгради доверителен интервал за средната стойност (или математическото очакване). Основното нещо е да хванете същността и тогава нещата ще тръгнат. На практика повечето използват 95% доверителен интервал, който е с ширина около две стандартни грешки от двете страни на средната стойност.

Това е всичко за сега. Всичко най-хубаво!

В статистиката има два вида оценки: точкови и интервални. Точкова оценкае единична примерна статистика, която се използва за оценка на параметър на популацията. Например средната стойност на извадката е точкова оценка на средната стойност на популацията и дисперсията на извадката S2- точкова оценка на дисперсията на популацията σ2. беше показано, че средната стойност на извадката е безпристрастна оценка на очакванията на населението. Средната стойност на извадката се нарича безпристрастна, защото средната стойност на всички средни стойности на извадката (с еднакъв размер на извадката н) е равно на математическото очакване на генералната съвкупност.

За да може пробата да варира S2се превърна в безпристрастен оценител на дисперсията на популацията σ2, знаменателят на дисперсията на извадката трябва да бъде равен на н – 1 , но не н. С други думи, дисперсията на съвкупността е средната стойност на всички възможни дисперсии на извадката.

Когато се оценяват параметрите на популацията, трябва да се има предвид, че извадкови статистики като напр , зависят от конкретни проби. Да се ​​вземе предвид този факт, да се получи интервална оценкаматематическото очакване на генералната съвкупност анализира разпределението на извадковите средни стойности (за повече подробности вижте). Конструираният интервал се характеризира с определено ниво на достоверност, което е вероятността истинският параметър на генералната съвкупност да бъде оценен правилно. Подобни доверителни интервали могат да се използват за оценка на дела на характеристика Ри основната разпределена маса от общата съвкупност.

Изтеглете бележка в или формат, примери във формат

Конструиране на доверителен интервал за математическото очакване на генералната съвкупност с известно стандартно отклонение

Изграждане на доверителен интервал за съотношението на черта в общата популация

В този раздел концепцията за доверителен интервал е разширена до категорични данни. Това ви позволява да оцените дела на чертата в общата популация Рс примерен дял РС= X/н. Както споменахме, ако стойностите нРи н(1 - p)надвишава числото 5, биномно разпределениеможе да се приеме приблизително като нормално. Следователно, за да се оцени делът на дадена черта в общата съвкупност Рвъзможно е да се конструира интервал, чието ниво на достоверност е равно на (1 - α)x100%.


където стрС- примерен дял на признака, равен на Х/н, т.е. броят на успехите, разделен на размера на извадката, Р- делът на признака в общата популация, Зе критичната стойност на стандартизираното нормално разпределение, н- размер на извадката.

Пример 3Да приемем, че от информационна системаизвлече извадка от 100 фактури, попълнени през последния месец. Да приемем, че 10 от тези фактури са неправилни. По този начин, Р= 10/100 = 0,1. Нивото на достоверност от 95% съответства на критичната стойност Z = 1,96.

По този начин има 95% вероятност между 4,12% и 15,88% от фактурите да съдържат грешки.

За даден размер на извадката доверителният интервал, съдържащ съотношението на признака в общата популация, изглежда по-широк, отколкото за непрекъсната случайна променлива. Това е така, защото измерванията на непрекъсната случайна променлива съдържат повече информация, отколкото измерванията на категорични данни. С други думи, категоричните данни, които приемат само две стойности, не съдържат достатъчно информация за оценка на параметрите на тяхното разпределение.

ATизчисляване на оценки, извлечени от ограничена популация

Оценка на математическото очакване.Корекционен фактор за крайната популация ( fpc) се използва за намаляване на стандартната грешка с коефициент . При изчисляване на доверителните интервали за оценките на параметрите на популацията се прилага корекционен фактор в ситуации, при които се вземат проби без замяна. По този начин доверителният интервал за математическото очакване, имащ ниво на достоверност, равно на (1 - α)x100%, се изчислява по формулата:

Пример 4За да илюстрираме прилагането на корекционен коефициент за ограничена съвкупност, нека се върнем към проблема за изчисляване на доверителния интервал за средната сума на фактурите, обсъдени по-горе в Пример 3. Да предположим, че една компания издава 5000 фактури на месец и Х=110,27 USD, С= $28,95 н = 5000, н = 100, α = 0,05, t99 = 1,9842. По формула (6) получаваме:

Оценка на дела на характеристиката.Когато изберете без връщане, доверителният интервал за частта от характеристиката, която има ниво на достоверност, равно на (1 - α)x100%, се изчислява по формулата:

Доверителни интервали и етични проблеми

Когато се взема извадка от популация и се формулират статистически заключения, често възникват етични проблеми. Основният е как се съгласуват доверителните интервали и точковите оценки на извадковите статистики. Публикуването на приблизителни точки без уточняване на подходящите доверителни интервали (обикновено при 95% нива на доверителност) и размера на извадката, от който те са получени, може да бъде подвеждащо. Това може да създаде у потребителя впечатлението, че точковата оценка е точно това, от което се нуждае, за да предвиди свойствата на цялата популация. Следователно е необходимо да се разбере, че във всяко изследване на преден план трябва да се поставят не точкови, а интервални оценки. Освен това трябва да се обърне специално внимание правилен изборпримерни размери.

Най-често обект на статистически манипулации са резултатите от социологически проучвания на населението по различни политически въпроси. В същото време резултатите от проучването се поставят на първите страници на вестниците, а грешката и методологията на извадката Статистически анализпечат някъде по средата. За да се докаже валидността на получените точкови оценки, е необходимо да се посочи размерът на извадката, въз основа на която са получени, границите на доверителния интервал и нивото на неговата значимост.

Следваща бележка

Използвани са материали от книгата Левин и др.Статистика за мениджъри. - М.: Уилямс, 2004. - стр. 448–462

Централна гранична теоремазаявява, че за достатъчно голям размер на извадката, извадковото разпределение на средните стойности може да се апроксимира чрез нормално разпределение. Това свойство не зависи от типа разпределение на населението.

Умът е не само в знанието, но и в умението да прилагаме знанията на практика. (Аристотел)

Доверителни интервали

общ преглед

Вземайки извадка от популацията, ще получим точкова оценка на параметъра, който ни интересува, и ще изчислим стандартната грешка, за да покажем точността на оценката.

В повечето случаи обаче стандартната грешка като такава не е приемлива. Много по-полезно е да комбинирате тази мярка за точност с интервална оценказа параметъра на населението.

Това може да се направи, като се използват познания за теоретичното разпределение на вероятностите примерна статистика(параметър), за да се изчисли доверителният интервал (CI - Доверителен интервал, CI - Доверителен интервал) за параметъра.

Като цяло, доверителният интервал разширява оценките в двете посоки с някои кратни на стандартната грешка (на даден параметър); двете стойности (доверителни граници), които определят интервала, обикновено се разделят със запетая и се затварят в скоби.

Доверителен интервал за средна стойност

Използване на нормалното разпределение

Средната стойност на извадката има нормално разпределение, ако размерът на извадката е голям, така че познаването на нормалното разпределение може да се приложи при разглеждане на средната стойност на извадката.

По-специално, 95% от разпределението на средните стойности на извадката е в рамките на 1,96 стандартни отклонения (SD) от средната стойност на популацията.

Когато имаме само една извадка, наричаме това стандартна грешка на средната стойност (SEM) и изчисляваме 95% доверителен интервал за средната стойност, както следва:

Ако този експеримент се повтори няколко пъти, тогава интервалът ще съдържа истинската средна популация 95% от времето.

Това обикновено е доверителен интервал, като диапазона от стойности, в рамките на който истинската средна стойност на съвкупността (обща средна стойност) лежи с 95% ниво на сигурност.

Въпреки че не е съвсем строго (средната популация е фиксирана стойност и следователно не може да има свързана с нея вероятност) да се тълкува доверителният интервал по този начин, концептуално е по-лесно за разбиране.

Използване T-разпространение

Можете да използвате нормалното разпределение, ако знаете стойността на дисперсията в популацията. Освен това, когато размерът на извадката е малък, средната стойност на извадката следва нормално разпределение, ако данните, които са в основата на популацията, са нормално разпределени.

Ако данните, които са в основата на популацията, не са нормално разпределени и/или общата дисперсия (популационната дисперсия) е неизвестна, средната стойност на извадката се подчинява t-разпределение на Стюдънт.

Изчислете 95% доверителен интервал за средната популация, както следва:

Къде - процентен пункт (персентил) T-Разпределение на студент с (n-1) степени на свобода, което дава двустранна вероятност от 0,05.

Като цяло той предоставя по-широк интервал, отколкото при използване на нормално разпределение, тъй като взема предвид допълнителната несигурност, която се въвежда чрез оценяване на стандартното отклонение на популацията и/или поради малкия размер на извадката.

Когато размерът на извадката е голям (от порядъка на 100 или повече), разликата между двете разпределения ( t-студенти нормално) е незначително. Въпреки това, винаги използвайте T-разпределение при изчисляване на доверителните интервали, дори ако размерът на извадката е голям.

Обикновено се посочва 95% CI. Други доверителни интервали могат да бъдат изчислени, като 99% CI за средната стойност.

Вместо произведение на стандартна грешка и таблична стойност T-разпределение, което съответства на двустранна вероятност от 0,05, умножете го (стандартна грешка) по стойност, която съответства на двустранна вероятност от 0,01. Това е по-широк доверителен интервал, отколкото в случая с 95%, тъй като отразява повишената увереност, че интервалът наистина включва средната стойност на съвкупността.

Доверителен интервал за пропорцията

Извадковото разпределение на пропорциите има биномиално разпределение. Въпреки това, ако размерът на извадката нразумно голямо, тогава пропорционалното разпределение на извадката е приблизително нормално със средна стойност .

Оценка чрез съотношение на вземане на проби p=r/n(където r- броят на индивидите в извадката с характерни особености), и стандартната грешка се оценява:

95% доверителен интервал за пропорцията се изчислява:

Ако размерът на извадката е малък (обикновено когато npили n(1-p)по-малко 5 ), тогава трябва да се използва биномното разпределение, за да се изчислят точните доверителни интервали.

Имайте предвид, че ако стризразено като процент, тогава (1-p)заменен от (100p).

Тълкуване на доверителни интервали

Когато интерпретираме доверителния интервал, ние се интересуваме от следните въпроси:

Колко широк е доверителният интервал?

Широкият доверителен интервал показва, че оценката е неточна; тясна показва добра оценка.

Широчината на доверителния интервал зависи от размера на стандартната грешка, която от своя страна зависи от размера на извадката, и когато се разглежда числова променлива от променливостта на данните, дават по-широки доверителни интервали, отколкото проучванията на голям набор от данни от няколко променливи.

CI включва ли стойности от особен интерес?

Можете да проверите дали вероятната стойност за параметър на популацията попада в доверителен интервал. Ако да, тогава резултатите са в съответствие с тази вероятна стойност. Ако не, тогава е малко вероятно (за 95% доверителен интервал шансът е почти 5%) параметърът да има тази стойност.

Споделете с приятели или запазете за себе си:

Зареждане...