Доверителни интервали за математическо очакване, дисперсия, вероятност. Разрешаване на проблем

ДОВЕРИТЕЛЕН ИНТЕРВАЛ ЗА ОЧАКВАНЕ

1. Нека се знае, че сл. количеството x се подчинява нормален законс неизвестна средна стойност μ и известно σ 2: X~N(μ,σ 2), σ 2 е дадено, μ не е известно. Като се има предвид β. Въз основа на извадката x 1, x 2, …, x n е необходимо да се конструира I β (θ) (сега θ=μ), удовлетворяващ (13)

Средната стойност на извадката (те също така казват средна стойност на извадката) се подчинява на нормалния закон със същия център μ, но по-малка дисперсия X~N (μ, D), където дисперсията е D =σ 2 =σ 2 /n.

Нуждаем се от числото K β, определено за ξ~N(0,1) от условието

С думи: между точките -K β и K β на оста x лежи площта под кривата на плътност на стандартния нормален закон, равна на β

Например K 0,90 \u003d 1,645 квантил на нивото 0,95 на стойността ξ

К 0,95 = 1,96. ; K 0,997 \u003d 3.

По-специално, като отделим 1,96 стандартни отклонения вдясно и същото количество вляво от центъра на всеки нормален закон, ще уловим площта под кривата на плътността, равна на 0,95, поради което K 0 95 е квантилът на нивото 0,95 + 1/2 * 0,005 = 0,975 за този закон.

Търсене доверителен интервалза общата средна стойност μ е I A (μ) = (x-σ, x+σ),

където δ = (15)

Нека се обосновем:

Според казаното, стойността попада в интервала J=μ±σ с вероятност β (фиг. 9). В този случай стойността се отклонява от центъра μ по-малко от δ и произволния интервал ± δ (с произволен център и същата ширина като J) ще покрие точката μ. Това е Є Дж<=> μ Є аз β,и следователно Р(μЄІ β ) = Р( Є J )=β.

И така, извадково-константният интервал I β съдържа средното μ с вероятност β.

Ясно е, че колкото повече n, толкова по-малко σ и интервалът е по-тесен и колкото по-голяма е гаранцията β, толкова по-широк е доверителният интервал.

Пример 21.

Според извадката с n=16 за нормална стойност с известна дисперсияσ 2 =64 намерено x=200. Конструирайте доверителен интервал за общата средна стойност (с други думи, за математическото очакване) μ, като приемете, че β=0,95.

Решение. I β (μ)= ± δ, където δ = К β σ/ -> К β σ/ =1,96*8/ = 4

I 0,95 (μ)=200 4=(196;204).

Заключавайки, че с гаранция от β=0,95 истинската средна стойност принадлежи на интервала (196,204), разбираме, че е възможна грешка.

От 100 доверителни интервала I 0,95 (μ), средно 5 не съдържат μ.

Пример 22.

В условията на предишния пример 21, какво трябва да се вземе n, за да се намали наполовина доверителният интервал? За да имаме 2δ=4, трябва да вземем

В практиката често се използват едностранни доверителни интервали. Така че, ако високите стойности на μ са полезни или не са ужасни, но ниските не са приятни, както в случая на сила или надеждност, тогава е разумно да се изгради едностранен интервал. За да направите това, трябва да повишите максимално горната му граница. Ако изградим, както в пример 21, двустранен доверителен интервал за даден β и след това го разширим колкото е възможно повече поради една от границите, тогава получаваме едностранен интервал с по-голяма гаранция β" = β + (1-β) / 2 = (1+ β)/2, например, ако β = 0,90, тогава β = 0,90 + 0,10/2 = 0,95.

Например ще приемем, че говорим за силата на продукта и ще повишим горната граница на интервала до . Тогава за μ в пример 21 получаваме едностранен доверителен интервал (196,°°) с долна граница от 196 и ниво на увереностβ"=0,95+0,05/2=0,975.

Практическият недостатък на формула (15) е, че тя е получена при допускането, че дисперсията = σ 2 (следователно = σ 2 /n) е известна; а това рядко се случва в реалния живот. Изключение прави случаят, когато размерът на извадката е голям, да речем, n се измерва в стотици или хиляди и тогава за σ 2 можем практически да вземем неговата оценка s 2 или .

Пример 23.

Да предположим, че в някои голям градв резултат на извадково проучване на условията на живот на жителите беше получена следната таблица с данни (пример от работа).

Таблица 8

Изходни данни например

Естествено е да се предположи, че стойност X - общата (полезна) площ (в m 2) на човек се подчинява на нормалния закон. Средната стойност μ и дисперсията σ 2 не са известни. За μ се изисква да се изгради 95% доверителен интервал. За да намерим примерните средни стойности и дисперсията от групираните данни, ще съставим следната таблица с изчисления (Таблица 9).

Таблица 9

X и 5 изчисления върху групирани данни

N група h Обща площ на 1 човек, m 2 Брой жители в групата r j Средата на интервала x j r j x j rjxj 2
До 5.0 2.5 20.0 50.0
5.0-10.0 7.5 712.5 5343.75
10.0-15.0 12.5 2550.0 31875.0
15.0-20.0 17.5 4725.0 82687.5
20.0-25.0 22.5 4725.0 106312.5
25.0-30.0 27.5 3575.0 98312.5
над 30.0 32.5 * 2697.5 87668.75
- 19005.0 412250.0

В тази помощна таблица по формула (2) се изчисляват първия и втория начален статистически момент а 1и а 2

Въпреки че дисперсията σ 2 тук е неизвестна, поради големия размер на извадката формула (15) може да се приложи на практика, като в нея се зададе σ= =7,16.

Тогава δ=k 0,95 σ/ =1,96*7,16/ =0,46.

Доверителният интервал за общата средна стойност при β=0,95 е I 0,95 (μ) = ± δ = 19 ± 0,46 = (18,54; 19,46).

Следователно средната площ на човек в този градс гаранция от 0.95 лъжи в интервала (18.54; 19.46).



2. Доверителен интервал за математическото очакване μ в случай на неизвестна дисперсия σ 2 на нормалната стойност. Този интервал за дадена гаранция β се конструира по формулата , където ν = n-1,

(16)

Коефициентът t β,ν има същото значение за t - разпределение с ν степени на свобода, както за β за разпределението N(0,1), а именно:

.

С други думи, сл. Стойността tν попада в интервала (-t β,ν ; +t β,ν) с вероятност β. Стойностите на t β,ν са дадени в таблица 10 за β=0,95 и β=0,99.

Таблица 10

Стойности t β,ν

Връщайки се към пример 23, виждаме, че доверителният интервал в него е изграден по формулата (16) с коефициент t β,υ =k 0..95 =1.96, тъй като n=1000.

Доверителен интервал за математическо очакване е интервал, изчислен от данните, които с известна вероятност съдържат очаквана стойностобщото население. Естествената оценка за математическото очакване е средноаритметичната стойност на неговите наблюдавани стойности. Ето защо по-нататък по време на урока ще използваме термините "средно", "средна стойност". В задачите за изчисляване на доверителния интервал най-често изискваният отговор е „Доверителният интервал на средното число [стойност в конкретен проблем] е от [по-ниска стойност] до [по-висока стойност]”. С помощта на доверителния интервал е възможно да се оценят не само средните стойности, но и делът на една или друга характеристика на генералната съвкупност. Средни стойности, дисперсия, стандартно отклонениеи грешката, чрез която ще стигнем до нови определения и формули, се анализират в урока Характеристики на извадката и популацията .

Точкови и интервални оценки на средната стойност

Ако средната стойност на генералната съвкупност се оценява с число (точка), тогава за оценката на неизвестното среден размерот генералната съвкупност се взема специфична средна стойност, която се изчислява от извадка от наблюдения. В този случай стойността на средната стойност на извадката - случайна променлива - не съвпада със средната стойност на генералната съвкупност. Следователно, когато се посочва средната стойност на извадката, е необходимо едновременно да се посочи и грешката на извадката. Стандартната грешка се използва като мярка за грешка на извадката, която се изразява в същите единици като средната стойност. Поради това често се използва следното обозначение: .

Ако се изисква оценката на средната стойност да бъде свързана с определена вероятност, тогава параметърът на общата съвкупност от интереси трябва да бъде оценен не с едно число, а с интервал. Доверителният интервал е интервал, в който с определена вероятност Пнамира се стойността на оценения показател на генералната съвкупност. Доверителен интервал, в който с вероятност П = 1 - α е случайна променлива, се изчислява, както следва:

,

α = 1 - П, който може да се намери в приложението към почти всяка книга по статистика.

На практика средната стойност на съвкупността и дисперсията не са известни, така че дисперсията на популацията се заменя с дисперсията на извадката, а средната популация с извадковата средна стойност. По този начин доверителният интервал в повечето случаи се изчислява, както следва:

.

Формулата на доверителния интервал може да се използва за оценка на средната стойност на популацията if

  • стандартното отклонение на генералната съвкупност е известно;
  • или стандартното отклонение на популацията не е известно, но размерът на извадката е по-голям от 30.

Средната стойност на извадката е безпристрастна оценка на средната стойност на популацията. На свой ред дисперсията на извадката не е безпристрастна оценка на дисперсията на популацията. За да се получи безпристрастна оценка на вариацията на популацията във формулата за вариация на извадката, размерът на извадката е нтрябва да се замени с н-1.

Пример 1Събира се информация от 100 произволно избрани кафенета в даден град, че средният брой служители в тях е 10,5 при стандартно отклонение от 4,6. Определете доверителния интервал от 95% от броя на служителите в кафенето.

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

По този начин 95% доверителен интервал за средния брой служители в кафенето е между 9,6 и 11,4.

Пример 2За произволна извадка от обща съвкупност от 64 наблюдения бяха изчислени следните общи стойности:

сбор от стойности в наблюденията,

сума на квадратните отклонения на стойностите от средната стойност .

Изчислете 95% доверителен интервал за очакваната стойност.

изчислете стандартното отклонение:

,

изчислете средната стойност:

.

Заменете стойностите в израза за доверителния интервал:

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

Получаваме:

Така 95% доверителният интервал за математическото очакване на тази извадка варира от 7,484 до 11,266.

Пример 3За произволна извадка от обща популация от 100 наблюдения бяха изчислени средна стойност от 15,2 и стандартно отклонение от 3,2. Изчислете 95% доверителен интервал за очакваната стойност, след това 99% доверителен интервал. Ако мощността на извадката и нейната вариация останат същите, но факторът на доверие се увеличи, ще се стесни или разшири доверителният интервал?

Ние заместваме тези стойности в израза за доверителния интервал:

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

Получаваме:

.

Така 95% доверителният интервал за средната стойност на тази извадка е от 14,57 до 15,82.

Отново заместваме тези стойности в израза за доверителния интервал:

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,01 .

Получаваме:

.

По този начин 99% доверителен интервал за средната стойност на тази извадка е от 14,37 до 16,02.

Както можете да видите, с увеличаването на фактора на доверие критичната стойност на стандартното нормално разпределение също се увеличава и следователно началната и крайната точка на интервала са разположени по-далеч от средната стойност и по този начин интервалът на доверие за математическото очакване се увеличава.

Точкови и интервални оценки на специфичното тегло

Специфичното тегло на някои характеристики на извадката може да се тълкува като точкова оценкаспецифично тегло стрсъщата черта в общата популация. Ако тази стойност трябва да бъде свързана с вероятност, тогава трябва да се изчисли доверителният интервал на специфичното тегло стрхарактеристика в общата популация с вероятност П = 1 - α :

.

Пример 4В даден град има двама кандидати Аи бсе кандидатира за кмет. На случаен принцип са анкетирани 200 жители на града, от които 46% са отговорили, че ще гласуват за кандидата А, 26% - за кандидата ба 28% не знаят за кого ще гласуват. Определете 95% доверителен интервал за дела на жителите на града, които подкрепят кандидата А.

Нека CB X образува популацията и β е неизвестен параметър CB X. Ако статистическата оценка в * е последователна, тогава колкото по-голям е размерът на извадката, толкова по-точна е стойността на β. На практика обаче нямаме много големи проби, така че не можем да гарантираме по-голяма точност.

Нека s* е статистическа оценка за s. Количество |in* - in| се нарича точност на оценката. Ясно е, че точността е CB, тъй като s* е случайна променлива. Нека зададем малко положително число 8 и изискваме точността на оценката |in* - in| беше по-малко от 8, т.е. | в* - в |< 8.

Надеждността g или доверителната вероятност на оценката in by in * е вероятността g, с която неравенството |in * - in|< 8, т. е.

Обикновено надеждността на g се задава предварително и за g се приема число, близко до 1 (0,9; 0,95; 0,99; ...).

Тъй като неравенството |in * - in|< S равносильно двойному неравенству в* - S < в < в* + 8, то получаем:

Интервалът (в * - 8, в * + 5) се нарича доверителен интервал, т.е. доверителният интервал покрива неизвестния параметър в с вероятност y. Обърнете внимание, че краищата на доверителния интервал са произволни и варират от проба на проба, така че е по-точно да се каже, че интервалът (при * - 8, при * + 8) покрива неизвестния параметър β, а не β принадлежи към този интервал .

Позволявам населениесе дава от случайна променлива X, разпределена по нормалния закон, освен това средната стандартно отклонениено се знае. Математическото очакване a = M (X) е неизвестно. Изисква се да се намери доверителен интервал за a за дадена надеждност y.

Примерна средна стойност

е статистическа оценказа xr = a.

Теорема. Случайна стойност xB има нормална дистрибуцияако X има нормално разпределение и M(XB) = a,

A (XB) \u003d a, където a \u003d y / B (X), a \u003d M (X). л/и

Доверителният интервал за a има формата:

Намираме 8.

Използвайки съотношението

където Ф(г) е функцията на Лаплас, имаме:

P ( | XB - a |<8} = 2Ф

намираме стойността на t в таблицата със стойности на функцията на Лаплас.

Обозначаване

T, получаваме F(t) = g

От равенството Find - точността на оценката.

Така доверителният интервал за a има формата:

Ако се даде извадка от общата популация X

нг да се" X2 xm
н. n1 n2 nm

n = U1 + ... + nm, тогава доверителният интервал ще бъде:

Пример 6.35. Намерете доверителния интервал за оценка на очакването a на нормално разпределение с надеждност 0,95, като знаете средната стойност на извадката Xb = 10,43, размера на извадката n = 100 и стандартното отклонение s = 5.

Нека използваме формулата

Нека една случайна променлива (може да говорим за генерална съвкупност) е разпределена по нормалния закон, за който е известна дисперсията D = 2 (> 0). От генералната съвкупност (на набор от обекти, от които се определя случайна променлива) се прави извадка с размер n. Извадката x 1 , x 2 ,..., x n се разглежда като набор от n независими случайни променливи, разпределени по същия начин като (подхода, обяснен по-горе в текста).

Преди това бяха обсъдени и доказани следните равенства:

Mx 1 = Mx 2 = ... = Mx n = M;

Dx 1 = Dx 2 = ... = Dx n = D;

Достатъчно е просто да докажем (пропускаме доказателството), че случайната променлива в този случай също е разпределена по нормалния закон.

Нека означим неизвестната стойност M с a и изберем числото d > 0 според дадената надеждност, така че да е изпълнено следното условие:

P(-a< d) = (1)

Тъй като случайната променлива се разпределя по нормалния закон с математическото очакване M = M = a и дисперсията D = D /n = 2 /n, получаваме:

P(-a< d) =P(a - d < < a + d) =

Остава да изберем d така, че равенството

За всяко едно може да се намери такова число t от таблицата, че (t) \u003d / 2. Това число t понякога се нарича квантил.

Сега от равенството

дефинирайте стойността на d:

Получаваме крайния резултат, като представяме формула (1) във формата:

Значението на последната формула е следното: с надеждност, доверителният интервал

обхваща неизвестния параметър a = M от популацията. Може да се каже по различен начин: точковата оценка определя стойността на параметъра M с точност d= t / и надеждност.

Задача. Нека има генерална съвкупност с някаква характеристика, разпределена по нормалния закон с дисперсия, равна на 6,25. Направена е извадка с размер n = 27 и е получена средната извадкова стойност на характеристиката = 12. Намерете доверителния интервал, покриващ неизвестното математическо очакване на изследваната характеристика на генералната съвкупност с надеждност = 0,99.

Решение. Първо, използвайки таблицата за функцията на Лаплас, намираме стойността на t от равенството (t) \u003d / 2 \u003d 0,495. Въз основа на получената стойност t = 2,58 определяме точността на оценката (или половината от дължината на доверителния интервал) d: d = 2,52,58 / 1,24. От тук получаваме желания доверителен интервал: (10.76; 13.24).

статистическа хипотеза обща вариационна

Доверителен интервал за очакване на нормално разпределение с неизвестна дисперсия

Нека е случайна променлива, разпределена по нормалния закон с неизвестно математическо очакване M, което означаваме с буквата a . Нека направим извадка с размер n. Нека определим средната извадка и коригираната дисперсия на извадката s 2, като използваме известни формули.

Случайна стойност

разпределени по закона на Стюдънт с n - 1 степени на свобода.

Задачата е да се намери такова число t според дадената надеждност и броя на степените на свобода n - 1, така че равенството

или еквивалентно равенство

Тук в скоби е записано условието стойността на неизвестния параметър a да принадлежи към определен интервал, който е доверителният интервал. Неговите граници зависят от надеждността, както и от параметрите на вземане на проби и s.

За да определим стойността на t по величина, трансформираме равенството (2) във формата:

Сега, според таблицата за случайна променлива t, разпределена по закона на Стюдънт, според вероятността 1 - и броя на степените на свобода n - 1, намираме t. Формула (3) дава отговор на проблема.

Задача. При контролни тестове на 20 електрически лампи средната продължителност на тяхната работа е равна на 2000 часа със стандартно отклонение (изчислено като корен квадратен от коригираната дисперсия на извадката) равно на 11 часа. Известно е, че продължителността на работа на лампата е случайна величина с нормално разпределение. Определете с надеждност 0,95 доверителния интервал за математическото очакване на тази случайна променлива.

Решение. Стойността 1 - в този случай е равна на 0,05. Според таблицата за разпределение на Стюдънт, при брой на степените на свобода, равен на 19, намираме: t = 2,093. Нека сега изчислим точността на оценката: 2,093121/ = 56,6. От тук получаваме желания доверителен интервал: (1943.4; 2056.6).

Нека се направи извадка от обща съвкупност, подчинена на закона нормалноразпространение хN( м; ). Това основно допускане на математическата статистика се основава на централната гранична теорема. Нека общото стандартно отклонение е известно , но математическото очакване на теоретичното разпределение е неизвестно м(означава ).

В този случай средната стойност на извадката , получена по време на експеримента (раздел 3.4.2), също ще бъде случайна променлива м;
). След това "нормализираното" отклонение
N(0;1) е стандартна нормална случайна променлива.

Проблемът е да се намери интервална оценка за м. Нека конструираме двустранен доверителен интервал за м така че истинското математическо очакване да му принадлежи с дадена вероятност (надеждност) .

Задайте такъв интервал за стойността
означава да се намери максималната стойност на това количество
и минимум
, които са границите на критичната област:
.

защото тази вероятност е
, тогава коренът на това уравнение
може да се намери с помощта на таблиците на функцията на Лаплас (Таблица 3, Приложение 1).

Тогава с вероятност може да се твърди, че случайната величина
, тоест желаната обща средна принадлежи на интервала
. (3.13)

стойността
(3.14)

Наречен точностоценки.

Брой
квантилнормално разпределение - може да се намери като аргумент на функцията на Лаплас (Таблица 3, Приложение 1), като се има предвид отношението 2Ф( u)=, т.е. F( u)=
.

Обратно, според зададената стойност на отклонението възможно е да се намери с каква вероятност неизвестната обща средна принадлежи на интервала
. За да направите това, трябва да изчислите

. (3.15)

Нека бъде взета произволна извадка от генералната съвкупност по метода на повторната селекция. От уравнението
може да се намери минимумобем на повторно вземане на проби ннеобходими, за да се гарантира, че доверителният интервал с дадена надеждност не надвишава предварително зададената стойност . Необходимият размер на извадката се изчислява по формулата:

. (3.16)

Изследване точност на оценката
:

1) С увеличаване на размера на извадката нвеличина намалява, а оттам и точността на оценката се увеличава.

2) В нарастванадеждност на оценките стойността на аргумента се увеличава u(защото Е(u) нараства монотонно) и следователно се увеличава . В този случай увеличаването на надеждността намаляваточността на неговата оценка .

Оценка
(3.17)

Наречен класически(където Tе параметър, който зависи от и н), защото той характеризира най-често срещаните закони на разпределение.

3.5.3 Доверителни интервали за оценка на очакването на нормално разпределение с неизвестно стандартно отклонение 

Нека се знае, че генералната съвкупност е подчинена на закона за нормалното разпределение хN( м;), където стойността корен квадратенотклонения неизвестен.

За да се изгради доверителен интервал за оценка на общата средна стойност, в този случай се използва статистика
, който има разпределение на Student с к= н–1 степен на свобода. Това следва от факта, че N(0;1) (виж т. 3.5.2), и
(вижте точка 3.5.3) и от дефиницията на разпределението на Стюдънт (част 1. точка 2.11.2).

Нека намерим точността на класическата оценка на разпределението на Стюдънт: т.е. намирам Tот формула (3.17). Нека вероятността за изпълнение на неравенството
дадено от надеждност :

. (3.18)

Тъй като TSt( н-1), очевидно е, че Tзависи от и н, така че обикновено пишем
.

(3.19)

където
е функцията на разпределение на Стюдънт с н-1 степен на свобода.

Решаване на това уравнение за м, получаваме интервала
който с надеждност  покрива неизвестния параметър м.

Стойност T , н-1 , използван за определяне на доверителния интервал на случайна променлива T(н-1), разпространен от Студент с н-1 степен на свобода се нарича Студентски коефициент. Трябва да се намери по дадени стойности ни  от таблиците "Критични точки на разпределението на Стюдънт". (Таблица 6, Приложение 1), които са решенията на уравнение (3.19).

В резултат на това получаваме следния израз точност доверителен интервал за оценка на математическото очакване (общо средно), ако дисперсията е неизвестна:

(3.20)

По този начин има обща формула за конструиране на доверителни интервали за математическото очакване на общата съвкупност:

където е точността на доверителния интервал в зависимост от известната или неизвестната дисперсия се намира по формулите съответно 3.16. и 3.20.

Задача 10.Бяха проведени някои тестове, резултатите от които са посочени в таблицата:

х аз

Известно е, че те се подчиняват на нормалния закон за разпределение с
. Намерете оценка м* за математическо очакване м, изградете 90% доверителен интервал за него.

Решение:

Така, м(2.53;5.47).

Задача 11.Дълбочината на морето се измерва с инструмент, чиято системна грешка е 0, а случайните грешки се разпределят по нормалния закон със стандартно отклонение =15м. Колко независими измервания трябва да се направят, за да се определи дълбочината с грешки не повече от 5 m с ниво на сигурност 90%?

Решение:

Според условието на проблема имаме хN( м; ), където =15 м, =5m, =0,9. Нека намерим обема н.

1) При дадена надеждност = 0,9 намираме от таблици 3 (Приложение 1) аргумента на функцията на Лаплас u = 1.65.

2) Познаване на дадената точност на оценката =u=5, намери
. Ние имаме

. Следователно броят на опитите н25.

Задача 12.Температурно вземане на проби Tза първите 6 дни на януари е представен в таблицата:

Намерете интервал на доверие за очакване мобща популация с доверителна вероятност
и изчислете общото стандартно отклонение с.

Решение:


и
.

2) Безпристрастна оценка намерете по формула
:

=-175

=234.84

;
;

=-192

=116


.

3) Тъй като общата дисперсия е неизвестна, но нейната оценка е известна, тогава да се оцени математическото очакване мизползваме разпределение на Стюдънт (Таблица 6, Приложение 1) и формула (3.20).

защото н 1 =н 2 =6, тогава,
, с 1 =6,85 имаме:
, следователно -29.2-4.1<м 1 < -29.2+4.1.

Следователно -33,3<м 1 <-25.1.

По същия начин имаме
, с 2 = 4,8, така че

–34.9< м 2 < -29.1. Тогда доверительные интервалы примут вид: м 1 (-33,3;-25,1) и м 2 (-34.9;-29.1).

В приложните науки, например в строителните дисциплини, за оценка на точността на обектите се използват таблици с доверителни интервали, които са дадени в съответната справочна литература.

Споделете с приятели или запазете за себе си:

Зареждане...