Биномиално разпределение на случайна променлива.


Разбира се, когато се изчислява функцията на кумулативното разпределение, трябва да се използва споменатата връзка между биномното и бета разпределението. Този метод със сигурност е по-добър от директното сумиране, когато n > 10.

В класическите учебници по статистика, за да се получат стойностите на биномното разпределение, често се препоръчва използването на формули, базирани на гранични теореми (като формулата на Moivre-Laplace). трябва да бъде отбелязано че от чисто изчислителна гледна точкастойността на тези теореми е близка до нула, особено сега, когато на почти всяка маса има мощен компютър. Основният недостатък на горните приближения е тяхната напълно недостатъчна точност за стойностите на n, характерни за повечето приложения. Не по-малък недостатък е липсата на ясни препоръки относно приложимостта на едно или друго приближение (в стандартните текстове са дадени само асимптотични формулировки, те не са придружени от оценки на точността и следователно са малко полезни). Бих казал, че и двете формули са валидни само за n< 200 и для совсем грубых, ориентировочных расчетов, причем делаемых “вручную” с помощью статистических таблиц. А вот связь между биномиальным распределением и бета-распределением позволяет вычислять биномиальное распределение достаточно экономно.

Тук не разглеждам проблема с намирането на квантили: за дискретни разпределения той е тривиален и в онези проблеми, при които възникват такива разпределения, той като правило не е от значение. Ако все още са необходими квантили, препоръчвам да преформулирате проблема по такъв начин, че да работите с p-стойности (наблюдавани значимости). Ето един пример: когато се прилагат някои алгоритми за изброяване, на всяка стъпка се изисква проверка статистическа хипотезаза биномна случайна променлива. Според класическия подход на всяка стъпка е необходимо да се изчисли статистиката на критерия и да се сравни стойността му с границата на критичното множество. Тъй като обаче алгоритъмът е изброителен, е необходимо всеки път да се определя границата на критичния набор (в края на краищата размерът на извадката се променя от стъпка на стъпка), което непродуктивно увеличава разходите за време. Съвременният подход препоръчва изчисляване на наблюдаваната значимост и сравняването й с ниво на увереност, спестявайки търсенето на квантили.

Следователно следните кодове не изчисляват обратната функция, вместо това е дадена функцията rev_binomialDF, която изчислява вероятността p за успех в едно изпитание при даден брой n опити, брой m успехи в тях и стойността y от вероятността за постигане на тези m успеха. Това използва гореспоменатата връзка между биномното и бета разпределението.

Всъщност тази функция ви позволява да получите границите на доверителните интервали. Наистина, да предположим, че имаме m успеха в n биномни изпитания. Както е известно, лявата граница на двустранния доверителен интервал за параметъра p с ниво на достоверност е 0, ако m = 0, а за е решението на уравнението . По същия начин, дясната граница е 1, ако m = n, и за е решение на уравнението . Това означава, че за да намерим лявата граница, трябва да решим уравнението , и да търсим правилното - уравнението . Те се решават във функциите binom_leftCI и binom_rightCI, които връщат съответно горната и долната граница на двустранния доверителен интервал.

Искам да отбележа, че ако не е необходима абсолютно невероятна точност, тогава за достатъчно голямо n можете да използвате следното приближение [B.L. Ван дер Варден, Математическа статистика. M: IL, 1960, гл. 2, сек. 7]: , където g е квантилът на нормалното разпределение. Стойността на това приближение е, че има много прости приближения, които ви позволяват да изчислите квантилите на нормалното разпределение (вижте текста за изчисляване на нормалното разпределение и съответния раздел на този справочник). В моята практика (основно за n > 100) това приближение даде около 3-4 цифри, което като правило е напълно достатъчно.

Изчисленията със следните кодове изискват файловете betaDF.h, betaDF.cpp (вижте раздела за бета разпространение), както и logGamma.h, logGamma.cpp (вижте приложение A). Можете също да видите пример за използване на функции.

binomialDF.h файл

#ifndef __BINOMIAL_H__ #include "betaDF.h" двоен биномDF(двойни опити, двойни успехи, двойно p); /* * Нека има "изпитания" на независими наблюдения * с вероятност "p" за успех във всяко. * Изчислете вероятността B(successes|trials,p), че броят * на успехите е между 0 и "successes" (включително). */ double rev_binomialDF(двойни опити, двойни успехи, двойно y); /* * Нека вероятността y за най-малко m успеха * е известна в опитите на схемата на Бернули. Функцията намира вероятността p * за успех в едно изпитание. * * При изчисленията се използва следната връзка * * 1 - p = rev_Beta(проби-успехи| успехи+1, y). */ double binom_leftCI(двойни опити, двойни успехи, двойно ниво); /* Нека има "изпитания" на независими наблюдения * с вероятност "p" за успех във всяко * и броят на успехите е "успехи". * Лявата граница на двустранния доверителен интервал * се изчислява с нивото на значимост. */ double binom_rightCI(double n, двойни успехи, двойно ниво); /* Нека има "изпитания" на независими наблюдения * с вероятност "p" за успех във всяко * и броят на успехите е "успехи". * Дясната граница на двустранния доверителен интервал * се изчислява с нивото на значимост. */ #endif /* Завършва #ifndef __BINOMIAL_H__ */

файл binomialDF.cpp

/**************************************************** **** **********/ /* Биномно разпределение */ /**************************** **** ***************************/ #включи #включи #include "betaDF.h" ENTRY double binomialDF(double n, double m, double p) /* * Нека има "n" независими наблюдения * с вероятност "p" за успех във всяко. * Изчислете вероятността B(m|n,p), че броят на успехите е * между 0 и "m" (включително), т.е. * сума от биномни вероятности от 0 до m: * * m * -- (n) j n-j * > () p (1-p) * -- (j) * j=0 * * Изчисленията не предполагат глупаво сумиране - * се използва следната връзка с централното бета разпределение: * * B(m|n,p) = Beta(1-p|n-m,m+1). * * Аргументите трябва да са положителни, с 0<= p <= 1. */ { assert((n >0) && (p >= 0) && (p<= 1)); if (m < 0) return 0; else if (m == 0) return pow(1-p, n); else if (m >= n) връщане 1; иначе връща BetaDF(n-m, m+1).value(1-p); )/* binomialDF */ ENTRY double rev_binomialDF(double n, double m, double y) /* * Нека вероятността y за поне m успеха * е известна в n опита на схемата на Бернули. Функцията намира вероятността p * за успех в едно изпитание. * * При изчисленията се използва следната връзка * * 1 - p = rev_Beta(y|n-m,m+1). */ ( assert((n > 0) && (m >= 0) && (m<= n) && (y >= 0) && (y<= 1)); return 1-BetaDF(n-m, m+1).inv(y); }/*rev_binomialDF*/ ENTRY double binom_leftCI(double n, double m, double y) /* Пусть имеется "n" независимых наблюдений * с вероятностью "p" успеха в каждом * и количество успехов равно "m". * Вычисляется левая граница двухстороннего доверительного интервала * с уровнем значимости y. */ { assert((n >0) && (m >= 0) && (m<= n) && (y >= 0,5) && (y< 1)); return BetaDF(m, n-m+1).inv((1-y)/2); }/*binom_leftCI*/ ENTRY double binom_rightCI(double n, double m, double y) /* Пусть имеется "n" независимых наблюдений * с вероятностью "p" успеха в каждом * и количество успехов равно "m". * Вычисляется правая граница доверительного интервала * с уровнем значимости y. */ { assert((n >0) && (m >= 0) && (m<= n) && (y >= 0,5) && (y< 1)); return BetaDF(m+1, n-m).inv((1+y)/2); }/*binom_rightCI*/

Глава 7

Специфични закони на разпределение на случайни величини

Видове закони на разпределение на дискретни случайни величини

Нека дискретна случайна променлива приема стойностите х 1 , х 2 , …, x n, … . Вероятностите на тези стойности могат да бъдат изчислени с помощта на различни формули, например с помощта на основните теореми на теорията на вероятностите, формулата на Бернули или някои други формули. За някои от тези формули законът за разпределение има собствено име.

Най-често срещаните закони на разпределение на дискретна случайна променлива са биномен, геометричен, хипергеометричен, закон на разпределение на Поасон.

Биномен закон на разпределение

Нека се произвежда ннезависими изпитания, във всяко от които дадено събитие може или не може да се случи НО. Вероятността за настъпване на това събитие във всеки отделен опит е постоянна, не зависи от номера на опита и е равна на Р=Р(НО). Оттук и вероятността събитието да не се случи НОвъв всеки тест също е постоянна и равна на р=1–Р. Помислете за случайна променлива хравен на броя повторения на събитието НОв нтестове. Очевидно е, че стойностите на това количество са равни на

х 1 =0 - събитие НОв нтестове не се появиха;

х 2 =1 – събитие НОв нопити се появиха веднъж;

х 3 =2 - събитие НОв низпитания се появиха два пъти;

…………………………………………………………..

x n +1 = н- събитие НОв нтестове се появи всичко нведнъж.

Вероятностите на тези стойности могат да бъдат изчислени с помощта на формулата на Бернули (4.1):

където да се=0, 1, 2, …,н .

Биномен закон на разпределение хравен на броя на успехите в нИзпитания на Бернули, с вероятност за успех Р.

И така, дискретна случайна променлива има биномиално разпределение (или се разпределя според биномиалния закон), ако нейните възможни стойности са 0, 1, 2, …, н, а съответните вероятности се изчисляват по формула (7.1).

Биномното разпределение зависи от две параметри Ри н.

Серията на разпределение на случайна променлива, разпределена според биномиалния закон, има формата:

х к н
Р

Пример 7.1 . Произвеждат се три независими изстрела по целта. Вероятността за уцелване на всеки удар е 0,4. Случайна стойност х- броят на попаденията в целта. Конструирайте неговите разпределителни серии.

Решение. Възможни стойности на случайна променлива хса х 1 =0; х 2 =1; х 3 =2; х 4=3. Намерете съответните вероятности, като използвате формулата на Бернули. Лесно е да се покаже, че прилагането на тази формула тук е напълно оправдано. Имайте предвид, че вероятността да не уцелите целта с един изстрел ще бъде равна на 1-0,4=0,6. Вземете

Серията на разпространение има следната форма:

х
Р 0,216 0,432 0,288 0,064

Лесно се проверява, че сумата от всички вероятности е равна на 1. Самата случайна променлива хразпределени по биномния закон. ■

Нека намерим математическото очакване и дисперсията на случайна променлива, разпределена според биномния закон.

При решаването на пример 6.5 беше показано, че математическото очакване на броя на събитията на събитие НОв ннезависими тестове, ако вероятността за възникване НОвъв всеки тест е постоянен и равен Р, се равнява н· Р

В този пример е използвана случайна променлива, разпределена според биномния закон. Следователно решението на пример 6.5 всъщност е доказателство на следната теорема.

Теорема 7.1.Математическото очакване на дискретна случайна променлива, разпределена според биномиалния закон, е равно на произведението от броя опити и вероятността за "успех", т.е. М(х)=н· Р.

Теорема 7.2.Дисперсията на дискретна случайна променлива, разпределена според биномиалния закон, е равна на произведението на броя опити с вероятността за "успех" и вероятността за "неуспех", т.е. д(х)=npq.

Асимметрията и ексцесът на случайна променлива, разпределени съгласно биномиалния закон, се определят от формулите

Тези формули могат да бъдат получени с помощта на концепцията за начален и централен момент.

Биномният закон за разпределение е в основата на много реални ситуации. За големи стойности нбиномното разпределение може да бъде апроксимирано чрез други разпределения, по-специално разпределението на Поасон.

Поасоново разпределение

Нека има нОпитите на Бернули, с броя на опитите ндостатъчно голям. По-рано беше показано, че в този случай (ако освен това вероятността Рразработки НОмного малка), за да намерите вероятността дадено събитие НОда се появи Tведнъж в тестовете можете да използвате формулата на Поасон (4.9). Ако случайната променлива хозначава броя на повторенията на събитието НОв нОпитите на Бернули, тогава вероятността, че хще придобие смисъла кможе да се изчисли по формулата

, (7.2)

където λ = np.

Закон за разпределение на Поасонсе нарича разпределение на дискретна случайна променлива х, за които възможните стойности са цели неотрицателни числа, и вероятностите p tтези стойности се намират по формула (7.2).

Стойност λ = npНаречен параметърПоасоново разпределение.

Случайна променлива, разпределена според закона на Поасон, може да приеме безкраен брой стойности. Тъй като за това разпределение вероятността Рпоявата на събитие във всеки опит е малка, тогава това разпределение понякога се нарича закон на редките явления.

Серията на разпределение на случайна променлива, разпределена според закона на Поасон, има формата

х T
Р

Лесно е да се провери, че сумата от вероятностите на втория ред е равна на 1. За да направим това, трябва да запомним, че функцията може да бъде разширена в серия на Маклорен, която се събира за всеки х. В този случай имаме

. (7.3)

Както беше отбелязано, законът на Поасон в някои ограничаващи случаи замества биномния закон. Пример за това е случайна променлива х, чиито стойности са равни на броя на повреди за определен период от време при многократно използване на техническо средство. Предполага се, че това устройство е с висока надеждност, т.е. вероятността от неуспех в едно приложение е много малка.

Освен такива ограничаващи случаи на практика има случайни величини, разпределени по закона на Поасон, несвързани с биномното разпределение. Например, разпределението на Поасон често се използва, когато се работи с броя на събитията, които се случват за период от време (броя на обажданията до телефонната централа за един час, броя на колите, пристигнали на автомивката през деня, броя на спиранията на машината на седмица и т.н.). Всички тези събития трябва да образуват така наречения поток от събития, който е една от основните концепции на теорията на опашките. Параметър λ характеризира средната интензивност на потока от събития.

За разлика от нормалното и равномерно разпределение, което описва поведението на променлива в извадката от изследвани субекти, биномното разпределение се използва за други цели. Той служи за прогнозиране на вероятността от две взаимно изключващи се събития в определен брой независими опити. Класически пример за биномно разпределение е хвърлянето на монета, която пада върху твърда повърхност. Два изхода (събития) са еднакво вероятни: 1) монетата пада „орел“ (вероятността е равна на Р) или 2) монетата пада „опашки“ (вероятността е равна на р). Ако не е даден трети резултат, тогава стр = р= 0,5 и стр + р= 1. Използвайки формулата за биномно разпределение, можете да определите например каква е вероятността при 50 опита (броя хвърляния на монети) последният да падне глави, да речем, 25 пъти.

За по-нататъшни разсъждения въвеждаме общоприетата нотация:

не общият брой наблюдения;

аз- броя на събитията (резултатите), които ни интересуват;

наз– брой алтернативни събития;

стр- емпирично определена (понякога - предполагаема) вероятност за събитие, което ни интересува;

ре вероятността от алтернативно събитие;

Пн ( аз) е предвидената вероятност за събитието, което ни интересува азза определен брой наблюдения н.

Формула за биномно разпределение:

В случай на равновероятен изход от събития ( p = q) можете да използвате опростената формула:

(6.8)

Нека разгледаме три примера, илюстриращи използването на формули за биномно разпределение в психологически изследвания.

Пример 1

Да приемем, че 3 ученика решават задача с повишена сложност. За всяка от тях са еднакво вероятни 2 изхода: (+) - решение и (-) - нерешение на задачата. Възможни са общо 8 различни изхода (2 3 = 8).

Вероятността нито един ученик да не се справи със задачата е 1/8 (вариант 8); 1 ученик ще изпълни задачата: П= 3/8 (варианти 4, 6, 7); 2 ученика - П= 3/8 (варианти 2, 3, 5) и 3 ученика – П=1/8 (вариант 1).

Необходимо е да се определи вероятността трима от 5 ученици да се справят успешно с тази задача.

Решение

Общо възможни резултати: 2 5 = 32.

Общият брой опции 3(+) и 2(-) е

Следователно вероятността за очаквания резултат е 10/32 » 0,31.

Пример 3

Упражнение

Определете вероятността 5 екстроверта да бъдат намерени в група от 10 произволни субекта.

Решение

1. Въведете обозначението: p=q= 0,5; н= 10; i = 5; P 10 (5) = ?

2. Използваме опростена формула (вижте по-горе):

Заключение

Вероятността 5 екстроверта да бъдат намерени сред 10 произволни субекта е 0,246.

Бележки

1. Изчисляването по формулата с достатъчно голям брой опити е доста трудоемко, поради което в тези случаи се препоръчва използването на таблици за биномно разпределение.

2. В някои случаи стойностите стри рможе да се зададе първоначално, но не винаги. По правило те се изчисляват въз основа на резултатите от предварителните тестове (пилотни проучвания).

3. В графично изображение (в координати P n(аз) = f(аз)) биномното разпределение може да има различна форма: в случая p = qразпределението е симетрично и наподобява нормалното разпределение на Гаус; асиметрията на разпределението е толкова по-голяма, колкото по-голяма е разликата между вероятностите стри р.

Поасоново разпределение

Разпределението на Поасон е специален случай на биномното разпределение, използвано, когато вероятността от интересни събития е много ниска. С други думи, това разпределение описва вероятността от редки събития. Формулата на Поасон може да се използва за стр < 0,01 и р ≥ 0,99.

Уравнението на Поасон е приблизително и се описва със следната формула:

(6.9)

където μ е произведението на средната вероятност на събитието и броя на наблюденията.

Като пример разгледайте алгоритъма за решаване на следния проблем.

Задачата

В продължение на няколко години в 21 големи клиники в Русия се провежда масово изследване на новородени за заболяването на бебета с болестта на Даун (пробата е средно 1000 новородени във всяка клиника). Получени са следните данни:

Упражнение

1. Определете средната вероятност от заболяването (по отношение на броя на новородените).

2. Определете средния брой новородени с едно заболяване.

3. Определете вероятността сред 100 произволно избрани новородени да има 2 бебета с болестта на Даун.

Решение

1. Определете средната вероятност от заболяването. При това трябва да се ръководим от следното разсъждение. От 21 клиники болестта на Даун е регистрирана само в 10. В 11 клиники няма открити заболявания, в 6 клиники е регистриран 1 случай, в 2 клиники 2 случая, в 1-ва клиника - 3 и в 1-ва клиника - 4 случая. 5 случая не са открити в нито една клиника. За да се определи средната вероятност от заболяването, е необходимо общият брой на случаите (6 1 + 2 2 + 1 3 + 1 4 = 17) да се раздели на общия брой новородени (21 000):

2. Броят на новородените за едно заболяване е реципрочната стойност на средната вероятност, т.е. равен на общия брой новородени, разделен на броя на регистрираните случаи:

3. Заменете стойностите стр = 0,00081, н= 100 и аз= 2 във формулата на Поасон:

Отговор

Вероятността сред 100 произволно избрани новородени да бъдат открити 2 бебета с болест на Даун е 0,003 (0,3%).

Свързани задачи

Задача 6.1

Упражнение

Използвайки данните от задача 5.1 за времето на сензомоторната реакция, изчислете асиметрията и ексцеса на разпределението на VR.

Задача 6. 2

200 дипломирани студенти бяха тествани за нивото на интелигентност ( IQ). След нормализиране на полученото разпределение IQспоред стандартното отклонение са получени следните резултати:

Упражнение

Използвайки тестовете на Колмогоров и хи-квадрат, определете дали полученото разпределение на индикаторите съответства на IQнормално.

Задача 6. 3

При възрастен субект (25-годишен мъж) е изследвано времето на проста сензомоторна реакция (SR) в отговор на звуков стимул с постоянна честота 1 kHz и интензитет 40 dB. Стимулът беше представен сто пъти на интервали от 3–5 секунди. Индивидуалните VR стойности за 100 повторения бяха разпределени както следва:

Упражнение

1. Построяване на честотна хистограма на разпределението на VR; определяне на средната стойност на VR и стойността на стандартното отклонение.

2. Изчислете коефициента на асиметрия и ексцеса на разпределението на VR; въз основа на получените стойности Катои Прнаправете заключение за съответствието или несъответствието на това разпределение с нормалното.

Задача 6.4

През 1998 г. 14 души (5 момчета и 9 момичета) завършват училища в Нижни Тагил със златни медали, 26 души (8 момчета и 18 момичета) със сребърни медали.

Въпрос

Може ли да се каже, че момичетата получават медали по-често от момчетата?

Забележка

Съотношението на броя на момчетата и момичетата в общата съвкупност се счита за равно.

Задача 6.5

Смята се, че броят на екстровертите и интровертите в хомогенна група субекти е приблизително еднакъв.

Упражнение

Определете вероятността в група от 10 произволно избрани субекта да се намерят 0, 1, 2, ..., 10 екстроверти. Конструирайте графичен израз за разпределението на вероятността за намиране на 0, 1, 2, ..., 10 екстроверти в дадена група.

Задача 6.6

Упражнение

Изчислете вероятността P n(i) функции на биномно разпределение за стр= 0,3 и р= 0,7 за стойности н= 5 и аз= 0, 1, 2, ..., 5. Постройте графичен израз на зависимостта P n(i) = f(i) .

Задача 6.7

През последните години вярата в астрологичните прогнози се наложи сред определена част от населението. Според резултатите от предварителните проучвания е установено, че около 15% от населението вярва в астрологията.

Упражнение

Определете вероятността сред 10 произволно избрани респонденти да има 1, 2 или 3 души, които вярват в астрологичните прогнози.

Задача 6.8

Задачата

В 42 средни училища в град Екатеринбург и Свердловска област (общият брой на учениците е 12 260) за няколко години е разкрит следният брой случаи на психични заболявания сред ученици:

Упражнение

Нека да се прегледат 1000 ученици на случаен принцип. Изчислете каква е вероятността сред тези хиляда ученици да се открият 1, 2 или 3 психично болни деца?


РАЗДЕЛ 7. МЕРКИ ЗА РАЗЛИКА

Формулиране на проблема

Да предположим, че имаме две независими извадки от субекти хи при. Независимпробите се броят, когато един и същ субект (субект) се появява само в една проба. Задачата е да се сравнят тези проби (два набора от променливи) една с друга за техните разлики. Естествено, колкото и близки да са стойностите на променливите в първата и втората извадка, някои, макар и незначителни, разлики между тях ще бъдат открити. От гледна точка на математическата статистика, ние се интересуваме от въпроса дали разликите между тези извадки са статистически значими (статистически значими) или ненадеждни (случайни).

Най-често срещаните критерии за значимостта на разликите между извадките са параметричните мерки на разликите - Критерий на ученикаи Критерий на Фишер. В някои случаи се използват непараметрични критерии - Q-тест на Розенбаум, U-тест на Ман-Уитнии други. Ъглова трансформация на Фишер φ*, които ви позволяват да сравнявате стойности, изразени като проценти (проценти) една с друга. И накрая, като специален случай, за сравняване на проби могат да се използват критерии, които характеризират формата на разпределенията на извадката - критерий χ 2 Pearsonи критерий λ Колмогоров – Смирнов.

За да разберем по-добре тази тема, ще продължим по следния начин. Ще решим един и същ проблем с четири метода, като използваме четири различни критерия - Розенбаум, Ман-Уитни, Стюдънт и Фишер.

Задачата

30 ученици (14 момчета и 16 момичета) по време на изпитната сесия бяха тествани съгласно теста на Спилбъргер за нивото на реактивна тревожност. Бяха получени следните резултати (Таблица 7.1):

Таблица 7.1

Предмети Ниво на реактивна тревожност
Младежи
момичета

Упражнение

Да се ​​установи дали разликите в нивото на реактивна тревожност при момчета и момичета са статистически значими.

Задачата изглежда доста типична за психолог, специализиран в областта на педагогическата психология: кой изпитва по-остро стреса от изпита - момчетата или момичетата? Ако разликите между извадките са статистически значими, то в този аспект има значителни различия между половете; ако разликите са случайни (не са статистически значими), това предположение трябва да се отхвърли.

7. 2. Непараметричен тест QРозенбаум

Q-Критерият на Розенбаум се основава на сравнението на "насложени" един върху друг класирани серии от стойности на две независими променливи. В същото време не се анализира характерът на разпределението на признака във всеки ред - в този случай има значение само ширината на неприпокриващите се участъци на двата класирани реда. Когато сравнявате две класирани серии от променливи една с друга, са възможни 3 опции:

1. Класирани рангове хи гнямат област на припокриване, т.е. всички стойности на първата класирана серия ( х) е по-голямо от всички стойности на втората класирана серия ( г):

В този случай разликите между извадките, определени от който и да е статистически критерий, със сигурност са значителни и не се изисква използването на критерия на Розенбаум. На практика обаче тази опция е изключително рядка.

2. Класираните редове се припокриват напълно (по правило единият ред е вътре в другия), няма незастъпващи се зони. В този случай критерият на Розенбаум не е приложим.

3. Има припокриваща се област на редовете, както и две неприпокриващи се области ( N 1и N 2) свързан с различнокласирани серии (означаваме х- ред, изместен към голям, г- в посока на по-ниски стойности):

Този случай е типичен за използването на критерия на Розенбаум, при който трябва да се спазват следните условия:

1. Обемът на всяка проба трябва да бъде най-малко 11.

2. Размерите на пробите не трябва да се различават значително един от друг.

Критерий Q Rosenbaum съответства на броя на неприпокриващите се стойности: Q = н 1 +н 2 . Заключението за надеждността на разликите между пробите се прави, ако Q > Qкр . В същото време ценностите Q cr са в специални таблици (виж Приложение, Таблица VIII).

Да се ​​върнем към нашата задача. Нека въведем обозначението: х- селекция от момичета, г- Избор на момчета. За всяка проба изграждаме класирана серия:

х: 28 30 34 34 35 36 37 39 40 41 42 42 43 44 45 46

г: 26 28 32 32 33 34 35 38 39 40 41 42 43 44

Преброяваме броя на стойностите в неприпокриващи се области на класираната серия. В един ред хстойностите 45 и 46 не се припокриват, т.е. н 1 = 2; в ред гсамо 1 стойност без припокриване 26 т.е. н 2 = 1. Следователно, Q = н 1 +н 2 = 1 + 2 = 3.

В табл. VIII Приложение откриваме, че Qкр . = 7 (за ниво на значимост 0,95) и Q cr = 9 (за ниво на значимост 0,99).

Заключение

Тъй като Q<Q cr, тогава според критерия на Розенбаум разликите между пробите не са статистически значими.

Забележка

Тестът на Розенбаум може да се използва независимо от естеството на разпределението на променливите, т.е. в този случай не е необходимо да се използват χ 2 на Пиърсън и λ тестовете на Колмогоров, за да се определи типа на разпределението в двете проби.

7. 3. U- Тест на Ман-Уитни

За разлика от критерия на Розенбаум, UТестът на Ман-Уитни се основава на определяне на зоната на припокриване между два класирани реда, т.е. колкото по-малка е зоната на припокриване, толкова по-значими са разликите между пробите. За целта се използва специална процедура за преобразуване на интервални скали в рангови скали.

Нека разгледаме алгоритъма за изчисление за U-критерий по примера на предходната задача.

Таблица 7.2

x, y Р xy Р xy * Рх Рг
26 28 32 32 33 34 35 38 39 40 41 42 43 44 2,5 2,5 5,5 5,5 11,5 11,5 16,5 16,5 18,5 18,5 20,5 20,5 25,5 25,5 27,5 27,5 2,5 11,5 16,5 18,5 20,5 25,5 27,5 1 2,5 5,5 5,5 7 9 11,5 15 16,5 18,5 20,5 23 25,5 27,5
Σ 276,5 188,5

1. Създаваме една класирана серия от две независими проби. В този случай стойностите за двете проби се смесват, колона 1 ( х, г). За да се опрости по-нататъшната работа (включително в компютърната версия), стойностите за различните проби трябва да бъдат маркирани с различни шрифтове (или различни цветове), като се има предвид фактът, че в бъдеще ще ги публикуваме в различни колони.

2. Преобразувайте интервалната скала на стойностите в порядъчна (за да направите това, преозначаваме всички стойности с номера на ранг от 1 до 30, колона 2 ( Р xy)).

3. Въвеждаме корекции за свързани рангове (същите стойности на променливата се обозначават със същия ранг, при условие че сумата от ранговете не се променя, колона 3 ( Р xy *). На този етап се препоръчва да се изчислят сумите на ранговете във 2-ра и 3-та колона (ако всички корекции са правилни, тогава тези суми трябва да са равни).

4. Разпределяме номерата на ранга в съответствие с принадлежността им към определена проба (колони 4 и 5 ( Р x и Р y)).

5. Извършваме изчисления по формулата:

(7.1)

където T x е най-голямата от ранговите суми ; н x и н y , съответно размерите на извадката. В този случай имайте предвид, че ако Tх< T y , след това нотацията хи гтрябва да се обърне.

6. Сравнете получената стойност с табличната (вижте приложенията, таблица IX) Заключението за достоверността на разликите между двете проби се прави, ако Uексп.< Uкр. .

В нашия пример Uексп. = 83,5 > U кр. = 71.

Заключение

Разликите между двете проби според теста на Ман-Уитни не са статистически значими.

Бележки

1. Тестът на Ман-Уитни практически няма ограничения; минималните размери на сравняваните извадки са 2 и 5 души (виж таблица IX от приложението).

2. Подобно на теста на Розенбаум, тестът на Ман-Уитни може да се използва за всякакви проби, независимо от естеството на разпределението.

Критерий на ученика

За разлика от критериите на Розенбаум и Ман-Уитни, критерият TМетодът на Студент е параметричен, т.е. въз основа на определянето на основните статистически показатели - средните стойности във всяка извадка ( и ) и техните дисперсии (s 2 x и s 2 y), изчислени по стандартни формули (виж Раздел 5).

Използването на критерия на Стюдънт предполага следните условия:

1. Разпределенията на стойностите за двете проби трябва да следват нормалния закон за разпределение (вижте раздел 6).

2. Общият обем на пробите трябва да бъде най-малко 30 (за β 1 = 0,95) и поне 100 (за β 2 = 0,99).

3. Обемите на две проби не трябва да се различават значително един от друг (не повече от 1,5 ÷ 2 пъти).

Идеята на критерия на Студент е доста проста. Да приемем, че стойностите на променливите във всяка от извадките са разпределени по нормалния закон, т.е. имаме работа с две нормални разпределения, които се различават едно от друго по средни стойности и дисперсия (съответно и , и , вижте Фиг. 7.1).

с хс г

Ориз. 7.1. Оценка на разликите между две независими проби: и - средни стойности на пробите хи г; s x и s y - стандартни отклонения

Лесно е да се разбере, че разликите между две проби ще бъдат толкова по-големи, колкото по-голяма е разликата между средните стойности и колкото по-малки са техните дисперсии (или стандартни отклонения).

При независими извадки коефициентът на Стюдънт се определя по формулата:

(7.2)

където н x и н y - съответно броят на пробите хи г.

След изчисляване на коефициента на Студент в таблицата със стандартни (критични) стойности T(вижте Приложение, Таблица X) намерете стойността, съответстваща на броя на степените на свобода n = n x + н y - 2 и го сравнете с изчисленото по формулата. Ако Tексп. £ Tкр. , тогава хипотезата за надеждността на разликите между извадките се отхвърля, ако Tексп. > Tкр. , тогава се приема. С други думи, извадките се различават значително една от друга, ако изчисленият по формулата коефициент на Стюдънт е по-голям от табличната стойност за съответното ниво на значимост.

В проблема, който разгледахме по-рано, изчисляването на средните стойности и дисперсии дава следните стойности: хвж. = 38,5; σ x 2 = 28,40; привж. = 36,2; σ y 2 = 31,72.

Вижда се, че средната стойност на тревожност в групата на момичетата е по-висока, отколкото в групата на момчетата. Тези разлики обаче са толкова малки, че е малко вероятно да бъдат статистически значими. Разсейването на стойностите при момчетата, напротив, е малко по-високо, отколкото при момичетата, но разликите между дисперсиите също са малки.

Заключение

Tексп. = 1,14< Tкр. = 2,05 (β1 = 0,95). Разликите между двете сравнявани проби не са статистически значими. Това заключение е напълно съвместимо с това, получено с помощта на критериите на Розенбаум и Ман-Уитни.

Друг начин за определяне на разликите между две проби с помощта на t-теста на Student е да се изчисли доверителният интервал на стандартните отклонения. Доверителният интервал е средното квадратно (стандартно) отклонение, разделено на корен квадратен от размера на извадката и умножено по стандартната стойност на коефициента на Стюдънт за н– 1 степени на свобода (съответно и ).

Забележка

Стойност = m xсе нарича средна квадратична грешка (вижте раздел 5). Следователно доверителният интервал е стандартната грешка, умножена по коефициента на Стюдънт за даден размер на извадката, където броят на степените на свобода ν = н– 1, и дадено ниво на значимост.

Две проби, които са независими една от друга, се считат за значително различни, ако доверителните интервали за тези проби не се припокриват един с друг. В нашия случай имаме 38,5 ± 2,84 за първата проба и 36,2 ± 3,38 за втората.

Следователно, случайни вариации x iлежат в диапазона 35,66 ¸ 41,34 и вариации y i- в диапазона 32.82 ¸ 39.58. Въз основа на това може да се каже, че разликите между пробите хи гстатистически ненадеждни (диапазони от вариации се припокриват един с друг). В този случай трябва да се има предвид, че ширината на зоната на припокриване в този случай няма значение (важен е само самият факт на припокриване на доверителните интервали).

Методът на Student за взаимозависими проби (например за сравняване на резултатите, получени от многократно тестване на една и съща извадка от субекти) се използва доста рядко, тъй като има други, по-информативни статистически техники за тези цели (виж Раздел 10). За тази цел обаче, като първо приближение, можете да използвате формулата на Студент със следната форма:

(7.3)

Полученият резултат се сравнява с табличната стойност за н– 1 степен на свобода, където н– брой двойки стойности хи г. Резултатите от сравнението се интерпретират точно по същия начин, както в случая на изчисляване на разликите между две независими проби.

Критерий на Фишер

Критерий на Фишер ( Е) се основава на същия принцип като t-теста на Стюдънт, т.е. включва изчисляване на средни стойности и дисперсии в сравняваните проби. Най-често се използва при сравняване на проби, които са различни по размер (различни по размер) една с друга. Тестът на Fisher е малко по-строг от теста на Student и следователно е по-предпочитан в случаите, когато има съмнения относно надеждността на разликите (например, ако според теста на Student разликите са значими при нула и не са значими при първата значимост ниво).

Формулата на Фишер изглежда така:

(7.4)

където и (7.5, 7.6)

В нашия проблем d2= 5,29; σz 2 = 29,94.

Заменете стойностите във формулата:

В табл. XI Приложения установяваме, че за нивото на значимост β 1 = 0,95 и ν = н x + н y - 2 = 28 критичната стойност е 4,20.

Заключение

Е = 1,32 < F кр.= 4,20. Разликите между извадките не са статистически значими.

Забележка

Когато използвате теста на Фишер, трябва да бъдат изпълнени същите условия, както за теста на Стюдънт (вижте подраздел 7.4). Въпреки това се допуска разлика в броя на пробите повече от два пъти.

Така при решаването на една и съща задача с четири различни метода, използвайки два непараметрични и два параметрични критерия, стигнахме до недвусмисления извод, че разликите между групата момичета и групата момчета по отношение на нивото на реактивна тревожност са недостоверни (т.е. , са в произволна вариация). Възможно е обаче да има случаи, когато не е възможно да се направи недвусмислено заключение: някои критерии дават надеждни, други - ненадеждни разлики. В тези случаи се дава приоритет на параметричните критерии (в зависимост от достатъчността на размера на извадката и нормалното разпределение на изследваните стойности).

7. 6. Критерий j* - Ъглова трансформация на Фишер

Критерият j*Fisher е предназначен за сравняване на две проби според честотата на възникване на ефекта, който представлява интерес за изследователя. Той оценява значимостта на разликите между процентите на две извадки, в които е регистриран интересният ефект. Допуска се също сравнение на проценти в една и съща извадка.

Същността на ъгловата трансформация на Фишер е превръщането на проценти в централни ъгли, които се измерват в радиани. По-голям процент ще съответства на по-голям ъгъл й, а по-малък дял - по-малък ъгъл, но връзката тук е нелинейна:

където Р– процент, изразен в части от единица.

С увеличаване на несъответствието между ъглите j 1 и j 2 и увеличаване на броя на пробите, стойността на критерия се увеличава.

Критерият на Фишер се изчислява по следната формула:


където j 1 е ъгълът, съответстващ на по-големия процент; j 2 - ъгълът, съответстващ на по-малък процент; н 1 и н 2 - съответно обемът на първата и втората проба.

Изчислената по формулата стойност се сравнява със стандартната стойност (j* st = 1,64 за b 1 = 0,95 и j* st = 2,31 за b 2 = 0,99. Разликите между двете проби се считат за статистически значими, ако j*> j* st за дадено ниво на значимост.

Пример

Интересуваме се дали двете групи ученици се различават една от друга по отношение на успеха на изпълнението на доста сложна задача. В първата група от 20 души се справиха 12 ученици, във втората - 10 души от 25.

Решение

1. Въведете обозначението: н 1 = 20, н 2 = 25.

2. Изчислете проценти Р 1 и Р 2: Р 1 = 12 / 20 = 0,6 (60%), Р 2 = 10 / 25 = 0,4 (40%).

3. В табл. XII Приложения, намираме стойностите на φ, съответстващи на проценти: j 1 = 1.772, j 2 = 1.369.


Оттук:

Заключение

Разликите между групите не са статистически значими, защото j*< j* ст для 1-го и тем более для 2-го уровня значимости.

7.7. Използване на χ2 теста на Пиърсън и λ теста на Колмогоров

Теорията на вероятностите невидимо присъства в живота ни. Ние не обръщаме внимание на това, но всяко събитие в живота ни има една или друга вероятност. Като се има предвид огромният брой възможни сценарии, за нас става необходимо да определим най-вероятния и най-малко вероятния от тях. Най-удобно е да анализирате такива вероятностни данни графично. Разпределението може да ни помогне с това. Биномът е един от най-лесните и точни.

Преди да преминем директно към математиката и теорията на вероятностите, нека да разберем кой е първият, който излезе с този тип разпределение и каква е историята на развитието на математическия апарат за тази концепция.

История

Понятието вероятност е известно от древни времена. Древните математици обаче не му придават голямо значение и успяват само да положат основите на теория, която по-късно се превръща в теория на вероятностите. Те създадоха някои комбинаторни методи, които значително помогнаха на тези, които по-късно създадоха и развиха самата теория.

През втората половина на седемнадесети век започва формирането на основните понятия и методи на теорията на вероятностите. Бяха въведени дефиниции на случайни променливи, методи за изчисляване на вероятността от прости и някои сложни независими и зависими събития. Такъв интерес към случайните променливи и вероятности беше продиктуван от хазарта: всеки човек искаше да знае какви са шансовете му да спечели играта.

Следващата стъпка беше прилагането на методите на математическия анализ в теорията на вероятностите. С тази задача се заемат видни математици като Лаплас, Гаус, Поасон и Бернули. Именно те издигнаха тази област на математиката на ново ниво. Джеймс Бернули беше този, който откри биномен законразпространение. Между другото, както ще разберем по-късно, на базата на това откритие бяха направени още няколко, които направиха възможно създаването на закона за нормалното разпределение и много други.

Сега, преди да започнем да описваме биномното разпределение, ще освежим малко в паметта си понятията на теорията на вероятностите, вероятно вече забравени от училищната скамейка.

Основи на теорията на вероятностите

Ще разгледаме такива системи, в резултат на които са възможни само два резултата: "успех" и "неуспех". Това е лесно да се разбере с пример: хвърляме монета, предполагайки, че ще паднат опашки. Вероятностите за всяко от възможните събития (падане на опашки - "успех", падане на глави - "неуспех") са равни на 50 процента, ако монетата е идеално балансирана и няма други фактори, които могат да повлияят на експеримента.

Това беше най-простото събитие. Но има и сложни системи, в които се извършват последователни действия и вероятностите за резултатите от тези действия ще се различават. Да разгледаме например следната система: в кутия, чието съдържание не можем да видим, има шест абсолютно еднакви топки, три двойки сини, червени и бели цветове. Трябва да вземем няколко топки на случаен принцип. Съответно, като извадим първо една от белите топки, ще намалим няколко пъти вероятността следващата също да получим бяла топка. Това се случва, защото броят на обектите в системата се променя.

В следващия раздел ще разгледаме по-сложни математически концепции, които ни доближават до думите " нормална дистрибуция"," биномно разпределение "и други подобни.

Елементи на математическата статистика

В статистиката, която е една от областите на приложение на теорията на вероятностите, има много примери, когато данните за анализ не са дадени изрично. Тоест не в числа, а под формата на разделение според характеристиките, например според пола. За да се приложи математически апарат към такива данни и да се направят някои изводи от получените резултати, е необходимо първоначалните данни да се преобразуват в цифров формат. Като правило, за да се приложи това, на положителен резултат се присвоява стойност 1, а на отрицателен се присвоява стойност 0. По този начин получаваме статистически данни, които могат да бъдат анализирани с помощта на математически методи.

Следващата стъпка в разбирането какво е биномното разпределение случайна величина, е дефиницията на дисперсията на случайна променлива и математическото очакване. Ще говорим за това в следващия раздел.

Очаквана стойност

Наистина разбирам какво е очаквана стойност, не е трудно. Помислете за система, в която има много различни събития със собствени различни вероятности. Математическото очакване ще се нарича стойност, равно на суматапродуктите на стойностите на тези събития (в математическата форма, за която говорихме в последния раздел) и вероятността за тяхното възникване.

Математическото очакване на биномното разпределение се изчислява по същата схема: вземаме стойността на случайна променлива, умножаваме я по вероятността за положителен резултат и след това обобщаваме получените данни за всички променливи. Много е удобно тези данни да се представят графично - по този начин разликата между математическите очаквания на различните стойности се възприема по-добре.

В следващия раздел ще ви разкажем малко за една различна концепция - дисперсията на случайна променлива. Също така е тясно свързано с такава концепция като биномно разпределение на вероятностите и е негова характеристика.

Дисперсия на биномно разпределение

Тази стойност е тясно свързана с предишната и също така характеризира разпределението на статистическите данни. Представлява средния квадрат на отклоненията на стойностите от тяхното математическо очакване. Тоест дисперсията на случайна променлива е сумата от квадратите на разликите между стойността на случайна променлива и нейното математическо очакване, умножена по вероятността за това събитие.

Като цяло, това е всичко, което трябва да знаем за дисперсията, за да разберем какво е биномното разпределение на вероятностите. Сега да преминем към нашата основна тема. А именно, какво се крие зад толкова сложната на пръв поглед фраза „биномиален закон за разпределение“.

Биномиално разпределение

Нека първо разберем защо това разпределение е биномно. Произлиза от думата "бином". Може би сте чували за бинома на Нютон - формула, която може да се използва за разширяване на сбора на произволни две числа a и b до всяка неотрицателна степен на n.

Както вероятно вече се досещате, биномната формула на Нютон и формулата за биномно разпределение са почти еднакви формули. С единственото изключение, че вторият има приложна стойност за конкретни количества, а първият е само общ математически инструмент, чиито приложения на практика могат да бъдат различни.

Формули за разпределение

Функцията на биномно разпределение може да бъде записана като сбор от следните членове:

(n!/(n-k)!k!)*p k *q n-k

Тук n е броят на независимите случайни експерименти, p е броят на успешните резултати, q е броят на неуспешните резултати, k е номерът на експеримента (може да приема стойности от 0 до n),! - обозначаване на факториел, такава функция на число, чиято стойност е равна на произведението на всички числа, отиващи до него (например за числото 4: 4!=1*2*3*4= 24).

Освен това функцията на биномното разпределение може да бъде написана като непълна бета функция. Това обаче вече е по-сложна дефиниция, която се използва само при решаване на сложни статистически задачи.

Биномното разпределение, примери за което разгледахме по-горе, е едно от най-много прости видоверазпределения в теорията на вероятностите. Има и нормално разпределение, което е вид биномно разпределение. Той е най-често използваният и най-лесният за изчисляване. Има и разпределение на Бернули, разпределение на Поасон, условно разпределение. Всички те характеризират графично областите на вероятност за даден процес при различни условия.

В следващия раздел ще разгледаме аспекти, свързани с приложението на този математически апарат в истинския живот. На пръв поглед, разбира се, изглежда, че това е друго математическо нещо, което, както обикновено, не намира приложение в реалния живот и като цяло не е необходимо на никого, освен на самите математици. Това обаче не е така. В края на краищата всички видове дистрибуции и техните графични изображения са създадени единствено за практически цели, а не като прищявка на учените.

Приложение

Досега най-важното приложение на разпределението се намира в статистиката, тъй като изисква комплексен анализмного данни. Както показва практиката, много масиви от данни имат приблизително еднакви разпределения на стойности: критичните области с много ниски и много високи стойности, като правило, съдържат по-малко елементи от средните стойности.

Анализът на големи масиви от данни е необходим не само в статистиката. Незаменим е например във физикохимията. В тази наука се използва за определяне на много величини, които са свързани със случайни вибрации и движения на атоми и молекули.

В следващия раздел ще обсъдим колко важно е използването на такива статистически концепции, като бином разпределение на случайна променлива в Ежедневиетоза теб и мен.

Защо ми трябва?

Много хора си задават този въпрос, когато стане дума за математика. И между другото, математиката не напразно е наричана кралицата на науките. То е в основата на физиката, химията, биологията, икономиката и във всяка от тези науки се използва и някакъв вид разпределение: дали е дискретно биномно разпределение или нормално, няма значение. И ако погледнем по-отблизо света около нас, ще видим, че математиката се използва навсякъде: в ежедневието, на работа и дори човешките взаимоотношения могат да бъдат представени под формата на статистически данни и анализирани (това между другото , извършва се от тези, които работят в специални организации, участващи в събирането на информация).

Сега нека поговорим малко за това какво да направите, ако трябва да знаете много повече по тази тема от това, което сме описали в тази статия.

Информацията, която дадохме в тази статия, далеч не е пълна. Има много нюанси за това каква форма може да приеме разпространението. Биномиалното разпределение, както вече разбрахме, е един от основните видове, върху които се основава цялото математическа статистикаи теория на вероятностите.

Ако проявявате интерес или във връзка с работата си, трябва да знаете много повече по тази тема, ще трябва да проучите специализираната литература. Трябва да започнете с университетски курс по математически анализ и да преминете към раздела за теория на вероятностите. Също така знанията в областта на редовете ще бъдат полезни, тъй като биномното разпределение на вероятностите не е нищо повече от серия от последователни членове.

Заключение

Преди да завършим статията, бихме искали да разкажем още една интересно нещо. Засяга пряко темата на нашата статия и цялата математика като цяло.

Много хора казват, че математиката е безполезна наука и нищо, което са научили в училище, не им е било полезно. Но знанието никога не е излишно и ако нещо не ви е полезно в живота, това означава, че просто не го помните. Ако имате знания, те могат да ви помогнат, но ако ги нямате, тогава не можете да очаквате помощ от тях.

И така, разгледахме концепцията за биномното разпределение и всички дефиниции, свързани с него, и говорихме за това как се прилага в живота ни.

Поздрави на всички читатели!

Статистическият анализ, както знаете, се занимава със събирането и обработката на реални данни. Полезно е, а често и печелившо, защото. правилните заключения ви позволяват да избегнете грешки и загуби в бъдеще и понякога правилно да познаете точно това бъдеще. Събраните данни отразяват състоянието на някое наблюдавано явление. Данните често (но не винаги) са цифрови и могат да бъдат манипулирани с различни математически манипулации за извличане на допълнителна информация.

Въпреки това, не всички явления се измерват в количествена скала като 1, 2, 3 ... 100 500 ... Не винаги едно явление може да приеме безкраен или голям брой различни състояния. Например, полът на дадено лице може да бъде М или Ж. Стрелецът или уцелва целта, или пропуска. Можете да гласувате „За” или „Против” и т.н. и т.н. С други думи, такива данни отразяват състоянието на алтернативен атрибут - или "да" (събитието е настъпило), или "не" (събитието не е настъпило). Предстоящото събитие (положителен изход) се нарича още "успех". Такива явления също могат да бъдат масови и случайни. Следователно те могат да бъдат измерени и могат да бъдат направени статистически валидни заключения.

Експерименти с такива данни се наричат Схема на Бернули, в чест на известния швейцарски математик, който установи, че при голям брой изпитания съотношението на положителните резултати към общия брой изпитания клони към вероятността това събитие да се случи.

Алтернативна променлива на функцията

За да се използва математическият апарат при анализа, резултатите от такива наблюдения трябва да бъдат записани в цифров вид. За да направите това, на положителен резултат се присвоява номер 1, на отрицателен - 0. С други думи, имаме работа с променлива, която може да приеме само две стойности: 0 или 1.

Каква полза може да се извлече от това? Всъщност не по-малко от обикновените данни. Така че е лесно да се преброи броят на положителните резултати - достатъчно е да се сумират всички стойности, т.е. всичко 1 (успех). Можете да отидете по-далеч, но за това трябва да въведете няколко нотации.

Първото нещо, което трябва да се отбележи е, че положителните резултати (които са равни на 1) имат известна вероятност да се появят. Например получаването на глави при хвърляне на монета е ½ или 0,5. Тази вероятност традиционно се обозначава латиница стр. Следователно вероятността за възникване на алтернативно събитие е 1-стр, което също се означава с р, това е q = 1 – p. Тези обозначения могат да бъдат визуално систематизирани под формата на променлива разпределителна плоча х.

Сега имаме списък с възможни стойности и техните вероятности. Можете да започнете да изчислявате такива прекрасни характеристики на случайна променлива като очаквана стойности дисперсия. Нека ви напомня, че математическото очакване се изчислява като сбор от продуктите на всички възможни стойности и съответните им вероятности:

Нека изчислим очакваната стойност, като използваме нотацията в таблиците по-горе.

Оказва се, че математическото очакване на алтернативен знак е равно на вероятността за това събитие - стр.

Сега нека дефинираме каква е дисперсията на алтернативна характеристика. Нека ви напомня също, че дисперсията е средният квадрат на отклоненията от математическото очакване. Общата формула (за дискретни данни) е:

Оттук и вариацията на алтернативната характеристика:

Лесно се вижда, че тази дисперсия има максимум 0,25 (при p=0,5).

Средно аритметично стандартно отклонениее коренът на дисперсията:

Максималната стойност не надвишава 0,5.

Както можете да видите, както математическото очакване, така и дисперсията на алтернативния знак имат много компактна форма.

Биномиално разпределение на случайна променлива

Сега разгледайте ситуацията от различен ъгъл. Наистина, на кого му пука, че средната загуба на глави при едно хвърляне е 0,5? Дори е невъзможно да си го представим. По-интересно е да се повдигне въпросът за броя на главите, идващи за даден брой хвърляния.

С други думи, изследователят често се интересува от вероятността за възникване на определен брой успешни събития. Това може да бъде броят на дефектните продукти в тестваната партида (1 - дефектен, 0 - добър) или броят на възстановяването (1 - здрав, 0 - болен) и т.н. Броят на такива "успехи" ще бъде равен на сумата от всички стойности на променливата х, т.е. броя на отделните резултати.

Случайна стойност бсе нарича бином и приема стойности от 0 до н(при б= 0 - всички части са добри, с б = н- всички части са дефектни). Предполага се, че всички стойности хнезависими един от друг. Помислете за основните характеристики на биномната променлива, тоест ще установим нейното математическо очакване, дисперсия и разпределение.

Очакването на биномна променлива се получава много лесно. Спомнете си, че има сума от математически очаквания за всяка добавена стойност и тя е еднаква за всички, следователно:

Например, очакването за броя на главите при 100 хвърляния е 100 × 0,5 = 50.

Сега извеждаме формулата за дисперсията на биномната променлива. е сумата от дисперсиите. Оттук

Стандартно отклонение, респ

За 100 хвърляния на монети стандартното отклонение е

И накрая, помислете за разпределението биномна стойност, т.е. вероятността случайната променлива бще взема различни значения к, където 0≤k≤n. За монета този проблем може да звучи така: каква е вероятността да получите 40 глави при 100 хвърляния?

За да разберем метода на изчисление, нека си представим, че монетата е хвърлена само 4 пъти. Всяка страна може да падне всеки път. Питаме се: каква е вероятността да получим 2 глави от 4 хвърляния. Всяко хвърляне е независимо едно от друго. Това означава, че вероятността за получаване на която и да е комбинация ще бъде равна на произведението на вероятностите за даден резултат за всяко отделно хвърляне. Нека O са глави и P са опашки. Тогава, например, една от комбинациите, които ни подхождат, може да изглежда като OOPP, тоест:

Вероятността за такава комбинация е равна на произведението на две вероятности да се появят глави и още две вероятности да не се появят глави (обратното събитие, изчислено като 1-стр), т.е. 0,5×0,5×(1-0,5)×(1-0,5)=0,0625. Това е вероятността за една от комбинациите, които ни подхождат. Но въпросът беше за общия брой на орлите, а не за някакъв определен ред. След това трябва да съберете вероятностите на всички комбинации, в които има точно 2 орела. Ясно е, че всички те са еднакви (произведението не се променя от смяна на местата на факторите). Следователно трябва да изчислите техния брой и след това да умножите по вероятността за всяка такава комбинация. Нека преброим всички комбинации от 4 хвърляния на 2 орела: RROO, RORO, ROOR, ORRO, OROR, OORR. Само 6 варианта.

Следователно желаната вероятност за получаване на 2 глави след 4 хвърляния е 6×0,0625=0,375.

Броенето по този начин обаче е досадно. Вече за 10 монети ще бъде много трудно да получите общия брой опции чрез груба сила. Ето защо умни хораотдавна е изобретил формула, която изчислява броя на различните комбинации от нелементи от к, където не общият брой елементи, ке броят на елементите, чиито опции за подреждане се изчисляват. Комбинирана формула на нелементи от ке:

Подобни неща се случват и в секцията комбинаторика. Пращам всеки, който иска да подобри знанията си там. Оттук, между другото, името на биномното разпределение (формулата по-горе е коефициентът в разширението на бинома на Нютон).

Формулата за определяне на вероятността може лесно да се обобщи за всяко число ни к. В резултат на това формулата за биномно разпределение има следната форма.

С други думи: умножете броя на съвпадащите комбинации по вероятността за една от тях.

За практическа употреба е достатъчно просто да знаете формулата за биномно разпределение. И може дори да не знаете - по-долу е как да определите вероятността с използвайки Excel. Но е по-добре да знаете.

Нека използваме тази формула, за да изчислим вероятността да получим 40 глави при 100 хвърляния:

Или само 1,08%. За сравнение, вероятността за математическото очакване на този експеримент, тоест 50 глави, е 7,96%. Максималната вероятност за биномна стойност принадлежи на стойността, съответстваща на математическото очакване.

Изчисляване на вероятности от биномно разпределение в Excel

Ако използвате само хартия и калкулатор, тогава изчисленията с помощта на формулата за биномно разпределение, въпреки липсата на интеграли, са доста трудни. Например стойност 100! - има повече от 150 знака. Невъзможно е да се изчисли това ръчно. Преди, а дори и сега, се използват приблизителни формули за изчисляване на такива количества. В момента е препоръчително да използвате специален софтуер, като MS Excel. По този начин всеки потребител (дори хуманист по образование) може лесно да изчисли вероятността от стойността на биномно разпределена случайна променлива.

За да консолидираме материала, засега ще използваме Excel като обикновен калкулатор, т.е. Нека направим изчисление стъпка по стъпка, използвайки формулата за биномно разпределение. Нека изчислим, например, вероятността да получим 50 глави. По-долу има снимка със стъпките на изчисление и крайния резултат.

Както можете да видите, междинните резултати са с такъв мащаб, че не се побират в клетка, въпреки че навсякъде се използват прости функции от типа: FACTOR (изчисление на фактор), POWER (повдигане на число на степен), както и като оператори за умножение и деление. Освен това това изчисление е доста тромаво, във всеки случай не е компактно, тъй като участват много клетки. И да, трудно е да го разбера.

Като цяло Excel предоставя готова функция за изчисляване на вероятностите на биномното разпределение. Функцията се нарича BINOM.DIST.

Брой успехие броят на успешните опити. Имаме 50 от тях.

Брой опити- брой хвърляния: 100 пъти.

Вероятност за успех– вероятността да получите глави при едно хвърляне е 0,5.

Интеграл- посочва се или 1, или 0. Ако е 0, тогава се изчислява вероятността P(B=k); ако е 1, тогава се изчислява функцията на биномното разпределение, т.е. сбор от всички вероятности от B=0преди B=kвключително.

Натискаме OK и получаваме същия резултат като по-горе, само че всичко е изчислено от една функция.

Много удобно. За целите на експеримента, вместо последния параметър 0, поставяме 1. Получаваме 0,5398. Това означава, че при 100 хвърляния на монети, вероятността да получите глави между 0 и 50 е почти 54%. И в началото изглеждаше, че трябва да е 50%. Като цяло изчисленията се правят лесно и бързо.

Истинският анализатор трябва да разбере как се държи функцията (какво е нейното разпределение), така че нека изчислим вероятностите за всички стойности от 0 до 100. Тоест, нека се запитаме: каква е вероятността нито един орел да не падне, че ще падне 1 орел, 2, 3, 50, 90 или 100. Изчислението е показано на следната самодвижеща се картинка. Синята линия е самото биномно разпределение, червената точка е вероятността за определен брой успехи k.

Някой може да попита биномното разпределение не е ли подобно на... Да, много подобно. Дори De Moivre (през 1733 г.) каза, че при големи извадки се приближава биномното разпределение (не знам как се наричаше тогава), но никой не го послуша. Само Гаус, а след това и Лаплас, след 60-70 години, преоткрити и внимателно проучени нормален законразпространение. Графиката по-горе ясно показва, че максималната вероятност се пада на математическото очакване и при отклонение от него рязко намалява. Точно като нормалния закон.

Биномиалното разпределение е от голямо практическо значение, среща се доста често. С помощта на Excel изчисленията се извършват лесно и бързо. Така че не се колебайте да го използвате.

На това предлагам да се сбогуваме до следващата среща. Всичко хубаво, бъдете здрави!

Споделете с приятели или запазете за себе си:

Зареждане...