Біноміальний розподіл випадкової величини.


Звичайно, при обчисленні кумулятивної функції розподілу слід скористатися згаданим зв'язком біномного та бета-розподілу. Цей спосіб наперед краще безпосереднього підсумовування, коли n > 10.

У класичних підручниках зі статистики для отримання значень біномного розподілу часто рекомендують використовувати формули, що ґрунтуються на граничних теоремах (типу формули Муавра-Лапласа). Необхідно відмітити, що з суто обчислювальної точки зоруЦінність цих теорем близька до нуля, особливо зараз, коли практично на кожному столі стоїть потужний комп'ютер. Основний недолік наведених апроксимацій – їх зовсім недостатня точність при значеннях n, характерних більшості додатків. Не меншим недоліком є ​​і відсутність скільки-небудь чітких рекомендацій щодо застосування тієї чи іншої апроксимації (у стандартних текстах наводяться лише асимптотичні формулювання, вони не супроводжуються оцінками точності і, отже, мало корисні). Я б сказав, що обидві формули придатні лише за n< 200 и для совсем грубых, ориентировочных расчетов, причем делаемых “вручную” с помощью статистических таблиц. А вот связь между биномиальным распределением и бета-распределением позволяет вычислять биномиальное распределение достаточно экономно.

Не розглядаю тут завдання пошуку квантилей: для дискретних розподілів вона тривіальна, а тих завданнях, де такі розподіли виникають, вона, зазвичай, і актуальна. Якщо ж кванти все-таки знадобляться, рекомендую так переформулювати завдання, щоб працювати з p-значеннями (спостереженими значущістю). Ось приклад: при реалізації деяких перебірних алгоритмів на кожному кроці потрібно перевіряти статистичну гіпотезупро біноміальну випадкову величину. Згідно з класичним підходом на кожному кроці потрібно обчислити статистику критерію та порівняти її значення з межею критичної множини. Оскільки, однак, алгоритм перебірний, доводиться визначати межу критичної множини щоразу заново (адже від кроку до кроку обсяг вибірки змінюється), що непродуктивно збільшує тимчасові витрати. Сучасний підхід рекомендує обчислювати спостережене значення і порівнювати її з довірчою ймовірністюекономити на пошуку квантилей.

Тому в наведених нижче кодах відсутнє обчислення зворотної функції, натомість наведена функція rev_binomialDF , яка обчислює ймовірність p успіху в окремому випробуванні за заданою кількістю n випробувань, числу m успіхів у них і значення y ймовірності отримати ці m успіхів. При цьому використовується вищезгаданий зв'язок між біноміальним та бета-розподілом.

Фактично ця функція дозволяє отримувати межі довірчих інтервалів. Справді, припустимо, що у n біноміальних випробуваннях ми здобули m успіхів. Як відомо, ліва межа двостороннього довірчого інтервалу для параметра p з довірчим рівнем дорівнює 0, якщо m = 0, а є рішенням рівняння . Аналогічно, права межа дорівнює 1, якщо m = n, а є рішенням рівняння . Звідси випливає, що для пошуку лівого кордону ми маємо вирішувати щодо рівняння , а для пошуку правої – рівняння . Вони і вирішуються у функціях binom_leftCI та binom_rightCI , що повертають верхню та нижню межі двостороннього довірчого інтервалу відповідно.

Хочу зауважити, що якщо не потрібна зовсім неймовірна точність, то при досить великих n можна скористатися наступною апроксимацією [Б.Л. ван дер Варден, математична статистика. М: ІЛ, 1960, гол. 2, розд. 7]: , де g - квантиль нормального розподілу Цінність цієї апроксимації в тому, що є дуже прості наближення, що дозволяють обчислювати квантил нормального розподілу (див. текст про обчислення нормального розподілу та відповідний розділ даного довідника). У моїй практиці (в основному, при n > 100) ця апроксимація давала приблизно 3-4 знаки, чого, як правило, цілком достатньо.

Для обчислень за допомогою нижченаведених кодів будуть потрібні файли betaDF.h , betaDF.cpp (див. розділ про бета-розподіл), а також logGamma.h , logGamma.cpp (див. додаток А). Ви також можете подивитися приклад використання функцій.

Файл binomialDF.h

#ifndef __BINOMIAL_H__ #include "betaDF.h" double binomialDF(double trials, double successes, double p); /* * Нехай є "trials" незалежних спостережень * з ймовірністю "p" успіху в кожному. * Обчислюється ймовірність B(successes|trials,p) те, що число * успіхів укладено між 0 і "successes" (включно). */ double rev_binomialDF(double trials, double successes, double y); /* * Нехай відома ймовірність y настання не менше m успіхів * у trials випробуваннях схеми Бернуллі. Функція знаходить можливість p * успіху в окремому випробуванні. * * У обчисленнях використовується наступне співвідношення * * 1 - p = rev_Beta(trials-successes| successes+1, y). */ double binom_leftCI(double trials, double successes, double level); /* Нехай є "trials" незалежних спостережень * з ймовірністю "p" успіху в кожному * і кількість успіхів дорівнює "successes". * Обчислюється ліва межа двостороннього довірчого інтервалу * з рівнем значущості level. */ double binom_rightCI(double n, double successes, double level); /* Нехай є "trials" незалежних спостережень * з ймовірністю "p" успіху в кожному * і кількість успіхів дорівнює "successes". * Обчислюється правий кордон двостороннього довірчого інтервалу * з рівнем значущості level. */ #endif /* Ends #ifndef __BINOMIAL_H__ */

Файл binomialDF.cpp

/************************************************* **********/ /* Біноміальний розподіл */ /************************************* ***************************/ #include #include #include "betaDF.h" ENTRY double binomialDF(double n, double m, double p) /* * Нехай є "n" незалежних спостережень * з ймовірністю "p" успіху в кожному. * Обчислюється ймовірність B(m|n,p) те, що кількість успіхів укладено * між 0 і "m" (включно), тобто. * суму біномних ймовірностей від 0 до m: * * m * -- (n) j n-j * > () p (1-p) * -- (j) * j=0 * * Обчислення не мають на увазі тупе сумування - використовується * наступний зв'язок із центральним бета-розподілом: * * B(m|n,p) = Beta(1-p|n-m,m+1). * * Аргументи повинні бути позитивними, причому 0<= p <= 1. */ { assert((n >0) && (p >= 0) && (p<= 1)); if (m < 0) return 0; else if (m == 0) return pow(1-p, n); else if (m >= n) return 1; else return BetaDF(n-m, m+1).value(1-p); )/* binomialDF */ ENTRY double rev_binomialDF(double n, double m, double y) /* * Нехай відома ймовірність y настання не менше m успіхів * у n випробуваннях схеми Бернуллі. Функція знаходить можливість p * успіху в окремому випробуванні. * * У обчисленнях використовується наступне співвідношення * * 1 - p = rev_Beta(y|n-m, m+1). */ ( assert((n > 0) && (m >= 0) && (m<= n) && (y >= 0) && (y<= 1)); return 1-BetaDF(n-m, m+1).inv(y); }/*rev_binomialDF*/ ENTRY double binom_leftCI(double n, double m, double y) /* Пусть имеется "n" независимых наблюдений * с вероятностью "p" успеха в каждом * и количество успехов равно "m". * Вычисляется левая граница двухстороннего доверительного интервала * с уровнем значимости y. */ { assert((n >0) && (m >= 0) && (m<= n) && (y >= 0.5) && (y< 1)); return BetaDF(m, n-m+1).inv((1-y)/2); }/*binom_leftCI*/ ENTRY double binom_rightCI(double n, double m, double y) /* Пусть имеется "n" независимых наблюдений * с вероятностью "p" успеха в каждом * и количество успехов равно "m". * Вычисляется правая граница доверительного интервала * с уровнем значимости y. */ { assert((n >0) && (m >= 0) && (m<= n) && (y >= 0.5) && (y< 1)); return BetaDF(m+1, n-m).inv((1+y)/2); }/*binom_rightCI*/

Розділ 7.

Конкретні закони розподілу випадкових величин

Види законів розподілу дискретних випадкових величин

Нехай дискретна випадкова величина може набувати значення х 1 , х 2 , …, х n, …. Імовірності цих значень можуть бути обчислені за різними формулами, наприклад, за допомогою основних теорем теорії ймовірностей, формули Бернуллі або інших формул. Для деяких із цих формул закон розподілу має свою назву.

Найбільш поширеними законами розподілу дискретної випадкової величини є біноміальний, геометричний, гіпергеометричний, закон розподілу Пуассона.

Біноміальний закон розподілу

Нехай проводиться nнезалежних випробувань, у кожному з яких може з'явитися чи не з'явитися подія А. Імовірність появи цієї події в кожному одиничному випробуванні постійна, не залежить від номера випробування і дорівнює р=Р(А). Звідси ймовірність не появи події Ау кожному випробуванні також постійна і рівна q=1–р. Розглянемо випадкову величину Хрівну числу події Ав nвипробуваннях. Очевидно, що значення цієї величини дорівнюють

х 1 = 0 - подія Ав nвипробуваннях не з'явилося;

х 2 = 1 - подія Ав nвипробування з'явилося один раз;

х 3 = 2 - подія Ав nвипробування з'явилося двічі;

…………………………………………………………..

х n +1 = n– подія Ав nвипробуваннях з'явилося все nразів.

Імовірності цих значень можуть бути обчислені за формулою Бернуллі (4.1):

де до=0, 1, 2, …,n .

Біноміальним законом розподілу Х, що дорівнює кількості успіхів у nвипробуваннях Бернуллі, з ймовірністю успіху р.

Отже, дискретна випадкова величина має біномний розподіл (або розподілена за біноміальним законом), якщо її можливі значення 0, 1, 2, …, n, А відповідні ймовірності обчислюються за формулою (7.1).

Біноміальний розподіл залежить від двох параметрів рі n.

Ряд розподілу випадкової величини, розподіленої за біноміальним законом, має вигляд:

Х k n
Р

приклад 7.1 . Здійснюється три незалежні постріли по мішені. Імовірність влучення при кожному пострілі дорівнює 0,4. Випадкова величина Х- Число попадань в ціль. Побудувати її низку розподілу.

Рішення. Можливими значеннями випадкової величини Хє х 1 =0; х 2 =1; х 3 =2; х 4 =3. Знайдемо відповідні можливості, використовуючи формулу Бернуллі. Неважко показати, що застосування цієї формули тут цілком виправдане. Зазначимо, що ймовірність не влучення в ціль при одному пострілі дорівнюватиме 1-0,4 = 0,6. Отримаємо

Ряд розподілу має такий вигляд:

Х
Р 0,216 0,432 0,288 0,064

Неважко перевірити, що сума всіх ймовірностей дорівнює 1. Сама випадкова величина Хрозподілено за біноміальним законом. ■

Знайдемо математичне очікування та дисперсію випадкової величини, розподіленої за біноміальним законом.

При рішенні прикладу 6.5 було показано, що математичне очікування кількості події Ав nнезалежних випробувань, якщо ймовірність появи Ау кожному випробуванні постійна і рівна р, одно n· р

У цьому прикладі використовувалася випадкова величина, розподілена за біноміальним законом. Тому рішення прикладу 6.5 по суті є доказом наступної теореми.

Теорема 7.1.Математичне очікування дискретної випадкової величини, розподіленої за біноміальним законом, дорівнює добутку числа випробувань на можливість " успіху " , тобто. М(Х)=n· нар.

Теорема 7.2.Дисперсія дискретної випадкової величини, розподіленої по биномиальному закону, дорівнює добутку числа випробувань на можливість " успіху " і можливість " невдачі " , тобто. D(Х)=nрq.

Асиметрія та ексцес випадкової величини, розподіленої за біноміальним законом, визначаються за формулами

Ці формули можна отримати, скориставшись поняттям початкових та центральних моментів.

Біноміальний закон розподілу є основою багатьох реальних ситуацій. При великих значеннях nбіномний розподіл може бути апроксимований за допомогою інших розподілів, зокрема за допомогою розподілу Пуассона.

Розподіл Пуассона

Нехай є nвипробувань Бернуллі, при цьому кількість випробувань nдосить велике. Раніше було показано, що в цьому випадку (якщо до того ж ймовірність рподії Адуже мала) для знаходження ймовірності того, що подія Аз'явитися траз у випробуваннях можна скористатися формулою Пуассона (4.9). Якщо випадкова величина Хозначає кількість появи події Ав nвипробуваннях Бернуллі, то ймовірність того, що Хнабуде значення kможе бути обчислена за формулою

, (7.2)

де λ = .

Законом розподілу Пуассонаназивається розподіл дискретної випадкової величини Х, для якої можливими значеннями є цілі невід'ємні числа, а ймовірності р тцих значень перебувають за формулою (7.2).

Величина λ = називається параметромрозподілу Пуассона.

Випадкова величина, розподілена за законом Пуассона, може набувати безліч значень. Так як для цього розподілу ймовірність рПоява події в кожному випробуванні мала, то цей розподіл іноді називають законом рідкісних явищ.

Ряд розподілу випадкової величини, розподіленої згідно із законом Пуассона, має вигляд

Х т
Р

Неважко переконатися, що сума ймовірностей другого рядка дорівнює 1. Для цього необхідно згадати, що функцію можна розкласти в рядок Маклорена, який сходиться для будь-якого х. В даному випадку маємо

. (7.3)

Як зазначалося, закон Пуассона у певних граничних випадках замінює биномиальный закон. Як приклад можна навести випадкову величину Хзначення якої рівні кількості збоїв за певний проміжок часу при багаторазовому застосуванні технічного пристрою. У цьому передбачається, що це пристрій високої надійності, тобто. ймовірність збою при одному застосуванні дуже мала.

Крім таких граничних випадків, на практиці трапляються випадкові величини, розподілені за законом Пуассона, не пов'язані з біномним розподілом. Наприклад, розподіл Пуассона часто використовується тоді, коли мають справу з кількістю подій, що з'являються в проміжку часу (кількість надходжень викликів на телефонну станцію протягом години, кількість машин, що прибули на автомийку протягом доби, кількість зупинок верстатів на тиждень і т.п. .). Всі ці події повинні утворювати так званий потік подій, який є одним з основних понять теорії масового обслуговування. Параметр λ характеризує середню інтенсивність потоку подій.

На відміну від нормального та рівномірного розподілів, що описують поведінку змінної у досліджуваній вибірці піддослідних, біноміальний розподіл використовується для інших цілей. Воно служить для прогнозування ймовірності двох взаємовиключних подій у деяких незалежних один від одного випробувань. Класичний приклад біномного розподілу – підкидання монети, що падає на тверду поверхню. Рівноймовірні два результати (події): 1) монета падає «орлом» (імовірність дорівнює р) або 2) монета падає «решкою» (імовірність дорівнює q). Якщо третього результату не дано, то p = q= 0,5 та p + q= 1. Використовуючи формулу біномного розподілу, можна визначити, наприклад, яка ймовірність того, що у 50 випробуваннях (число підкидань монети) остання випаде «орлом», припустимо, 25 разів.

Для подальших міркувань введемо загальноприйняті позначення:

n– загальна кількість спостережень;

i- Число цікавлять нас подій (виходів);

ni- Число альтернативних подій;

p– емпірично визначена (іноді – передбачувана) ймовірність цікавої для нас події;

q- Можливість альтернативної події;

P n ( i) – прогнозована ймовірність цікавої для нас події iза певною кількістю спостережень n.

Формула біномного розподілу:

У разі рівноймовірного результату подій ( p = q) можна використовувати спрощену формулу:

(6.8)

Розглянемо три приклади, що ілюструють використання формул біномного розподілу у психологічних дослідженнях.

Приклад 1

Припустимо, що 3 студенти вирішують завдання підвищеної складності. Для кожного з них рівноймовірні 2 результати: (+) – розв'язання та (-) – нерозв'язання задачі. Усього можливе 8 різних результатів (2 3 = 8).

Імовірність того, що жоден студент не впорається із завданням, дорівнює 1/8 (варіант 8); 1 студент впорається із завданням: P= 3/8 (варіанти 4, 6, 7); 2 студенти – P= 3/8 (варіанти 2, 3, 5) та 3 студенти – P= 1/8 (варіант 1).

Необхідно визначити ймовірність того, що троє з 5 студентів успішно впораються з цим завданням.

Рішення

Усього можливих результатів: 2 5 = 32.

Загальна кількість варіантів 3(+) та 2(-) становить

Отже, ймовірність очікуваного результату дорівнює 10/32» 0,31.

Приклад 3

Завдання

Визначити ймовірність того, що у групі з 10 випадкових випробуваних виявиться 5 екстравертів.

Рішення

1. Вводимо позначення: p = q = 0,5; n= 10; i = 5; P 10 (5) = ?

2. Використовуємо спрощену формулу (див. вище):

Висновок

Імовірність того, що серед 10 випадкових випробуваних виявиться 5 екстравертів, становить 0,246.

Примітки

1. Обчислення за формулою за досить великої кількості випробувань досить трудомістке, тому у випадках рекомендується використовувати таблиці биномиального розподілу.

2. У деяких випадках значення pі qможна поставити спочатку, але не завжди. Як правило, вони обчислюються за наслідками попередніх випробувань (пілотажних досліджень).

3. У графічному зображенні (у координатах P n(i) = f(i)) Біноміальний розподіл може мати різний вигляд: у разі p = qрозподіл симетрично та нагадує нормальний розподіл Гауса; асиметрія розподілу тим більше, чим більша різниця між ймовірностями pі q.

Розподіл Пуассона

Розподіл Пуассона є окремим випадком біномного розподілу, що використовується при дуже низькій ймовірності цікавих для нас подій. Іншими словами, цей розподіл визначає можливість рідкісних подій. Формулою Пуассона можна користуватися при p < 0,01 и q ≥ 0,99.

Рівняння Пуассона є наближеним і описується такою формулою:

(6.9)

де μ є твір середньої ймовірності події та числа спостережень.

Як приклад розглянемо алгоритм розв'язання наступного завдання.

Умова задачі

За кілька років у 21 великій клініці Росії було проведено масове обстеження новонароджених щодо захворювання немовлят хворобою Дауна (вибірка в середньому становила 1000 новонароджених у кожній клініці). Були отримані такі дані:

Завдання

1. Визначити середню ймовірність захворювання (у перерахунку число новонароджених).

2. Визначити, скільки новонароджених у середньому припадає одне захворювання.

3. Визначити ймовірність того, що серед 100 випадково обраних новонароджених виявиться 2 немовляти із хворобою Дауна.

Рішення

1. Визначаємо середню ймовірність захворювання. При цьому ми маємо керуватися такими міркуваннями. Хвороба Дауна зареєстрована лише в 10 клініках з 21. У 11 клініках захворювань не виявлено, у 6 клініках зареєстровано по 1 випадку, у 2 клініках – 2 випадки, у 1-й клініці – 3 та у 1-й клініці – 4 випадки хвороби. 5 випадків захворювання не було виявлено в жодній клініці. Для того щоб визначити середню ймовірність захворювання, необхідно загальну кількість випадків (6 · 1 + 2 · 2 + 1 · 3 + 1 · 4 = 17) розділити на загальну кількість новонароджених (21000):

2. Число новонароджених, на яке припадає одне захворювання, є величиною зворотної середньої ймовірності, тобто дорівнює загальному числу новонароджених, віднесеному до зареєстрованих випадків:

3. Підставляємо значення p = 0,00081, n= 100 та i= 2 у формулу Пуассона:

Відповідь

Імовірність того, що серед 100 випадково обраних новонароджених виявиться 2 немовляти із хворобою Дауна, становить 0,003 (0,3%).

Завдання на тему

Завдання 6. 1

Завдання

Користуючись даними задачі 5.1 за часом сенсомоторної реакції, обчислити асиметрію та ексцес розподілу ВР.

Завдання 6. 2

200 учнів випускних класів було протестовано на рівень інтелектуальності ( IQ). Після нормування отриманого розподілу IQза стандартним відхиленням були отримані такі результати:

Завдання

Користуючись критеріями Колмогорова та хі-квадрат, визначити, чи відповідає отриманий розподіл показників IQнормальному.

Завдання 6. 3

У дорослого випробуваного (чоловік 25 років) досліджувався час простої сенсомоторної реакції (ВР) у відповідь на звуковий стимул з постійною частотою 1 кГц та інтенсивністю 40 дБ. Стимул пред'являвся повністю з інтервалами 3 – 5 секунд. Окремі значення ВР за 100 повторностями розподілилося таким чином:

Завдання

1. Побудувати частотну гістограму розподілу ВР; визначити середнє значення ВР та величину стандартного відхилення.

2. Розрахувати коефіцієнт асиметрії та показник ексцесу розподілу ВР; на підставі отриманих значень Asі Exзробити висновок про відповідність чи невідповідність даного розподілу нормальному.

Завдання 6. 4

У 1998 році в Нижньому Тагілі закінчили школи із золотими медалями 14 осіб (5 юнаків та 9 дівчат), зі срібними – 26 осіб (8 юнаків та 18 дівчат).

Питання

Чи можна стверджувати, що дівчата отримують медалі частіше за юнаків?

Примітка

Співвідношення числа юнаків та дівчат у генеральній сукупності вважати рівним.

Завдання 6. 5

Вважається, що кількість екстравертів та інтровертів у однорідній групі піддослідних є приблизно однаковим.

Завдання

Визначити ймовірність того, що у групі з 10 випадково відібраних піддослідних виявиться 0, 1, 2, ..., 10 екстравертів. Побудувати графічний вираз розподілу ймовірностей виявлення 0, 1, 2, ..., 10 екстравертів у цій групі.

Завдання 6. 6

Завдання

Розрахувати ймовірність P n(i) функції біномного розподілу при p= 0,3 та q= 0,7 для значень n= 5 та i= 0, 1, 2, ..., 5. Побудувати графічний вираз залежності P n(i) = f(i) .

Завдання 6. 7

Останніми роками серед певної частини населення утвердилася віра у астрологічні прогнози. За наслідками попередніх опитувань встановлено, що в астрологію вірять близько 15% населення.

Завдання

Визначити ймовірність того, що серед 10 випадково обраних респондентів виявиться 1, 2 чи 3 особи, які вірять в астрологічні прогнози.

Завдання 6. 8

Умова задачі

У 42 загальноосвітніх школах м. Єкатеринбурга та Свердловської області (загальна кількість учнів 12260 осіб) за кілька років було виявлено таку кількість випадків психічних захворювань серед школярів:

Завдання

Нехай буде вибірково обстежено 1000 школярів. Розрахувати, яка ймовірність того, що серед цієї тисячі школярів буде виявлено 1, 2 чи 3 психічно хворих дитини?


РОЗДІЛ 7. ЗАХОДИ ВІДМІН

Постановка проблеми

Припустимо, що маємо дві незалежні друг від друга вибірки піддослідних хі у. НезалежнимиВибірки вважаються тоді, коли один і той же суб'єкт (випробуваний) фігурує тільки в одній вибірці. Завдання полягає в тому, щоб порівняти між собою ці вибірки (два ряди змінних) щодо їх відмінностей. Природно, що як би не були близькі між собою значення змінних у першій та другій вибірці, якісь, хай навіть незначні, різницю між ними виявлятимуться. З погляду математичної статистики нас цікавить питання, чи є різницю між цими вибірками статистично достовірними (статистично значимими) чи недостовірними (випадковими).

Найбільш поширеними критеріями достовірності різниці між вибірками є параметричні заходи – критерій Стьюдентаі критерій Фішера. У ряді випадків використовуються непараметричні критерії. критерій Q Розенбаума, U-критерій Манна-Уітніта ін Особливе місце посідає кутове перетворення Фішера φ*, що дозволяють порівнювати одне з одним значення, виражені у відсотках (відсоткових частках). І, нарешті, як окремий випадок, для порівняння вибірок можуть бути використані критерії, що характеризують форму розподілів вибірок – критерій χ 2 Пірсонаі критерій λ Колмогорова – Смирнова.

З метою найкращого засвоєння цієї теми ми надійдемо так. Одне й те завдання ми вирішимо чотирма методами з використанням чотирьох різних критеріїв – Розенбаума, Манна-Уітні, Стьюдента і Фішера.

Умова задачі

30 студентів (14 юнаків та 16 дівчат) під час екзаменаційної сесії протестовано за тестом Спілбергера на рівень реактивної тривожності. Отримано такі результати (табл. 7.1):

Таблиця 7.1

Випробувані Рівень реактивної тривожності
Юнаки
Дівчата

Завдання

Визначити, чи статистично достовірними є відмінності рівня реактивної тривожності у юнаків та дівчат.

Завдання видається цілком типовим для психолога, що спеціалізується в галузі педагогічної психології: хто гостріше переживає екзаменаційний стрес – юнаки чи дівчата? Якщо різницю між вибірками статистично достовірні, то існують значні статеві різницю у цьому аспекті; якщо відмінності є випадковими (статистично недостовірними), від цього припущення слід відмовитися.

7. 2. Непараметричний критерій QРозенбаум

Q-Критерій Розенбаума заснований на порівнянні «накладених» один на одного ранжованих рядів значень двох незалежних змінних. При цьому не аналізується характер розподілу ознаки всередині кожного ряду – у даному випадку має значення лише ширина ділянок двох ранжованих рядів, що не перекриваються. При порівнянні між собою двох ранжованих рядів змінних можливі 3 варіанти:

1. Ранжовані ряди xі yнемає області перекриття, т. е. всі значення першого ранжированного ряду ( x) Найбільше значень другого ранжованого ряду( y):

У цьому випадку відмінності між вибірками, що визначаються за будь-яким статистичним критерієм, безперечно достовірні, і використання критерію Розенбауму не потрібне. Проте на практиці такий варіант трапляється виключно рідко.

2. Ранжовані ряди повністю накладаються один на одного (як правило, один з рядів знаходиться всередині іншого), зони, що не перекриваються, відсутні. У разі критерій Розенбаума непридатний.

3. Є зона перекриття рядів, а також дві області, що не перекриваються ( N 1і N 2), що відносяться до різнимранжованим рядам (позначимо х– ряд, зрушений у бік великих, y– у бік менших значень):

Даний випадок є типовим для використання критерію Розенбаума, при використанні якого слід дотримуватись таких умов:

1. Обсяг кожної вибірки має бути не менше ніж 11.

2. Обсяги вибірок не повинні суттєво відрізнятись один від одного.

Критерій QРозенбаума відповідає числу значень, що не перекриваються: Q = N 1 +N 2 . Висновок про достовірність відмінностей між вибірками робиться у разі, якщо Q > Qкр . При цьому значення Qкр перебувають у спеціальних таблицях (див. Додаток, табл. VIII).

Повернемося до нашого завдання. Введемо позначення: х- Вибірка дівчат, y- Вибірка юнаків. Для кожної вибірки будуємо ранжований ряд:

х: 28 30 34 34 35 36 37 39 40 41 42 42 43 44 45 46

y: 26 28 32 32 33 34 35 38 39 40 41 42 43 44

Підраховуємо число значень у областях, що не перекриваються, ранжованих рядів. У ряді хнеперекриваються значення 45 і 46, тобто. N 1 = 2; у ряді yтільки 1 неперекривається значення 26, тобто. N 2 = 1. Звідси, Q = N 1 +N 2 = 1 + 2 = 3.

У табл. VIII Додатки знаходимо, що Qкр . = 7 (для рівня значимості 0,95) та Qкр = 9 (для рівня значущості 0,99).

Висновок

Оскільки Q<Qкр, то за критерієм Розенбаума різницю між вибірками є статистично достовірними.

Примітка

Критерій Розенбаума може використовуватися незалежно від характеру розподілу змінних, тобто в даному випадку відпадає необхідність використання критеріїв 2 Пірсона і Колмогорова для визначення типу розподілів в обох вибірках.

7. 3. U-критерій Манна – Вітні

На відміну від критерію Розенбаума, U-Критерій Манна - Уітні заснований на визначенні зони перекриття між двома ранжованими рядами, тобто чим менше зона перекриття, тим вірогідніша різниця між вибірками. Для цього використовується спеціальна процедура перетворення інтервальних шкал на рангові.

Розглянемо алгоритм обчислень за U-Критерію на прикладі попередньої задачі.

Таблиця 7.2

x, y R xy R xy * R x R y
26 28 32 32 33 34 35 38 39 40 41 42 43 44 2,5 2,5 5,5 5,5 11,5 11,5 16,5 16,5 18,5 18,5 20,5 20,5 25,5 25,5 27,5 27,5 2,5 11,5 16,5 18,5 20,5 25,5 27,5 1 2,5 5,5 5,5 7 9 11,5 15 16,5 18,5 20,5 23 25,5 27,5
Σ 276,5 188,5

1. З двох незалежних вибірок будуємо єдиний ранжований ряд. У цьому випадку значення для обох вибірок йдуть «упереміш», стовпець 1 ( x, y). З метою спрощення подальшої роботи (у тому числі і в комп'ютерному варіанті) слід значення для різних вибірок відзначати різним шрифтом (або різним кольором) з урахуванням того, що надалі ми їх розноситимемо різними стовпцями.

2. Перетворимо інтервальну шкалу значень на порядкову (для цього перепозначаємо всі значення ранговими числами від 1 до 30, стовпець 2 ( R xy)).

3. Вводимо поправки на пов'язані ранги (однакові значення змінної позначаються тим самим рангом за умови, що сума рангів не змінюється, стовпець 3 ( R xy*). На цьому етапі рекомендується підрахувати суми рангів у 2-му та 3-му стовпці (якщо всі поправки введені правильно, то ці суми повинні бути рівні).

4. Розносимо рангові числа відповідно до їх приналежності до тієї чи іншої вибірки (стовпці 4 і 5 ( R x та R y)).

5. Проводимо обчислення за такою формулою:

(7.1)

де Тх – найбільша з рангових сум ; n x та n y , відповідно, обсяги вибірок. В даному випадку слід мати на увазі, що якщо T x< T y , то позначення xі yслід змінити зворотні.

6. Порівнюємо отримане значення з табличним (див. Додатки, табл. IX). Висновок про достовірність відмінностей між двома вибірками робиться у разі, якщо Uексп.< Uкр. .

У нашому прикладі Uексп. = 83,5> U кр. = 71.

Висновок

Відмінності між двома вибірками за критерієм Манна-Уітні не є статистично достовірними.

Примітки

1. Критерій Манна-Уітні немає ніяких обмежень; мінімальні обсяги порівнюваних вибірок – 2 та 5 осіб (див. табл. IX Додатка).

2. Аналогічно критерію Розенбаума критерій Манна-Уітні може бути використаний стосовно будь-яких вибірок незалежно від характеру розподілу.

Критерій Стьюдента

На відміну від критеріїв Розенбаума та Манна-Уітні критерій tСтьюдента є параметричним, тобто заснований на визначенні основних статистичних показників – середніх значень у кожній вибірці (і) та їх дисперсій (s 2 x і s 2 y), що розраховуються за стандартними формулами (див. розділ 5).

Використання критерію Стьюдента передбачає дотримання наступних умов:

1. Розподіл значень для обох вибірок повинен відповідати закону нормального розподілу (див. розділ 6).

2. Сумарний обсяг вибірок повинен бути не менше 30 (для β 1 = 0,95) та не менше 100 (для β 2 = 0,99).

3. Обсяги двох вибірок не повинні суттєво відрізнятись один від одного (не більше ніж у 1,5 ÷ 2 рази).

Ідея критерію Стьюдента досить проста. Припустимо, що значення змінних у кожній з вибірок розподіляються за нормальним законом, тобто.

s x s y

Рис. 7.1. Оцінка відмінностей між двома незалежними вибірками: - середні значення вибірок xі y; s x та s y - стандартні відхилення

Неважко зрозуміти, що відмінності між двома вибірками будуть тим більшими, чим більша різниця між середніми значеннями і чим менше їх дисперсії (або стандартні відхилення).

У разі незалежних вибірок коефіцієнт Стьюдента визначають за такою формулою:

(7.2)

де n x та n y – відповідно чисельність вибірок xі y.

Після обчислення коефіцієнта Стьюдента у таблиці стандартних (критичних) значень t(див. Додаток, табл. Х) знаходять величину, що відповідає числу ступенів свободи n = n x + n y - 2, і порівнюють її з розрахованою за формулою. Якщо tексп. £ tкр. , то гіпотезу про достовірність відмінностей між вибірками відкидають, якщо ж tексп. > tкр. , То її приймають. Іншими словами, вибірки достовірно відрізняються один від одного, якщо обчислений за формулою коефіцієнт Стьюдента більше табличного значення відповідного рівня значимості.

У розглянутій нами раніше задачі обчислення середніх значень та дисперсій дає такі значення: xпор. = 38,5; σ х 2 = 28,40; упор. = 36,2; σ у 2 = 31,72.

Можна бачити, що середнє значення тривожності групи дівчат вище, ніж у групі юнаків. Проте ці відмінності настільки незначні, що навряд чи є статистично значущими. Розкид значень у юнаків, навпаки, дещо вищий, ніж у дівчат, але різницю між дисперсіями також невеликі.

Висновок

tексп. = 1,14< tкр. = 2,05 (? 1 = 0,95). Відмінності між двома порівнюваними вибірками є статистично достовірними. Цей висновок цілком узгоджується з таким, отриманим під час використання критеріїв Розенбаума і Манна-Уітні.

Інший спосіб визначення відмінностей між двома вибірками за критерієм Стьюдента полягає у обчисленні довірчого інтервалу стандартних відхилень. Довірчим інтервалом називається середньоквадратичне (стандартне) відхилення, поділене на квадратний корінь з обсягу вибірки і помножене на стандартне значення коефіцієнта Стьюдента для n- 1 ступенів свободи (відповідно, і ).

Примітка

Величина = m xназивається середньоквадратичною помилкою (див. Розділ 5). Отже, довірчий інтервал є середньоквадратичною помилкою, помноженою на коефіцієнт Стьюдента для даного обсягу вибірки, де число ступенів свободи ν = n– 1, та заданого рівня значимості.

Дві незалежні один від одного вибірки вважаються достовірно різними, якщо довірчі інтервали цих вибірок не перекриваються друг з одним. У нашому випадку ми маємо для першої вибірки 38,5±2,84, для другої 36,2±3,38.

Отже, випадкові варіації x iлежать у діапазоні 35,66 41,34, а варіації y i– у діапазоні 32,82 39,58. На підставі цього можна констатувати, що різницю між вибірками xі yстатистично недостовірні (діапазони варіацій перекриваються один з одним). У цьому слід пам'ятати, що ширина зони перекриття у разі немає значення (важливий лише сам факт перекриття довірчих інтервалів).

Метод Стьюдента для залежних один від одного вибірок (наприклад, для порівняння результатів, отриманих при повторному тестуванні на одній і тій же вибірці піддослідних) використовують досить рідко, оскільки для цього існують інші, більш інформативні статистичні прийоми (див. розділ 10). Тим не менш, для цієї мети в першому наближенні можна використовувати формулу Стьюдента такого виду:

(7.3)

Отриманий результат порівнюють з табличним значенням для n– 1 ступенів свободи, де n- Число пар значень xі y. Результати порівняння інтерпретуються так само, як і у разі обчислення відмінностей між двома незалежними вибірками.

Критерій Фішера

Критерій Фішера ( F) заснований на тому ж принципі, що і критерій Стьюдента, тобто передбачає обчислення середніх значень та дисперсій у порівнюваних вибірках. Найчастіше використовують у порівнянні між собою нерівноцінних за обсягом (різних за чисельністю) вибірок. Критерій Фішера є дещо жорсткішим, ніж критерій Стьюдента, тому більш переважний у випадках, коли виникають сумніви щодо достовірності відмінностей (наприклад, якщо за критерієм Стьюдента відмінності достовірні при нульовому і недостовірні за першому рівні значимості).

Формула Фішера виглядає так:

(7.4)

де і (7.5, 7.6)

У завданні нами d 2= 5,29; σ z 2 = 29,94.

Підставляємо значення у формулу:

У табл. ХI Додатків знаходимо, що для рівня значущості β 1 = 0,95 та ν = n x + n y - 2 = 28 критичне значення становить 4,20.

Висновок

F = 1,32 < F кр.= 4,20. Відмінності між вибірками статистично недостовірні.

Примітка

При використанні критерію Фішера повинні дотримуватися тих самих умов, що й для критерію Стьюдента (див. підрозділ 7.4). Проте допускається відмінність чисельності вибірок більш як удвічі.

Таким чином, при вирішенні однієї і тієї ж задачі чотирма різними методами з використанням двох непараметричних та двох параметричних критеріїв ми дійшли однозначного висновку про те, що відмінності між групою дівчат та групою юнаків за рівнем реактивної тривожності недостовірні (тобто знаходяться в межах випадкових варіацій). Однак можуть зустрітися і такі випадки, коли зробити однозначний висновок неможливо: одні критерії дають достовірні, інші – недостовірні відмінності. У цих випадках пріоритет надається параметричним критеріям (за умови достатності обсягу вибірок та нормального розподілу досліджуваних величин).

7. 6. Критерій j* - кутове перетворення Фішера

Критерій j * Фішера призначений для зіставлення двох вибірок за частотою зустрічальності цікавого дослідника ефекту. Він оцінює достовірність відмінностей між відсотковими частками двох вибірок, в яких зареєстрований цікавий для нас ефект. Допускається також порівняння відсоткових співвідношень та в межах однієї вибірки.

Суть кутового перетворення Фішера полягає у переведенні відсоткових часток у величини центрального кута, що вимірюється в радіанах. Більшій відсотковій частці буде відповідати більший кут j, а меншій частці – менший кут, але відносини тут нелінійні:

де Р- Відсоткова частка, виражена в частках одиниці.

При збільшенні розбіжності між кутами j 1 і j 2 та збільшення чисельності вибірок значення критерію зростає.

Критерій Фішера обчислюється за такою формулою:


де j 1 - Кут, відповідний більшій процентній частці; j 2 – кут, що відповідає меншій відсотковій частці; n 1 і n 2 – відповідно, обсяг першої та другої вибірок.

Обчислене за формулою значення порівнюється зі стандартним (j* ст = 1,64 для b 1 = 0,95 та j* ст = 2,31 для b 2 = 0,99. Відмінності між двома вибірками вважаються статистично достовірними, якщо j*> j* ст для цього рівня значимості.

приклад

Нас цікавить, чи різняться між собою дві групи студентів щодо успішності виконання досить складного завдання. У першій групі з 20 осіб із нею впоралося 12 студентів, у другій – 10 осіб із 25.

Рішення

1. Вводимо позначення: n 1 = 20, n 2 = 25.

2. Обчислюємо відсоткові частки Р 1 і Р 2: Р 1 = 12 / 20 = 0,6 (60%), Р 2 = 10 / 25 = 0,4 (40%).

3. У табл. XII Додатків знаходимо відповідні відсоткові частини значення φ: j 1 = 1,772, j 2 = 1,369.


Звідси:

Висновок

Відмінності між групами є статистично достовірними, оскільки j*< j* ст для 1-го и тем более для 2-го уровня значимости.

7.7. Використання критерію χ2 Пірсона та критерію λ Колмогорова

Теорія ймовірності незримо є у нашому житті. Ми не звертаємо на це уваги, але кожна подія у нашому житті має ту чи іншу ймовірність. Беручи до уваги безліч варіантів розвитку подій, нам стає необхідним визначати найімовірніші і найменш ймовірні з них. Найбільш зручно аналізувати такі імовірнісні дані графічно. У цьому може допомогти розподіл. Біноміальне - одне з найлегших і найточніших.

Перш ніж перейти безпосередньо до математики та теорії ймовірності, розберемося з тим, хто ж перший вигадав такий вид розподілу та яка історія розвитку математичного апарату для цього поняття.

Історія

Поняття ймовірності відоме ще з давніх часів. Однак давні математики не надавали їй особливо значення і змогли закласти тільки основи для теорії, що згодом стала теорією ймовірності. Вони створили деякі комбінаторні методи, які сильно допомогли тим, хто пізніше створив та розвинув саму теорію.

У другій половині сімнадцятого століття почалося формування основних понять та методів теорії ймовірності. Було введено визначення випадкових величин, способи обчислення ймовірності простих та деяких складних незалежних та залежних подій. Продиктований такий інтерес до випадкових величин та ймовірностей був азартними іграми: кожна людина хотіла знати, які у неї шанси перемогти у грі.

Наступним етапом стало застосування теорії ймовірності методів математичного аналізу. Цим зайнялися визначні математики, такі як Лаплас, Гаусс, Пуассон і Бернуллі. Саме вони просунули цю галузь математики нового рівня. Саме Джеймс Бернуллі відкрив біноміальний законрозподілу. До речі, як ми пізніше з'ясуємо, на основі цього відкриття було зроблено ще кілька, які дозволили створити закон нормального розподілу та ще багато інших.

Зараз, перш ніж почати описувати розподіл біномний, ми трохи освіжимо в пам'яті поняття теорії ймовірностей, напевно вже забуті зі шкільної лави.

Основи теорії ймовірностей

Розглянемо такі системи, в результаті дії яких можливі лише два результати: "успіх" і "не успіх". Це легко зрозуміти на прикладі: ми підкидаємо монетку, загадавши те, що випаде решка. Імовірності кожної з можливих подій (випаде решка – "успіх", випаде орел – "не успіх") дорівнюють 50 відсоткам при ідеальному балансуванні монети та відсутності інших факторів, які можуть вплинути на експеримент.

Це була найпростіша подія. Але бувають ще й складні системи, в яких виконуються послідовні дії, і ймовірність результатів цих дій відрізнятимуться. Наприклад, розглянемо таку систему: у коробці, вміст якої ми не можемо розглянути, лежать шість абсолютно однакових кульок, три пари синього, червоного та білого кольорів. Ми повинні дістати навмання кілька кульок. Відповідно, витягнувши першою одну з білих кульок, ми зменшимо в рази ймовірність того, що наступним нам теж трапиться біла кулька. Відбувається це тому, що змінюється кількість об'єктів у системі.

У наступному розділі розглянемо складніші математичні поняття, що впритул підводять нас до того, що означають слова " нормальний розподіл"Біноміальний розподіл" тощо.

Елементи математичної статистики

У статистиці, яка є однією з сфер застосування теорії ймовірностей, існує безліч прикладів, коли дані для аналізу дано не в явному вигляді. Тобто не в чисельному, а у вигляді поділу за ознаками, наприклад, за статевими. Для того, щоб застосувати до таких даних математичний апарат та зробити з отриманих результатів якісь висновки, потрібно перевести вихідні дані до числового формату. Як правило, для здійснення цього позитивного результату надають значення 1, а негативному - 0. Таким чином, ми отримуємо статистичні дані, які можна піддати аналізу за допомогою математичних методів.

Наступний крок у розумінні того, що таке біномний розподіл випадкової величини, - це визначення дисперсії випадкової величини та математичного очікування. Про це поговоримо у наступному розділі.

Математичне очікування

Насправді зрозуміти те, що таке математичне очікування, не складно. Розглянемо систему, де існує багато різних подій зі своїми різними ймовірностями. Математичним очікуванням буде називатися величина, рівна сумітворів значень цих подій (а математичному вигляді, про який ми говорили у минулому розділі) на ймовірності їх здійснення.

Математичне очікування біномного розподілу розраховується за тією ж схемою: ми беремо значення випадкової величини, множимо його на ймовірність позитивного результату, а потім підсумовуємо отримані дані для всіх величин. Дуже зручно уявити ці дані графічно - краще сприймається різниця між математичними очікуваннями різних величин.

У наступному розділі ми розповімо вам трохи про інше поняття – дисперсію випадкової величини. Воно теж тісно пов'язане з таким поняттям, як біномний розподіл ймовірностей, і є його характеристикою.

Дисперсія біномного розподілу

Ця величина тісно пов'язана з попередньою та також характеризує розподіл статистичних даних. Вона являє собою середній квадрат відхилень значень від їхнього математичного очікування. Тобто дисперсія випадкової величини - це сума квадратів різниць між значенням випадкової величини та її математичним очікуванням, помножена на ймовірність цієї події.

Загалом це все, що нам потрібно знати про дисперсію для розуміння того, що таке біномне розподіл ймовірностей. Тепер перейдемо безпосередньо до нашої теми. А саме до того, що криється за таким на вигляд досить складним словосполученням "біноміальний закон розподілу".

Біноміальний розподіл

Розберемося для початку, чому ж цей розподіл биноміальний. Воно походить від слова "біном". Можливо, ви чули про біном Ньютона - таку формулу, за допомогою якої можна розкласти суму двох будь-яких чисел a і b будь-якою невід'ємною мірою n.

Як ви, напевно, вже здогадалися, формула бінома Ньютона та формула біномного розподілу – це практично однакові формули. За тим лише винятком, що друга має прикладне значення для конкретних величин, а перша - лише загальний математичний інструмент, застосування якого практично можуть бути різні.

Формули розподілу

Функція біномного розподілу може бути записана у вигляді суми наступних членів:

(n!/(n-k)!k!)*p k *q n-k

Тут n - число незалежних випадкових експериментів, p - число вдалих наслідків, q - число невдалих наслідків, k - номер експерименту (може приймати значення від 0 до n),! - позначення факторіалу, такої функції числа, значення якої дорівнює добутку всіх чисел, що йдуть до неї (наприклад, для числа 4: 4!=1*2*3*4=24).

Крім цього, функція біномного розподілу може бути записана у вигляді неповної бета-функції. Однак це вже складніше визначення, яке використовується лише при вирішенні складних статистичних завдань.

Біноміальний розподіл, приклади якого ми розглянули вище, - один із самих простих видіврозподілів теоретично ймовірностей. Існує також нормальний розподіл, що є одним із видів біномного. Воно використовується найчастіше, і найпростіше у розрахунках. Буває також розподіл Бернуллі, розподіл Пуассон, умовний розподіл. Всі вони характеризують графічно області ймовірності того чи іншого процесу за різних умов.

У наступному розділі розглянемо аспекти, що стосуються застосування цього математичного апарату реального життя. На перший погляд, звичайно, здається, що це чергова математична штука, яка, як завжди, не знаходить застосування у реальному житті, і взагалі не потрібна нікому, окрім самих математиків. Однак, це далеко не так. Адже всі види розподілів та їх графічні уявлення були створені виключно під практичні цілі, а не як забаганки вчених.

Застосування

Безумовно, найважливіше застосування розподілу знаходять у статистиці, адже там потрібен комплексний аналізбезлічі даних. Як показує практика, дуже багато масивів даних мають приблизно однакові розподіли величин: критичні області дуже низьких і дуже високих величин, як правило, містять менше елементів, ніж середні значення.

Аналіз великих масивів даних потрібно у статистиці. Він незамінний, наприклад, у фізичній хімії. У цій науці він використовується визначення багатьох величин, пов'язані з випадковими коливаннями і переміщеннями атомів і молекул.

У наступному розділі розберемося, наскільки важливим є застосування таких статистичних понятьяк біномне розподіл випадкової величини в повсякденному життідля нас із вами.

Навіщо мені це треба?

Багато хто ставить собі таке питання, коли справа стосується математики. А між іншим, математика недарма називається царицею наук. Вона є основою фізики, хімії, біології, економіки, і в кожній з цих наук застосовується в тому числі і будь-який розподіл: чи це дискретний біномний розподіл, чи нормальний, не важливо. І якщо ми краще придивимося до навколишнього світу, то побачимо, що математика застосовується скрізь: у повсякденному житті, на роботі, і навіть людські відносини можна подати у вигляді статистичних даних і провести їх аналіз (так, до речі, і роблять ті, хто працюють у спеціальних організаціях, які займаються збиранням інформації).

Зараз поговоримо трохи про те, що ж робити, якщо вам потрібно знати на цю тему набагато більше, ніж те, що ми виклали в цій статті.

Та інформація, яку ми дали у цій статті, далеко не повна. Існує безліч нюансів щодо того, яку форму може набувати розподіл. Біноміальний розподіл, як ми вже з'ясували, є одним з основних видів, на якому ґрунтується вся математична статистиката теорія ймовірностей.

Якщо вам стало цікаво, чи у зв'язку з вашою роботою вам потрібно знати на цю тему набагато більше, потрібно буде вивчити спеціалізовану літературу. Почати слід з університетського курсу математичного аналізу та дійти там до розділу теорії ймовірностей. Також знадобляться знання в області рядів, адже біномний розподіл ймовірностей - це ні що інше, як низка послідовних членів.

Висновок

Перш ніж закінчити статтю, ми хотіли б розповісти ще одну цікаву річ. Вона стосується безпосередньо теми нашої статті та всієї математики загалом.

Багато людей стверджують, що математика - марна наука, і ніщо з того, що вони проходили в школі, їм не знадобилося. Але знання ніколи не буває зайвим, і якщо вам щось не знадобилося в житті, значить, ви просто цього не пам'ятаєте. Якщо у вас є знання, вони можуть вам допомогти, але якщо їх немає, то допомоги від них чекати не доводиться.

Отже, ми розглянули поняття біномного розподілу і всі пов'язані з ним визначення і поговорили про те, як це застосовується в нашому з вами житті.

Вітаю всіх читачів!

Статистичний аналіз, як відомо, займається збиранням та обробкою реальних даних. Справа корисна, а найчастіше і вигідна, т.к. правильні висновки дозволяють уникнути помилок і втрат у майбутньому, інколи ж і правильно вгадати це майбутнє. Зібрані дані відображають стан деякого явища, що спостерігається. Дані часто (але не завжди) мають числовий вигляд і з ними можна робити різні математичні маніпуляції, витягуючи цим додаткову інформацію.

Однак не всі явища вимірюються в кількісній шкалі типу 1, 2, 3…100500… Не завжди явище може приймати нескінченну чи велику кількість різних станів. Наприклад, стать у людини може бути М, або Ж. Стрілець або потрапляє в ціль, або не потрапляє. Голосувати можна або "За", або "Проти" і т.д. і т.п. Інакше кажучи, такі дані відбивають стан альтернативного ознаки – або «так» (подія настала), або «ні» (подія не наступило). Подію, що настала (позитивний результат) ще називають «успіхом». Такі явища також можуть мати масовий і випадковий характер. Отже, їх можна вимірювати та робити статистично обґрунтовані висновки.

Експерименти з такими даними називаються схемою Бернуллі, на честь відомого швейцарського математика, який встановив, що при великій кількості випробувань співвідношення позитивних результатів та загальної кількості випробувань прагне ймовірності настання цієї події.

Змінна альтернативна ознака

Для того, щоб в аналізі задіяти математичний апарат, результати подібних спостережень слід записати у числовому вигляді. Для цього позитивному результату надають число 1, негативному – 0. Іншими словами, ми маємо справу зі змінною, яка може набувати лише двох значень: 0 або 1.

Яку користь звідси можна отримати? Взагалі не меншу, ніж від звичайних даних. Так, легко підрахувати кількість позитивних наслідків – досить підсумувати всі значення, тобто. всі 1 (успіхи). Можна піти далі, але для цього потрібно ввести кілька позначок.

Насамперед слід зазначити, що позитивні результати (які рівні 1) мають певну ймовірність появи. Наприклад, випадання орла при підкиданні монети дорівнює ½ або 0,5. Така ймовірність традиційно позначається латинською літерою p. Отже, ймовірність наступу альтернативної події дорівнює 1 - p, яку ще позначають через q, тобто q = 1 - p. Зазначені позначення можна наочно систематизувати у вигляді таблички розподілу змінної X.

Тепер ми маємо перелік можливих значень та їх ймовірності. Можна приступити до розрахунку таких чудових характеристик випадкової величини, як математичне очікуванняі дисперсія. Нагадаю, що математичне очікування розраховується як сума творів усіх можливих значень на відповідні їм ймовірності:

Обчислимо маточування, використовуючи позначення в таблиці вище.

Виходить, що математичне очікування альтернативної ознаки дорівнює ймовірності цієї події. p.

Тепер визначимо, що таке дисперсія альтернативної ознаки. Також нагадаю, що дисперсія є середнім квадратом відхилень від математичного очікування. Загальна формула (для дискретних даних) має вигляд:

Звідси дисперсія альтернативної ознаки:

Неважко помітити, що ця дисперсія має максимум 0,25 (при p = 0,5).

Середнє квадратичне відхилення- Корінь з дисперсії:

Максимальне значення вбирається у 0,5.

Як видно, і математичне очікування, і дисперсія альтернативної ознаки мають дуже компактний вигляд.

Біноміальний розподіл випадкової величини

Тепер розглянемо ситуацію під іншим кутом. Справді, кому цікаво, що середнє випадання орлів за одного кидання дорівнює 0,5? Це навіть неможливо уявити. Цікавіше порушити питання про кількість випадання орлів при заданій кількості підкидань.

Іншими словами, дослідника часто цікавить ймовірність настання деякої кількості успішних подій. Це може бути кількість бракованих виробів у партії, що перевіряється (1- бракована, 0 - придатна) або кількість одужань (1 - здоровий, 0 - хворий) і т.д. Кількість таких «успіхів» дорівнюватиме сумі всіх значень змінної X, тобто. кількості поодиноких результатів.

Випадкова величина Bназивається біномною і набуває значення від 0 до n(при B= 0 - всі деталі придатні, при B = n- Усі деталі браковані). Передбачається, що всі значення xнезалежні між собою. Розглянемо основні характеристики біномної змінної, тобто встановимо її математичне очікування, дисперсію та розподіл.

Маточка біноміальної змінної отримати дуже легко. Згадаймо, що є сума математичних очікувань кожної величини, що складається, а воно у всіх однакове, тому:

Наприклад, математичне очікування кількості орлів, що випали, при 100 підкиданнях дорівнює 100 × 0,5 = 50.

Тепер виведемо формулу дисперсії біноміальної змінної. є сума дисперсій. Звідси

Середнє квадратичне відхилення, відповідно

Для 100 підкидань монети середньоквадратичне відхилення дорівнює

І, нарешті, розглянемо розподіл біноміальної величини, тобто. ймовірності того, що випадкова величина Bбуде приймати різні значення k, де 0≤ k ≤n. Для монети це завдання може звучати так: якою є ймовірність випадання 40 орлів при 100 кидках?

Щоб зрозуміти метод розрахунку, уявімо, що монета підкидається лише 4 рази. Кожного разу може випасти кожна зі сторін. Ми запитуємо: яка ймовірність випадання 2 орлів з 4 кидків. Кожен кидок незалежний один від одного. Отже, ймовірність випадання будь-якої комбінації дорівнюватиме добутку ймовірностей заданого результату для кожного окремого кидка. Нехай О – це орел, Р – решка. Тоді, наприклад, одна з комбінацій, що влаштовують нас, може виглядати як ООРР, тобто:

Імовірність такої комбінації дорівнює добутку двох ймовірностей випадання орла та ще двох ймовірностей не випадання орла (зворотна подія, що розраховується як 1 - p), тобто. 0,5×0,5×(1-0,5)×(1-0,5)=0,0625. Така ймовірність однієї з комбінацій, що влаштовують нас. Але ж питання стояло про загальну кількість орлів, а не про якийсь певний порядок. Тоді потрібно скласти ймовірності всіх комбінацій, у яких є рівно 2 орла. Зрозуміло, всі вони однакові (від зміни місць множників твір не змінюється). Тому потрібно обчислити їх кількість, а потім помножити на ймовірність будь-якої комбінації. Підрахуємо всі варіанти поєднань із 4 кидків по 2 орли: РРОО, РОРО, РООР, ОРРО, ОРОР, ООРР. Усього 6 варіантів.

Отже, шукана можливість випадання 2 орлів після 4 кидків дорівнює 6×0,0625=0,375.

Однак підрахунок подібним чином стомливий. Вже для 10 монет шляхом перебору отримати загальну кількість варіантів буде дуже складно. Тому розумні людидавно винайшли формулу, за допомогою якої розраховують кількість різних поєднань з nелементів по k, де n– загальна кількість елементів, k- Кількість елементів, варіанти розташування яких і підраховуються. Формула поєднання з nелементів по kтака:

Подібні речі відбуваються у розділі комбінаторики. Усіх охочих підтягнути знання відправляю туди. Звідси, до речі, і назва біномного розподілу (формула вище є коефіцієнтом розкладання бінома Ньютона).

Формулу для визначення ймовірності легко узагальнити на будь-яку кількість nі k. У результаті формула біномного розподілу має такий вигляд.

Словами: кількість комбінацій, що підходять під умову, помножити на ймовірність однієї з них.

Для практичного використання досить просто знати формулу біномного розподілу. А можна навіть і не знати – нижче показано, як визначити ймовірність з допомогою Excel. Але краще все-таки знати.

Розрахуємо за цією формулою можливість випадання 40 орлів при 100 кидках:

Або лише 1,08%. Для порівняння, ймовірність настання математичного очікування цього експерименту, тобто 50 орлів, дорівнює 7,96%. Максимальна ймовірність біноміальної величини належить значенню, що відповідає математичному очікуванню.

Розрахунок ймовірностей біномного розподілу в Excel

Якщо використовувати лише папір та калькулятор, то розрахунки за формулою біномінального розподілу, незважаючи на відсутність інтегралів, даються досить важко. Наприклад значення 100! – має понад 150 знаків. Вручну розрахувати таке неможливо. Раніше, та й зараз, для обчислення подібних величин використовували наближені формули. На даний момент доцільно використовувати спеціальне програмне забезпечення, типу MS Excel. Таким чином, будь-який користувач (навіть гуманітарій за освітою) може обчислити ймовірність значення біноміально розподіленої випадкової величини.

Для закріплення матеріалу задіємо Excel поки як звичайний калькулятор, тобто. зробимо поетапне обчислення за формулою біномного розподілу. Розрахуємо, наприклад, можливість випадання 50 орлів. Нижче наведено картинку з етапами обчислень та кінцевим результатом.

Як видно, проміжні результати мають такий масштаб, що не поміщаються в комірку, хоча скрізь і використовуються прості функції типу: ФАКТР (обчислення факторіалу), СТУПЕНЬ (зведення числа до ступеня), а також оператори множення та поділу. Понад те, цей розрахунок досить громіздкий, у разі випадковий перестав бути компактним, т.к. задіяно багато осередків. Та й розібратися з ходу важкувато.

Загалом у Excel передбачено готову функцію для обчислення ймовірностей біномного розподілу. Функція називається БІНОМ.РАСП.

Число успіхів– кількість успішних випробувань. В нас їх 50.

Число випробувань- Кількість підкидань: 100 разів.

Ймовірність успіху- Імовірність випадання орла при одному підкиданні 0,5.

Інтегральна- Вказується або 1, або 0. Якщо 0, то розрахується ймовірність P(B=k); якщо 1, то розрахується функція біномного розподілу, тобто. сума всіх ймовірностей від B=0до B=kвключно.

Натискаємо ОК і отримуємо той самий результат, що і вище, тільки все розрахувалося однією функцією.

Дуже зручно. Для експерименту замість останнього параметра 0 поставимо 1. Отримаємо 0,5398. Це означає, що при 100 підкидання монети ймовірність випадання орлів у кількості від 0 до 50 дорівнює майже 54%. А спочатку щось здавалося, що має бути 50%. Загалом розрахунки проводяться легко і швидко.

Справжній аналітик повинен розуміти, як поводиться функція (який її розподіл), тому зробимо розрахунок ймовірностей для всіх значень від 0 до 100. Тобто поставимо питання: яка ймовірність, що не випаде жодного орла, що випаде 1 орел, 2, 3 , 50, 90 або 100. Розрахунок наведено в нижченаведеній картині, що саморухається. Синя лінія – саме біноміальний розподіл, червона точка – ймовірність для певної кількості успіхів k.

Хтось може запитати, а чи не схожий на біноміальний розподіл на… Так, дуже схоже. Ще Муавр (1733 р.) говорив, що біноміальний розподіл при великих вибірках наближається до (не знаю, як це тоді називалося), але його ніхто не слухав. Тільки Гаус, а потім і Лаплас через 60-70 років знову відкрили та ретельно вивчили нормальний законрозподілу. На графіці вище добре видно, що максимальна ймовірність посідає математичне очікування, а в міру відхилення від нього, різко знижується. Так само, як і у нормального закону.

Біноміальний розподіл має велике практичне значення, трапляється досить часто. За допомогою Excel розрахунки проводяться легко та швидко. Тож можна сміливо використовувати.

На цьому пропоную попрощатися до наступної зустрічі. Усіх благ, будьте здорові!

Поділіться з друзями або збережіть для себе:

Завантаження...