Ксі розподіл. Контрольна робота: Розподіл "хі-квадрат" та його застосування

  • Математика
  • У цій статті йтиметься про дослідження залежності між ознаками, або як більше подобається - випадковими величинами, змінними. Зокрема, ми розберемо як запровадити міру залежності між ознаками, використовуючи критерій Хі-квадрат та порівняємо її з коефіцієнтом кореляції.

    Навіщо це може знадобитися? Наприклад, щоб зрозуміти які ознаки сильніше залежні від цільової змінної при побудові кредитного скорингу - визначенні ймовірності дефолту клієнта. Або, як у моєму випадку, зрозуміти які показники необхідно використовувати для програмування торгового робота.

    Окремо зазначу, що з аналізу даних використовую мову c#. Можливо це все вже реалізовано на R або Python, але використання c# для мене дозволяє детально розібратися в темі, навіть це моя улюблена мова програмування.

    Почнемо з зовсім простого прикладу, створимо в екселі чотири колонки, використовуючи генератор випадкових чисел:
    X=ВИПАДМІЖ(-100;100)
    Y =X*10+20
    Z =X*X
    T=ВИПАДМІЖ(-100;100)

    Як видно, змінна Yлінійно залежна від X; змінна Zквадратично залежить від X; змінні Xі Тнезалежні. Такий вибір я зробив спеціально, тому що нашу міру залежності ми порівнюватимемо з коефіцієнтом кореляції. Як відомо, між двома випадковими величинами він дорівнює по модулю 1 якщо між ними найжорсткіший вид залежності - лінійний. Між двома незалежними випадковими величинами кореляція нульова, але з рівності коефіцієнта кореляції нулю не випливає незалежність. Далі ми це побачимо на прикладі змінних Xі Z.

    Зберігаємо файл як data.csv і починаємо перші прикиди. Спочатку розрахуємо коефіцієнт кореляції між величинами. Код у статтю я вставляти не став, він є на моєму github. Отримуємо кореляцію по різних парах:

    Видно, що у лінійно залежних Xі Yкоефіцієнт кореляції дорівнює 1. А ось у Xі Zвін дорівнює 0.01, хоча залежність ми поставили явну Z=X*X. Зрозуміло, що нам потрібна міра, яка «відчуває» залежність краще. Але перш, ніж переходити до критерію Хі-квадрат, розглянемо що таке матриця сполученості.

    Щоб побудувати матрицю сполученості, ми розіб'ємо діапазон значень змінних на інтервали (або категоруємо). Є багато способів такого розбиття, при цьому якогось універсального не існує. Деякі їх розбивають на інтервали так, щоб у них потрапляла однакова кількість змінних, інші розбивають на рівні по довжині інтервали. Мені особисто за духом комбінувати ці підходи. Я вирішив скористатися у такий спосіб: зі змінної я віднімаю оцінку мат. очікування, потім отримане поділю на оцінку стандартного відхилення. Іншими словами, я центрую і нормую випадкову величину. Отримане значення множиться на коефіцієнт (у цьому прикладі він дорівнює 1), після чого все округляється до цілого. На виході виходить змінна типу int, що є ідентифікатором класу.

    Отже, візьмемо наші ознаки Xі Z, категоруємо описаним вище способом, після чого порахуємо кількість та ймовірності появи кожного класу та ймовірності появи пар ознак:

    Це матриця за кількістю. Тут у рядках – кількості появи класів змінної X, у стовпцях - кількості появ класів змінної Z, у клітинах – кількості появ пар класів одночасно. Наприклад, клас 0 зустрівся 865 разів для змінної X, 823 рази на змінну Zі жодного разу не було пари (0,0). Перейдемо до ймовірностей, поділивши всі значення на 3000 ( загальне числоспостережень):

    Отримали матрицю сполученості, одержану після категорування ознак. Тепер настав час задуматися над критерієм. За визначенням, випадкові величини незалежні, якщо незалежні сигма-алгебри, породжені цими випадковими величинами. Незалежність сигма-алгебр має на увазі попарну незалежність подій із них. Дві події називаються незалежними, якщо ймовірність їхньої спільної появи дорівнює добутку ймовірностей цих подій: Pij = Pi*Pj. Саме цією формулою ми користуватимемося для побудови критерію.

    Нульова гіпотеза: категоровані ознаки Xі Zнезалежні. Еквівалентна їй: розподіл матриці сполученості визначається виключно ймовірностями появи класів змінних (ймовірності рядків і стовпців). Або так: комірки матриці знаходяться твором відповідних ймовірностей рядків та стовпців. Це формулювання нульової гіпотези ми будемо використовувати для побудови вирішального правила: суттєва розбіжність між Pijі Pi*Pjбуде основою відхилення нульової гіпотези.

    Нехай – ймовірність появи класу 0 у змінної X. Усього у нас nкласів у Xі mкласів у Z. Виходить, щоб задати розподіл матриці нам потрібно знати ці nі mймовірностей. Але насправді якщо ми знаємо n-1ймовірність для X, то остання знаходиться відніманням з 1 суми інших. Таким чином, для знаходження розподілу матриці сполученості нам треба знати l=(n-1)+(m-1)значень. Або ми маємо l-мірне параметричне простір, вектор з якого задає нам наш розподіл. Статистика Хі-квадрат матиме такий вигляд:

    і, згідно з теоремою Фішера, мати розподіл Хі-квадрат з n*m-l-1=(n-1)(m-1)ступенями свободи.

    Задамося рівнем значимості 0.95 (або ймовірність помилки першого роду дорівнює 0.05). Знайдемо квантиль розподілу Хі квадрат для даного рівнязначущості та ступенів свободи з прикладу (n-1) (m-1) = 4 * 3 = 12: 21.02606982. Сама статистика Хі-квадрат для змінних Xі Zдорівнює 4088.006631. Видно, що гіпотеза про незалежність не ухвалюється. Зручно розглядати ставлення статистики Хі-квадрат до порогового значення - у цьому випадку воно рівне Chi2Coeff=194.4256186. Якщо це відношення менше 1, то гіпотеза про незалежність приймається, якщо більше, то ні. Знайдемо це відношення для всіх пар ознак:

    Тут Factor1і Factor2- імена ознак
    src_cnt1і src_cnt2- кількість унікальних значень вихідних ознак
    mod_cnt1і mod_cnt2- кількість унікальних значень ознак після категорування
    chi2- статистика Хі-квадрат
    chi2max- граничне значення статистики Хі-квадрат для рівня значимості 0.95
    chi2Coeff- Ставлення статистики Хі-квадрат до порогового значення
    corr- Коефіцієнт кореляції

    Видно, що незалежні (chi2coeff<1) получились следующие пары признаков - (X,T), (Y,T) та ( Z,T), що логічно, оскільки змінна Tгенерується випадково. Змінні Xі Zзалежні, але менш, ніж лінійно залежні Xі Yщо теж логічно.

    Код утиліти, що розраховує дані показники, я виклав на github, там же файл data.csv. Утиліта приймає на вхід файл csv і вираховує залежності між усіма парами колонок: PtProject.Dependency.exe data.csv

    Розглянемо застосування вMSEXCELкритерію хі-квадрат Пірсона для перевірки простих гіпотез

    Після отримання експериментальних даних (тобто коли є якась вибірка) зазвичай проводиться вибір закону розподілу, що найбільш добре описує випадкову величину, представлену даною вибіркою. Перевірка того, наскільки добре експериментальні дані описуються вибраним теоретичним законом розподілу здійснюється з використанням критеріїв згоди. Нульовою гіпотезою, зазвичай виступає гіпотеза про рівність розподілу випадкової величинидеякому теоретичному закону.

    Спочатку розглянемо застосування критерію згоди Пірсона Х 2 (хі-квадрат)щодо простих гіпотез (параметри теоретичного розподілу вважаються відомими). Потім - коли задається тільки форма розподілу, а параметри цього розподілу і значення статистики Х 2 оцінюються/розраховуються на підставі однієї і тієї ж вибірки.

    Примітка: В англомовній літературі процедура застосування. критерію згоди Пірсона Х 2 має назву The chi-square goodness of fit test.

    Нагадаємо процедуру перевірки гіпотез:

    • на основі вибіркиобчислюється значення статистики, яка відповідає типу гіпотези, що перевіряється. Наприклад, для використовується t-статистика(якщо невідомо);
    • за умови істинності нульової гіпотези, розподіл цієї статистикивідомо і може бути використане для обчислення ймовірностей (наприклад, для t-статистикице);
    • обчислене на основі вибіркизначення статистикипорівнюється з критичним для заданого значенням ();
    • нульову гіпотезувідкидають, якщо значення статистикибільше критичного (або якщо можливість отримати це значення статистики() менше рівня значущості, що є еквівалентним підходом.

    Проведемо перевірку гіпотездля різних розподілів.

    Дискретний випадок

    Припустимо, що дві людини грають у кістки. Кожен гравець має свій набір кісток. Гравці по черзі кидають одразу по 3 кубики. Кожен раунд виграє той, хто викине за раз більше шісток. Результати записуються. В одного з гравців після 100 раундів виникла підозра, що кістки його суперника – несиметричні, тому що вони не мають сили. той часто виграє (часто викидає шістки). Він вирішив проаналізувати наскільки ймовірно така кількість наслідків противника.

    Примітка: Т.к. кубиків 3, то зараз можна викинути 0; 1; 2 чи 3 шістки, тобто. випадкова величина може набувати 4 значення.

    З теорії ймовірності нам відомо, що якщо кубики симетричні, то ймовірність випадання шісток підкоряється. Тому після 100 раундів частоти випадання шісток можуть бути обчислені за допомогою формули
    =БИНОМ.РАСП(A7;3;1/6;БРЕХНЯ)*100

    У формулі передбачається, що в осередку А7 міститься відповідна кількість шісток, що випали, в одному раунді.

    Примітка: Розрахунки наведені в файл прикладу на аркуші Дискретне.

    Для порівняння спостережених(Observed) та теоретичних частот(Expected) зручно користуватися.

    При значному відхиленні спостеріганих частот від теоретичного розподілу, нульова гіпотезапро розподіл випадкової величини за теоретичним законом, має бути відхилена. Тобто, якщо гральні кістки суперника несиметричні, то спостерігані частоти «суттєво відрізнятимуться» від біномного розподілу.

    У нашому випадку на перший погляд частоти досить близькі і без обчислень важко зробити однозначний висновок. Застосуємо критерій згоди Пірсона Х 2щоб замість суб'єктивного висловлювання «суттєво відрізнятися», яке можна зробити на підставі порівняння гістограм, використовувати математично коректне затвердження

    Використовуємо той факт, що в силу закону великих чиселспостерігається частота (Observed) зі зростанням обсягу вибірки n прагне ймовірності, відповідної теоретичному закону (у разі, біноміальному закону). У разі обсяг вибірки n дорівнює 100.

    Введемо тестову статистику, Яку позначимо Х 2:

    де O l – це спостережена частота подій, що випадкова величина набула певних допустимих значень, E l – це відповідна теоретична частота (Expected). L – кількість значень, які може приймати випадкова величина (у разі дорівнює 4).

    Як видно з формули, ця статистикає мірою близькості спостеріганих частот до теоретичних, тобто. за допомогою неї можна оцінити «відстань» між цими частотами. Якщо сума цих "відстаней" "занадто велика", то ці частоти "істотно відрізняються". Зрозуміло, якщо наш кубик симетричний (тобто. застосуємо біноміальний закон), то ймовірність того, що сума «відстаней» буде «надто велика» буде малою. Щоб обчислити цю можливість нам необхідно знати розподіл статистикиХ 2 ( статистикаХ 2 обчислена на основі випадкової вибіркитому вона є випадковою величиною і, отже, має своє розподіл ймовірностей).

    Зі багатомірного аналога інтегральної теореми Муавра-Лапласавідомо, що за n->∞ наша випадкова величина Х 2 асимптотично з L - 1 ступенями свободи.

    Отже, якщо обчислене значення статистикиХ 2 (сума «відстаней» між частотами) буде більшою за якесь граничне значення, то у нас буде підстава відкинути нульову гіпотезу. Як і під час перевірки параметричних гіпотез, граничне значення задається через рівень значущості. Якщо ймовірність того, що статистика Х 2 набуде значення менше або дорівнює обчисленому ( p-значення), буде менше рівня значущості, то нульову гіпотезуможна відкинути.

    У нашому випадку значення статистики дорівнює 22,757. Імовірність, що статистика Х 2 набуде значення більше або дорівнює 22,757 дуже мала (0,000045) і може бути обчислена за формулами
    =ХІ2.РАСП.ПХ(22,757;4-1)або
    =ХІ2.ТЕСТ(Observed; Expected)

    Примітка: Функція ХІ2.ТЕСТ() спеціально створена для перевірки зв'язку між двома категоріальними змінними (див. ).

    Ймовірність 0,000045 істотно менше, ніж звичайно. рівня значущості 0,05. Отже, гравець має всі підстави підозрювати свого супротивника в нечесності ( нульова гіпотезапро його чесність відкидається).

    При застосуванні критерію Х 2необхідно стежити за тим, щоб обсяг вибірки n був досить великий, інакше буде неправомірна апроксимація розподілу статистики Х 2. Зазвичай вважається, що для цього достатньо, щоб спостерігані частоти (Observed) були більшими за 5. Якщо це не так, то малі частоти об'єднуються в одну або приєднуються до інших частот, причому об'єднаному значенню приписується сумарна ймовірність і, відповідно, зменшується число ступенів свободи Х 2 -розподілу.

    Для того, щоб покращити якість застосування критерію Х 2(), необхідно зменшувати інтервали розбиття (збільшувати L і, відповідно, збільшувати кількість ступенів свободи), однак цьому перешкоджає обмеження на кількість спостережень, що потрапили в кожен інтервал (д.б.>5).

    Безперервний випадок

    Критерій згоди Пірсона Х 2 можна застосувати так само у випадку.

    Розглянемо якусь вибірку, Що складається з 200 значень. Нульова гіпотезастверджує, що вибірказроблена з .

    Примітка: Випадкові величини файл прикладу на аркуші Безперервнезгенеровані за допомогою формули =НОРМ.СТ.ОБР(СЛЧИС()). Тому нові значення вибіркигенеруються при кожному перерахунку листа.

    Чи відповідає наявний набір даних можна візуально оцінити.

    Як видно з діаграми, значення вибірки досить добре укладаються вздовж прямої. Однак, як і для перевірки гіпотезизастосуємо Критерій згоди Пірсона Х2.

    Для цього розіб'ємо діапазон зміни випадкової величини на інтервали з кроком 0,5. Обчислимо спостережені та теоретичні частоти. Наблюденные частоти обчислимо з допомогою функції ЧАСТОТА() , а теоретичні – з допомогою функції НОРМ.СТ.РАСП() .

    Примітка: Як і для дискретного випадкунеобхідно стежити, щоб вибіркабула досить велика, а інтервал потрапляло >5 значень.

    Обчислимо статистику Х 2 та порівняємо її з критичним значенням для заданого рівня значущості(0,05). Т.к. ми розбили діапазон зміни випадкової величини на 10 інтервалів, число ступенів свободи дорівнює 9. Критичне значення можна обчислити за формулою
    =ХІ2.ОБР.ПХ(0,05;9) або
    = ХІ2.ОБР (1-0,05; 9)

    На діаграмі вище видно, що значення статистики дорівнює 8,19, що значно вище критичного значеннянульова гіпотезане відкидається.

    Нижче наведено , на якій вибірканабула малоймовірного значення і на підставі критерію згоди Пірсона Х 2нульова гіпотеза була відхилена (не дивлячись те що, що випадкові значення було згенеровано з допомогою формули =НОРМ.СТ.ОБР(СЛЧИС()), що забезпечує вибіркуз стандартного нормального розподілу).

    Нульова гіпотезавідхилена, хоча візуально дані розташовуються досить близько до прямої лінії.

    Як приклад також візьмемо вибіркуз U(-3; 3). У цьому випадку навіть з графіка очевидно, що нульова гіпотезамає бути відхилена.

    Критерій згоди Пірсона Х 2також підтверджує, що нульова гіпотезамає бути відхилена.

    Міністерство освіти та науки Російської Федерації

    Федеральне агентство з освіти міста Іркутська

    Байкальський державний університетекономіки та права

    Кафедра Інформатики та Кібернетики

    Розподіл "хі-квадрат" та його застосування

    Колмикова Ганна Андріївна

    студентка 2 курсу

    групи ІС-09-1

    Для обробки отриманих даних використовуємо критерій хі-квадрат.

    І тому побудуємо таблицю розподілу емпіричних частот, тобто. тих частот, які ми спостерігаємо:

    Теоретично, ми очікуємо, що частоти розподіляться рівноймовірно, тобто. частота розподілиться пропорційно між хлопчиками та дівчатками. Побудуємо таблицю теоретичних частот. Для цього помножимо суму по рядку на суму по стовпцю і розділимо число, що вийшло на загальну суму(s).


    Підсумкова таблиця для обчислень виглядатиме так:

    χ2 = ∑(Е - Т)² / Т

    n = (R - 1), де R – кількість рядків у таблиці.

    У нашому випадку хі-квадрат = 4,21; n = 2.

    За таблицею критичних значень критерію знаходимо: при n = 2 та рівні помилки 0,05 критичне значення χ2 = 5,99.

    Отримане значення менше критичного, а отже, приймається нульова гіпотеза.

    Висновок: вчителі не надають значення стать дитини при написанні їй характеристики.

    додаток

    Критичні точки розподілу χ2

    Таблиця 1

    Висновок

    Студенти багатьох спеціальностей вивчають в кінці курсу вищої математики розділ "теорія ймовірностей і математична статистика", реально вони знайомляться лише з деякими основними поняттями та результатами, яких явно мало для практичної роботи. З деякими математичними методами дослідження студенти зустрічаються у спеціальних курсах (наприклад, таких, як "Прогнозування та техніко-економічне планування", "Техніко-економічний аналіз", "Контроль якості продукції", "Маркетинг", "Контролінг", " Математичні методипрогнозування", "Статистика" та ін. (у випадку студентів економічних спеціальностей), проте виклад у більшості випадків носить дуже скорочений і рецептурний характер. У результаті знань у фахівців із прикладної статистики недостатньо.

    Тому велике значеннямає курс "Прикладна статистика" у технічних вузах, а в економічних вузах – курсу "Економетрика", оскільки економетрика – це, як відомо, статистичний аналізконкретні економічні дані.

    Теорія ймовірності та математична статистика дають фундаментальні знання для прикладної статистики та економетрики.

    Вони потрібні фахівцям для практичної роботи.

    Я розглянула безперервну ймовірнісну модель і постаралася на прикладах показати її використання.

    Список використаної літератури

    1. Орлов А.І. Прикладна статистика М: Видавництво "Іспит", 2004.

    2. Гмурман В.Є. Теорія ймовірностей та математична статистика. М.: вища школа, 1999. - 479с.

    3. Айвозян С.А. Теорія ймовірностей та прикладна статистика, т.1. М.: Юніті, 2001. - 656с.

    4. Хамітов Г.П., Ведернікова Т.І. Імовірності та статистика. Іркутськ: БДУЕП, 2006 - 272с.

    5. Єжова Л.М. Економетрики. Іркутськ: БДУЕП, 2002. - 314с.

    6. Мостеллер Ф. П'ятдесят цікавих ймовірнісних завдань із рішеннями. М.: Наука, 1975. - 111с.

    7. Мостеллер Ф. Імовірність. М.: Світ, 1969. - 428с.

    8. Яглом А.М. Можливість та інформація. М.: Наука, 1973. - 511с.

    9. Чистяков В.П. Курс теорії ймовірностей. М.: Наука, 1982. - 256с.

    10. Кремер Н.Ш. Теорія ймовірностей та математична статистика. М.: ЮНІТІ, 2000. - 543с.

    11. Математична енциклопедія, т.1. М.: Радянська енциклопедія, 1976. - 655с.

    12. http://psystat.at.ua/ - Статистика в психології та педагогіці. Критерій Хі-квадрат.

    Використання цього критерію ґрунтується на застосуванні такого заходу (статистики) розбіжності між теоретичним. F(x) та емпіричним розподілом F* п (x) , яка приблизно підпорядковується закону розподілу χ 2 . Гіпотеза Н 0 про узгодженість розподілів перевіряється шляхом аналізу розподілу цієї статистики. Застосування критерію потребує побудови статистичного ряду.

    Отже, нехай вибірка представлена ​​статистичним поряд із кількістю розрядів M. Частота потраплянь, що спостерігається в i- й розряд n i. Відповідно до теоретичного закону розподілу очікувана частота потраплянь у i-й розряд складає F i. Різниця між спостерігається і очікуваною частотою складе величину ( n iF i). Для знаходження загального ступеня розходження між F(x) та F* п (x) необхідно підрахувати зважену суму квадратів різниць за всіма розрядами статистичного ряду

    Розмір χ 2 при необмеженому збільшенні n має χ 2 -розподіл (асимптотично розподілена як χ 2). Цей розподіл залежить від числа ступенів свободи k, тобто. кількості незалежних значень доданків у виразі (3.7). Число ступенів свободи дорівнює числу yмінус число лінійних зв'язків, накладених вибірку. Один зв'язок існує через те, що будь-яка частота може бути обчислена за сукупністю частот у решті M-1 Розряди. Крім того, якщо параметри розподілу невідомі заздалегідь, є ще одне обмеження, обумовлене припасуванням розподілу до вибірки. Якщо за вибіркою визначаються S параметрів розподілу, то число ступенів свободи становитиме k= MS–1.

    Область прийняття гіпотези Н 0 визначається умовою χ 2 < χ 2 (k; a) де χ 2 (k; a) – критична точка χ2-розподілу з рівнем значущості a. Імовірність помилки першого роду дорівнює a, Імовірність помилки другого роду чітко визначити не можна, тому що існує безліч різних способів розбіжності розподілів. Потужність критерію залежить від кількості розрядів та обсягу вибірки. Критерій рекомендується застосовувати при n>200, допускається застосування при n>40, за таких умов критерій заможний (зазвичай, відкидає неправильну нульову гіпотезу).

    Алгоритм перевірки за критерієм

    1. Побудувати гістограму рівноймовірним способом.

    2. За видом гістограми висунути гіпотезу

    H 0: f(x) = f 0 (x),

    H 1: f(x) ¹ f 0 (x),

    де f 0 (x) - Щільність ймовірності гіпотетичного закону розподілу (наприклад, рівномірного, експоненціального, нормального).

    Зауваження. Гіпотезу про експонентний закон розподілу можна висувати в тому випадку, якщо всі числа у вибірці позитивні.

    3. Обчислити значення критерію за такою формулою

    ,

    де
    частота влучення в i-Тий інтервал;

    p i- теоретична ймовірність влучення випадкової величини в i- тий інтервал за умови, що гіпотеза H 0 вірна.

    Формули для розрахунку p iу разі експоненційного, рівномірного та нормального законіввідповідно рівні.

    Експонентний закон

    . (3.8)

    При цьому A 1 = 0, B m = +¥.

    Рівномірний закон

    Нормальний закон

    . (3.10)

    При цьому A 1 = - ¥, B M = + ¥.

    Зауваження. Після обчислення всіх ймовірностей p iперевірити, чи виконується контрольне співвідношення

    Функція Ф( х) - непарна. Ф(+¥) = 1.

    4. З таблиці " Хі-квадрат" Програми вибирається значення
    де a - заданий рівень значущості (a = 0,05 або a = 0,01), а k- Число ступенів свободи, що визначається за формулою

    k = M - 1 - S.

    Тут S- Число параметрів, від яких залежить обраний гіпотезою H 0 Закон розподілу. Значення Sдля рівномірного закону дорівнює 2, для експоненційного – 1, для нормального – 2.

    5. Якщо
    , то гіпотеза H 0 Відхиляється. В іншому випадку немає підстав її відхилити: з ймовірністю 1 - b вона вірна, а з ймовірністю - b невірна, але величина b невідома.

    Приклад3 . 1. За допомогою критерію c 2 висунути та перевірити гіпотезу про закон розподілу випадкової величини X, варіаційний ряд, інтервальні таблиці та гістограми розподілу якої наведено у прикладі 1.2. Рівень значимості дорівнює 0,05.

    Рішення . На вигляд гістограм висуваємо гіпотезу про те, що випадкова величина Xрозподілено за нормальним законом:

    H 0: f(x) = N(m, s);

    H 1: f(x) ¹ N(m, s).

    Значення критерію обчислюємо за такою формулою:

    (3.11)

    Як зазначалося вище, під час перевірки гіпотези краще використовувати равновероятностную гістограму. В цьому випадку

    Теоретичні ймовірності p iрозраховуємо за формулою (3.10). При цьому вважаємо, що

    p 1 = 0,5(Ф((-4,5245+1,7)/1,98)-Ф((-¥+1,7)/1,98)) = 0,5(Ф(-1,427) -Ф(-¥)) =

    0,5(-0,845+1) = 0,078.

    p 2 = 0,5(Ф((-3,8865+1,7)/1,98)-Ф((-4,5245+1,7)/1,98)) =

    0,5(Ф(-1,104)+0,845) = 0,5(-0,729+0,845) = 0,058.

    p 3 = 0,094; p 4 = 0,135; p 5 = 0,118; p 6 = 0,097; p 7 = 0,073; p 8 = 0,059; p 9 = 0,174;

    p 10 = 0,5(Ф((++1,7)/1,98)-Ф((0,6932+1,7)/1,98)) = 0,114.

    Після цього перевіряємо виконання контрольного співвідношення

    100 × (0,0062 + 0,0304 + 0,0004 + 0,0091 + 0,0028 + 0,0001 + 0,0100 +

    0,0285 + 0,0315 + 0,0017) = 100 × 0,1207 = 12,07.

    Після цього з таблиці "Хі - квадрат" вибираємо критичне значення

    .

    Так як
    то гіпотеза H 0 приймається (немає підстави її відхилити).

    Розподіл "хі-квадрат" є одним із найбільш широко використовуваних у статистиці для перевірки статистичних гіпотез. На основі розподілу "хі-квадрат" побудований один із найпотужніших критеріїв згоди – критерій "хі-квадрату" Пірсона.

    Критерієм згоди називають критерій перевірки гіпотези про передбачуваний закон невідомого розподілу.

    Критерій χ2 (хі-квадрат) використовується для перевірки гіпотези різних розподілів. У цьому полягає його перевага.

    Розрахункова формула критерію дорівнює

    де m і m' - відповідно емпіричні та теоретичні частоти

    розглянутого розподілу;

    n – число ступенів свободи.

    Для перевірки нам необхідно порівнювати емпіричні (спостерігаються) та теоретичні (обчислені у припущенні нормального розподілу) частоти.

    При повному збігу емпіричних частот з частотами, обчисленими або очікуваними S (Е – Т) = 0 і критерій 2 теж дорівнюватиме нулю. Якщо ж S (Е – Т) не дорівнює нулю, це вкаже на невідповідність обчислених частот емпіричним частотам ряду. У разі необхідно оцінити значимість критерію χ2, який теоретично може змінюватися від нуля до нескінченності. Це проводиться шляхом порівняння фактично отриманої величини χ2ф з його критичним значенням (χ2st). Нульова гіпотеза, тобто припущення, що розбіжність між емпіричними і теоретичними або очікуваними частотами носить випадковий характер, спростовується, якщо χ2ф більше або дорівнює χ2 (a) та числа ступенів свободи (n).

    Розподіл ймовірних значень випадкової величини 2 безперервно і асиметрично. Воно залежить від числа ступенів свободи (n) і наближається до нормальному розподілуу міру збільшення числа спостережень. Тому застосування критерію χ2 до оцінки дискретних розподілівпов'язано з деякими похибками, що позначаються на його величині, особливо на нечисленних вибірках. Для отримання більш точних оцінок вибірка, що розподіляється в варіаційний ряд, повинна мати щонайменше 50 варіантів. Правильне застосування критерію χ2 вимагає також, щоб частоти варіантів у крайніх класах були б менше 5; якщо їх менше 5, то вони поєднуються з частотами сусідніх класів, щоб у сумі становили величину більшу або рівну 5. Відповідно до об'єднання частот зменшується і число класів (N). Число ступенів свободи встановлюється за вторинним числом класів з урахуванням кількості обмежень свободи варіації.



    Так як точність визначення критерію χ2 значною мірою залежить від точності розрахунку теоретичних частот (Т), для отримання різниці між емпіричними та обчисленими частотами слід використовувати неокруглені теоретичні частоти.

    Як приклад візьмемо дослідження, опубліковане на сайті, присвяченому застосуванню статистичних методів у гуманітарних науках.

    Критерій "Хі-квадрат" дозволяє порівнювати розподіл частот через незалежно від того, розподілені вони нормально чи ні.

    Під частотою розуміється кількість появ будь-якої події. Зазвичай, з частотою появи події мають справу, коли змінні виміряні в шкалі найменувань та інші характеристики, крім частоти підібрати неможливо або проблематично. Інакше кажучи, коли змінна має якісні властивості. Також багато дослідників схильні переводити бали тесту до рівнів (високий, середній, низький) і будувати таблиці розподілів балів, щоб дізнатися кількість людей за цими рівнями. Щоб довести, що в одному з рівнів (в одній із категорій) кількість людей дійсно більша (менша) так само використовується коефіцієнт Хі-квадрат.

    Розберемо найпростіший приклад.

    Серед молодших підлітків було проведено тест виявлення самооцінки. Бали тесту були переведені на три рівні: високий, середній, низький. Частоти розподілилися так:

    Високий (В) 27 чол.

    Середній (С) 12 чол.

    Низький (Н) 11 чол.

    Очевидно, що дітей із високою самооцінкою більшість, проте це потрібно довести статистично. Для цього використовуємо критерій Хі-квадрат.

    Наше завдання – перевірити, чи відрізняються отримані емпіричні дані від теоретично рівноймовірних. Для цього потрібно знайти теоретичні частоти. У нашому випадку, теоретичні частоти – це рівноймовірні частоти, які знаходяться шляхом складання всіх частот та розподілу на кількість категорій.

    У нашому випадку:

    (В + С + Н) / 3 = (27 +12 +11) / 3 = 16,6

    Формула для розрахунку критерію хі-квадрат:

    χ2 = ∑(Е - Т)І / Т

    Будуємо таблицю:

    Знаходимо суму останнього стовпця:

    Тепер потрібно знайти критичне значення критерію таблиці критичних значень (Таблиця 1 у додатку). Для цього нам знадобиться кількість ступенів свободи (n).

    n = (R - 1) * (C - 1)

    де R – кількість рядків у таблиці, C – кількість стовпців.

    У нашому випадку лише один стовпець (маються на увазі вихідні емпіричні частоти) і три рядки (категорії), тому формула змінюється – виключаємо стовпці.

    n = (R - 1) = 3-1 = 2

    Для ймовірності помилки p≤0,05 та n = 2 критичне значення χ2 = 5,99.

    Отримане емпіричне значення більше критичного - відмінності частот є достовірними (χ2= 9,64; p≤0,05).

    Як бачимо, розрахунок критерію дуже простий і не займає багато часу. Практична цінність критерію хі-квадрат величезна. Цей метод виявляється найбільш цінним під час аналізу відповіді питання анкет.


    Розберемо складніший приклад.

    Наприклад, психолог хоче дізнатися, чи справді те, що вчителі більш упереджено ставляться до хлопчиків, ніж до дівчаток. Тобто. більш схильні хвалити дівчаток. Для цього психологом були проаналізовані характеристики учнів, написані вчителями, на предмет частоти трьох слів: "активний", "старальний", "дисциплінований", синоніми слів так само підраховувалися. Дані про частоту слів були занесені в таблицю:

    Для обробки отриманих даних використовуємо критерій хі-квадрат.

    І тому побудуємо таблицю розподілу емпіричних частот, тобто. тих частот, які ми спостерігаємо:

    Теоретично, ми очікуємо, що частоти розподіляться рівноймовірно, тобто. частота розподілиться пропорційно між хлопчиками та дівчатками. Побудуємо таблицю теоретичних частот. Для цього помножимо суму по рядку на суму по стовпцю і розділимо число, що вийшло, на загальну суму (s).

    Підсумкова таблиця для обчислень виглядатиме так:

    χ2 = ∑(Е - Т)І / Т

    n = (R - 1), де R – кількість рядків у таблиці.

    У нашому випадку хі-квадрат = 4,21; n = 2.

    За таблицею критичних значень критерію знаходимо: при n = 2 та рівні помилки 0,05 критичне значення χ2 = 5,99.

    Отримане значення менше критичного, а отже, приймається нульова гіпотеза.

    Висновок: вчителі не надають значення стать дитини при написанні їй характеристики.


    Висновок.

    К. Пірсон зробив значний внесок у розвиток математичної статистики (велика кількість фундаментальних понять). Основна філософська позиція Пірсона формулюється так: поняття науки - штучні конструкції, засоби опису та впорядкування чуттєвого досвіду; правила зв'язку їх у наукові пропозиції виокремлюються граматикою науки, яка і є філософією науки. Зв'язати ж різнорідні поняття та явища дозволяє універсальна дисципліна – прикладна статистика, хоч і вона за Пірсоном суб'єктивна.

    Багато побудов К. Пірсона безпосередньо пов'язані чи розроблялися з допомогою антропологічних матеріалів. Їм розроблено численні способи нумеричної класифікації та статистичні критерії, що застосовуються у всіх галузях науки.


    Література

    1. Боголюбов А. Н. Математики. Механіки. Біографічний довідник – Київ: Наукова думка, 1983.

    2. Колмогоров А. Н., Юшкевич А. П. (ред.). Математика ХІХ століття. - М: Наука. – Т. I.

    3. 3. Боровков А.А. Математична статистика. М: Наука, 1994.

    4. 8. Феллер В. Введення в теорію ймовірностей та її застосування. - М: Мир, Т.2, 1984.

    5. 9. Харман Р., Сучасний факторний аналіз. - М: Статистика, 1972.

    Поділіться з друзями або збережіть для себе:

    Завантаження...