Критерій згоди пірсона для нормального розподілу. Критерій Пірсона

Критерій згоди для перевірки гіпотези про закон розподілу досліджуваної випадкової величини.У багатьох практичні завданняТочний закон розподілу невідомий. статистичної перевірки, за результатами якої буде або підтверджено, або спростовано.

Нехай X – досліджувана випадкова величина. Потрібно перевірити гіпотезу H 0 у тому, що ця випадкова величина підпорядковується закону розподілу F(x). Для цього необхідно зробити вибірку з n незалежних спостережень і по ній побудувати емпіричний закон розподілу F"(x). Для порівняння емпіричного та гіпотетичного законів використовується правило, зване критерієм згоди. Одним із популярних є критерій згоди хі-квадрат К. Пірсона.

У ньому обчислюється статистика хі-квадрат:

,

де N - число інтервалів, за яким будувався емпіричний закон розподілу (кількість стовпців відповідної гістограми), i - номер інтервалу, p t i - ймовірність попадання значення випадкової величини в i-й інтервалдля теоретичного закону розподілу, p e i - ймовірність попадання значення випадкової величини в i-й інтервал для емпіричного закону розподілу. Вона й має підкорятися розподілу хі-квадрат.

Якщо обчислене значення статистики перевищує квантиль розподілу хі-квадрат з k-p-1 ступенями свободи для заданого рівня значущості, то гіпотеза H 0 відкидається. Інакше вона приймається на заданому рівні значимості. .

Пірсона дозволяє здійснювати перевірку емпіричного та теоретичного (чи іншого емпіричного) розподілів однієї ознаки. Цей критерій застосовується, в основному, у двох випадках:

Для зіставлення емпіричного розподілу ознаки з теоретичним розподілом (нормальним, показовим, рівномірним чи якимось іншим законом);

Для порівняння двох емпіричних розподілів однієї й тієї ознаки.

Ідея методу – визначення ступеня розбіжності відповідних частот n i; чим більша ця розбіжність, тим більше значення

Обсяги вибірок повинні бути не менше 50 і необхідна рівність сум частот

Нульова гіпотеза H0 = (два розподіли практично не різняться між собою); альтернативна гіпотеза - H 1 = (розбіжність між розподілами суттєво).

Наведемо схему застосування критерію для зіставлення двох емпіричних розподілів:

Критерій - статистичний критерій для перевірки гіпотези, що спостерігається випадкова величина підпорядковується нікому теоретичному закону розподілу.


Залежно від значення критерію гіпотеза може прийматися або відхилятися:

§ , гіпотеза виконується.

§ (попадає в лівий "хвіст" розподілу). Отже, теоретичні та практичні значення дуже близькі. Якщо, наприклад, відбувається перевірка генератора випадкових чисел, Що згенерував n чисел з відрізка і гіпотеза : вибірка розподілена рівномірно на , тоді генератор не можна називати випадковим (гіпотеза випадковості не виконується), т.к. вибірка розподілена надто рівномірно, але гіпотеза виконується.

§ (попадає у правий "хвіст" розподілу) гіпотеза відкидається.

Визначення: нехай дана випадкова величина X .

Гіпотеза: с. в. X підпорядковується закону розподілу.

Для перевірки гіпотези розглянемо вибірку, що складається із n незалежних спостережень над с.в. X: . По вибірці побудуємо емпіричне розподіл с.в X. Порівняння емпіричного та теоретичного розподілу (передбачуваного в гіпотезі) проводиться за допомогою спеціально підібраної функції-критерію згоди. Розглянемо критерій згоди Пірсона (критерій):

Гіпотеза: Х n породжується функцією.

Розділимо на k інтервалів, що не перетинаються. ;

Нехай - кількість спостережень у j-му інтервалі: ;

Ймовірність потрапляння спостереження в j-ий інтервал при виконанні гіпотези;

- очікуване число влучень у j-ий інтервал;

Статистика: - розподіл хі-квадрат з k-1 ступенем свободи.

Критерій помиляється на вибірках з низькочастотними (рідкісними) подіями. Вирішити цю проблему можна відкинувши низькочастотні події, або об'єднавши їх з іншими подіями.

Критерій згоди Пірсона (χ 2) застосовують для перевірки гіпотези про відповідність емпіричного розподілу передбачуваного теоретичного розподілу F(x) за великого обсягу вибірки (n ≥ 100). Критерій застосовується для будь-яких видів функції F(x), навіть при невідомих значеннях їх параметрів, що зазвичай має місце при аналізі результатів механічних випробувань. У цьому полягає його універсальність.

Використання критерію 2 передбачає розбиття розмаху варіювання вибірки на інтервали та визначення числа спостережень (частоти) n j для кожного з eінтервалів. Для зручності оцінок параметрів розподілу інтервали вибирають однакову довжину.

Число інтервалів залежить від обсягу вибірки. Зазвичай приймають: за n = 100 e= 10 ÷ 15, при n = 200 e= 15 ÷ 20, при n = 400 e= 25 ÷ 30, при n = 1000 e= 35 ÷ 40.

Інтервали, що містять менше п'яти спостережень, поєднують із сусідніми. Однак, якщо кількість таких інтервалів становить менше 20 % від їх загальної кількості, допускаються інтервали з частотою n j ≥ 2.

Статистикою критерію Пірсона є величина
, (3.91)
де p j - ймовірність потрапляння досліджуваної випадкової величини в j-і інтервал, що обчислюється відповідно до гіпотетичного закону розподілом F(x). При обчисленні ймовірності p j потрібно мати на увазі, що ліва межа першого інтервалу і права останнього повинні збігатися з межами області можливих значень випадкової величини. нормальному розподіліперший інтервал тягнеться до -∞, а останній - до +∞.

Нульову гіпотезу про відповідність вибіркового розподілу теоретичному закону F(x) перевіряють шляхом порівняння обчисленої за формулою (3.91) величини з критичним значенням 2 α, знайденим за табл. VI додатки для рівня значущості α та числа ступенів свободи k = e 1 – m – 1. Тут e 1 – кількість інтервалів після об'єднання; m - число параметрів, що оцінюються за аналізованою вибіркою. Якщо виконується нерівність
χ 2 ≤ χ 2 α (3.92)
то нульову гіпотезу не відкидають. При недотриманні зазначеної нерівності приймають альтернативну гіпотезу про належність вибірки невідомому розподілу.

Недоліком критерію згоди Пірсона є втрата частини первісної інформації, пов'язана з необхідністю угруповання результатів спостережень в інтервали та об'єднання окремих інтервалів з малим числом спостережень. вибірки (n ≈ 100).

У таблиці наведено критичні значення хі-квадрат розподілу із заданим числом ступенів свободи. Шукане значення знаходиться на перетині стовпця з відповідним значенням ймовірності та рядки з числом ступенів свободи. Наприклад, критичне значення хі-квадрат розподілу з 4-ма ступенями свободи для ймовірності 0.25 становить 5.38527. Це означає, що площа під кривою щільності хі-квадрат розподілу з 4-ма ступенями свободи праворуч від значення 5.38527 дорівнює 0.25.

У деяких випадках дослідник не знає заздалегідь, за яким саме законом розподілені значення досліджуваного ознаки. Але в нього можуть бути досить вагомі причини припускати, що розподіл підпорядкований тому чи іншому закону, наприклад, нормальному чи рівномірному. У цьому випадку висуваються основна та альтернативна статистичні гіпотези наступного виду:

    H 0: розподіл ознаки, що спостерігається, підпорядковано закону розподілу A,

    H 1: розподіл ознаки, що спостерігається, відрізняється від A;

де як Aможе виступати той чи інший закон розподілу: нормальний, рівномірний, показовий і т.д.

Перевірка гіпотези про передбачуваний закон розподілу проводиться з допомогою про критеріїв згоди. Є кілька критеріїв згоди. Найбільш універсальним з них є критерій Пірсона, так як він застосовний до будь-якого виду розподілу.

-Критерій Пірсона

Зазвичай емпіричні та теоретичні частоти різняться. Чи випадково розбіжність частот? Критерій Пірсона дає відповідь це питання, щоправда, як і будь-який статистичний критерій, не доводить справедливість гіпотези в строго математичному сенсі, лише встановлює певному рівні значимості її згоду чи незгоду з даними спостережень.

Отже, нехай за вибіркою обсягу отримано статистичне розподіл значень ознаки, де - значення ознаки, що спостерігаються, - відповідні їм частоти:

Суть критерію Пірсона полягає у обчисленні критерію за такою формулою:

де - це число розрядів значень, що спостерігаються, а-теоретичні частоти відповідних значень.

Зрозуміло, що менше різниці , тим ближче емпіричний розподіл до емпіричного, тому, що менше значення критерію, то з більшою достовірністю можна стверджувати, що емпіричний і теоретичний розподіл підпорядковані одному закону.

Алгоритм критерію Пірсона

Алгоритм критерію Пірсона нескладний і полягає у виконанні наступних дій:

Отже, єдиною нетривіальною дією у цьому алгоритмі є визначення теоретичних частот. Вони, зрозуміло, залежить від закону розподілу, тому - різних законів визначаються по-різному.

Критерій χ 2 Пірсона – це непараметричний метод, який дозволяє оцінити значущість відмінностей між фактичною (виявленою в результаті дослідження) кількістю результатів або якісних характеристик вибірки, що потрапляють у кожну категорію, та теоретичною кількістю, яку можна очікувати в групах, що вивчаються, за справедливості нульової гіпотези. Висловлюючись простіше, метод дозволяє оцінити статистичну значимістьвідмінностей двох чи кількох відносних показників(Частот, часток).

1. Історія розробки критерію χ 2

Критерій хі-квадрат для аналізу таблиць сполученості був розроблений та запропонований у 1900 році англійським математиком, статистиком, біологом та філософом, засновником математичної статистикита одним із основоположників біометрики Карлом Пірсоном(1857-1936).

2. Для чого використовується критерій 2 Пірсона?

Критерій хі-квадрат може застосовуватися під час аналізу таблиць сполученості, що містять відомості про частоту наслідків залежно від наявності фактора ризику. Наприклад, чотирипільна таблиця сполученостівиглядає наступним чином:

Вихід є (1) Виходу немає (0) Усього
Чинник ризику є (1) A B A + B
Чинник ризику відсутній (0) C D C+D
Усього A + C B + D A+B+C+D

Як заповнити таку таблицю поєднання? Розглянемо невеликий приклад.

Проводиться дослідження впливу куріння на ризик розвитку гіпертонії. Для цього було відібрано дві групи досліджуваних – до першої увійшли 70 осіб, які щодня викурюють не менше 1 пачки цигарок, у другу – 80 некурців такого ж віку. У першій групі у 40 осіб відзначався підвищений артеріальний тиск. У другій – артеріальна гіпертонія спостерігалася у 32 осіб. Відповідно, нормальний артеріальний тиск у групі курців був у 30 осіб (70 – 40 = 30) а у групі некурців – у 48 (80 – 32 = 48).

Заповнюємо вихідними даними чотирипільну таблицю сполученості:

В отриманій таблиці спряженості кожен рядок відповідає певній групі досліджуваних. Стовпці - показують кількість осіб із артеріальною гіпертонією чи з нормальним артеріальним тиском.

Завдання, яке ставиться перед дослідником: чи є статистично значущі відмінності між частотою осіб з артеріальним тиском серед курців та некурців? Відповісти на це питання можна, розрахувавши критерій хі-квадрат Пірсона і порівнявши значення, що вийшло, з критичним.

3. Умови та обмеження застосування критерію хі-квадрат Пірсона

  1. Порівняні показники повинні бути виміряні в номінальної шкали(наприклад, стать пацієнта - чоловіча або жіноча) або в порядковий(наприклад, ступінь артеріальної гіпертензії, що набуває значення від 0 до 3).
  2. Цей методдозволяє проводити аналіз не тільки чотирипольних таблиць, коли і фактор, і результат є бінарними змінними, тобто мають лише два можливі значення (наприклад, чоловіча або жіноча стать, наявність або відсутність певного захворювання в анамнезі...). Критерій хі-квадрат Пірсона може застосовуватися і у разі аналізу багатопольних таблиць, коли фактор та (або) результат приймають три і більше значень.
  3. Порівнювані групи повинні бути незалежними, тобто критерій хі-квадрат не повинен застосовуватися при порівнянні спостережень "до" після. У цих випадках проводиться тест Мак-Немара(при порівнянні двох пов'язаних сукупностей) або розраховується Q-критерій Кохрена(у разі порівняння трьох та більше груп).
  4. При аналізі чотирипольних таблиць очікувані значенняу кожному із осередків мають бути не менше 10. У тому випадку, якщо хоча б в одному осередку очікуване явище набуває значення від 5 до 9, критерій хі-квадрат повинен розраховуватися з поправкою Йейтса. Якщо хоча в одному осередку очікуване явище менше 5, то для аналізу повинен використовуватися точний критерій Фішера.
  5. У разі аналізу багатопільних таблиць очікуване число спостережень має приймати значення менше 5 більш ніж 20% осередків.

4. Як розрахувати критерій хі-квадрат Пірсона?

Для розрахунку критерію хі-квадрату необхідно:

Даний алгоритм застосуємо як для чотирипольних, так багатопольних таблиць.

5. Як інтерпретувати значення критерію хі-квадрат Пірсона?

У тому випадку, якщо отримане значення критерію χ 2 більше критичного, робимо висновок про наявність статистичного взаємозв'язку між фактором ризику, що вивчається, і результатом при відповідному рівні значущості.

6. Приклад розрахунку критерію хі-квадрат Пірсона

Визначимо статистичну значущість впливу фактора куріння на частоту випадків артеріальної гіпертонії за розглянутою вище таблицею:

  1. Розраховуємо очікувані значення для кожного осередку:
  2. Знаходимо значення критерію хі-квадрат Пірсона:

    χ 2 = (40-33.6) 2 / 33.6 + (30-36.4) 2 / 36.4 + (32-38.4) 2 / 38.4 + (48-41.6) 2 / 41.6 = 4.396.

  3. Число ступенів свободи f = (2-1) * (2-1) = 1. Знаходимо по таблиці критичне значення критерію хі-квадрат Пірсона, яке при рівні значущості p = 0.05 та числі ступенів свободи 1 становить 3.841.
  4. Порівнюємо отримане значення критерію хі-квадрат із критичним: 4.396 > 3.841, отже залежність частоти випадків артеріальної гіпертонії від наявності куріння – статистично значуща. Рівень значимості цього взаємозв'язку відповідає p<0.05.

Раніше розглядалися гіпотези, у яких закон розподілу генеральної сукупності передбачався відомим. Тепер займемося перевіркою гіпотез про передбачуваний закон невідомого розподілу, тобто перевірятимемо нульову гіпотезу про те, що генеральна сукупність розподілена за деяким відомим законом. Зазвичай статистичні критерії для перевірки таких гіпотез називаються критеріями згоди.

Критерієм згодиназивається критерій перевірки гіпотези про передбачуваний закон невідомого розподілу. Це чисельна міра розбіжності між емпіричним та теоретичним розподілом.

Основне завдання.Дано емпіричний розподіл (вибірка). Зробити припущення (висунути гіпотезу) про вид теоретичного розподілу та перевірити висунуту гіпотезу на заданому рівні значущості α.

Вирішення основного завдання складається з двох частин:

1. Висунення гіпотези.

2. Перевірка гіпотези на заданому рівні значимості.

Розглянемо докладно ці частини.

1. Вибір гіпотезипро вид теоретичного розподілу зручно робити з допомогою полігонів чи гістограм частот. Порівнюють емпіричний полігон (або гістограму) з відомими законами розподілу та вибирають найбільш підходящий.

Наведемо графіки найважливіших законів розподілу:

Приклади емпіричних законів розподілу наведено на рисунках:



У разі (а) висувається гіпотеза про нормальний розподіл, у разі (б) – гіпотеза про рівномірний розподіл, у разі (в) – гіпотеза про розподіл Пуассона.

Підставою висування гіпотези про теоретичному розподілі може бути теоретичні передумови характер зміни ознаки. Наприклад, виконання умов теореми Ляпунова дозволяє зробити гіпотезу про нормальний розподіл. Рівність середньої та дисперсії наводить на гіпотезу про розподіл Пуассона.

Насправді найчастіше доводиться зустрічатися з нормальним розподілом, у наших завданнях потрібно перевірити лише гіпотезу про розподіл.

Перевірка гіпотезипро теоретичний розподіл відповідає на запитання: чи можна вважати розбіжність між передбачуваними теоретичним та емпіричним розподілами випадковим, несуттєвим, що пояснюється випадковістю попадання у вибірку тих чи інших об'єктів, або ж це розбіжність говорить про суттєву розбіжність між розподілами. Для перевірки існують різні методи (критерії згоди) - c 2 (хі-квадрат), Колмогорова, Романовського та ін.

Критерій Пірсона.

Перевагою критерію Пірсона є його універсальність: з його допомогою можна перевіряти гіпотези про різні закони розподілу.

1. Перевірка гіпотези про розподіл.Нехай отримано вибірку досить великого обсягу пз великою кількістю різних значень варіант. Для зручності її обробки розділимо інтервал від найменшого до найбільшого значень варіант на sрівних частин і вважатимемо, що значення варіант, що потрапили в кожен інтервал, приблизно рівні числу, що задає середину інтервалу. Підрахувавши число варіантів, що потрапили в кожен інтервал, складемо так звану згруповану вибірку:

варіанти……….. х 1 х 2 … х s

частоти…………. п 1 п 2 … п s ,

де х i– значення середин інтервалів, а п i- Число варіант, що потрапили в i-і інтервал (емпіричні частоти). За отриманими даними можна обчислити вибіркове середнє та вибіркове середнє квадратичне відхилення σ В. Перевіримо припущення, що генеральна сукупність розподілена за нормальним законом із параметрами M(X) = , D(X) = . Тоді можна знайти кількість чисел із вибірки обсягу п, що має опинитися у кожному інтервалі при цьому припущенні (тобто теоретичні частоти). Для цього за таблицею значень функції Лапласа знайдемо ймовірність влучення в i-і інтервал:

,

де а iі b i- Межі i-го інтервалу. Помноживши отримані ймовірності обсяг вибірки п, знайдемо теоретичні частоти: п i = n · p iНаша мета – порівняти емпіричні та теоретичні частоти, які, звичайно, відрізняються один від одного, і з'ясувати, чи є ці відмінності несуттєвими, що не спростовують гіпотезу про нормальний розподіл досліджуваної випадкової величини, або вони настільки великі, що суперечать цій гіпотезі. Для цього використовується критерій у вигляді випадкової величини

. (7)

Сенс її очевидний: додаються частини, які квадрати відхилень емпіричних частот від теоретичних складають від відповідних теоретичних частот. Можна довести, що незалежно від реального закону розподілу генеральної сукупності закон розподілу випадкової величини (7) при прагненні до закону розподілу з числом ступенів свободи k = s - 1 – r, де r- Число параметрів передбачуваного розподілу, оцінених за даними вибірки. Нормальний розподіл характеризується двома параметрами, тому k = s - 3. Для обраного критерію будується правостороння критична область, яка визначається умовою

(8)

де α - Рівень значимості. Отже, критична область задається нерівністю а сфера прийняття гіпотези - .

Отже, для перевірки нульової гіпотези Н 0: генеральна сукупність розподілена нормально - потрібно обчислити за вибіркою значення критерію:

, (7`)

а по таблиці критичних точок розподілу 2 знайти критичну точку , використовуючи відомі значення α і k = s - 3. Якщо - нульову гіпотезу приймають, за її відкидають.

приклад.Результати дослідження попиту товар представлені у таблиці:

Висунути гіпотезу про вид розподілу і перевірити її лише на рівні значимості a=0,01.

I. Висунення гіпотези.

Для вказівки виду емпіричного розподілу побудуємо гістограму


120 160 180 200 220 280

По виду гістограми можна зробити припущення про нормальний закон розподілу ознаки, що вивчається, в генеральній сукупності.

ІІ. Перевіримо висунуту гіпотезу про нормальний розподіл, використовуючи критерій згоди Пірсона.

1. Обчислюємо , s В. Як варіант візьмемо середнє арифметичне кінці інтервалів:

2. Знайдемо інтервали (Z i ; Z i+1): ; .

За лівий кінець першого інтервалу приймемо (-¥), а за правий кінець останнього інтервалу – (+¥). Результати представлені у табл. 4.

3. Знайдемо теоретичні ймовірності Р i та теоретичні частоти (див. табл. 4).

Таблиця 4

i Кордон інтервалів Ф(Z i) Ф(Z i+1) P i = Ф(Z i+1)-Ф(Z i)
x i x i+1 Z i Z i+1
-1,14 -0,5 -0,3729 0,1271 6,36
-1,14 -0,52 -0,3729 -0,1985 0,1744 8,72
-0,52 0,11 -0,1985 0,0438 0,2423 12,12
0,11 0,73 0,0438 0,2673 0,2235 11,18
0,73 0,2673 0,5 0,2327 11,64

4. Порівняємо емпіричні та теоретичні частоти. Для цього:

а) обчислимо значення критерію Пірсона, що спостерігається.

Обчислення представлені у табл.5.

Таблиця 5

i
6,36 -1,36 1,8496 0,291
8,72 1,28 1,6384 0,188
12,12 1,88 3,5344 0,292
11,18 0,82 0,6724 0,060
11,64 -2,64 6,9696 0,599
S

б) по таблиці критичних точок розподілу c 2 при заданому рівні значущості a = 0,01 та числі ступенів свободи k = m-3 = 5-3 = 2 знаходимо критичну точку; маємо .

Порівнюємо c. . Отже, немає підстав відкидати гіпотезу про нормальний закон розподілу ознаки генеральної сукупності, що вивчається. Тобто. розбіжність між емпіричними та теоретичними частотами незначна (випадково). ◄

Зауваження.Інтервали, що містять нечисленні емпіричні частоти (n i<5), следует объединить, а частоты этих интервалов сложить. Если производилось объединение интервалов, то при определении числа степеней свободы по формуле K=m-3 следует в качестве m принять число оставшихся после объединения интервалов.

приклад.За вибіркою з 24 варіант висунуто гіпотезу про нормальний розподіл генеральної сукупності. Використовуючи критерій Пірсона за рівня значущості серед заданих значень = (34, 35, 36, 37, 38) вказати: а) найбільше, котрій немає підстав відкидати гіпотезу; б) найменше, починаючи з якого гіпотеза має бути відкинута.

Знайдемо число ступенів свободи за допомогою формули:

де - Число груп вибірки (варіант), - Число параметрів розподілу.

Оскільки нормальний розподіл має 2 параметри ( і ), отримуємо

За таблицею критичних точок розподілу, за заданим рівнем значущості та числом ступенів свободи визначаємо критичну точку.

У разі а) для значень , рівних 34 і 35, немає підстав відкидати гіпотезу про нормальний розподіл, оскільки . А найбільше серед цих значень.

У разі б) для значень 36, 37, 38 гіпотезу відкидають, оскільки . Найменше серед них.

2. Перевірка гіпотези про рівномірний розподіл. При використанні критерію Пірсона для перевірки гіпотези про рівномірний розподіл генеральної сукупності з ймовірністю ймовірності

необхідно, обчисливши за наявною вибіркою значення, оцінити параметри аі bза формулами:

де а*і b*- оцінки аі b. Дійсно, для рівномірного розподілу М(Х) = , звідки можна отримати систему для визначення а*і b*: , Рішенням якої є вирази (9).

Потім, припускаючи, що , можна знайти теоретичні частоти за формулами

Тут s- Число інтервалів, на які розбита вибірка.

Значення критерію Пірсона, що спостерігається, обчислюється за формулою (7`), а критичне – за таблицею з урахуванням того, що число ступенів свободи k = s - 3. Після цього межі критичної галузі визначаються так само, як і для перевірки гіпотези про нормальний розподіл.

3. Перевірка гіпотези про показовий розподіл.У цьому випадку, розбивши наявну вибірку на рівні по довжині інтервали, розглянемо послідовність варіантів, рівновіддалених один від одного (вважаємо, що всі варіанти, що потрапили в i- й інтервал, що приймають значення, що збігається з його серединою), і відповідних їм частот n i(число варіант вибірки, що потрапили в i- й інтервал). Обчислимо за цими даними та приймемо як оцінку параметра λ величину. Тоді теоретичні частоти обчислюються за формулою

Потім порівнюються спостерігане та критичне значення критерію Пірсона з урахуванням того, що число ступенів свободи k = s - 2.

Критерій згоди Пірсона:

Приклад 1. Використовуючи критерій Пірсона, за рівня значимості 0.05 перевірити, чи узгоджується гіпотеза про нормальному розподілі генеральної сукупності X з емпіричним розподілом вибірки обсягу n = 200.

Рішеннязнаходимо за допомогою калькулятора.

x iКількість, f ix i * f iНакопичена частота, S(x - x ср) * f(x - x ср) 2 * f(x - x ср) 3 * fЧастота, f i /n
5 15 75 15 114.45 873.25 -6662.92 0.075
7 26 182 41 146.38 824.12 -4639.79 0.13
9 25 225 66 90.75 329.42 -1195.8 0.13
11 30 330 96 48.9 79.71 -129.92 0.15
13 26 338 122 9.62 3.56 1.32 0.13
15 21 315 143 49.77 117.95 279.55 0.11
17 24 408 167 104.88 458.33 2002.88 0.12
19 20 380 187 127.4 811.54 5169.5 0.1
21 13 273 200 108.81 910.74 7622.89 0.065
200 2526 800.96 4408.62 2447.7 1

.
Середня виважена


Показники варіації.
.

R = X max - X min
R = 21 - 5 = 16
Дисперсія


Незміщена оцінка дисперсії


Середнє квадратичне відхилення.

Кожне значення ряду відрізняється від середнього значення 12.63 трохи більше, ніж 4.7
.

.
нормальному закону




n = 200, h = 2 (ширина інтервалу), σ = 4.7, x ср = 12.63

ix iu iφ in* i
1 5 -1.63 0,1057 9.01
2 7 -1.2 0,1942 16.55
3 9 -0.77 0,2943 25.07
4 11 -0.35 0,3752 31.97
5 13 0.0788 0,3977 33.88
6 15 0.5 0,3503 29.84
7 17 0.93 0,2565 21.85
8 19 1.36 0,1582 13.48
9 21 1.78 0,0804 6.85
in in* in i -n * i(n i -n * i) 2(n i -n * i) 2 / n * i
1 15 9.01 -5.99 35.94 3.99
2 26 16.55 -9.45 89.39 5.4
3 25 25.07 0.0734 0.00539 0.000215
4 30 31.97 1.97 3.86 0.12
5 26 33.88 7.88 62.14 1.83
6 21 29.84 8.84 78.22 2.62
7 24 21.85 -2.15 4.61 0.21
8 20 13.48 -6.52 42.53 3.16
9 13 6.85 -6.15 37.82 5.52
200 200 22.86



Її межу K kp = χ 2 (k-r-1;α) знаходимо за таблицями розподілу «хі-квадрат» і заданим значенням σ, k = 9, r=2 (параметри x cp та σ оцінені за вибіркою).
Kkp(0.05;6) = 12.59159; Kнабл = 22.86
Значення статистики Пірсона, що спостерігається, потрапляє в критичну область: Кнабл > Kkp, тому є підстави відкидати основну гіпотезу. Дані вибірки розподілені не за нормальним законом. Інакше кажучи, емпіричні і теоретичні частоти різняться значимо.

Приклад 2. Використовуючи критерій Пірсона, за рівня значимості 0.05 перевірити, чи узгоджується гіпотеза про нормальному розподілі генеральної сукупності X з емпіричним розподілом вибірки обсягу n = 200.
Рішення.
Таблиця до розрахунку показників.

x iКількість, f ix i * f iНакопичена частота, S(x - x ср) * f(x - x ср) 2 * f(x - x ср) 3 * fЧастота, f i /n
0.3 6 1.8 6 5.77 5.55 -5.34 0.03
0.5 9 4.5 15 6.86 5.23 -3.98 0.045
0.7 26 18.2 41 14.61 8.21 -4.62 0.13
0.9 25 22.5 66 9.05 3.28 -1.19 0.13
1.1 30 33 96 4.86 0.79 -0.13 0.15
1.3 26 33.8 122 0.99 0.0375 0.00143 0.13
1.5 21 31.5 143 5 1.19 0.28 0.11
1.7 24 40.8 167 10.51 4.6 2.02 0.12
1.9 20 38 187 12.76 8.14 5.19 0.1
2.1 8 16.8 195 6.7 5.62 4.71 0.04
2.3 5 11.5 200 5.19 5.39 5.59 0.025
200 252.4 82.3 48.03 2.54 1

Показники центру розподілу.
Середня виважена


Показники варіації.
Абсолютні показники варіації.
Розмах варіації - різниця між максимальним та мінімальним значеннями ознаки первинного ряду.
R = X max - X min
R = 2.3 - 0.3 = 2
Дисперсія- характеризує міру розкиду біля її середнього значення (заходи розсіювання, тобто відхилення від середнього).


Незміщена оцінка дисперсії- Заможна оцінка дисперсії.


Середнє квадратичне відхилення.

Кожне значення ряду відрізняється від середнього значення 1.26 трохи більше, ніж 0.49
Оцінка середньоквадратичного відхилення.

Перевірка гіпотез про вид розподілу.
1. Перевіримо гіпотезу про те, що Х розподілено за нормальному законуза допомогою критерію згоди Пірсона.

де n * i - теоретичні частоти:

Обчислимо теоретичні частоти, враховуючи, що:
n = 200, h = 0.2 (ширина інтервалу), σ = 0.49, x ср = 1.26

ix iu iφ in* i
1 0.3 -1.96 0,0573 4.68
2 0.5 -1.55 0,1182 9.65
3 0.7 -1.15 0,2059 16.81
4 0.9 -0.74 0,3034 24.76
5 1.1 -0.33 0,3765 30.73
6 1.3 0.0775 0,3977 32.46
7 1.5 0.49 0,3538 28.88
8 1.7 0.89 0,2661 21.72
9 1.9 1.3 0,1691 13.8
10 2.1 1.71 0,0909 7.42
11 2.3 2.12 0,0422 3.44

Порівняємо емпіричні та теоретичні частоти. Складемо розрахункову таблицю, з якої знайдемо значення критерію:

21.72 -2.28 5.2 0.24 9 20 13.8 -6.2 38.41 2.78 10 8 7.42 -0.58 0.34 0.0454 11 5 3.44 -1.56 2.42 0.7 ∑ 200 200 12.67

Визначимо межу критичної галузі. Оскільки статистика Пірсона вимірює різницю між емпіричним і теоретичним розподілами, чим більше її спостерігається значення K набл, тим більше аргумент проти основний гіпотези.
Тому критична область для цієї статистики завжди є правосторонньою: )

Поділіться з друзями або збережіть для себе:

Завантаження...