Критерий согласия пирсона для нормального распределения. Критерий Пирсона

Критерий согласия для проверки гипотезы о законе распределения исследуемой случайной величины.Во многих практических задачах точный закон распределения неизвестен.Поэтому выдвигается гипотеза о соответствии имеющегося эмпирического закона, построенного по наблюдениям, некоторому теоретическому.Данная гипотеза требует статистической проверки, по результатам которой будет либо подтверждена, либо опровергнута.

Пусть X – исследуемая случайная величина. Требуется проверить гипотезу H 0 о том, что данная случайная величина подчиняется закону распределения F(x). Для этого необходимо произвести выборку из n независимых наблюдений и по ней построить эмпирический закон распределения F"(x). Для сравнения эмпирического и гипотетического законов используется правило, называемое критерием согласия.Одним из популярных является критерий согласия хи-квадрат К. Пирсона.

В нем вычисляется статистика хи-квадрат:

,

где N – число интервалов, по которому строился эмпирический закон распределения (число столбцов соответствующей гистограммы), i – номер интервала, p t i - вероятность попадания значения случайной величины в i-й интервал для теоретического закона распределения, p e i – вероятность попадания значения случайной величины в i-й интервал для эмпирического закона распределения. Она и должна подчиняться распределению хи-квадрат.

Если вычисленное значение статистики превосходит квантиль распределения хи-квадрат с k-p-1 степенями свободы для заданного уровня значимости, то гипотеза H 0 отвергается.В противном случае она принимается на заданном уровне значимости.Здесь k – число наблюдений, p – число оцениваемых параметров закона распределения.

Пирсона позволяет осуществлять проверку эмпирического и теоретического (либо другого эмпирического) распределений одного признака. Данный критерий применяется, в основном, в двух случаях:

Для сопоставления эмпирического распределения признака с теоретическим распределением (нормальным, показательным, равномерным либо каким-то иным законом);

Для сопоставления двух эмпирических распределений одного и того же признака.

Идея метода – определение степени расхождения соответствующих частот n i и ; чем больше это расхождение, тем больше значение

Объемы выборок должны быть не меньше 50 и необходимо равенство сумм частот

Нулевая гипотеза H 0 ={два распределения практически не различаются между собой}; альтернативная гипотеза – H 1 ={расхождение между распределениями существенно}.

Приведем схему применения критерия для сопоставления двух эмпирических распределений:

Критерий - статистический критерий для проверки гипотезы , что наблюдаемая случайная величина подчиняется некому теоретическому закону распределения.


В зависимости от значения критерия , гипотеза может приниматься, либо отвергаться:

§ , гипотеза выполняется.

§ (попадает в левый "хвост" распределения). Следовательно, теоретические и практические значения очень близки. Если, к примеру, происходит проверка генератора случайных чисел, который сгенерировал n чисел из отрезка и гипотеза : выборка распределена равномерно на , тогда генератор нельзя называть случайным (гипотеза случайности не выполняется), т.к. выборка распределена слишком равномерно, но гипотеза выполняется.

§ (попадает в правый "хвост" распределения) гипотеза отвергается.

Определение: пусть дана случайная величина X .

Гипотеза : с. в. X подчиняется закону распределения .

Для проверки гипотезы рассмотрим выборку, состоящую из n независимых наблюдений над с.в. X: . По выборке построим эмпирическое распределение с.в X. Сравнение эмпирического и теоретического распределения (предполагаемого в гипотезе) производится с помощью специально подобранной функции -критерия согласия. Рассмотрим критерий согласия Пирсона (критерий ):

Гипотеза : Х n порождается функцией .

Разделим на k непересекающихся интервалов ;

Пусть - количество наблюдений в j-м интервале: ;

Вероятность попадания наблюдения в j-ый интервал при выполнении гипотезы ;

- ожидаемое число попаданий в j-ый интервал;

Статистика: - Распределение хи-квадрат с k-1 степенью свободы.

Критерий ошибается на выборках с низкочастотными (редкими) событиями.Решить эту проблему можно отбросив низкочастотные события, либо объединив их с другими событиями.Этот способ называется коррекцией Йетса (Yates" correction).

Критерий согласия Пирсона (χ 2) применяют для проверки гипотезы о соответствии эмпирического распределения предполагаемому теоретическому распределению F(x) при большом объеме выборки (n ≥ 100). Критерий применим для любых видов функции F(x), даже при неизвестных значениях их параметров, что обычно имеет место при анализе результатов механических испытаний. В этом заключается его универсальность.

Использование критерия χ 2 предусматривает разбиение размаха варьирования выборки на интервалы и определения числа наблюдений (частоты) n j для каждого из e интервалов. Для удобства оценок параметров распределения интервалы выбирают одинаковой длины.

Число интервалов зависит от объема выборки. Обычно принимают: при n = 100 e = 10 ÷ 15, при n = 200 e = 15 ÷ 20, при n = 400 e = 25 ÷ 30, при n = 1000 e = 35 ÷ 40.

Интервалы, содержащие менее пяти наблюдений, объединяют с соседними. Однако, если число таких интервалов составляет менее 20 % от их общего количества, допускаются интервалы с частотой n j ≥ 2.

Статистикой критерия Пирсона служит величина
, (3.91)
где p j - вероятность попадания изучаемой случайной величины в j-и интервал, вычисляемая в соответствии с гипотетическим законом распределением F(x). При вычислении вероятности p j нужно иметь в виду, что левая граница первого интервала и правая последнего должны совпадать с границами области возможных значений случайной величины.Например, при нормальном распределении первый интервал простирается до -∞, а последний - до +∞.

Нулевую гипотезу о соответствии выборочного распределения теоретическому закону F(x) проверяют путем сравнения вычисленной по формуле (3.91) величины с критическим значением χ 2 α , найденным по табл. VI приложения для уровня значимости α и числа степеней свободы k = e 1 - m - 1. Здесь e 1 - число интервалов после объединения; m - число параметров, оцениваемых по рассматриваемой выборке.Если выполняется неравенство
χ 2 ≤ χ 2 α (3.92)
то нулевую гипотезу не отвергают.При несоблюдении указанного неравенства принимают альтернативную гипотезу о принадлежности выборки неизвестному распределению.

Недостатком критерия согласия Пирсона является потеря части первоначальной информации, связанная с необходимостью группировки результатов наблюдений в интервалы и объединения отдельных интервалов с малым числом наблюдений.В связи с этим рекомендуется дополнять проверку соответствия распределений по критерию χ 2 другими критериями.Особенно это необходимо при сравнительно малом объеме выборки (n ≈ 100).

В таблице приведены критические значения хи-квадрат распределения с заданным числом степеней свободы.Искомое значение находится на пересечении столбца с соответствующим значением вероятности и строки с числом степеней свободы. Например, критическое значение хи-квадрат распределения с 4-мя степенями свободы для вероятности 0.25 составляет 5.38527. Это означает, что площадь под кривой плотности хи-квадрат распределения с 4-мя степенями свободы справа от значения 5.38527 равна 0.25.

В некоторых случаях исследователь не знает заранее, по какому именно закону распределены наблюдаемые значение исследуемого признака. Но у него могут быть достаточно веские причины предполагать, что распределение подчинено тому или иному закону, например, нормальному или равномерному. В этом случае выдвигаются основная и альтернативная статистические гипотезы следующего вида:

    H 0: распределение наблюдаемого признака подчинено закону распределения A ,

    H 1: распределение наблюдаемого признака отличается от A ;

где в качестве A может выступать тот или иной закон распределения: нормальный, равномерный, показательный и т. д.

Проверка гипотезы о предполагаемом законе распределения проводится при помощи так называемых критериев согласия. Имеется несколько критериев согласия. Наиболее универсальным из них является -критерий Пирсона, так как он применим к любому виду распределения.

-Критерий Пирсона

Обычно эмпирические и теоретические частоты различаются. Случайно ли расхождение частот? Критерий Пирсона дает ответ на этот вопрос, правда, как и любой статистический критерий, он не доказывает справедливость гипотезы в строго математическом смысле, а лишь устанавливает на определенном уровне значимости ее согласие или несогласие с данными наблюдений.

Итак, пусть по выборке объема получено статистическое распределение значений признака, где- наблюдаемые значения признака,- соответствующие им частоты:

Суть критерия Пирсона состоит в вычислении критерия по следующей формуле:

где - это число разрядов наблюдаемых значений, а- теоретические частоты соответствующих значений.

Понятно, что чем меньше разности , тем ближе эмпирическое распределение к эмпирическому, поэтому, чем меньше значение критерия, тем с большей достоверностью можно утверждать, что эмпирическое и теоретическое распределение подчинены одному закону.

Алгоритм критерия Пирсона

Алгоритм критерия Пирсона несложен и состоит в выполнении следующих действий:

Итак, единственным нетривиальным действием в этом алгоритме является определение теоретических частот. Они, разумеется, зависят от закона распределения, поэтому - для различных законов определяются по-разному.

​ Критерий χ 2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).

1. История разработки критерия χ 2

Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном (1857-1936).

2. Для чего используется критерий χ 2 Пирсона?

Критерий хи-квадрат может применяться при анализе таблиц сопряженности , содержащих сведения о частоте исходов в зависимости от наличия фактора риска. Например, четырехпольная таблица сопряженности выглядит следующим образом:

Исход есть (1) Исхода нет (0) Всего
Фактор риска есть (1) A B A + B
Фактор риска отсутствует (0) C D C + D
Всего A + C B + D A + B + C + D

Как заполнить такую таблицу сопряженности? Рассмотрим небольшой пример.

Проводится исследование влияния курения на риск развития артериальной гипертонии. Для этого были отобраны две группы исследуемых - в первую вошли 70 человек, ежедневно выкуривающих не менее 1 пачки сигарет, во вторую - 80 некурящих такого же возраста. В первой группе у 40 человек отмечалось повышенное артериальное давление. Во второй - артериальная гипертония наблюдалась у 32 человек. Соответственно, нормальное артериальное давление в группе курильщиков было у 30 человек (70 - 40 = 30) а в группе некурящих - у 48 (80 - 32 = 48).

Заполняем исходными данными четырехпольную таблицу сопряженности:

В полученной таблице сопряженности каждая строчка соответствует определенной группе исследуемых. Столбцы - показывают число лиц с артериальной гипертонией или с нормальным артериальным давлением.

Задача, которая ставится перед исследователем: имеются ли статистически значимые различия между частотой лиц с артериальным давлением среди курящих и некурящих? Ответить на этот вопрос можно, рассчитав критерий хи-квадрат Пирсона и сравнив получившееся значение с критическим.

3. Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в номинальной шкале (например, пол пациента - мужской или женский) или в порядковой (например, степень артериальной гипертензии, принимающая значения от 0 до 3).
  2. Данный метод позволяет проводить анализ не только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, мужской или женский пол, наличие или отсутствие определенного заболевания в анамнезе...). Критерий хи-квадрат Пирсона может применяться и в случае анализа многопольных таблиц, когда фактор и (или) исход принимают три и более значений.
  3. Сопоставляемые группы должны быть независимыми, то есть критерий хи-квадрат не должен применяться при сравнении наблюдений "до-"после". В этих случаях проводится тест Мак-Немара (при сравнении двух связанных совокупностей) или рассчитывается Q-критерий Кохрена (в случае сравнения трех и более групп).
  4. При анализе четырехпольных таблиц ожидаемые значения в каждой из ячеек должны быть не менее 10. В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение от 5 до 9, критерий хи-квадрат должен рассчитываться с поправкой Йейтса . Если хотя бы в одной ячейке ожидаемое явление меньше 5, то для анализа должен использоваться точный критерий Фишера .
  5. В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек.

4. Как рассчитать критерий хи-квадрат Пирсона?

Для расчета критерия хи-квадрат необходимо:

Данный алгоритм применим как для четырехпольных, так и для многопольных таблиц.

5. Как интерпретировать значение критерия хи-квадрат Пирсона?

В том случае, если полученное значение критерия χ 2 больше критического, делаем вывод о наличии статистической взаимосвязи между изучаемым фактором риска и исходом при соответствующем уровне значимости.

6. Пример расчета критерия хи-квадрат Пирсона

Определим статистическую значимость влияния фактора курения на частоту случаев артериальной гипертонии по рассмотренной выше таблице:

  1. Рассчитываем ожидаемые значения для каждой ячейки:
  2. Находим значение критерия хи-квадрат Пирсона:

    χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.

  3. Число степеней свободы f = (2-1)*(2-1) = 1. Находим по таблице критическое значение критерия хи-квадрат Пирсона, которое при уровне значимости p=0.05 и числе степеней свободы 1 составляет 3.841.
  4. Сравниваем полученное значение критерия хи-квадрат с критическим: 4.396 > 3.841, следовательно зависимость частоты случаев артериальной гипертонии от наличия курения - статистически значима. Уровень значимости данной взаимосвязи соответствует p<0.05.

Ранее рассматривались гипотезы, в которых закон распределения генеральной совокупности предполагался известным. Теперь займемся проверкой гипотез о предполагаемом законе неизвестного распределения, то есть будем проверять нулевую гипотезу о том, что генеральная совокупность распределена по некоторому известному закону. Обычно статистические критерии для проверки таких гипотез называются критериями согласия.

Критерием согласия называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения. Это численная мера расхождения между эмпирическим и теоретическим распределением.

Основная задача. Дано эмпирическое распределение (выборка). Сделать предположение (выдвинуть гипотезу) о виде теоретического распределения и проверить выдвинутую гипотезу на заданном уровне значимости α.

Решение основной задачи состоит из двух частей:

1. Выдвижение гипотезы.

2. Проверка гипотезы на заданном уровне значимости.

Рассмотрим подробно эти части.

1. Выбор гипотезы о виде теоретического распределения удобно делать с помощью полигонов или гистограмм частот. Сравнивают эмпирический полигон (или гистограмму) с известными законами распределения и выбирают наиболее подходящий.

Приведём графики важнейших законов распределения:

Примеры эмпирических законов распределения приведены на рисунках:



В случае (а) выдвигается гипотеза о нормальном распределении, в случае (б) - гипотеза о равномерном распределении, в случае (в) - гипотеза о распределении Пуассона.

Основанием для выдвижения гипотезы о теоретическом распределении могут быть теоретические предпосылки о характере изменения признака. Например, выполнение условий теоремы Ляпунова позволяет сделать гипотезу о нормальном распределении. Равенство средней и дисперсии наводит на гипотезу о распределении Пуассона.

На практике чаще всего приходится встречаться с нормальным распределением, поэтому в наших задачах требуется проверить только гипотезу о нормальном распределении.

Проверка гипотезы о теоретическом распределении отвечает на вопрос: можно ли считать расхождение между предполагаемыми теоретическим и эмпирическим распределениями случайным, несущественным, объясняемым случайностью попадания в выборку тех или иных объектов, или же это расхождение говорит о существенном расхождении между распределениями. Для проверки существуют различные методы (критерии согласия) - c 2 (хи-квадрат), Колмогорова, Романовского и др.

Критерий Пирсона.

Достоинством критерия Пирсона является его универсальность: с его помощью можно проверять гипотезы о различных законах распределения.

1. Проверка гипотезы о нормальном распределении. Пусть получена выборка достаточно большого объема п с большим количеством различных значений вариант. Для удобства ее обработки разделим интервал от наименьшего до наибольшего из значений вариант на s равных частей и будем считать, что значения вариант, попавших в каждый интервал, приближенно равны числу, задающему середину интервала. Подсчитав число вариант, попавших в каждый интервал, составим так называемую сгруппированную выборку:

варианты………..х 1 х 2 … х s

частоты………….п 1 п 2 … п s ,

где х i – значения середин интервалов, а п i – число вариант, попавших в i -й интервал (эмпирические частоты). По полученным данным можно вычислить выборочное среднее и выборочное среднее квадратическое отклонение σ В . Проверим предположение, что генеральная совокупность распределена по нормальному закону с параметрами M (X ) = , D (X ) = . Тогда можно найти количество чисел из выборки объема п , которое должно оказаться в каждом интервале при этом предположении (то есть теоретические частоты). Для этого по таблице значений функции Лапласа найдем вероятность попадания в i -й интервал:

,

где а i и b i - границы i -го интервала. Умножив полученные вероятности на объем выборки п, найдем теоретические частоты: п i =n·p i .Наша цель – сравнить эмпирические и теоретические частоты, которые, конечно, отличаются друг от друга, и выяснить, являются ли эти различия несущественными, не опровергающими гипотезу о нормальном распределении исследуемой случайной величины, или они настолько велики, что противоречат этой гипотезе. Для этого используется критерий в виде случайной величины

. (7)

Смысл ее очевиден: суммируются части, которые квадраты отклонений эмпирических частот от теоретических составляют от соответствующих теоретических частот. Можно доказать, что вне зависимости от реального закона распределения генеральной совокупности закон распределения случайной величины (7) при стремится к закону распределения с числом степеней свободы k = s – 1 – r , где r – число параметров предполагаемого распределения, оцененных по данным выборки. Нормальное распределение характеризуется двумя параметрами, поэтому k = s – 3. Для выбранного критерия строится правосторонняя критическая область, определяемая условием

(8)

где α – уровень значимости. Следовательно, критическая область задается неравенством а область принятия гипотезы - .

Итак, для проверки нулевой гипотезы Н 0: генеральная совокупность распределена нормально – нужно вычислить по выборке наблюдаемое значение критерия:

, (7`)

а по таблице критических точек распределения χ 2 найти критическую точку , используя известные значения α и k = s – 3. Если - нулевую гипотезу принимают, при ее отвергают.

Пример. Результаты исследования спроса на товар представлены в таблице:

Выдвинуть гипотезу о виде распределения и проверить её на уровне значимости a=0,01.

I. Выдвижение гипотезы.

Для указания вида эмпирического распределения построим гистограмму


120 160 180 200 220 280

По виду гистограммы можно сделать предположение о нормальном законе распределения изучаемого признака в генеральной совокупности.

II. Проверим выдвинутую гипотезу о нормальном распределении, используя критерий согласия Пирсона.

1. Вычисляем , s В.В качестве вариант возьмём среднее арифметическое концов интервалов:

2. Найдём интервалы (Z i ; Z i+1): ; .

За левый конец первого интервала примем (-¥), а за правый конец последнего интервала - (+¥). Результаты представлены в табл. 4.

3. Найдем теоретические вероятности Р i и теоретические частоты (см. табл. 4).

Таблица 4

i Граница интервалов Ф(Z i) Ф(Z i+1) P i = Ф(Z i+1)-Ф(Z i)
x i x i+1 Z i Z i+1
-1,14 -0,5 -0,3729 0,1271 6,36
-1,14 -0,52 -0,3729 -0,1985 0,1744 8,72
-0,52 0,11 -0,1985 0,0438 0,2423 12,12
0,11 0,73 0,0438 0,2673 0,2235 11,18
0,73 0,2673 0,5 0,2327 11,64

4. Сравним эмпирические и теоретические частоты. Для этого:

а) вычислим наблюдаемое значение критерия Пирсона.

Вычисления представлены в табл.5.

Таблица 5

i
6,36 -1,36 1,8496 0,291
8,72 1,28 1,6384 0,188
12,12 1,88 3,5344 0,292
11,18 0,82 0,6724 0,060
11,64 -2,64 6,9696 0,599
S

б) по таблице критических точек распределения c 2 при заданном уровне значимости a=0,01 и числе степеней свободы k=m–3=5–3=2 находим критическую точку ; имеем .

Сравниваем c . . Следовательно, нет оснований отвергать гипотезу о нормальном законе распределения изучаемого признака генеральной совокупности. Т.е. расхождение между эмпирическими и теоретическими частотами незначимо (случайно). ◄

Замечание. Интервалы, содержащие малочисленные эмпирические частоты (n i <5), следует объединить, а частоты этих интервалов сложить. Если производилось объединение интервалов, то при определении числа степеней свободы по формуле K=m-3 следует в качестве m принять число оставшихся после объединения интервалов.

Пример. По выборке из 24 вариант выдвинута гипотеза о нормальном распределении генеральной совокупности. Используя критерий Пирсона при уровне значимости среди заданных значений = {34, 35, 36, 37, 38} указать: а) наибольшее, для которого нет оснований отвергать гипотезу; б) наименьшее, начиная с которого гипотеза должна быть отвергнута.

Найдем число степеней свободы с помощью формулы:

где - число групп выборки (вариант), - число параметров распределения.

Так как нормальное распределение имеет 2 параметра ( и ), получаем

По таблице критических точек распределения , по заданному уровню значимости и числу степеней свободы определяем критическую точку .

В случае а) для значений , равных 34 и 35, нет оснований отвергать гипотезу о нормальном распределении, так как . А наибольшее среди этих значений .

В случае б) для значений 36, 37, 38 гипотезу отвергают, так как . Наименьшее среди них .◄

2. Проверка гипотезы о равномерном распределении . При использовании критерия Пирсона для проверки гипотезы о равномерном распределении генеральной совокупности с предполагаемой плотностью вероятности

необходимо, вычислив по имеющейся выборке значение , оценить параметры а и b по формулам:

где а* и b* - оценки а и b . Действительно, для равномерного распределения М (Х ) = , , откуда можно получить систему для определения а* и b *: , решением которой являются выражения (9).

Затем, предполагая, что , можно найти теоретические частоты по формулам

Здесь s – число интервалов, на которые разбита выборка.

Наблюдаемое значение критерия Пирсона вычисляется по формуле (7`), а критическое – по таблице с учетом того, что число степеней свободы k = s – 3. После этого границы критической области определяются так же, как и для проверки гипотезы о нормальном распределении.

3. Проверка гипотезы о показательном распределении. В этом случае, разбив имеющуюся выборку на равные по длине интервалы, рассмотрим последовательность вариант , равноотстоящих друг от друга (считаем, что все варианты, попавшие в i – й интервал, принимают значение, совпадающее с его серединой), и соответствующих им частот n i (число вариант выборки, попавших в i – й интервал). Вычислим по этим данным и примем в качестве оценки параметра λ величину . Тогда теоретические частоты вычисляются по формуле

Затем сравниваются наблюдаемое и критическое значение критерия Пирсона с учетом того, что число степеней свободы k = s – 2.

Критерий согласия Пирсона :

Пример 1 . Используя критерий Пирсона, при уровне значимости 0.05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200.

Решение находим с помощью калькулятора .

x i Кол-во, f i x i * f i Накопленная частота, S (x - x ср) * f (x - x ср) 2 * f (x - x ср) 3 * f Частота, f i /n
5 15 75 15 114.45 873.25 -6662.92 0.075
7 26 182 41 146.38 824.12 -4639.79 0.13
9 25 225 66 90.75 329.42 -1195.8 0.13
11 30 330 96 48.9 79.71 -129.92 0.15
13 26 338 122 9.62 3.56 1.32 0.13
15 21 315 143 49.77 117.95 279.55 0.11
17 24 408 167 104.88 458.33 2002.88 0.12
19 20 380 187 127.4 811.54 5169.5 0.1
21 13 273 200 108.81 910.74 7622.89 0.065
200 2526 800.96 4408.62 2447.7 1

.
Средняя взвешенная


Показатели вариации .
.

R = X max - X min
R = 21 - 5 = 16
Дисперсия


Несмещенная оценка дисперсии


Среднее квадратическое отклонение .

Каждое значение ряда отличается от среднего значения 12.63 не более, чем на 4.7
.

.
нормальному закону




n = 200, h=2 (ширина интервала), σ = 4.7, x ср = 12.63

i x i u i φ i n* i
1 5 -1.63 0,1057 9.01
2 7 -1.2 0,1942 16.55
3 9 -0.77 0,2943 25.07
4 11 -0.35 0,3752 31.97
5 13 0.0788 0,3977 33.88
6 15 0.5 0,3503 29.84
7 17 0.93 0,2565 21.85
8 19 1.36 0,1582 13.48
9 21 1.78 0,0804 6.85
i n i n* i n i -n* i (n i -n* i) 2 (n i -n* i) 2 /n* i
1 15 9.01 -5.99 35.94 3.99
2 26 16.55 -9.45 89.39 5.4
3 25 25.07 0.0734 0.00539 0.000215
4 30 31.97 1.97 3.86 0.12
5 26 33.88 7.88 62.14 1.83
6 21 29.84 8.84 78.22 2.62
7 24 21.85 -2.15 4.61 0.21
8 20 13.48 -6.52 42.53 3.16
9 13 6.85 -6.15 37.82 5.52
200 200 22.86



Её границу K kp = χ 2 (k-r-1;α) находим по таблицам распределения «хи-квадрат» и заданным значениям σ, k = 9, r=2 (параметры x cp и σ оценены по выборке).
Kkp(0.05;6) = 12.59159; Kнабл = 22.86
Наблюдаемое значение статистики Пирсона попадает в критическую область: Кнабл > Kkp, поэтому есть основания отвергать основную гипотезу. Данные выборки распределены не по нормальному закону . Другими словами, эмпирические и теоретические частоты различаются значимо.

Пример 2 . Используя критерий Пирсона, при уровне значимости 0.05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200.
Решение .
Таблица для расчета показателей.

x i Кол-во, f i x i * f i Накопленная частота, S (x - x ср) * f (x - x ср) 2 * f (x - x ср) 3 * f Частота, f i /n
0.3 6 1.8 6 5.77 5.55 -5.34 0.03
0.5 9 4.5 15 6.86 5.23 -3.98 0.045
0.7 26 18.2 41 14.61 8.21 -4.62 0.13
0.9 25 22.5 66 9.05 3.28 -1.19 0.13
1.1 30 33 96 4.86 0.79 -0.13 0.15
1.3 26 33.8 122 0.99 0.0375 0.00143 0.13
1.5 21 31.5 143 5 1.19 0.28 0.11
1.7 24 40.8 167 10.51 4.6 2.02 0.12
1.9 20 38 187 12.76 8.14 5.19 0.1
2.1 8 16.8 195 6.7 5.62 4.71 0.04
2.3 5 11.5 200 5.19 5.39 5.59 0.025
200 252.4 82.3 48.03 2.54 1

Показатели центра распределения .
Средняя взвешенная


Показатели вариации .
Абсолютные показатели вариации .
Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.
R = X max - X min
R = 2.3 - 0.3 = 2
Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).


Несмещенная оценка дисперсии - состоятельная оценка дисперсии.


Среднее квадратическое отклонение .

Каждое значение ряда отличается от среднего значения 1.26 не более, чем на 0.49
Оценка среднеквадратического отклонения .

Проверка гипотез о виде распределения .
1. Проверим гипотезу о том, что Х распределено по нормальному закону с помощью критерия согласия Пирсона.

где n* i - теоретические частоты:

Вычислим теоретические частоты, учитывая, что:
n = 200, h=0.2 (ширина интервала), σ = 0.49, x ср = 1.26

i x i u i φ i n* i
1 0.3 -1.96 0,0573 4.68
2 0.5 -1.55 0,1182 9.65
3 0.7 -1.15 0,2059 16.81
4 0.9 -0.74 0,3034 24.76
5 1.1 -0.33 0,3765 30.73
6 1.3 0.0775 0,3977 32.46
7 1.5 0.49 0,3538 28.88
8 1.7 0.89 0,2661 21.72
9 1.9 1.3 0,1691 13.8
10 2.1 1.71 0,0909 7.42
11 2.3 2.12 0,0422 3.44

Сравним эмпирические и теоретические частоты. Составим расчетную таблицу, из которой найдем наблюдаемое значение критерия:

21.72 -2.28 5.2 0.24 9 20 13.8 -6.2 38.41 2.78 10 8 7.42 -0.58 0.34 0.0454 11 5 3.44 -1.56 2.42 0.7 ∑ 200 200 12.67

Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение K набл, тем сильнее довод против основной гипотезы.
Поэтому критическая область для этой статистики всегда правосторонняя: }

Поделитесь с друзьями или сохраните для себя:

Загрузка...