Проверка статистических гипотез о равенстве средних. Проверка гипотезы равенства средних двух выборок (t - критерий)

Среди важнейших обобщающих характеристик, относительно которых чаще всего выдвигаются гипотезы, является средняя величина. С целью проверки гипотезы о равенстве средних в генеральной совокупности необходимо сформулировать нулевую гипотезу. При этом, как правило, исходят из того, что обе выборки взяты из нормально распределенной генеральной совокупности с математическим ожиданием, равным X и с дисперсией, равной с0 . Если это предположение верно, то х1 - х2 ~ х . Фактически же выборочные средние Х1 И Х2 не будут равны из-за случайности выборки. Поэтому нужно выяснить существенность различий между х1 х2 - находится ли их разница в пределах возможной случайной вариации или же она выходит за эти пределы. Тогда задача проверки гипотезы сводится к проверке существенности различия

Каждая выборочная средняя имеет свою ошибку /и:

Определив дисперсии и среднюю ошибку выборочных средних, можно вычислить фактическое значение И-критерия и сравнить его с критическим (табличным) значением при соответствующем уровне значимости и числе степеней свободы вариации (для выборок с численностью п > 30 используется и-критерий нормального распределения, а для выборок с численностью п < 30 - и-критерий Стьюдента).

Фактическое значение и-критерия определяется по формуле

Если выборочное значение критерия попадает в критическую область (їфакі> О, нулевая гипотеза о равенстве средних отклоняется; если же выборочное значение критерия попадает в область допустимых значений (Іфакг< їа), нулевая гипотеза принимается.

Нулевая гипотеза о равенстве средних в двух генеральных совокупностях может быть также проверена путем сравнения фактической средней разницы [єФа,.т = ~~2 ) с предельной случайной ошибкой при заданном уровне значимости (еа). Если фактическая разница между выборочными средними находится в пределах случайной ошибки (єфакт < еа), нулевая гипотеза принимается. Если же фактическая разница между средними выходит за пределы случайной ошибки (еф^т > еа), нулевая гипотеза отклоняется.

При решении конкретных задач по проверке статистических гипотез относительно средних необходимо учитывать следующие моменты: 1) схему формирования выборок (выборки независимые и зависимые); 2) равенство или неравенство объемов выборок; 3) равенство или неравенство дисперсий генеральных совокупностях.

Алгоритм проверки гипотезы относительно двух средних несколько меняется, если дисперсии по выборкам (512 и 522) существенно отличаются. В этом случае при определении числа степеней свободы вводится поправка:

Когда же при неравных дисперсиях по выборкам, неровными есть и их численности (п1 и п2), табличное значение г-критерия Стьюдента следует рассчитать по формуле

где и1 и и2 - табличные значения Г-критерия Стьюдента, которые берутся в соответствии с п1 - 1 и п2 - 1 степенями свободы.

Рассмотрим пример проверки статистической гипотезы о равенстве двух средних независимых выборок равной численности (п1=п2) и равными дисперсиями (СГ;2 =).

Да, есть данные по живой массы телят при рождении двух группах коров черно-пестрой породы (коровы одного возраста). Первая группа коров имела нормальную продолжительность лактации (305 дней), а вторая группа доилась в течение 320 дней. В каждую группу вошло по 5 коров. Данные наблюдения приведены в табл. 7.2.

Таблица 7.2. Живая масса телят при рождении по группам коров с разной продолжительностью лактации

Сопоставление живых масс телят по двух группах коров показывает, что более высокая живая масса телят наблюдается у коров И группы, которые имели нормальную продолжительность лактации. Однако, в связи с тем, что численность выборок небольшая (п = 5), не исключена возможность, что разногласия между живыми массами полученные в результате действия случайных причин.

Необходимо статистически оценить разницу между средними по двум группам коров.

По результатам проверки гипотезы сделать вывод о том, что разница между средними лежит в пределах случайных колебаний, или же эта разница настолько значительная, что не согласуется с нулевой гипотезой о случайном характере различий между средними.

Если будет доказано второе положение и отклонено первых, можно утверждать, что продолжительность лактации влияет на живую массу телят.

Условие задачи предполагает, что обе выборки взяты из нормально распределенной генеральной совокупности. Формирование групп случайное (независимое), поэтому должна оцениваться разница между средними.

Определим среднюю живую массу телят по двух группах коров:

Фактическая разница между средними составляет:

Существенность этой разницы должна быть оценена. Для этого необходимо проверить гипотезу о равенстве двух средних.

Рассмотрим подробно все этапы схемы проверки гипотезы. 1. Сформулируем нулевую Но и На альтернативную гипотезы:

2. Примем уровень значимости а = 0,05, гарантируя принятие гипотезы или отказа от нее с вероятностью ошибки только в 5 случаях из 100.

3. Наиболее мощным критерием для проверки такого рода гипотезы Н0 есть и-критерий Стьюдента.

4. Сформулируем правило принятия решения по результатам

проверки Н0. Поскольку по альтернативной гипотезой х1 может быть или меньше или больше х2 , то критическая область должна быть установлена с двух

сторон: и - ~иа и и - иа, или короче: иа.

Такая форма задания критерия называется двусторонней критической областью. Критическая область при а = 0,05 будет содержаться в пределах - все значения выше, чем верхняя 2,5% и ниже, чем 2,5% точки распределения и-критерия Стьюдента.

С учетом сказанного выводы по проверке Н0 можно сформулировать так: гипотеза Н0 отклонятся, если фактическое значение Г-критерия окажется

больше табличное значение, то есть если іфакт > иа. В противном случае Ка должна быть принята.

5. Чтобы проверить Н0 нужно определить фактическое значение Г-критерия Стьюдента и сравнить его с табличным значением.

Для определения фактического значения Г-критерия Стьюдента выполним следующие вычисления.

6. Вычислим по каждой выборке скорректированные на потерю степеней свободы вариации дисперсии. Для этого предварительно возведем в квадрат значения хц и х2і:

7. Рассчитаем квадраты средних ошибок по каждой выборке и обобщенную среднюю ошибку разности средних:

8. Рассчитаем фактическое значение Г-критерия Стьюдента:

9. Определим табличное значение критерия Г-Стьюдента, исходя из уровня значимости а = 0,05 и числа степеней свободы для двух выборок:

По таблице "Критические точки распределения Стьюдента" (доп. 3) найдем и при а = 0,05 и к = 8: і005 = 2,31.

10. Сравним фактическое и табличное значение-критерия Стьюдента:

Поскольку іфаккг < и^05 (выборочное значение критерия находится в области допустимых значений), нулевая гипотеза о равенстве средних генеральных совокупностях принимается.

Итак, влияние продолжительности лактации на живую массу телят при рождении оказывается недоведенним.

Однако следует обратить внимание на такой существенный момент: живая масса телят при рождении во всех наблюдениях опыта выше в первой группе коров, которые имеют нормальную продолжительность лактации. Поэтому вместо альтернативной гипотезы На х1 ф х2 может быть взята другая. Поскольку нет оснований считать, что при нормальной продолжительности лактации живая масса телят будет ниже, то очевидно, что более целесообразной формой альтернативной гипотезы есть: На: х1 > х2.

Тогда критическая область, что составляет 0,05 всей площади под кривой распределения, будет расположена только с одной (правой) стороны, так как отрицательные значения живых масс считаются несовместимыми с условиями задачи. В связи с этим табличное значение-критерия следует определять при удвоенном значении уровня значимости (т.е. при 2а; иа = 2 o 0,05 = 0,10). Критерий проверки гипотезы формулируется так: нулевая гипотеза отклоняется, если > і2а.

Такая форма задачи критической области называется односторонней. Односторонний критерий более чувствителен к ошибкам второго рода, но его применение допустимо лишь в случае, если доказана правомерность данной альтернативной гипотезы.

Установим по таблицам (прил. 3) табличное значение-критерия при а = 0,10 и к = 8, і0Д0 = 1,86.

Итак, при использовании одностороннего критерия нулевая гипотеза отклоняется, Т.е. критерий окажется в критической области (іфакг > і0д0; 2,14 > 1,86). Таким образом, живая масса телят при рождении в группе коров с нормальной продолжительностью лактации существенно выше. Этот вывод точный, чем полученный на основе двустороннего критерия, так как здесь использована дополнительная информация для обоснования правильности применения одностороннего критерия.

Такой же вывод получим и путем сравнения возможной предельной ошибки двух выборок еа с фактической разницей средних.

Вычислим возможную предельную ошибку разности средних по двум выборкам: є0до = Г010 o /А_2 = 1,86 o 1,87 = 3,48 кг и сравним ее с фактической разницей средних:

Сопоставляя предельную возможную ошибку с фактической разницей средних, можно сделать аналогичный вывод о том, что выдвинутая гипотеза о равенстве средних не согласуется с полученными результатами.

Проверку гипотезы для случая зависимых выборок с равными чисельностями и равными дисперсиями рассмотрим на таком примере.

Да, есть данные выборочного наблюдения по продуктивности коров-матерей и коров-дочерей (табл. 7.3).

Таблица 7.3. Продуктивность коров-матерей и коров-дочерей

Необходимо проверить статистическую гипотезу относительно средней разницы между парами взаимосвязанных наблюдений в генеральной совокупности.

Так как наблюдения двух выборок попарно взаимосвязаны (зависимые выборки), то необходимо сравнивать не разницу между средними, а среднее значение разностей между парами наблюдений (и). Рассмотрим все этапы процедуры проверки гипотезы. 1. Сформулируем нулевую и альтернативную гипотезы:

При такой альтернативе необходимо применить двусторонний критерий.

2. Уровень значимости примем равным а = 0,05.

3. Самым мощным критерием проверки Н0 есть и-критерий Стьюдента.

4. Вычислим среднюю разность

5. Рассчитаем скорректированную дисперсию средней разницы:

6. Определим среднюю ошибку средней разницы:

7. Вычислим фактическое значение-критерия Стьюдента:

8. Установим число степеней свободы, исходя из численности пар взаимосвязанных разниц:

9. Найдем табличное значение Г-критерия Стьюдента при к = 4 и а = 0,05; V. = 2,78 (прил. 3).

10. Сравним фактическое и табличное значение критерия:

Фактическое значение критерия выше табличное. Следовательно, величина средней разницы между надоями двух выборок существенная и нулевая гипотеза отклоняется.

Такие же выводы получим, сравнивая возможную предельную ошибку с фактической средней разницей:

Предельная ошибка показывает, что в результате случайного варьирования средняя разница может достигать 2,4 ц. Фактическая средняя разница выше:

Итак, по результатам исследования можно с высокой степенью вероятности утверждать, что различия в значениях средних удоев коров-матерей и коров-дочерей вероятны.

3. ПРОВЕРКА ГИПОТЕЗЫ О РАВЕНСТВЕ СРЕДНИХ

Используется для проверки предложения о том, что среднее значения двух показателей, представленных выборками, значимо различаются. Существует три разновидности критерия: один – для связанных выборок, и два для несвязных выборок (с одинаковыми и разными дисперсиями). Если выборки не связны, то предварительно нужно проверить гипотезу о равенстве дисперсий, чтобы определить, какой из критериев использовать. Так же как и в случае сравнения дисперсий имеются 2 способа решения задачи, которые рассмотрим на примере.

ПРИМЕР 3. имеются данные о количестве продаж товара в двух городах. Проверить на уровне значимости 0,01 статистическую гипотезу о том, что среднее число продаж товара в городах различно.

23	25	23	22	23	24	28	16	18	23	29	26	31	19
22	28	26	26	35	20	27	28	28	26	22	29

Используем пакет «Анализ данных». В зависимости от типа критерия выбирается один из трех: «Парный двухвыборочный t-тест для средних» - для связных выборок, и «Двухвыборочных t-тест с одинаковыми дисперсиями» или «Двухвыборочных t-тест с разными дисперсиями» - для несвязных выборок. Вызовите тест с одинаковыми дисперсиями, в открывшемся окне в полях «Интервал переменной 1» и «Интервал переменной 2» вводят ссылки на данные (А1-N1 и А2-L2, соответственно), если имеются подписи данных, то ставят флажок у надписи «Метки» (у нас их нет, поэтому флажок не ставится). Далее вводят уровень значимости в поле «Альфа» - 0,01. Поле «Гипотетическая средняя разность» оставляют пустыми. В разделе «Параметры вывода» ставят метку около «Выходной интервал» и поместив курсор в появившемся поле напротив надписи, щелкают левой кнопкой в ячейке В7. вывод результата будет осуществляться начиная с этой ячейки. Нажав на «ОК» появляется таблица результата. Сдвиньте границу между столбцами В и С, С и D, D и Е увеличив ширину столбцов В, С и D так, чтобы умещались все надписи. Процедура выводит основные характеристики выборки, t-статистику, критические значения этих статистик и критические уровни значимости «Р(Т<=t) одностороннее» и «Р(Т<=t) двухстороннее». Если по модулю t-статистика меньше критического, то средние показатели с заданной вероятностью равны. В нашем случае│-1,784242592│ < 2,492159469, следовательно, среднее число продаж значимо не отличается. Следует отметить, что если взять уровень значимости α=0,05, то результаты исследования будут совсем иными.

Двухвыборочный t-тест с одинаковыми дисперсиями


Среднее	23,57142857	26,41666667
Дисперсия	17,34065934	15,35606061
Наблюдения	14	12
Объединенная дисперсия	16,43105159
Гипотетическая разность средних	0
df	24
t-статистика	-1,784242592
P(T<=t) одностороннее	0,043516846
t критическое одностороннее	2,492159469
P(T<=t) двухстороннее	0,087033692
t критическое двухстороннее	2,796939498

Лабораторная работа №3

ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Цель: Освоить методы построения линейного уравнения парной регрессии с помощью ЭВМ, научиться получать и анализировать основные характеристики регрессионного уравнения.

Рассмотрим методику построения регрессионного уравнения на примере.

ПРИМЕР. Даны выборки факторов х i и у i . По этим выборкам найти уравнение линейной регрессии ỹ = ах + b. Найти коэффициент парной корреляции. Проверить на уровне значимости а = 0,05 регрессионную модель на адекватность.

Х	0	1	2	3	4	5	6	7	8	9
Y	6,7	6,3	4,4	9,5	5,2	4,3	7,7	7,1	7,1	7,9

Для нахождения коэффициентов a и b уравнения регрессии служат функции НАКЛОН и ОТРЕЗОК, категории «Статистические». Вводим в А5 подпись «а=» а в соседнюю ячейку В5 вводим функцию НАКЛОН, ставим курсор в поле «Изв_знач_у» задаем ссылку на ячейки В2-K2, обводя их мышью. Результат 0,14303. Найдем теперь коэффициент b. Вводим в А6 подпись «b=», а в В6 функцию ОТРЕЗОК с теми же параметрами, что и функции НАКЛОН. Результат 5,976364. следовательно, уравнение линейной регрессии есть у=0,14303х+5,976364.

Построим график уравнения регрессии. Для этого в третью строчку таблицы введем значения функции в заданных точках Х (первая строка) – у(х 1). Для получения этих значений используются функция ТЕНДЕНЦИЯ категории «Статистические». Вводим в А3 подпись «Y(X) и, поместив курсор в В3, вызываем функцию ТЕНДЕНЦИЯ. В полях «Изв_знач_у» и «Изв_знач_х» даем ссылку на В2-K2 и В1-K1. в поле «Нов_знач_х» вводим также ссылку на В1-K1. в поле «Константа» вводят 1, если уравнение регрессии имеет вид y=ax+b, и 0, если у=ах. В нашем случае вводим единицу. Функция ТЕНДЕНЦИЯ является массивом, поэтому для вывода всех ее значений выделяем область В3-K3 и нажимаем F2 и Ctrl+Shift+Enter. Результат – значения уравнения регрессии в заданных точках. Строим график. Ставим курсор в любую свободную клетку, вызываем мастер диаграмм, выбираем категорию «Точеная», вид графика – линия без точек (в нижнем правом углу), нажимаем «Далее», в поле «Диагноз» вводим ссылку на В3-K3. переходим на закладку «Ряд» и в поле «Значения Х» вводим ссылку на В1-K1, нажимаем «Готово». Результат – прямая линия регрессии. Посмотрим, как различаются графики опытных данных и уравнения регрессии. Для этого ставим курсор в любую свободную ячейку, вызываем мастер диаграмм, категория «График», вид графика – ломанная линия с точками (вторая сверху левая), нажимаем «Далее», в поле «Диапазон» вводим ссылку на вторую и третью строки В2-K3. переходим на закладку «Ряд» и в поле «Подписи оси Х» вводим ссылку на В1-K1, нажимаем «Готово». Результат – две линии (Синяя – исходные, красная – уравнение регрессии). Видно, что линии мало различаются между собой.

а=	0,14303
b=	5,976364

Для вычисления коэффициента корреляции r xy служит функция ПИРСОН. Размещаем график так, чтобы они располагались выше 25 строки, и в А25 делаем подпись «Корреляция», в В25 вызываем функцию ПИРСОН, в полях которой «Массив 2» вводим ссылку на исходные данные В1-K1 и В2-K2. результат 0,993821. коэффициент детерминации R xy – это квадрат коэффициента корреляции r xy . В А26 делаем подпись «Детерминация», а в В26 – формулу «=В25*В25». Результат 0,265207.

Однако, в Excel существует одна функция, которая рассчитывает все основные характеристики линейной регрессии. Это функция ЛИНЕЙН. Ставим курсор в В28 и вызываем функцию ЛИНЕЙН, категории «Статистические». В полях «Изв_знач_у» и «Изв_знач_х» даем ссылку на В2-K2 и В1-K1. поле «Константа» имеет тот же смысл, что и функции ТЕНДЕНЦИЯ, у нас она равна 1. поле «Стат» должно содержать 1, если нужно вывести полную статистику о регрессии. В нашем случае ставим туда единицу. Функция возвращает массив размеров 2 столбца и 5 строк. После ввода выделяем мышью ячейку В28-С32 и нажимаем F2 и Ctrl+Shift+Enter. Результат – таблица значений, числа в которой имеют следующий смысл:

Коэффициент а	Коэффициент b
Стандартная ошибка m o	Стандартная ошибка m h
Коэффициент детерминации R xy	Среднеквадратическое отклонение у
F – статистика	Степени свободы n-2
Регрессионная сумма квадратов S n 2	Остаточная сумма квадратов S n 2

0,14303	5,976364
0,183849	0,981484
0,070335	1,669889
0,60525	8
1,687758	22,30824

Анализ результата: в первой строчке – коэффициенты уравнения регрессии, сравните их с рассчитанными функциями НАКЛОН и ОТРЕЗОК. Вторая строчка – стандартные ошибки коэффициентов. Если одна из них по модулю больше, чем сам коэффициент, то коэффициент считается нулевым. Коэффициент детерминации характеризует качество связи между факторами. Полученное значение 0,070335 говорит об очень хорошей связи факторов, F – статистика проверяет гипотезу о адекватности регрессионной модели. Данное число нужно сравнить с критическим значением, для его получения вводим в Е33 подпись «F-критическое», а в F33 функцию FРАСПОБР, аргументами которой вводим соответственно «0,05» (уровень значимости), «1» (число факторов Х) и «8» (степени свободы).

F-критическое

5,317655

Видно, что F-статистика меньше, чем F-критическое, значит, регрессионная модель не адекватна. В последней строке приведены регрессионная сумма квадратов и остаточные суммы квадратов . Важно, чтобы регрессионная сумма (объясненная регрессией) была намного больше остаточной (не объясненная регрессией, вызванная случайными факторами). В нашем случае это условие не выполняется, что говорит о плохой регрессии.

Вывод: В ходе работы я освоил методы построения линейного уравнения парной регрессии с помощью ЭВМ, научился получать и анализировать основные характеристики регрессионного уравнения.

Лабораторная работа № 4

НЕЛИНЕЙНАЯ РЕГРЕССИЯ

Цель: освоить методы построения основных видов нелинейных уравнений парной регрессии с помощью с помощью ЭВМ (внутренне линейные модели), научиться получать и анализировать показатели качества регрессионных уравнений.

Рассмотрим случай, когда нелинейные модели с помощью преобразования данных можно свести к линейным (внутренне линейные модели).

ПРИМЕР. Построить уравнение регрессии у = f(х) для выборки х п у п (f = 1,2,…,10). В качестве f(х) рассмотреть четыре типа функций – линейная, степенная, показательная и гиперболу:

у = Ах + В; у = Ах В; у = Ае Вх; у = А/х + В.

Необходимо найти их коэффициенты А и В, и сравнив показатели качества, выбрать функцию, которая наилучшим образом описывает зависимость.

Прибыль Y	0,3	1,2	2,8	5,2	8,1	11,0	16,8	16,9	24,7	29,4
Прибыль X	0,25	0,50	0,75	1,00	1,25	1,50	1,75	2,00	2,25	2,50

Введем данные в таблицу вместе с подписями (ячейки A1-K2). Оставим свободными три строчки ниже таблицы для ввода преобразованных данных, выделим первые пять строк, проведя по левой серой границе по числам от 1 до 5 и выбрать какой-либо цвет (светлый – желтый или розовый) раскрасить фон ячеек. Далее, начиная с A6, выводим параметры линейной регрессии. Для этого в ячейку A6 делаем подпись «Линейная» и в соседнюю ячейку B6 вводим функцию ЛИНЕЙН. В полях «Изв_знач_x» даем ссылку на B2-K2 и B1-K1, следующие два поля принимают значения по единице. Далее обводим область ниже в 5 строчек и левее в 2 строки и нажимаем F2 и Ctrl+Shift+Enter. Результат - таблица с параметрами регрессии, из которых наибольший интерес представляет коэффициент детерминации в первом столбце третий сверху. В нашем случае он равен R 1 = 0,951262. Значение F-критерия, позволяющего проверить адекватность модели F 1 = 156,1439

(четвертая строка, первый столбец). Уравнение регрессии равно

y = 12,96 x +6,18 (коэффициенты a и b приведены в ячейках B6 и C6).

Линейная	12,96	-6,18
	1,037152	1,60884
	0,951262	2,355101
	156,1439	8
	866,052	44,372

Определим аналогичные характеристики для других регрессий и в результате сравнения коэффициентов детерминации найдем лучшую регрессионную модель. Рассмотрим гиперболическую регрессию. Для ее получения преобразуем данные. В третьей строке в ячейку A3 введем подпись «1/x» а в ячейку B3 введем формулу «=1/B2». Растянем автозаполнением данную ячейку на область B3-K3. Получим характеристики регрессионной модели. В ячейку А12 введем подпись «Гипербола», а в соседнюю функцию ЛИНЕЙН. В полях «Изв_знач_y» и «Изв_знач_x2 даем ссылку на B1-K1 и преобразованные данные аргумента x – B3-K3, следующие два поля принимают значения по единице. Далее обводим область ниже 5 строчек и левее в 2 строки и нажимаем F2 и Ctrl+Shift+Enter. Получаем таблицу параметров регрессии. Коэффициент детерминации в данном случае равен R 2 = 0,475661, что намного хуже, чем в случае линейной регрессии. F-статистика равна F 2 = 7,257293. Уравнение регрессии равно y = -6,25453x 18,96772 .

Гипербола	-6,25453	18,96772
	2,321705	3,655951
	0,475661	7,724727
	7,257293	8
	433,0528	477,3712

Рассмотрим экспоненциальную регрессию. Для ее линеаризации получаем уравнение , где ỹ = ln y, ã = b, = ln a. Видно, что надо сделать преобразование данных – y заменить на ln y. Ставим курсор в ячейку А4 и делаем заголовок «ln y». Ставим курсор в В4 и вводим формулу LN (категория «Математические»). В качестве аргумента делаем ссылку на В1. Автозаполнением распространяем формулу на четвертую строку на ячейки В4-K4. Далее в ячейке F6 задаем подпись «Экспонента» и в соседней G6 вводим функцию ЛИНЕЙН, аргументами которой будут преобразованные данные В4-K4 (в поле «Изв_знач_ y»), а остальные поля такие же как и для случая линейной регрессии (B2-K2, 1, 1). Далее обводим ячейки G6-H10 и нажимаем F2 и Ctrl+Shift+Enter. Результат R 3 = 0,89079, F 3 = 65,25304, что говорит об очень хорошей регрессии. Для нахождения коэффициентов уравнения регрессии b = ã; ставим курсор в J6 и делаем заголовок «а=», а в соседней К6 формулу «=ЕХР(Н6)», в J7 даем заголовок «b=», а в К7 формулу «=G6». Уравнение регрессии есть y = 0,511707· e 6,197909 x .

Экспонента	1,824212	-0,67	a=	0,511707
	0,225827	0,350304	b=	6,197909
	0,89079	0,512793
	65,25304	8
	17,15871	2,103652

Рассмотрим степенную регрессию. Для ее линеаризации получаем уравнение ỹ = ã, где ỹ = ln y, = ln x, ã = b, = ln a. Видно, что надо сделать преобразование данных – y заменить на ln y и x заменить на ln x. Строчка с ln y у нас уже есть. Преобразуем переменные х. В ячейку А5 даем подпись «ln x», а в В5 и вводим формулу LN (категория «Математические»). В качестве аргумента делаем ссылку на В2. Автозаполнением распространяем формулу на пятую строку на ячейки B5-K5. Далее в ячейке F12 задаем подпись «Степенная» и в соседней G12 вводим функцию ЛИНЕЙН, аргументами которой будут преобразованные данные B4-K4 (в поле «Изв_знач_у»), и B5-K5 (в поле «Изв_знач_х»), остальные поля – единицы. Далее освободим ячейки G12-H16 и нажимаем F2 и Ctrl+Shift+Enter. Результат R 4 = 0,997716, F 4 = 3494,117, что говорит об хорошей регрессии. Для нахождения коэффициентов уравнения регрессии b = ã; ставим курсор в J12 и делаем заголовок «а=», а в соседней К12 формулу «=ЕХР(Н12)», в J13 даем заголовок «b=», а в К13 формулу «=G12». Уравнение регрессии есть у = 4,90767/х+ 7,341268.

Степенная	1,993512	1,590799	a=	4,90767
	0,033725	0,023823	b=	7,341268
	0,997716	0,074163
	3494,117	8
	19,21836	0,044002

Проверим, все ли уравнения адекватно описывают данные. Для этого нужно сравнить F-статистики каждого критерия с критическим значением. Для его получения вводим в А21 подпись «F-критическое», а в В21 функцию FРАСПОБР, аргументами которой вводим соответственно «0,05» (уровень значимости), «1» (число факторов Х в строке «Уровень значимости 1») и «8» (степень свободы 2 = n – 2). Результат 5,317655. F – критическое больше F – статистики значит модель адекватна. Также адекватны и остальные регрессии. Для того, чтобы определить, какая модель наилучшим образом описывает данные, сравним индексы детерминации для каждой модели R 1 , R 2 , R 3 , R 4 . Наибольшим является R 4 = 0,997716. Значит опытные данные лучше описывать у = 4,90767/х+ 7,341268.

Вывод: В ходе работы я освоил методы построения основных видов нелинейных уравнений парной регрессии с помощью с помощью ЭВМ (внутренне линейные модели), научился получать и анализировать показатели качества регрессионных уравнений.

Y	0,3	1,2	2,8	5,2	8,1	11	16,8	16,9	24,7	29,4
X	0,25	0,5	0,75	1	1,25	1,5	1,75	2	2,25	2,5
1/x	4	2	1,333333	1	0,8	0,666667	0,571429	0,5	0,444444	0,4
ln y	-1,20397	0,182322	1,029619	1,648659	2,0918641	2,397895	2,821379	2,827314	3,206803	3,380995
ln x	-1,38629	-0,69315	-0,28768	0	0,2231436	0,405465	0,559616	0,693147	0,81093	0,916291
Линейная	12,96	-6,18			Экспонента	1,824212	-0,67		a=	0,511707
	1,037152	1,60884				0,225827	0,350304		b=	6,197909
	0,951262	2,355101				0,89079	0,512793
	156,1439	8				65,25304	8
	866,052	44,372				17,15871	2,103652

Гипербола	-6,25453	18,96772			Степенная	1,993512	1,590799		a=	4,90767
	2,321705	3,655951				0,033725	0,023823		b=	7,341268
	0,475661	7,724727				0,997716	0,074163
	7,257293	8				3494,117	8
	433,0528	477,3712				19,21836	0,044002
F - критическое	5,317655

Лабораторная работа № 5

ПОЛИНОМИНАЛЬНАЯ РЕГРЕССИЯ

Цель: По опытным данным построить уравнение регрессии вида у = ах 2 + bх + с.

ХОД РАБОТЫ:

Рассматривается зависимость урожайности некоторой культуры у i от количества внесенных в почву минеральных удобрений х i . Предполагается, что эта зависимость квадратичная. Необходимо найти уравнение регрессии вида ỹ = ах 2 + bx + c.

x	0	1	2	3	4	5	6	7	8	9
y	29,8	58,8	72,2	101,5	141	135,1	156,6	181,7	216,6	208,2

Введем эти данные в электронную таблицу вместе с подписями в ячейки А1-K2. Построим график. Для этого обведем данные Y (ячейки В2-K2), вызываем мастер диаграмм, выбираем тип диаграммы «График», вид диаграммы – график с точками (второй сверху левый), нажимаем «Далее», переходим на закладку «Ряд» и в поле «Подписи оси Х» делаем ссылку на В2-K2, нажимаем «Готово». График можно приблизить полиномом 2 степени у = ах 2 + bх + с. Для нахождения коэффициентов a, b, c нужно решить систему уравнений:

Рассчитаем суммы. Для этого в ячейку А3 вводим подпись «Х^2», а в В3 вводим формулу «= В1*В1» и Автозаполнением переносим ее на всю строку В3-K3. В ячейку А4 вводим подпись «Х^3», а в В4 формулу «=В1*В3» и Автозаполнением переносим ее на всю строку В4-K4. В ячейку А5 вводим «Х^4», а в В5 формулу «=В4*В1», автозаполняем строку. В ячейку А6 вводим «Х*Y», а в В8 формулу «=В2*В1», автозаполняем строку. В ячейку А7 вводим «Х^2*Y», а в В9 формулу «=В3*В2», автозаполняем строку. Теперь считаем суммы. Выделяем другим цветом столбец L, щелкнув по заголовку и выбрав цвет. В ячейку L1 помещаем курсор и щелкнув по кнопке автосуммы со значком ∑, вычисляем сумму первой строки. Автозаполнением переносим формулу на ячейки L1-710.

Решаем теперь систему уравнений. Для этого вводим основную матрицу системы. В ячейку А13 вводим подпись «А=», а в ячейки матрицы В13-D15 вводим ссылки, отраженные в таблице

	B	C	D
13	=L5	=L4	=L3
14	=L3	=L2	=L1
15	=L2	=L1	=9

Вводим также правые части системы уравнений. В G13 вводим подпись «В=», а в Н13-Н15 вводим, соответственно ссылки на ячейки «=L7», «=L6», «=L2». Решаем систему матричным методом. Из высшей математики известно, что решение равно А -1 В. Находим обратную матрицу. Для этого в ячейку J13 вводим подпись «А обр.» и, поставив курсор в K13 задаем формулу МОБР (категория «Математические»). В качестве аргумента «Массив» даем ссылку на ячейки В13:D15. Результатом также должна быть матрица размером 4×4. Для ее получения обводим ячейки K13-М15 мышью, выделяя их и нажимаем F2 и Ctrl+Shift+Enter. Результат – матрица А -1 . Найдем теперь произведение этой матрицы на столбец В (ячейки Н13-Н15). Вводим в ячейку А18 подпись «Коэффициенты» и в В18 задаем функцию МУМНОЖ (категория «Математические»). Аргументами функции «Массив 1» служит ссылка на матрицу А -1 (ячейки K13-М15), а в поле «Массив 2» даем ссылку на столбец В (ячейки Н13-Н16). Далее выделяем В18-В20 и нажимаем F2 и Ctrl+Shift+Enter. Получившийся массив – коэффициенты уравнения регрессии a, b, c. В результате получаем уравнение регрессии вида: у = 1,201082х 2 – 5,619177х + 78,48095.

Построим графики исходных данных и полученных на основе уравнения регрессии. Для этого в ячейку А8 вводим подпись «Регрессия» и в В8 вводим формулу «=$В$18*В3+$В$19*В1+$В$20». Автозаполнением переносим формулу в ячейки В8-K8. Для построения графика выделяем ячейки В8-K8 и, удерживая клавишу Ctrl, выделяем также ячейки В2-М2. Вызываем мастера диаграмм, выбираем тип диаграммы «График», вид диаграммы – график с точками (второй сверху левый), нажимаем «Далее», переходим на закладку «Ряд» и в поле «Подписи оси Х» делаем ссылку на В2-М2, нажимаем «Готово». Видно, что кривые почти совпадают.

ВЫВОД: в процессе работы я по опытным данным научился строить уравнение регрессии вида у = ах 2 + bх + с.

Эмпирической плотности распределения случайной анализируемой величины и расчёт её характеристик Определяем размах имеющихся данных, т.е. разности между наибольшим и наименьшим выборочным значениями (R = Xmax – Xmin): Выбор числа интервалов группировки k при числе наблюдений n<100 – ориентировочное значение интервалов можно рассчитать с использованием формулы Хайнхольда и Гаеде: ...

Данных, можно достоверно судить о статистических связях, существующих между переменными величинами, которые исследуют в данном эксперименте. Все методы математико-статистического анализа условно делятся на первичные и вторичные. Первичными называют методы, с помощью которых можно получить показатели, непосредственно отражающие результаты производимых в эксперименте измерений. Соответственно под...

Процессоры общего назначения (например, в Еxcеl, Lоtus 1-2-3 и т.д.), а также в некоторые базы данных. Западные статистические пакеты (SРSS,SAS,BMDР и т.д.) имеют следующие возможности: Позволяют обрабатывать гигантские объемы данных. Включают средства описания задач на встроенном языке. Дают возможность построения на их основе систем обработки информации для целых предприятий. Позволяют...

Курса массажа и в течение 1-2 месяцев после него. 1.2 Формы лечебного массажа Форма воздействия лечебного массажа делится на общую и частную. Эти формы характерны для всех видов и методов массажа. Как частный, так и общий массаж может выполняться массажистом в виде взаимного массажа, парного или самомассажа . 1.2.1 Общий массаж Общим называется такой сеанс массажа (независимо от...

x	0		1		2	3	4	5	6	7	8	9
y	29,8		58,8		72,2	101,5	141	135,1	156,6	181,7	216,6	208,2
X^2	0		1		4	9	16	25	36	49	64	81
X^3	0		1		8	27	64	125	216	343	512	729
X^4	0		1		16	81	256	625	1296	2401	4096	6561
X*Y	0		58,8		144,4	304,5	564	675,5	939,6	1271,9	1732,8	1873,8
X^2*Y	0		58,8		288,8	913,5	2256	3377,5	5637,6	8903,3	13862,4	16864,2
Регресс.	78,48095		85,30121		94,52364	106,1482	120,175	136,6039	155,435	176,6682	200,3036	226,3412
A=	15333		2025		285	B=	52162,1		A Обр.	0,003247	-0,03247	0,059524
	2025		285		45		7565,3			-0,03247	0,341342	-0,67857
	285		45		9		1301,5			0,059524	-0,67857	1,619048
Коэффиц.		1,201082		a
		5,619177

Рассмотрим использование MS EXCEL при проверке статистических гипотез о среднем значении распределения в случае неизвестной дисперсии. Вычислим тестовую статистику t 0 , рассмотрим процедуру «одновыборочный t -тест», вычислим Р-значение (Р- value ).

Материал данной статьи является продолжением статьи . В указанной статье даны основные понятия проверки гипотез (нулевая и альтернативная гипотезы, тестовые статистики, эталонное распределение, Р-значение и др. ).

СОВЕТ : Для проверки гипотез потребуется знание следующих понятий:

, и их .

Формулировка задачи. Из генеральной совокупности имеющей с неизвестным μ (мю) и неизвестной дисперсией взята выборка размера n. Необходимо проверить статистическую гипотезу о равенстве неизвестного μ заданному значению μ 0 (англ. Inference on the mean of a population, variance unknown).

Примечание : Требование о нормальности исходного распределения, из которого берется выборка , не является обязательным. Но, необходимо, чтобы были выполнены условия применения .

Сначала проведем проверку гипотезы , используя доверительный интервал , а затем с помощью процедуры t -тест. В конце вычислим Р-значение и также используем его для проверки гипотезы .

Пусть нулевая гипотеза Н 0 утверждает, что неизвестное среднее значение распределения μ равно μ 0 . Соответствующая альтернативная гипотеза Н 1 утверждает обратное: μ не равно μ 0 . Это пример двусторонней проверки , т.к. неизвестное значение может быть как больше, так и меньше μ 0 .

Если упрощенно, то проверка гипотезы заключается в сравнении 2-х величин: вычисленного на основании выборки среднего значения Х ср и заданного μ 0 . Если эти значения «отличаются больше, чем можно было бы ожидать исходя из случайности», то нулевую гипотезу отклоняют.

Поясним фразу «отличаются больше, чем можно было бы ожидать исходя из случайности». Для этого, вспомним, что распределение Выборочного среднего (статистика Х ср ) стремится к нормальному распределению со средним значением μ и стандартным отклонением равным σ/√n, где σ – стандартное отклонение распределения, из которого берется выборка (не обязательно нормальное ), а n – объем выборки (подробнее см. ).

К сожалению, в нашем случае дисперсия а, значит, и стандартное отклонение , неизвестны, поэтому вместо нее мы будем использовать ее оценку - s 2 и, соответственно, стандартное отклонение выборки s.

Известно, что если вместо неизвестной дисперсии распределения σ 2 мы используем дисперсию выборки s 2 , то распределением статистики Х ср является с n-1 степенью свободы .

Таким образом, знание распределения статистики Х ср и заданного , позволяют нам формализовать с помощью математических выражений фразу «отличаются больше, чем можно было бы ожидать исходя из случайности».

В этом нам поможет доверительный интервал (как строится доверительный интервал нам известно из статьи ). Если среднее выборки попадает в доверительный интервал, построенный относительно μ 0 , то для отклонения нулевой гипотезы оснований нет. Если не попадает, то нулевая гипотеза отвергается.

Воспользуемся выражением для Доверительного интервала , которое мы получили в статье .

Напомним, что доверительный интервал обычно определяют через количество стандартных отклонений , которые в нем укладываются. В нашем случае в качестве стандартного отклонения берется стандартная ошибка s/√n.

Количество стандартных отклонений зависит от количества степеней свободы используемого t-распределения и уровня значимости α (альфа) .

Для визуализации проверки гипотезы методом доверительного интервала в создана .

Примечание : Перечень статей о проверке гипотез приведен в статье .

t-тест

Ниже приведем процедуру проверки гипотезы в случае неизвестной дисперсии . Данная процедура имеет название t -тест :

В MS EXCEL верхний α /2-квантиль вычисляется по формуле
=СТЬЮДЕНТ.ОБР(1-α /2; n-1)

Учитывая симметричность t-распределения относительно оси ординат, верхний α /2-квантиль равен обычному α /2-квантилю со знаком минус:
=-СТЬЮДЕНТ.ОБР(α /2; n-1)

Также в MS EXCEL имеется специальная формула для вычисления двухсторонних квантилей :
=СТЬЮДЕНТ.ОБР.2Х(α ; n-1)
Все три формулы вернут один и тот же результат.

Примечание : Подробнее про квантили распределения можно прочитать в статье .

Примечание : Если вместо t-распределения использовать стандартное нормальное распределение, то мы получим необоснованно более узкий доверительный интервал , тем самым мы будем чаще необоснованно отвергать нулевую гипотезу , когда она справедлива (увеличим ошибку первого рода ).

Отметим, что различие в ширине интервалов зависит от размера выборки n (при уменьшении n различие увеличивается) и от уровня значимости (при уменьшении α различие увеличивается). Для n=10 и α = 0,01 относительная разница в ширине интервалов составляет порядка 20%. При большом размере выборки n (>30), различием в интервалах часто пренебрегают (для n=30 и α = 0,01 относительная разница составляет 6,55%). Это свойство используется в функции Z.ТЕСТ() , которая вычисляет р-значение (см. ниже) с использованием нормального распределения (аргумент σ должен быть опущен или указана ссылка на стандартное отклонение выборки ).

В случае односторонней гипотезы речь идет об отклонении μ только в одну сторону: либо больше либо меньше μ 0 . Если альтернативная гипотеза звучит как μ>μ 0 , то гипотеза Н 0 отвергается в случае t 0 > t α ,n-1 . Если альтернативная гипотеза звучит как μ<μ 0 , то гипотеза Н 0 отвергается в случае t 0 < - t α ,n-1 .

Вычисление Р-значения

При проверке гипотез большое распространение также получил еще один эквивалентный подход, основанный на вычислении p -значения (p-value).

СОВЕТ : Подробнее про p -значение написано в статье .

Если p-значение , вычисленное на основании выборки , меньше чем заданный уровень значимости α , то нулевая гипотеза отвергается и принимается альтернативная гипотеза . И наоборот, если p-значение больше α , то нулевая гипотеза не отвергается.

Другими словами, если p-значение меньше уровня значимости α , то это свидетельство того, что значение t -статистики , вычисленное на основе выборки при условии истинности нулевой гипотезы , приняло маловероятное значение t 0 .

Формула для вычисления p-значения зависит от формулировки альтернативной гипотезы :

Для односторонней гипотезы μ<μ 0 p-значение вычисляется как =СТЬЮДЕНТ.РАСП(t 0 ; n-1; ИСТИНА)
Для другой односторонней гипотезы μ>μ 0 p-значение вычисляется как =1-СТЬЮДЕНТ.РАСП(t 0 ; n-1; ИСТИНА)
Для двусторонней гипотезы p-значение вычисляется как =2*(1-СТЬЮДЕНТ.РАСП(ABS(t 0);n-1;ИСТИНА))

Соответственно, t 0 =(СРЗНАЧ(выборка )-μ 0)/ (СТАНДОТКЛОН.В(выборка )/ КОРЕНЬ(СЧЁТ(выборка ))) , где выборка – ссылка на диапазон, содержащий значения выборки .

В файле примера на листе Сигма неизвестна показана эквивалентность проверки гипотезы через доверительный интервал , статистику t 0 (t -тест) и p -значение .

Примечание : В MS EXCEL нет специализированной функции для одновыборочного t-теста . При больших n можно использовать функцию Z.ТЕСТ() с опущенным 3-м аргументом (подробнее про эту функцию см. статью ). Функция СТЬЮДЕНТ.ТЕСТ() предназначена для .

Проверка равенства среднего определенному значению.

Выборки извлечены из совокупности, имеющей нормальное распределение, данные независимы.

Критериальное значение вычисляется по формуле:

где N - размер выборки;

S 2 - эмпирическая дисперсия выборки;

А - предполагаемая величина среднего значения;

X- среднее значение.

Число степеней свободы для t-критерия V = n-1.

Нулевая гипотеза

Н 0: X = А против Н А: X≠А. Нулевая гипотеза о равенстве средних отвергается, если по абсолютной величине критериальное значение больше верхней α/2 % точки t-распределения взятого с V степенями свободы, то есть при │t│> t vα/2 .

Н 0: Х< А против Н А: X > А. Нулевая гипотеза отвергается, если критериальное значение больше верхней α% точки t-распределения взятого с V степенями свободы, то есть при │t│> t vα .

Н 0: Х>А против H А: X < А. Нулевая гипотеза отвергается, если критериальное значение меньше нижней α% точки t-распределения, взятого с V степенями свободы.

Критерий устойчив при малых отклонениях от нормального распределения.

Пример

Рассмотрим пример, представленный на рис. 5.10. Допустим, что нам необходимо проверить гипотезу о равенстве среднего для выборки (ячейки 123:130) величине 0,012.

Сначала находим среднее выборки (=СРЗНАЧ(123:130) в I31) и дисперсию (=ДИСП(I23:I30) в I32). После этого рассчитываем критериальное (=(131-0,012)*КОРЕНЬ(133)/132) и критическое (=СТЬЮДРАСПОБР(0,025;133-1)) значения. Поскольку критериальное значение (24,64) больше критического (2,84), то гипотеза о равенстве среднего 0,012 отвергается.

Рисунок 5.10 Сравнение среднего значения с константой

1. проверить гипотезы о средних и дисперсиях с помощью параметрических критериев Фишера и Кохрена (таблица 5.4);

2. проверить гипотезу о равенстве средних при неравных дисперсиях выборок (для этого в одной из выборок своего варианта убрать 1 или 2 значения) (таблица 5.4);

3. проверить гипотезу о равенстве среднего заданному значению А (таблица 5.5) и данные из 1-го столбца по варианту.

Таблица 5.4

Варианты заданий

Данные эксперимента
Вариант

2,3	2,6			2,2	2,1			2,5	2,6
1,20	1,42	17,3	23,5	2,37	2,85	35,2	26,1	2,1	2,6
5,63	5,62	26,1	27,0	5,67	2,67	35,9	25,8	5,1	5,63
2,34	2,37	23,9	23,3	2,35	2,34	33,6	23,8	2,34	2,38
7,71	7,90	28,0	25,2	2,59	2,58	35,7	26,0	7,63	7,6,1
1,2	1,6			1,7	2,6			1,9	2,8
1,13	1,15	21,6	21,2	2,13	2,16	31,7		1,12	1,12
1,45	1,47	24,7	24,8	2,45	2,47	34,8	24,5	1,49	1,45
3,57	3,59	25,9	25,7	2,55	2,59	36,0	25,7	3,58	3,58
3,3	3,6			2,5	2,4			3,4	3,5
Данные эксперимента
Вариант

7,3	7,6			12,2	12,1			3,5	4,6
6,20	6,42	217,3	230,5	12,37	12,85	75,2	86,1	3,1	4,6
7,63	5,62	264,1	278,0	15,67	14,67	75,9	75,8	5,1	5,63
6,34	5,37	233,9	236,3	12,35	12,34	73,6	73,8	3,34	4,38
7,71	7,90	281,0	255,2	12,59	12,58	85,7	86,0	3,63	4,6,1
6,2	6,6			11,7	12,6			3,9	4,8
4,13	4,15	251,6	261,2	12,13	12,16	71,7		5,12	4,12
5,45	6,47	244,7	247,8	12,45	12,47	74,8	84,5	3,49	4,45
5,57	5,59	250,9	255,7	12,55	12,59	86,0	85,7	3,58	3,58
5,3	5,6			12,5	12,4			3,4	3,5

Таблица 5.5

Значение А

Варианты

2,2	2,2	2,2	6,5	12,2	3,5

В качестве исходных данных в задании можете использовать свои экспериментальные данные.

Отчет должен содержать расчеты статистических характеристик.

Контрольные вопросы:

1. Какие статистические задачи решаются при исследовании технологических процессов производства пищевой промышленности?

2. Каким образом сравниваются статистические характеристики случайных величин?

3. Уровень значимости и доверительная вероятность при достоверности оценки экспериментальных данных.

4. Как осуществляется проверка статистических гипотез с помощью критериев согласия?

5. От чего зависит мощность критерия согласия для анализа экспериментальных выборок?

6. Каким образом осуществояется подбор критерия для решения задач анализа технологических процессов производства пищевых продуктов?

7. Каким образом осуществляется классификация критериев согласия для анализа выборок результатов исследований технологических процессов производства пищевых продуктов?

8. Какие требования предъявляются к выборкам резльтатов исследований технологических процессов производства пищевых продуктов?

8.1. Понятие зависимых и независимых выборок.

Выбор критерия для проверки гипотезы

в первую очередь определяется тем, являются ли рассматриваемые выборки зависимыми или независимыми. Введем соответствующие определения.

Опр. Выборки называются независимыми , если процедура отбора единиц в первую выборку никак не связана с процедурой отбора единиц во вторую выборку.

Примером двух независимых выборок могут служить обсуждавшиеся выше выборки мужчин и женщин, работающих на одном предприятии (в одной отрасли и т.д.).

Заметим, что независимость двух выборок отнюдь не означает отсутствие требования определенного рода сходства этих выборок (их однородности). Так, изучая уровень дохода мужчин и женщин, мы вряд ли допустим такую ситуацию, когда мужчины отбираются из среды московских бизнесменов, а женщины – из аборигенов Австралии. Женщины тоже должны быть москвичками и, более того – «бизнесвуменшами». Но здесь мы говорим не о зависимости выборок, а о требовании однородности изучаемой совокупности объектов, которое должно удовлетворяться и при сборе, и при анализе социологических данных.

Опр. Выборки называются зависимыми, или парными, если каждая единица одной выборки «привязывается» к определенной единице второй выборки.

Последнее определение, вероятно, станет более ясным, если мы приведем пример зависимых выборок.

Предположим, что мы хотим выяснить, является ли социальный статус отца в среднем ниже социального статуса сына (полагаем, что мы можем измерить эту сложную и неоднозначно понимаемую социальную характеристику человека). Представляется очевидным, что в такой ситуации целессобразно отбрать пары респондентов (отец, сын) и считать, что каждый элемент первой выборки (один из отцов) «привязан» к определенному элементу второй выборки (своему сыну). Эти две выборки и будут называться зависимыми.

8.2. Проверка гипотезы для независимых выборок

Для независимых выборок выбор критерия зависит от того, знаем ли мы генеральные дисперсии s 1 2 и s 2 2 рассматриваемого признака для изучаемых выборок. Будем считать эту проблему решенной, полагая, что выборочные дисперсии совпадают с генеральными. В таком случае в качестве критерия выступает величина:

Прежде, чем переходить к обсуждению той ситуации, когда генеральные дисперсии (или хотя бы одна из них) нам неизвестны, заметим следующее.

Логика использования критерия (8.1) похожа на ту, которая была описана нами при рассмотрении критерия “Хи-квадрат” (7.2). Имеется лишь одно принципиальное отличие. Говоря о смысле критерия (7.2), мы рассматривали бесконечное количество выборок объема n, «черпающихся» из нашей генеральной совокупности. Здесь же, анализируя смысл критерия (8.1), мы переходим к рассмотрению бесконечного количества пар выборок объемом n 1 и n 2 . Для каждой пары и рассчитывается статистика вида (8.1). Совокупности получаемых значений таких статистик, в соответствии с нашими обозначениями, отвечает нормальное распределение (как мы условились, буква z используется для обозначения такого критерия, которому отвечает именно нормальное распределение).

Итак, если генеральные дисперсии нам неизвестны, то мы вынуждены вместо них пользоваться их выборочными оценками s 1 2 и s 2 2 . Однако при этом нормальное распределение должно замениться на распределение Стьюдента – z должно замениться на t (как это имело место в аналогичной ситуации при построения доверительного интервала для математического ожидания). Однако при достаточно больших объемах выборок (n 1 , n 2 ³ 30) , как мы уже знаем, распределение Стьюдента практически совпадает с нормальным. Другими словами, при больших выборках мы можем продолжать пользоваться критерием:

Сложнее обстоит дело с такой ситуацией, когда и дисперсии неизвестны, и объем хотя бы одной выборки мал. Тогда вступает в силу еще один фактор. Вид критерия зависит от того, можем ли мы считать неизвестные нам дисперсии рассматриваемого признака в двух анализируемых выборках равными. Для выяснения этого надо проверить гипотезу:

H 0: s 1 2 = s 2 2 . (8.3)

Для проверки этой гипотезы используется критерий

О специфике использования этого критерия пойдет речь ниже, а сейчас продолжим обсуждать алгоритм выбора критерия, использующего для проверки гипотез о равенстве математических ожиданий.

Если гипотеза (8.3) отвергается, то интересующий нас критерий приобретает вид:

(8.5)

(т.е. отличается от критерия (8.2), использовавшегося при больших выборках, тем, что соответствующая статистика имеет не нормальное распределение, а распределение Стьюдента). Если гипотез (8.3) принимается, то вид используемого критерия меняется:

(8.6)

Подведем итог того, как выбирается критерий для проверки гипотезы о равенстве генеральных математических ожиданий на основе анализа двух независимых выборок.

известны

неизвестны

размер выборок большой

H 0: s 1 = s 2 отвергается

Принимается

8.3. Проверка гипотезы для зависимых выборок

Перейдем к рассмотрению зависимых выборок. Пусть последовательности чисел

X 1 , X 2 , … , X n ;

Y 1 , Y 2 , … , Y n –

это значения рассматриваемой случайной для элементов двух зависимых выборок. Введем обозначение:

D i = X i - Y i , i = 1, ... , n.

Для зависимых выборок критерий, позволяющий проверять гипотезу

выглядит следующим образом:

Заметим, что только что приведенное выражение для s D есть не что иное, как новое выражение для известной формулы, выражающей среднее квадратическое отклонение. В данном случае речь идет о среднем квадратическом отклонении величин D i . Подобная формула часто используется на практике как более простой (по сравнению с «лобовым» подсчетом суммы квадратов отклонений значений рассматриваемой величины от соответствующего среднего арифметического) способ расчета дисперсии.

Если сравнить приведенные формулы с теми, которые мы использовали при обсуждении принципов построения доверительного интервала, нетрудно заметить, что проверка гипотезы о равенстве средних для случая зависимых выборок по существу является проверкой равенства нулю математического ожидания величин D i . Величина

есть среднее квадратическое отклонение для D i . Поэтому значение только что описанного критерия t n -1 по существу равно величине D i , выраженной в долях среднего квадратического отклонения. Как мы говорили выше (при обсуждении способов построения доверительных интервалов), по такому показателю можно судить о вероятности рассматриваемого значения D i . Отличие состоит в том, что выше шла речь о простом среднем арифметическом, распределенном нормально, а здесь – о средних разностей, такие средние имеют распределение Стьюдента. Но рассуждения о взаимосвязи вероятности отклонения выборочного среднего арифметического от нуля (при математическом ожидании, равном нулю) с тем, сколько единиц s это отклонение составляет, остаются в силе.