Перевірка статистичних гіпотез про рівність середніх. Перевірка гіпотези рівності середніх двох вибірок (t – критерій)

Серед найважливіших узагальнюючих характеристик, щодо яких найчастіше висуваються гіпотези, є середня величина. З метою перевірки гіпотези про рівність середніх у генеральної сукупностінеобхідно сформулювати нульову гіпотезу. При цьому зазвичай виходять з того, що обидві вибірки взяті з нормально розподіленої генеральної сукупності з математичним очікуванням, рівним Xі з дисперсією, що дорівнює с0 . Якщо це припущення вірне, то х1 - х2 ~ х. Фактично ж середні вибіркові Х1 і Х2 не будуть рівні через випадковість вибірки. Тому потрібно з'ясувати суттєвість відмінностей між х1 х2 - чи є їх різниця в межах можливої ​​випадкової варіації або вона виходить за ці межі. Тоді завдання перевірки гіпотези зводиться до перевірки суттєвості відмінності

Кожна середня вибіркова має свою помилку /і:

Визначивши дисперсії та середню помилкувибіркових середніх, можна обчислити фактичне значення І-критерію та порівняти його з критичним (табличним) значенням при відповідному рівні значущості та кількості ступенів свободи варіації (для вибірок з чисельністю п > 30 використовується і-критерій нормального розподілу, а для вибірок з чисельністю п< 30 - и-критерий Стьюдента).

Фактичне значення і-критерію визначається за формулою

Якщо вибіркове значення критерію потрапляє в критичну область (іфакі> О, нульова гіпотеза про рівність середніх відхиляється; якщо ж вибіркове значення критерію потрапляє в область допустимих значень (Іфакг)< їа), нулевая гипотеза принимается.

Нульова гіпотеза про рівність середніх у двох генеральних сукупностях може бути перевірена шляхом порівняння фактичної середньої різниці [єФа,.т = ~~2 ) із граничною випадковою помилкою при заданому рівні значущості (еа). Якщо фактична різниця між вибірковими середніми знаходиться у межах випадкової помилки (єфакт< еа), нулевая гипотеза принимается. Если же фактическая разница между средними выходит за пределы случайной ошибки (еф^т >еа), нульова гіпотеза відхиляється.

При вирішенні конкретних завдань із перевірки статистичних гіпотез щодо середніх необхідно враховувати такі моменти: 1) схему формування вибірок (вибірки незалежні та залежні); 2) рівність чи нерівність обсягів вибірок; 3) рівність чи нерівність дисперсій генеральних сукупностей.

Алгоритм перевірки гіпотези щодо двох середніх дещо змінюється, якщо дисперсії за вибірками (512 та 522) суттєво відрізняються. У цьому випадку при визначенні числа ступенів свободи запроваджується поправка:

Коли ж при нерівних дисперсіях за вибірками, нерівними є і їх чисельності (п1 та п2), табличне значення г-критерію Стьюдента слід розрахувати за формулою

де і1 та і2 - табличні значення Г-критерію Стьюдента, які беруться відповідно до п1- 1 та п2 - 1 ступенями свободи.

Розглянемо приклад перевірки статистичної гіпотези про рівність двох середніх незалежних вибірок рівної чисельності (П1 = П2)і рівними дисперсіями (СГ; 2 =).

Так, є дані щодо живої маси телят при народженні двох груп корів чорно-рябої породи (корови одного віку). Перша група корів мала нормальну тривалість лактації (305 днів), а друга група доїлася протягом 320 днів. До кожної групи увійшло по 5 корів. Дані спостереження наведено у табл. 7.2.

Таблиця 7.2. Жива маса телят при народженні груп корів з різною тривалістю лактації

Зіставлення живих мас телят по двох групах корів показує, що вища жива маса телят спостерігається у корів І групи, які мали нормальну тривалість лактації. Однак у зв'язку з тим, що чисельність вибірок невелика (п = 5), не виключена можливість, що розбіжності між живими масами отримані внаслідок дії випадкових причин.

Необхідно статистично оцінити різницю між середніми за двома групами корів.

За результатами перевірки гіпотези зробити висновок про те, що різниця між середніми лежить у межах випадкових коливань, або ця різниця настільки значна, що не узгоджується з нульовою гіпотезою про випадковий характер відмінностей між середніми.

Якщо буде доведено друге положення та відхилено перше, можна стверджувати, що тривалість лактації впливає на живу масу телят.

Умова завдання передбачає, що обидві вибірки взято з нормально розподіленої генеральної сукупності. Формування груп випадкове (незалежне), тому має оцінюватись різниця між середніми.

Визначимо середню живу масу телят по двох групах корів:

Фактична різниця між середніми становить:

Істотність цієї різниці має бути оцінена. Для цього необхідно перевірити гіпотезу про рівність двох середніх.

Розглянемо докладно усі етапи схеми перевірки гіпотези. 1. Сформулюємо нульову Але та На альтернативну гіпотези:

2. Приймемо рівень значущості а = 0,05, гарантуючи прийняття гіпотези чи відмовитися від неї з ймовірністю помилки лише у 5 випадках зі 100.

3. Найбільш потужним критерієм для перевірки такого роду гіпотези Н0 є і-критерій Стьюдента.

4. Сформулюємо правило ухвалення рішення за результатами

перевірки Н0. Оскільки щодо альтернативної гіпотези х1може бути або менше чи більше х2, то критична область має бути встановлена ​​з двох

сторін: і - ~іа та і - іа, або коротше: іа.

Така форма завдання критерію називається двосторонньою критичною областю.Критична область при а = 0,05 буде утримуватися в межах - всі значення вищі, ніж верхня 2,5% і нижче, ніж 2,5% точки розподілу і-критерію Стьюдента.

З урахуванням сказаного висновки щодо перевірки Н0 можна сформулювати так: гіпотеза Н0 відхиляться, якщо фактичне значення Г-критерію виявиться

більше табличне значення, тобто якщо іфакт > іа. В іншому випадку Ка повинна бути прийнята.

5. Щоб перевірити Н0, потрібно визначити фактичне значення Г-критерію Стьюдента і порівняти його з табличним значенням.

Для визначення фактичного значення Г-критерію Стьюдента виконаємо такі обчислення.

6. Обчислимо за кожною вибіркою скориговані на втрату ступенів свободи варіації дисперсії. Для цього попередньо зведемо у квадрат значення хц і х2і:

7. Розрахуємо квадрати середніх помилок за кожною вибіркою та узагальнену середню помилку різниці середніх:

8. Розрахуємо фактичне значення Г-критерію Стьюдента:

9. Визначимо табличне значення критерію Г-Стьюдента, виходячи з рівня значущості а = 0,05 та числа ступенів свободи для двох вибірок:

За таблицею " Критичні точкирозподілу Стьюдента" (дод. 3) знайдемо і за а = 0,05 і к = 8: і005 = 2,31.

10. Порівняємо фактичне та табличне значення-критерію Стьюдента:

Оскільки іфаккг< и^05 (выборочное значение критерия находится в области допустимых значений), нулевая гипотеза о равенстве средних генеральных совокупностях принимается.

Отже, вплив тривалості лактації на живу масу телят при народженні виявляється недоведеним.

Однак слід звернути увагу на такий суттєвий момент: жива маса телят при народженні у всіх спостереженнях досвіду вище у першій групі корів, які мають нормальну тривалість лактації. Тому замість альтернативної гіпотези нах1 фх2 може бути взята інша. Оскільки немає підстав вважати, що з нормальної тривалості лактації жива маса телят буде нижче, очевидно, що доцільною формою альтернативної гіпотези є: На: х1 > х2.

Тоді критична область, що становить 0,05 всієї площі під кривою розподілу, буде розташована тільки з одного (правого) боку, оскільки від'ємні значенняживих мас вважаються несумісними з умовами завдання. У зв'язку з цим табличне значення-критерію слід визначати при подвоєному значенні рівня значущості (тобто при 2а; іа = 2 o 0,05 = 0,10). Критерій перевірки гіпотези формулюється так: нульова гіпотеза відхиляється, якщо > і2а.

Така форма завдання критичної галузі називається односторонній.Односторонній критерій більш чутливий до помилок другого роду, але його застосування припустимо лише у разі, якщо доведено правомірність цієї альтернативної гіпотези.

Встановимо за таблицями (додаток 3) табличне значення-критерію при а = 0,10 і к = 8, і0Д0 = 1,86.

Отже, під час використання одностороннього критерію нульова гіпотеза відхиляється, тобто. критерій опиниться у критичній ділянці (іфакг > і0д0; 2,14 > 1,86). Таким чином, жива маса телят при народженні групи корів з нормальною тривалістю лактації істотно вище. Цей висновок точний, ніж отриманий на основі двостороннього критерію, оскільки тут використано додаткова інформаціядля обґрунтування правильності застосування одностороннього критерію

Такий самий висновок отримаємо і шляхом порівняння можливої ​​граничної помилки двох вибірок еа з фактичною різницею середніх.

Обчислимо можливу граничну помилкурізниці середніх за двома вибірками: є0до = Г010 o /А_2 = 1,86 o 1,87 = 3,48 кг і порівняємо її з фактичною різницею середніх:

Порівнюючи граничну можливу помилку з фактичною різницею середніх, можна зробити аналогічний висновок про те, що висунута гіпотеза про рівність середніх не узгоджується з отриманими результатами.

Перевірку гіпотези для випадку залежних вибірок з рівними чисельностями та рівними дисперсіями розглянемо на такому прикладі.

Так, є дані вибіркового спостереженняза продуктивністю корів-матерів та корів-дочок (табл. 7.3).

Таблиця 7.3. Продуктивність корів-матерів та корів-дочок

Необхідно перевірити статистичну гіпотезу щодо середньої різниці між парами взаємопов'язаних спостережень у генеральній сукупності.

Оскільки спостереження двох вибірок попарно взаємопов'язані (залежні вибірки), необхідно порівнювати не різницю між середніми, а середнє значення різниці між парами спостережень (и). Розглянемо всі етапи процедури перевірки гіпотези. 1. Сформулюємо нульову та альтернативну гіпотези:

За такої альтернативи необхідно застосувати двосторонній критерій.

2. Рівень значущості приймемо рівним а = 0,05.

3. Найпотужнішим критерієм перевірки Н0 є і-критерій Стьюдента.

4. Обчислимо середню різницю

5. Розрахуємо скориговану дисперсію середньої різниці:

6. Визначимо середню помилку середньої різниці:

7. Обчислимо фактичне значення-критерію Стьюдента:

8. Встановимо кількість ступенів свободи, виходячи з чисельності пар взаємопов'язаних різниць:

9. Знайдемо табличне значення Г-критерію Стьюдента при до= 4 та а = 0,05; V. = 2,78 (дод. 3).

10. Порівняємо фактичне та табличне значення критерію:

Фактичне значення критерію вище табличного. Отже, величина середньої різниці між надоями двох вибірок суттєва та нульова гіпотеза відхиляється.

Такі ж висновки отримаємо, порівнюючи можливу граничну помилку із фактичною середньою різницею:

Гранична помилка показує, що внаслідок випадкового варіювання середня різниця може досягати 2,4 ц. Фактична середня різниця вище:

Отже, за результатами дослідження можна з високим ступенемймовірності стверджувати, що відмінності у значеннях середніх надоїв корів-матерів та корів-дочок можливі.

3. ПЕРЕВІРКА ГІПОТЕЗИ ПРО РІВНІСТЬ СЕРЕДНІХ

Використовується для перевірки пропозиції про те, що середнє значення двох показників, представлених вибірками, значно різняться. Існує три різновиди критерію: один – для пов'язаних вибірок, і два для незв'язних вибірок (з однаковими та різними дисперсіями). Якщо вибірки не зв'язкові, попередньо потрібно перевірити гіпотезу про рівність дисперсій, щоб визначити, який із критеріїв використовувати. Так само як і у разі порівняння дисперсій є 2 способи розв'язання задачі, які розглянемо на прикладі.

ПРИКЛАД 3. є дані про кількість продажів товару у двох містах. Перевірити лише на рівні значимості 0,01 статистичну гіпотезу у тому, що середня кількість продажів товару містах по-різному.

23 25 23 22 23 24 28 16 18 23 29 26 31 19
22 28 26 26 35 20 27 28 28 26 22 29

Використовуємо пакет "Аналіз даних". Залежно від типу критерію вибирається один із трьох: "Парний двовибірковий t-тест для середніх" - для зв'язкових вибірок, і "Двовибіркових t-тест з однаковими дисперсіями" або "Двовибіркових t-тест з різними дисперсіями" - для незв'язних вибірок. Викличте тест з однаковими дисперсіями, у вікні, що відкрилося в полях «Інтервал змінної 1» і «Інтервал змінної 2» вводять посилання на дані (А1-N1 і А2-L2, відповідно), якщо є підписи даних, то ставлять прапорець у напису «Мітки »(у нас їх немає, тому прапорець не ставиться). Далі вводять рівень значущості у полі "Альфа" - 0,01. Поле «Гіпотетична середня різницю» залишають порожніми. У розділі «Параметри виводу» ставлять мітку біля «Вихідний інтервал» і помістивши курсор у полі навпроти напису, клацають лівою кнопкою в комірці В7. висновок результату буде здійснюватися починаючи з цього осередку. Натиснувши на "ОК", з'являється таблиця результату. Посуньте межу між стовпцями В і С, С і D, D і Е збільшивши ширину стовпців В, С і D так, щоб уміщалися всі написи. Процедура виводить основні характеристики вибірки, t-статистику, критичні значення цих статистик та критичні рівні значимості «Р(Т<=t) одностороннее» и «Р(Т<=t) двухстороннее». Если по модулю t-статистика меньше критического, то средние показатели с заданной вероятностью равны. В нашем случае│-1,784242592│ < 2,492159469, следовательно, среднее число продаж значимо не отличается. Следует отметить, что если взять уровень значимости α=0,05, то результаты исследования будут совсем иными.



Двовибірковий t-тест з однаковими дисперсіями

Середнє 23,57142857 26,41666667
Дисперсія 17,34065934 15,35606061
Спостереження 14 12
Об'єднана дисперсія 16,43105159
Гіпотетична різниця середніх 0
df 24
t-статистика -1,784242592
P(T<=t) одностороннее 0,043516846
t критичне одностороннє 2,492159469
P(T<=t) двухстороннее 0,087033692
t критичне двостороннє 2,796939498

Лабораторна робота №3

ПАРНА ЛІНІЙНА РЕГРЕСІЯ

Мета: Освоїти методи побудови лінійного рівняння парної регресії за допомогою ЕОМ, навчитися отримувати та аналізувати основні характеристики регресійного рівняння.

Розглянемо методику побудови регресійного рівняння з прикладу.

ПРИКЛАД. Дано вибірки факторів х i і у i . За цими вибірками знайти рівняння лінійної регресії ỹ = ах + b. Знайти коефіцієнт парної кореляції. Перевірити лише на рівні значимості а = 0,05 регресійну модель адекватність.

Х 0 1 2 3 4 5 6 7 8 9
Y 6,7 6,3 4,4 9,5 5,2 4,3 7,7 7,1 7,1 7,9

Для знаходження коефіцієнтів a і b рівняння регресії служать функції НАКЛОН і ВІДРІЗОК категорії «Статистичні». Вводимо в А5 підпис «а=» а в сусідній осередок В5 вводимо функцію НАКЛОН, ставимо курсор у поле «Изв_знач_у» задаємо посилання на осередки В2-K2, обводячи їх мишею. Результат 0,14303. Знайдемо тепер коефіцієнт b. Вводимо в А6 підпис «b=», а В6 функцію ВІДРІЗОК з тими ж параметрами, що і функції НАКЛОН. Результат 5,976364. отже, рівняння лінійної регресії є у=0,14303х+5,976364.

Побудуємо графік рівняння регресії. Для цього в третій рядок таблиці введемо значення функції у заданих точках Х (перший рядок) - у (х 1). Для отримання цих значень використовують функцію ТЕНДЕНЦІЯ категорії «Статистичні». Вводимо А3 підпис «Y(X) і, помістивши курсор в В3, викликаємо функцію ТЕНДЕНЦІЯ. У полях «Ізв_знач_у» та «Ізв_знач_х» даємо посилання на В2-K2 і В1-K1. у полі «Нов_знач_х» також вводимо посилання на В1-K1. у полі «Константа» вводять 1, якщо рівняння регресії має вигляд y=ax+b, і 0, якщо у=ах. У разі вводимо одиницю. Функція ТЕНДЕНЦІЯ є масивом, тому виведення всіх її значень виділяємо область В3-K3 і натискаємо F2 і Ctrl+Shift+Enter. Результат – значення рівняння регресії у заданих точках. Будуємо графік. Ставимо курсор у будь-яку вільну клітинку, викликаємо майстер діаграм, вибираємо категорію «Точена», вид графіка – лінія без крапок (у нижньому правому кутку), натискаємо «Далі», у полі «Діагноз» вводимо посилання на В3-K3. переходимо на закладку "Ряд" і в полі "Значення Х" вводимо посилання на В1-K1, натискаємо "Готово". Результат – пряма лінія регресії. Подивимося, як розрізняються графіки дослідних даних та рівняння регресії. Для цього ставимо курсор у будь-яке вільне вічко, викликаємо майстер діаграм, категорія «Графік», вид графіка – ламана лінія з точками (друга зверху ліва), натискаємо «Далі», в поле «Діапазон» вводимо посилання на другий і третій рядки В2- K3. переходимо на закладку "Ряд" і в полі "Підписи осі Х" вводимо посилання на В1-K1, натискаємо "Готово". Результат – дві лінії (Синя – вихідні, червона – рівняння регресії). Видно, що лінії мало різняться між собою.

а= 0,14303
b= 5,976364

Для обчислення коефіцієнта кореляції r xy служить функція ПІРСОН. Розміщуємо графік так, щоб вони розташовувалися вище 25 рядка, і в А25 робимо підпис «Кореляція», В25 викликаємо функцію ПІРСОН, в полях якої «Масив 2» вводимо посилання на вихідні дані В1-K1 і В2-K2. результат 0,993821. коефіцієнт детермінації R xy – це квадрат коефіцієнта кореляції r xy. У А26 робимо підпис «Детермінація», а У26 – формулу «=В25*В25». Результат 0,265207.

Однак, у Excel існує одна функція, яка розраховує всі основні характеристики лінійної регресії. Це функція Лінейн. Ставимо курсор у В28 і викликаємо функцію Лінейн, категорії «Статистичні». У полях «Ізв_знач_у» та «Ізв_знач_х» даємо посилання на В2-K2 і В1-K1. поле «Константа» має той самий сенс, що й функції ТЕНДЕНЦІЯ, у нас вона дорівнює 1. поле «Стат» має містити 1, якщо потрібно вивести повну статистику про регресію. У нашому випадку ставимо туди одиницю. Функція повертає масив розмірів 2 стовпці та 5 рядків. Після введення виділяємо мишею комірку В28-С32 і натискаємо F2 та Ctrl+Shift+Enter. Результат - таблиця значень, числа в якій мають такий зміст:



Коефіцієнт а

Коефіцієнт b

Стандартна помилка m o

Стандартна помилка m h

Коефіцієнт детермінації R xy

Середньоквадратичне відхилення у

F – статистика

Ступені свободи n-2

Регресійна сума квадратів S n 2

Залишкова сума квадратів S n 2

0,14303 5,976364
0,183849 0,981484
0,070335 1,669889
0,60525 8
1,687758 22,30824

Аналіз результату: у першому рядку – коефіцієнти рівняння регресії, порівняйте їх із розрахованими функціями НАКЛОН і ВІДРІЗОК. Другий рядок – стандартні помилки коефіцієнтів. Якщо одна з них за модулем більше, ніж сам коефіцієнт, то коефіцієнт вважається нульовим. p align="justify"> Коефіцієнт детермінації характеризує якість зв'язку між факторами. Отримане значення 0,070335 говорить про дуже добрий зв'язок факторів, F – статистика перевіряє гіпотезу про адекватність регресійної моделі. Дане число потрібно порівняти з критичним значенням, для його отримання вводимо в Е33 підпис "F-критичне", а в F33 функцію FРАСПОБР, аргументами якої вводимо відповідно "0,05" (рівень значущості), "1" (кількість факторів Х) і «8» (ступеня свободи).

F-критичне 5,317655

Видно, що F-статистика менша, ніж F-критичне, отже, регресійна модель не адекватна. В останньому рядку наведено регресійну суму квадратів та залишкові суми квадратів . Важливо, щоб регресійна сума (пояснена регресією) була набагато більшою від залишкової (не пояснена регресією, викликана випадковими факторами). У нашому випадку ця умова не виконується, що говорить про погану регресію.

Висновок: У ході роботи я освоїв методи побудови лінійного рівняння парної регресії за допомогою ЕОМ, навчився отримувати та аналізувати основні характеристики регресійного рівняння.


Лабораторна робота №4

НЕЛІНІЙНА РЕГРЕСІЯ

Мета: освоїти методи побудови основних видів нелінійних рівнянь парної регресії за допомогою за допомогою ЕОМ (внутрішньо лінійні моделі), навчитися отримувати та аналізувати показники якості регресійних рівнянь.

Розглянемо випадок, коли нелінійні моделі за допомогою перетворення даних можна звести до лінійних (внутрішньо лінійних моделей).

ПРИКЛАД. Побудувати рівняння регресії у = f(х) для вибірки х п у п (f = 1,2, ..., 10). Як f(х) розглянути чотири типи функцій – лінійна, статечна, показова та гіперболу:

у = Ах + В; у = Ах; у = Ае Вх; у = А/г + Ст.

Необхідно знайти їх коефіцієнти А і В і порівнявши показники якості, вибрати функцію, яка найкраще описує залежність.

Прибуток Y 0,3 1,2 2,8 5,2 8,1 11,0 16,8 16,9 24,7 29,4
Прибуток X 0,25 0,50 0,75 1,00 1,25 1,50 1,75 2,00 2,25 2,50

Введемо дані у таблицю разом із підписами (комірки A1-K2). Залишимо вільними три рядки нижче за таблицю для введення перетворених даних, виділимо перші п'ять рядків, провівши по лівій сірій межі за числами від 1 до 5 і вибрати будь-який колір (світлий - жовтий або рожевий) розфарбувати фон осередків. Далі, починаючи з A6, виводимо параметри лінійної регресії. Для цього в осередок A6 робимо підпис «Лінійний» і в сусідній осередок B6 вводимо функцію Лінейн. У полях «Изв_знач_x» даємо посилання на B2-K2 і B1-K1, наступні два поля набувають значення одиниці. Далі обводимо область нижче 5 рядків і лівіше 2 рядки і натискаємо F2 і Ctrl+Shift+Enter. Результат - таблиця з параметрами регресії, у тому числі найбільший інтерес представляє коефіцієнт детермінації у першому стовпці третій зверху. У разі він дорівнює R 1 = 0,951262. Значення F-критерію, що дозволяє перевірити адекватність моделі F 1 = 156,1439

(четвертий рядок, перший стовпець). Рівняння регресії дорівнює

y = 12,96 x +6,18 (коефіцієнти a та b наведені в осередках B6 та C6).

Лінійна 12,96 -6,18
1,037152 1,60884
0,951262 2,355101
156,1439 8
866,052 44,372

Визначимо аналогічні характеристики інших регресій і в результаті порівняння коефіцієнтів детермінації знайдемо кращу регресійну модель. Розглянемо гіперболічну регресію. Для її отримання конвертуємо дані. У третьому рядку в комірку A3 введемо підпис «1/x», а в комірку B3 введемо формулу «=1/B2». Розтягнемо автозаповненням цей осередок на область B3-K3. Отримаємо характеристики регресійної моделі. У осередок А12 введемо підпис «Гіперболу», а в сусідню функцію Лінейн. У полях «Ізв_знач_y» та «Ізв_знач_x2 даємо посилання на B1-K1 і перетворені дані аргументу x – B3-K3, наступні два поля набувають значення одиниці. Далі обводимо область нижче 5 рядків і ліворуч у 2 рядки і натискаємо F2 та Ctrl+Shift+Enter. Отримуємо таблицю параметрів регресії. Коефіцієнт детермінації у разі дорівнює R 2 = 0,475661, що набагато гірше, ніж у разі лінійної регресії. F-статистика дорівнює F2 = 7,257293. Рівняння регресії дорівнює y = -6,25453 x 18,96772.

Гіперболу -6,25453 18,96772
2,321705 3,655951
0,475661 7,724727
7,257293 8
433,0528 477,3712

Розглянемо експоненційну регресію. Для її лінеаризації отримуємо рівняння , де = ln y, = b, = ln a. Видно, що потрібно зробити перетворення даних – y замінити на ln y. Ставимо курсор у комірку А4 і робимо заголовок «ln y». Ставимо курсор у В4 та вводимо формулу LN (категорія «Математичні»). Як аргумент робимо посилання на В1. Автозаповненням розповсюджуємо формулу на четвертий рядок на комірки В4-K4. Далі в осередку F6 задаємо підпис «Екпонента» і в сусідній G6 вводимо функцію ЛІНІЙН, аргументами якої будуть перетворені дані В4-K4 (в поле «Изв_знач_ y»), а решта поля такі ж як і для випадку лінійної регресії (B2-K2, 1, 1). Далі обводимо осередки G6-H10 і натискаємо F2 та Ctrl+Shift+Enter. Результат R 3 = 0,89079, F 3 = 65,25304, що говорить про дуже хорошу регресію. Для знаходження коефіцієнтів рівняння регресії b = ã; ставимо курсор в J6 і робимо заголовок «а=», а сусідній К6 формулу «=ЕХР(Н6)», в J7 даємо заголовок «b=», а К7 формулу «=G6». Рівняння регресії є y = 0,511707 e 6,197909 x .

експонента 1,824212 -0,67 a= 0,511707
0,225827 0,350304 b= 6,197909
0,89079 0,512793
65,25304 8
17,15871 2,103652

Розглянемо статечну регресію. Для її лінеаризації отримуємо рівняння ỹ = ã, де ỹ = ln y, = ln x, ã = b, = ln a. Видно, що треба зробити перетворення даних - y замінити на ln y x замінити на ln x. Рядок з ln y у нас вже є. Перетворимо змінні х. У комірку А5 даємо підпис «ln x», а В5 і вводимо формулу LN (категорія «Математичні»). Як аргумент робимо посилання В2. Автозаповнення розповсюджуємо формулу на п'ятий рядок на осередки B5-K5. Далі в осередку F12 задаємо підпис «Степеневий» і в сусідньому G12 вводимо функцію ЛІНІЙН, аргументами якої будуть перетворені дані B4-K4 (в поле «Ізв_знач_у»), і B5-K5 (в поле «Ізв_знач_х»), решта поля – одиниці. Далі звільнимо комірки G12-H16 і натискаємо F2 і Ctrl+Shift+Enter. Результат R 4 = 0,997716, F 4 = 3494,117, що говорить про хорошу регресію. Для знаходження коефіцієнтів рівняння регресії b = ã; ставимо курсор у J12 і робимо заголовок «а=», а сусідній К12 формулу «=ЕХР(Н12)», в J13 даємо заголовок «b=», а К13 формулу «=G12». Рівняння регресії є у ​​= 4,90767/х + 7,341268.

Ступінь 1,993512 1,590799 a= 4,90767
0,033725 0,023823 b= 7,341268
0,997716 0,074163
3494,117 8
19,21836 0,044002

Перевіримо, чи всі рівняння правильно описують дані. Для цього потрібно порівняти F-статистики кожного критерію із критичним значенням. Для його отримання вводимо в А21 підпис «F-критичне», а В21 функцію FРАСПОБР, аргументами якої вводимо відповідно «0,05» (рівень значущості), «1» (кількість факторів Х у рядку «Рівень значимості 1») і « 8» (ступінь свободи 2 = n – 2). Результат 5,317655. F – критичне більше F – статистики означає модель адекватна. Також адекватні та інші регресії. Для того, щоб визначити, яка модель якнайкраще описує дані, порівняємо індекси детермінації для кожної моделі R 1 , R 2 , R 3 , R 4 . Найбільшим є R4 = 0,997716. Отже, досвідчені дані краще описувати у = 4,90767/х+ 7,341268.

Висновок: У ході роботи я освоїв методи побудови основних видів нелінійних рівнянь парної регресії за допомогою за допомогою ЕОМ (внутрішньо лінійні моделі), навчився отримувати та аналізувати показники якості регресійних рівнянь.

Y 0,3 1,2 2,8 5,2 8,1 11 16,8 16,9 24,7 29,4
X 0,25 0,5 0,75 1 1,25 1,5 1,75 2 2,25 2,5
1/x 4 2 1,333333 1 0,8 0,666667 0,571429 0,5 0,444444 0,4
ln y -1,20397 0,182322 1,029619 1,648659 2,0918641 2,397895 2,821379 2,827314 3,206803 3,380995
ln x -1,38629 -0,69315 -0,28768 0 0,2231436 0,405465 0,559616 0,693147 0,81093 0,916291
Лінійна 12,96 -6,18 експонента 1,824212 -0,67 a= 0,511707
1,037152 1,60884 0,225827 0,350304 b= 6,197909
0,951262 2,355101 0,89079 0,512793
156,1439 8 65,25304 8
866,052 44,372 17,15871 2,103652
Гіперболу -6,25453 18,96772 Ступінь 1,993512 1,590799 a= 4,90767
2,321705 3,655951 0,033725 0,023823 b= 7,341268
0,475661 7,724727 0,997716 0,074163
7,257293 8 3494,117 8
433,0528 477,3712 19,21836 0,044002
F - критичне 5,317655

Лабораторна робота №5

ПОЛІНОМИНАЛЬНА РЕГРЕСІЯ

Ціль: За досвідченими даними побудувати рівняння регресії виду у = ах 2 + bх + с.

ХІД РОБОТИ:

Розглядається залежність урожайності деякої культури у i від кількості внесених у ґрунт мінеральних добрив х i . Передбачається, що ця квадратична залежність. Необхідно знайти рівняння регресії виду = ах 2 + bx + c.

x 0 1 2 3 4 5 6 7 8 9
y 29,8 58,8 72,2 101,5 141 135,1 156,6 181,7 216,6 208,2

Введемо ці дані в електронну таблицю разом із підписами до осередків А1-K2. Побудуємо графік. Для цього обведемо дані Y (комірки В2-K2), викликаємо майстер діаграм, вибираємо тип діаграми "Графік", вид діаграми - графік з точками (другий зверху лівий), натискаємо "Далі", переходимо на закладку "Ряд" і в полі " Підписи осі Х» робимо посилання на В2-K2, натискаємо «Готово». Графік можна наблизити до полінома 2 ступеня у = ах 2 + bх + с. Для знаходження коефіцієнтів a, b, c необхідно вирішити систему рівнянь:

Розрахуємо суми. Для цього в комірку А3 вводимо підпис «Х^2», а В3 вводимо формулу = В1 * В1 і Автозаповнення переносимо її на весь рядок В3-K3. У комірку А4 вводимо підпис «Х^3», а В4 формулу «=В1*В3» і Автозаповнення переносимо її на весь рядок В4-K4. У комірку А5 вводимо «Х^4», а В5 формулу «=В4*В1», автозаповнюємо рядок. У комірку А6 вводимо «Х*Y», а В8 формулу «=В2*В1», автозаповнюємо рядок. У комірку А7 вводимо «Х^2*Y», а В9 формулу «=В3*В2», автозаповнюємо рядок. Тепер рахуємо суми. Виділяємо іншим кольором стовпець L, клацнувши по заголовку та вибравши колір. У комірку L1 поміщаємо курсор і клацнувши по кнопці автосуми зі значком ∑, обчислюємо суму першого рядка. Автозаповнення переносимо формулу на комірки L1-710.

Вирішуємо тепер систему рівнянь. Для цього вводимо основну матрицю системи. У комірку А13 вводимо підпис «А=», а в комірки матриці В13-D15 вводимо посилання, відображені в таблиці

B C D
13 =L5 =L4 =L3
14 =L3 =L2 =L1
15 =L2 =L1 =9

Вводимо також праві частини системи рівнянь. У G13 вводимо підпис «В=», а Н13-Н15 вводимо, відповідно посилання на комірки «=L7», «=L6», «=L2». Вирішуємо систему матричним способом. З вищої математики відомо, що рішення дорівнює А -1 В. Знаходимо зворотну матрицю. Для цього в осередок J13 вводимо підпис "А обр." і, поставивши курсор K13 задаємо формулу МОБР (категорія «Математичні»). Як аргумент «Масив» даємо посилання на комірки В13: D15. Результатом також має бути матриця розміром 4×4. Для її отримання обводимо осередки K13-М15 мишею, виділяючи їх та натискаємо F2 та Ctrl+Shift+Enter. Результат - матриця А-1. Знайдемо тепер добуток цієї матриці на стовпець В (осередки Н13-Н15). Вводимо в комірку А18 підпис «Коефіцієнти» і В18 задаємо функцію МУМНОЖ (категорія «Математичні»). Аргументами функції "Масив 1" служить посилання на матрицю А -1 (комірки K13-М15), а в полі "Масив 2" даємо посилання на стовпець В (комірки Н13-Н16). Далі виділяємо В18-В20 і натискаємо F2 та Ctrl+Shift+Enter. Масив, що вийшов - коефіцієнти рівняння регресії a, b, c. В результаті отримуємо рівняння регресії виду: у = 1,201082х2 - 5,619177х + 78,48095.

Побудуємо графіки вихідних даних та отриманих на основі рівняння регресії. Для цього в комірку А8 вводимо підпис «Регресія» і в В8 вводимо формулу = $ $ 18 * В3 + $ $ 19 * В1 + $ $ 20». Автозаповнення переносимо формулу в комірки В8-K8. Для побудови графіка виділяємо комірки В8-K8 і, утримуючи клавішу Ctrl, виділяємо також комірки В2-М2. Викликаємо майстри діаграм, вибираємо тип діаграми «Графік», вид діаграми – графік з точками (другий зверху лівий), натискаємо «Далі», переходимо на закладку «Ряд» і в полі «Підписи осі Х» робимо посилання на В2-М2, натискаємо "Готово". Видно, що криві майже збігаються.

ВИСНОВОК: у процесі роботи я за досвідченими даними навчився будувати рівняння регресії виду у = ах 2 + bх + с.





Емпіричної щільності розподілу випадкової аналізованої величини та розрахунок її показників Визначаємо розмах наявних даних, тобто. різниці між найбільшим та найменшим вибірковим значеннями (R = Xmax – Xmin): Вибір числа інтервалів угруповання k при числі спостережень n<100 – ориентировочное значение интервалов можно рассчитать с использованием формулы Хайнхольда и Гаеде: ...

Даних можна достовірно судити про статистичні зв'язки, що існують між змінними величинами, які досліджують у даному експерименті. Усі методи математико-статистичного аналізу умовно поділяються на первинні та вторинні. Первинними називають методи, за допомогою яких можна отримати показники, що безпосередньо відображають результати вимірів, що виробляються в експерименті. Відповідно під...

Процесори загального призначення (наприклад, в Еxcеl, Lotus 1-2-3 і т.д.), а також деякі бази даних. Західні статистичні пакети (SРSS, SAS, BMDР тощо) мають такі можливості: Дозволяють обробляти гігантські обсяги даних. Включають засоби опису завдань вбудованою мовою. Дають можливість побудови на їх основі систем обробки інформації для підприємств. Дозволяють...



Курс масажу і протягом 1-2 місяців після нього. 1.2 Форми лікувального масажу Форма впливу лікувального масажу поділяється на загальну та приватну. Ці форми характерні для всіх видів та методів масажу. Як приватний, і загальний масаж може виконуватися масажистом як взаємного масажу, парного чи самомасажа . 1.2.1 Загальний масаж Загальним називається такий сеанс масажу (незалежно від...

x 0 1 2 3 4 5 6 7 8 9
y 29,8 58,8 72,2 101,5 141 135,1 156,6 181,7 216,6 208,2
X^2 0 1 4 9 16 25 36 49 64 81
X^3 0 1 8 27 64 125 216 343 512 729
X^4 0 1 16 81 256 625 1296 2401 4096 6561
X*Y 0 58,8 144,4 304,5 564 675,5 939,6 1271,9 1732,8 1873,8
X^2*Y 0 58,8 288,8 913,5 2256 3377,5 5637,6 8903,3 13862,4 16864,2
Регрес. 78,48095 85,30121 94,52364 106,1482 120,175 136,6039 155,435 176,6682 200,3036 226,3412
A= 15333 2025 285 B= 52162,1 A Зр. 0,003247 -0,03247 0,059524
2025 285 45 7565,3 -0,03247 0,341342 -0,67857
285 45 9 1301,5 0,059524 -0,67857 1,619048
Коефіц. 1,201082 a
5,619177

Розглянемо використання MS EXCEL під час перевірки статистичних гіпотез про середнє значення розподілу у разі невідомої дисперсії. Обчислимо тестову статистикуt 0 , розглянемо процедуру «одновибірковийt-тест», обчислимо Р-значення (Р-value).

Матеріал цієї статті є продовженням статті. У зазначеній статті наведено основні поняття перевірки гіпотез (нульоваі альтернативна гіпотези, тестові статистики, еталонний розподіл, Р-значення та ін.).

ПОРАДА: Для перевірки гіпотезпотрібно знання наступних понять:

  • , та їх .

Формулювання задачі.З генеральної сукупностімає з невідомим μ (мю) та невідомою дисперсією взята вибіркарозміру n. Необхідно перевірити статистичну гіпотезупро рівність невідомого μ заданого значення μ 0 (англ. Inference on the mean of a population, variance unknown).

Примітка: Вимога про нормальностівихідного розподілу, з якого береться вибіркане є обов'язковим. Але необхідно, щоб були виконані умови застосування .

Спочатку проведемо перевірку гіпотези, використовуючи довірчий інтервал, а потім за допомогою процедури t-Тест.Наприкінці обчислимо Р-значенняі також використовуємо його для перевірки гіпотези.

Нехай нульова гіпотезаН 0 стверджує, що невідоме середнє значеннярозподілу μ дорівнює μ 0 . Відповідна альтернативна гіпотезаН 1 стверджує протилежне: не дорівнює μ 0 . Це приклад двосторонньої перевірки, т.к. невідоме значення може бути як більшим, так і менше μ 0 .

Якщо спрощено, то перевірка гіпотезиполягає у порівнянні 2-х величин: обчисленого на підставі вибірки середнього значення Х срта заданого μ 0 . Якщо ці значення «відрізняються більше, ніж можна було б очікувати, виходячи з випадковості», то нульову гіпотезувідхиляють.

Пояснимо фразу «відрізняються більше, ніж можна було б очікувати, виходячи з випадковості». Для цього пригадаємо, що розподіл Вибіркового середнього (статистика Х ср) прагнути до нормальному розподілузі середнім значеннямμ та стандартним відхиленнямрівним σ/√n, де σ – стандартне відхиленнярозподілу, з якого береться вибірка(не обов'язково нормальне), а n – обсяг вибірки(Докладніше див.).

На жаль, у нашому випадку дисперсіяотже, і стандартне відхилення, невідомі, тому замість неї ми будемо використовувати її оцінку - s 2 і, відповідно, стандартне відхилення вибірки s.

Відомо, що якщо замість невідомої дисперсіїрозподілу σ 2 ми використовуємо дисперсію вибірки s 2 , то розподілом статистики Х срє з n-1 ступенем свободи.

Таким чином, знання розподілу статистики Х срі заданого , дозволяють нам формалізувати за допомогою математичних виразів фразу «відрізняються більше, ніж можна було б очікувати, виходячи з випадковості».

У цьому нам допоможе довірчий інтервал(як будується довірчий інтервалнам відомо із статті). Якщо середня вибіркипотрапляє в довірчий інтервал,побудований щодо μ 0 , то для відхилення нульової гіпотезипідстав немає. Якщо не потрапляє, то нульова гіпотезавідкидається.

Скористаємося виразом для Довірчого інтервалу, яку ми отримали у статті.

Нагадаємо, що довірчий інтервалзазвичай визначають через кількість стандартних відхилень, які у ньому укладаються. У нашому випадку як стандартного відхиленнябереться стандартна помилка s/√n.

Кількість стандартних відхиленьзалежить від кількості ступенів свободивикористовуваного t-розподілуі рівня значущості α (альфа).

Для візуалізації перевірки гіпотезиметодом довірчого інтервалуу створена.

Примітка: Перелік статей про перевірці гіпотезнаведено у статті.

t-тест

Нижче наведемо процедуру перевірки гіпотезиу разі невідомої дисперсії. Ця процедура має назву t-тест:

У MS EXCEL верхній α /2-квантильобчислюється за формулою
=СТЬЮДЕНТ.ОБР(1- α /2; n-1)

Враховуючи симетричність t- розподілущодо осі ординат, верхній α /2-квантильдорівнює звичайному α /2-квантилюзі знаком мінус:
=-СТЬЮДЕНТ.ОБР( α /2; n-1)

Також у MS EXCEL є спеціальна формула для обчислення двосторонніх квантилів:
=СТЬЮДЕНТ.ОБР.2Х( α ; n-1)
Усі три формули повернуть той самий результат.

Примітка: Докладніше про квантилирозподілу можна прочитати у статті.

Примітка: Якщо замість t- розподілувикористовувати стандартне нормальний розподіл, то ми отримаємо необґрунтовано вужчий довірчий інтервалтим самим ми частіше необґрунтовано відкидати нульову гіпотезуколи вона справедлива ( збільшимо помилку першого роду).

Відзначимо, що різниця у ширині інтервалів залежить від розміру вибірки n (при зменшенні n відмінність збільшується) і від рівня значущості(при зменшенні α відмінність збільшується). Для n=10 та α = 0,01 відносна різниця у ширині інтервалів становить близько 20%. При великому розмірі вибірки n (>30), відмінності в інтервалах часто нехтують (для n=30 і α = 0,01 відносна різниця становить 6,55%). Ця властивість використовується у функції Z.ТЕСТ(), яка обчислює р-значення(див. нижче) з використанням нормального розподілу(аргумент σ повинен бути опущений або вказано посилання на стандартне відхилення вибірки).

В разі односторонньої гіпотезимова йде про відхилення μ тільки в одну сторону: або більше або менше μ0. Якщо альтернативна гіпотезазвучить як μ>μ 0 то гіпотеза Н 0 відкидається у випадку t 0 > t α ,n-1. Якщо альтернативна гіпотезазвучить як μ<μ 0 , то гипотеза Н 0 отвергается в случае t 0 < - t α ,n-1.

Обчислення Р-значення

При перевірці гіпотезвелике поширення також набув ще один еквівалентний підхід, заснований на обчисленні p-значення(p-value).

ПОРАДА: Докладніше про p-значеннянаписано у статті.

Якщо p-значення, обчислене на підставі вибіркименше ніж заданий рівень значущості α , то нульова гіпотезавідкидається і приймається альтернативна гіпотеза. І навпаки, якщо p-значеннябільше α , то нульова гіпотезане відкидається.

Іншими словами, якщо p-значенняменше рівня значущості α , то це свідчення того, що значення t-статистики, обчислене на основі вибіркиза умови істинності нульової гіпотези, Прийняло малоймовірне значення t 0 .

Формула для обчислення p-значеннязалежить від формулювання альтернативної гіпотези:

  • Для односторонньої гіпотези μ<μ 0 p-значенняобчислюється як =СТЬЮДЕНТ.РАСП(t 0 ; n-1; ІСТИНА)
  • Для іншої односторонньої гіпотези μ>μ 0 p-значенняобчислюється як =1-СТЬЮДЕНТ.РАСП(t 0 ; n-1; ІСТИНА)
  • Для двосторонньої гіпотези p-значенняобчислюється як =2*(1-СТЬЮДЕНТ.РАСП(ABS(t 0);n-1;ІСТИНА))

Відповідно, t 0 =(СРЗНАЧ( вибірка)-μ 0)/ (СТАНДОТКЛОН.В( вибірка)/ КОРІНЬ(РАХУНОК( вибірка))) , де вибірка- Посилання на діапазон, що містить значення вибірки.

У файл прикладу на аркуші Сигма невідомапоказано еквівалентність перевірки гіпотезичерез довірчий інтервал, статистику t 0(t-тест)і p-значення.

Примітка: У MS EXCEL немає спеціалізованої функції для одновибіркового t-тесту. При високих n можна використовувати функцію Z.ТЕСТ() з опущеним 3-м аргументом (докладніше про цю функцію див. статтю ). Функція СТЬЮДЕНТ.ТЕСТ() призначена для .

Перевірка рівності середнього певного значення.

Вибірки вилучені із сукупності, що має нормальний розподіл, дані є незалежними.

Критеріальне значення обчислюється за такою формулою:

де N – розмір вибірки;

S 2 - емпірична дисперсія вибірки;

А - передбачувана величина середнього значення;

X-середнє значення.

Число ступенів свободи для t-критерію V = n-1.

Нулі ня гіпотеза

Н 0: X = А проти Н А: X ≠А. Нульова гіпотеза про рівність середніх відкидається, якщо по абсолютній величині критеріальне значення більше за верхню α/2 % точки t-розподілу взятого з V ступенями свободи, тобто при │t│> t vα/2 .

Н 0: Х< А против Н А: X >А. Нульова гіпотеза відкидається, якщо критеріальне значення більше за верхню α% точку t-розподілу взятого з V ступенями свободи, тобто при │t│> t vα .

Н 0: Х>А проти H А: X< А. Нулевая гипотеза отвергается, если критериальное значение меньше нижней α% точки t-распределения, взятого с V степенями свободы.

Критерій стійкий за малих відхилень від нормального розподілу.

приклад

Розглянемо приклад, поданий на рис. 5.10. Припустимо, нам необхідно перевірити гіпотезу про рівність середнього для вибірки (комірки 123:130) величині 0,012.

Спочатку знаходимо середнє вибірки (=СРЗНАЧ(123:130) в I31) і дисперсію (=ДІСП(I23:I30) в I32). Після цього розраховуємо критеріальне (=(131-0,012)*КОРІНЬ(133)/132) і критичне (=СТЬЮДРАСПОБР(0,025;133-1)) значення. Оскільки критеріальне значення (24,64) більше критичного (2,84), то гіпотеза про рівність середнього 0,012 відкидається.

Рисунок 5.10 Порівняння середнього значення з константою

1. перевірити гіпотези про середні та дисперсії за допомогою параметричних критеріїв Фішера та Кохрена (таблиця 5.4);

2. перевірити гіпотезу про рівність середніх при нерівних дисперсіях вибірок (для цього в одній із вибірок свого варіанта прибрати 1 або 2 значення) (таблиця 5.4);

3. перевірити гіпотезу про рівність середнього заданого значення А (таблиця 5.5) та дані з 1-го стовпця за варіантом.

Таблиця 5.4

Варіанти завдань

Дані експерименту
різновид
2,3 2,6 2,2 2,1 2,5 2,6
1,20 1,42 17,3 23,5 2,37 2,85 35,2 26,1 2,1 2,6
5,63 5,62 26,1 27,0 5,67 2,67 35,9 25,8 5,1 5,63
2,34 2,37 23,9 23,3 2,35 2,34 33,6 23,8 2,34 2,38
7,71 7,90 28,0 25,2 2,59 2,58 35,7 26,0 7,63 7,6,1
1,2 1,6 1,7 2,6 1,9 2,8
1,13 1,15 21,6 21,2 2,13 2,16 31,7 1,12 1,12
1,45 1,47 24,7 24,8 2,45 2,47 34,8 24,5 1,49 1,45
3,57 3,59 25,9 25,7 2,55 2,59 36,0 25,7 3,58 3,58
3,3 3,6 2,5 2,4 3,4 3,5
Дані експерименту
різновид
7,3 7,6 12,2 12,1 3,5 4,6
6,20 6,42 217,3 230,5 12,37 12,85 75,2 86,1 3,1 4,6
7,63 5,62 264,1 278,0 15,67 14,67 75,9 75,8 5,1 5,63
6,34 5,37 233,9 236,3 12,35 12,34 73,6 73,8 3,34 4,38
7,71 7,90 281,0 255,2 12,59 12,58 85,7 86,0 3,63 4,6,1
6,2 6,6 11,7 12,6 3,9 4,8
4,13 4,15 251,6 261,2 12,13 12,16 71,7 5,12 4,12
5,45 6,47 244,7 247,8 12,45 12,47 74,8 84,5 3,49 4,45
5,57 5,59 250,9 255,7 12,55 12,59 86,0 85,7 3,58 3,58
5,3 5,6 12,5 12,4 3,4 3,5

Таблиця 5.5

Значення А

Варіанти
2,2 2,2 2,2 6,5 12,2 3,5

Як вихідні дані в завданні можете використовувати свої експериментальні дані.

Звіт має містити розрахунки статистичних показників.

Контрольні питання:

1. Які статистичні завданнявирішуються щодо технологічних процесів виробництва харчової промисловості?

2. Як порівнюються статистичні характеристики випадкових величин?

3. Рівень значимості та довірча ймовірністьза достовірності оцінки експериментальних даних.

4. Як здійснюється перевірка статистичних гіпотез за допомогою критеріїв згоди?

5. Від чого залежить потужність критерію згоди на аналіз експериментальних вибірок?

6. Яким чином здійснюється підбір критерію для вирішення завдань аналізу технологічних процесів виробництва харчових продуктів?

7. Як здійснюється класифікація критеріїв згоди для аналізу вибірок результатів досліджень технологічних процесів виробництва харчових продуктів?

8. Які вимоги пред'являються до вибірок результатів досліджень технологічних процесів виробництва харчових продуктів?

8.1. Поняття залежних та незалежних вибірок.

Вибір критерію для перевірки гіпотези

насамперед визначається тим, чи розглядаються вибірки залежними чи незалежними. Введемо відповідні визначення.

Опр.Вибірки називаються незалежнимиякщо процедура відбору одиниць у першу вибірку ніяк не пов'язана з процедурою відбору одиниць у другу вибірку.

Прикладом двох незалежних вибірок можуть бути обговорювані вище вибірки чоловіків і жінок, які працюють на одному підприємстві (в одній галузі і т.д.).

Зауважимо, що незалежність двох вибірок зовсім на означає відсутність вимоги певного роду подібності цих вибірок (їх однорідності). Так, вивчаючи рівень доходу чоловіків і жінок, ми навряд чи припустимо таку ситуацію, коли чоловіки відбираються з-поміж московських бізнесменів, а жінки – з аборигенів Австралії. Жінки теж мають бути москвичками і, більше того – «бізнесвуменшами». Але тут ми говоримо не про залежність вибірок, а про вимогу однорідності сукупності об'єктів, що вивчається, яка повинна задовольнятися і при зборі, і при аналізі соціологічних даних.

Опр.Вибірки називаються залежними, або парними,якщо кожна одиниця однієї вибірки прив'язується до певної одиниці другої вибірки.

Останнє визначення, ймовірно, стане більш зрозумілим, якщо ми наведемо приклад залежних вибірок.

Припустимо, що ми хочемо з'ясувати, чи є соціальний статус батька в середньому нижчий від соціального статусу сина (думаємо, що ми можемо виміряти цю складну і неоднозначно соціальну характеристику людини, що розуміється). Зрозуміло, що в такій ситуації доцільно відбрати пари респондентів (батько, син) і вважати, що кожен елемент першої вибірки (один з батьків) «прив'язаний» до певного елементу другої вибірки (свого сина). Ці дві вибірки і називатимуться залежними.

8.2. Перевірка гіпотези для незалежних вибірок

Для незалежнихвибірок вибір критерію залежить від цього, чи знаємо ми генеральні дисперсії s 1 2 і s 2 2 аналізованого ознаки для досліджуваних вибірок. Вважатимемо цю проблему вирішеною, вважаючи, що вибіркові дисперсії збігаються з генеральними. У такому разі як критерій виступає величина:

Перш ніж переходити до обговорення тієї ситуації, коли генеральні дисперсії (чи хоча б одна з них) нам невідомі, зауважимо таке.

Логіка використання критерію (8.1) схожа на ту, що була описана нами при розгляді критерію “Хі-квадрат” (7.2). Є лише одне принципова відмінність. Говорячи про зміст критерію (7.2), ми розглядали нескінченну кількість вибірок обсягу n, що «черпаються» з нашої генеральної сукупності. Тут же, аналізуючи зміст критерію (8.1), ми переходимо до розгляду нескінченної кількості парвибірок обсягом n1 і n2. Для кожної пари та розраховується статистика виду (8.1). Сукупності одержуваних значень таких статистик, відповідно до наших позначень, відповідає нормальний розподіл (як ми домовилися, буква z використовується для позначення такого критерію, якому відповідає саме нормальний розподіл).

Отже, якщо генеральні дисперсії нам невідомі, то ми змушені замість них користуватися їхніми вибірковими оцінками s 1 2 та s 2 2 . Однак при цьому нормальний розподіл має замінитись на розподіл Стьюдента – z має замінитися на t (як це мало місце в аналогічній ситуації під час побудови довірчого інтервалу для математичного очікування). Проте за досить великих обсягах вибірок (n 1 , n 2 ³ 30) , як ми знаємо, розподіл Стьюдента практично збігається з нормальним. Іншими словами, при великих вибірках ми можемо продовжувати користуватися критерієм:

Складніша ситуація з такою ситуацією, коли і дисперсії невідомі, і обсяг хоча б однієї вибірки малий. Тоді набирає чинності ще один фактор. Вигляд критерію залежить від цього, чи можемо вважати невідомі нам дисперсії аналізованого ознаки у двох аналізованих вибірках рівними. Для з'ясування цього необхідно перевірити гіпотезу:

H 0: s 1 2 = s 2 2 . (8.3)

Для перевірки цієї гіпотези використовується критерій

Про специфіку використання цього критерію йтиметься нижче, а зараз продовжимо обговорювати алгоритм вибору критерію, який використовує для перевірки гіпотез про рівність математичних очікувань.

Якщо гіпотеза (8.3) відкидається, то цікавий для нас критерій набуває вигляду:

(8.5)

(Тобто відрізняється від критерію (8.2), що використовувався при великих вибірках, тим, що відповідна статистика має не нормальний розподіл, а розподіл Стьюдента). Якщо гіпотез (8.3) приймається, то вигляд критерію змінюється:

(8.6)

Підіб'ємо підсумок того, як вибирається критерій для перевірки гіпотези про рівність генеральних математичних очікувань на основі аналізу двох незалежних вибірок.

відомі

невідомі

розмір вибірок великий

H 0: s 1 = s 2 відкидається

Приймається

8.3. Перевірка гіпотези для залежних вибірок

Перейдемо до розгляду залежних вибірок. Нехай послідовності чисел

X 1, X 2, …, X n;

Y 1 , Y 2 , … , Y n –

це значення аналізованої випадкової елементів двох залежних вибірок. Введемо позначення:

D i = X i - Y i, i = 1, ..., n.

Для залежнихвибірок критерій, що дозволяє перевіряти гіпотезу

виглядає наступним чином:

Зауважимо, що щойно наведене вираз для s D не що інше, як нове вираз для відомої формули, що виражає середнє квадратичне відхилення. У разі йдеться про середньому квадратичному відхиленні величин D i . Подібна формула часто використовується на практиці як простіший (порівняно з «лобовим» підрахунком суми квадратів відхилень значень аналізованої величини від відповідного середнього арифметичного) спосіб розрахунку дисперсії.

Якщо порівняти наведені формули з тими, які ми використовували під час обговорення принципів побудови довірчого інтервалу, неважко помітити, що перевірка гіпотези про рівність середніх для випадку залежних вибірок по суті є перевіркою рівності нулю математичного очікування величин D i . Величина

є середнє квадратичне відхилення для D i. Тому значення щойно описаного критерію t n -1 по суті дорівнює величині D i вираженої в частках середнього квадратичного відхилення. Як ми говорили вище (при обговоренні способів побудови довірчих інтервалів), за таким показником можна судити про ймовірність аналізованого значення D i . Відмінність полягає в тому, що вище йшлося про просте середнє арифметичне, розподілене нормально, а тут – про середні різниці, такі середні мають розподіл Стьюдента. Але міркування про взаємозв'язок ймовірності відхилення вибіркового середнього арифметичного від нуля (при математичному очікуванні, Рівному нулю) з тим, скільки одиниць s це відхилення становить, залишаються в силі.

Поділіться з друзями або збережіть для себе:

Завантаження...