Дисперсійний аналіз коротко. Дисперсійний аналіз

Усі люди від природи прагнуть знання. (Арістотель. Метафізика)

Дисперсійний аналіз

Вступний огляд

У цьому розділі ми розглянемо основні методи, припущення та термінологію дисперсійного аналізу.

Зазначимо, що у англомовної літературі дисперсійний аналіз зазвичай називається аналізом варіації. Тому, для стислості, нижче ми іноді використовуватимемо термін ANOVA (An alysis o f va riation) для звичайного дисперсійного аналізу та термін MANOVAдля багатовимірного дисперсійного аналізу У цьому розділі ми послідовно розглянемо основні ідеї дисперсійного аналізу ( ANOVA), коваріаційного аналізу ( ANCOVA), багатовимірного дисперсійного аналізу ( MANOVA) та багатовимірного коваріаційного аналізу ( MANCOVA). Після короткого обговорення переваг аналізу контрастів і апостеріорних критеріїв розглянемо припущення, на яких засновані методи дисперсійного аналізу. Ближче до кінця цього розділу пояснюються переваги багатовимірного підходу для аналізу повторних вимірів, порівняно з традиційним одновимірним підходом.

Основні ідеї

Ціль дисперсійного аналізу.Основною метою дисперсійного аналізу є дослідження значущості різницю між середніми. Глава (Глава 8) містить коротке запровадження дослідження статистичної значимості. Якщо ви просто порівнюєте середні у двох вибірках, дисперсійний аналіз дасть той самий результат, що й звичайний t- критерій для незалежних вибірок (якщо порівнюються дві незалежні групи об'єктів чи спостережень) або t- критерій для залежних вибірок (якщо порівнюються дві змінні одному й тому безлічі об'єктів чи спостережень). Якщо ви мало знайомі з цими умовами, радимо звернутися до вступного огляду глави (Глава 9).

Звідки походить назва Дисперсійний аналіз? Може здатися дивним, що порівняння середніх називається дисперсійним аналізом. Насправді це пов'язано з тим, що при дослідженні статистичної значущості відмінності між середніми ми насправді аналізуємо дисперсії.

Розбиття суми квадратів

Для вибірки обсягу n вибіркова дисперсія обчислюється як сума квадратів відхилень від середнього вибіркового, поділена на n-1 (обсяг вибірки мінус одиниця). Таким чином, при фіксованому обсязі вибірки n дисперсія є функція суми квадратів (відхилень), що позначається для стислості, SS(Від англійської Sum of Squares - Сума Квадратів). В основі дисперсійного аналізу лежить поділ (або розбиття) дисперсії на частини. Розглянемо наступний набір даних:

Середні дві групи істотно різні (2 і 6 відповідно). Сума квадратів відхилень всерединікожної групи дорівнює 2. Складаючи їх, отримуємо 4. Якщо тепер повторити ці обчислення без урахуваннягрупової приналежності, тобто якщо обчислити SSвиходячи із загального середнього цих двох вибірок, то отримаємо 28. Іншими словами, дисперсія (сума квадратів), заснована на внутрішньогруповій мінливості, призводить до набагато менших значень, ніж при обчисленні на основі загальної мінливості (щодо загальної середньої). Причина цього, очевидно, полягає у суттєвій різниці між середніми значеннями, і ця різниця між середніми і пояснює існуюча різницяміж сумами квадратів Справді, якщо використовувати для аналізу наведених даних модуль Дисперсійний аналіз, будуть отримані такі результати:

Як видно з таблиці, загальна сума квадратів SS=28 розбита у сумі квадратів, обумовлену внутрішньогруповиймінливістю ( 2+2=4 ; див. другий рядок таблиці) та суму квадратів, обумовлену різницею середніх значень. (28-(2+2)=24; див. перший рядок таблиці).

SS помилок таSS ефект.Внутрішньогрупова мінливість ( SS) зазвичай називається дисперсією помилки.Це означає, що зазвичай під час проведення експерименту вона може бути передбачена чи пояснена. З іншого боку, SS ефекту(або міжгрупову мінливість) можна пояснити різницею між середніми значеннями в групах, що вивчаються. Іншими словами, приналежність до певної групи пояснюєміжгрупову мінливість, т.к. нам відомо, що ці групи мають різні середні значення.

Перевірка важливості.Основні ідеї перевірки статистичної значимості обговорюються у розділі Елементарні поняття статистики(Глава 8). У цьому розділі пояснюються причини, через які багато критеріїв використовують ставлення поясненої і непоясненої дисперсії. Приклад такого використання є сам дисперсійний аналіз. Перевірка значущості в дисперсійному аналізі полягає в порівнянні дисперсії, обумовленої міжгруповим розкидом (названої середнім квадратом ефектуабо MSефект) та дисперсії, обумовленої внутрішньогруповим розкидом (названою середнім квадратом помилкиабо MSпомилка). Якщо вірна нульова гіпотеза (рівність середніх у двох популяціях), можна очікувати порівняно невелике різницю у вибіркових середніх через випадкової мінливості. Тому при нульовій гіпотезі внутрішньогрупова дисперсія практично співпадатиме з загальною дисперсією, підрахованою без урахування групою власності. Отримані внутрішньогрупові дисперсії можна порівняти за допомогою F- критерію, що перевіряє, чи справді відношення дисперсій значно більше 1. У розглянутому вище прикладі F- критерій показує, що різницю між середніми статистично значимо.

Основна логіка дисперсійного аналізу.Підсумовуючи, можна сказати, що метою дисперсійного аналізу є перевірка статистичної значущості різниці між середніми (для груп чи змінних). Ця перевірка проводиться з допомогою аналізу дисперсії, тобто. за допомогою розбиття загальної дисперсії (варіації) на частини, одна з яких обумовлена ​​випадковою помилкою (тобто внутрішньогруповою мінливістю), а друга пов'язана з різницею середніх значень. Остання компонент дисперсії потім використовується для аналізу статистичної значущості відмінності між середніми значеннями. Якщо ця відмінність значуща, нульова гіпотеза відкидається і приймається альтернативна гіпотеза існування різниці між середніми.

Залежні та незалежні змінні.Змінні, значення яких визначається за допомогою вимірювань у ході експерименту (наприклад, бал, набраний під час тестування), називаються залежнимизмінними. Змінні, якими можна керувати під час проведення експерименту (наприклад, методи навчання чи інші критерії, що дозволяють розділити спостереження групи) називаються факторамиабо незалежнимизмінними. Докладніше ці поняття описані у розділі Елементарні поняття статистики(Глава 8).

Багатофакторний дисперсійний аналіз

У розглянутому вище простому прикладі ви могли б відразу обчислити t-критерій для незалежних вибірок, використовуючи відповідну опцію модуля Основні статистики та таблиці.Отримані результати, звісно, ​​збігатимуться з результатами дисперсійного аналізу. Однак дисперсійний аналіз містить гнучкі та потужні технічні засоби, які можуть бути використані для більш складних досліджень.

Безліч факторів.Світ за своєю природою складний і багатовимірний. Ситуації, коли деяке явище повністю описується однією змінною, надзвичайно рідкісні. Наприклад, якщо ми намагаємося навчитися вирощувати великі помідори, слід розглядати фактори, пов'язані з генетичною структурою рослин, типом ґрунту, освітленістю, температурою тощо. Таким чином, при проведенні типового експерименту доводиться мати справу з великою кількістю факторів. Основна причина, з якої використання дисперсійного аналізу краще повторного порівняння двох вибірок при різних рівняхфакторів за допомогою t- критерію, полягає в тому, що дисперсійний аналіз більш ефективнийі для малих вибірок, більш інформативний.

Управління факторами.Припустимо, що у розглянутому вище прикладі аналізу двох вибірок ми додамо ще один фактор, наприклад, Стать- Gender. Нехай кожна група складається з 3 чоловіків та 3 жінок. План цього експерименту можна подати у вигляді таблиці 2 на 2:

Експеримент. Група 1 Експеримент. Група 2
Чоловіки2 6
3 7
1 5
Середнє2 6
Жінки4 8
5 9
3 7
Середнє4 8

До проведення обчислень, можна помітити, що в цьому прикладі загальна дисперсія має, Крайній мірі, три джерела:

(1) випадкова помилка (внутрішньогрупова дисперсія),

(2) мінливість, пов'язана з приналежністю до експериментальної групи, та

(3) мінливість, обумовлена ​​статтю об'єктів спостереження.

(Зазначимо, що існує ще одне можливе джерело мінливості – взаємодія факторів, який ми обговоримо пізніше). Що станеться, якщо ми не включатимемо статьgenderяк фактор при проведенні аналізу та обчислимо звичайний t-Критерій? Якщо ми обчислюватимемо суми квадратів, ігноруючи стать -gender(тобто об'єднуючи об'єкти різної статі в одну групу при обчисленні внутрішньогрупової дисперсії, отримавши при цьому суму квадратів для кожної групи рівну SS=10, і загальну суму квадратів SS= 10+10 = 20), то отримаємо більше значення внутрішньогрупової дисперсії, ніж при більш точному аналізі з додатковим розбиттям на підгрупи підлозі - gender(при цьому внутрішньогрупові середні дорівнюватимуть 2, а загальна внутрішньогрупова сума квадратів дорівнює SS = 2+2+2+2 = 8). Ця різниця пов'язана з тим, що середнє значення для чоловіків - malesменше, ніж середнє значення для жінок –female, і це різницю у середніх значеннях збільшує сумарну внутригрупповую мінливість, якщо чинник статі не враховується. Управління дисперсією помилки збільшує чутливість (потужність) критерію.

На цьому прикладі видно ще одну перевагу дисперсійного аналізу порівняно зі звичайним t-Крітерієм для двох вибірок. Дисперсійний аналіз дозволяє вивчати кожен чинник, керуючи значеннями інших чинників. Це насправді і є основною причиною його більшої статистичної потужності (для отримання значних результатів потрібні менші обсяги вибірок). Тому дисперсійний аналіз навіть на невеликих вибірках дає статистично більш значущі результати, ніж простий t- критерій.

Ефекти взаємодії

Існує ще одна перевага застосування дисперсійного аналізу порівняно із звичайним t- критерієм: дисперсійний аналіз дозволяє виявити взаємодіяміж факторами і, отже, дозволяє вивчати складніші моделі. Для ілюстрації розглянемо ще один приклад.

Головні ефекти, попарні (двофакторні) взаємодії.Припустимо, що є дві групи студентів, причому психологічно студенти першої групи налаштовані виконання поставлених завдань і більш цілеспрямовані, ніж студенти другої групи, що з більш лінивих студентів. Розіб'ємо кожну групу випадково навпіл і запропонуємо одній половині в кожній групі складне завдання, а іншій - легке. Після цього виміряємо, як напружено студенти працюють над цими завданнями. Середні значення для цього (вигаданого) дослідження показані в таблиці:

Який висновок можна зробити із цих результатів? Чи можна зробити висновок, що: (1) над складним завданням студенти працюють більш напружено; (2) цілеспрямовані студенти працюють наполегливіше, ніж ліниві? Жодне з цих тверджень не відбиває сутність систематичного характеру середніх, наведених у таблиці. Аналізуючи результати, правильніше було б сказати, що над складними завданнями працюють наполегливіше лише цілеспрямовані студенти, тоді як над легкими завданнямитільки ліниві працюють наполегливіше. Тобто характер студентів та складність завдання взаємодіючиміж собою впливають на витрачається зусилля. Це приклад парної взаємодіїміж характером студентів та складністю завдання. Зазначимо, що твердження 1 та 2 описують головні ефекти.

Взаємодія вищих порядків.У той час, як пояснити попарні взаємодії ще порівняно легко, взаємодії вищих порядків пояснити значно складніше. Уявімо, що в аналізований вище приклад введено ще один фактор стать -Genderі ми отримали наступну таблицю середніх значень:

Які висновки можна зробити з отриманих результатів? Графіки середніх дозволяють легко інтерпретувати складні ефекти. Модуль дисперсійного аналізу дозволяє будувати ці графіки практично одним клацанням мишки.

Зображення на графіках внизу являє собою трифакторну взаємодію, що вивчається.

Дивлячись на графіки, можна сказати, що у жінок існує взаємодія між характером та складністю тесту: цілеспрямовані жінки працюють над важким завданням більш напружено, ніж над легким. У чоловіків ця ж взаємодія має зворотний характер. Видно, що опис взаємодії між факторами стає більш заплутаним.

Загальний спосіб опису взаємодій.У випадку взаємодія між чинниками описується як зміни одного ефекту під впливом іншого. У розглянутому вище прикладі двофакторну взаємодію можна описати як зміну головного ефекту фактора, що характеризує складність завдання під впливом фактора, що описує характер студента. Для взаємодії трьох факторів із попереднього параграфа можна сказати, що взаємодія двох факторів (складності завдання та характеру студента) змінюється під впливом статіGender. Якщо вивчається взаємодія чотирьох чинників, можна сказати, взаємодія трьох чинників, змінюється під впливом четвертого чинника, тобто. існують різні типи взаємодій різних рівнях четвертого чинника. Виявилося, що в багатьох областях взаємодія п'яти чи навіть більшої кількості факторів не є чимось незвичайним.

Складні плани

Міжгрупові та внутрішньогрупові плани (плани з повторними вимірами)

При порівнянні двох різних групзазвичай використовується t- критерій для незалежних вибірок (з модуля Основні статистики та таблиці). Коли порівнюються дві змінні на тому самому безлічі об'єктів (спостережень), використовується t-Критерій для залежних вибірок. Для дисперсійного аналізу також важливо залежні чи ні вибірки. Якщо є повторні вимірювання тих самих змінних (за різних умов або в різний час) для тих самих об'єктів, то говорять про наявність фактора повторних вимірів(називається також внутрішньогруповим фактором,оскільки з оцінки його значимості обчислюється внутригрупповая сума квадратів). Якщо порівнюються різні групи об'єктів (наприклад, чоловіки та жінки, три штами бактерій тощо), то різниця між групами описується міжгруповий фактор.Способи обчислення критеріїв значущості для двох описаних типів факторів різні, але їх загальна логіка та інтерпретації збігається.

Між- та внутрішньогрупові плани.У багатьох випадках експеримент вимагає включення до плану і міжгрупового фактора, і фактора повторних вимірів. Наприклад, вимірюються математичні навички студентів жіночої та чоловічої статі (де стать -Gender-міжгруповий фактор) на початку та наприкінці семестру. Два виміри навичок кожного студента утворюють внутрішньогруповий фактор (фактор повторних вимірів). Інтерпретація головних ефектів та взаємодій для міжгрупових факторів та факторів повторних вимірювань збігається, і обидва типи факторів можуть, очевидно, взаємодіяти між собою (наприклад, жінки набувають навичок протягом семестру, а чоловіки їх втрачають).

Неповні (гніздові) плани

У багатьох випадках можна знехтувати ефектом взаємодії. Це відбувається або коли відомо, що у популяції ефект взаємодії відсутній, або коли здійснення повного факторногоплану неможливо. Наприклад, вивчається вплив чотирьох добавок до палива на витрату пального. Вибираються чотири автомобілі та чотири водії. Повний факторнийЕксперимент вимагає, щоб кожна комбінація: добавка, водій, автомобіль – з'явилися хоча б один раз. Для цього потрібно не менше 4 x 4 x 4 = 64 груп випробувань, що потребує надто великих часових витрат. Крім того, навряд чи існує взаємодія між водієм та добавкою до палива. Зважаючи на це, можна використовувати план Латинські квадрати,в якому міститься лише 16 груп випробувань (чотири добавки позначаються буквами A, B, C та D):

Латинські квадрати описані в більшості книг з планування експериментів (наприклад, Hays, 1988; Lindman, 1974; Milliken and Johnson, 1984; Winer, 1962), і тут вони не будуть детально обговорюватися. Зазначимо, що латинські квадрати це неnолніплани, у яких беруть участь в повному обсязі комбінації рівнів чинників. Наприклад, водій 1 керує автомобілем 1 тільки з добавкою А водій 3 керує автомобілем 1 тільки з добавкою С. Рівні фактора добавок ( A, B, C і D) вкладені в комірки таблиці автомобіль x водій –як яйця в гнізда. Це мнемонічне правило корисне для розуміння природи гніздових чи вкладенихпланів. Модуль Дисперсійний аналізнадає прості методи аналіз планів такого типу.

Коваріаційний аналіз

Основна ідея

В розділі Основні ідеїкоротко обговорювалася ідея управління факторами та те, яким чином включення адитивних факторів дозволяє зменшувати суму квадратів помилок та збільшувати статистичну потужність плану. Все це може бути поширене і на змінні з безперервним безліччю значень. Коли такі безперервні змінні включаються в план як фактори, вони називаються підступами.

Фіксовані коваріати

Припустимо, що порівнюються математичні навички двох груп студентів, які навчалися за двома різними підручниками. Припустимо, що є дані про коефіцієнт інтелекту (IQ) для кожного студента. Можна припустити, що коефіцієнт інтелекту пов'язаний з математичними навичками та використовувати цю інформацію. Для кожної з двох груп студентів можна визначити коефіцієнт кореляції між IQ і математичними навичками. Використовуючи цей коефіцієнт кореляції, можна виділити частку дисперсії в групах, що пояснюється впливом IQ і нез'ясовну частку дисперсії (див. також Елементарні поняття статистики(глава 8) та Основні статистики та таблиці(Глава 9)). Частка дисперсії, що залишилася, використовується при проведенні аналізу як дисперсія помилки. Якщо є кореляція між IQ та математичними навичками, то можна суттєво зменшити дисперсії помилки SS/(n-1) .

Вплив коваріат наF- критерій. F-критерій оцінює статистичну значущість відмінності середніх значень у групах, при цьому обчислюється відношення міжгрупової дисперсії ( MSефект) до дисперсії помилок ( MSerror) . Якщо MSerrorзменшується, наприклад, при врахуванні фактора IQ, значення Fзбільшується.

Безліч коваріат.Міркування, використані вище для однієї кваріати (IQ), легко поширюються на кілька коваріат. Наприклад, крім IQ, можна включити вимір мотивації, просторового мислення тощо. Замість звичайного коефіцієнта кореляції використовується множинний коефіцієнткореляції.

Коли значенняF -Критерію зменшується.Іноді введення коваріату в план експерименту зменшує значення F-критерія . Зазвичай це вказує на те, що коваріати корелюються не тільки із залежною змінною (наприклад, математичними навичками), а й з факторами (наприклад, із різними підручниками). Припустимо, що IQ вимірюється наприкінці семестру, після майже річного навчання двох груп студентів за двома різними підручниками. Хоча студенти розбивалися на групи випадковим чином, може виявитися, що відмінність підручників настільки велика, що і IQ та математичні навички у різних групах сильно відрізнятимуться. У цьому випадку, каварыати не лише зменшують дисперсію помилок, а й міжгрупову дисперсію. Іншими словами, після контролю за різницею IQ у різних групах, різниця в математичних навичках вже буде несуттєвою. Можна сказати інакше. Після “виключення” впливу IQ, ненавмисно виключається вплив підручника на розвиток математичних навичок.

Кориговані середні.Коли коваріату впливає міжгруповий чинник, слід обчислювати скориговані середні, тобто. такі середні, які виходять після видалення всіх оцінок коваріату.

Взаємодія між коваріатами та факторами.Також як досліджується взаємодія між факторами, можна досліджувати взаємодію між коваріатами та між групами факторів. Припустимо, що один із підручників особливо підходить для розумних студентів. Другий підручник для розумних студентів з'їде, а для менш розумних студентів цей же підручник важкий. В результаті є позитивна кореляція між IQ і результатом навчання в першій групі (розумніші студенти, краще результат) і нульова або невелика негативна кореляція в другій групі (чим розумніший студент, тим менш ймовірне придбання математичних навичок з другого підручника). У деяких дослідженнях ця ситуація обговорюється як приклад порушення припущень коварійного аналізу. Однак так як у модулі Дисперсійний аналіз використовуються найзагальніші способи коваріаційного аналізу, можна, зокрема, оцінити статистичну значущість взаємодії між факторами та коваріатами.

Змінні коваріати

У той час, як фіксовані кваріати обговорюються в підручниках досить часто, змінні кваріати згадуються набагато рідше. Зазвичай, під час проведення експериментів з повторними вимірами, нас цікавлять розбіжності у вимірах тих самих величин у різні моменти часу. Зокрема, нас цікавить значимість цих відмінностей. Якщо одночасно з вимірюваннями залежних змінних проводиться вимірювання коваріат, можна обчислити кореляцію між коваріатою та залежною змінною.

Наприклад, можна вивчати інтерес до математики та математичні навички на початку та в кінці семестру. Цікаво було б перевірити, чи корельовані між собою зміни на користь математики зі зміною математичних навичок.

Модуль Дисперсійний аналізв STATISTICAавтоматично оцінює статистичну значущість зміни коваріат у тих планах, де це можливо.

Багатомірні плани: багатовимірний дисперсійний та коварійний аналіз

Міжгрупові плани

Всі приклади, що розглядалися раніше, включали тільки одну залежну змінну. Коли одночасно є кілька залежних змінних, зростає лише складність обчислень, а зміст та основні принципи не змінюються.

Наприклад, проводиться дослідження двох різних підручників. При цьому вивчаються успіхи студентів у вивченні фізики та математики. У цьому випадку є дві залежні змінні і потрібно з'ясувати, як впливають на них одночасно два різні підручники. Для цього можна скористатися багатовимірним дисперсійним аналізом (MANOVA). Замість одновимірного Fкритерію, використовується багатовимірний Fкритерій (l-критерій Вілкса), заснований на порівнянні матриці коваріаційної матриці помилок і міжгрупової матриці коваріаційної.

Якщо залежні змінні корелированы між собою, це кореляція повинна враховуватися при обчисленні критерію значимості. Очевидно, якщо один і той самий вимір повторюється двічі, то нічого нового отримати при цьому не можна. Якщо до наявного виміру додається корельований з ним вимір, то виходить деяка нова інформація, але при цьому нова змінна містить надмірну інформацію, яка відображається в коваріації між змінними.

Інтерпретація результатів.Якщо загальний багатовимірний критерій значимий, можна зробити висновок, що відповідний ефект (наприклад, тип підручника) значимий. Однак постають такі питання. Чи впливає тип підручника на покращення лише математичних навичок, лише фізичних навичок, або одночасно на покращення тих та інших навичок. Насправді, після отримання значущого багатовимірного критерію для окремого головного ефекту або взаємодії досліджується одномірний Fкритерій. Іншими словами, окремо досліджуються залежні змінні, які роблять внесок у значущість багатовимірного критерію.

Плани з повторними вимірами

Якщо вимірюються математичні та фізичні навички студентів на початку семестру та наприкінці, то це і є повторні виміри. Вивчення критерію значущості у таких планах це логічний розвиток одновимірного випадку. Зауважимо, що методи багатовимірного дисперсійного аналізу зазвичай також використовуються для дослідження значущості одновимірних факторів повторних вимірів, що мають більш як два рівні. Відповідні застосування будуть розглянуті пізніше у цій частині.

Підсумовування значень змінних та багатовимірний дисперсійний аналіз

Навіть досвідчені користувачі одновимірного та багатовимірного дисперсійного аналізу часто утрудняються, отримуючи різні результати при застосуванні багатовимірного дисперсійного аналізу, наприклад, для трьох змінних, і при застосуванні одновимірного дисперсійного аналізу до суми цих трьох змінних, як до однієї змінної.

Ідея підсумовуваннязмінних у тому, кожна змінна містить у собі деяку істинну змінну, що й досліджується, і навіть випадкову помилку виміру. Тому при усередненні значень змінних помилка вимірювання буде ближче до 0 для всіх вимірювань і усереднене значень буде більш надійним. Насправді, в цьому випадку застосування дисперсійного аналізу до суми змінних є розумним і є потужним методом. Однак якщо залежні змінні за своєю природою багатовимірні, підсумовування значень змінних є недоречним.

Наприклад, нехай залежні змінні складаються з чотирьох показників успіху у суспільстві. Кожен показник характеризує незалежну сторону людської діяльності (наприклад, професійний успіх, успішність у бізнесі, сімейний добробут тощо). Додавання цих змінних подібне до додавання яблука і апельсина. Сума цих змінних не буде відповідним одновимірним показником. Тому з такими даними потрібно поводитися як з багатовимірними показниками багатовимірному дисперсійному аналізі.

Аналіз контрастів та апостеріорні критерії

Чому порівнюються окремі множини середніх?

Зазвичай гіпотези щодо експериментальних даних формулюються непросто у термінах основних ефектів чи взаємодій. Прикладом може бути така гіпотеза: деякий підручник підвищує математичні навички лише в студентів чоловічої статі, тоді як інший підручник приблизно однаково ефективний обох статей, проте менш ефективний чоловікам. Можна передбачити, що ефективність підручника взаємодіє зі статтю студента. Однак цей прогноз стосується також природивзаємодії. Очікується значне різницю між статями для учнів з однієї книжці і майже залежні від статі результати для які у інших книжці. Такий тип гіпотез зазвичай досліджується за допомогою аналізу контрастів.

Аналіз контрастів

Якщо говорити коротко, аналіз контрастів дозволяє оцінювати статистичну значимість деяких лінійних комбінацій ефектів складного плану. Аналіз контрастів є головним і обов'язковим елементом будь-якого складного плану дисперсійного аналізу. Модуль Дисперсійний аналізмає досить різноманітні можливості аналізу контрастів, які дозволяють виділяти та аналізувати будь-які типи порівнянь середніх.

Апостеріорніпорівняння

Іноді внаслідок обробки експерименту виявляється несподіваний ефект. Хоча у більшості випадків творчий дослідник зможе пояснити будь-який результат, це не дає можливостей для подальшого аналізу та отримання оцінок для прогнозу. Ця проблема є однією з тих, для яких використовуються апостеріорні критерії, тобто критерії, які не використовують апріорнігіпотези. Для ілюстрації розглянемо такий експеримент. Припустимо, що у 100 картках записані числа від 1 до 10. Опустивши всі ці картки в шапку, ми випадково вибираємо 20 разів по 5 карток, і обчислюємо кожної вибірки середнє значення (середнє чисел, записаних на картки). Чи можна очікувати, що знайдуться дві вибірки, у яких середні значення значно відрізняються? Це дуже правдоподібно! Вибираючи дві вибірки з максимальним і мінімальним середнім, можна отримати різницю середніх, що відрізняється від різниці середніх, наприклад, перших двох вибірок. Цю різницю можна дослідити, наприклад, за допомогою аналізу контрастів. Якщо не вдаватися в деталі, то існує кілька так званих апостеріорнихкритеріїв, які засновані в точності на першому сценарії (взяття екстремальних середніх із 20 вибірок), тобто ці критерії засновані на виборі найбільш відмінних середніх для порівняння всіх середніх значень у плані. Ці критерії застосовуються для того, щоб суто випадково не отримати штучний ефект, наприклад, виявити значну різницю між середніми, коли його немає. Модуль Дисперсійний аналізпропонує широкий вибір таких критеріїв. Коли в експерименті, пов'язаному з кількома групами, трапляються несподівані результати, то використовуються апостеріорніпроцедури на дослідження статистичної значимості отриманих результатів.

Сума квадратів типу I, II, III та IV

Багатомірна регресія та дисперсійний аналіз

Існує тісний взаємозв'язок між методом багатовимірної регресії та дисперсійним аналізом (аналізом варіацій). І в тому, і в іншому методі досліджується лінійна модель. Якщо говорити коротко, то практично всі плани експерименту можна досліджувати за допомогою багатовимірної регресії. Розглянемо наступний простий міжгруповий 2 x 2 план.

DV A B AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

Стовпці А та В містять коди, що характеризують рівні факторів А та В, стовпець АxВ містить добуток двох стовпців А та В. Ми можемо аналізувати ці дані за допомогою багатовимірної регресії. Змінна DVвизначається як залежна змінна, змінні від Aдо AxBяк незалежні змінні. Дослідження значущості для коефіцієнтів регресії співпадатиме з обчисленнями у дисперсійному аналізі значимості головних ефектів факторів Aі Bта ефекту взаємодії AxB.

Незбалансовані та збалансовані плани

При обчисленні кореляційної матриці для всіх змінних, наприклад для даних, зображених вище, можна помітити, що головні ефекти факторів Aі Bта ефект взаємодії AxBнекорельовані. Цю властивість ефектів називають також ортогональністю. Говорять, що ефекти Aі B - ортогональніабо незалежніодин від одного. Якщо всі ефекти в плані ортогональні один одному, як у наведеному вище прикладі, то кажуть, що план збалансований.

Збалансовані плани мають “хорошу властивість”. Обчислення під час аналізу таких планів дуже прості. Усі обчислення зводяться до обчислення кореляції між ефектами та залежними змінними. Так як ефекти ортогональні, приватні кореляції (як у повній багатовимірноїрегресії) не обчислюються. Однак у реального життяплани не завжди збалансовані.

Розглянемо реальні дані з нерівним числом спостережень у осередках.

Фактор A Фактор B
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Якщо закодувати ці дані як вище та обчислити кореляційну матрицю для всіх змінних, то виявиться, що фактори плану корелюються один з одним. Фактори в плані тепер не ортогональні і такі плани називаються незбалансованими.Зауважимо, що в прикладі, що розглядається, кореляція між факторами повністю пов'язана з відмінністю частот 1 і -1 в стовпцях матриці даних. Іншими словами, плани експериментів з нерівними обсягами осередків (точніше, непропорційними обсягами) будуть незбалансованими, це означає, що головні ефекти та взаємодії змішуватимуться. І тут для обчислення статистичної значущості ефектів необхідно повністю обчислювати багатовимірну регресію. Тут є кілька стратегій.

Сума квадратів типу I, II, III та IV

Сума квадратів типуIіIII. Для вивчення значущості кожного фактора в багатовимірній моделі можна обчислювати приватну кореляцію кожного фактора за умови, що всі інші фактори вже враховані в моделі. Можна також вводити фактори в модель покроковим способом, фіксуючи всі фактори, що вже введені в модель і ігноруючи всі інші фактори. Взагалі, в цьому і полягає різниця між типом IIIі типомIсуми квадратів (ця термінологія була введена в SAS, див. наприклад, SAS, 1982; детальне обговорення можна також знайти в Searle, 1987, стор. 461; Woodward, Bonett, and Brecht, 1990, стор. 216; або Milliken and Johnson, 1984, стор 138).

Сума квадратів типуІІ.Наступна “проміжна” стратегія формування моделі полягає: у контролі всіх основних ефектів щодо значимості окремого головного ефекту; у контролі всіх основних ефектів та всіх попарних взаємодій, коли досліджується значимість окремої попарної взаємодії; у контролі всіх основних ефектів всіх попарних взаємодій та всіх взаємодій трьох факторів; щодо окремого взаємодії трьох чинників тощо. Суми квадратів для ефектів, що обчислюються таким способом, називаються типомIIсуми квадратів. Отже, типIIсуми квадратів контролює всі ефекти того ж порядку та нижче, ігноруючи всі ефекти вищого порядку.

Сума квадратів типуIV. Нарешті, для деяких спеціальних планів із пропущеними осередками (неповними планами) можна обчислювати, так звані, типу IVсуми квадратів. Цей метод обговорюватиметься пізніше у зв'язку з неповними планами (планами з пропущеними осередками).

Інтерпретація гіпотези про суму квадратів типу I, II та III

Суму квадратів типуIIIнайлегше інтерпретувати. Нагадаємо, що суми квадратів типуIIIдосліджують ефекти після контролю всіх інших ефектів. Наприклад, після знаходження статистично значущого типуIIIефекту для фактора Aу модулі Дисперсійний аналіз, можна сказати, що існує єдиний значущий ефект фактора Aпісля введення всіх інших ефектів (факторів) і відповідно інтерпретувати цей ефект. Ймовірно, у 99% усіх додатків дисперсійного аналізу саме цей тип критерію цікавить дослідника. Цей тип суми квадратів зазвичай обчислюється в модулі Дисперсійний аналізза замовчуванням, незалежно від того вибрано опцію Регресійний підхідчи ні (стандартні підходи прийняті в модулі Дисперсійний аналізобговорюються нижче).

Значні ефекти, отримані за допомогою сум квадратів типуабо типуIIсуми квадратів інтерпретувати не так просто. Найкраще їх інтерпретувати в контексті покрокової багатовимірної регресії. Якщо при використанні суми квадратів типуIголовний ефект фактора В виявився значимим (після включення в модель фактора А, але перед додаванням взаємодії між А і В), можна зробити висновок, що існує значний головний ефект фактора В, за умови, що немає взаємодії між факторами А і В. (Якщо при використання критерію типуIII, фактор В також виявився значним, то можна зробити висновок, що існує значний головний ефект фактора B, після введення в модель всіх інших факторів та їх взаємодій).

У термінах маргінальних середніх гіпотези типуIі типуIIзазвичай немає простої інтерпретації. У таких випадках кажуть, що не можна інтерпретувати значущість ефектів, розглядаючи лише маргінальні середні. Швидше представлені pзначень середніх мають відношення до складної гіпотези, яка комбінує середні та обсяг вибірки. Наприклад, типIIгіпотези для фактора А в простому прикладі плану 2 x 2, що раніше розглядаються (див. Woodward, Bonett, and Brecht, 1990, стор 219):

nij- Число спостережень в осередку

uij- Середнє значення в осередку

n. j- маргінальне середнє

Якщо не вдаватися в деталі (детальніше див. Milliken and Johnson, 1984, глава 10), то ясно, що це не прості гіпотези і в більшості випадків жодна з них не має особливого інтересу у дослідника. Однак існують випадки, коли гіпотези типуIможуть бути цікавими.

Обчислювальний підхід у модулі, що приймається за умовчанням Дисперсійний аналіз

За замовчуванням, якщо не зазначено опцію Регресійний підхід, модуль Дисперсійний аналізвикористовує модель середніх по осередках. Для цієї моделі характерно, що суми квадратів для різних ефектів обчислюються для лінійних комбінацій середніх значень осередків. У повному факторному експерименті це призводить до сум квадратів, які збігаються з сумами квадратів, які раніше обговорювали як тип III. Однак у опції Сплановані порівняння(у вікні Результати дисперсійного аналізу), користувач може перевіряти гіпотезу щодо будь-якої лінійної комбінації зважених або незважених середніх по осередках. Таким чином, користувач може перевіряти не лише гіпотези типуIIIале гіпотези будь-якого типу (включаючи типIV). Цей загальний підхід є особливо корисним, коли досліджуються плани з пропущеними осередками (так звані неповні плани).

Для повних факторних планів цей підхід корисно також використовувати у випадках, коли хочуть аналізувати зважені маргінальні середні. Наприклад, припустимо, що в аналізованому раніше простому 2 x 2 плані, потрібно порівняти виважені (за рівнями фактора B) маргінальні середні для фактора А. Це буває корисним, коли розподіл спостережень по осередках не готувалося експериментатором, а будувалося випадково, і ця випадковість відображається у розподілі числа спостережень за рівнями фактора B у сукупності.

Наприклад, є фактор – вік вдів. Можлива вибірка респондентів розбита на дві групи: молодше 40 років та старше 40 (фактор В). Другий чинник (фактор А) у плані - отримували чи ні соціальну підтримку вдови у певному агентстві (при цьому одні вдови були обрані випадково, інші служили як контроль). У цьому випадку розподіл удів за віком у вибірці відображає дійсний розподіл вдів за віком у сукупності. Оцінка ефективності групи соціальної підтримки вдів з всім вікомбуде відповідати виважене середнє для двох вікових груп (з вагами, що відповідають числу спостережень у групі).

Сплановані порівняння

Зауважимо, що сума запроваджених коефіцієнтів контрастів не обов'язково дорівнює 0 (нулю). Натомість програма автоматично вносити поправки, щоб відповідні гіпотези не змішувалися із загальним середнім.

Для ілюстрації цього повернемося знову до простого 2 x 2 плану, розглянутого раніше. Нагадаємо, що числа спостережень у осередках цього незбалансованого плану -1, 2, 3, і 1. Припустимо, що ми хочемо порівняти зважені середні маргінальні для фактора А (зважені з частотою рівнів фактора В). Можна ввести коефіцієнти розмаїття:

Зауважимо, що ці коефіцієнти не дають у сумі 0. Програма встановлюватиме коефіцієнти так, що в сумі вони даватиму 0, і при цьому зберігатимуться їх відносні значення, тобто:

1/3 2/3 -3/4 -1/4

Ці контрасти порівнюватимуть зважені середні для фактора А.

Гіпотези про головне середнє.Гіпотеза, у тому, що ні зважене головне середнє дорівнює 0 може досліджуватися з допомогою коефіцієнтів:

Гіпотеза про те, що зважене головне середнє 0 перевіряється за допомогою:

У жодному разі програма не здійснює коригування коефіцієнтів контрастів.

Аналіз планів із пропущеними осередками (неповні плани)

Факторні плани, що містять порожні осередки (обробка комбінацій осередків, у яких немає спостережень), називаються неповними. У таких планах деякі фактори зазвичай не ортогональні і деякі взаємодії не можуть бути обчислені. Взагалі немає кращого методу аналізу таких планів.

Регресійний підхід

У деяких старих програмах, які ґрунтуються на аналізі планів дисперсійного аналізу за допомогою багатовимірної регресії, фактори в неповних планах за замовчуванням задаються звичайним чином (начебто план повний). Потім проводиться багатовимірний регресійний аналіз цих фіктивно закодованих чинників. На жаль, цей метод призводить до результатів, які дуже важко, або навіть неможливо, інтерпретувати, оскільки неясно, як кожен ефект бере участь у лінійній комбінації середніх значень. Розглянемо наступний приклад.

Фактор A Фактор B
B1 B2
A1 3 4, 5
A2 6, 6, 7 Пропущено

Якщо виконуватиметься багатовимірна регресія виду Залежна змінна = Константа + Фактор A + Фактор B, то гіпотеза про значимість факторів A і B в термінах лінійних середніх комбінацій виглядає так:

Фактор A: Осередок A1, B1 = Осередок A2, B1

Фактор B: Осередок A1, B1 = Осередок A1, B2

Цей випадок простий. У складніших планах неможливо фактично визначити, що точно досліджуватиметься.

Середні осередки, підхід дисперсійного аналізу , гіпотези типу IV

Підхід, який рекомендується в літературі і який здається кращим – дослідження осмислених (з точки зору дослідницьких завдань) апріорнихгіпотез про середні, що спостерігаються в осередках плану. Докладне обговорення цього підходу можна знайти в Dodge (1985), Heiberger (1989), Milliken and Johnson (1984), Searle (1987) або Woodward, Bonett, and Brecht (1990). Суми квадратів, асоційовані з гіпотезами про лінійну комбінацію середніх у неповних планах, що досліджують оцінки частини ефектів, називаються також сумами квадратів IV.

Автоматична генерація гіпотез типуIV. Коли багатофакторні плани мають складний характер пропущених осередків, бажано визначити ортогональні (незалежні) гіпотези, дослідження яких еквівалентне дослідженню основних ефектів чи взаємодій. Були розвинені алгоритмічні (обчислювальні) стратегії (засновані на псевдозворотній матриці плану) для генерування ваги для таких порівнянь. На жаль, остаточні гіпотези визначаються не єдиним чином. Звичайно, вони залежать від порядку, в якому були визначені ефекти і рідко допускають просту інтерпретацію. Тому рекомендується уважно вивчити характер пропущених осередків, потім формулювати гіпотези типуIV, які найбільш змістовно відповідають цілям дослідження. Потім дослідити ці гіпотези, використовуючи опцію Сплановані порівнянняу вікні Результати. Найлегший шлях задати порівняння у цьому випадку – вимагати введення вектора контрастів для всіх факторів разому вікні Сплановані порівняння.Після виклику діалогового вікна Сплановані порівняннябудуть показані всі групи поточного плану та позначені ті, що пропущені.

Пропущені осередки та перевірка специфічного ефекту

Існує кілька типів планів, у яких розташування пропущених осередків невипадково, але ретельно сплановано, що дозволяє проводити простий аналіз головних ефектів не торкаючись інших ефектів. Наприклад, коли необхідна кількість комірок у плані недоступна, часто використовуються плани. Латинські квадратидля оцінювання основних ефектів кількох чинників із великою кількістю рівнів. Наприклад, 4 x 4 x 4 x 4 факторний план потребує 256 осередків. У той же час можна використовувати Греко-латинський квадратдля оцінки головних ефектів, маючи лише 16 осередків у плані (глава Планування експерименту, том IV містить детальний опис таких планів). Неповні плани, в яких головні ефекти (і деякі взаємодії) можуть бути оцінені за допомогою простих лінійних середніх комбінацій, називаються збалансованими неповними планами.

У збалансованих планах стандартний (за замовчуванням) метод генерування контрастів (ваг) для головних ефектів і взаємодій буде проводити аналіз таблиці дисперсій, в якій суми квадратів для відповідних ефектів не змішуються один з одним. Опція Специфічний ефектвікна Результатибуде генерувати пропущені контрасти, записуючи нуль у пропущені комірки плану. Відразу після того, як буде запрошено опцію Специфічний ефектдля користувача, який вивчає деяку гіпотезу, з'являється таблиця результатів із фактичними вагами. Зауважимо, що у збалансованому плані, суми квадратів відповідних ефектів обчислюються тільки, якщо ці ефекти ортогональні (незалежні) всім іншим головним ефектам та взаємодіям. В іншому випадку потрібно скористатися опцією Сплановані порівняннявивчення змістовних порівнянь між середніми.

Пропущені осередки та об'єднані ефекти/члени помилки

Якщо опція Регресійний підхіду стартовій панелі модуля Дисперсійний аналізне вибрано, то при обчисленні суми квадратів для ефектів використовуватиметься модель середніх за комірками (установка за замовчуванням). Якщо план не збалансований, то при поєднанні неортогональних ефектів (див. вище обговорення опції Пропущені осередки та специфічний ефект) можна отримати суму квадратів, що складається з неортогональних (або перекриваються) компонентів. Отримані при цьому результати зазвичай не інтерпретовані. Тому треба бути дуже обережним під час виборів та реалізації складних неповних експериментальних планів.

Існує багато книг із детальним обговоренням планів різного типу. (Dodge, 1985; Heiberger, 1989; Lindman, 1974; Milliken and Johnson, 1984; Searle, 1987; Woodward and Bonett, 1990), але така інформація лежить поза межами цього підручника. Проте пізніше в цьому розділі буде продемонстровано аналіз різного типу планів.

Припущення та ефекти порушення припущень

Відхилення від припущення щодо нормальності розподілів

Припустимо, що залежна змінна виміряна у числовій шкалі. Припустимо також, що залежна змінна має нормальний розподіл усередині кожної групи. Дисперсійний аналізмістить широкий набір графіків та статистик для обґрунтування цього припущення.

Ефекти порушення.Взагалі Fкритерій дуже стійкий до відхилення від нормальності (докладні результати див. у роботі Lindman, 1974). Якщо ексцес більший за 0, то значення статистики Fможе стати дуже маленьким. Нульова гіпотеза у своїй приймається, хоча може бути й неправильна. Ситуація змінюється на протилежну, коли ексцес менший за 0. Асиметрія розподілу зазвичай незначно впливає на Fстатистику. Якщо кількість спостережень у осередку досить велика, то відхилення від нормальності не має особливого значення в силу центральної граничної теореми, відповідно до якої, розподіл середнього значення близький до нормального, незалежно від початкового розподілу. Детальне обговорення стійкості FСтатистики можна знайти в Box and Anderson (1955), або Lindman (1974).

Однорідність дисперсії

Припущення.Передбачається, що дисперсії різних груп плану однакові. Це припущення називається припущенням про однорідності дисперсії.Згадаймо, що на початку цього розділу, описуючи обчислення суми квадратів помилок, ми робили підсумовування всередині кожної групи. Якщо дисперсії у двох групах відрізняються один від одного, то додавання їх не дуже природне і не дає оцінки загальної внутрішньогрупової дисперсії (оскільки в цьому випадку загальної дисперсії взагалі не існує). Модуль Дисперсійний аналіз -ANOVA/MANOVAмістить великий набір статистичних критеріїв виявлення відхилення припущень однорідності дисперсії.

Ефекти порушення.Ліндман (Lindman 1974, стор 33) показує, що Fкритерій цілком стійкий щодо порушення припущень однорідності дисперсії ( неоднорідністьдисперсії, див. також Box, 1954a, 1954b; Hsu, 1938).

Спеціальний випадок: кореленість середніх та дисперсій.Бувають випадки, коли Fстатистика може ввести в оману.Це буває, коли в осередках плану середні значення корелюються з дисперсією. Модуль Дисперсійний аналіздозволяє будувати діаграми розсіювання дисперсії або стандартного відхиленнящодо середніх виявлення такої кореляції. Причина, через яку така кореляція небезпечна, полягає в наступному. Уявімо, що є 8 осередків у плані, 7 з яких мають майже однакове середнє, а в одному осередку середнє набагато більше за інших. Тоді Fкритерій може виявити статистично значущий ефект. Але припустимо, що у осередку з великим середнім значенням і дисперсія значно більше інших, тобто. середнє значення і дисперсія в осередках залежні (що більше середнє, то більше вписувалося дисперсія). І тут велике середнє значення ненадійно, оскільки може бути викликано великий дисперсією даних. Однак Fстатистика, заснована на об'єднаноюдисперсії всередині осередків, фіксуватиме велике середнє, хоча критерії, засновані на дисперсії у кожному осередку, в повному обсязі відмінності середніх вважатимуть значимими.

Такий характер даних (велике середнє і велика дисперсія) - часто зустрічається, коли є спостереження, що різко виділяються. Одне або два різко виділяються спостережень сильно зміщують середнє значення і дуже збільшують дисперсію.

Однорідність дисперсії та підступів

Припущення.У багатовимірних планах, з багатовимірними залежними вимірами, також застосовуються припущення однорідності дисперсії, описані раніше. Однак так як існують багатовимірні залежні змінні, то потрібно так само, щоб їх взаємні кореляції (коваріації) були однорідними по всіх осередках плану. Модуль Дисперсійний аналізпропонує різні способиперевірки цих припущень.

Ефекти порушення. Багатовимірний аналог F- критерію - λ-критерій Вілкса. Не так багато відомо про стійкість (робастність) λ-критерію Вілкса щодо порушення зазначених вище припущень. Тим не менш, так як інтерпретація результатів модуля Дисперсійний аналізґрунтується зазвичай на значущості одновимірних ефектів (після встановлення значущості загального критерію), обговорення робастності стосується переважно одномірного дисперсійного аналізу. Тому має бути уважно досліджено значущість одновимірних ефектів.

Спеціальний випадок: підступний аналіз.Особливо серйозні порушення однорідності дисперсії/коваріацій можуть відбуватися, коли до плану включаються коваріати. Зокрема, якщо кореляція між коваріатами і залежними вимірами різна в різних осередках плану, може бути неправильне тлумачення результатів. Слід пам'ятати, що в коваріаційному аналізі, по суті, проводиться регресійний аналіз усередині кожного осередку для того, щоб виділити ту частину дисперсії, яка відповідає коваріату. Припущення про однорідність дисперсії/коваріації передбачає, що цей регресійний аналіз проводиться за наступного обмеження: все регресійні рівняння(Нахили) для всіх осередків однакові. Якщо це не передбачається, то можуть виникнути великі помилки. Модуль Дисперсійний аналізмає кілька спеціальних критеріїв для перевірки цього припущення. Можна порадити використовувати ці критерії, щоб переконатися, що регресійні рівняння для різних осередків приблизно однакові.

Сферичність та складна симетрія: причини використання багатовимірного підходу до повторних вимірів у дисперсійному аналізі

У планах, що містять фактори повторних вимірювань з більш ніж двома рівнями, застосування одновимірного дисперсійного аналізу потребує додаткових припущень: припущення складної симетрії та припущення сферичності. Ці припущення рідко виконуються (див. нижче). Тому в останні роки багатовимірний дисперсійний аналіз завоював популярність у таких планах (обидва підходи поєднані в модулі Дисперсійний аналіз).

Припущення про складну симетріюПрипущення складної симетрії у тому, що дисперсії (загальні внутригрупповые) і ковариации (по групам) щодо різних повторних вимірів однорідні (однакові). Це достатня умова для того, щоб одномірний критерій F для повторних вимірювань був обґрунтованим (тобто видані F-значення в середньому відповідали F-розподілу). Проте в даному випадку ця умова не є необхідною.

Припущення про сферичність.Припущення про сферичність є необхідним та достатньою умовоютого, щоб F-критерій був обґрунтованим. Воно у тому, що у груп всі спостереження незалежні і однаково розподілені. Природа цих припущень, а також вплив їх порушень зазвичай не дуже добре описані в книгах дисперсійного аналізу - ця буде описана в наступних параграфах. Там буде показано, що результати одновимірного підходу можуть відрізнятися від результатів багатовимірного підходу, і буде пояснено, що це означає.

Необхідність незалежності гіпотез.Загальний спосіб аналізу даних у дисперсійному аналізі – це припасування моделі. Якщо щодо моделі, що відповідає даним, є деякі апріорнігіпотези, то дисперсія розбивається для перевірки цих гіпотез (критерії основних ефектів, взаємодій). З погляду обчислень, цей підхід генерує кілька контрастів (множина порівнянь середніх у плані). Однак якщо контрасти не незалежні один від одного, розбиття дисперсій стає беззмістовним. Наприклад, якщо два контрасти Aі Bтотожні і виділяється відповідна їм частина з дисперсії, то та сама частина виділяється двічі. Наприклад, безглуздо і безглуздо виділяти дві гіпотези: "середнє в осередку 1 вище середнього в осередку 2" і "середнє в осередку 1 вище середнього в осередку 2". Отже, гіпотези мають бути незалежні або ортогональні.

Незалежні гіпотези при повторних вимірах.Загальний алгоритм, реалізований у модулі Дисперсійний аналіз, намагатиметься для кожного ефекту генерувати незалежні (ортогональні) контрасти. Для фактора повторних вимірювань ці контрасти задають безліч гіпотез щодо різницьміж рівнями аналізованого фактора. Однак якщо ці різниці корелюються всередині груп, то результуючі контрасти не є більш незалежними. Наприклад, у навчанні, де учні вимірюються тричі за один семестр, може статися, що зміни між 1 і 2 виміром негативно корелюють зі зміною між 2 та 3 вимірами суб'єктів. Ті, хто більшу частину матеріалу освоїв між 1 і 2 вимірами, освоюють меншу частину протягом того часу, який пройшов між 2 і 3 виміром. Насправді, для більшості випадків, де дисперсійний аналіз використовуються при повторних вимірах, можна припустити, що зміни за рівнями корелюються суб'єктами. Однак коли це трапляється, припущення про складну симетрію та припущення про сферичність не виконуються і незалежні контрасти не можуть бути обчислені.

Вплив порушень та способи їх виправлення.Коли припущення про складну симетрію або сферичність не виконуються, дисперсійний аналіз може видати помилкові результати. До того, як були розроблені багатовимірні процедури, було запропоновано кілька припущень для компенсації порушень цих припущень. (див., наприклад, роботи Greenhouse & Geisser, 1959 та Huynh & Feldt, 1970). Ці методи досі широко використовуються (тому вони представлені в модулі Дисперсійний аналіз).

Підхід багатовимірного дисперсійного аналізу до повторних вимірів.Загалом проблеми складної симетрії та сферичності відносяться до того факту, що безліч контрастів, включених у дослідження ефектів факторів повторних вимірів (з числом рівнів більшим, ніж 2) не незалежні один від одного. Однак їм не обов'язково бути незалежними, якщо використовується багатовимірнийкритерій для одночасної перевірки статистичного значеннядвох чи більше контрастів фактора повторних вимірів. Це є причиною того, що методи багатовимірного дисперсійного аналізу стали частіше використовуватися для перевірки значущості факторів одновимірних повторних вимірів з більш ніж 2 рівнями. Цей підхід широко поширений, тому що він, у загальному випадку, не вимагає припущення про складну симетрію та припущення про сферичність.

Випадки, в яких підхід багатовимірного дисперсійного аналізу не може бути використаний.Існують приклади (плани), коли підхід багатовимірного дисперсійного аналізу може бути застосований. Зазвичай це випадки, коли є невелика кількість суб'єктів у плані та багато рівнів у факторі повторних вимірів. Тоді для проведення багатовимірного аналізу може бути замало спостережень. Наприклад, якщо є 12 суб'єктів, p = 4 фактора повторних вимірювань, і кожен фактор має k = 3 рівнів. Тоді взаємодія 4-х факторів "витрачатиме" (k-1) P = 2 4 = 16 степенів свободи. Проте є лише 12 суб'єктів, отже, у цьому прикладі багатовимірний тест може бути проведено. Модуль Дисперсійний аналізсамостійно виявить ці спостереження та обчислить лише одномірні критерії.

Відмінності в одновимірних та багатовимірних результатах.Якщо дослідження включає велику кількість повторних вимірювань, можуть виникнути випадки, коли одновимірний підхід дисперсійного аналізу до повторних вимірювань дає результати, які сильно відрізняються від тих, які були отримані при багатовимірному підході. Це означає, що різниці між рівнями відповідних повторних вимірів корелюються суб'єктами. Іноді цей факт представляє певний самостійний інтерес.

Багатомірний дисперсійний аналіз та структурне моделювання рівнянь

В останні роки моделювання структурних рівнянь стало популярним як альтернатива багатовимірному аналізу дисперсії (див. наприклад, Bagozzi and Yi, 1989; Bagozzi, Yi, and Singh, 1991; Cole, Maxwell, Arvey, and Salas, 1993). Цей підхід дозволяє перевіряти гіпотези не тільки про середні в різних групах, але так само і про кореляційні матриці залежних змінних. Наприклад, можна послабити припущення про однорідність дисперсії та підступів і явно включити в модель для кожної групи дисперсії та підступності помилки. Модуль STATISTICAМоделювання структурними рівняннями (SEPATH) (див. Том III) дозволяє проводити такий аналіз.

ДИСПЕРСІЙНИЙ АНАЛІЗ

у математичній статистиці - статистичний методпризначений для виявлення впливу окремих факторів на результат експерименту, а також для подальшого планування аналогічних експериментів. Спочатку Д. а. був запропонований Р. Фішером для обробки результатів агрономіч. Дослідів з виявлення умов, при яких брало випробовуваний сорт сільськогосподарської культури дає максимальний урожай. Сучасні додатки Д. а. охоплюють широке завдання економіки, соціології, біології та техніки і трактуються зазвичай у термінах статистич. теорії виявлення систематич. відмінностей між результатами безпосередніх вимірювань, виконаних за тих інших змінних умов.

Якщо значення невідомих постійних a 1 , ... , a Iможуть бути виміряні за допомогою різних методів або вимірювальних засобів М 1,..., M J ,і в кожному випадку систематич. помилка b ijможе, взагалі кажучи, залежати як від обраного методу Mj,так і від невідомого вимірюваного значення а i, то результати таких вимірювань є сумою виду

де К- кількість незалежних вимірів невідомої величини а iметодом M j , a у ijk- Випадкова помилка k-говимірювання величини а iметодом M j(передбачається, що все y ijk- незалежні однаково розподілені випадкові величини, що мають нульовий математич. очікування: Е у ijk=0). Така лінійна зв. двофакторною схемою Д. а.; перший - справжнє значення вимірюваної величини, другий - метод вимірювання, причому в даному випадку для кожної можливої ​​комбінації значень першого і другого факторів здійснюється однакова кількість незалежних вимірювань (це припущення для цілей Д. а. не є суттєвим і введено тут лише задля простоти викладу) .

Прикладом подібної ситуації можуть бути спортивні змагання I спортсменів, майстерність яких оцінюється Jсуддями, причому кожен учасник змагань виступає Краз (має К "спроб"). В цьому випадку а i- дійсне значення показника майстерності спортсмена з номером i, b ij- Систематич. помилка, що вноситься в оцінку майстерності i-го спортсмена суддею з номером j, x ijk- оцінка, виставлена j-м суддею пану спортсмену після виконання останнім k-йспроби, а y ijk- Відповідна випадкова. Подібна типова для так зв. суб'єктивної експертизи якості кількох об'єктів, що здійснюється групою незалежних експертів. Інший приклад – статистич. дослідження врожайності сільськогосподарської культури залежно від одного з J сортів ґрунту та J методів її обробітку, причому для кожного сорту г ґрунту та кожного методу обробки з номером J здійснюється донезалежних експериментів (у цьому прикладі b ij- справжнє значення врожайності для г-го сорту ґрунту при j-му способіобробки, x ijk- відповідна експериментально спостерігається врожайність у k-мдосвіді, а y ijk- її випадкова помилка, що виникає через ті чи інші випадкові причини; що ж до величин а i, то в агрономіч. дослідах їх розумно вважати рівними нулю).

Покладемо c ij = a i + b ij ,і нехай з i*, з *j і з ** - результати середовищ з ijза відповідними індексами, тобто.

Нехай, крім того, a = c ** , b i=з i*-з **, g j = з *j-з** та d ij=з ij-з i*-з *j+ c **. Ідея Д. а. заснована на очевидному тотожності

Якщо символом ( c ij)позначити розмірності IJ, що отримується з матриці || ij|| порядку IXJ за допомогою будь-якого заздалегідь фіксованого способу впорядкування її елементів, то (1) можна записати у вигляді рівності, де всі вектори мають IJ, причому a ij=a, b ij=b i, g ij= g j. Так як чотири вектори у правій частині (2) ортогональні, то a ij=a - найкраще наближення функції c ijвід аргументів i та jпостійною величиною [у сенсі мінімальності суми квадратів відхилень ]. У тому ж значенні a ij+b ij=a+b i- найкраще c ijфункцією, яка залежить лише від i, a ij+g ij=a+g j- найкраще наближення c ijфункцією, яка залежить лише від j, a a ij+b ij+g ij=a+b i+g j- найкраще наближення c ijсумою функцій, з яких брало одна (напр., a + b i) Залежить лише від г, а інша - лише від j. Цей факт, встановлений Р. Фішером в 1918, пізніше послужив основою теорії квадратичних наближень функцій.

У прикладі, пов'язаному зі спортивними змаганнями, d ijвисловлює "взаємодія" г-го спортсмена та j-го судді (позитивне значення б/в означає "підсуджування", т. с. систематич. завищення /-м суддею оцінки майстерності i-го спортсмена, а негативне значення б/в означає " засудження", тобто систематич. зниження оцінки). Рівність всіх б/в нулю - необхідна вимога, яку слід пред'являти до роботи групи експертів. У разі агрономич. Дослідів така рівність розглядається як гіпотеза, що підлягає перевірці за результатами експериментів, оскільки основна мета тут - відшукання таких значень iі j, при яких брало функція (1) досягає максимального значення. Якщо ця гіпотеза вірна, то

і значить, виявлення найкращих "ґрунтів" і "обробки" може бути здійснено роздільно, що призводить до істотного скорочення числа експериментів (напр., можна при будь-якому одному способі обробки випробувати всі сорти "ґрунту" і визначити найкращий сорт, а потім на цьому сорті випробувати все Jспособів "обробки" та знайти найкращий спосіб; загальна кількість експериментів з повтореннями дорівнюватиме (I+J) К) . Якщо ж гіпотеза (всі d ij=0) неправильна, то визначення max c ijнеобхідний описаний вище "повний план", що вимагає при повтореннях IJКекспериментів.

У ситуації спортивних змагань функція g ij= g jможе трактуватися як систематич. помилка, що допускається j-м суддею стосовно всіх спортсменів. Зрештою g j- Характеристика "суворості" або "ліберальності" j-го судді. В ідеалі хотілося б, щоб всі g jбули нульовими, але в реальних умовах доводиться миритися з наявністю ненульових значень g jі враховувати цю обставину під час підбиття підсумків експертизи (напр., за основу порівняння майстерності спортсменів можна прийняти не послідовності істинних значень a+b 1 +g j, ..., a+b I+g j, a лише результати впорядкування цих чисел за їх величиною, оскільки при всіх j=1, . . . , Jтакі впорядкування будуть однаковими). Нарешті, сума двох функцій, що залишилися a ij+b ij=a+b iзалежить лише від і тому може бути використана для характеризації майстерності пана спортсмена. Однак тут слід пам'ятати, що тому впорядкування всіх спортсменів за значеннями a+b i(або по a+ + b i+g jпри кожному фіксованому j) може не збігатися з упорядкуванням за значеннями a i. При практичній обробці експертних оцінок цією обставиною доводиться нехтувати, оскільки згаданий повний план експериментів не дозволяє оцінювати окремо a iі b i*. Таким чином, a+b i=a i + b i*характеризує не лише майстерність i-го спортсмена, а й у тому мірою експертів до цієї майстерності. Тому, напр., результати суб'єктивних експертних оцінок, здійснених у різний час (зокрема, на кількох Олімпійських іграх), навряд чи можна вважати порівнянними. У разі агрономич. Дослідів подібні труднощі не виникають, оскільки всі a i=0 і отже, a+b i=b i*.

Справжні значення функцій a, b i, g iі d ijневідомі та виражаються у термінах невідомих функцій c ij.Тому перший етап Д. а. полягає у відшуканні статистич. оцінок для c ijза результатами спостережень x ijk.Незміщена та має мінімальну дисперсію для c ijвиражається формулою

Оскільки a, b i, g jі d ij- Лінійні функції від елементів матриці ||c ij||, то незміщені лінійні оцінки цих функцій, мають мінімальну дисперсію, виходять у результаті заміни аргументів c ijвідповідними оцінками, c ij ,тобто випадкові вектори та визначені так само, як введені вище (a ij), (b ij), (g ij). і (d ij), мають властивість ортогональності, і значить, вони являють собою некорельовані випадкові вектори (іншими словами, будь-які дві компоненти, що належать різним векторам, мають нульову кореляцію). Крім того, будь-яка виду

некорельована з будь-яким компонентом цихчотири вектори. Розглянемо п'ять сукупностей випадкових величин (x ijk), (x ijk-x ij * ),Так як

то дисперсії емпірич. розподілів, що відповідають зазначеним сукупностям, виражаються формулами

Ці емпірич. дисперсії являють собою суми квадратів випадкових величин, будь-які дві з яких некорельовані, якщо тільки вони належать різним сумам; при цьому щодо всіх y ijkсправедливо тотожність

пояснювальне походження терміна "Д. а." Нехай і нехай

в такому випадку

де s 2 – дисперсія випадкових помилок y ijk.

На основі цих формул і будується другий етап Д. а., присвячений виявленню впливу першого і другого факторів на результати експерименту (в агрономічних дослідах перший фактор - сорт "ґрунту", другий - спосіб "обробки"). Напр., якщо потрібно перевірити гіпотезу відсутності "взаємодії" факторів, яка виражається рівністюто розумно обчислити дисперсійне відношення s 2 3 /s 2 0 = F 3 .Якщо це відношення істотно відрізняється від одиниці, то гіпотеза, що перевіряється, відкидається. Так само для перевірки гіпотези корисне ставлення s 2 2 /s 2 0 = F 2 ,яке слід також порівняти з одиницею; якщо при цьому відомо, що замість F 2доцільно порівняти з одиницею відношення

Аналогічним чином можна побудувати статистику, що дозволяє дати висновок про справедливість чи хибність гіпотези

Точний сенс поняття значної відмінності зазначених відносин від одиниці може бути визначений лише з урахуванням закону розподілу випадкових помилок y ijk.У Д. а. найбільш докладно вивчена ситуація, в якій всі y ijkрозподілено нормально. У цьому випадку – незалежні випадкові вектори, а - незалежні випадкові величини, причому

відносини підпорядковуються нецентральним розподілам хі-квадрат з f mступенями свободи та параметрами нецентральності l т, m=0, 1, 2, 3, де

Якщо параметр нецентральності дорівнює нулю, то нецентральний хі-квадрат збігається із звичайним розподілом хі-квадрат. Тому у разі справедливості гіпотези l 3 =0 відношення підпорядковується F-розподілу (розподілу дисперсійного відношення) з параметрами f 3 і f 0 . Нехай х- таке число, для якого події (F 3 >x)дорівнює заданому значенню е, що називається рівнем значущості (таблиці функції х = х(e; f 3 , f 0) є в більшості посібників з математики. статистики). Критерієм для перевірки гіпотези l 3 =0 служить правило, згідно до якого ця гіпотеза відкидається, якщо спостерігається значення F 3перевищує х; інакше гіпотеза вважається не суперечить результатам спостережень. Аналогічно конструюються критерії, засновані на статистиках F 2і F* 2 .

Подальші етапи Д. а. суттєво залежать не тільки від реального змісту конкретного завдання, але також і від результатів статистичних. перевірки гіпотез другого етапу. наприклад, в умовах агрономич. Дослідів справедливість гіпотези l 3 =0, як зазначено вище, дозволяє більш економно спланувати аналогічні подальші експерименти (якщо крім гіпотези l 3 =0 справедлива також і гіпотеза l 2 =0, то це означає, що врожайність залежить лише від сорту "ґрунту", і тому в подальших дослідах можна скористатися схемою однофакторного Д. а); якщо ж гіпотеза l 3 =0 відкидається, то розумно перевірити, чи немає в цій задачі неврахованого третього фактора? Якщо сорти "грунту" і способи її "обробки" варіювалися не в тому самому місці, а в різних географічних. зонах, то таким фактором можуть бути кліматич. або географічні. умови, і "обробка" спостережень вимагатиме застосування трифакторного Д. а.

У разі експертних оцінок статистично підтверджена справедливість гіпотези l 3 = 0 дає підставу для впорядкування порівнюваних об'єктів (напр., спортсменів) за значеннями величин i=l, . .. , I.

Якщо ж гіпотеза l 3 =0 відкидається (у задачі про спортивні змагання це означає статистич. виявлення "взаємодії" деяких спортсменів і суддів), то природно спробувати перевичнслити всі результати заново, попередньо виключивши з розгляду x ijkз такими парами індексів ( i, j), для яких брало абсолютні значення статистич. оцінок d ijперевищують деякий заздалегідь встановлений допустимий рівень. Це означає, що з матриці | | x ij * | |викреслюються деякі елементи, і значить, план Д. а. стає неповним.

Моделі сучасного Д. а. охоплюють широке коло реальних експериментальних схем (напр., схеми неповних планів, з випадково чи невипадково відібраними елементами x ij*). Відповідні цим схемам статистич. висновки у часто перебувають у стадії розробки. Зокрема, ще (до 1978) далекі від остаточного вирішення ті завдання, в яких брало результати спостережень x ijk=c ij +y ijkє однаково розподіленими випадковими величинами; ще важче завдання виникає у разі залежності величин x ijk.Невідомо проблеми вибору факторів (навіть у лінійному випадку). Суть цієї проблеми полягає в наступному: нехай с=с(і, v)- і нехай u=u(z, wu=u(z, w)- будь-які лінійні функції від змінних г і w.Фіксуючи значення z 1 . .., z Iі w 1 , . . ., w J ,можна при кожному заданому виборі лінійних функцій ІІ u . визначити c ijформулою та побудувати Д. а. цих величин за результатами відповідних спостережень x ijk. Проблема полягає у відшуканні таких лінійних функцій u та u , до-рим відповідає мінімальне значення суми квадратів

де (передбачається, що функція з ( і, v) Невідома). У термінах Д. а. ця проблема зводиться до статистич. відшукання таких факторів z=z(u, vw-w(u, v), до-рим відповідає "найменша взаємодія".

Літ.: Fisher R. A., Statistical methods for research workers, Edinburgh, 1925; Шеффе Р., Дисперсійний аналіз, пров. з англ., М., 1963; Xальд А., Математична з технічними програмами, пров. з англ., М., 1956; Снедекор Д ж. У., Статистичні методи у застосуванні до досліджень у сільському господарстві та біології, пров. з англ., М., 1961.

Л. Н. Більше.


Математична енциклопедія. - М: Радянська енциклопедія. І. М. Виноградов. 1977-1985.

Дивитись що таке "ДИСПЕРСІЙНИЙ АНАЛІЗ" в інших словниках:

    Метод у математичній статистиці, спрямований на пошук залежностей в експериментальних даних шляхом дослідження значущості відмінностей у середніх значеннях. У літературі також зустрічається позначення ANOVA (від англ. ANalysis Of… … Вікіпедія

    - (analysis of variance) Статистичний метод, заснований на розкладанні загальної дисперсії (variance) будь-якої характеристики населення на складові, що корелюють з іншими характеристиками, і залишкову варіацію (residual variation). У… … Економічний словник

    Один із методів математичної статистики, що застосовується для аналізу результатів спостережень, що залежать від різних, одночасно діючих факторів, які не піддаються, як правило, кількостей. опису. Розглянемо найпростіше із завдань Д. а. Нехай … Фізична енциклопедія

    Дисперсійний аналіз- Розділ математичної статистики, присвячений методам виявлення впливу окремих факторів на результат експерименту (фізичного, виробничого, економічного експерименту). Д.а. виник як засіб обробки результатів. Економіко-математичний словник

    дисперсійний аналіз- дисперсійний аналіз Розділ математичної статистики, присвячений методам виявлення впливу окремих факторів на результат експерименту (фізичного, виробничого, … Довідник технічного перекладача

Дисперсійний аналіз є сукупність статистичних методів, призначених для перевірки гіпотез про зв'язок між певними ознаками та досліджуваними факторами, які не мають кількісного опису, а також для встановлення ступеня впливу факторів та їхньої взаємодії. У спеціальній літературі часто називають ANOVA (від англомовної назви Analysis of Variations). Вперше цей метод був розроблений Р. Фішером у 1925 р.

Види та критерії дисперсійного аналізу

Цей метод використовується для дослідження зв'язку між якісними (номінальними) ознаками та кількісною (безперервною) змінною. По суті, він здійснює тестування гіпотези про рівність середніх арифметичних кількох вибірок. Таким чином, його можна розглядати як параметричний критерій для порівняння центрів кількох вибірок. Якщо використовувати цей метод для двох вибірок, результати дисперсійного аналізу будуть ідентичні результатам t-критерію Стьюдента. Проте, на відміну інших критеріїв, це дослідження дозволяє вивчити проблему детальніше.

Дисперсійний аналіз у статистиці базується на законі: сума квадратів відхилень об'єднаної вибірки дорівнює сумі квадратів внутрішньогрупових відхилень та сумі квадратів міжгрупових відхилень. Для дослідження використовується критерій Фішера для встановлення значущості відмінності міжгрупових дисперсій від внутрішньогрупових. Однак для цього необхідними передумовами є нормальність розподілу та гомоскедастичність (рівність дисперсій) вибірок. Розрізняють одномірний (однофакторний) дисперсійний аналіз та багатовимірний (багатофакторний). Перший розглядає залежність досліджуваної величини від однієї ознаки, другий - відразу від багатьох, а також дозволяє виявити зв'язок між ними.

Чинники

Чинниками називають контрольовані обставини, що впливають на кінцевий результат. Його рівнем чи способом обробки називають значення, що характеризує конкретний прояв цієї умови. Ці цифри зазвичай подають у номінальній чи порядковій шкалі вимірювань. Часто вихідні значення вимірюють у кількісних чи порядкових шкалах. Тоді виникає проблема угруповання вихідних даних у низці спостережень, що відповідають приблизно однаковим числовим значенням. Якщо кількість груп взяти надмірно більшим, то кількість спостережень у них може виявитися недостатньою для отримання надійних результатів. Якщо брати число надмірно малим, це може призвести до втрати суттєвих особливостейвпливу систему. Конкретний спосіб угруповання даних залежить від обсягу та характеру варіювання значень. Кількість та розміри інтервалів при однофакторному аналізі найчастіше визначають за принципом рівних проміжків або за принципом рівних частот.

Завдання дисперсійного аналізу

Отже, існують випадки коли потрібно порівняти дві або більше вибірок. Саме тоді й доцільне застосування дисперсійного аналізу. Назва методу свідчить про те, що висновки роблять з урахуванням дослідження складових дисперсії. Суть вивчення полягає в тому, що загальну зміну показника розбивають на складові, що відповідають дії кожного окремо взятого фактора. Розглянемо низку завдань, які вирішує типовий дисперсійний аналіз.

Приклад 1

У цеху є ряд верстатів – автоматів, які виготовляють певну деталь. Розмір кожної деталі - це випадкова величина, яка залежить від налаштування кожного верстата та випадкових відхилень, що виникають у процесі виготовлення деталей Потрібно за даними вимірів розмірів деталей визначити, чи однаково налаштовані верстати.

Приклад 2

Під час виготовлення електричного апарату використовують різні типи ізоляційного паперу: конденсаторний, електротехнічний та ін. Апарат можна просочити різними речовинами: епоксидною смолою, лаком, смолою МЛ-2 та ін. Просочувати можна методом занурення в лак, під безперервним струменем лаку і т. п. Електричний апарат загалом заливають певним компаундом, варіантів якого є кілька. Показниками якості є електрична міцність ізоляції, температура перегріву обмотки в робочому режимі та інші. Під час відпрацювання технологічного процесу виготовлення апаратів треба визначити, як впливає кожен із перерахованих факторів на показники апарату.

Приклад 3

Тролейбусне депо обслуговує кілька тролейбусних маршрутів. На них працюють тролейбуси різних типів і оплату за проїзд збирають 125 контролерів. Керівництво депо цікавить питання: як порівняти економічні показники роботи кожного контролера (виручку) з огляду на різні маршрути, різні типи тролейбусів? Як визначити економічну доцільність випуску тролейбусів певного типу на той чи інший маршрут? Як встановити обґрунтовані вимоги до величини виручки, яку приносить кондуктор на кожному маршруті в різних типах тролейбусів?

Завдання на вибір методу полягає в тому, як отримати максимум інформації щодо впливу на кінцевий результат кожного фактора, визначити числові характеристикитакого впливу, їх надійність за мінімальних витрат і за максимально короткий час. Вирішити такі завдання дозволяють методи дисперсійного аналізу.

Однофакторний аналіз

Дослідження своєю метою ставить оцінку величини впливу конкретного випадку на аналізований відгук. Іншим завданням однофакторного аналізуможе бути порівняння двох або кількох обставин одна з одною з метою визначення різниці їх впливу на відкликання. Якщо нульову гіпотезу відкидають, то наступним етапом буде кількісне оцінювання та побудова довірчих інтервалів для одержаних характеристик. У разі коли нульова гіпотеза не може бути відкинутою, зазвичай її приймають і роблять висновок про сутність впливу.

Однофакторний дисперсійний аналіз може стати непараметричним аналогом рангового методу Фаркела-Уолліса. Він розроблений американськими математиком Вільямом Краскелом та економістом Вільсоном Уоллісом у 1952 р. Цей критерій призначений для перевірки нульової гіпотези про рівність ефектів впливу на досліджувані вибірки з невідомими, але рівними середніми величинами. При цьому кількість вибірок має бути більшою за дві.

Критерій Джонкхієра (Джонкхієра-Терпстра) був запропонований незалежно один від одного нідерландським математиком Т. Дж. Терпстром у 1952 р. та британським психологом Є. Р. Джонкхієром у 1954 р. Його застосовують тоді, коли заздалегідь відомо, що наявні групи результатів упорядковані за зростання впливу досліджуваного фактора, який вимірюють у порядковій шкалі.

М - критерій Бартлетта, запропонований британським статистиком Мауріс Стівенсон Бартлетт в 1937 р., застосовують для перевірки нульової гіпотези про рівність дисперсій кількох нормальних генеральних сукупностей, з яких взяті досліджувані вибірки, в загальному випадку мають різні обсяги (число кожної вибірки повинно бути ).

G – критерій Кохрена, який відкрив американець Вільям Геммел Кохрен у 1941 р. Його використовують для перевірки нульової гіпотези про рівність дисперсій нормальних генеральних сукупностей із незалежних вибірок рівного обсягу.

Непараметричний критерій Левен, запропонований американським математиком Ховардом Левен в 1960 р., є альтернативою критерію Бартлетта в умовах, коли немає впевненості в тому, що досліджувані вибірки підкоряються нормальному розподілу.

У 1974 р. американські статистики Мортон Б. Браун та Алан Б. Форсайт запропонували тест (критерій Брауна-Форсайта), який дещо відрізняється від критерію Левене.

Двофакторний аналіз

Двофакторний дисперсійний аналіз застосовують для пов'язаних нормально розподілених вибірок. Насправді часто використовують і складні таблиці цього, зокрема ті, у яких кожна осередок містить набір даних (повторні виміри), відповідних фіксованим значенням рівнів. Якщо припущення, необхідні застосування двофакторного дисперсійного аналізу, не виконуються, то використовують непараметричний ранговий критерій Фрідмана (Фрідмана, Кендалла і Сміта), розроблений американським економістом Мілтоном Фрідманом наприкінці 1930 р. Цей критерій залежить від типу розподілу.

Передбачається тільки, що розподіл величин є однаковим і безперервним, а вони самі незалежні одна від одної. При перевірці нульової гіпотези вихідні дані подають у формі прямокутної матриці, в якій рядки відповідають рівням фактора В, а стовпці - рівням А. Кожна комірка таблиці (блоку) може бути результатом вимірювань параметрів на одному об'єкті або групі об'єктів при постійних значенняхрівнів обох факторів. У цьому випадку відповідні дані подають як середні значення певного параметра за всіма вимірами або об'єктами досліджуваної вибірки. Для застосування критерію вихідних даних необхідно перейти від безпосередніх результатів вимірювань до їхнього рангу. Ранжування здійснюють по кожному рядку окремо, тобто величини впорядковують кожного фіксованого значення.

Критерій Пейджа (L-критерій), запропонований американським статистиком Е. Б. Пейджем у 1963 р., призначений для перевірки нульової гіпотези. Для більших вибірок застосовують апроксимацію Пейджа. Вони за умови реальності відповідних нульових гіпотез підпорядковуються стандартному нормальному розподілу. У разі, коли у рядках вихідної таблиці є однакові значення, необхідно використовувати середні ранги. При цьому точність висновків буде гіршою, чим більше буде кількостей таких збігів.

Q - критерій Кохрена, запропонований В. Кохреном в 1937 р. Його використовують у випадках, коли групи однорідних суб'єктів піддаються впливам, кількість яких перевищує два і для яких можливі два варіанти відгуків - умовно-негативний (0) та умовно-позитивний (1) . Нульова гіпотеза складається з рівності ефектів впливу. Двофакторний дисперсійний аналіз дає можливість визначити існування ефектів обробки, проте не дає можливості встановити, для яких саме стовпців існує цей ефект. При вирішенні цієї проблеми застосовують метод множинних рівняньШеффе для пов'язаних вибірок.

Багатофакторний аналіз

Завдання багатофакторного дисперсійного аналізу виникає тоді, коли потрібно визначити вплив двох чи більше умов на певну випадкову величину. Дослідження передбачає наявність однієї залежної випадкової величини, виміряної в шкалі різниці або відносин, та кількох незалежних величин, кожна з яких виражена в шкалі найменувань або ранговій. Дисперсійний аналіз даних є досить розвиненим розділом математичної статистики, що має безліч варіантів. Концепція дослідження загальна як однофакторного, так багатофакторного. Сутність її полягає в тому, що загальну дисперсію розбивають на складові, що відповідає певному угрупованню даних. Кожному угрупованню даних відповідає своя модель. Тут ми розглянемо лише основні положення, необхідні розуміння і практичного використання найбільш застосовуваних його варіантів.

Дисперсійний аналіз факторів вимагає досить уважного ставлення до збору та подачі вхідних даних, а особливо до інтерпретації результатів. На відміну від однофакторного, результати якого можна умовно розмістити у певній послідовності, результати двофакторного вимагають складнішого уявлення. Ще складніша ситуація виникає, коли є три, чотири чи більше обставин. Через це модель досить рідко включають більше трьох (чотирьох) умов. Прикладом може бути виникнення резонансу за певної величини ємності та індуктивності електричного кола; прояв хімічної реакції за певної сукупності елементів, у тому числі побудована система; виникнення аномальних ефектів у складних системах за певного збігу обставин. Наявність взаємодії може докорінно змінити модель системи та іноді призвести до переосмислення природи явищ, із якими має справу експериментатор.

Багатофакторний дисперсійний аналіз із повторними дослідами

Дані вимірів досить часто можна групувати не за двома, а за більшою кількістю факторів. Так, якщо розглядати дисперсійний аналіз терміну служби покришок коліс тролейбуса з урахуванням обставин (завод-виробник та маршрут, на якому експлуатуються покришки), то можна виділити як окрему умову сезон, під час якого експлуатуються покришки (а саме: зимова та літня експлуатація). У результаті матимемо завдання трифакторного методу.

За наявності більшої кількості умов підхід такий самий, як і у двофакторному аналізі. У всіх випадках модель намагаються спростити. Явище взаємодії двох чинників проявляється негаразд часто, а потрійне взаємодія буває у виняткових випадках. Включають ту взаємодію, для якої є попередня інформація та серйозні підстави, щоб її врахувати у моделі. Процес виділення окремих чинників та їх урахування щодо простий. Тому часто виникає бажання виділити більше обставин. Цим не слід захоплюватися. Чим більше умов, тим менш надійною стає модель і тим більша ймовірність помилки. Сама модель, до якої входить велика кількість незалежних змінних, стає досить складною для інтерпретації та незручною для практичного використання.

Загальна ідея дисперсійного аналізу

Дисперсійний аналіз у статистиці – це метод отримання результатів спостережень, залежних від різних одночасно діючих обставин, та оцінки їхнього впливу. Керовану змінну величину, яка відповідає способу впливу на об'єкт дослідження і в деякий період часу набуває певного значення, називають фактором. Вони можуть бути якісними та кількісними. Рівні кількісних умов набувають певного значення на числовій шкалі. Прикладами є температура, тиск пресування, кількість речовини. Якісні фактори – це різні речовини, різні технологічні способи, апарати, наповнювачі. Їхнім рівням відповідає шкала найменувань.

До якісних можна віднести також вид пакувального матеріалу, умови зберігання лікарської форми. Сюди ж раціонально віднести ступінь подрібнення сировини, фракційний склад гранул, що мають кількісне значення, проте погано піддаються регулюванню, якщо використовувати кількісну шкалу. Число якісних факторів залежить від виду лікарської форми, а також фізичних та технологічних властивостей лікарських речовин. Наприклад, кристалічних речовин можна отримувати таблетки прямим пресуванням. У цьому випадку достатньо провести вибір ковзних та змащувальних речовин.

Приклади якісних факторів для різних видів лікарських форм

  • Настоянки.Склад екстрагента, тип екстрактора, спосіб підготовки сировини, спосіб одержання, спосіб фільтрації.
  • Екстракти (рідкі, густі, сухі).Склад екстрагента, спосіб екстракції, тип установки, спосіб видалення екстрагента та баластових речовин.
  • Пігулки.Склад допоміжних речовин, наповнювачі, розпушувачі, сполучні, змащувальні та ковзні речовини. Спосіб отримання пігулок, вид технологічного обладнання. Вид оболонки та її компонентів, плівкоутворювачі, пігменти, барвники, пластифікатори, розчинники.
  • Ін'єкційні розчини.Вид розчинника, спосіб фільтрації, природа стабілізаторів та консервантів, умови стерилізації, спосіб заповнення ампул.
  • Супозиторії.Склад супозиторної основи, спосіб одержання супозиторіїв, наповнювачів, упаковки.
  • Мазі.Склад основи, структурні компоненти, спосіб виготовлення мазі, вид обладнання, упаковка.
  • Капсули.Вид оболонкового матеріалу, спосіб одержання капсул, тип пластифікатора, консерванту, барвника.
  • Лініменти.Спосіб отримання, склад, тип обладнання, тип емульгатора.
  • Суспензії.Вид розчинника, вид стабілізатора, метод диспергування.

Приклади якісних факторів та їх рівнів, що вивчаються у процесі виготовлення таблеток

  • Розпушувач.Крохмаль картопляний, глина біла, суміш натрію гідрокарбонату з лимонною кислотою, магнію карбонат основний.
  • Зв'язуючий розчин.Вода, крохмальний клейстер, цукровий сироп, розчин метилцелюлози, розчин оксипропілметилцелюлози, розчин полівінілпіролідону, розчин полівінілового спирту.
  • Ковзна речовина.Аеросил, крохмаль, тальк.
  • Наповнювач.Цукор, глюкоза, лактоза, хлорид натрію, фосфат кальцію.
  • Змащувальна речовина.Стеаринова кислота, поліетиленгліколь, парафін.

Моделі дисперсійного аналізу у дослідженні рівня конкурентоспроможності держави

Одним із найважливіших критеріїв оцінки стану держави, за якими проводиться оцінка рівня її добробуту та соціально-економічного розвитку, є конкурентоспроможність, тобто сукупність властивостей, властивих національній економіці, які визначають здатність держави конкурувати з іншими країнами. Визначивши місце та роль держави на світовому ринку, можна встановити чітку стратегію забезпечення економічної безпеки у міжнародних масштабах, адже вона є запорукою позитивних взаємин Росії з усіма гравцями світового ринку: інвесторами, кредиторами, урядами держав.

Для порівняння рівня конкурентоспроможності держав проводиться ранжування країн за допомогою комплексних індексів, які включають різні виважені показники. В основу цих індексів закладено ключові фактори, що впливають на економічне, політичне тощо положення. Комплекс моделей дослідження конкурентоспроможності держави передбачає використання методів багатовимірного статистичного аналізу (зокрема, це дисперсійний аналіз (статистика), економетричне моделювання, прийняття рішень) та включає такі основні етапи:

  1. Формування системи показників-індикаторів.
  2. Оцінку та прогнозування індикаторів конкурентоспроможності держави.
  3. Порівняння показників-індикаторів конкурентоспроможності країн.

А тепер розглянемо зміст моделей кожного із етапів даного комплексу.

На першому етапіза допомогою методів експертного вивчення формується обґрунтований комплекс економічних показників-індикаторів оцінки конкурентоспроможності держави з урахуванням специфіки її розвитку на основі міжнародних рейтингів та даних статистичних відділів, що відображають стан системи загалом та її процесів. Вибір цих показників обґрунтований необхідністю відібрати ті з них, які найповніше з точки зору практики дозволяють визначити рівень держави, її інвестиційну привабливість та можливості відносної локалізації існуючих потенційних та реально чинних загроз.

Основні показники-індикатори міжнародних рейтинг-систем – це індекси:

  1. Глобальної конкурентоспроможності (ІГК).
  2. Економічна свобода (ІЕС).
  3. Розвитку людського потенціалу (ІРЛП).
  4. Сприйняття корупції (ІВК).
  5. Внутрішніх та зовнішніх загроз (ШВЗЗ).
  6. Потенціалу міжнародного впливу (ІПМВ).

Другий етаппередбачає оцінку та прогнозування індикаторів конкурентоспроможності держави за міжнародними рейтингами для досліджуваних 139 держав світу.

Третій етаппередбачає порівняння умов конкурентоспроможності держав з допомогою методів кореляційно-регресійного аналізу.

Використовуючи результати дослідження можна визначити характер перебігу процесів загалом та за окремими складовими конкурентоспроможності держави; перевірити гіпотезу про вплив факторів та їх взаємозв'язок за відповідного рівня значущості.

Реалізація запропонованого комплексу моделей дозволить не лише оцінити ситуацію, що склалася, рівня конкурентоспроможності та інвестиційної привабливості держав, а й проаналізувати недоліки управління, попередити помилки неправильних рішень, не допустити розвитку кризи в державі.

Дисперсійний аналіз

Курсова робота з дисципліни: «Системний аналіз»

Виконавець студент гр. 99 ІСЕ-2 Жбанов В.В.

Оренбурзький державний університет

Факультет інформаційні технології

Кафедра прикладної інформатики

м. Оренбург-2003

Вступ

Мета роботи: ознайомитись із таким статистичним методом, як дисперсійний аналіз.

Дисперсійний аналіз (від латинського Dispersio – розсіювання) – статистичний метод, що дозволяє аналізувати вплив різних факторів на зміну, що досліджується. Метод був розроблений біологом Р. Фішером у 1925 році та застосовувався спочатку для оцінки експериментів у рослинництві. Надалі з'ясувалась загальнонаукова значущість дисперсійного аналізу для експериментів у психології, педагогіці, медицині та ін.

Метою дисперсійного аналізу є перевірка значущості різницю між середніми з допомогою порівняння дисперсій. Дисперсію вимірюваної ознаки розкладають на незалежні доданки, кожне з яких характеризує вплив того чи іншого фактора або їхньої взаємодії. Подальше порівняння таких доданків дозволяє оцінити значущість кожного фактора, що вивчається, а також їх комбінації /1/.

При істинності нульової гіпотези (про рівність середніх у кількох групах спостережень, вибраних з генеральної сукупності), оцінка дисперсії, пов'язаної із внутрішньогруповою мінливістю, має бути близька до оцінки міжгрупової дисперсії.

Під час проведення дослідження ринку нерідко постає питання про сумісність результатів. Наприклад, проводячи опитування щодо споживання будь-якого товару в різних регіонах країни, необхідно зробити висновки, наскільки дані опитування відрізняються або не відрізняються один від одного. Порівнювати окремі показники не має сенсу і тому процедура порівняння та подальшої оцінки проводиться за деякими усередненими значеннями та відхиленнями від цієї усередненої оцінки. Вивчається варіація ознаки. За міру варіації може бути прийнята дисперсія. Дисперсія σ 2 – міра варіації, яка визначається як середня з відхилень ознаки, зведених у квадрат.

На практиці часто виникають завдання. загального характеру- Завдання перевірки суттєвості відмінностей середніх вибіркових декількох сукупностей. Наприклад, потрібно оцінити вплив різної сировини на якість виробленої продукції, вирішити завдання вплив кількості добрив на врожайність с/г продукції.

Іноді дисперсійний аналіз застосовується, щоб встановити однорідність кількох сукупностей (дисперсії цих сукупностей однакові за припущенням; якщо дисперсійний аналіз покаже, як і математичні очікування однакові, то цьому сенсі сукупності однорідні). Однорідні ж сукупності можна об'єднати в одну і тим самим отримати про неї повнішу інформацію, отже, і більш надійні висновки /2/.

1 Дисперсійний аналіз

1.1 Основні поняття дисперсійного аналізу

У процесі спостереження за об'єктом, що досліджується, якісні фактори довільно або заданим чином змінюються. Конкретна реалізація фактора (наприклад, певний температурний режим, обране обладнання чи матеріал) називається рівнем чинника чи способом обробки. Модель дисперсійного аналізу з фіксованими рівнями факторів називають моделлю I, модель із випадковими факторами – моделлю II. Завдяки варіюванню фактора можна дослідити його вплив на величину відгуку. Нині загальна теорія дисперсійного аналізу розроблено моделей I.

Залежно від кількості факторів, що визначають варіацію результативної ознаки, дисперсійний аналіз поділяють на однофакторний та багатофакторний.

Основними схемами організації вихідних даних із двома та більше факторами є:

Перехресна класифікація, притаманна моделей I, у яких кожен рівень одного чинника поєднується при плануванні експерименту з кожною градацією іншого фактора;

Ієрархічна (гніздова) класифікація, характерна моделі II, у якій кожному випадковому, навмання обраному значенню одного чинника відповідає своє підмножина значень другого чинника.

Якщо одночасно досліджується залежність відгуку якісних і кількісних чинників, тобто. факторів змішаної природи, то використовується підступний аналіз /3/.

Таким чином, дані моделі відрізняються між собою способом вибору рівнів фактора, що, очевидно, насамперед впливає на можливість узагальнення отриманих експериментальних результатів. Для дисперсійного аналізу однофакторних експериментів відмінність цих двох моделей не така істотна, проте в багатофакторному дисперсійному аналізі воно може виявитися дуже важливим.

При проведенні дисперсійного аналізу повинні виконуватися такі статистичні припущення: незалежно від рівня фактора величини відгуку мають нормальний (Гаусовський) закон розподілу та однакову дисперсію. Така рівність дисперсій називається гомогенністю. Таким чином, зміна способу обробки позначається лише на положенні випадкової величини відгуку, що характеризується середнім або медіаною значенням. Тому всі спостереження відгуку належать сімейному зрушенню нормальних розподілів.

Кажуть, що техніка дисперсійного аналізу є "робастною". Цей термін, що використовується статистиками, означає, що дані припущення можуть бути певною мірою порушені, але незважаючи на це, техніку можна використовувати.

При невідомому законі розподілу величин відгуку використовують непараметричні (найчастіше рангові) методи аналізу.

В основі дисперсійного аналізу лежить поділ дисперсії на частини чи компоненти. Варіацію, обумовлену впливом фактора, покладеного в основу угруповання, характеризує міжгрупова дисперсія 2 . Вона є мірою варіації приватних середніх за групами навколо загальної середньої та визначається за формулою:

,

де k – число груп;

n j - число одиниць у j-ій групі;

Приватна середня за j-ою групою;

Загальна середня за сукупністю одиниць.

Варіацію, обумовлену впливом інших факторів, характеризує у кожній групі внутрішньогрупова дисперсія j 2 .

.

Між загальною дисперсією σ 0 2 внутрішньогруповою дисперсією σ 2 і міжгруповою дисперсією існує співвідношення:

σ 0 2 = + σ 2 .

Внутрішньогрупова дисперсія пояснює вплив неврахованих при групуванні факторів, а міжгрупова дисперсія пояснює вплив факторів угруповання на середнє значення групи /2/.

1.2 Однофакторний дисперсійний аналіз

Однофакторна дисперсійна модель має вигляд:

x ij = μ + F j + ε ij , (1)

де х ij - значення досліджуваної зміною, отриманої на i-му рівні фактора (i = 1,2, ..., т) c j-м порядковимномером (j=1,2,...,n);

Fi – ефект, обумовлений впливом i-го рівня фактора;

ε ij – випадкова компонента, чи обурення, викликане впливом неконтрольованих чинників, тобто. варіацією зміною всередині окремого рівня.

Основні передумови дисперсійного аналізу:

Математичне очікування обурення ε ij дорівнює нулю будь-яких i, тобто.

M(ε ij) = 0; (2)

Обурення ε ij взаємно незалежні;

Дисперсія змінної x ij (або обурення ε ij) постійна для

будь-яких i, j, тобто.

D(ε ij) = σ 2; (3)

Змінна x ij (або обурення ε ij) має нормальний закон

розподілу N(0; 2).

Вплив рівнів фактора може бути фіксованим або систематичним (модель I), так і випадковим (модель II).

Нехай, наприклад, необхідно з'ясувати, чи є суттєві різницю між партіями виробів за деяким показником якості, тобто. перевірити вплив на якість одного фактора – партії виробів. Якщо включити у дослідження всі партії сировини, вплив рівня такого чинника систематичне (модель I), а отримані висновки застосовні лише до окремих партій, які залучалися щодо дослідження. Якщо ж включити лише відібрану випадково частину партій, вплив фактора випадкове (модель II). У багатофакторних комплексах можлива змішана модель III, у якій одні чинники мають випадкові рівні, інші – фіксовані.

Нехай є m партій виробів. З кожної партії відібрано відповідно n 1 , n 2 , …, n m виробів (для простоти вважається, що n 1 = n 2 = ... = n m = n). Значення показника якості цих виробів представлені у матриці спостережень:

x 11 x 12 … x 1n

x 21 x 22 … x 2n

………………… = (x ij), (i = 1,2, …, m; j = 1,2, …, n).

x m 1 x m 2 … x mn

Необхідно перевірити суттєвість впливу партій виробів з їхньої якість.

Якщо вважати, що елементи рядків матриці спостережень – це чисельні значення випадкових величин Х 1 ,Х 2 ,...,Х m , що виражають якість виробів і мають нормальний закон розподілу з математичними очікуваннями відповідно a 1 ,а 2 ,...,а m і однаковими дисперсіями σ 2 то дане завдання зводиться до перевірки нульової гіпотези Н 0: a 1 =a 2 =...= а m , що здійснюється в дисперсійному аналізі.

Усереднення по якомусь індексу позначено зірочкою (або точкою) замість індексу, тоді середній показник якості виробів i-ї партії, або групова середня для i-го рівня фактора, набуде вигляду:

де i * - Середнє значення по стовпцях;

Ij – елемент матриці спостережень;

n – обсяг вибірки.

А загальна середня:

. (5)

Сума квадратів відхилень спостережень х ij від загальної середньої виглядає так:

2 = 2 + 2 +

2 2 . (6)

Q = Q1 + Q2 + Q3.

Останнє доданок дорівнює нулю

оскільки сума відхилень значень змінної з його середньої дорівнює нулю, тобто.

2 =0.

Перший доданок можна записати у вигляді:

В результаті виходить тотожність:

Q = Q 1 + Q 2 , (8)

де - загальна, чи повна, сума квадратів відхилень;

- сума квадратів відхилень групових середніх від загальної середньої або міжгрупова (факторна) сума квадратів відхилень;

- сума квадратів відхилень спостережень від групових середніх або внутрішньогрупова (залишкова) сума квадратів відхилень.

У розкладанні (8) міститься основна ідея дисперсійного аналізу. Стосовно розглянутої задачі рівність (8) показує, що загальна варіація показника якості, виміряна сумою Q, складається з двох компонентів – Q 1 і Q 2 , що характеризують мінливість цього показника між партіями (Q 1) і мінливість усередині партій (Q 2), характеризують однакову всім партій варіацію під впливом неврахованих чинників.

У дисперсійному аналізі аналізуються не самі суми квадратів відхилень, а звані середні квадрати, є незміщеними оцінками відповідних дисперсій, які виходять розподілом сум квадратів відхилень відповідне число ступенів свободи.

Число ступенів свободи визначається як загальна кількість спостережень мінус число рівнянь, що їх зв'язують. Тому для середнього квадрата s 1 2 є незміщеною оцінкою міжгрупової дисперсії, число ступенів свободи k 1 =m-1, так як при його розрахунку використовуються m групових середніх, пов'язаних між собою одним рівнянням (5). Для середнього квадрата s22, є незміщеною оцінкою внутрішньогрупової дисперсії, число ступенів свободи k2=mn-m, т.к. при її розрахунку використовуються всі mn спостережень, пов'язаних між собою m рівняннями (4).

Таким чином:

Якщо знайти математичні очікування середніх квадратів і , підставити їх формули вираз xij (1) через параметри моделі, то вийде:

(9)

т.к. з урахуванням властивостей математичного очікування

а

(10)

Для моделі I із фіксованими рівнями фактора F i (i=1,2,...,m) – величини невипадкові, тому

M(S) = 2 /(m-1) + σ 2 .

Гіпотеза H 0 набуде вигляду F i = F * (i = 1,2,...,m), тобто. вплив всіх рівнів фактора те саме. У разі справедливості цієї гіпотези

M(S)= M(S)= σ 2 .

Для випадкової моделі II доданок F i у виразі (1) величина випадкова. Позначаючи її дисперсією

отримаємо з (9)

(11)

і, як і в моделі I

У таблиці 1.1 наведено загальний вид обчислення значень, за допомогою дисперсійного аналізу.

Таблиця 1.1 - Базова таблиця дисперсійного аналізу

Компоненти дисперсії

Сума квадратів

Число ступенів свободи

Середній квадрат

Математичне очікування середнього квадрата

Міжгрупова

Внутрішньогрупова

Гіпотеза H 0 набуде вигляду σ F 2 =0. У разі справедливості цієї гіпотези

M(S)= M(S)= σ 2 .

У випадку однофакторного комплексу як для моделі I, так і моделі II середні квадрати S 2 і S 2 є незміщеними і незалежними оцінкамиоднієї й тієї дисперсії σ 2 .

Отже, перевірка нульової гіпотези H 0 звелася до перевірки суттєвості відмінності незміщених вибіркових оцінок дисперсії S і S σ 2 .

Гіпотеза H 0 відкидається, якщо фактично обчислене значення статистики F = S/S більше критичного F α: K 1: K 2 , визначеного на рівні значимості α при числі ступенів свободи k 1 =m-1 і k 2 =mn-m, приймається, якщо F< F α: K 1: K 2 .

F-розподіл Фішера (для x > 0) має наступну функцію щільності (для = 1, 2, ...; = 1, 2, ...):

де – ступеня свободи;

Г – гамма-функція.

Стосовно цього завдання спростування гіпотези H 0 означає наявність суттєвих відмінностей як виробів різних партій на рівні значимості.

Для обчислення сум квадратів Q 1 Q 2 Q часто буває зручно використовувати наступні формули:

(12)

(13)

(14)

тобто. самі середні, взагалі кажучи, знаходити необов'язково.

Таким чином, процедура однофакторного дисперсійного аналізу полягає в перевірці гіпотези H 0 про те, що є одна група однорідних експериментальних даних проти альтернативи, що таких груп більше, ніж одна. Під однорідністю розуміється однаковість середніх значень та дисперсій у будь-якому підмножині даних. У цьому дисперсії може бути як відомі, і невідомі заздалегідь. Якщо є підстави вважати, що відома чи невідома дисперсія вимірів однакова у всій сукупності даних, завдання однофакторного дисперсійного аналізу зводиться до вивчення значимості відмінності середніх у групах даних /1/.

1.3 Багатофакторний дисперсійний аналіз

Слід відразу відзначити, що принципової різниці між багатофакторним та однофакторним дисперсійним аналізом немає. Багатофакторний аналіз не змінює загальну логіку дисперсійного аналізу, а лише дещо ускладнює її, оскільки, крім обліку впливу на залежну змінну кожного з факторів окремо, слід оцінювати та їхню спільну дію. Таким чином, нове, що вносить в аналіз даних багатофакторний дисперсійний аналіз, стосується в основному можливості оцінити міжфакторну взаємодію. Тим не менш, як і раніше, залишається можливість оцінювати вплив кожного фактора окремо. У цьому сенсі процедура багатофакторного дисперсійного аналізу (у варіанті її комп'ютерного використання), безсумнівно, більш економічна, оскільки всього за один запуск вирішує відразу два завдання: оцінюється вплив кожного з факторів та їх взаємодія /3/.

Загальна схема двофакторного експерименту, дані якого обробляються дисперсійним аналізом має вигляд:



Рисунок 1.1 – Схема двофакторного експерименту

Дані, що піддаються багатофакторному дисперсійному аналізу, часто позначають відповідно до кількості факторів та їх рівнів.

Припустивши, що в розглянутій задачі про якість різних m партій вироби виготовлялися на різних t верстатах і потрібно з'ясувати, чи є суттєві відмінності в якості виробів за кожним фактором:

А – партія виробів;

B – верстат.

В результаті виходить перехід до завдання двофакторного дисперсійного аналізу.

Всі дані представлені в таблиці 1.2, в якій за рядками - рівні A i фактора А, по стовпцях - рівні B j фактора, а у відповідних осередках, таблиці знаходяться значення показника якості виробів x ijk (i=1,2,... m, j=1,2,...,l;k=1,2,...,n).

Таблиця 1.2 – Показники якості виробів

x 11l, ..., x 11k

x 12l, ..., x 12k

x 1jl, ..., x 1jk

x 1ll, ..., x 1lk

x 2 1l, ..., x 2 1k

x 22l, ..., x 22k

x 2jl, ..., x 2jk

x 2ll, ..., x 2lk

x i1l ,…,x i1k

x i2l ,…,x i2k

x ijl ,…,x ijk

x jll, ..., x jlk

x m1l ,…,x m1k

x m2l ,…,x m2k

x mjl ,…,x mjk

x mll, ..., x mlk

Двофакторна дисперсійна модель має вигляд:

x ijk =μ+F i +G j +I ij +ε ijk , (15)

де x ijk - значення спостереження в осередку ij з номером k;

μ - загальна середня;

F i – ефект, зумовлений впливом i-го рівня фактора А;

G j - ефект, зумовлений впливом j-го рівня фактора;

I ij - ефект, зумовлений взаємодією двох чинників, тобто. відхилення від середньої за спостереженнями в осередку ij від суми перших трьох доданків у моделі (15);

ε ijk - обурення, обумовлене варіацією змінної всередині окремого осередку.

Передбачається, що ijk має нормальний закон розподілу N(0; з 2), а всі математичні очікування F * , G * , I i * , I * j рівні нулю.

Групові середні перебувають за формулами:

У осередку:

по рядку:

по стовпцю:

загальна середня:

У таблиці 1.3 наведено загальний вид обчислення значень, за допомогою дисперсійного аналізу.

Таблиця 1.3 - Базова таблиця дисперсійного аналізу

Компоненти дисперсії

Сума квадратів

Число ступенів свободи

Середні квадрати

Міжгрупова (фактор А)

Міжгрупова (фактор B)

Взаємодія

Залишкова

Перевірка нульових гіпотез HA, HB, HAB про відсутність впливу на змінну факторів А, B та їх взаємодії AB здійснюється порівнянням відносин , , (для моделі I з фіксованими рівнями факторів) або відносин , , (для випадкової моделі II) з відповідними табличними значеннями F – критерію Фішера – Снідекору. Для змішаної моделі III перевірка гіпотез щодо чинників з фіксованими рівнями проводиться також як і моделі II, а чинників з випадковими рівнями – як і моделі I.

Якщо n=1, тобто. при одному спостереженні в комірці, то не всі нульові гіпотези можуть бути перевірені так як випадає компонента Q3 із загальної суми квадратів відхилень, а з нею і середній квадрат, тому що в цьому випадку не може бути про взаємодію факторів.

З точки зору техніки обчислень для знаходження сум квадратів Q 1 , Q 2 , Q 3 , Q 4 , Q доцільніше використовувати формули:

Q 3 = Q - Q 1 - Q 2 - Q 4 .

Відхилення від основних передумов дисперсійного аналізу - нормальності розподілу досліджуваної змінної та рівності дисперсій в осередках (якщо воно не надмірне) - не позначається істотно на результатах дисперсійного аналізу при рівній кількості спостережень в осередках, але може бути дуже чутливим при нерівному їх числі. Крім того, при нерівній кількості спостережень в осередках різко зростає складність апарату дисперсійного аналізу. Тому рекомендується планувати схему з рівним числом спостережень в осередках, а якщо зустрічаються дані, що відсутні, то відшкодовувати їх середніми значеннями інших спостережень в осередках. При цьому, однак, штучно введені дані не слід враховувати при підрахунку числа ступенів свободи /1/.

2 Застосування дисперсійного аналізу в різних процесах та дослідженнях

2.1 Використання дисперсійного аналізу щодо міграційних процесів

Міграція - складне соціальне явище, що багато в чому визначає економічну та політичну сторони життя суспільства. Дослідження міграційних процесів пов'язане з виявленням факторів зацікавленості, задоволеності умовами праці та оцінкою впливу отриманих факторів на міжгруповий рух населення.

λ ij = c i q ij a j

де λ ij - Інтенсивність переходів з вихідної групи i (виходу) в нову j (входу);

c i – можливість та здатність залишити групу i (c i ≥0);

q ij – привабливість нової групипорівняно з вихідною (0≤q ij ≤1);

a j – доступність групи j (a j ≥0).

ν ij ? (16)

Насправді для окремої людини ймовірність p переходу до іншої групи мала, а чисельність аналізованої групи n велика. І тут діє закон рідкісних подій, тобто межею ν ij є розподіл Пуассона з параметром μ=np:

.

Зі зростанням μ розподіл наближається до нормального. Перетворену величину √ν ij вважатимуться нормально розподіленої.

Якщо прологарифмувати вираз (16) і зробити необхідні заміни змінних, можна отримати модель дисперсійного аналізу:

ln√ν ij =½lnν ij =½(lnn i +lnc i +lnq ij +lna j)+ε ij

X i,j = 2ln√ν ij -lnn i -lnq ij ,

X i, j = C i + A j + ε.

Значення C i та A j дозволяють отримати модель двофакторного дисперсійного аналізу з одним спостереженням у клітині. Зворотним перетворенням C i і A j обчислюються коефіцієнти c i і a j .

При проведенні дисперсійного аналізу як значення результативної ознаки Y слід взяти величини:

Х=(Х 1,1 +Х 1,2 +:+Х mi,mj)/mimj,

де mimj-оцінка математичного очікування Х i,j;

Х mi і Х mj - відповідно кількість груп виходу та входу.

рівнями фактора I будуть mi груп виходу, рівнями фактора J - mj груп входу. Передбачається mi = mj = m. Постає завдання перевірки гіпотез H I і H J про рівність математичних очікувань величини Y при рівнях I i при рівнях J j , i,j = 1, ..., m. Перевірка гіпотези H I ґрунтується на порівнянні величин незміщених оцінок дисперсії s I 2 і s o 2 . Якщо гіпотеза H I правильна, то величина F(I) = s I 2 /s o 2 має розподіл Фішера з числами ступенів свободи k 1 =m-1 і k 2 =(m-1)(m-1). Для заданого рівня значимості знаходиться правостороння критична точка x пр, α кр. Якщо числове значення F (I) чис величини потрапляє в інтервал (x пр, α кр, +∞), то гіпотеза H I відкидається і вважається, що фактор I впливає на результативну ознаку. Ступінь цього впливу за результатами спостережень вимірюється вибірковим коефіцієнтом детермінації, який показує, яка частка дисперсії результативної ознаки у вибірці обумовлена ​​впливом на нього фактора I. Якщо ж F(I) чис

2.2 Принципи математико-статистичного аналізу даних медико-біологічних досліджень

Залежно від поставленого завдання, обсягу та характеру матеріалу, виду даних та їх зв'язків знаходиться вибір методів математичної обробки на етапах як попереднього (для оцінки характеру розподілу у досліджуваній вибірці), так і остаточного аналізу відповідно до цілей дослідження. Вкрай важливим аспектом є перевірка однорідності вибраних груп спостереження, у тому числі контрольних, що може бути проведено експертним шляхом, або методами багатовимірної статистики (наприклад, за допомогою кластерного аналізу). Але першим етапом є складання запитальника, у якому передбачається стандартизований опис ознак. Особливо при проведенні епідеміологічних досліджень, де необхідна єдність у розумінні та описі тих самих симптомів різними лікарями, включаючи облік діапазонів їх змін (ступеня вираженості). У разі суттєвості відмінностей у реєстрації вихідних даних (суб'єктивна оцінка характеру патологічних проявів різними фахівцями) і неможливості їх приведення до єдиного виду на етапі збору інформації, може бути здійснена так звана корекція ковариант, яка передбачає нормалізацію змінних, тобто. усунення ненормальностей показників у матриці даних. "Узгодження думок" здійснюється з урахуванням спеціальності та досвіду лікарів, що дозволяє потім порівнювати отримані ними результати обстеження між собою. Для цього можуть використовуватись багатовимірний дисперсійний та регресійний аналізи.

Ознаки може бути як однотипними, що буває рідко, і різнотипними. Під цим терміном розуміється їхня різна метрологічна оцінка. Кількісні чи числові ознаки - це заміряні у певній шкалі та у шкалах інтервалів та відносин (І група ознак). Якісні, рангові або бальні використовуються для вираження медичних термінів та понять, що не мають цифрових значень (наприклад, тяжкість стану) і заміряються в шкалі порядку (II група ознак). Класифікаційні чи номінальні (наприклад, професія, група крові) – це заміряні у шкалі найменувань (III група ознак).

У багатьох випадках робиться спроба аналізу дуже великої кількості ознак, що має сприяти підвищенню інформативності представленої вибірки. Однак вибір корисної інформації, тобто здійснення відбору ознак, є операцією абсолютно необхідною, оскільки для вирішення будь-якої класифікаційної задачі повинні бути відібрані відомості, що несуть корисну для цього завдання інформацію. У разі, якщо це не здійснено з якихось причин дослідником самостійно або відсутні достатньо обґрунтовані критерії для зниження розмірності простору ознак з змістовних міркувань, боротьба з надмірністю інформації здійснюється формальними методами шляхом оцінки інформативності.

Дисперсійний аналіз дозволяє визначити вплив різних факторів (умов) на досліджувану ознаку (явище), що досягається шляхом розкладання сукупної мінливості (дисперсії, вираженої у сумі квадратів відхилень від загального середнього) на окремі компоненти, спричинені впливом різних джерел мінливості.

За допомогою дисперсійного аналізу досліджуються загрози захворювання за наявності факторів ризику. Концепція відносного ризику розглядає відношення між пацієнтами з певною хворобою та не мають її. Величина відносного ризику дає можливість визначити, у скільки разів збільшується ймовірність захворіти за його наявності, що можна оцінити за допомогою наступної спрощеної формули:

де a - наявність ознаки досліджуваної групі;

b - відсутність ознаки досліджуваної групі;

c - наявність ознаки групи порівняння (контрольної);

d - відсутність ознаки групи порівняння (контрольної).

Показник атрибутивного ризику (rA) служить для оцінки частки захворюваності, пов'язаної з цим фактором ризику:

,

де Q - частота ознаки, що маркує ризик, у популяції;

r" - відносний ризик.

Виявлення чинників, сприяють виникненню (прояву) захворювання, тобто. факторів ризику може здійснюватися різними способами, наприклад, шляхом оцінки інформативності з подальшим ранжуванням ознак, що проте не вказує на сукупну дію відібраних параметрів, на відміну від застосування регресійного, факторного аналізів, методів теорії розпізнавання образів, які дають можливість отримувати "симптомокомплекси" ризик- факторів. Крім того, складніші методи дозволяють аналізувати і непрямі зв'язки між факторами ризику та захворюваннями /5/.

2.3 Біотестування ґрунту

Різноманітні забруднюючі речовини, потрапляючи в агроценоз, можуть зазнавати в ньому різних перетворень, посилюючи при цьому свою токсичну дію. З цієї причини виявились необхідними методи інтегральної оцінки якості компонентів агроценозу. Дослідження проводили на базі багатофакторного дисперсійного аналізу в 11-ти польовому зернотрав'янопропашному сівозміні. У досвіді вивчався вплив таких факторів: родючість ґрунту (А), система добрив (В), система захисту рослин (С). Родючість ґрунту, система добрив та система захисту рослин вивчалися в дозах 0, 1, 2 та 3. Базові варіанти були представлені такими комбінаціями:

000 - вихідний рівень родючості, без застосування добрив та засобів захисту рослин від шкідників, хвороб та бур'янів;

111 - середній рівень родючості ґрунту, мінімальна доза добрива, біологічний захист рослин від шкідників та хвороб;

222 - вихідний рівень родючості ґрунту, середня доза добрив, хімічний захист рослин від бур'янів;

333 - високий рівень родючості ґрунту, висока доза добрив, хімічний захист рослин від шкідників та хвороб.

Вивчалися варіанти, де представлений лише один фактор:

200 – родючість:

020 – добрива;

002 – засоби захисту рослин.

А також варіанти з різним поєднанням факторів – 111, 131, 133, 022, 220, 202, 331, 313, 311.

Метою дослідження було вивчення гальмування хлоропластів та коефіцієнта миттєвого зростання, як показників забруднення ґрунту, у різних варіантах багатофакторного досвіду.

Гальмування фототаксису хлоропластів ряски малої досліджували в різних горизонтах ґрунту: 0-20, 20-40 см. Аналіз мінливості фототаксису в різних варіантах досвіду показав достовірний вплив кожного з факторів (родючості ґрунту, системи добрив та системи захисту рослин). Частка загальної дисперсії родючості грунту становила 39,7%, системи добрив - 30,7%, системи захисту рослин - 30,7 %.

Для дослідження сукупного впливу факторів на гальмування фототаксису хлоропластів використовувалися різні поєднання варіантів досвіду: у першому випадку - 000, 002, 022, 222, 220, 200, 202, 020, у другому випадку - 111, 333, 33, 33 , 131.

Результати двофакторного дисперсійного аналізу свідчать про достовірний вплив взаємодіючих системи добрив та системи захисту рослин на відмінності у фототаксисі для першого випадку (частка загальної дисперсії склала 10,3%). Для другого випадку виявлено достовірний вплив взаємодіючої родючості ґрунту та системи добрив (53,2%).

Трифакторний дисперсійний аналіз показав у першому випадку достовірний вплив взаємодії всіх трьох факторів. Частка загальної дисперсії становила 47,9%.

Коефіцієнт миттєвого зростання досліджували в різних варіантах досвіду 000, 111, 222, 333, 002, 200, 220. Перший етап тестування - до внесення гербіцидів на посівах озимої пшениці (квітень), другий етап - після внесення гербіцидів (травень) момент збирання (липень). Передшлунки - соняшник та кукурудза на зерно.

Поява нових листків спостерігали після короткої лаг-фази з періодом сумарного подвоєння сирої маси 2 – 4 діб.

У контролі та у кожному варіанті на підставі отриманих результатів розраховували коефіцієнт миттєвого зростання популяції r і далі розраховували час подвоєння чисельності листків (t удв).

t подв =ln2/r.

Розрахунок цих показників було проведено динаміці з аналізом грунтових зразків. Аналіз даних показав, що час подвоєння популяції рясок до обробітку грунту було найменшим порівняно з даними після обробки та на момент збирання. У динаміці спостережень більший інтерес викликає відгук ґрунту після внесення гербіциду та на момент збирання. Насамперед взаємодія з добривами та рівнем родючості.

Іноді отримати прямий відгук на внесення хімічних препаратів може бути ускладнене взаємодією препарату з добривами як органічними, так і мінеральними. Отримані дані дозволили простежити динаміку відгуку препаратів, що вносяться, у всіх варіантах з хімічними засобами захисту, де відзначається призупинення зростання індикатора.

Дані однофакторного дисперсійного аналізу показали достовірний вплив кожного показника на темпи зростання малої ряски на першому етапі. На другому етапі ефект відмінностей по родючості ґрунту становив 65,0 %, за системою добрив та системою захисту рослин - по 65,0 %. Фактори показали достовірні відмінності середнього за коефіцієнтом миттєвого зростання варіанта 222 та варіантів 000, 111, 333. На третьому етапі частка загальної дисперсії родючості грунту склала 42,9%, системи добрив та системи захисту рослин - по 42,9%. Відзначено достовірну різницю за середніми значеннями варіантів 000 і 111, варіантів 333 і 222.

Досліджувані зразки ґрунту з варіантів польового моніторингу відрізняються один від одного за показником гальмування фототаксису. Відзначено вплив факторів родючості, систему добрив та засоби захисту рослин з частками 30,7 та 39,7% при однофакторному аналізі, при двох факторному та трифакторному – зареєстрували спільний вплив факторів.

Аналіз результатів досвіду показав незначні відмінності між горизонтами ґрунту за показником – гальмування фототаксису. Відмінності відзначені за середніми значеннями.

На всіх випадках, де є засоби захисту рослин, спостерігається зміни положення хлоропластів і припинення зростання ряски малої /6/.

2.4 Грип викликає підвищену вироблення гістаміну

Дослідники з дитячої лікарні в Пітсбурзі (США) отримали перші докази, що при гострих респіраторних вірусних інфекціях підвищується рівень гістаміну. Незважаючи на те, що й раніше передбачалося, що гістамін грає певну роль у виникненні симптомів гострих респіраторних інфекцій верхніх дихальних шляхів.

Вчених цікавило, чому багато людей застосовують для самолікування «простудних» захворювань і нежиті антигістамінні препарати, які у багатьох країнах входять до категорії OTC, тобто. доступні без рецепта лікаря.

Метою проведеного дослідження було визначити, чи підвищується продукція гістаміну під час експериментальної інфекції, спричиненої вірусом грипу А.

15 здоровим добровольцям інтраназально запровадили вірус грипу А, а потім спостерігали за розвитком інфекції. Щодня протягом захворювання у добровольців збиралася ранкова порція сечі, а потім проводилося визначення гістаміну та його метаболітів та розраховувалася загальна кількість гістаміну та його метаболітів, виділених за добу.

Захворювання розвинулося в усіх 15 добровольців. Дисперсійний аналіз підтвердив достовірно вищий рівень гістаміну в сечі на 2-5 добу вірусної інфекції (p<0,02) - период, когда симптомы «простуды» наиболее выражены. Парный анализ показал, что наиболее значительно уровень гистамина повышается на 2 день заболевания. Кроме этого, оказалось, что суточное количество гистамина и его метаболитов в моче при гриппе примерно такое же, как и при обострении аллергического заболевания.

Результати цього дослідження служать першими прямими доказами те, що рівень гістаміну підвищується при гострих респіраторних інфекціях /7/.

Дисперсійний аналіз у хімії

Дисперсійний аналіз – сукупність методів визначення дисперсності, тобто характеристики розмірів частинок дисперсних системах. Дисперсійний аналіз включає різні способи визначення розмірів вільних частинок у рідких та газових середовищах, розмірів каналів-пор у тонкопористих тілах (у цьому випадку замість поняття дисперсності використовують рівнозначне поняття пористості), а також питомої поверхні. Одні з методів дисперсійного аналізу дозволяють отримувати повну картину розподілу частинок за розмірами (обсягами), інші дають лише усереднену характеристику дисперсності (пористості).

До першої групи відносяться, наприклад, методи визначення розмірів окремих частинок безпосереднім вимірюванням (ситовий аналіз, оптична та електронна мікроскопія) або за непрямими даними: швидкості осідання частинок у в'язкому середовищі (седиментаційний аналіз у гравітаційному полі та центрифугах), величині імпульсів електричного струму, виникають при проходженні частинок через отвір у непровідній перегородці (кондуктометричний метод).

Друга група методів поєднує оцінку середніх розмірів вільних частинок та визначення питомої поверхні порошків та пористих тіл. Середній розмір частинок знаходять за інтенсивністю розсіяного світла (нефелометрія), за допомогою ультрамікроскопа, методами дифузії і т.д., питома поверхня - по адсорбції газів (парів) або розчинених речовин, по газопроникності, швидкості розчинення та ін способами. Нижче наведені межі застосування різних методів дисперсійного аналізу (розміри частинок в метрах):

Ситовий аналіз - 10 -2 -10 -4

Седиментаційний аналіз у гравітаційному полі – 10 -4 -10 -6

Кондуктометричний метод - 10 -4 -10 -6

Мікроскопія - 10 -4 -10 -7

Метод фільтрації – 10 -5 -10 -7

Центрифугування - 10 -6 -10 -8

Ультрацентрифугування – 10 -7 -10 -9

Ультрамікроскопія - 10 -7 -10 -9

Нефелометрія - 10 -7 -10 -9

Електронна мікроскопія - 10 -7 -10 -9

Метод дифузії – 10 -7 -10 -10

Дисперсійний аналіз широко використовують у різних галузях науки та промислового виробництва для оцінки дисперсності систем (суспензій, емульсій, золів, порошків, адсорбентів тощо) з величиною частинок від кількох міліметрів (10 -3 м) до кількох нанометрів (10 -9 м) /8/.

2.6 Використання прямого навмисного навіювання в неспаному стані у методиці виховання фізичних якостей

Фізична підготовка – основна сторона спортивного тренування, оскільки більшою мірою, ніж інші сторони підготовки, характеризується фізичними навантаженнями, що впливають на морфофункціональні властивості організму. Від рівня фізичної підготовленості залежить успішність технічної підготовки, зміст тактики спортсмена, реалізація особистісних якостей у процесі тренувань і змагань.

Одним із основних завдань фізичної підготовки є виховання фізичних якостей. У зв'язку з цим виникає необхідність у розробці педагогічних засобів і методів, що дозволяють враховувати вікові особливості юних спортсменів, що зберігають їх здоров'я, не потребують додаткових витрат часу і водночас стимулюють зростання фізичних якостей і, як наслідок, спортивної майстерності. Використання вербального гетеродії у тренувальному процесі у групах початкової підготовки - один із перспективних напрямів досліджень з даної проблеми.

Аналіз теорії та практики реалізації всебічного вербального гетеродії виявив основні протиріччя:

Доведеність ефективного використання специфічних методів вербального гетеродії у тренувальному процесі та практичну неможливість їх використання тренером;

Визнання прямого навмисного навіювання (далі ППВ) у пильному стані як одного з основних методів вербального гетеродії у педагогічній діяльності тренера та відсутність теоретичного обґрунтування методичних особливостей його застосування у спортивній підготовці, і зокрема у процесі виховання фізичних якостей.

У зв'язку з виявленими протиріччями та недостатньою розробленістю проблема використання системи методів вербального гетеродії у процесі виховання фізичних якостей спортсменів визначила мету дослідження – розробити раціональні цілеспрямовані методики ППВ у неспаному стані, що сприяють удосконаленню процесу виховання фізичних якостей на основі оцінки психічного стану, прояву та динаміки фізичних якостей дзюдоїстів груп початкової підготовки.

З метою апробації та визначення ефективності експериментальних методик ППВ при вихованні фізичних якостей дзюдоїстів було проведено порівняльний педагогічний експеримент, у якому взяли участь чотири групи – три експериментальні та одна контрольна. У першій експериментальній групі (ЕГ) використовувалася методика ППВ М1, у другій – методика ППВ М2, у третій – методика ППВ М3. У контрольній групі (КГ) методики ППВ не застосовувалися.

Для визначення ефективності педагогічного впливу методик ППВ у процесі виховання у дзюдоїстів фізичних якостей було проведено однофакторний дисперсійний аналіз.

Ступінь впливу методики ППВ M1 у процесі виховання:

Витривалість:

а) після третього місяця становила 11,1%;

Швидкісних здібностей:

а) після першого місяця – 16,4%;

б) після другого – 26,5%;

в) після третього – 34,8%;

а) після другого місяця – 26, 7%;

б) після третього – 35,3%;

Гнучкість:

а) після третього місяця – 20,8%;

а) після другого місяця основного педагогічного експерименту ступінь впливу методики становив 6,4%;

б) після третього – 10,2%.

Отже, суттєві зміни у показниках рівня розвитку фізичних якостей з використанням методики ППВ М1 виявлені у швидкісних здібностях та силі, ступінь впливу методики в даному випадку найбільша. Найменший ступінь впливу методики виявлено у процесі виховання витривалості, гнучкості, координаційних здібностей, що дає підстави говорити про недостатню ефективність використання методики ППВ М1 при вихованні зазначених якостей.

Ступінь впливу методики ППВ M2 у процесі виховання:

Витривалість

а) після першого місяця експерименту – 12,6%;

б) після другого – 17,8%;

в) після третього – 20,3%.

Швидкісних здібностей:

а) після третього місяця тренувальних занять – 28%.

а) після другого місяця – 27,9%;

б) після третього – 35,9%.

Гнучкість:

а) після третього місяця тренувальних занять – 14,9%;

Координаційних здібностей – 13,1%.

Отриманий результат однофакторного дисперсійного аналізу даної ЕГ дозволяє зробити висновок про те, що методика ППВ М2 найбільш результативна при вихованні витривалості та сили. Менш ефективна вона у процесі виховання гнучкості, швидкісних та координаційних здібностей.

Ступінь впливу методики ППВ М3 у процесі виховання:

Витривалість:

а) після першого місяця експерименту 168%;

б) після другого – 29,5%;

в) після третього – 37,6%.

Швидкісних здібностей:

а) після першого місяця – 26,3%;

б) після другого – 31,3%;

в) після третього – 40,9%.

а) після першого місяця – 18,7%;

б) після другого – 26,7%;

в) після третього – 32,3%.

Гнучкість:

а) після першого – змін немає;

б) після другого – 16,9%;

в) після третього – 23,5%.

Координаційних здібностей:

а) після першого місяця змін немає;

б) після другого – 23,8%;

в) після третього – 91%.

Таким чином, однофакторний дисперсійний аналіз показав, що використання методики ППВ М3 у підготовчому періоді найбільше ефективно в процесі виховання фізичних якостей, оскільки спостерігається збільшення ступеня її впливу після кожного місяця педагогічного експерименту /9/.

2.7 Купірування гострої психотичної симптоматики у хворих на шизофренію атиповий нейролептик

Мета дослідження зводилася до вивчення можливості застосування рисполепту для усунення гострих психозів у хворих з діагнозом шизофренії (параноїдний тип МКХ-10) та шизоафективного розладу. При цьому як основний критерій використовувався показник тривалості збереження психотичної симптоматики в умовах фармакотерапії рисполептом (основна група) і класичними нейролептиками.

Основні завдання дослідження зводилися до визначення показника тривалості психозу (так званий нетто-психоз), під яким розумілося збереження продуктивної психотичної симптоматики з початку застосування нейролептиків, виражене днями. Цей показник був розрахований окремо для групи, яка приймала рисперидон, та окремо для групи, яка приймала класичні нейролептики.

Поряд із цим було поставлено завдання щодо визначення частки редукції продуктивної симптоматики під впливом рисперидону в порівнянні з класичними нейролептиками в різні терміни терапії.

Загалом вивчено 89 хворих (42 чоловіки та 47 жінок) з гострою психотичною симптоматикою в рамках параноїдної форми шизофренії (49 хворих) та шизоафективного розладу (40 хворих).

Перший епізод та тривалість захворювання до 1 року були зареєстровані у 43 хворих, тоді як в інших випадках на момент дослідження відзначалися наступні епізоди шизофренії при тривалості захворювання понад 1 рік.

Терапію рисполептом отримували 29 осіб, серед яких із так званим першим епізодом було 15 хворих. Терапію класичними нейролептиками отримували 60 осіб, серед яких із першим епізодом було 28 осіб. Доза рисполепту варіювала в діапазоні від 1 до 6 мг на добу та в середньому становила 4±0,4 мг на добу. Рисперидон приймали виключно внутрішньо після їди один раз на добу у вечірній час.

Терапія класичними нейролептиками включала застосування трифлуоперазину (трифтазину) у добовій дозі до 30 мг внутрішньом'язово, галоперидолу у добовій дозі до 20 мг внутрішньом'язово, триперидолу у добовій дозі до 10 мг внутрішньо. Переважна більшість хворих приймала класичні нейролептики у вигляді монотерапії протягом перших двох тижнів, після чого переходили у разі потреби (за збереження марення, галюцинаторної чи іншої продуктивної симптоматики) до поєднання кількох класичних нейролептиків. При цьому як основний препарат залишався нейролептик з вираженим елективним антибредовим та антигалюцинаторним афектом (наприклад, галоперидол або трифтазин), до нього приєднували у вечірній час препарат з виразним гіпноседативним ефектом (аміназин, тизерцин, хлорпротиксен у дозах до 0 до 0 до 0 .

У групі, яка приймала класичні нейролептики, було передбачено прийом коректорів холінолітичного ряду (паркопан, циклодол) у дозах до 10-12 мг на добу. Коректори призначалися у разі появи чітких побічних екстрапірамідних ефектів у вигляді гострих дистоній, лікарського паркінсонізму та акатизії.

У таблиці 2.1 представлені дані щодо тривалості психозу при лікуванні рисполептом та класичними нейролептиками.

Таблиця 2.1 - Тривалість психозу ("нетто-психоз") при лікуванні рисполептом та класичними нейролептиками

Як випливає з даних таблиці, при порівнянні тривалості психозу при терапії класичними нейролептиками та рисперидоном спостерігається практично дворазове скорочення тривалості психотичної симптоматики під впливом рисполепту. Істотно, що у цю величину тривалості психозу впливали ні чинники порядкового номера нападів, ні характер картини провідного синдрому. Інакше висловлюючись, тривалість психозу визначалася виключно чинником терапії, тобто. залежала від типу препарату, що застосовується, безвідносно порядкового номера нападу, тривалості захворювання і характеру провідного психопатологічного синдрому.

З метою підтвердження отриманих закономірностей було проведено двофакторний дисперсійний аналіз. При цьому по черзі враховувалася взаємодія фактора терапії та порядкового номера нападу (1-й етап) та взаємодія фактора терапії та характеру провідного синдрому (2-й етап). Результати дисперсійного аналізу підтвердили вплив фактора терапії на величину тривалості психозу (F=18,8) за відсутності впливу фактора номера нападу (F=2,5) та фактора типу психопатологічного синдрому (F=1,7). Важливо, що спільний вплив фактора терапії та номера нападу на величину тривалості психозу також був відсутній, так само як і спільний вплив фактора терапії та психопатологічного синдрому.

Таким чином, результати дисперсійного аналізу підтвердили вплив лише фактора нейролептика. Рисполепт однозначно спричиняв скорочення тривалості психотичної симптоматики проти традиційними нейролептиками приблизно 2 разу. Важливо, що цього ефекту досягнуто, попри пероральний прийом рисполепта, тоді як класичні нейролептики застосовувалися в більшості хворих парентерально /10/.

2.8 Сновання фасонної пряжі з рівниковим ефектом

У Костромському Державному технологічному університеті розроблено нову структуру фасонної нитки зі змінними геометричними параметрами. У зв'язку з цим виникає проблема переробки фасонної пряжі у підготовчому виробництві. Дане дослідження присвячувалося процесу снування з питань: вибір типу натяжного пристрою, що дає мінімальний розкид натягу та вирівнювання натягу, ниток різної лінійної густини по ширині сновального валу.

Об'єкт дослідження - фасонна лляна нитка чотирьох варіантів лінійної щільності від 140 до 205 текса. Досліджувалась робота натяжних приладів трьох типів: фарфорового шайбового, двозонного НС-1П та однозонного НС-1П. Експериментальне дослідження натягу ниток, що снуються, проводилося на сновальній машині СП-140-3Л. Швидкість снування, маса гальмівних шайб відповідали технологічним параметрам снування пряжі.

Для дослідження залежності натягу фасонної нитки від геометричних параметрів при знов проведений аналіз для двох факторів: X 1 – діаметр ефекту, X 2 – довжина ефекту. Вихідними параметрами є натяг Y 1 і коливання натягу Y 2 .

Отримані рівняння регресії адекватні експериментальним даним при рівні значимості 0,95, оскільки розрахунковий критерій Фішера всім рівнянь менше табличного.

Для визначення ступеня впливу факторів Х 1 та Х 2 на параметри Y 1 та Y 2 проведено дисперсійний аналіз, який показав, що більший вплив на рівень та коливання натягу надає діаметр ефекту.

Порівняльний аналіз отриманих тензограм показав, що мінімальний розкид натягу при створенні пряжі забезпечує двозонний натяжний прилад НС-1П.

Встановлено, що зі зростанням лінійної щільності від 105 до 205 текс прилад НС-1П дає збільшення рівня натягу лише на 23%, тоді як фарфоровий шайбовий - на 37%, однозонний НС-1П на 53%.

При формуванні сновальних валів, що включають фасонні і "гладкі" нитки, необхідна індивідуальна настройка натяжного приладу традиційним методом /11/.

2.9 Супутня патологія при повній втраті зубів в осіб похилого та старечого віку

Вивчено епідеміологічно повну втрату зубів та супутню патологію літнього населення, яке проживає в будинках для людей похилого віку на території Чувашії. Обстеження проводилося шляхом стоматологічного огляду та заповнення статистичних карток 784 осіб. Результати аналізу показали високий відсоток повної втрати зубів, що посилюється загальною патологією організму. Це характеризує оглянуту категорію населення як групу підвищеного стоматологічного ризику та вимагає перегляду всієї системи стоматологічного обслуговування їх.

У людей похилого віку рівень захворюваності вдвічі, а старечому віці у шість разів вище проти рівнем захворюваності осіб молодшого віку.

Основними захворюваннями осіб похилого та старечого віку є хвороби органів кровообігу, нервової системи та органів чуття, органів дихання, органів травлення, кісток та органів руху, новоутворення та травми.

Мета дослідження – розробка та отримання інформації про супутні захворювання, ефективність зубопротезування та потреби в ортопедичному лікуванні осіб похилого та старечого віку з повною втратою зубів.

Усього було обстежено 784 особи віком від 45 до 90 років. Співвідношення жінок та чоловіків 2,8:1.

Оцінка статистичного зв'язку за допомогою коефіцієнта кореляції рангів Пірсона дозволила встановити взаємний вплив відсутності зубів на супутню захворюваність із рівнем надійності р=0,0005. Літні пацієнти з повною втратою зубів страждають на хвороби, властиві старості, а саме, атеросклероз судин головного мозку та гіпертонічну хворобу.

Дисперсійний аналіз показав, що в умовах, що вивчаються, визначальну роль грає специфіка хвороби. Роль нозологічних форм у різних вікових періодах коливається не більше 52-60 %. Найбільший статистично достовірний вплив на відсутність зубів надають хвороби органів травлення та цукровий діабет.

У цілому нині група хворих віком 75-89 років характеризувалася великою кількістю патологічних захворювань.

У цьому дослідженні було проведено порівняльне вивчення частоти поширення супутньої патології серед пацієнтів з повною втратою зубів похилого та старечого віку, які проживають у будинках для людей похилого віку. Виявлено високий відсоток відсутності зубів серед осіб цієї вікової категорії. У пацієнтів з повною адентією спостерігається характерна цього віку супутня патологія. Найчастіше серед обстежених осіб зустрічалися атеросклероз та гіпертонія. Статистично достовірно впливає стан порожнини рота таких захворювань, як хвороби шлунково-кишкового тракту і цукровий діабет, частка інших нозоологічних форм виявилася не більше 52-60 %. Застосування дисперсійного аналізу не підтвердили значної ролі статі та місце проживання на показники стану ротової порожнини.

Таким чином, наприкінці слід зазначити, що аналіз розподілу супутніх захворювань в осіб з повною відсутністю зубів у літньому та старечому віці показав, що ця категорія громадян відноситься до особливої ​​групи населення, яка має отримувати адекватну стоматологічну допомогу в рамках існуючих стоматологічних систем /12/ .

3 Дисперсійний аналіз у контексті статистичних методів

Статистичні методи аналізу – це методологія вимірювання результатів діяльності людини, тобто переведення якісних характеристик у кількісні.

Основні етапи під час проведення статистичного аналізу:

Упорядкування плану збору вихідних даних - значень вхідних змінних (X 1 ,...,X p), числа спостережень n. Цей етап виконується за активного планування експерименту.

Отримання вихідних даних та введення їх у комп'ютер. У цьому етапі формуються масиви чисел (x 1i ,..., x pi ; y 1i ,..., y qi), i=1,..., n, де n - обсяг вибірки.

Первинна статистична обробка даних. На даному етапі формується статистичний опис параметрів, що розглядаються:

а) побудова та аналіз статистичних залежностей;

б) кореляційний аналіз призначений для оцінювання значущості впливу факторів (X 1, ..., X p) на відгук Y;

в) дисперсійний аналіз використовується для оцінювання впливу на відгук Y некількісних факторів (X 1, ..., X p) з метою вибору серед них найважливіших;

г) регресійний аналіз призначений визначення аналітичної залежності відгуку Y від кількісних чинників X;

Інтерпретація результатів у термінах поставленого завдання /13/.

У таблиці 3.1 наведено статистичні методи, з яких вирішуються аналітичні завдання. У відповідних осередках таблиці знаходяться частоти застосування статистичних методів:

Мітка "-" - метод не застосовується;

Мітка "+" - метод застосовується;

Мітка "++" - метод широко застосовується;

Мітка «+++» - застосування методу становить особливий інтерес /14/.

Дисперсійний аналіз подібно до t-критерію Стьюдента, дозволяє оцінити відмінності між вибірковими середніми; однак, на відміну від t-критерію, у ньому немає обмежень на кількість порівнюваних середніх. Таким чином, замість того, щоб поставити питання про відмінність двох вибіркових середніх, можна оцінити, чи розрізняються два, три, чотири, п'ять або k середніх.

Дисперсійний аналіз дозволяє мати справу з двома або більше незалежними змінними (ознаками, факторами) одночасно, оцінюючи не лише ефект кожної з них окремо, але й ефекти взаємодії між ними /15/.


Таблиця 3.1 – Застосування статистичних методів під час вирішення аналітичних завдань

Аналітичні завдання, що виникають у сфері бізнесу, фінансів та управління

Методи описової статистики

Методи перевірки статистичних гіпотез

Методи регресійного аналізу

Методи дисперсійного аналізу

Методи багатовимірного аналізу

Методи дискримінантного аналізу

кластерного

Методи аналізу

виживання-ємності

Методи аналізу

та прогнозу

тимчасових рядів

Завдання горизонталь-ного (тимчасового) аналізу

Завдання вертикального (структурного) аналізу

Завдання трендового аналізу та прогнозу

Завдання аналізу відносних показників

Завдання порівняльного (просторового) аналізу

Завдання факторного аналізу

До більшості складних систем застосуємо принцип Парето, за яким 20 % чинників визначають властивості системи на 80 %. Тому першочерговим завданням дослідника імітаційної моделі є відсіювання несуттєвих чинників, що дозволяє зменшити розмірність завдання оптимізації моделі.

Аналіз дисперсії оцінює відхилення спостережень від загального середнього. Потім варіація розбивається на частини, кожна з яких має причину. Залишкова частина варіації, яку вдається пов'язати з умовами експерименту, вважається його випадковою помилкою. Для підтвердження значущості використовується спеціальний тест – F-статистика.

Дисперсійний аналіз визначає, чи ефект. Регресійний аналіз дозволяє прогнозувати відгук (значення цільової функції) у певній точці простору параметрів. Безпосереднім завданням регресійного аналізу є оцінка коефіцієнтів регресії /16/.

Занадто велика розмірність вибірок ускладнює проведення статистичних аналізів, тому має сенс зменшити розмір вибірки.

Застосувавши дисперсійний аналіз можна виявити значущість впливу різних факторів на змінну, що досліджується. Якщо вплив чинника виявиться несуттєвим, цей чинник можна виключити з подальшої обробки.

Макроеконометристи повинні вміти вирішувати чотири задачі, що логічно відрізняються:

Опис даних;

макроекономічний прогноз;

Структурний висновок;

Аналіз політики.

Опис даних означає опис властивостей одного або кількох часових рядів та повідомлення цих властивостей широкому колу економістів. Макроекономічний прогноз означає прогноз курсу економіки, зазвичай на два-три роки або менше (головним чином тому, що прогнозувати на більш довгі горизонти занадто важко). Структурний висновок означає перевірку того, чи макроекономічні дані відповідають конкретної економічної теорії. Макроеконометричний аналіз політики відбувається за декількома напрямками: з одного боку, оцінюється вплив на економіку гіпотетичної зміни інструментів політики (наприклад, податкової ставки або короткострокової процентної ставки), з іншого боку, оцінюється вплив зміни правил політики (наприклад, перехід до нового режиму монетарної політики). Емпіричний макроекономічний дослідницький проект може включати одну або кілька цих чотирьох завдань. Кожне завдання має бути вирішено таким чином, щоб було враховано кореляції між рядами за часом.

У 1970-х роках ці завдання вирішувалися з використанням різноманітних методів, які, якщо оцінити їх із сучасних позицій, були неадекватні з кількох причин. Щоб описати динаміку окремого ряду, досить просто використовувати одномірні моделі часових рядів, а щоб описати спільну динаміку двох рядів – спектральний аналіз. Однак була відсутня загальноприйнята мова, придатна для систематичного опису спільних динамічних властивостей кількох часових рядів. Економічні прогнози робилися або з використанням спрощених моделей авторегресії - ковзного середнього (ARMA), або з використанням популярних на той час великих структурних економетричних моделей. Структурний висновок ґрунтувався або на малих моделях з одним рівнянням, або на великих моделях, ідентифікація в яких досягалася за рахунок погано обгрунтованих обмежень, що виключають, і які зазвичай не включали очікування. Аналіз політики з урахуванням структурних моделей залежав від цих ідентифікуючих припущень.

Зрештою, зростання цін у 1970-ті роки розглядалося багатьма як серйозна невдача великих моделей, які тоді використовувалися для вироблення політичних рекомендацій. Тобто це був слушний час для появи нової макроеконометричної конструкції, яка могла б вирішити ці численні проблеми.

У 1980 році була створена така конструкція - векторні авторагресії (VAR). На перший погляд, VAR – не більше, ніж узагальнення одновимірної авторегресії на багатовимірний випадок, і кожне рівняння у VAR – не більше, ніж звичайна регресія за методом найменших квадратів однієї змінної на запізнювальні значення себе та інших змінних VAR. Але цей начебто простий інструмент дав можливість систематично і внутрішньо узгоджено вловити багату динаміку багатовимірних часових рядів, а статистичний інструментарій, який супроводжує VAR, виявився зручним і, що дуже важливо, його легко інтерпретувати.

Виділяють три різні VAR-моделі:

Наведена форма VAR;

Рекурсивна VAR;

Структурні VAR.

Усі три є динамічними лінійними моделями, які пов'язують поточні та минулі значення вектора Y t n-вимірного часового ряду. Наведена форма та рекурсивні VAR – це статистичні моделі, які не використовують жодних економічних міркувань за винятком вибору змінних. Ці VAR використовуються для опису даних та прогнозу. Структурна VAR включає обмеження, отримані з макроекономічної теорії, і ця VAR використовується для структурного виведення та аналізу політики.

Наведена форма VAR виражає Y t у вигляді розподіленого лага минулих значень плюс серійно некорельований член помилки, тобто узагальнює одновимірну авторегресію на випадок векторів. Математично наведена форма моделі VAR – це система n рівнянь, які можна записати в матричній формі таким чином:

де  - це n l вектор констант;

A 1 , A 2 , ..., A p – це n n матриці коефіцієнтів;

 t , - це nl вектор серійно некорельованих помилок, про які передбачається, що вони мають середню нуль та матрицю підступів .

Помилки  t , (17) – це несподівана динаміка Y t , що залишається після обліку лінійного розподіленого лага минулих значень.

Оцінити параметри наведеної форми VAR легко. Кожне з рівнянь містить одні й самі регресори (Y t–1 ,...,Y t–p), і немає взаємних обмежень між рівняннями. Таким чином, ефективна оцінка (метод максимальної правдоподібності з повною інформацією) спрощується до звичайного МНК, застосованого до кожного рівняння. Матрицю підступів помилок можна спроможно оцінити вибірковою підступною матрицею отриманих з МНК залишків.

Єдина тонкість – визначити довжину лага p, але можна зробити, використовуючи інформаційний критерій, такий як AIC чи BIC.

На рівні матричних рівнянь рекурсивна та структурна VAR виглядають однаково. Ці дві моделі VAR враховують явно одночасні взаємодії між елементами Y t , що зводиться до додавання одночасного члена до правої частини рівняння (17). Відповідно, рекурсивна та структурна VAR обидві видаються у такому загальному вигляді:

де  - вектор констант;

B 0 ..., B p - матриці;

 t – помилки.

Наявність у рівнянні матриці B 0 означає можливість одночасної взаємодії між змінними n; тобто B0 дозволяє зробити так, щоб ці змінні, що відносяться до одного моменту часу, визначалися спільно.

Рекурсивну VAR можна оцінити двома способами. Рекурсивна структура дає набір рекурсивних рівнянь, які можна оцінити з допомогою МНК. Еквівалентний спосіб оцінювання полягає в тому, що рівняння наведеної форми (17), що розглядаються як система, множаться зліва на нижню трикутну матрицю.

Метод оцінювання структурної VAR залежить від того, як ідентифікована B 0 . Підхід з частковою інформацією тягне за собою використання методів оцінювання для окремого рівняння, таких як двокроковий метод найменших квадратів. Підхід з повною інформацією тягне за собою використання методів оцінювання для кількох рівнянь, таких як трикроковий метод найменших квадратів.

Необхідно пам'ятати про множинність різних типів VAR. Наведена форма VAR єдина. Даному порядку змінних Y t відповідає єдина рекурсивна VAR, але всього є n! таких порядків, тобто. n! різних рекурсивних VAR. Кількість структурних VAR – тобто наборів припущень, що ідентифікують одночасні взаємозв'язки між змінними, – обмежена лише винахідливістю дослідника.

Оскільки матриці оцінених коефіцієнтів VAR важко інтерпретувати безпосередньо, результати оцінювання VAR зазвичай є деякими функціями цих матриць. До таких статистиків розкладання помилки прогнозу.

Розкладання дисперсії помилки прогнозу обчислюються переважно для рекурсивних чи структурних систем. Таке розкладання дисперсії показує, наскільки помилка в j-му рівнянні важлива пояснення несподіваних змін i-й змінної. Коли помилки VAR некорельовані за рівняннями, дисперсію помилки прогнозу на h періодів уперед можна записати як суму компонентів, що є результатом кожної з цих помилок /17/.

3.2 Факторний аналіз

У сучасній статистиці під факторним аналізом розуміють сукупність методів, які на основі реально існуючих зв'язків ознак (або об'єктів) дозволяють виявляти латентні узагальнюючі характеристики організаційної структури та механізму розвитку явищ і процесів, що вивчаються.

Поняття латентності у визначенні ключове. Воно означає неявність характеристик, що розкриваються методами факторного аналізу. Спочатку є з набором елементарних ознак X j , їх взаємодія передбачає наявність певних чинників, особливих умов, тобто. існування деяких прихованих факторів. Останні встановлюються в результаті узагальнення елементарних ознак і виступають як інтегровані характеристики, або ознаки, але вищого рівня. Природно, що корелювати можуть як тривіальні ознаки X j , а й самі об'єкти N i, що спостерігаються, тому пошук латентних факторів теоретично можливий як за ознаковими, так і за об'єктними даними.

Якщо об'єкти характеризуються досить великою кількістю елементарних ознак (m > 3), то логічно та інше припущення - існування щільних скупчень точок (ознаків) у просторі n об'єктів. При цьому нові осі узагальнюють вже не ознаки X j , а об'єкти n i , відповідно і латентні фактори F r будуть розпізнані за складом об'єктів, що спостерігаються:

F r = c 1 n 1 + c 2 n 2 + ... + c N n N ,

де c i - вага об'єкта n i факторі F r .

Залежно від того, який із розглянутих вище тип кореляційного зв'язку - елементарних ознак або об'єктів, що спостерігаються - досліджується в факторному аналізі, розрізняють R і Q - технічні прийоми обробки даних.

Назва R-техніки носить об'ємний аналіз даних за ознаками m, в результаті нього отримують r лінійних комбінацій (груп) ознак: F r =f(X j), (r=1..m). Аналіз за даними про близькість (зв'язку) n спостерігаються об'єктів називається Q-технікою і дозволяє визначати r лінійних комбінацій (груп) об'єктів: F = f (n i), (i = l .. N).

Нині практично більше 90% завдань вирішується з допомогою R-техніки.

Набір методів факторного аналізу в даний час досить великий, налічує десятки різних підходів та прийомів обробки даних. Щоб у дослідженнях орієнтуватися правильний вибір методів, необхідно представляти їх особливості. Розділимо всі методи факторного аналізу на декілька класифікаційних груп:

Метод основних компонентів. Строго кажучи, його не належать до факторного аналізу, хоча він має з ним багато спільного. Специфічним є, по-перше, те, що в ході обчислювальних процедур одночасно отримують усі головні компоненти та їх число спочатку дорівнює числу елементарних ознак. По-друге, постулюється можливість повного розкладання дисперсії елементарних ознак, тобто її повне пояснення через латентні фактори (узагальнені ознаки).

Методи факторного аналізу. Дисперсія елементарних ознак тут пояснюється над повному обсязі, визнається, що частина дисперсії залишається нерозпізнаною як характерність. Фактори зазвичай виділяються послідовно: перший, який пояснює найбільшу частку варіації елементарних ознак, потім другий, який пояснює меншу, другу після першого латентного фактора частину дисперсії, третій і т.д. Процес виділення факторів може бути перерваний на будь-якому кроці, якщо прийнято рішення про достатність частки поясненої дисперсії елементарних ознак або з урахуванням інтерпретації латентних факторів.

Методи факторного аналізу доцільно розділити додатково на два класи: спрощені та сучасні апроксимуючі методи.

Прості методи факторного аналізу переважно пов'язані з початковими теоретичними розробками. Вони мають обмежені можливості у виділенні латентних факторів та апроксимації факторних рішень. До них відносяться:

Однофакторна модель. Вона дозволяє виділити лише один генеральний латентний та один характерний фактори. Для існуючих інших латентних факторів робиться припущення про їх незначимість;

Біфакторна модель. Допускає вплив на варіацію елементарних ознак не одного, а кількох латентних факторів (зазвичай двох) та одного характерного фактора;

Центроїдний метод. У ньому кореляції між змінними розглядаються як пучок векторів, а латентний фактор геометрично представляється як врівноважуючий вектор, що проходить через центр цього пучка. : Метод дозволяє виділяти кілька латентних і характерних факторів, вперше з'являється можливість співвідносити факторне рішення з вихідними даними, тобто. у найпростішому вигляді розв'язувати задачу апроксимації.

Сучасні апроксимуючі методи часто припускають, що перше, наближене рішення вже знайдено якимось із способів, наступними кроками це рішення оптимізується. Методи відрізняються складністю обчислень. До цих методів належать:

Груповий метод. Рішення виходить з попередньо відібраних якимось чином групах елементарних ознак;

Метод основних чинників. Найбільш близький методу основних компонентів, відмінність полягає у припущенні про існування характерностей;

Метод максимальної правдоподібності, мінімальних залишків, а-факторного аналізу канонічного факторного аналізу, що всі оптимізують.

Ці методи дозволяють послідовно покращити попередньо знайдені рішення на основі використання статистичних прийомів оцінювання випадкової величини або статистичних критеріїв, що припускають великий обсяг трудомістких обчислень. Найбільш перспективним та зручним для роботи в цій групі визнається метод максимальної правдоподібності.

Основним завданням, яке вирішують різноманітними методами факторного аналізу, включаючи і метод головних компонентів, є стиснення інформації, перехід від безлічі значень за m елементарними ознаками з об'ємом інформації n х m до обмеженої множини елементів матриці факторного відображення (m х r) або матриці значень латентних факторів для кожного об'єкта, що спостерігається, розмірністю n х r, причому зазвичай r< m.

Методи факторного аналізу дозволяють також візуалізувати структуру явищ і процесів, що вивчаються, а це означає визначати їх стан і прогнозувати розвиток. Нарешті, дані факторного аналізу дають підстави ідентифікації об'єкта, тобто. розв'язання задачі розпізнавання образу.

Методи факторного аналізу мають властивості, дуже привабливими їх використання у складі інших статистичних методів, найчастіше у кореляційно-регресійному аналізі, кластерному аналізі, багатовимірному шкалюванні та інших. /18/.

3.3 Парна регресія. Імовірнісна природа регресійних моделей.

Якщо розглянути завдання аналізу витрат на харчування в групах з однаковими доходами, наприклад $10.000(x), то це детермінована величина. А ось Y - частка цих грошей, що витрачається на харчування - випадкова і може змінюватися рік у рік. Тому для кожного i-го індивіда:

де i - випадкова помилка;

α та β - константи (теоретично), хоча можуть змінюватися від моделі до моделі.

Передумови для парної регресії:

X та Y пов'язані лінійно;

Х - невипадкова змінна з фіксованими значеннями;

- - помилки нормально розподілені N(0,σ 2);

- .

На малюнку 3.1 представлено модель парної регресії.

Рисунок 3.1 – Модель парної регресії

Ці причини описують класичну лінійну регресійну модель.

Якщо помилка має ненульове середнє, вихідна модель буде еквівалентна новій моделі та іншим вільним членом, але з середнім нульовим для помилки.

Якщо виконуються передумови, то МНК оцінки є ефективними лінійними несмещенными оцінками

Якщо позначити:

те що математичне очікування та дисперсії коефіцієнтів і будуть наступні:

Коваріація коефіцієнтів:

Якщо то й розподілені теж нормально:

Звідси слідує що:

Варіація β повністю визначається варіацією ε;

Чим вище дисперсія X – тим краща оцінка β.

Повна дисперсія визначається за такою формулою:

Дисперсія відхилень у такому вигляді - незміщена оцінка і називається стандартною помилкою регресії. N-2 - може бути інтерпретовано як кількість ступенів волі.

Аналіз відхилень від лінії регресії може уявити корисну міру того, наскільки оцінена регресія відбиває реальні дані. Добра регресія та, яка пояснює значну частку дисперсії Y і навпаки погана регресія не відстежує більшу частину коливань вихідних даних. Інтуїтивно ясно, що будь-яка додаткова інформація дозволить покращити модель, тобто зменшити незрозумілу частку варіації Y. Для аналізу регресійної моделі проводять розкладання дисперсії на складові визначають коефіцієнт детермінації R 2 .

Відношення двох дисперсій розподілено за F-розподілом, тобто якщо перевірити на статистичну значущість відмінності дисперсії моделі від дисперсії залишків, можна дійти невтішного висновку про значимість R 2 .

Перевірка гіпотези про рівність дисперсій цих двох вибірок:

Якщо гіпотеза Н 0 (про рівність дисперсій кількох вибірок) вірна, t має F-розподіл з (m 1 ,m 2)=(n 1 -1,n 2 -1) ступенями свободи.

Порахувавши F – ставлення як відношення двох дисперсій і порівнявши його з табличним значенням, можна дійти невтішного висновку про статистичної значимості R 2 /2/, /19/.

Висновок

Сучасні додатки дисперсійного аналізу охоплюють широке коло завдань економіки, біології та техніки і трактуються зазвичай у термінах статистичної теорії виявлення систематичних відмінностей між результатами безпосередніх вимірів, виконаних за тих чи інших змінних умов.

Завдяки автоматизації дисперсійного аналізу дослідник може проводити різні статистичні дослідження із застосуванням ЕОМ, витрачаючи при цьому менше часу та зусиль на розрахунки даних. Нині існує безліч пакетів прикладних програм, у яких реалізовано апарат дисперсійного аналізу. Найбільш поширеними є такі програмні продукти як:

У сучасних статистичних програмних продуктах реалізовано більшість статистичних методів. З розвитком алгоритмічних мов програмування стало можливим створювати додаткові блоки обробки статистичних даних.

Дисперсійний аналіз є потужним сучасним статистичним методом обробки та аналізу експериментальних даних у психології, біології, медицині та інших науках. Він дуже тісно пов'язаний із конкретною методологією планування та проведення експериментальних досліджень.

Дисперсійний аналіз застосовується у всіх галузях наукових досліджень про, де необхідно проаналізувати вплив різних чинників на досліджувану змінну.

Список літератури

1 Кремер Н.Ш. Теорія ймовірності та математична статистика. М.: Юніті - Дана, 2002.-343с.

2 Гмурман В.Є. Теорія ймовірностей та математична статистика. - М.: Вища школа, 2003.-523с.

4 www.conf.mitme.ru

5 www.pedklin.ru

6 www.webcenter.ru

7 www.infections.ru

8 www.encycl.yandex.ru

9 www.infosport.ru

10 www.medtrust.ru

11 www.flax.net.ru

12 www.jdc.org.il

13 www.big.spb.ru

14 www.bizcom.ru

15 Гусєв О.М. Дисперсійний аналіз експериментальної психології. - М.: Навчально-методичний колектор "Психологія", 2000.-136с.

17 www.econometrics.exponenta.ru

18 www.optimizer.by.ru

5.1. Що таке дисперсійний аналіз?

Дисперсійний аналіз розроблений у 20-х роках XX століття англійським математиком та генетиком Рональдом Фішером. За даними опитування серед учених, де з'ясовувалося, хто найсильніше вплинув на біологію XX століття, першість отримав саме сер Фішер (за свої заслуги він був нагороджений лицарським званням - однією з найвищих відмінностей у Великій Британії); у цьому плані Фішер порівняємо з Чарльзом Дарвіном, який надав найбільше впливом геть біологію ХІХ століття.

Дисперсійний аналіз (Analis of variance) є окремою галуззю статистики. Він заснований на відкритому Фішером факті, що міру мінливості досліджуваної величини можна розкласти на частини, що відповідають факторам, що впливають на цю величину, і випадковим відхиленням.

Щоб зрозуміти суть дисперсійного аналізу, ми виконаємо однотипні розрахунки двічі: «вручну» (з калькулятором) та за допомогою програми Statistica. Для спрощення нашого завдання ми працюватимемо не з результатами дійсного опису різноманітності зелених жаб, а з вигаданим прикладом, який стосується порівняння жінок та чоловіків у людей.Розглянемо різноманітність зростання 12 дорослих осіб: 7 жінок та 5 чоловіків.

Таблиця 5.1.1. Приклад для однофакторного дисперсійного аналізу: дані про поле та зростання 12 людей

Проведемо однофакторний дисперсійний аналіз: порівняємо, статистично значимо чи ні чи відрізняються чоловіки і жінки в охарактеризованій групі зростання.

5.2. Тест на нормальність розподілу

Подальші міркування ґрунтуються на тому, що розподіл у вибірці, що розглядається, нормальний або близький до нормального. Якщо розподіл далеко від нормального, дисперсія (варіансу) не є адекватним заходом його мінливості. Втім, дисперсійний аналіз щодо стійкий до відхилень розподілу від нормальності.

Тест цих даних на нормальність можна провести двома різними способами. Перший: Statistics/Basic Statistics/Tables/Descriptive statistics/Вкладка Normality. У вкладці Normality можна вибрати тести нормальності розподілу. При натисканні на кнопку Frequency tables з'явиться частотна таблиця, а кнопки Histograms – гістограма. На таблиці та гістограмі будуть наведені результати різних тестів.

Другий спосіб пов'язаний з використанням відповідних можливостей при побудові гістограм. У діалозі побудови гістограм (Grafs/Histograms...) слід вибрати вкладку Advanced. У нижній частині є блок Statistics. Відзначимо на ній Shapiro-Wilk t est і Kolmogorov-Smirnov test, як показано на малюнку.

Рис. 5.2.1. Статистичні тести на нормальність розподілу у діалозі побудови гістограм

Як видно з гістограми, розподіл зростання у нашій вибірці відрізняється від нормального (у середині – «провал»).


Рис. 5.2.2. Гістограма, побудована з параметрами, вказаними на попередньому малюнку

Третій рядок у заголовку графіка вказує параметри нормального розподілу, до якого виявився найближчий розподіл. Генеральне середнє становить 173, генеральне стандартне відхилення – 10,4. Внизу у врізанні на графіку вказані результати тестів на нормальність. D – це критерій Колмогорова-Смирнова, а SW-W – Шапіро-Вилка. Як видно, для всіх використаних тестів відмінності розподілу за зростанням від нормального розподілу виявилися статистично незначними ( p у всіх випадках більше ніж 0,05).

Отже, формально кажучи, тести на відповідність розподілу нормальному не заборонили нам використовувати параметричний метод, заснований на припущенні про нормальний розподіл. Як уже сказано, дисперсійний аналіз щодо стійкий до відхилень від нормальності, тому ми ним таки скористаємося.

5.3. Однофакторний дисперсійний аналіз: обчислення «вручну»

Для характеристики мінливості зростання людей у ​​наведеному прикладі обчислимо суму квадратів відхилень (англійською позначається як SS , Sum of Squares або ) окремих значень від середнього: . Середнє значення для зростання у наведеному прикладі становить 173 сантиметри. Виходячи з цього,

SS = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

SS = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

SS = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

Отримана величина (1192) - міра мінливості всієї сукупності даних. Однак вони складаються із двох груп, для кожної з яких можна виділити свою середню. У наведених даних середнє зростання жінок – 168 см, а чоловіків – 180 см.

Обчислимо суму квадратів відхилень для жінок:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

Також обчислимо суму квадратів відхилень для чоловіків:

SS m = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

SS m = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

Від чого залежить досліджувана величина відповідно до логіки дисперсійного аналізу?

Дві обчислені величини, SS f і SS m , характеризують внутрішньогрупову варіансу, яку дисперсійному аналізі прийнято називати «помилкою». Походження цієї назви пов'язане з наступною логікою.

Від чого залежить зростання людини в цьому прикладі? Насамперед, від середнього зростання людей взагалі, незалежно від їхньої статі. У другу чергу – від статі. Якщо люди однієї статі (чоловічої) вище, ніж іншої (жіночої), це можна уявити у вигляді додавання із «загальнолюдської» середньої якоїсь величини, ефекту статі. Нарешті, люди однієї статі відрізняються зростанням через індивідуальні відмінності. У рамках моделі, що описує зростання як суму загальнолюдської середньої та поправки на підлогу, індивідуальні відмінності незрозумілі, і їх можна розглядати як помилку.

Отже, відповідно до логіки дисперсійного аналізу, досліджувана величина визначається наступним чином: , де x ij - i-те значення досліджуваної величини при j-тому значенні досліджуваного фактора; - генеральне середнє; F j - Вплив j-того значення досліджуваного фактора; - «помилка», вклад індивідуальності об'єкта, до якого належить величинаx ij .

Міжгрупова сума квадратів

Отже, SS помилки = SS f + SS m = 212 + 560 = 772. Цією величиною ми описали внутрішньогрупову мінливість (при виділенні груп за статтю). Але є й друга частина мінливості – міжгрупова, яку ми назвемоSS ефекту (оскільки йдеться про ефект поділу сукупності об'єктів, що розглядаються на жінок і чоловіків).

Середнє кожної групи відрізняється від загальної середньої. Обчислюючи внесок цієї відмінності в загальну міру мінливості, ми повинні помножити відмінність групової та загальної середньої кількості об'єктів у кожній групі.

SS ефекту = 7×(168–173) 2 + 5×(180–173) 2 = 7×52 + 5×72 = 7×25 + 5×49 = 175 + 245 = 420.

Тут виявився відкритий Фішером принцип сталості суми квадратів: SS = SS ефект + SS помилки , тобто. для цього прикладу, 1192 = 440 + 722.

Середні квадрати

Порівнюючи в нашому прикладі міжгрупову та внутрішньогрупову суми квадратів, ми можемо побачити, що перша пов'язана з варіюванням двох груп, а друга - 12 величин у 2 групах. Кількість ступенів свободи ( df ) для якогось параметра може бути визначено як різницю кількості об'єктів у групі та кількості залежностей (рівнянь), що пов'язує ці величини.

У нашому прикладі df ефекту = 2–1 = 1, а df помилки = 12–2 = 10.

Ми можемо поділити суми квадратів на число їх ступенів свободи, отримавши середні квадрати ( MS , Means of Squares). Зробивши це, ми можемо встановити, що MS - ні що інше, як варіанси («дисперсії», результат розподілу суми квадратів на ступінь свободи). Після цього ми можемо зрозуміти структуру таблиці дисперсійного аналізу. Для нашого прикладу вона матиме такий вигляд.

Ефект

Помилка

МS ефекту і МS помилки є оцінками міжгрупової та внутрішньогрупової варіанси, і, отже, їх можна порівняти за критеріємF (Критерію Снедекору, названому на честь Фішера), призначеному для порівняння варіанс. Цей критерій є просто приватним від поділу більшої варіанси на меншу. У нашому випадку це 420/77,2 = 5,440.

Визначення статистичної значущості критерію Фішера за таблицями

Якби ми визначали статистичну значущість ефекту вручну, за таблицями, нам необхідно було б порівняти отримане значення критерію F з критичним, який відповідає певному рівню статистичної значущості при заданих ступенях свободи.


Рис. 5.3.1. Фрагмент таблиці з критичними значеннями критерію F

Як можна переконатися, рівня статистичної значимості p=0,05 критичне значення критеріюF складає 4,96. Це означає, що в нашому прикладі дія статі, що вивчалася, зареєстрована з рівнем статистичної значущості 0,05.

Отриманий результат можна інтерпретувати так. Імовірність нульової гіпотези, згідно з якою середнє зростання жінок і чоловіків однакове, а зареєстрована різниця в їхньому зростанні пов'язана з випадковістю при формуванні вибірок, становить менше 5%. Це означає, що ми повинні вибрати альтернативну гіпотезу, яка полягає в тому, що середнє зростання жінок і чоловіків відрізняється.

5.4. Однофакторний дисперсійний аналіз ( ANOVA) у пакеті Statistica

У тих випадках, коли розрахунки здійснюються не вручну, а за допомогою відповідних програм (наприклад, пакета Statistica) p визначається автоматично. Можна переконатися, що вона дещо вища за критичне значення.

Щоб проаналізувати обговорюваний приклад за допомогою найпростішого варіанта дисперсійного аналізу, потрібно запустити для файлу з відповідними даними процедуру Statistics/ANOVA і вибрати у вікні Type of analysis варіант One-way ANOVA (однофакторний дисперсійний аналіз), а у вікні Specification method – варіант Qui .


Рис. 5.4.1. Діалог General ANOVA/MANOVA (Дисперсійний аналіз)

У вікні швидкого діалогу, що відкрилося, в полі Variables потрібно вказати ті стовпці, які містять дані, мінливість яких ми вивчаємо (Dependent variable list; у нашому випадку - стовпець Growth), а також стовпець, що містять значення, що розбивають досліджувану величину на групи (Catigorical predictor ( factor);у нашому випадку - стовпець Sex). У цьому варіанті аналізу, на відміну багатофакторного аналізу, може розглядатися лише одне чинник.


Рис. 5.4.2. Діалог One-Way ANOVA (Однофакторний дисперсійний аналіз)

У вікні Factor codes слід вказати ті значення фактора, що розглядається, які потрібно обробляти в ході даного аналізу. Усі наявні значення можна переглянути за допомогою кнопки Zoom; якщо, як і нашому прикладі, потрібно розглядати все значення чинника (а статі у прикладі їх лише два), можна натиснути кнопку All. Коли задані стовпці, що обробляються, і коди фактора, можна натиснути кнопку OK і перейти у вікно швидкого аналізу результатів: ANOVA Results 1, у вкладку Quick.

Рис. 5.4.3. Вкладка Quick вікна результатів дисперсійного аналізу

Кнопка All effects/Graphs дозволяє побачити, як співвідносяться середні дві групи. Над графіком вказується число ступенів свободи, а також значення F і p для фактора, що розглядається.


Рис. 5.4.4. Графічне відображення результатів дисперсійного аналізу

Кнопка All effects дозволяє отримати таблицю дисперсійного аналізу, аналогічну до описаної вище (з деякими суттєвими відмінностями).


Рис. 5.4.5. Таблиця з результатами дисперсійного аналізу (порівняйте з аналогічною табличкою, отриманою "вручну")

У нижньому рядку таблиці вказано суму квадратів, кількість ступенів свободи та середні квадрати для помилки (внутрішньогрупової мінливості). На рядок вище – аналогічні показники для досліджуваного фактора (у даному випадку – ознаки Sex), а також критерій F (Ставлення середніх квадратів ефекту до середніх квадратів помилки), і рівень його статистичної значущості. Те, що дію аналізованого чинника виявилося статистично значущим, свідчить про виділення червоним кольором.

А в першому рядку наведено дані за показником Intercept. Ця рядок таблиці представляє загадку для користувачів, що долучаються до пакета Statistica у його 6-й або пізнішій версії. Розмір Intercept (перетин, перехоплення), мабуть, пов'язані з розкладанням суми квадратів всіх значень даних (тобто. 1862 + 1692 … = 360340). Вказане для неї значення критерію F отримано шляхом розподілу MS Intercept/MS Error = 353220/77,2 = 4575,389 і, природно, дає дуже низьке значення p . Цікаво, що в Statistica-5 ця величина взагалі не обчислювалася, а посібники з використання пізніших версій пакета ніяк не коментують її введення. Найкраще, що може зробити біолог, що працює з пакетом Statistica-6 та наступних версій, це просто ігнорувати рядок Intercept у таблиці дисперсійного аналізу.

5.5. ANOVA та критерії Стьюдента та Фішера: що краще?

Як ви могли помітити, ті дані, які ми порівнювали за допомогою дисперсійного однофакторного аналізу, ми могли досліджувати і за допомогою критеріїв Стьюдента і Фішера. Порівняємо ці два методи. Для цього обчислимо різницю у зростанні чоловіків та жінок з використанням цих критеріїв. Для цього нам доведеться пройти шляхом Statistics / Basic Statistics / t-test, independent, by groups. Природно, Dependent variables – це змінна Growth, а Grouping variable – змінна Sex.


Рис. 5.5.1. Порівняння даних, оброблених за допомогою ANOVA, за критеріями Стьюдента та Фішера

Як можна переконатися, результат той самий, що і під час використання ANOVA. p = 0,041874 в обох випадках, як показано на рис. 5.4.5, і показаному на рис. 5.5.2 (переконайтеся у цьому самі!).


Рис. 5.5.2. Результати аналізу (докладна розшифровка таблиці результатів - у пункті, присвяченому критерію Стьюдента)

Важливо підкреслити, що хоча критерій F з математичної точки зору в аналізованому аналізі за критеріями Стьюдента і Фішера той самий, що в ANOVA (і виражає відношення варіанс), зміст його в результатах аналізу, що представляються підсумковою таблицею, зовсім інший. При порівнянні за критеріями Стьюдента і Фішера порівняння середніх значень вибірок проводиться за критерієм Стьюдента і порівняння їх мінливості проводиться за критерієм Фішера. У результатах аналізу виводиться не сама варіансу, а її квадратний корінь – стандартне відхилення.

У дисперсійному аналізі, навпаки, критерій Фішера використовується для порівняння середніх різних вибірок (як ми обговорили, це здійснюється за допомогою поділу суми квадратів на частини та порівняння середньої суми квадратів, що відповідає між- та внутрішньогруповій мінливості).

Втім, наведена відмінність стосується радше подання результатів статистичного дослідження, ніж його суті. Як зазначає, наприклад, Гланц (1999, з. 99), порівняння груп за критерієм Стьюдента можна як окремий випадок дисперсійного аналізу для двох вибірок.

Отже, порівняння вибірок за критеріями Стьюдента і Фішера має одну важливу перевагу перед дисперсійним аналізом: у ньому можна порівняти вибірки з погляду їхньої мінливості. Але переваги дисперсійного аналізу все одно вагоміші. До них, наприклад, відноситься можливість одночасного порівняння кількох вибірок.

Поділіться з друзями або збережіть для себе:

Завантаження...