Анализ на дисперсията накратко. Дисперсионен анализ

Всички хора естествено търсят знания. (Аристотел. Метафизика)

Дисперсионен анализ

Уводен преглед

В този раздел ще прегледаме основните методи, допускания и терминология на ANOVA.

Обърнете внимание, че в англоезичната литература дисперсионният анализ обикновено се нарича анализ на вариацията. Ето защо, за краткост, по-долу понякога ще използваме термина ANOVA (Ананализ о f варация) за конвенционална ANOVA и термина МАНОВАза многовариантен дисперсионен анализ. В този раздел ще разгледаме последователно основните идеи на дисперсионния анализ ( ANOVA), анализ на ковариацията ( АНКОВА), многовариантен дисперсионен анализ ( МАНОВА) и многовариантен ковариационен анализ ( МАНКОВА). След кратко обсъждане на достойнствата на контрастния анализ и post hoc тестовете, нека да разгледаме предположенията, на които се основават методите ANOVA. Към края на този раздел се обясняват предимствата на многовариантния подход за анализ на повтарящи се измервания пред традиционния едноизмерен подход.

Ключови идеи

Целта на дисперсионния анализ.Основната цел на дисперсионния анализ е да се изследва значимостта на разликата между средните. Глава (Глава 8) предоставя кратко въведение в тестването на статистическата значимост. Ако просто сравнявате средните стойности на две проби, анализът на дисперсията ще даде същия резултат като нормалния анализ. T- критерий за независими проби (ако се сравняват две независими групи от обекти или наблюдения), или T- критерий за зависими проби (ако две променливи се сравняват върху един и същи набор от обекти или наблюдения). Ако не сте запознати с тези критерии, препоръчваме ви да прегледате уводния преглед на главата (Глава 9).

Откъде идва името Дисперсионен анализ? Може да изглежда странно, че процедурата за сравняване на средните се нарича дисперсионен анализ. Всъщност това се дължи на факта, че когато изследваме статистическата значимост на разликата между средните стойности, ние всъщност анализираме дисперсиите.

Разделяне на сбора на квадрати

За размер на извадката от n дисперсията на извадката се изчислява като сумата от квадратите на отклоненията от средната стойност на извадката, разделена на n-1 (размер на извадката минус едно). По този начин, за фиксиран размер на извадката n, дисперсията е функция на сумата от квадрати (отклонения), означена, за краткост, СС(от английски Sum of Squares - Сума от квадрати). Анализът на дисперсията се основава на разделянето (или разделянето) на дисперсията на части. Разгледайте следния набор от данни:

Средните стойности на двете групи са значително различни (2 и 6, съответно). Сума на квадратите на отклоненията вътреот всяка група е 2. Събирайки ги заедно, получаваме 4. Ако сега повторим тези изчисления като изключимгрупово членство, т.е. ако изчислим ССвъз основа на комбинираната средна стойност от двете проби, получаваме 28. С други думи, дисперсията (сумата на квадратите) на базата на променливостта в рамките на групата води до много по-малки стойности, отколкото когато се изчислява на базата на общата променливост (спрямо общата означава). Причината за това очевидно е значителната разлика между средните стойности и тази разлика между средните стойности обяснява съществуваща разликамежду суми на квадрати. Наистина, ако използваме модула Дисперсионен анализще се получат следните резултати:

Както се вижда от таблицата, общата сума на квадратите СС=28, разделено на сумата от квадратите, поради вътрешногруповипроменливост ( 2+2=4 ; вижте втория ред на таблицата) и сумата от квадратите поради разликата в средните стойности. (28-(2+2)=24; вижте първия ред на таблицата).

СС грешки иСС ефект.Вътрешногрупова променливост ( СС) обикновено се нарича дисперсия грешки.Това означава, че обикновено не може да се предвиди или обясни, когато се провежда експеримент. От друга страна, СС ефект(или междугрупова променливост) може да се обясни с разликата между средните стойности в изследваните групи. С други думи, принадлежност към определена група обяснявамеждугрупова изменчивост, т.к знаем, че тези групи имат различни средства.

Проверка на значимостта.Основните идеи за тестване за статистическа значимост са обсъдени в главата Елементарни понятия на статистиката(Глава 8). Същата глава обяснява причините, поради които много тестове използват съотношението на обяснена и необяснима дисперсия. Пример за това използване е самият анализ на дисперсията. Тестването на значимостта в ANOVA се основава на сравняване на вариацията, дължаща се на вариация между групите (наречена среден квадратичен ефектили ГОСПОЖИЦАЕфект) и дисперсия поради разпространение в рамките на групата (наречено средна квадратична грешкаили ГОСПОЖИЦАгрешка). Ако нулевата хипотеза е вярна (равенство на средните стойности в двете популации), тогава можем да очакваме относително малка разлика в средните стойности на извадката поради случайна променливост. Следователно, при нулевата хипотеза, вътрешногруповата дисперсия практически ще съвпадне с обща дисперсия, изчислен без отчитане на членската група. Получените дисперсии в рамките на групата могат да бъдат сравнени с помощта на Е- тест, който проверява дали съотношението на дисперсии е значително по-голямо от 1. В горния пример, Е- Тестът показва, че разликата между средните е статистически значима.

Основна логика на ANOVA.Обобщавайки, можем да кажем, че целта на дисперсионния анализ е да се тества статистическата значимост на разликата между средните (за групи или променливи). Тази проверка се извършва с помощта на дисперсионен анализ, т.е. чрез разделяне на общата дисперсия (вариация) на части, едната от които се дължи на случайна грешка (т.е. вътрешногрупова променливост), а втората е свързана с разликата в средните стойности. След това последният компонент на дисперсията се използва за анализиране на статистическата значимост на разликата между средните стойности. Ако тази разлика е значителна, нулевата хипотеза се отхвърля и се приема алтернативната хипотеза, че има разлика между средните стойности.

Зависими и независими променливи.Променливите, чиито стойности се определят чрез измервания по време на експеримент (например резултат, отбелязан на тест), се наричат зависимпроменливи. Променливите, които могат да бъдат манипулирани в експеримент (например методи на обучение или други критерии, които ви позволяват да разделите наблюденията на групи), се наричат факториили независимапроменливи. Тези понятия са описани по-подробно в главата Елементарни понятия на статистиката(Глава 8).

Многовариантен дисперсионен анализ

В простия пример по-горе можете незабавно да изчислите t-теста за независима проба, като използвате подходящата опция на модула Основни статистики и таблици.Получените резултати, разбира се, съвпадат с резултатите от дисперсионния анализ. Анализът на дисперсията обаче съдържа гъвкави и мощни технически инструменти, които могат да се използват за много по-сложни изследвания.

Много фактори.Светът по своята същност е сложен и многоизмерен. Ситуациите, при които дадено явление е напълно описано от една променлива, са изключително редки. Например, ако се опитваме да се научим как да растем големи домати, трябва да се имат предвид фактори, свързани с генетичната структура на растенията, тип почва, светлина, температура и др. По този начин, когато провеждате типичен експеримент, трябва да се справите с голям брой фактори. Основната причина, поради която използването на дисперсионен анализ е за предпочитане пред повторното сравнение на две проби, когато различни нивафактори чрез T- критерий е, че дисперсионният анализ е повече ефективени, за малки проби, по-информативен.

Управление на факторите.Да приемем, че в примера за анализ на две проби, обсъден по-горе, добавяме още един фактор, например Етаж- Пол. Нека всяка група се състои от 3 мъже и 3 жени. Дизайнът на този експеримент може да бъде представен под формата на таблица 2 на 2:

Експериментирайте. Група 1 Експериментирайте. Група 2
мъже2 6
3 7
1 5
Средно аритметично2 6
Жени4 8
5 9
3 7
Средно аритметично4 8

Преди да направите изчисленията, можете да видите, че в този пример общата дисперсия има по поне, три източника:

(1) случайна грешка (в рамките на груповата дисперсия),

(2) променливост, свързана с членството в експерименталната група, и

(3) променливост, дължаща се на пола на наблюдаваните обекти.

(Имайте предвид, че има друг възможен източник на променливост - взаимодействие на факторите, което ще обсъдим по-късно). Какво се случва, ако не включим етажполкато фактор в анализа и изчисляване на обичайното T- критерий? Ако изчислим суми на квадрати, игнорирайки етаж -пол(т.е. комбиниране на обекти от различен пол в една група при изчисляване на дисперсията в рамките на групата, като същевременно се получава сумата от квадрати за всяка група, равна на СС=10 и общата сума на квадратите СС= 10+10 = 20), тогава получаваме по-голяма стойност на вътрешногруповата дисперсия, отколкото при по-точен анализ с допълнително разделяне на подгрупи според полу- пол(в този случай вътрешногруповата средна стойност ще бъде равна на 2, а общата вътрешногрупова сума на квадратите ще бъде равна на СС = 2+2+2+2 = 8). Тази разлика се дължи на факта, че средната стойност за мъже - мъжепо-малко от средното за Жени -женски поли тази разлика в средните стойности увеличава общата променливост в рамките на групата, ако не се вземе предвид полът. Контролирането на дисперсията на грешката увеличава чувствителността (мощността) на теста.

Този пример показва друго предимство на дисперсионния анализ пред конвенционалния анализ. T-критерий за две проби. Анализът на дисперсията ви позволява да изучавате всеки фактор, като контролирате стойностите на други фактори. Това всъщност е основната причина за неговата по-голяма статистическа сила (необходими са по-малки размери на извадката, за да се получат значими резултати). Поради тази причина дисперсионният анализ, дори на малки извадки, дава статистически по-значими резултати от обикновения. T- критерий.

Ефекти на взаимодействие

Има още едно предимство на използването на ANOVA пред конвенционалния анализ. T- критерий: дисперсионният анализ ви позволява да откриете взаимодействиемежду факторите и следователно позволява да се изучават по-сложни модели. За да илюстрираме, разгледайте друг пример.

Основни ефекти, двойни (двуфакторни) взаимодействия.Да приемем, че има две групи ученици, като психологически учениците от първата група са настроени за изпълнение на поставените задачи и са по-целенасочени от учениците от втората група, която се състои от по-мързеливи ученици. Нека разделим произволно всяка група наполовина и предложим на едната половина от всяка група трудна задача, а на другата лесна. След това измерваме колко усърдно работят учениците върху тези задачи. Средните стойности за това (фиктивно) проучване са показани в таблицата:

Какво заключение може да се направи от тези резултати? Може ли да се заключи, че: (1) учениците работят по-усилено върху трудна задача; (2) мотивираните ученици работят ли повече от мързеливите? Нито едно от тези твърдения не отразява същността на систематичния характер на средните стойности, дадени в таблицата. Анализирайки резултатите, би било по-правилно да се каже, че само мотивираните ученици работят по-усилено върху сложни задачи, докато на лесни задачиСамо мързеливите хора работят повече. С други думи, естеството на учениците и сложността на задачата взаимодействащивзаимно влияят на необходимото усилие. Това е пример взаимодействие по двойкимежду характера на учениците и сложността на задачата. Имайте предвид, че твърдения 1 и 2 описват основни ефекти.

Взаимодействия от по-висок порядък.Докато взаимодействията по двойки са относително лесни за обяснение, взаимодействията от по-висок ред са много по-трудни за обяснение. Нека си представим, че в примера, разгледан по-горе, е въведен още един фактор етаж -Поли получихме следната таблица със средни стойности:

Какви изводи могат да се направят сега от получените резултати? Средните графики улесняват тълкуването на сложни ефекти. Модулът за анализ на дисперсията ви позволява да изграждате тези графики с почти едно кликване.

Изображението в графиките по-долу представя изследваното тристранно взаимодействие.

Разглеждайки графиките, можем да кажем, че има взаимодействие между характера и трудността на теста за жените: мотивираните жени работят по-усилено върху трудна задача, отколкото върху лесна. При мъжете същото взаимодействие е обратно. Вижда се, че описанието на взаимодействието между факторите става по-объркващо.

Общ начин за описание на взаимодействията.В общия случай взаимодействието между факторите се описва като промяна на един ефект под въздействието на друг. В разгледания по-горе пример двуфакторното взаимодействие може да се опише като промяна в основния ефект на фактора, характеризиращ сложността на задачата, под влияние на фактора, описващ характера на ученика. За взаимодействието на трите фактора от предходния параграф можем да кажем, че взаимодействието на два фактора (сложността на задачата и характера на ученика) се променя под влияние на полПол. Ако се изследва взаимодействието на четири фактора, можем да кажем, че взаимодействието на три фактора се променя под влиянието на четвъртия фактор, т.е. има различни видове взаимодействия на различни нива на четвъртия фактор. Оказа се, че в много области взаимодействието на пет или дори повече фактора не е необичайно.

Комплексни планове

Междугрупови и вътрешногрупови планове (планове за повторно измерване)

Когато сравнявате две различни групичесто използван T- критерий за независими проби (от модул Основни статистики и таблици). Когато две променливи се сравняват върху един и същи набор от обекти (наблюдения), той се използва T-критерий за зависими проби. За анализа на дисперсията също е важно дали извадките са зависими или не. Ако има повтарящи се измервания на едни и същи променливи (при различни условия или по различно време) за същите обекти, тогава казват за присъствието фактор на многократни измервания(също наричан вътрешногрупов фактортъй като вътрегруповата сума от квадрати се изчислява, за да се оцени нейната значимост). Ако се сравняват различни групи обекти (например мъже и жени, три щама бактерии и т.н.), тогава се описва разликата между групите междугрупов фактор.Методите за изчисляване на критериите за значимост за двата описани типа фактори са различни, но общата им логика и интерпретация са еднакви.

Междугрупови и вътрешногрупови планове.В много случаи експериментът изисква включване както на фактор между групи, така и на фактор на повтарящи се измервания в дизайна. Например, измерват се математическите умения на учениците и учениците (където етаж -Пол-междугрупов фактор) в началото и в края на семестъра. Двете измерения на уменията на всеки ученик формират вътрешногруповия фактор (фактор на повтарящи се измервания). Тълкуването на основните ефекти и взаимодействия за фактори между групи и повторни измервания е същото и двата вида фактори очевидно могат да си взаимодействат помежду си (например жените придобиват умения по време на семестъра, а мъжете ги губят).

Непълни (вложени) планове

В много случаи ефектът на взаимодействие може да бъде пренебрегнат. Това се случва или когато е известно, че няма ефект на взаимодействие в популацията, или когато прилагането на пълното факториелпланът е невъзможен. Например, изследва се ефектът на четири горивни добавки върху разхода на гориво. Избрани са четири коли и четирима водачи. Пълна факториелекспериментът изисква всяка комбинация: добавка, шофьор, кола да се появи поне веднъж. Това изисква поне 4 x 4 x 4 = 64 тестови групи, което отнема твърде много време. Освен това почти няма взаимодействие между водача и добавката за гориво. Имайки това предвид, можете да използвате плана латински квадрати,който съдържа само 16 групи тестове (четири добавки са обозначени с буквите A, B, C и D):

Латинските квадрати са описани в повечето книги за експериментален дизайн (напр. Hays, 1988; Lindman, 1974; Milliken and Johnson, 1984; Winer, 1962) и няма да бъдат обсъждани подробно тук. Имайте предвид, че латинските квадратчета са ненпъленпланове, които не включват всички комбинации от факторни нива. Например водач 1 кара кола 1 само с добавка А, водач 3 кара кола 1 само с добавка С. Нива на факторите добавки ( A, B, C и D), вложени в клетки на таблица автомобиленх шофьор -като яйца в гнездо. Това мнемонично правило е полезно за разбиране на природата вложени или вложенипланове. Модул Дисперсионен анализпредоставя прости начини за анализ на планове от този тип.

Ковариационен анализ

Основна идея

В глава Ключови идеиимаше кратка дискусия на идеята за контролиращи фактори и как включването на адитивни фактори може да намали сумата на квадратните грешки и да увеличи статистическата сила на дизайна. Всичко това може да се разшири до променливи с непрекъснат набор от стойности. Когато такива непрекъснати променливи са включени като фактори в дизайна, те се наричат ковариати.

Фиксирани ковариати

Да предположим, че сравняваме математическите умения на две групи ученици, които са били обучавани по два различни учебника. Нека приемем също, че имаме данни за коефициента на интелигентност (IQ) за всеки ученик. Можем да приемем, че IQ е свързано с математическите умения и да използваме тази информация. За всяка от двете групи ученици може да се изчисли коефициентът на корелация между IQ и математическите умения. Използвайки този коефициент на корелация, е възможно да се разграничи делът на дисперсията в групите, обяснен с влиянието на IQ, и необяснимият дял на дисперсията (вижте също Елементарни понятия на статистиката(глава 8) и Основни статистики и таблици(Глава 9)). Останалата част от дисперсията се използва в анализа като дисперсия на грешката. Ако има връзка между коефициента на интелигентност и математическите умения, тогава разликите в грешките могат да бъдат значително намалени. СС/(н-1) .

Ефект на ковариатите върхуФ- критерий. Ф-критерият оценява статистическата значимост на разликата между средните стойности в групите, докато съотношението на междугруповата вариация се изчислява ( ГОСПОЖИЦАефект) към дисперсията на грешката ( ГОСПОЖИЦАгрешка) . Ако ГОСПОЖИЦАгрешканамалява, например, когато се вземе предвид факторът IQ, стойността Есе увеличава.

Много ковариати.Разсъждението, използвано по-горе за една ковариата (IQ), лесно се разширява до множество ковариати. Например, в допълнение към коефициента на интелигентност, можете да включите измерване на мотивация, пространствено мислене и т.н. Вместо обичайния коефициент на корелация, той използва множествен факторкорелации.

Когато стойносттаЕ -критериите намаляват.Понякога въвеждането на ковариати в дизайна на експеримента намалява стойността Е- критерии . Това обикновено показва, че ковариатите са свързани не само със зависимата променлива (като математически умения), но и с фактори (като различни учебници). Да приемем, че IQ се измерва в края на семестъра, след като две групи студенти са прекарали почти една година в изучаване на два различни учебника. Въпреки че учениците бяха разделени на групи на случаен принцип, може да се окаже, че разликата в учебниците е толкова голяма, че както IQ, така и математическите умения в различните групи ще варират значително. В този случай ковариатите не само намаляват дисперсията на грешката, но също и дисперсията между групите. С други думи, след контролиране на разликата в IQ между групите, разликата в математическите умения вече няма да бъде значителна. Иначе може да се каже. След „елиминиране“ на влиянието на коефициента на интелигентност, неволно се изключва влиянието на учебника върху развитието на математическите умения.

Коригирани средни стойности.Когато ковариата влияе на фактора между групите, трябва да се изчисли коригирани средни стойности, т.е. такива средни стойности, които се получават след премахване на всички оценки на ковариатите.

Взаимодействие между ковариати и фактори.Точно както се изследват взаимодействията между факторите, могат да се изследват взаимодействията между ковариатите и между групите фактори. Да предположим, че един от учебниците е особено подходящ за умни ученици. Вторият учебник е скучен за умните ученици, а същият учебник е труден за по-малко умните ученици. В резултат на това има положителна корелация между коефициента на интелигентност и резултатите от обучението в първата група (по-умни ученици, по-добри резултати) и нулева или малка отрицателна корелация във втората група (колкото по-умен е ученикът, толкова по-малка е вероятността да придобие математически умения от втори учебник). В някои изследвания тази ситуация се обсъжда като пример за нарушаване на допусканията на анализа на ковариацията. Въпреки това, тъй като модулът за анализ на дисперсията използва най-често срещаните методи за анализ на ковариацията, е възможно по-специално да се оцени статистическата значимост на взаимодействието между факторите и ковариатите.

Променливи ковариати

Докато фиксираните ковариати се обсъждат доста често в учебниците, променливите ковариати се споменават много по-рядко. Обикновено, когато провеждаме експерименти с повтарящи се измервания, ние се интересуваме от разликите в измерванията на едни и същи количества в различни моменти от време. А именно, ние се интересуваме от значението на тези различия. Ако измерването на ковариата се извършва едновременно с измерванията на зависимите променливи, може да се изчисли корелацията между ковариатите и зависимите променливи.

Например, можете да изучавате интерес към математиката и математически умения в началото и в края на семестъра. Би било интересно да се провери дали промените в интереса към математиката са свързани с промените в математическите умения.

Модул Дисперсионен анализв СТАТИСТИКАавтоматично оценява статистическата значимост на промените в ковариатите в тези планове, където е възможно.

Многовариантни дизайни: Многовариантен ANOVA и ковариационен анализ

Междугрупови планове

Всички примери, разгледани по-рано, включват само една зависима променлива. Когато има няколко зависими променливи едновременно, само сложността на изчисленията се увеличава, а съдържанието и основните принципи не се променят.

Например, провежда се изследване по два различни учебника. Едновременно с това се изследва и успехът на учениците в изучаването на физика и математика. В този случай има две зависими променливи и трябва да разберете как два различни учебника им влияят едновременно. За да направите това, можете да използвате многовариантен дисперсионен анализ (MANOVA). Вместо едноизмерен Екритерий, многоизмерен Етест (Wilks l-тест), базиран на сравнение на ковариационната матрица на грешката и междугруповата ковариационна матрица.

Ако зависимите променливи са корелирани една с друга, тогава тази корелация трябва да се вземе предвид при изчисляване на теста за значимост. Очевидно, ако едно и също измерване се повтори два пъти, тогава нищо ново не може да се получи в този случай. Ако измерение, което е свързано с него, се добави към съществуващо измерение, тогава се получава някаква нова информация, но новата променлива съдържа излишна информация, която се отразява в ковариацията между променливите.

Тълкуване на резултатите.Ако цялостният многовариантен критерий е значим, можем да заключим, че съответният ефект (напр. вида на учебника) е значим. Възникват обаче следните въпроси. Видът на учебника влияе ли върху подобряването само на математическите умения, само на физическите умения или и на двете. Всъщност, след получаване на смислен многовариантен критерий, за единичен основен ефект или взаимодействие, едноизмерен Екритерий. С други думи, зависимите променливи, които допринасят за значимостта на многовариантния тест, се изследват отделно.

Планове с многократни измервания

Ако математическите и физически умения на студентите се измерват в началото и в края на семестъра, то това са повторни измервания. Изследването на критерия за значимост в такива планове е логично развитие на едномерния случай. Обърнете внимание, че многовариантните методи на ANOVA също често се използват за изследване на значимостта на едномерни многократни измервания, които имат повече от две нива. Съответните приложения ще бъдат обсъдени по-късно в тази част.

Сумиране на променливи стойности и многовариантен дисперсионен анализ

Дори опитни потребители на едномерна и многомерна ANOVA често се объркват, като получават различни резултати, когато прилагат многомерна ANOVA към, да речем, три променливи, и когато прилагат едномерна ANOVA към сумата от трите променливи като една променлива.

Идея сумиранепроменливи е, че всяка променлива съдържа някаква истинска променлива, която се изследва, както и случайна грешка при измерване. Следователно, когато се осредняват стойностите на променливите, грешката на измерване ще бъде по-близо до 0 за всички измервания и осреднените стойности ще бъдат по-надеждни. Всъщност в този случай прилагането на ANOVA към сумата от променливи е разумна и мощна техника. Въпреки това, ако зависимите променливи са многовариантни по природа, сумирането на стойностите на променливите е неподходящо.

Например, нека зависимите променливи се състоят от четири мерки успех в обществото. Всеки показател характеризира напълно независима страна на човешката дейност (например професионален успех, бизнес успех, семейно благополучие и др.). Добавянето на тези променливи заедно е като добавяне на ябълка и портокал. Сумата от тези променливи не би била подходяща едномерна мярка. Следователно такива данни трябва да се третират като многоизмерни индикатори многовариантен дисперсионен анализ.

Контрастен анализ и post hoc тестове

Защо се сравняват отделни набори от средства?

Обикновено хипотезите за експерименталните данни се формулират не просто по отношение на основните ефекти или взаимодействия. Пример е следната хипотеза: определен учебник подобрява математическите умения само при мъже, докато друг учебник е приблизително еднакво ефективен и за двата пола, но все още по-малко ефективен за мъжете. Може да се предвиди, че представянето на учебника взаимодейства с пола на ученика. Тази прогноза обаче също е в сила природавзаимодействия. Очаква се значителна разлика между половете за учениците в едната книга и практически независими от пола резултати за учениците в другата книга. Този тип хипотеза обикновено се изследва с помощта на контрастен анализ.

Анализ на контраста

Накратко, анализът на контраста ни позволява да оценим статистическата значимост на някои линейни комбинации от сложни ефекти. Контрастният анализ е основният и незаменим елемент от всеки комплексен ANOVA план. Модул Дисперсионен анализима доста разнообразни възможности за анализ на контраста, които ви позволяват да изберете и анализирате всеки тип сравнение на средни стойности.

a posterioriсравнения

Понякога в резултат на обработка на експеримент се открива неочакван ефект. Въпреки че в повечето случаи един креативен изследовател ще може да обясни всеки резултат, това не предоставя възможности за допълнителен анализ и оценки за прогнозата. Този проблем е един от онези, за които post hoc критерии, тоест критерии, които не използват априорихипотези. За илюстрация разгледайте следния експеримент. Да предположим, че 100 карти съдържат числа от 1 до 10. След като пуснем всички тези карти в заглавката, избираме на случаен принцип 20 пъти по 5 карти и изчисляваме средната стойност за всяка проба (средната стойност на числата, написани на картите). Можем ли да очакваме, че има две проби, чиито средни стойности са значително различни? Това е много правдоподобно! Чрез избиране на две проби с максимална и минимална средна стойност, може да се получи разлика в средните стойности, която е много различна от разликата в средните стойности, например, на първите две проби. Тази разлика може да бъде изследвана, например, с помощта на контрастен анализ. Без да навлизаме в подробности, има няколко т.нар a posterioriкритерии, които се основават точно на първия сценарий (вземане на крайни средни стойности от 20 проби), т.е. тези критерии се основават на избора на най-различни средства за сравняване на всички средства в дизайна. Тези критерии се прилагат, за да не се получи чисто случайно изкуствен ефект, например да се намери съществена разлика между средните, когато няма такава. Модул Дисперсионен анализпредлага широк набор от такива критерии. Когато се появят неочаквани резултати в експеримент, включващ множество групи, a posterioriпроцедури за изследване на статистическата значимост на получените резултати.

Сбор от квадрати тип I, II, III и IV

Многовариантна регресия и дисперсионен анализ

Съществува тясна връзка между метода на многовариантната регресия и дисперсионния анализ (анализ на вариациите). И при двата метода се изучава линеен модел. Накратко, почти всички експериментални проекти могат да бъдат изследвани с помощта на многовариантна регресия. Помислете за следния прост план за кръстосани групи 2 x 2.

DV А б AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

Колони A и B съдържат кодове, характеризиращи нивата на фактори A и B, колона AxB съдържа произведението на две колони A и B. Можем да анализираме тези данни с помощта на многовариантна регресия. Променлива DVдефинирана като зависима променлива, променливи от Апреди AxBкато независими променливи. Изследването на значимостта на регресионните коефициенти ще съвпадне с изчисленията при дисперсионния анализ на значимостта на основните ефекти на факторите Аи би ефект на взаимодействие AxB.

Небалансирани и балансирани планове

При изчисляване на корелационната матрица за всички променливи, например за данните, изобразени по-горе, може да се види, че основните ефекти на факторите Аи би ефект на взаимодействие AxBнекорелирани. Това свойство на ефектите се нарича още ортогоналност. Казват, че ефектите Аи б - ортогоналенили независимаедин от друг. Ако всички ефекти в плана са ортогонални един на друг, както в примера по-горе, тогава се казва, че планът е балансиран.

Балансираните планове имат „добро свойство“. Изчисленията при анализа на такива планове са много прости. Всички изчисления се свеждат до изчисляване на корелацията между ефектите и зависимите променливи. Тъй като ефектите са ортогонални, частичните корелации (както при пълните многоизмеренрегресии) не се изчисляват. Въпреки това, в истинския животплановете не винаги са балансирани.

Помислете за реални данни с неравен брой наблюдения в клетките.

Фактор А Фактор Б
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Ако кодираме тези данни, както по-горе, и изчислим корелационната матрица за всички променливи, тогава се оказва, че проектните фактори са корелирани един с друг. Факторите в плана вече не са ортогонални и такива планове се наричат неуравновесен.Обърнете внимание, че в този пример корелацията между факторите е изцяло свързана с разликата в честотите на 1 и -1 в колоните на матрицата с данни. С други думи, експерименталните дизайни с неравномерни обеми на клетките (по-точно, непропорционални обеми) ще бъдат небалансирани, което означава, че основните ефекти и взаимодействия ще се смесват. В този случай, за да изчислите статистическата значимост на ефектите, трябва да изчислите напълно многовариантната регресия. Тук има няколко стратегии.

Сбор от квадрати тип I, II, III и IV

Тип сума на квадратитеазиIII. За да се изследва значимостта на всеки фактор в многовариантен модел, може да се изчисли частичната корелация на всеки фактор, при условие че всички други фактори вече са взети предвид в модела. Можете също така да въвеждате фактори в модела стъпка по стъпка, като фиксирате всички фактори, които вече са въведени в модела, и игнорирате всички други фактори. В общи линии това е разликата между Тип IIIи Типазсуми на квадрати (тази терминология е въведена в SAS, вижте например SAS, 1982; подробно обсъждане може да се намери и в Searle, 1987, p. 461; Woodward, Bonett и Brecht, 1990, p. 216; или Milliken и Джонсън, 1984 г., стр. 138).

Тип сума на квадратитеII.Следващата „междинна” стратегия за формиране на модел е: да се контролират всички основни ефекти при изследване на значимостта на единичен основен ефект; при контрола на всички основни ефекти и всички взаимодействия по двойки, когато се изследва значимостта на едно взаимодействие по двойки; в контролирането на всички основни ефекти от всички взаимодействия по двойки и всички взаимодействия на три фактора; при изследване на отделно взаимодействие на три фактора и др. Сумите на квадратите за ефектите, изчислени по този начин, се наричат ТипIIсуми на квадрати. Така, типII sums of squares контролира всички ефекти от същия ред и по-долу, като игнорира всички ефекти от по-висок ред.

Тип сума на квадратитеIV. И накрая, за някои специални планове с липсващи клетки (непълни планове) е възможно да се изчисли т.нар. Тип IVсуми на квадрати. Този метод ще бъде обсъден по-късно във връзка с непълните планове (планове с липсващи клетки).

Тълкуване на хипотезата за сумата на квадратите от типове I, II и III

сбор от квадрати ТипIIIнай-лесно за тълкуване. Припомнете си, че сумите на квадрати ТипIIIизследвайте ефектите след контролиране на всички други ефекти. Например след намиране на статистически значима ТипIIIефект за фактора Ав модула Дисперсионен анализ, можем да кажем, че има единичен значим ефект на фактора А, след въвеждане на всички други ефекти (фактори) и съответно интерпретирайте този ефект. Вероятно в 99% от всички приложения на дисперсионния анализ този тип критерий представлява интерес за изследователя. Този тип сума на квадратите обикновено се изчислява в модула Дисперсионен анализпо подразбиране, независимо дали опцията е избрана Регресионен подходили не (стандартни подходи, възприети в модула Дисперсионен анализобсъдени по-долу).

Значителни ефекти, получени чрез суми от квадрати Типили ТипIIсумите на квадратите не са толкова лесни за тълкуване. Те се интерпретират най-добре в контекста на поетапна многовариантна регресия. Ако се използва сумата от квадрати Типазосновният ефект на фактор B се оказа значителен (след включване на фактор A в модела, но преди добавяне на взаимодействието между A и B), може да се заключи, че има значителен основен ефект на фактор B, при условие че има няма взаимодействие между фактори А и Б. (Ако при използване на критерия ТипIII, фактор B също се оказа значим, тогава можем да заключим, че има значим основен ефект на фактор B, след въвеждане на всички други фактори и техните взаимодействия в модела).

По отношение на пределните средства на хипотезата Типази ТипIIобикновено нямат просто тълкуване. В тези случаи се казва, че не може да се интерпретира значимостта на ефектите, като се вземат предвид само маргиналните средства. по-скоро представени стрсредните стойности са свързани със сложна хипотеза, която комбинира средни стойности и размер на извадката. Например, типIIхипотезите за фактор А в простия пример за дизайн 2 x 2, обсъден по-рано, биха били (вижте Woodward, Bonett и Brecht, 1990, стр. 219):

nij- брой наблюдения в клетка

uij- средна стойност в клетка

н. й- пределно средно

Без да навлизаме в подробности (за повече подробности вижте Milliken and Johnson, 1984, глава 10), е ясно, че това не са прости хипотези и в повечето случаи нито една от тях не представлява особен интерес за изследователя. Има обаче случаи, когато хипотезите Типазможе да представлява интерес.

Изчислителният подход по подразбиране в модула Дисперсионен анализ

По подразбиране, ако опцията не е отметната Регресионен подход, модул Дисперсионен анализизползва клетъчен среден модел. Характерно за този модел е, че сумите на квадратите за различни ефекти се изчисляват за линейни комбинации от средни стойности на клетките. В пълен факторен експеримент това води до суми от квадрати, които са същите като сумите от квадрати, обсъдени по-рано като тип III. Въпреки това, в опцията Планирани сравнения(в прозореца Анализ на дисперсионните резултати), потребителят може да направи хипотеза за всяка линейна комбинация от претеглени или непретеглени средни клетки. Така потребителят може да тества не само хипотези ТипIII, но хипотези от всякакъв вид (вкл типIV). Този общ подход е особено полезен при изследване на дизайни с липсващи клетки (така наречените непълни дизайни).

За пълни факторни дизайни този подход е полезен и когато човек иска да анализира претеглени пределни средни стойности. Да предположим например, че в простия дизайн 2 x 2, разгледан по-рано, искаме да сравним претеглените (от гледна точка на факторни нива) б) пределни средни стойности за фактор А. Това е полезно, когато разпределението на наблюденията върху клетките не е изготвено от експериментатора, а е изградено на случаен принцип и тази случайност се отразява в разпределението на броя наблюдения по нива на фактор В в агрегата .

Например, има фактор - възрастта на вдовиците. Възможна извадка от респонденти е разделена на две групи: под 40 години и над 40 години (фактор Б). Вторият фактор (фактор А) в плана е дали вдовиците са получили или не социална подкрепа от някоя агенция (докато някои вдовици са избрани на случаен принцип, други са служили като контролни). В този случай възрастовото разпределение на вдовиците в извадката отразява действителното възрастово разпределение на вдовиците в населението. Оценка на ефективността на групата за социална подкрепа за вдовици всички възрастище съответства на среднопретеглената стойност за двете възрастови групи (с тегла, съответстващи на броя наблюдения в групата).

Планирани сравнения

Имайте предвид, че сумата от въведените коефициенти на контраст не е непременно равна на 0 (нула). Вместо това програмата автоматично ще направи корекции, така че съответните хипотези да не се смесват с общата средна стойност.

За да илюстрираме това, нека се върнем към простия план 2 x 2, обсъден по-рано. Спомнете си, че броят на клетките на този небалансиран дизайн е -1, 2, 3 и 1. Да кажем, че искаме да сравним претеглените пределни средни стойности за фактор А (претеглени от честотата на нивата на фактор В). Можете да въведете контрастни съотношения:

Обърнете внимание, че сборът на тези коефициенти не е 0. Програмата ще настрои коефициентите така, че сборът да е 0, като същевременно запази относителните им стойности, т.е.:

1/3 2/3 -3/4 -1/4

Тези контрасти ще сравнят претеглените средни стойности за фактор А.

Хипотези за главното средно.Хипотезата, че непретеглената основна средна стойност е 0, може да се изследва с помощта на коефициенти:

Хипотезата, че претеглената основна средна стойност е 0, се тества с:

В никакъв случай програмата не коригира контрастните съотношения.

Анализ на планове с липсващи клетки (непълни планове)

Факториалните дизайни, съдържащи празни клетки (обработка на комбинации от клетки, в които няма наблюдения), се наричат ​​непълни. В такива проекти някои фактори обикновено не са ортогонални и някои взаимодействия не могат да бъдат изчислени. Като цяло няма по-добър метод за анализ на подобни планове.

Регресионен подход

В някои по-стари програми, които се основават на анализ на ANOVA дизайни с помощта на многовариантна регресия, факторите в непълните дизайни се задават по подразбиране по обичайния начин (сякаш ако планът е пълен). След това се извършва многовариантен регресионен анализ за тези фиктивно кодирани фактори. За съжаление, този метод води до резултати, които са много трудни, ако не и невъзможни, за интерпретиране, тъй като не е ясно как всеки ефект допринася за линейната комбинация от средства. Помислете за следния прост пример.

Фактор А Фактор Б
B1 B2
A1 3 4, 5
A2 6, 6, 7 Пропуснато

Ако многовариантна регресия на формата Зависима променлива = константа + фактор A + фактор B, тогава хипотезата за значимостта на факторите A и B по отношение на линейни комбинации от средни изглежда така:

Фактор A: клетка A1,B1 = клетка A2,B1

Фактор B: клетка A1,B1 = клетка A1,B2

Този случай е прост. При по-сложни планове е невъзможно реално да се определи какво точно ще се изследва.

Средни клетки, дисперсионен анализ , хипотези тип IV

Подход, който се препоръчва в литературата и изглежда за предпочитане, е изследването на значими (по отношение на изследователски задачи) априорихипотези за средствата, наблюдавани в клетките на плана. Подробно обсъждане на този подход може да се намери в Dodge (1985), Heiberger (1989), Milliken and Johnson (1984), Searle (1987) или Woodward, Bonett и Brecht (1990). Сумите на квадратите, свързани с хипотези за линейна комбинация от средства в непълни проекти, изследващи оценки на част от ефектите, също се наричат ​​суми на квадрати. IV.

Автоматично генериране на типови хипотезиIV. Когато многовариантните проекти имат сложен модел на липсващи клетки, е желателно да се дефинират ортогонални (независими) хипотези, чието изследване е еквивалентно на изследването на основните ефекти или взаимодействия. Разработени са алгоритмични (изчислителни) стратегии (базирани на матрицата на псевдо-обратния дизайн) за генериране на подходящи тегла за такива сравнения. За съжаление окончателните хипотези не са еднозначно дефинирани. Разбира се, те зависят от реда, в който са определени ефектите, и рядко са лесни за тълкуване. Поради това се препоръчва внимателно да се проучи естеството на липсващите клетки, след което да се формулират хипотези ТипIV, които са най-подходящи за целите на изследването. След това проучете тези хипотези, като използвате опцията Планирани сравненияв прозореца резултати. Най-лесният начин за уточняване на сравненията в този случай е да се изисква въвеждането на вектор от контрасти за всички фактори заеднов прозореца Планирани сравнения.След извикване на диалоговия прозорец Планирани сравнениявсички групи от текущия план ще бъдат показани, а тези, които са пропуснати, ще бъдат маркирани.

Пропуснати клетки и проверка на специфичен ефект

Има няколко вида планове, в които местоположението на липсващите клетки не е произволно, а внимателно планирано, което позволява прост анализ на основните ефекти, без да се засягат други ефекти. Например, когато необходимият брой клетки в плана не е наличен, често се използват планове. латински квадратчетаза оценка на основните ефекти на няколко фактора с голям брой нива. Например факторен дизайн 4 x 4 x 4 x 4 изисква 256 клетки. В същото време можете да използвате Гръко-латински площадза оценка на основните ефекти, като има само 16 клетки в плана (гл. Планиране на експеримента, том IV, съдържа подробно описание на такива планове). Непълните дизайни, при които основните ефекти (и някои взаимодействия) могат да бъдат оценени с помощта на прости линейни комбинации от средства, се наричат балансирани непълни планове.

При балансирани дизайни стандартният (по подразбиране) метод за генериране на контрасти (тегла) за основните ефекти и взаимодействия след това ще произведе анализ на таблица с вариации, в който сумите на квадратите за съответните ефекти не се смесват един с друг. опция Специфични ефектипрозорец резултатище генерира липсващи контрасти, като напише нула в липсващите клетки на плана. Веднага след като опцията е заявена Специфични ефектиза потребител, който изучава някаква хипотеза, се появява таблица с резултати с действителните тегла. Имайте предвид, че при балансиран дизайн сумите на квадратите на съответните ефекти се изчисляват само ако тези ефекти са ортогонални (независими) спрямо всички други основни ефекти и взаимодействия. В противен случай използвайте опцията Планирани сравненияза изследване на смислени сравнения между средствата.

Липсващи клетки и комбинирани ефекти/членове на грешки

Ако опция Регресионен подходв стартовия панел на модула Дисперсионен анализне е избрано, моделът на средните стойности на клетките ще се използва при изчисляване на сумата от квадрати за ефектите (настройка по подразбиране). Ако дизайнът не е балансиран, тогава при комбиниране на неортогонални ефекти (вижте по-горе обсъждането на опцията Липсващи клетки и специфичен ефект) може да се получи сума от квадрати, състояща се от неортогонални (или припокриващи се) компоненти. Получените по този начин резултати обикновено не могат да се интерпретират. Следователно, човек трябва да бъде много внимателен при избора и внедряването на сложни непълни експериментални проекти.

Има много книги, които разглеждат подробно плановете. различен тип. (Dodge, 1985; Heiberger, 1989; Lindman, 1974; Milliken and Johnson, 1984; Searle, 1987; Woodward and Bonett, 1990), но този вид информация е извън обхвата на този учебник. По-късно в този раздел обаче ще бъде демонстриран анализ на различни типове планове.

Предположения и последици от нарушаване на предположенията

Отклонение от предположението за нормални разпределения

Да приемем, че зависимата променлива се измерва в цифрова скала. Нека приемем също, че зависимата променлива има нормално разпределение във всяка група. Дисперсионен анализсъдържа широк набор от графики и статистически данни, за да обоснове това предположение.

Ефекти от нарушение.В общи линии Екритерият е много устойчив на отклонение от нормалното (виж Lindman, 1974 за подробни резултати). Ако ексцесът е по-голям от 0, тогава стойността на статистиката Еможе да стане много малък. Нулевата хипотеза се приема, въпреки че може да не е вярна. Ситуацията е обратна, когато ексцесът е по-малък от 0. Изкривеността на разпределението обикновено има малък ефект върху Естатистика. Ако броят на наблюденията в една клетка е достатъчно голям, тогава отклонението от нормалното няма голямо значение поради централна гранична теорема, според което разпределението на средната стойност е близко до нормалното, независимо от първоначалното разпределение. Подробно обсъждане на устойчивостта Естатистическите данни могат да бъдат намерени в Box and Anderson (1955) или Lindman (1974).

Хомогенност на дисперсията

Предположения.Предполага се, че отклоненията на различните групи от плана са еднакви. Това предположение се нарича предположение хомогенност на дисперсията.Спомнете си, че в началото на този раздел, когато описваме изчисляването на сумата от квадратни грешки, извършихме сумиране във всяка група. Ако дисперсиите в две групи се различават една от друга, тогава добавянето им не е много естествено и не дава оценка на общата дисперсия в рамките на групата (тъй като в този случай изобщо няма обща дисперсия). Модул Дисперсионен анализ -ANOVA/МАНОВАсъдържа голям набор от статистически критерии за откриване на отклонение от предположенията за хомогенност на дисперсията.

Ефекти от нарушение.Линдман (1974, стр. 33) показва това Екритерият е доста стабилен по отношение на нарушаването на предположенията за хомогенност на дисперсията ( хетерогенностдисперсия, виж също Box, 1954a, 1954b; Hsu, 1938).

Специален случай: корелация на средни стойности и дисперсии.Има моменти, когато Естатистика може заблуждавам.Това се случва, когато средните стойности в клетките на дизайна са свързани с дисперсията. Модул Дисперсионен анализви позволява да изградите дисперсионни диаграми на разсейване или стандартно отклонениепо отношение на средствата за откриване на такава корелация. Причината, поради която такава корелация е опасна, е следната. Нека си представим, че в плана има 8 клетки, 7 от които имат почти еднаква средна стойност, а в една клетка средната е много по-голяма от останалите. Тогава Етестът може да открие статистически значим ефект. Но да предположим, че в клетка с голяма средна стойност и дисперсията е много по-голяма от останалите, т.е. средната стойност и дисперсията в клетките са зависими (колкото по-голяма е средната стойност, толкова по-голяма е дисперсията). В този случай голямата средна стойност е ненадеждна, тъй като може да е причинена от голямо отклонение в данните. въпреки това Естатистика въз основа на обединенивариацията в клетките ще обхване голяма средна стойност, въпреки че критериите, базирани на вариация във всяка клетка, няма да считат всички разлики в средните стойности за значими.

Това естество на данните (голяма средна стойност и голямо отклонение) често се среща, когато има извънредни наблюдения. Едно или две извънредни наблюдения силно изместват средната стойност и значително увеличават дисперсията.

Хомогенност на дисперсията и ковариацията

Предположения.При многовариантни проекти, с многовариантни зависими мерки, хомогенността на предположенията за дисперсия, описани по-рано, също се прилага. Въпреки това, тъй като има многовариантни зависими променливи, също така се изисква техните кръстосани корелации (ковариации) да бъдат еднакви във всички клетки на плана. Модул Дисперсионен анализпредлага различни начинитестване на тези предположения.

Ефекти от нарушение. Многоизмерен аналог Е- критерий - λ-тест на Wilks. Не се знае много за стабилността (устойчивостта) на λ-теста на Wilks по отношение на нарушаването на горните допускания. Въпреки това, тъй като тълкуването на резултатите от модула Дисперсионен анализобикновено се основава на значимостта на едномерните ефекти (след установяване на значимостта на общия критерий), обсъждането на устойчивостта засяга главно едномерния анализ на дисперсията. Следователно значението на едноизмерните ефекти трябва да бъде внимателно изследвано.

Специален случай: анализ на ковариацията.Особено сериозни нарушения на хомогенността на дисперсията/ковариацията могат да възникнат, когато в дизайна са включени ковариати. По-специално, ако корелацията между ковариатите и зависимите мерки е различна в различните клетки на дизайна, може да последва погрешно тълкуване на резултатите. Трябва да се помни, че при анализа на ковариацията по същество се извършва регресионен анализ във всяка клетка, за да се изолира тази част от дисперсията, която съответства на ковариата. Предположението за хомогенност на дисперсията/ковариацията предполага, че този регресионен анализ се извършва при следното ограничение: всички регресионни уравнения(наклони) са еднакви за всички клетки. Ако това не е предвидено, тогава могат да възникнат големи грешки. Модул Дисперсионен анализима няколко специални критерия за тестване на това предположение. Може да е препоръчително да използвате тези критерии, за да сте сигурни, че регресионните уравнения за различните клетки са приблизително еднакви.

Сферичност и сложна симетрия: причини за използването на многовариантен подход на повтарящи се измервания в анализа на дисперсията

При проекти, съдържащи фактори на повтарящи се измервания с повече от две нива, прилагането на едномерен анализ на дисперсията изисква допълнителни допускания: допускания за сложна симетрия и допускания за сферичност. Тези предположения рядко се изпълняват (вижте по-долу). Ето защо през последните години многовариантният анализ на дисперсията придоби популярност в такива планове (и двата подхода са комбинирани в модула Дисперсионен анализ).

Предположение за сложна симетрияПредположението за комплексна симетрия е, че дисперсиите (общо в рамките на групата) и ковариациите (по група) за различни повтарящи се измервания са еднакви (едни и същи). Това е достатъчно условие, за да бъде валиден едномерният F тест за повтарящи се измервания (т.е. докладваните F-стойности са средно в съответствие с F-разпределението). В този случай обаче това условие не е необходимо.

Допускане на сферичност.Предположението за сферичност е необходимо и достатъчно условие F-тестът да бъде оправдан. Състои се в това, че в рамките на групите всички наблюдения са независими и равномерно разпределени. Естеството на тези предположения, както и въздействието на техните нарушения, обикновено не са добре описани в книгите за дисперсионен анализ - това ще бъде описано в следващите параграфи. Той също така ще покаже, че резултатите от едновариантния подход може да се различават от резултатите от многовариантния подход и ще обясни какво означава това.

Необходимостта от независимост на хипотезите.Общият начин за анализиране на данни в дисперсионния анализ е пасване на модела. Ако по отношение на модела, съответстващ на данните, има такива априорихипотези, тогава дисперсията се разделя, за да се тестват тези хипотези (критерии за основни ефекти, взаимодействия). От изчислителна гледна точка този подход генерира някакъв набор от контрасти (набор от сравнения на средства в дизайна). Ако обаче контрастите не са независими един от друг, разделянето на вариантите става безсмислено. Например, ако два контраста Аи бса идентични и съответната част се избира от дисперсията, след което същата част се избира два пъти. Например, глупаво и безсмислено е да се отделят две хипотези: „средната стойност в клетка 1 е по-висока от средната стойност в клетка 2“ и „средната стойност в клетка 1 е по-висока от средната стойност в клетка 2“. Така че хипотезите трябва да са независими или ортогонални.

Независими хипотези при повторни измервания.Общ алгоритъм, реализиран в модула Дисперсионен анализ, ще се опита да генерира независими (ортогонални) контрасти за всеки ефект. За фактора повтарящи се измервания тези контрасти пораждат много хипотези за различиямежду нивата на разглеждания фактор. Въпреки това, ако тези различия са свързани в рамките на групите, тогава получените контрасти вече не са независими. Например, при обучение, при което обучаемите се измерват три пъти в един семестър, може да се случи промените между 1-во и 2-ро измерение да са в отрицателна корелация с промяната между 2-ро и 3-то измерение на предметите. Тези, които са усвоили по-голямата част от материала между 1-во и 2-ро измерение, усвояват по-малка част през времето, изминало между 2-ро и 3-то измерение. Всъщност, за повечето случаи, когато анализът на дисперсията се използва при повтарящи се измервания, може да се приеме, че промените в нивата са корелирани между субектите. Когато обаче това се случи, сложните предположения за симетрия и сферичност не са изпълнени и независимите контрасти не могат да бъдат изчислени.

Въздействието на нарушенията и начините за коригирането им.Когато сложните предположения за симетрия или сферичност не са изпълнени, анализът на дисперсията може да доведе до грешни резултати. Преди многовариантните процедури да бъдат достатъчно развити, бяха направени няколко допускания, за да се компенсират нарушенията на тези допускания. (Вижте например Greenhouse & Geisser, 1959 и Huynh & Feldt, 1970). Тези методи се използват широко и днес (затова са представени в модула Дисперсионен анализ).

Многовариантен анализ на дисперсионния подход към повтарящи се измервания.Като цяло, проблемите на сложната симетрия и сферичност се отнасят до факта, че наборите от контрасти, включени в изследването на ефектите от фактори на повтарящи се измервания (с повече от 2 нива), не са независими един от друг. Въпреки това, те не трябва да бъдат независими, ако се използват. многоизмеренкритерий за едновременна проверка статистическа значимостдве или повече повторени измервания факторни контрасти. Това е причината многовариантният анализ на дисперсионните методи да се използва все по-често за тестване на значимостта на едномерни фактори с многократно измерване с повече от 2 нива. Този подход е широко използван, тъй като обикновено не изисква допускането на сложна симетрия и допускането на сферичност.

Случаи, в които не може да се използва подходът на многовариантния анализ на дисперсията.Има примери (планове), когато подходът на многовариантния анализ на дисперсията не може да бъде приложен. Това обикновено са случаи, при които има малък брой субекти в дизайна и много нива във фактора за повтарящи се измервания. Тогава може да има твърде малко наблюдения за извършване на многовариантен анализ. Например, ако има 12 обекта, стр = 4 фактор на многократни измервания и всеки фактор има к = 3 нива. Тогава взаимодействието на 4 фактора ще „разходва“ (к-1)стр = 2 4 = 16 степени на свобода. Въпреки това, има само 12 субекта, следователно многовариантен тест не може да бъде извършен в този пример. Модул Дисперсионен анализнезависимо ще открие тези наблюдения и ще изчисли само едномерни критерии.

Разлики в едновариантните и многовариантните резултати.Ако изследването включва голям брой повтарящи се измервания, може да има случаи, при които едновариантният подход на повторени измервания на ANOVA дава резултати, които са много различни от тези, получени с многовариантния подход. Това означава, че разликите между нивата на съответните повтарящи се измервания са свързани между субектите. Понякога този факт е от някакъв независим интерес.

Многовариантен дисперсионен анализ и структурно моделиране на уравнения

През последните години моделирането на структурни уравнения стана популярно като алтернатива на многовариантния дисперсионен анализ (виж, например, Bagozzi и Yi, 1989; Bagozzi, Yi и Singh, 1991; Cole, Maxwell, Arvey и Salas, 1993). Този подход ви позволява да тествате хипотези не само за средните стойности в различни групи, но и за корелационните матрици на зависимите променливи. Например, можете да намалите предположенията за хомогенността на дисперсията и ковариацията и изрично да включите грешки в модела за всяка група от дисперсия и ковариация. Модул СТАТИСТИКАМоделиране на структурни уравнения (SEPATH) (виж том III) дава възможност за такъв анализ.

ДИСПЕРСИОНЕН АНАЛИЗ

в математическата статистика - статистически метод, предназначени да идентифицират влиянието на отделни фактори върху резултата от експеримента, както и за последващо планиране на подобни експерименти. Първоначално Д. и. е предложено от Р. Фишер за обработка на резултатите от агроном. експерименти за идентифициране на условията, при които тестваният сорт култури дава максимален добив. Съвременни приложения на D. и. обхващат широк спектър от проблеми на икономиката, социологията, биологията и технологиите и обикновено се интерпретират от гледна точка на статистиката. теории за систематично откриване. разлики между резултатите от директни измервания, извършени при тези или други променящи се условия.

Ако стойностите на неизвестните константи a 1 , ... , aIмогат да бъдат измерени с помощта на различни методи или измервателни инструменти М 1,..., М Дж,и във всеки случай систематично. грешка b ijможе, най-общо казано, да зависи както от избрания метод mj,и от неизвестна измерена стойност a i, тогава резултатите от такива измервания са суми от формата

където K е броят на независимите измервания на неизвестна величина a iметод M j,а при ijk- случайна грешка к-тоизмервания на величина a iметод Mj(приемайки всички y ijk- независими еднакво разпределени случайни променливи с нулева математическа стойност. очакване: Е при ijk=0). Такъв линеен двуфакторна схема D. и .; първата е истинската стойност на измерената стойност, втората е методът на измерване и в този случай за всяка възможна комбинация от стойностите на първия и втория фактор се извършва същия брой независими измервания ( това предположение не е от съществено значение за целите на D. a. и е въведено тук само с цел опростяване на представянето).

Пример за такава ситуация могат да бъдат спортни състезания на I спортисти, чието умение се оценява Джсъдии, а всеки участник в състезанието е Краз (има K "опита"). В такъв случай a i- истинската стойност на индикатора за уменията на спортиста с числото i, bij- систематичен грешка в знака за умения аз-ти състезател като съдия с номер j, xijk- дадена оценка й-тият съдия до -тия състезател след последния к-тоопити и y ijk- съответните произволни . Това е характерно за т.нар. субективна проверка на качеството на няколко обекта, извършвана от група независими експерти. Друг пример е статистиката. изследване на добива на селскостопанска култура в зависимост от един от J разновидности на почвата и J методи за нейната обработка, като за всеки сорт g почва и всеки метод на обработка с номер J се провеждат k независими експеримента (в този пример b ij- истинската стойност на добива за i-тия почвен сорт при j-ти начинобработка, xijkе съответният експериментално наблюдаван добив в к-тоопит, и y ijk- неговата случайна грешка, възникваща поради определени случайни причини; що се отнася до величините a i, след това в агроном експерименти, разумно е да ги считаме за равни на нула).

Да сложим c ij =a i +b ij,остави с i*, с *j и с ** - резултати от осредняване с ijпо съответните индекси, т.е.

Нека в допълнение a =c** , b аз=с аз*-с **, g j = с *j-c ** и d ij=с ij-с аз*-с *j+ c ** . Идея D. a. въз основа на очевидната самоличност

Ако символът ( c ij) обозначават размерите IJ, получена от матрицата ||c ij|| ред IXJ, използвайки някакво предварително фиксирано подреждане на неговите елементи, тогава (1) може да бъде записано като равенство, където всички вектори имат IJи а ij=a,b ijаз,g ij=g й. Тъй като четирите вектора от дясната страна на (2) са ортогонални, тогава a ij=a - най-доброто приближение на функцията c ijот аргументи i и йпостоянна стойност [в смисъл на минималната сума на квадратите на отклоненията ]. В същия смисъл а ijij=a+b аз- най-доброто c ijфункция в зависимост само от i, a ij+g ij=a+g й- най-добро приближение c ijфункция, зависеща само от j, a a ijij+g ij=a+b аз+g й- най-добро приближение c ijсумата от функции, една от които (например a+b аз) зависи само от r, а другият зависи само от j. Този факт, установен от Р. Фишер (виж ) през 1918 г., по-късно служи като основа за теорията на квадратичните апроксимации на функциите.

В примера за спортно състезание d ijизразява "взаимодействието" на i-тия състезател и j-тия съдия (положителна стойност на използваното означава "съдийство", т.е. системно надценяване на уменията на i-тия състезател от j-ия съдия и отрицателна използваната стойност означава "загуживание", т.е. систематично намаляване на резултата). Равенството на всички втора ръка до нула е необходимо изискване, което трябва да бъде представено в работата на група експерти. В случай на агрономически експерименти, такова равенство се счита за хипотеза, която трябва да бъде проверена въз основа на резултатите от експериментите, тъй като основната цел тук е да се намерят такива стойности ази j, за която функция (1) достига максималната си стойност. Ако тази хипотеза е вярна, тогава

и това означава, че идентифицирането на най-добрата "почва" и "оран" може да се извърши отделно, което води до значително намаляване на броя на експериментите (например, възможно е да се тестват всички I разновидности на "почвата" с произволен метод на обработка и определяне на най-добрия сорт, а след това върху този сорт да опитате всичко Джначини за "обработка" и намиране по най-добрия начин; общият брой експерименти с повторения ще бъде равен на (I + J) K) . Ако хипотезата (всички d ij=0) е неправилно, тогава за определяне на max c ijе необходим „пълният план“, описан по-горе, изискващ, с K повторения, IJKексперименти.

В ситуация на спортни състезания функцията g ij=g йможе да се тълкува като систематично грешка, допусната от j-ия съдия по отношение на всички състезатели. В крайна сметка g й- характеристика на "строгостта" или "либерализма" на j-ия съдия. В идеалния случай бихме искали всички g йбяха нула, но в реални условия трябва да се примири с наличието на ненулеви стойности на g йи вземете предвид това обстоятелство, когато обобщавате резултатите от изпита (например основата за сравняване на уменията на спортистите може да се приеме не като последователност от истински стойности a + b 1 +g й, ..., a+b аз+g йи само резултатите от подреждането на тези числа според тяхната стойност, тъй като за всички j=1, . . . , Джтакива поръчки ще бъдат същите). И накрая, сумата от двете останали функции a ijij=a+b аззависи само от i и следователно може да се използва за характеризиране на умението на i-тия спортист. Тук обаче трябва да се помни, че следователно подреждането на всички спортисти по стойностите a+b аз(или чрез a+ + b аз+g йза всяко фиксирано j) може да не съвпада с подреждането по стойности a i. При практическата обработка на експертните оценки това обстоятелство трябва да се пренебрегне, тъй като споменатият пълен план от експерименти не позволява да се оцени отделно a iи b i*. Така че a+b аз=a i + b i*характеризира не само умението азспортист, но и по един или друг начин експерти в това умение. Следователно, например, резултатите от субективни експертни оценки, извършени по различно време (по-специално на няколко Олимпийски игри), трудно са сравними. В случай на агрономически експерименти, такива трудности не възникват, тъй като всички a i=0 и следователно a+b аз=b i*.

Истински стойности на функции a, b аз,g ази d ijса неизвестни и се изразяват чрез неизвестни функции c ij .Следователно, първият етап на D. a. е да намерите статистиката. оценки за c ijвъз основа на наблюдения xijk.Непристрастен и с минимална дисперсия за c ijсе изразява с формулата

Тъй като a, b аз,g йи d ijса линейни функции на матрични елементи ||c ij||, тогава безпристрастните линейни оценки за тези функции, които имат минимална дисперсия, се получават чрез замяна на аргументите c ijсъответни оценки, c ij,т.е., освен това, произволни вектори и дефинирани по същия начин, както е въведено по-горе (a ij), ij), (ж ij). и (г ij) имат свойството ортогоналност, което означава, че те са некорелирани произволни вектори (с други думи, всеки два компонента, принадлежащи на различни вектори, имат нулева корелация). Освен това всякакъв вид

несвързани с нито един от компонентите тезичетири вектора. Помислете за пет колекции от случайни променливи (x ijk), (x ijk-xij*),защото

тогава дисперсиите са емпирични. разпределенията, съответстващи на посочените популации, се изразяват с формулите

Тези емпирични дисперсиите са суми от квадрати на случайни променливи, всеки две от които не са корелирани, стига да принадлежат на различни суми; докато по отношение на всички y ijkсамоличността

обяснявайки произхода на термина „D. a.“ „Нека и нека

в такъв случай

където s 2 е дисперсията на случайните грешки y ijk.

Въз основа на тези формули се изгражда вторият етап на D. a., посветен на разкриването на влиянието на първия и втория фактор върху резултатите от експеримента (в агрономическите експерименти първият фактор е типът "почва" , вторият е методът на "култивиране"). Например, ако е необходимо да се провери хипотезата за липсата на "взаимодействие" на факторите, което се изразява с равенството, тогава е разумно да се изчисли коефициентът на дисперсия s 2 3 /s 2 0 = F 3 .Ако това отношение е значително различно от единица, тогава тестваната хипотеза се отхвърля. По същия начин отношението s 2 2 / s 2 0 \u003d F 2,което също трябва да се сравни с единството; ако в същото време се знае, че вместо F2препоръчително е да се сравни с единичното съотношение

По същия начин можете да изградите статистика, която ви позволява да направите заключение относно валидността или неистинността на хипотезата

Точното значение на концепцията за значителна разлика между тези съотношения от единица може да се определи само като се вземе предвид законът за разпределение на случайните грешки y ijk .В D. a. най-задълбочено проучената ситуация, в която всички y ijkразпределени нормално. В този случай са независими произволни вектори и са независими случайни променливи и

съотношенията се подчиняват на нецентрално разпределение на хи-квадрат FMстепени на свобода и параметри на нецентралност l t, m=0, 1, 2, 3, където

Ако параметърът за нецентралност е нула, тогава нецентралното хи-квадрат е същото като нормалното хи-квадрат разпределение. Следователно, ако хипотезата l 3 =0 съотношението се подчинява на F-разпределение (разпределение на коефициента на дисперсия) с параметрите f 3 и f 0 . Нека x е числото за което събитие (F 3 >x)е равно на дадена стойност на e, наречена ниво на значимост (таблици на функцията х= х(e; f 3 , f 0) са налични в повечето учебници по математика. статистика). Критерият за проверка на хипотезата l 3 =0 е правилото, според което тази хипотеза се отхвърля, ако наблюдаваната стойност F3надвишава x; в противен случай хипотезата се счита за съвместима с резултатите от наблюденията. По същия начин критериите се изграждат въз основа на статистиката F2и F*2.

Допълнителни етапи на D. и. значително зависи не само от реалното съдържание на конкретен проблем, но и от резултатите от статистическия анализ. проверка на хипотези във втората стъпка. Например в агротехнически условия. експерименти, валидността на хипотезата l 3 \u003d 0, както е посочено по-горе, ви позволява по-икономично да планирате подобни по-нататъшни експерименти (ако в допълнение към хипотезата l 3 \u003d 0, хипотезата l 2 \u003d 0 също е вярна , това означава, че добивът зависи само от сорта на "почвата" и следователно в по-нататъшни експерименти можете да използвате схемата на еднофакторния D. a.); ако хипотезата l 3 =0 бъде отхвърлена, тогава е разумно да се провери дали има неотчетен трети фактор в този проблем? Ако разновидностите на "почвата" и методите на нейната "обработка" варират не на едно и също място, а в различни географски области. зони, тогава такъв фактор може да бъде климатичен. или географски. условия, а "обработката" на наблюденията ще изисква използването на трифакторни D. a.

В случай на експертни оценки, статистически потвърдената валидност на хипотезата l 3 = 0 дава основа за подреждане на сравняваните обекти (например спортисти) по стойностите на количествата i=l, . .. , аз

Ако хипотезата l 3 =0 е отхвърлен (в проблема със спортните състезания това означава статистическото откритие на "взаимодействието" на някои спортисти и съдии), тогава е естествено да се опитаме да преизчислим отново всички резултати, като преди това изключим от разглеждане xijkс такива двойки индекси ( i, j), за които абсолютните стойности на статист. степени d ijпревишава някакво предварително определено допустимо ниво. Това означава, че от матрицата ||xij* ||определени елементи са зачеркнати, което означава, че планът на Д. а. става непълна.

Модели на съвременни D. и. покриват широк спектър от реални експериментални дизайни (напр. непълни дизайни с произволно или неслучайно избрани елементи xij*). Статистическите данни, съответстващи на тези схеми заключенията в много случаи са в процес на разработване. По-специално, още (до 1978 г.) тези проблеми, в които резултатите от наблюденията xijk=cij +yijkне са еднакво разпределени случайни променливи; Още по-труден проблем възниква при зависимостта на количествата x ijk .Проблеми с избора на неизвестен фактор (дори в линейния случай). Същността на този проблем е следната: нека s=s(и v)- остави u=u(z, wu=u(z, w) - всякакви линейни функции на променливите r и w.Фиксиране на стойностите z 1 , . .., z ази w 1 , . . ., w J ,възможно е за всеки даден избор на линейни функции u u . дефинирам c ijформула и изграждане на D. a. тези количества според резултатите от съответните наблюдения xijk. Проблемът е да се намерят такива линейни функции u и u , което съответства на минималната стойност на сбора от квадрати

където (приема се, че функцията c( и v) е неизвестен). По отношение на Д. и. Този проблем се свежда до статистиката. откриване на такива фактори z=z(u, vт-т(u, v), to-the Crimea съответства на "най-малко взаимодействие".

Лит.: Fisher R. A., Статистически методи за научни работници, Единбург, 1925 г.; Scheffe G., Дисперсионен анализ, прев. от англ., М., 1963; Халд А., Математика с технически приложения, прев. от англ., М., 1956; Снедекор Дж. U., Статистически методи в приложението към изследванията в селското стопанство и биологията, прев. от английски, М., 1961.

L. N. Още.


Математическа енциклопедия. - М.: Съветска енциклопедия. И. М. Виноградов. 1977-1985 г.

Вижте какво е "ВАРИАНТЕН АНАЛИЗ" в други речници:

    Метод в математическата статистика, насочен към намиране на зависимости в експериментални данни чрез изследване на значимостта на разликите в средните стойности. Обозначението ANOVA също се среща в литературата (от английски ANalysis Of ... ... Wikipedia

    - (анализ на дисперсията) Статистически метод, основан на разлагането на общата дисперсия (вариация) на характеристика на популацията на компоненти, които корелират с други характеристики, и остатъчна вариация (остатъчна вариация). НА…… Икономически речник

    Един от методите математическа статистика, използвани за анализиране на резултатите от наблюдения, които зависят от различни, едновременно действащи фактори, на които по правило не се поддават на количества. описание. Нека разгледаме най-простия от проблемите на D. a. Позволявам … Физическа енциклопедия

    Дисперсионен анализ- раздел на математическата статистика, посветен на методите за идентифициране на влиянието на отделни фактори върху резултата от експеримент (физически, индустриален, икономически експеримент). да възникна като средство за обработка на резултатите ... ... Икономически и математически речник

    дисперсионен анализ- - дисперсионен анализ Раздел от математическата статистика, посветен на методите за идентифициране на влиянието на отделни фактори върху резултата от експеримент (физически, индустриален, ... ... Наръчник за технически преводач

Дисперсионният анализ е набор от статистически методи, предназначени да проверят хипотези за връзката между определени характеристики и изследваните фактори, които нямат количествено описание, както и да установят степента на влияние на факторите и тяхното взаимодействие. В специализираната литература често се нарича ANOVA (от английското наименование Analysis of Variations). Този метод е разработен за първи път от Р. Фишер през 1925 г.

Видове и критерии за дисперсионен анализ

Този метод се използва за изследване на връзката между качествени (номинални) характеристики и количествена (непрекъсната) променлива. Всъщност тества хипотезата за равенството на средните аритметични на няколко извадки. По този начин може да се разглежда като параметричен критерий за сравняване на центровете на няколко проби наведнъж. Ако използвате този метод за две проби, тогава резултатите от дисперсионния анализ ще бъдат идентични с резултатите от t-теста на Student. Въпреки това, за разлика от други критерии, това проучване ви позволява да проучите проблема по-подробно.

Анализът на дисперсията в статистиката се основава на закона: сумата от квадратите на отклоненията на комбинираната извадка е равна на сумата от квадратите на вътрешногруповите отклонения и сумата от квадратите на междугруповите отклонения. За изследването се използва тестът на Фишер, за да се установи значимостта на разликата между междугруповите и вътрешногруповите дисперсии. За това обаче необходимите предпоставки са нормалността на разпределението и хомоскедастичността (равенството на дисперсиите) на извадките. Правете разлика между едномерен (еднофакторен) дисперсионен анализ и многомерен (многофакторен). Първият разглежда зависимостта на изследваната стойност от един атрибут, вторият - от много наведнъж, а също така ви позволява да идентифицирате връзката между тях.

Фактори

Фактори се наричат ​​контролирани обстоятелства, които влияят на крайния резултат. Неговото ниво или метод на обработка се нарича стойността, която характеризира конкретното проявление на това състояние. Тези цифри обикновено се дават в номинална или ординална скала на измерване. Често изходните стойности се измерват в количествени или порядъчни скали. След това възниква проблемът с групирането на изходните данни в поредица от наблюдения, които съответстват на приблизително еднакви числени стойности. Ако броят на групите е твърде голям, тогава броят на наблюденията в тях може да е недостатъчен за получаване на надеждни резултати. Ако числото е взето твърде малко, това може да доведе до загуба съществени характеристикивлияние върху системата. Конкретният метод за групиране на данни зависи от обема и характера на вариацията в стойностите. Броят и размерът на интервалите при едномерния анализ най-често се определят на принципа на равните интервали или на принципа на равните честоти.

Задачи на дисперсионния анализ

Така че има случаи, когато трябва да сравните две или повече проби. Тогава е препоръчително да се използва дисперсионният анализ. Името на метода показва, че изводите се правят въз основа на изследването на компонентите на дисперсията. Същността на изследването е, че общото изменение на показателя се разделя на компоненти, които съответстват на действието на всеки отделен фактор. Помислете за редица проблеми, които решава типичният дисперсионен анализ.

Пример 1

Цехът разполага с редица металорежещи машини - автомати, които произвеждат определен детайл. Размерът на всяка част е произволна стойност, която зависи от настройката на всяка машина и случайни отклонениявъзникващи по време на производствения процес на частите. От измерванията на размерите на частите е необходимо да се определи дали машините са настроени по същия начин.

Пример 2

По време на производството на електрически апарат се използват различни видове изолационна хартия: кондензаторна, електрическа и др. Апаратът може да бъде импрегниран с различни вещества: епоксидна смола, лак, смола ML-2 и др. Течовете могат да бъдат отстранени под вакуум при повишено налягане при нагряване. Може да се импрегнира чрез потапяне във лак, под непрекъсната струя лак и т.н. Електрическият апарат като цяло се залива с определена смес, като има няколко варианта. Индикатори за качество са диелектричната якост на изолацията, температурата на прегряване на намотката в работен режим и редица други. При разработването на технологичния процес на производство на устройства е необходимо да се определи как всеки от изброените фактори влияе върху производителността на устройството.

Пример 3

Тролейбусното депо обслужва няколко тролейбусни маршрута. Те управляват различни видове тролейбуси, а 125 инспектори събират таксите. Ръководството на депото се интересува от въпроса: как да се сравнят икономическите показатели на всеки контрольор (приходите) при различните маршрути, различните видове тролейбуси? Как да се определи икономическата целесъобразност от пускането на тролейбуси от определен тип по определен маршрут? Как да установим разумни изисквания за размера на приходите, които кондукторът носи по всеки маршрут в различните видове тролейбуси?

Задачата при избора на метод е как да се получи максимална информация относно влиянието върху крайния резултат на всеки фактор, да се определи числови характеристикитакова въздействие, тяхната надеждност при минимални разходи и в най-кратки срокове. Методите за дисперсионен анализ позволяват решаването на такива проблеми.

Едномерен анализ

Проучването има за цел да оцени степента на въздействие на конкретен случай върху анализирания преглед. Още едно предизвикателство едномерен анализможе да има сравнение на две или повече обстоятелства едно с друго, за да се определи разликата в тяхното влияние върху припомнянето. Ако нулевата хипотеза бъде отхвърлена, тогава следващата стъпка е количествено определяне и изграждане на доверителни интервали за получените характеристики. В случаите, когато нулевата хипотеза не може да бъде отхвърлена, тя обикновено се приема и се прави заключение за характера на влиянието.

Еднопосочният дисперсионен анализ може да се превърне в непараметричен аналог на ранговия метод на Kruskal-Wallis. Той е разработен от американския математик Уилям Крускал и икономиста Уилсън Уолис през 1952 г. Този тест има за цел да тества нулевата хипотеза, че ефектите от влиянието върху изследваните проби са равни с неизвестни, но равни средни стойности. В този случай броят на пробите трябва да бъде повече от две.

Критерият Jonkhier (Jonkhier-Terpstra) е предложен независимо от холандския математик T. J. Terpstrom през 1952 г. и британския психолог E. R. Jonkhier през 1954 г. Той се използва, когато е известно предварително, че наличните групи от резултати са подредени по нарастване на влияние на изследвания фактор, което се измерва по ординална скала.

М - критерият на Бартлет, предложен от британския статистик Морис Стивънсън Бартлет през 1937 г., се използва за проверка на нулевата хипотеза за равенството на дисперсиите на няколко нормални съвкупности, от които са взети изследваните проби, в общия случай с различни размери ( броят на всяка проба трябва да бъде най-малко четири).

G е тестът на Кокран, който е открит от американеца Уилям Гемел Кокран през 1941 г. Той се използва за тестване на нулевата хипотеза за равенството на дисперсиите на нормалните популации за независими извадки с еднакъв размер.

Непараметричният тест на Левен, предложен от американския математик Хауърд Левен през 1960 г., е алтернатива на теста на Бартлет в условия, при които няма сигурност, че изследваните проби се подчиняват нормална дистрибуция.

През 1974 г. американските статистици Мортън Б. Браун и Алън Б. Форсайт предлагат тест (тест Браун-Форсайт), който е малко по-различен от теста на Левен.

Двустранен анализ

Двупосочен анализ на дисперсията се използва за свързани нормално разпределени проби. На практика често се използват сложни таблици на този метод, по-специално тези, в които всяка клетка съдържа набор от данни (повтарящи се измервания), съответстващи на стойности на фиксирано ниво. Ако предположенията, необходими за прилагане на двупосочния анализ на дисперсията, не са изпълнени, тогава се използва непараметричният рангов тест на Фридман (Фридман, Кендъл и Смит), разработен от американския икономист Милтън Фридман в края на 1930 г. Това критерий не зависи от вида на разпределението.

Предполага се само, че разпределението на количествата е еднакво и непрекъснато, а самите те са независими едно от друго. При тестване на нулевата хипотеза изходните данни се представят под формата на правоъгълна матрица, в която редовете съответстват на нивата на фактор B, а колоните съответстват на нивата A. Всяка клетка от таблицата (блок) може да да бъде резултат от измервания на параметри на един обект или на група обекти, когато постоянни стойностинива и на двата фактора. В този случай съответните данни се представят като средни стойности на определен параметър за всички измервания или обекти на изследваната проба. За да се приложи изходният критерий, е необходимо да се премине от преките резултати от измерванията към техния ранг. Класирането се извършва за всеки ред поотделно, тоест стойностите се подреждат за всяка фиксирана стойност.

Тестът на Пейдж (L-тест), предложен от американския статистик Е. Б. Пейдж през 1963 г., е предназначен да тества нулевата хипотеза. За големи проби се използва апроксимацията на Page. Те, при спазване на реалността на съответните нулеви хипотези, се подчиняват на стандартното нормално разпределение. В случай, че редовете на изходната таблица имат еднакви стойности, е необходимо да се използват средните рангове. В този случай точността на заключенията ще бъде толкова по-лоша, колкото по-голям е броят на такива съвпадения.

Q - критерий на Cochran, предложен от V. Cochran през 1937 г. Използва се в случаите, когато групи от еднородни субекти са изложени на повече от две въздействия и за които са възможни два варианта на отговор - условно отрицателен (0) и условно положителен (1) . Нулевата хипотеза се състои от равенство на ефектите на влияние. Двупосочният анализ на дисперсията дава възможност да се определи наличието на ефекти от обработката, но не дава възможност да се определи за кои колони съществува този ефект. За да се реши този проблем, методът множество уравнения Scheffe за свързани мостри.

Многовариантен анализ

Проблемът с многовариантния анализ на дисперсията възниква, когато е необходимо да се определи влиянието на две или повече условия върху определена случайна променлива. Изследването предвижда наличието на една зависима случайна променлива, измерена по скала на разликите или съотношенията, и няколко независими променливи, всяка от които е изразена в скала от имена или в рангова скала. Дисперсионният анализ на данни е доста развит клон на математическата статистика, който има много възможности. Концепцията на изследването е обща както за едномерни, така и за многомерни изследвания. Същността му се състои в това, че общата дисперсия се разделя на компоненти, което съответства на определено групиране на данни. Всяко групиране на данни има свой собствен модел. Тук ще разгледаме само основните положения, необходими за разбирането и практическото използване на най-използваните му варианти.

Факторният дисперсионен анализ изисква специално внимание към събирането и представянето на входните данни и особено към интерпретацията на резултатите. За разлика от еднофакторния, чиито резултати могат условно да се поставят в определена последователност, резултатите от двуфакторния изискват по-комплексно представяне. Още по-трудна ситуация възниква, когато има три, четири или повече обстоятелства. Поради това моделът рядко включва повече от три (четири) условия. Пример за това може да бъде появата на резонанс при определена стойност на капацитета и индуктивността на електрическия кръг; проявата на химическа реакция с определен набор от елементи, от които е изградена системата; появата на аномални ефекти в сложни системи при определено стечение на обстоятелствата. Наличието на взаимодействие може радикално да промени модела на системата и понякога да доведе до преосмисляне на природата на явленията, с които експериментаторът има работа.

Многовариантен дисперсионен анализ с повтарящи се експерименти

Данните от измерванията често могат да бъдат групирани не по два, а по повече фактора. Така че, ако разгледаме дисперсионния анализ на експлоатационния живот на гумите за тролейбусни колела, като вземем предвид обстоятелствата (производител и маршрут, по който се използват гумите), тогава можем да отделим като отделно условие сезона, през който се използват гумите използвани (а именно: зимна и лятна работа). В резултат на това ще имаме проблема с трифакторния метод.

При наличие на повече условия подходът е както при двустранен анализ. Във всички случаи моделът се опитва да опрости. Феноменът на взаимодействието на два фактора не се появява толкова често, а тройното взаимодействие се среща само в изключителни случаи. Включете онези взаимодействия, за които има предишна информация и основателни причини да я вземете предвид в модела. Процесът на изолиране на отделни фактори и тяхното отчитане е относително прост. Поради това често има желание да се подчертаят повече обстоятелства. Не бива да се увличате с това. Колкото повече условия, толкова по-малко надежден става моделът и толкова по-голям е шансът за грешка. Самият модел, който включва голям брой независими променливи, става доста труден за интерпретация и неудобен за практическа употреба.

Обща идея за дисперсионен анализ

Анализът на дисперсията в статистиката е метод за получаване на резултати от наблюдение, които зависят от различни едновременни обстоятелства и оценка на тяхното влияние. Контролирана променлива, която съответства на метода на въздействие върху обекта на изследване и придобива определена стойност за определен период от време, се нарича фактор. Те могат да бъдат качествени и количествени. Нивата на количествените условия придобиват определена стойност в цифрова скала. Примери за това са температура, налягане при пресоване, количество вещество. Качествените фактори са различни вещества, различни технологични методи, апарати, пълнители. Техните нива съответстват на скалата на имената.

Качеството включва и вида на опаковъчния материал, условията на съхранение на лекарствената форма. Също така е рационално да се включи степента на смилане на суровините, фракционният състав на гранулите, които имат количествена стойност, но трудно се регулират, ако се използва количествена скала. Броят на факторите за качество зависи от вида на лекарствената форма, както и от физическите и технологични свойства на лекарствените вещества. Например, таблетки могат да бъдат получени от кристални вещества чрез директно пресоване. В този случай е достатъчно да се извърши избор на плъзгащи и смазочни средства.

Примери за качествени фактори за различни видове лекарствени форми

  • Тинктури.Състав на екстрагента, вид на екстрактора, метод на приготвяне на суровината, метод на производство, метод на филтриране.
  • Екстракти (течни, гъсти, сухи).Съставът на екстрагента, методът на екстракция, видът на инсталацията, методът за отстраняване на екстрагента и баластните вещества.
  • Таблетки.Състав от ексципиенти, пълнители, дезинтегранти, свързващи вещества, лубриканти и лубриканти. Методът за получаване на таблетки, вида на технологичното оборудване. Тип обвивка и нейните компоненти, филмообразуватели, пигменти, багрила, пластификатори, разтворители.
  • инжекционни разтвори.Вид на разтворителя, метод на филтриране, естество на стабилизаторите и консервантите, условия на стерилизация, начин на пълнене на ампули.
  • супозитории.Съставът на основата на супозиториите, методът за получаване на супозитории, пълнители, опаковка.
  • Мехлеми.Съставът на основата, структурните компоненти, методът на приготвяне на мехлема, видът на оборудването, опаковката.
  • Капсули.Вид материал на черупката, метод за получаване на капсули, вид пластификатор, консервант, багрило.
  • Линименти.Метод на производство, състав, вид оборудване, вид емулгатор.
  • Суспензии.Вид разтворител, вид стабилизатор, дисперсионен метод.

Примери за качествени фактори и техните нива, изследвани в процеса на производство на таблети

  • Бакпулвер.Картофено нишесте, бяла глина, смес от натриев бикарбонат с лимонена киселина, основен магнезиев карбонат.
  • свързващ разтвор.Вода, нишестена паста, захарен сироп, разтвор на метилцелулоза, разтвор на хидроксипропил метилцелулоза, разтвор на поливинилпиролидон, разтвор на поливинил алкохол.
  • плъзгащо се вещество.Аеросил, нишесте, талк.
  • Пълнител.Захар, глюкоза, лактоза, натриев хлорид, калциев фосфат.
  • Лубрикант.Стеаринова киселина, полиетилен гликол, парафин.

Модели на дисперсионен анализ при изследване на нивото на конкурентоспособност на държавата

Един от най-важните критерии за оценка на състоянието на държавата, според който се оценява нивото на нейното благосъстояние и социално-икономическо развитие, е конкурентоспособността, тоест набор от свойства, присъщи на националната икономика, които определят способността на държавата да се конкурира с други страни. След като се определи мястото и ролята на държавата на световния пазар, е възможно да се установи ясна стратегия за осигуряване на икономическа сигурност в международен мащаб, тъй като това е ключът към положителните отношения между Русия и всички играчи на световния пазар: инвеститорите , кредитори, държавни правителства.

За да се сравни нивото на конкурентоспособност на държавите, страните се класират с помощта на комплексни индекси, които включват различни претеглени показатели. Тези индекси се основават на ключови фактори, които влияят върху икономическата, политическата и т.н. ситуация. Комплексът от модели за изследване на конкурентоспособността на държавата предвижда използването на методи за многовариантен статистически анализ (по-специално това е дисперсионен анализ (статистика), иконометрично моделиране, вземане на решения) и включва следните основни етапи:

  1. Формиране на система от индикатори-индикатори.
  2. Оценка и прогнозиране на показателите за конкурентоспособността на държавата.
  3. Сравнение на показатели-показатели на конкурентоспособността на държавите.

А сега нека разгледаме съдържанието на моделите на всеки от етапите на този комплекс.

На първия етапс помощта на експертни методи на изследване се формира разумен набор от икономически показатели-показатели за оценка на конкурентоспособността на държавата, като се вземат предвид спецификите на нейното развитие въз основа на международни рейтинги и данни от статистическите служби, отразяващи състоянието на системата като цяло и нейните процеси. Изборът на тези показатели е оправдан от необходимостта да се изберат тези, които най-пълно, от гледна точка на практиката, позволяват да се определи нивото на състоянието, неговата инвестиционна привлекателност и възможността за относителна локализация на съществуващите потенциални и реални заплахи.

Основните индикатори-индикатори на международните рейтингови системи са индекси:

  1. Глобална конкурентоспособност (GCC).
  2. Икономическа свобода (IES).
  3. Човешко развитие (HDI).
  4. Възприятия за корупция (CPI).
  5. Вътрешни и външни заплахи (IVZZ).
  6. Потенциал за международно влияние (IPIP).

Втора фазапредвижда оценка и прогнозиране на показателите за конкурентоспособността на държавата според международните рейтинги за изследваните 139 държави по света.

Трети етаппредвижда сравнение на условията за конкурентоспособност на държавите с помощта на методите на корелационен и регресионен анализ.

Използвайки резултатите от изследването, е възможно да се определи характерът на процесите като цяло и за отделните компоненти на конкурентоспособността на държавата; тествайте хипотезата за влиянието на факторите и тяхната връзка на подходящо ниво на значимост.

Прилагането на предложения набор от модели ще позволи не само да се оцени текущото състояние на нивото на конкурентоспособност и инвестиционната привлекателност на държавите, но и да се анализират недостатъците на управлението, да се предотвратят грешки от грешни решения и да се предотврати развитието на криза. в държавата.

Дисперсионен анализ

Курсова работа по дисциплината: "Системен анализ"

Изпълнител ученик гр. 99 ISE-2 Жбанов В.В.

Оренбургски държавен университет

Факултет информационни технологии

Катедра "Приложна информатика".

Оренбург-2003

Въведение

Целта на работата: да се запознаете с такъв статистически метод като дисперсионния анализ.

Анализът на дисперсията (от латински Dispersio - дисперсия) е статистически метод, който ви позволява да анализирате влиянието на различни фактори върху изследваната променлива. Методът е разработен от биолога Р. Фишер през 1925 г. и първоначално е бил използван за оценка на експерименти в производството на култури. По-късно става ясно общото научно значение на дисперсионния анализ за експерименти в психологията, педагогиката, медицината и др.

Целта на дисперсионния анализ е да се тества значимостта на разликата между средните стойности чрез сравняване на дисперсиите. Дисперсията на измервания атрибут се разлага на независими термини, всеки от които характеризира влиянието на определен фактор или тяхното взаимодействие. Последващото сравнение на такива термини ни позволява да оценим значимостта на всеки изследван фактор, както и тяхната комбинация /1/.

Ако нулевата хипотеза е вярна (за равенството на средните стойности в няколко групи наблюдения, избрани от общата съвкупност), оценката на дисперсията, свързана с вътрешногруповата променливост, трябва да бъде близка до оценката на междугруповата дисперсия.

При провеждане на пазарни проучвания често възниква въпросът за съпоставимостта на резултатите. Например, когато се провеждат проучвания за потреблението на определен продукт в различни региони на страната, е необходимо да се направят изводи за това как данните от проучването се различават или не се различават помежду си. Няма смисъл да се сравняват отделни показатели и следователно процедурата за сравнение и последваща оценка се извършва според някои средни стойности и отклонения от тази средна оценка. Проучва се вариацията на признака. Дисперсията може да се приеме като мярка за вариация. Дисперсията σ 2 е мярка за вариация, дефинирана като средна стойност на отклоненията на характеристика на квадрат.

На практика често възникват проблеми общ- задачи за проверка на значимостта на разликите в средните стойности на извадкови извадки от няколко популации. Например, необходимо е да се оцени ефектът на различните суровини върху качеството на продуктите, да се реши проблемът с ефекта на количеството торове върху добива на селскостопански продукти.

Понякога анализът на дисперсията се използва за установяване на хомогенността на няколко популации (вариациите на тези популации са еднакви по предположение; ако анализът на дисперсията показва, че математическите очаквания са еднакви, тогава популациите са хомогенни в този смисъл). Еднородните популации могат да бъдат обединени в една и по този начин да се получи по-пълна информация за нея, а оттам и по-достоверни заключения /2/.

1 Дисперсионен анализ

1.1 Основни понятия на дисперсионния анализ

В процеса на наблюдение на изследвания обект качествените фактори се променят произволно или по предварително зададен начин. Конкретното прилагане на фактор (например определен температурен режим, избрано оборудване или материал) се нарича ниво на фактор или метод на обработка. ANOVA модел с фиксирани нива на фактори се нарича модел I, модел със случайни фактори се нарича модел II. Чрез промяна на фактора може да се изследва ефектът му върху величината на отговора. Понастоящем общата теория на дисперсионния анализ е разработена за модели I.

В зависимост от броя на факторите, които определят вариацията на резултантния признак, дисперсионният анализ се разделя на еднофакторен и многофакторен.

Основните схеми за организиране на първоначалните данни с два или повече фактора са:

Кръстосана класификация, характерна за модели I, при която всяко ниво на един фактор се комбинира с всяка градация на друг фактор при планиране на експеримент;

Йерархична (вложена) класификация, характерна за модел II, при която всяка произволно избрана стойност на един фактор съответства на собственото си подмножество от стойности на втория фактор.

Ако зависимостта на реакцията от качествени и количествени фактори се изследва едновременно, т.е. фактори със смесен характер, тогава се използва ковариационен анализ /3/.

По този начин тези модели се различават един от друг по начина на избор на нивата на фактора, което, очевидно, засяга преди всичко възможността за обобщаване на получените резултати. експериментални резултати. За анализ на дисперсията в еднофакторни експерименти разликата между тези два модела не е толкова значителна, но при многовариантния анализ на дисперсията може да бъде много важна.

При извършване на анализ на дисперсията трябва да бъдат изпълнени следните статистически допускания: независимо от нивото на фактора, стойностите на отговора имат нормален (гаусов) закон на разпределение и еднаква дисперсия. Това равенство на дисперсиите се нарича хомогенност. По този начин промяната на метода на обработка засяга само позицията на случайната променлива на отговора, която се характеризира със средната стойност или медианата. Следователно всички наблюдения на реакцията принадлежат към семейството на смяна на нормалните разпределения.

Твърди се, че техниката ANOVA е „стабилна“. Този термин, използван от статистиците, означава, че тези предположения могат да бъдат нарушени до известна степен, но въпреки това техниката може да се използва.

Когато законът за разпределение на стойностите на отговора е неизвестен, се използват непараметрични (най-често рангови) методи за анализ.

Анализът на дисперсията се основава на разделянето на дисперсията на части или компоненти. Вариацията, дължаща се на влиянието на фактора, лежащ в основата на групирането, се характеризира с междугруповата дисперсия σ 2 . Това е мярка за вариацията на частичните средни за групи около общата средна и се определя по формулата:

,

където k е броят на групите;

n j е броят на единиците в j-тата група;

Частно средно за j-та група;

Общата средна стойност за съвкупността от единици.

Вариацията, дължаща се на влиянието на други фактори, се характеризира във всяка група с вътрешногруповата дисперсия σ j 2 .

.

Съществува връзка между общата дисперсия σ 0 2, вътрешногруповата дисперсия σ 2 и междугруповата дисперсия:

σ 0 2 = + σ 2 .

Вътрешногруповата дисперсия обяснява влиянието на факторите, които не са взети предвид при групирането, а междугруповата дисперсия обяснява влиянието на груповите фактори върху средното за групата /2/.

1.2 Еднопосочен дисперсионен анализ

Еднофакторният дисперсионен модел има формата:

x ij = μ + F j + ε ij , (1)

където х ij е стойността на изследваната променлива, получена на i-то ниво на фактора (i=1,2,...,т) c j-ти редчисло (j=1,2,...,n);

F i е ефектът от влиянието на i-то ниво на фактора;

ε ij е случаен компонент или смущение, причинено от влиянието на неконтролируеми фактори, т.е. вариация в рамките на едно ниво.

Основни предпоставки за дисперсионен анализ:

Математическото очакване на смущението ε ij е равно на нула за всяко i, т.е.

M(ε ij) = 0; (2)

Смущенията ε ij са взаимно независими;

Дисперсията на променливата x ij (или смущението ε ij) е постоянна за

всяко i, j, т.е.

D(ε ij) = σ2; (3)

Променливата x ij (или смущението ε ij) има нормален закон

разпределения N(0;σ 2).

Влиянието на факторните нива може да бъде или фиксирано, или систематично (Модел I), или произволно (Модел II).

Нека, например, е необходимо да се установи дали има значителни разлики между партиди от продукти по отношение на някакъв показател за качество, т.е. проверете влиянието върху качеството на един фактор - партида продукти. Ако всички партиди суровини са включени в изследването, тогава влиянието на нивото на такъв фактор е систематично (модел I) и констатациите са приложими само за онези отделни партиди, които са били включени в изследването. Ако включим само произволно избрана част от партиите, тогава влиянието на фактора е случайно (модел II). В многофакторните комплекси е възможен смесен модел III, при който някои фактори имат произволни нива, а други са фиксирани.

Нека има m партиди продукти. От всяка партида бяха избрани съответно n 1 , n 2 , ..., n m продукти (за простота се приема, че n 1 =n 2 =...=n m =n). Стойностите на показателя за качество на тези продукти са представени в матрицата за наблюдение:

x 11 x 12 … x 1n

x 21 x 22 … x 2n

………………… = (x ij), (i = 1,2, …, m; j = 1,2, …, n).

x m 1 x m 2 … x mn

Необходимо е да се провери значимостта на влиянието на партидите от продукти върху тяхното качество.

Ако приемем, че елементите на редовете на матрицата за наблюдение са числените стойности на случайни променливи X 1 ,X 2 ,...,X m , изразяващи качеството на продуктите и имащи нормален закон на разпределение с математически очаквания, съответно a 1 ,a 2 ,...,a m и еднакви дисперсии σ 2 , тогава този проблем се свежда до тестване на нулевата хипотеза H 0: a 1 =a 2 =...= a m , извършена при анализа на дисперсия.

Осредняването по някакъв индекс се обозначава със звездичка (или точка) вместо с индекс, тогава средният показател за качество на продуктите от i-тата партида или груповата средна стойност за i-тото ниво на фактора ще вземе форма:

където i * е средната стойност по колоните;

Ij е елемент от матрицата на наблюдение;

n е размерът на извадката.

И общата средна стойност:

. (5)

Сумата от квадратите на отклоненията на наблюденията x ij от общата средна стойност ** изглежда така:

2 = 2 + 2 +

2 2 . (6)

Q \u003d Q 1 + Q 2 + Q 3.

Последният член е нула

тъй като сумата от отклоненията на стойностите на променливата от нейната средна е равна на нула, т.е.

2 =0.

Първият член може да се запише като:

Резултатът е идентичност:

Q = Q 1 + Q 2 , (8)

където - обща или обща сума на квадратите на отклоненията;

- сумата от квадратите на отклоненията на груповите средства от общата средна стойност или междугруповата (факториална) сума на квадратите на отклоненията;

- сума на квадратите на отклоненията на наблюденията от груповите средни стойности или вътрешногруповата (остатъчна) сума на квадратите на отклоненията.

Разширението (8) съдържа основната идея на дисперсионния анализ. Във връзка с разглеждания проблем равенството (8) показва, че общата вариация на показателя за качество, измерена чрез сумата Q, се състои от два компонента - Q 1 и Q 2, характеризиращи променливостта на този показател между партидите (Q 1 ) и променливост в рамките на партидите (Q 2), характеризираща една и съща вариация за всички партиди под влияние на неотчетени фактори.

При анализа на дисперсията не се анализират сумите на квадратите на отклоненията, а така наречените средни квадрати, които са безпристрастни оценки на съответните дисперсии, които се получават чрез разделяне на сумите на квадратите на отклоненията на съответните брой степени на свобода.

Броят на степените на свобода се определя като общия брой наблюдения минус броя на уравненията, които ги свързват. Следователно, за средния квадрат s 1 2 , който е безпристрастна оценка на междугруповата дисперсия, броят на степените на свобода k 1 =m-1, тъй като m групови средни стойности, свързани помежду си с едно уравнение (5), се използват в неговото изчисление. А за средния квадрат s22, който е безпристрастна оценка на вътрешногруповата дисперсия, броят на степените на свобода е k2=mn-m, защото изчислява се с помощта на всички mn наблюдения, свързани помежду си с m уравнения (4).

По този начин:

Ако намерим математическите очаквания на средните квадрати и , заместим израза xij (1) във формулите им чрез параметрите на модела, получаваме:

(9)

защото като се вземат предвид свойствата на математическото очакване

а

(10)

За модел I с фиксирани нива на фактора F i (i=1,2,...,m) са неслучайни стойности, следователно

M(S) = 2 /(m-1) +σ 2 .

Хипотезата H 0 приема формата F i = F * (i = 1,2,...,m), т.е. влиянието на всички нива на фактора е еднакво. Ако тази хипотеза е вярна

M(S)= M(S)= σ 2 .

За случаен модел II членът F i в израз (1) е случайна стойност. Означавайки го с вариация

получаваме от (9)

(11)

и, както в модел I

Таблица 1.1 представя общ изглед на изчисляването на стойностите с помощта на дисперсионен анализ.

Таблица 1.1 - Основна таблица за дисперсионен анализ

Дисперсионни компоненти

Сбор на квадрати

Брой степени на свобода

Среден квадрат

Средно квадратично очакване

Интергрупа

Вътрешногрупови

Хипотезата H 0 ще приеме формата σ F 2 =0. Ако тази хипотеза е вярна

M(S)= M(S)= σ 2 .

В случай на еднофакторен комплекс както за модел I, така и за модел II, средните квадрати S 2 и S 2 са безпристрастни и независими оценкисъщата дисперсия σ 2 .

Следователно, тестването на нулевата хипотеза H 0 беше сведено до тестване на значимостта на разликата между безпристрастните оценки на извадката S и S на дисперсията σ 2 .

Хипотезата H 0 се отхвърля, ако действително изчислената стойност на статистиката F = S/S е по-голяма от критичната стойност F α: K 1: K 2 , определена на ниво на значимост α с броя на степените на свобода k 1 = m-1 и k 2 =mn-m и се приема, ако F< F α: K 1: K 2 .

F-разпределението на Fisher (за x > 0) има следната функция на плътност (за = 1, 2, ...; = 1, 2, ...):

където - степени на свобода;

G - гама функция.

Във връзка с този проблем опровергаването на хипотезата H 0 означава наличието на значителни разлики в качеството на продуктите от различни партиди на разглежданото ниво на значимост.

За изчисляване на сумите на квадратите Q 1 , Q 2 , Q често е удобно да се използват следните формули:

(12)

(13)

(14)

тези. обикновено не е необходимо да се намират самите средни стойности.

По този начин процедурата за еднопосочен дисперсионен анализ се състои в тестване на хипотезата H 0, че има една група от хомогенни експериментални данни срещу алтернативата, че има повече от една такава група. Хомогенността се отнася до еднаквостта на средните стойности и отклоненията във всяко подмножество от данни. В този случай отклоненията могат да бъдат както известни, така и предварително неизвестни. Ако има причина да се смята, че известната или неизвестна вариация на измерванията е една и съща в целия набор от данни, тогава задачата за еднопосочен анализ на вариацията се свежда до изследване на значимостта на разликата в средните стойности в групите данни / 1/.

1.3 Многовариантна дисперсия анализ

Веднага трябва да се отбележи, че няма фундаментална разлика между многовариантния и еднофакторния дисперсионен анализ. Многовариантният анализ не променя общата логика на дисперсионния анализ, а само донякъде го усложнява, тъй като в допълнение към отчитането на влиянието на всеки от факторите върху зависимата променлива поотделно, трябва да се оцени и техният комбиниран ефект. По този начин новото нещо, което мултивариантният анализ на дисперсията внася в анализа на данните, се отнася главно до способността да се оцени междуфакторното взаимодействие. Все пак е възможно да се оцени влиянието на всеки фактор поотделно. В този смисъл процедурата за многовариантен дисперсионен анализ (във варианта на компютърно използване) несъмнено е по-икономична, тъй като само с едно изпълнение решава два проблема едновременно: оценява се влиянието на всеки от факторите и тяхното взаимодействие / 3/.

Общата схема на двуфакторен експеримент, данните от който се обработват чрез дисперсионен анализ, е следната:



Фигура 1.1 - Схема на двуфакторен експеримент

Данните, подложени на многовариантен дисперсионен анализ, често се етикетират според броя на факторите и техните нива.

Ако приемем, че в разглеждания проблем за качеството на различни m партиди продуктите са произведени на различни t машини и е необходимо да се установи дали има значителни разлики в качеството на продуктите за всеки фактор:

А - партида продукти;

B - машина.

Резултатът е преход към проблема с двуфакторния дисперсионен анализ.

Всички данни са представени в таблица 1.2, в която редовете - нива A i на фактор A, колоните - нива B j на фактор B, а в съответните клетки на таблицата са стойностите на показателя за качество на продукта x ijk (i = 1,2, ... ,m; j=1,2,...,l; k=1,2,...,n).

Таблица 1.2 - Показатели за качество на продукта

x 11l ,…,x 11k

x 12l ,…,x 12k

x 1jl ,…,x 1jk

x 1ll ,…,x 1lk

x 2 1l ,…,x 2 1k

x 22l ,…,x 22k

x 2jl ,…,x 2jk

x 2ll ,…,x 2lk

x i1l ,…,x i1k

x i2l ,…,x i2k

xijl ,…,xijk

xjll ,…,xjlk

x m1l ,…,x m1k

x m2l ,…,x m2k

xmjl ,…,xmjk

x mll ,…,x mlk

Двуфакторният дисперсионен модел има формата:

x ijk =μ+F i +G j +I ij +ε ijk , (15)

където x ijk е стойността на наблюдението в клетка ij с номер k;

μ - обща авария;

F i - ефект, дължащ се на влиянието на i-то ниво на фактор А;

G j - ефект, дължащ се на влиянието на j-то ниво на фактор В;

I ij - ефект, дължащ се на взаимодействието на два фактора, т.е. отклонение от средната стойност за наблюдения в клетка ij от сумата на първите три члена в модел (15);

ε ijk - смущение, дължащо се на изменението на променливата в рамките на една клетка.

Приема се, че ε ijk има нормално разпределение N(0; с 2) и всички математически очаквания F * , G * , I i * , I * j са равни на нула.

Груповите средни стойности се намират по формулите:

В клетка:

по ред:

по колона:

обща средна стойност:

Таблица 1.3 представя общ изглед на изчисляването на стойностите с помощта на дисперсионен анализ.

Таблица 1.3 - Основна таблица за дисперсионен анализ

Дисперсионни компоненти

Сбор на квадрати

Брой степени на свобода

Средни квадратчета

Интергрупа (фактор А)

Интергрупа (фактор Б)

Взаимодействие

Остатъчен

Проверката на нулевите хипотези HA, HB, HAB за липсата на влияние върху разглежданата променлива на фактори A, B и тяхното взаимодействие AB се извършва чрез сравняване на съотношенията , , (за модел I с фиксирани нива на фактори) или съотношенията , , (за случаен модел II) със съответните таблични стойности F - критерий на Fisher-Snedecor. За смесения модел III проверката на хипотези относно фактори с фиксирани нива се извършва по същия начин, както в модел II, а за фактори със случайни нива, както в модел I.

Ако n=1, т.е. с едно наблюдение в клетката, тогава не всички нулеви хипотези могат да бъдат тествани, тъй като компонентът Q3 изпада от общата сума на квадратните отклонения, а с него и средният квадрат, тъй като в този случай не може да става дума за взаимодействие на фактори.

От гледна точка на изчислителната техника, за да се намерят сумите на квадратите Q 1, Q 2, Q 3, Q 4, Q, е по-целесъобразно да се използват формулите:

Q 3 \u003d Q - Q 1 - Q 2 - Q 4.

Отклонението от основните предпоставки на дисперсионния анализ - нормалността на разпределението на изследваната променлива и равенството на дисперсиите в клетките (ако не е прекомерно) - не оказва значително влияние върху резултатите от дисперсионния анализ с равен брой наблюдения в клетките, но може да бъде много чувствителен, ако броят им е различен. Освен това, при неравен брой наблюдения в клетките, сложността на апарата за дисперсионен анализ рязко нараства. Поради това се препоръчва да се проектира схема с равен брой наблюдения в клетките и ако има липсващи данни, компенсирайте ги със средните стойности на други наблюдения в клетките. В този случай обаче изкуствено въведените липсващи данни не трябва да се вземат предвид при изчисляване на броя на степените на свобода /1/.

2 Приложение на ANOVA в различни процеси и изследвания

2.1 Използване на дисперсионния анализ при изследване на миграционните процеси

Миграцията е сложно социално явление, което до голяма степен определя икономическите и политическите аспекти на обществото. Изследването на миграционните процеси е свързано с идентифициране на интересни фактори, удовлетвореност от условията на труд и оценка на влиянието на получените фактори върху междугруповото движение на населението.

λ ij = c i q ij a j,

където λ ij е интензитетът на преходите от първоначалната група i (изход) към новата група j (вход);

c i – възможност и възможност за напускане на група i (c i ≥0);

q ij – привлекателност нова групав сравнение с оригинала (0≤q ij ≤1);

a j – наличие на група j (a j ≥0).

ν ij ≈ n i λ ij =n i c i q ij a j . (16)

На практика за даден индивид вероятността p да премине в друга група е малка, а размерът на разглежданата група n е голям. В този случай се прилага законът за редките събития, т.е. границата ν ij е разпределението на Поасон с параметър μ=np:

.

С увеличаването на μ разпределението се доближава до нормалното. Трансформираната стойност √ν ij може да се счита за нормално разпределена.

Ако вземем логаритъм на израз (16) и направим необходимите промени на променливите, тогава можем да получим анализ на дисперсионния модел:

ln√ν ij =½lnν ij =½(lnn i +lnc i +lnq ij +lna j)+ε ij,

X i,j =2ln√ν ij -lnn i -lnq ij ,

Xi,j =Ci +Aj +ε.

Стойностите на C i и A j правят възможно получаването на двупосочен ANOVA модел с едно наблюдение на клетка. Обратната трансформация от C i и A j изчислява коефициентите c i и a j.

Когато се извършва анализ на дисперсията, следните стойности трябва да се приемат като стойности на ефективната характеристика Y:

X \u003d (X 1.1 + X 1.2 +: + X mi, mj) / mimj,

където mimj е оценката на математическото очакване X i,j ;

X mi и X mj - съответно броят на изходните и входните групи.

Нивата на фактор I ще бъдат mi изходни групи, нивата на фактор J ще бъдат mj входни групи. Приема се Mi=mj=m. Проблемът възниква при проверката на хипотезите H I и H J за равенството на математическите очаквания на стойността Y на нива I i и на нива J j , i,j=1,…,m. Тестването на хипотеза H I се основава на сравняване на стойностите на безпристрастни оценки на дисперсията s I 2 и s o 2 . Ако хипотезата H I е вярна, тогава стойността F (I) = s I 2 /s o 2 има разпределение на Фишер с броя на степените на свобода k 1 =m-1 и k 2 =(m-1)(m- 1). За дадено ниво на значимост α, дясната страна критична точка x pr,α cr. Ако числената стойност F (I) на количеството попада в интервала (x pr, α kr, +∞), тогава хипотезата H I се отхвърля и се смята, че коефициентът I влияе върху ефективната характеристика. Степента на това влияние, въз основа на резултатите от наблюденията, се измерва с извадковия коефициент на определяне, който показва каква част от дисперсията на резултантната характеристика в извадката се дължи на влиянието на фактор I върху нея. Ако F ( I) бр

2.2 Принципи на математическия и статистически анализ на данни от биомедицински изследвания

В зависимост от задачата, обема и естеството на материала, вида на данните и техните взаимовръзки, има избор на методи за математическа обработка на етапите както на предварителния (за оценка на характера на разпределението в изследваната извадка), така и окончателен анализ в съответствие с целите на изследването. Изключително важен аспект е проверката на хомогенността на избраните групи за наблюдение, включително контролните, която може да се извърши както от експерт, така и чрез многовариантни статистически методи (например чрез клъстерен анализ). Но първата стъпка е да се състави въпросник, който предоставя стандартизирано описание на характеристиките. Особено при провеждане на епидемиологични проучвания, където е необходимо единство в разбирането и описанието на едни и същи симптоми от различни лекари, включително като се вземат предвид диапазоните на техните промени (тежест). Ако има значителни разлики в регистрирането на първоначалните данни (субективна оценка на естеството на патологичните прояви от различни специалисти) и е невъзможно да се приведат в единна форма на етапа на събиране на информация, тогава т.нар. Ковариантна корекция може да се извърши, което включва нормализиране на променливи, т.е. елиминиране на аномалии на показатели в матрицата на данните. „Съгласуването на мненията“ се извършва, като се вземат предвид специалността и опита на лекарите, което след това дава възможност за сравняване на резултатите от изследването, получено от тях помежду си. За тази цел могат да се използват многовариантен анализ на дисперсията и регресионен анализ.

Знаците могат да бъдат или от един и същи тип, което е рядко, или от различни видове. Този термин се отнася до различната им метрологична оценка. Количествени или числови признаци са тези, измерени по определена скала и по скали на интервали и съотношения (I група признаци). Качествените, класиращите или точковите се използват за изразяване на медицински термини и понятия, които нямат числени стойности (например тежестта на състоянието) и се измерват по скала за ред (група II признаци). Класификация или номинална (например професия, кръвна група) - те се измерват в скалата на имената (група III признаци).

В много случаи се прави опит за анализ на изключително голям брой признаци, които трябва да помогнат за повишаване на информационното съдържание на представената извадка. Въпреки това, изборът на полезна информация, тоест изборът на характеристики, е абсолютно необходима операция, тъй като за да се реши всеки проблем с класификацията, трябва да се избере информация, която носи информация, която е полезна за тази задача. В случай, че по някаква причина това не се извършва самостоятелно от изследователя или липсват достатъчно обосновани критерии за намаляване на размерността на признаковото пространство по смислени причини, борбата с информационния излишък вече се води с формални методи чрез оценка на информационното съдържание.

Анализът на дисперсията ви позволява да определите влиянието на различни фактори (условия) върху изследваната черта (явление), което се постига чрез разлагане на общата променливост (дисперсия, изразена като сума от квадратни отклонения от общата средна стойност) на отделни компоненти, причинени от влиянието на различни източници на променливост.

С помощта на дисперсионния анализ се изследват заплахите от заболяването при наличие на рискови фактори. Концепцията за относителен риск разглежда връзката между пациентите с определено заболяване и тези без него. Стойността на относителния риск позволява да се определи колко пъти се увеличава вероятността от заболяване при негово присъствие, което може да се оцени по следната опростена формула:

където a е наличието на черта в изследваната група;

b - липсата на черта в изследваната група;

c - наличието на знак в групата за сравнение (контрола);

d - липса на знак в групата за сравнение (контрола).

Атрибутният рисков резултат (rA) се използва за оценка на дела на заболеваемостта, свързана с даден рисков фактор:

,

където Q е честотата на маркиращия риск признак в популацията;

r" - относителен риск.

Идентифициране на факторите, допринасящи за възникването (проявата) на заболяването, т.е. рисковите фактори могат да се извършват по различни начини, например чрез оценка на информативността с последващо класиране на признаците, което обаче не показва кумулативния ефект на избраните параметри, за разлика от използването на регресия, факторни анализи, методи на теорията за разпознаване на образи, които позволяват да се получат "симптоматични комплекси" от рискови фактори. В допълнение, по-сложните методи позволяват да се анализират косвените връзки между рисковите фактори и заболяванията /5/.

2.3 Биоанализ на почвата

Различни замърсители, попадайки в агроценозата, могат да претърпят различни трансформации в нея, като същевременно увеличават токсичния си ефект. Поради тази причина се оказаха необходими методи за интегрална оценка на качеството на компонентите на агроценозата. Изследванията са проведени на базата на многовариантен анализ на дисперсията в 11-полно зърнено-тревно-редово сеитбообръщение. В опита е изследвано влиянието на следните фактори: почвено плодородие (А), система на торене (Б), система за растителна защита (В). Плодородието на почвата, системата за торене и системата за растителна защита са изследвани при дози 0, 1, 2 и 3. Основните варианти са представени от следните комбинации:

000 - първоначалното ниво на плодородие, без използването на торове и продукти за растителна защита от вредители, болести и плевели;

111 - средното ниво на почвеното плодородие, минималната доза тор, биологичната защита на растенията от вредители и болести;

222 - първоначалното ниво на почвеното плодородие, средната доза торове, химическа защита на растенията от плевели;

333 - високо ниво на почвено плодородие, висока доза торове, химическа защита на растенията от вредители и болести.

Проучихме опции, при които присъства само един фактор:

200 - плодовитост:

020 - торове;

002 - продукти за растителна защита.

Както и варианти с различна комбинация от фактори - 111, 131, 133, 022, 220, 202, 331, 313, 311.

Целта на изследването е да се изследва инхибирането на хлоропластите и коефициента на моментен растеж, като индикатори за замърсяване на почвата, в различни варианти на многофакторен експеримент.

Инхибирането на фототаксиса на хлоропластите на водна леща е изследвано в различни почвени хоризонти: 0–20, 20–40 cm. Делът в общата дисперсия на почвеното плодородие е 39,7%, системите за торене - 30,7%, системите за растителна защита - 30,7%.

За изследване на комбинирания ефект на факторите върху инхибирането на фототаксиса на хлоропластите са използвани различни комбинации от експериментални варианти: в първия случай - 000, 002, 022, 222, 220, 200, 202, 020, във втория случай - 111, 333, 331, 313, 133, 311, 131.

Резултатите от двупосочен дисперсионен анализ показват значителен ефект на взаимодействащите системи за тор и растителна защита върху различията във фототаксиса за първия случай (делът в общата дисперсия е 10,3%). За втория случай е установено значимо влияние на взаимодействащите почвено плодородие и система на торене (53,2%).

Тристранният дисперсионен анализ показа в първия случай значително влияние на взаимодействието и на трите фактора. Делът в общата дисперсия е 47.9%.

Коефициентът на моментен растеж е изследван в различни варианти на опита 000, 111, 222, 333, 002, 200, 220. Първият етап на изследване е преди прилагането на хербицидите върху посевите със зимна пшеница (април), вторият етап - след прилагането на хербициди (май) и последното - по време на прибиране на реколтата (юли). Предшественици - слънчоглед и царевица за зърно.

Появата на нови листа се наблюдава след кратка лаг фаза с период на общо удвояване на прясното тегло от 2-4 дни.

В контролата и във всеки вариант на базата на получените резултати се изчислява коефициентът на моментно нарастване на популацията r, а след това се изчислява времето на удвояване на броя на листата (t удвояване).

t удвоява \u003d ln2 / r.

Изчисляването на тези показатели е извършено в динамика с анализ на почвени проби. Анализът на данните показа, че времето за удвояване на популацията на водна леща преди оран е най-кратко в сравнение с данните след оран и по време на прибиране на реколтата. В динамиката на наблюденията по-голям интерес представлява реакцията на почвата след прилагане на хербицида и по време на прибиране на реколтата. На първо място, взаимодействието с торовете и нивото на плодовитост.

Понякога получаването на директен отговор на прилагането на химически препарати може да бъде усложнено от взаимодействието на препарата с торове, както органични, така и минерални. Получените данни позволиха да се проследи динамиката на реакцията на приложените препарати, при всички варианти с химически средства за защита, където растежът на показателя беше спрян.

Данните от еднопосочния дисперсионен анализ показаха значителен ефект на всеки показател върху скоростта на растеж на водната леща на първия етап. На втория етап ефектът от различията в почвеното плодородие е 65,0%, в системата на торене и системата за растителна защита - по 65,0%. Факторите показват значителни разлики между средното по отношение на моментния коефициент на растеж на вариант 222 и варианти 000, 111, 333. На третия етап делът в общата дисперсия на почвеното плодородие е 42,9%, системи за торене и системи за растителна защита - по 42,9%. Значителна разлика беше отбелязана в средните стойности на опции 000 и 111, опции 333 и 222.

Изследваните почвени проби от опциите за полеви мониторинг се различават една от друга по отношение на инхибирането на фототаксиса. Отбелязано е влиянието на факторите на плодородието, системата за торене и продуктите за растителна защита с дялове 30,7 и 39,7% при еднофакторен анализ, при двуфакторен и трифакторен анализ е регистрирано съвместно влияние на факторите.

Анализът на експерименталните резултати показа незначителни разлики между почвените хоризонти по показателя инхибиране на фототаксиса. Разликите са отбелязани със средни стойности.

Във всички варианти, където има препарати за растителна защита, се наблюдават промени в положението на хлоропластите и по-малко спиране на растежа на водната леща /6/.

2.4 Грипът причинява повишено производство на хистамин

Изследователи от Детската болница в Питсбърг (САЩ) са получили първите доказателства, че нивата на хистамин се повишават при остри респираторни вирусни инфекции. Въпреки факта, че по-рано се предполагаше, че хистаминът играе роля в появата на симптоми на остри респираторни инфекции на горните дихателни пътища.

Учените се интересуваха защо много хора използват антихистамини, които в много страни са включени в категорията без рецепта, за самолечение на „хрема“ и обикновена настинка. предлага се без лекарско предписание.

Целта на това проучване е да се определи дали производството на хистамин се увеличава по време на експериментална инфекция с грипен вирус А.

15 здрави доброволци бяха интраназално инжектирани с грипен вирус А и след това наблюдавани за развитие на инфекцията. Ежедневно по време на заболяването сутрешната порция урина се събира от доброволци, след което се определят хистаминът и неговите метаболити и се изчислява общото количество хистамин и неговите метаболити, екскретирани на ден.

Заболяването се е развило при всички 15 доброволци. Анализът на дисперсията потвърди значително по-високо ниво на хистамин в урината на 2-5 дни от вирусната инфекция (p<0,02) - период, когда симптомы «простуды» наиболее выражены. Парный анализ показал, что наиболее значительно уровень гистамина повышается на 2 день заболевания. Кроме этого, оказалось, что суточное количество гистамина и его метаболитов в моче при гриппе примерно такое же, как и при обострении аллергического заболевания.

Резултатите от това изследване дават първото пряко доказателство, че нивата на хистамин са повишени при остри респираторни инфекции /7/.

Дисперсионен анализ по химия

Дисперсионният анализ е набор от методи за определяне на дисперсията, т.е. характеристиките на размерите на частиците в дисперсните системи. Дисперсионният анализ включва различни методи за определяне на размера на свободните частици в течни и газообразни среди, размера на каналите на порите в фино порести тела (в този случай се използва еквивалентното понятие за порьозност вместо понятието за дисперсия), както и специфичната повърхност. Някои от методите за дисперсионен анализ позволяват да се получи пълна картина на разпределението на частиците по размер (обем), докато други дават само средна характеристика на дисперсия (порьозност).

Първата група включва например методи за определяне на размера на отделните частици чрез директно измерване (ситов анализ, оптична и електронна микроскопия) или чрез косвени данни: скоростта на утаяване на частиците във вискозна среда (седиментационен анализ в гравитационно поле и в центрофуги), големината на импулсите на електрически ток, произтичащи от преминаването на частици през отвор в непроводима преграда (кондуктометричен метод).

Втората група методи съчетава оценката на средните размери на свободните частици и определянето на специфичната повърхност на прахове и порести тела. Средният размер на частиците се намира чрез интензитета на разсеяната светлина (нефелометрия), с помощта на ултрамикроскоп, дифузионни методи и др., специфичната повърхност се определя от адсорбцията на газове (пари) или разтворени вещества, чрез пропускливост на газ, скорост на разтваряне , и други методи. По-долу са границите на приложимост на различните методи за анализ на дисперсията (размер на частиците в метри):

Ситов анализ - 10 -2 -10 -4

Седиментационен анализ в гравитационно поле - 10 -4 -10 -6

Кондуктометричен метод - 10 -4 -10 -6

Микроскопия - 10 -4 -10 -7

Метод на филтриране - 10 -5 -10 -7

Центрофугиране - 10 -6 -10 -8

Ултрацентрофугиране - 10 -7 -10 -9

Ултрамикроскопия - 10 -7 -10 -9

Нефелометрия - 10 -7 -10 -9

Електронна микроскопия - 10 -7 -10 -9

Дифузионен метод - 10 -7 -10 -10

Дисперсионният анализ се използва широко в различни области на науката и промишленото производство за оценка на дисперсията на системи (суспензии, емулсии, золи, прахове, адсорбенти и др.) с размери на частиците от няколко милиметра (10 -3 m) до няколко нанометра (10 -9 м) /8/.

2.6 Използването на пряко умишлено внушение в будно състояние в метода за обучение на физически качества

Физическото обучение е основната страна на спортното обучение, тъй като в по-голяма степен от другите аспекти на обучението се характеризира с физически натоварвания, които засягат морфологичните и функционалните свойства на тялото. Успехът на техническото обучение, съдържанието на тактиката на спортиста, реализацията на личните свойства в процеса на обучение и състезание зависи от нивото на физическа годност.

Една от основните задачи на физическото възпитание е възпитанието на физическите качества. В тази връзка е необходимо да се разработят педагогически инструменти и методи, които позволяват да се вземат предвид възрастовите характеристики на младите спортисти, които запазват здравето им, не изискват допълнително време и в същото време стимулират растежа на физическите качества и като резултат, спортсменство. Използването на вербално хетеровъздействие в процеса на обучение в началните групи за обучение е една от обещаващите области на изследване по този въпрос.

Анализът на теорията и практиката на прилагане на вдъхновяващо вербално хетеровъздействие разкри основните противоречия:

Доказателство за ефективното използване на специфични методи на вербално хетеровъздействие в процеса на обучение и практическата невъзможност за използването им от треньор;

Признаването на прякото умишлено внушение (наричано по-нататък DSP) в будно състояние като един от основните методи за вербално хетеровъздействие в педагогическата дейност на треньора и липсата на теоретична обосновка на методологичните особености на използването му в спорта обучение, и по-специално в процеса на възпитание на физическите качества.

Във връзка с идентифицираните противоречия и недостатъчно развитие, проблемът с използването на системата от методи за вербално хетеровъздействие в процеса на възпитание на физическите качества на спортистите предопредели целта на изследването - да се разработят рационални целенасочени методи на PPV в будно състояние, допринася за подобряване на процеса на възпитание на физически качества въз основа на оценката на психическото състояние, проявлението и динамиката на физическите качества на джудисти от групи за начално обучение.

С цел проверка и определяне на ефективността на експерименталните методи на ППВ в развитието на физическите качества на джудистите беше проведен сравнително-педагогически експеримент, в който взеха участие четири групи - три експериментални и една контролна. В първата експериментална група (ЕГ) е използвана техниката PPV M1, във втората - техниката PPV M2, в третата - техниката PPV M3. В контролната група (CG) не са използвани PPV методи.

За да се определи ефективността на педагогическото въздействие на методите на PPV в процеса на възпитание на физическите качества на джудистите, беше извършен еднофакторен дисперсионен анализ.

Степента на влияние на методологията PPV M1 в процеса на обучение:

Издръжливост:

а) след третия месец е 11,1%;

Способности за скорост:

а) след първия месец - 16,4%;

б) след второ - 26,5%;

в) след трети - 34,8%;

а) след втория месец - 26,7%;

б) след трети - 35,3%;

Гъвкавост:

а) след третия месец - 20,8%;

а) след втория месец от основния педагогически експеримент степента на влияние на методиката е 6,4%;

б) след трети - 10,2%.

Следователно, значителни промени в показателите за нивото на развитие на физическите качества с помощта на метода PPV M1 бяха открити в скоростните способности и силата, степента на влияние на метода в този случай е най-голяма. Най-малко влияние на методологията е установено в процеса на възпитание на издръжливост, гъвкавост и координационни способности, което дава основание да се говори за недостатъчната ефективност на използването на метода PPV M1 при възпитанието на тези качества.

Степента на влияние на методологията PPV M2 в процеса на обучение:

Издръжливост

а) след първия месец от експеримента - 12,6%;

б) след второ - 17,8%;

в) след трети - 20,3%.

Способности за скорост:

а) след третия месец от обучението - 28%.

а) след втория месец - 27,9%;

б) след трети - 35,9%.

Гъвкавост:

а) след третия месец от обучението - 14,9%;

Координационни способности - 13,1%.

Полученият резултат от еднофакторния дисперсионен анализ на тази ЕГ ни позволява да заключим, че методът PPV M2 е най-ефективен за развитието на издръжливост и сила. Той е по-малко ефективен в процеса на развитие на гъвкавост, бързина и координационни способности.

Степента на влияние на методологията PPV M3 в процеса на обучение:

Издръжливост:

а) след първия месец от експеримента 16,8%;

б) след второ - 29,5%;

в) след трети - 37,6%.

Способности за скорост:

а) след първия месец - 26,3%;

б) след второ - 31,3%;

в) след трети - 40,9%.

а) след първия месец - 18,7%;

б) след второ - 26,7%;

в) след трети - 32,3%.

Гъвкавост:

а) след първото - няма промени;

б) след второ - 16,9%;

в) след трети - 23,5%.

Координационни способности:

а) няма промени след първия месец;

б) след второ - 23,8%;

в) след третата - 91%.

По този начин еднофакторният дисперсионен анализ показа, че използването на метода PPV M3 в подготвителния период е най-ефективно в процеса на обучение на физически качества, тъй като се наблюдава повишаване на степента на неговото влияние след всеки месец от педагогическия експеримент. /9/.

2.7 Облекчаване на острите психотични симптоми при пациенти с шизофрения с атипичен антипсихотик

Целта на проучването е да се проучи възможността за използване на rispolept за облекчаване на остра психоза при пациенти с диагноза шизофрения (параноиден тип според МКБ-10) и шизоафективно разстройство. В същото време като основен изследван критерий се използва показателят за продължителността на персистирането на психотичните симптоми при фармакотерапия с рисполепт (основна група) и класически антипсихотици.

Основните цели на изследването са да се определи показателят за продължителността на психозата (така наречената нетна психоза), която се разбира като запазване на продуктивни психотични симптоми от началото на употребата на антипсихотици, изразено в дни. Този показател е изчислен отделно за групата на рисперидон и отделно за класическата антипсихотична група.

Заедно с това беше поставена задачата да се определи степента на намаляване на продуктивните симптоми под въздействието на рисперидон в сравнение с класическите антипсихотици в различни периоди на терапия.

Изследвани са общо 89 пациенти (42 мъже и 47 жени) с остра психотична симптоматика в рамките на параноидна форма на шизофрения (49 пациенти) и шизоафективно разстройство (40 пациенти).

Първият епизод и продължителност на заболяването до 1 година са регистрирани при 43 пациенти, докато в други случаи към момента на изследването са отбелязани последващи епизоди на шизофрения с продължителност на заболяването над 1 година.

Терапия с рисполептом са получили 29 души, сред които 15 пациенти с т. нар. първи епизод. Терапия с класически невролептици са получили 60 души, сред които 28 души с първи епизод. Дозата на rispolept варира в диапазона от 1 до 6 mg на ден и е средно 4±0,4 mg/ден. Рисперидон се приема изключително перорално след хранене веднъж дневно вечер.

Терапията с класически антипсихотици включва използването на трифлуоперазин (трифтазин) в дневна доза до 30 mg интрамускулно, халоперидол в дневна доза до 20 mg интрамускулно, триперидол в дневна доза до 10 mg перорално. По-голямата част от пациентите са приемали класически антипсихотици като монотерапия през първите две седмици, след което са преминали, ако е необходимо (при запазване на налудни, халюцинаторни или други продуктивни симптоми), към комбинация от няколко класически антипсихотици. В същото време като основно лекарство остава невролептик с изразен елективен антиналуден и антихалюцинаторен ефект (например халоперидол или трифтазин), лекарство с отчетлив хипноседативен ефект (хлорпромазин, тизерцин, хлорпротиксен в дози до 50-100 mg / ден) се добавя към него вечер.

В групата, приемаща класически антипсихотици, е планиран прием на антихолинергични коректори (Parkopan, Cyclodol) в дози до 10-12 mg/ден. Коректорите са предписани в случай на поява на изразени екстрапирамидни странични ефекти под формата на остра дистония, медикаментозен паркинсонизъм и акатизия.

Таблица 2.1 представя данни за продължителността на психозата при лечение с рисполепт и класически антипсихотици.

Таблица 2.1 - Продължителност на психозата ("нетна психоза") при лечение с рисполепт и класически антипсихотици

Както следва от данните в таблицата, когато се сравнява продължителността на психозата по време на терапия с класически антипсихотици и рисперидон, има почти двойно намаляване на продължителността на психотичните симптоми под въздействието на рисполепт. Показателно е, че нито факторите на серийния брой на припадъците, нито естеството на картината на водещия синдром са повлияли на тази стойност на продължителността на психозата. С други думи, продължителността на психозата се определяше единствено от терапевтичния фактор, т.е. зависи от вида на използваното лекарство, независимо от серийния номер на атаката, продължителността на заболяването и естеството на водещия психопатологичен синдром.

За потвърждаване на получените закономерности е извършен двуфакторен дисперсионен анализ. В същото време взаимодействието на терапевтичния фактор и серийния номер на атаката (етап 1) и взаимодействието на терапевтичния фактор и естеството на водещия синдром (етап 2) бяха взети под внимание на свой ред. Резултатите от дисперсионния анализ потвърждават влиянието на фактора терапия върху продължителността на психозата (F=18,8) при отсъствие на влиянието на фактора номер на атаката (F=2,5) и фактора тип психопатологичен синдром (F=1,7 ). Важно е, че съвместното влияние на терапевтичния фактор и броя на пристъпите върху продължителността на психозата също отсъства, както и съвместното влияние на терапевтичния фактор и фактора на психопатологичния синдром.

Така резултатите от дисперсионния анализ потвърждават влиянието само на фактора на прилагания антипсихотик. Rispolept недвусмислено води до намаляване на продължителността на психотичните симптоми в сравнение с традиционните антипсихотици с около 2 пъти. Важно е, че този ефект е постигнат въпреки пероралното приложение на rispolept, докато класическите антипсихотици са използвани парентерално при повечето пациенти /10/.

2.8 Увиване на фасонни прежди с ровинг ефект

Костромският държавен технологичен университет разработи нова профилна структура на резбата с променливи геометрични параметри. В тази връзка съществува проблем с обработката на фасонни прежди в подготвителното производство. Това изследване беше посветено на процеса на изкривяване по въпросите: изборът на типа обтегач, който дава минимално разпространение на напрежението и подравняването на напрежението, нишки с различна линейна плътност по ширината на изкривяващия вал.

Обект на изследване е ленена профилна нишка с четири варианта на линейна плътност от 140 до 205 tex. Изследвана е работата на три вида опъващи устройства: порцеланова шайба, двузонова NS-1P и еднозонова NS-1P. Експериментално изследване на опъна на нишките за извиване беше проведено на машина за извиване SP-140-3L. Скоростта на извиване, теглото на спирачните дискове съответстваха на технологичните параметри на извиването на преждата.

За изследване на зависимостта на напрежението на фасонната нишка от геометричните параметри по време на деформиране е извършен анализ за два фактора: X 1 - диаметър на ефекта, X 2 - дължина на ефекта. Изходните параметри са напрежение Y 1 и колебание на напрежението Y 2 .

Получените регресионни уравнения са адекватни на експерименталните данни при ниво на значимост 0,95, тъй като изчисленият критерий на Фишер за всички уравнения е по-малък от табличния.

За да се определи степента на влияние на факторите X 1 и X 2 върху параметрите Y 1 и Y 2, беше извършен дисперсионен анализ, който показа, че диаметърът на ефекта има по-голямо влияние върху нивото и флуктуацията на напрежението .

Сравнителният анализ на получените тензограми показа, че минималното разпространение на напрежението по време на извиване на тази прежда се осигурява от двузоново опъващо устройство NS-1P.

Установено е, че с увеличаване на линейната плътност от 105 до 205 tex, устройството NS-1P дава увеличение на нивото на опън само с 23%, докато порцелановата шайба - с 37%, еднозоновата NS-1P - с 53%.

При формоване на валове за изкривяване, включително фасонни и "гладки" резби, е необходимо индивидуално регулиране на обтегача по традиционния метод /11/.

2.9 Съпътстваща патология с пълна загуба на зъби при хора в напреднала и сенилна възраст

Изследвани са епидемиологично пълната загуба на зъби и съпътстващата патология на възрастното население, живеещо в старчески домове на територията на Чувашия. Обследването е извършено чрез дентален преглед и попълване на статистически картони на 784 души. Резултатите от анализа показват висок процент на пълна загуба на зъби, утежнена от общата патология на тялото. Това характеризира изследваната категория от населението като група с повишен дентален риск и налага преразглеждане на цялостната система на тяхното дентално обслужване.

При възрастните заболеваемостта е два пъти, а в напреднала възраст шест пъти по-висока в сравнение със заболеваемостта при по-младите.

Основните заболявания на хората в напреднала и старческа възраст са заболявания на кръвоносната система, нервната система и сетивните органи, дихателните органи, храносмилателните органи, костите и органите за движение, неоплазми и наранявания.

Целта на изследването е да се разработи и получи информация за съпътстващите заболявания, ефективността на протезирането и необходимостта от ортопедично лечение на възрастни и възрастни хора с пълна загуба на зъби.

Прегледани са общо 784 души на възраст от 45 до 90 години. Съотношението на жените и мъжете е 2,8:1.

Оценката на статистическата връзка с помощта на коефициента на корелация на ранговете на Pearson позволи да се установи взаимното влияние на липсващите зъби върху съпътстващата заболеваемост с ниво на надеждност p=0,0005. Пациентите в напреднала възраст с пълна загуба на зъби страдат от заболявания, характерни за старостта, а именно церебрална атеросклероза и хипертония.

Дисперсионният анализ показа, че спецификата на заболяването играе решаваща роля при изследваните условия. Ролята на нозологичните форми в различните възрастови периоди варира от 52-60%. Най-голямо статистически значимо влияние върху липсата на зъби оказват заболяванията на храносмилателната система и захарният диабет.

Като цяло групата пациенти на възраст 75-89 години се характеризира с голям брой патологични заболявания.

В това проучване беше проведено сравнително проучване на честотата на коморбидността сред пациенти с пълна загуба на зъби в напреднала и сенилна възраст, живеещи в домове за възрастни хора. Установен е висок процент на липсващи зъби сред хората от тази възрастова група. При пациенти с пълна адентия се наблюдават съпътстващи заболявания, характерни за тази възраст. Атеросклерозата и хипертонията са най-чести сред изследваните лица. Статистически значимо влияние върху състоянието на устната кухина на заболявания като заболявания на стомашно-чревния тракт и захарен диабет, делът на други нозологични форми е в диапазона 52-60%. Използването на дисперсионен анализ не потвърди значимата роля на пола и мястото на пребиваване върху показателите за състоянието на устната кухина.

По този начин, в заключение, трябва да се отбележи, че анализът на разпределението на съпътстващите заболявания при лица с пълна липса на зъби в напреднала и старческа възраст показа, че тази категория граждани принадлежи към специална група от населението, която трябва да получи адекватна стоматологична помощ. грижи в рамките на съществуващи зъбни системи /12/ .

3 Дисперсионен анализ в контекста на статистическите методи

Статистическите методи за анализ са методология за измерване на резултатите от човешката дейност, тоест превръщане на качествени характеристики в количествени.

Основните стъпки в статистическия анализ:

Съставяне на план за събиране на изходни данни - стойностите на входните променливи (X 1 ,...,X p), броят на наблюденията n. Тази стъпка се изпълнява, когато експериментът е активно планиран.

Получаване на изходни данни и въвеждането им в компютър. На този етап се формират масиви от числа (x 1i ,..., x pi ; y 1i ,..., y qi), i=1,..., n, където n е обемът на извадката.

Първична статистическа обработка на данни. На този етап се формира статистическо описание на разглежданите параметри:

а) изграждане и анализ на статистически зависимости;

б) корелационният анализ е предназначен да оцени значимостта на влиянието на факторите (X 1 ,...,X p) върху отговора Y;

в) дисперсионният анализ се използва за оценка на влиянието на неколичествени фактори (X 1 ,...,X p) върху отговора Y, за да се изберат най-важните сред тях;

г) регресионният анализ е предназначен да определи аналитичната зависимост на отговора Y от количествените фактори X;

Интерпретация на резултатите спрямо поставената задача /13/.

Таблица 3.1 показва статистическите методи, чрез които се решават аналитични проблеми. Съответните клетки на таблицата съдържат честотите на прилагане на статистически методи:

Етикет "-" - методът не е приложен;

Етикет "+" - методът е приложен;

Етикет "++" - методът е широко използван;

Етикет "+++" - приложението на метода представлява особен интерес /14/.

Анализът на дисперсията, подобно на t-теста на Student, ви позволява да оцените разликите между извадковите средни стойности; въпреки това, за разлика от t-теста, той няма ограничения за броя на сравняваните средни стойности. По този начин, вместо да се пита дали две извадкови средни се различават, може да се прецени дали две, три, четири, пет или k средни се различават.

ANOVA ви позволява да работите с две или повече независими променливи (характеристики, фактори) едновременно, като оценявате не само ефекта на всяка от тях поотделно, но и ефектите от взаимодействието между тях /15/.


Таблица 3.1 – Приложение на статистически методи при решаване на аналитични задачи

Аналитични задачи, възникващи в сферата на бизнеса, финансите и управлението

Методи за описателна статистика

Методи за проверка на статистически хипотези

Методи за регресионен анализ

Методи за дисперсионен анализ

Методи за многомерен анализ

Методи за дискриминантен анализ

клъстер-ного

Методи за анализ

оцеляване

Методи за анализ

и прогноза

времеви редове

Задачи на хоризонталния (времеви) анализ

Задачи на вертикалния (структурен) анализ

Задачи на анализ на тенденции и прогноза

Задачи на анализ на относителни показатели

Задачи на сравнителния (пространствен) анализ

Задачи на факторния анализ

За повечето сложни системи се прилага принципът на Парето, според който 20% от факторите определят свойствата на системата с 80%. Следователно основната задача на изследователя на симулационния модел е да елиминира незначителните фактори, което позволява да се намали размерността на проблема за оптимизиране на модела.

Дисперсионният анализ оценява отклонението на наблюденията от общата средна стойност. След това вариацията се разделя на части, всяка от които има своя собствена причина. Остатъчната част от вариацията, която не може да бъде свързана с условията на експеримента, се счита за негова случайна грешка. За потвърждаване на значимостта се използва специален тест – F-статистика.

Анализът на дисперсията определя дали има ефект. Регресионният анализ ви позволява да предвидите реакцията (стойността на целевата функция) в дадена точка от пространството на параметрите. Непосредствената задача на регресионния анализ е да се оценят регресионните коефициенти /16/.

Твърде големите размери на извадката затрудняват статистическите анализи, така че има смисъл да се намали размерът на извадката.

Чрез прилагане на дисперсионен анализ е възможно да се идентифицира значимостта на влиянието на различни фактори върху изследваната променлива. Ако влиянието на даден фактор се окаже незначително, тогава този фактор може да бъде изключен от по-нататъшна обработка.

Макроиконометристите трябва да могат да решават четири логически различни проблема:

Описание на данните;

Макроикономическа прогноза;

Структурен извод;

Анализ на политиката.

Описването на данни означава описване на свойствата на един или повече времеви редове и съобщаване на тези свойства на широк кръг от икономисти. Макроикономическото прогнозиране означава прогнозиране на курса на икономиката, обикновено две до три години или по-малко (главно защото е твърде трудно да се прогнозира за по-дълги хоризонти). Структурно заключение означава проверка дали макроикономическите данни са в съответствие с определена икономическа теория. Анализът на макроиконометричната политика протича по няколко направления: от една страна се оценява въздействието върху икономиката на хипотетична промяна в инструментите на политиката (например данъчна ставка или краткосрочен лихвен процент), от друга страна, въздействието на оценява се промяна в правилата на политиката (например преход към нов режим на парична политика). Проект за емпирично макроикономическо изследване може да включва една или повече от тези четири задачи. Всеки проблем трябва да бъде решен по такъв начин, че да се вземат предвид корелациите между времевите редове.

През 70-те години на миналия век тези проблеми бяха решени с помощта на различни методи, които, оценени от съвременни позиции, бяха неадекватни по няколко причини. За да се опише динамиката на отделна серия, беше достатъчно просто да се използват едномерни модели на времеви редове, а за да се опише съвместната динамика на две серии, беше достатъчно да се използва спектрален анализ. Нямаше обаче общ език, подходящ за систематичното описание на съвместните динамични свойства на няколко времеви серии. Икономическите прогнози са правени или с помощта на опростени модели на авторегресивна подвижна средна (ARMA), или с помощта на големи структурни иконометрични модели, популярни по онова време. Структурното заключение се основава или на малки модели с едно уравнение, или на големи модели, чиято идентификация е постигната чрез необосновани изключващи ограничения и които обикновено не включват очаквания. Анализът на политиката на структурния модел зависеше от тези идентифициращи допускания.

И накрая, покачването на цените през 70-те години на миналия век беше възприето от мнозина като сериозна пречка за големите модели, които бяха използвани за отправяне на политически препоръки по това време. Тоест, това беше подходящият момент за появата на нова макроиконометрична конструкция, която можеше да реши тези много проблеми.

През 1980 г. е създадена такава конструкция – векторни авторегресии (VAR). На пръв поглед VAR не е нищо повече от обобщение на едномерната авторегресия към многовариантния случай и всяко уравнение във VAR не е нищо повече от проста регресия на най-малките квадрати на една променлива върху лагираните стойности на себе си и на други променливи във VAR. Но този на пръв поглед прост инструмент направи възможно систематичното и вътрешно последователно улавяне на богатата динамика на многовариантните времеви редове, а статистическият инструментариум, който придружава VAR, се оказа удобен и, което е много важно, лесен за тълкуване.

Има три различни модела VAR:

Намалена VAR форма;

Рекурсивен VAR;

Структурна VAR.

И трите са динамични линейни модели, които свързват текущите и миналите стойности на вектора Y t на n-мерен времеви ред. Намалената форма и рекурсивните VAR са статистически модели, които не използват никакви икономически съображения, освен избора на променливи. Тези VAR се използват за описание на данни и прогноза. Структурната VAR включва ограничения, извлечени от макроикономическата теория и тази VAR се използва за структурни изводи и анализ на политиката.

Горната форма на VAR изразява Y t като разпределен минал лаг плюс серийно некорелирана грешка, т.е. тя обобщава едномерната авторегресия в случая на вектори. Математически намалената форма на VAR модела е система от n уравнения, които могат да бъдат записани в матрична форма, както следва:

където  е n l вектор от константи;

A 1 , A 2 , ..., A p са n n матрици на коефициенти;

 t, е nl вектор от серийно некорелирани грешки, за които се приема, че имат средна стойност нула и ковариационна матрица.

Грешките  t , в (17) са неочаквани динамики в Y t , оставащи след отчитане на линейно разпределения лаг на минали стойности.

Оценяването на параметрите на намалената VAR форма е лесно. Всяко от уравненията съдържа едни и същи регресори (Y t–1 ,...,Y t–p) и няма взаимни ограничения между уравненията. По този начин ефективната оценка (метод на максимална вероятност с пълна информация) се опростява до обичайните най-малки квадрати, прилагани към всяко от уравненията. Ковариационната матрица на грешката може да бъде разумно оценена чрез примерната ковариационна матрица, получена от LSM остатъците.

Единствената тънкост е да се определи дължината на изоставането p, но това може да се направи с помощта на информационен критерий като AIC или BIC.

На нивото на матричните уравнения рекурсивната и структурната VAR изглеждат еднакво. Тези два VAR модела изрично вземат предвид едновременните взаимодействия между елементите на Y t , което се равнява на добавяне на едновременен член към дясната страна на уравнение (17). Съответно и рекурсивната, и структурната VAR са представени в следната обща форма:

където  - вектор на константите;

B 0 ,..., B p - матрици;

 t - грешки.

Наличието на матрицата B 0 в уравнението означава възможността за едновременно взаимодействие между n променливи; това означава, че B 0 ви позволява да направите тези променливи, свързани с един и същ момент във времето, дефинирани заедно.

Рекурсивната VAR може да бъде оценена по два начина. Рекурсивната структура дава набор от рекурсивни уравнения, които могат да бъдат оценени с помощта на метода на най-малките квадрати. Еквивалентен метод за оценка е, че уравненията на редуцирана форма (17), разглеждани като система, се умножават отляво по долната триъгълна матрица.

Методът за оценка на структурната VAR зависи от това как точно е идентифициран B 0 . Подходът с частична информация включва използването на методи за оценка с едно уравнение, като двустепенни най-малки квадрати. Пълният информационен подход включва използването на методи за оценка с множество уравнения, като тристепенни най-малки квадрати.

Имайте предвид многото различни видове VAR. Намалената форма на VAR е уникална. Този ред на променливи в Y t съответства на една рекурсивна VAR, но има n! такива поръчки, т.е. н! различни рекурсивни VAR. Броят на структурните VAR - т.е. набори от предположения, които идентифицират едновременни връзки между променливи - е ограничен само от изобретателността на изследователя.

Тъй като матриците на изчислените VAR коефициенти са трудни за директно интерпретиране, резултатите от оценката на VAR обикновено се представят чрез някаква функция на тези матрици. Към такава статистика разлагане на прогнозни грешки.

Разширенията на дисперсията на грешката на прогнозата се изчисляват главно за рекурсивни или структурни системи. Това разлагане на дисперсията показва колко важна е грешката в j-тото уравнение за обяснение на неочакваните промени в i-тата променлива. Когато VAR грешките са уравнено некорелирани, дисперсията на прогнозната грешка за h периоди напред може да бъде записана като сбор от компонентите, произтичащи от всяка от тези грешки /17/.

3.2 Факторен анализ

В съвременната статистика факторният анализ се разбира като набор от методи, които въз основа на реални връзки на характеристики (или обекти) позволяват да се идентифицират латентни обобщаващи характеристики на организационната структура и механизма на развитие на явленията и изследвани процеси.

Концепцията за латентност в определението е ключова. Това означава имплицитност на характеристиките, разкрити чрез методите на факторния анализ. Първо, имаме работа с набор от елементарни характеристики X j , тяхното взаимодействие предполага наличието на определени причини, специални условия, т.е. наличието на някои скрити фактори. Последните се установяват в резултат на обобщаване на елементарни признаци и действат като интегрални характеристики, или признаци, но от по-високо ниво. Естествено, не само тривиалните признаци X j могат да корелират, но и самите наблюдавани обекти N i, така че търсенето на латентни фактори е теоретично възможно както чрез характеристики, така и чрез данни за обекти.

Ако обектите се характеризират с достатъчно голям брой елементарни характеристики (m > 3), тогава е логично и друго предположение - за съществуването на плътни групи от точки (характеристики) в пространството от n обекта. В същото време новите оси обобщават не характеристиките на X j , а съответно обектите n i , а латентните фактори F r ще бъдат разпознати от състава на наблюдаваните обекти:

F r = c 1 n 1 + c 2 n 2 + ... + c N n N,

където c i е теглото на обекта n i във фактора F r .

В зависимост от това кой от видовете корелация, разгледани по-горе - елементарни характеристики или наблюдавани обекти - се изучава във факторния анализ, се разграничават R и Q - технически методи за обработка на данни.

Наименованието на R-техниката е обемен анализ на данни по m признака, в резултат на което се получават r линейни комбинации (групи) от признаци: F r =f(X j), (r=1..m). Анализът според близостта (връзката) на n наблюдавани обекта се нарича Q-техника и ви позволява да определите r линейни комбинации (групи) от обекти: F=f(n i), (i = l .. N).

В момента на практика повече от 90% от проблемите се решават с помощта на R-техники.

Наборът от методи за факторен анализ в момента е доста голям, включва десетки различни подходи и техники за обработка на данни. За да се акцентира върху правилния избор на методите в изследването, е необходимо да се представят техните особености. Ние разделяме всички методи на факторен анализ на няколко класификационни групи:

Метод на главния компонент. Строго погледнато, той не се класифицира като факторен анализ, въпреки че има много общо с него. Специфичното е, на първо място, че в хода на изчислителните процедури се получават едновременно всички основни компоненти, като техният брой първоначално е равен на броя на елементарните характеристики. На второ място, постулирана е възможността за пълно разлагане на дисперсията на елементарни признаци, с други думи, пълното му обяснение чрез латентни фактори (обобщени признаци).

Методи за факторен анализ. Дисперсията на елементарните характеристики не е напълно обяснена тук, признава се, че част от дисперсията остава неразпозната като характеристика. Факторите обикновено се отделят последователно: първият, обясняващ най-големия дял на вариация в елементарните признаци, след това вторият, обясняващ по-малката част от вариацията, вторият след първия скрит фактор, третият и т.н. Процесът на извличане на фактори може да бъде прекъснат на всяка стъпка, ако се вземе решение относно достатъчността на съотношението на обяснената вариация на елементарни характеристики или като се вземе предвид интерпретируемостта на латентни фактори.

Препоръчително е допълнително да се разделят методите на факторния анализ на два класа: опростени и съвременни апроксимиращи методи.

Простите методи за факторен анализ се свързват главно с първоначални теоретични разработки. Те имат ограничени възможности за идентифициране на латентни фактори и приближаване на факторни решения. Те включват:

Еднофакторен модел. Позволява ви да изберете само един общ латентен и един характерен фактор. За евентуално съществуващи други латентни фактори се прави предположение за тяхната незначителност;

двуфакторен модел. Позволява влиянието върху вариацията на елементарните характеристики не на един, а на няколко латентни фактора (обикновено два) и един характерен фактор;

метод на центроида. В него корелациите между променливите се разглеждат като група от вектори, а латентният фактор е геометрично представен като балансиращ вектор, минаващ през центъра на тази група. : Методът ви позволява да идентифицирате няколко латентни и характерни фактора, за първи път става възможно да се съпостави факторното решение с оригиналните данни, т.е. решаване на проблема с приближението в най-проста форма.

Съвременните методи за приближаване често приемат, че първото, приблизително решение вече е намерено чрез някои от методите и това решение се оптимизира чрез последващи стъпки. Методите се различават по сложността на изчисленията. Тези методи включват:

групов метод. Решението се основава на групи от елементарни характеристики, предварително избрани по някакъв начин;

Метод на основните фактори. Той е най-близък до метода на главните компоненти, разликата е в предположението за съществуването на признаци;

Максимална вероятност, минимални остатъци, а-факторен анализ, каноничен факторен анализ, всички оптимизиращи.

Тези методи правят възможно последователното подобряване на предварително намерени решения, базирани на използването на статистически техники за оценка на случайна променлива или статистически критерии, и изискват голямо количество отнемащи време изчисления. Най-обещаващият и удобен за работа в тази група е методът на максималната вероятност.

Основната задача, която се решава чрез различни методи за факторен анализ, включително метода на главните компоненти, е компресирането на информацията, преходът от набор от стойности според m елементарни характеристики с количество информация n x m към ограничено набор от елементи на матрицата за картографиране на факторите (m x r) или матрицата на факторите на скритите стойности за всеки наблюдаван обект с размерност n x r и обикновено r< m.

Методите на факторния анализ също позволяват да се визуализира структурата на изследваните явления и процеси, което означава определяне на тяхното състояние и прогнозиране на тяхното развитие. И накрая, данните от факторния анализ дават основание за идентифициране на обекта, т.е. решаване на проблема с разпознаването на изображения.

Методите на факторния анализ имат свойства, които са много привлекателни за използването им като част от други статистически методи, най-често при корелационно-регресионен анализ, клъстерен анализ, многовариантно скалиране и др. /18/.

3.3 Сдвоена регресия. Вероятностен характер на регресионните модели.

Ако разгледаме проблема с анализирането на разходите за храна в групи с еднакъв доход, например $10 000(x), тогава това е детерминистична стойност. Но Y - делът на тези пари, изразходвани за храна - е случаен и може да се променя от година на година. Следователно за всеки i-ти индивид:

където ε i - случайна грешка;

α и β са константи (теоретично), въпреки че могат да варират от модел на модел.

Предварителни условия за регресия по двойки:

X и Y са линейно свързани;

X е неслучайна променлива с фиксирани стойности;

- ε - грешките са нормално разпределени N(0,σ 2);

- .

Фигура 3.1 показва регресионен модел по двойки.

Фигура 3.1 - Сдвоен регресионен модел

Тези допускания описват класическия модел на линейна регресия.

Ако грешката има ненулева средна стойност, оригиналният модел ще бъде еквивалентен на новия модел и друго прихващане, но с нулева средна стойност за грешката.

Ако предпоставките са изпълнени, тогава оценките на най-малките квадрати и са ефективни линейни безпристрастни оценки

Ако посочим:

фактът, че математическото очакване и дисперсията на коефициентите ще бъде следното:

Ковариация на коефициентите:

Ако тогава те също са нормално разпределени:

От това следва, че:

Вариацията β се определя изцяло от вариацията ε;

Колкото по-голяма е дисперсията на X, толкова по-добра е оценката на β.

Общата дисперсия се определя по формулата:

Дисперсията на отклоненията в тази форма е безпристрастна оценка и се нарича стандартна грешка на регресията. N-2 - може да се тълкува като брой степени на свобода.

Анализът на отклоненията от регресионната линия може да предостави полезна мярка за това колко добре изчислената регресия отразява реалните данни. Добрата регресия е тази, която обяснява значителна част от дисперсията в Y, и обратното, лошата регресия не проследява повечето от колебанията в оригиналните данни. Интуитивно е ясно, че всяка допълнителна информация ще подобри модела, т.е. ще намали необяснимия дял на вариацията Y. За да се анализира регресионният модел, дисперсията се разлага на компоненти и се определя коефициентът на детерминация R 2.

Съотношението на двете дисперсии се разпределя според F-разпределението, т.е. ако проверим за статистическа значимост на разликата между дисперсията на модела и дисперсията на остатъците, можем да заключим, че R 2 е значимо.

Тестване на хипотезата за равенството на дисперсиите на тези две проби:

Ако хипотезата H 0 (равенство на дисперсиите на няколко проби) е вярна, t има F-разпределение с (m 1 ,m 2)=(n 1 -1,n 2 -1) степени на свобода.

След като изчислим F-отношението като отношение на две дисперсии и го сравним с табличната стойност, можем да заключим, че R 2 /2/, /19/ е статистически значим.

Заключение

Съвременните приложения на дисперсионния анализ покриват широк спектър от проблеми в икономиката, биологията и технологиите и обикновено се тълкуват от гледна точка на статистическата теория за разкриване на систематични разлики между резултатите от директни измервания, извършени при определени променящи се условия.

Благодарение на автоматизацията на дисперсионния анализ, изследователят може да провежда различни статистически изследвания с помощта на компютри, като същевременно харчи по-малко време и усилия за изчисления на данни. В момента има много софтуерни пакети, които прилагат апарата за анализ на дисперсията. Най-често срещаните софтуерни продукти са:

Повечето статистически методи са внедрени в съвременни статистически софтуерни продукти. С развитието на езиците за алгоритмично програмиране стана възможно създаването на допълнителни блокове за обработка на статистически данни.

ANOVA е мощен съвременен статистически метод за обработка и анализ на експериментални данни в психологията, биологията, медицината и други науки. Тя е много тясно свързана със специфичната методика за планиране и провеждане на експериментални изследвания.

Дисперсионният анализ се използва във всички области на научните изследвания, където е необходимо да се анализира влиянието на различни фактори върху изследваната променлива.

Библиография

1 Кремер Н.Ш. Теория на вероятностите и математическа статистика. М .: Единство - Дана, 2002.-343s.

2 Гмурман В.Е. Теория на вероятностите и математическа статистика. - М .: Висше училище, 2003.-523s.

4 www.conf.mitme.ru

5 www.pedklin.ru

6 www.webcenter.ru

7 www.infections.ru

8 www.encycl.yandex.ru

9 www.infosport.ru

10 www.medtrust.ru

11 www.flax.net.ru

12 www.jdc.org.il

13 www.big.spb.ru

14 www.bizcom.ru

15 Гусев А.Н. Дисперсионен анализ в експерименталната психология. - М .: Учебен и методически сборник "Психология", 2000.-136s.

17 www.econometrics.exponenta.ru

18 www.optimizer.by.ru

5.1. Какво е дисперсионен анализ?

Дисперсионният анализ е разработен през 20-те години на миналия век от английския математик и генетик Роналд Фишър. Според проучване сред учени, което установи кой е повлиял най-много на биологията на 20-ти век, сър Фишър спечели първенството (за заслугите си той беше удостоен с рицарско звание - едно от най-високите отличия във Великобритания); в това отношение Фишър е сравним с Чарлз Дарвин, който има най-голямо влияние върху биологията през 19 век.

Дисперсионният анализ (Analis of variance) вече е отделен клон на статистиката. Тя се основава на факта, открит от Фишер, че мярката за променливостта на изследваната величина може да бъде разложена на части, съответстващи на факторите, влияещи върху тази величина и случайни отклонения.

За да разберем същността на дисперсионния анализ, ще извършим един и същ тип изчисления два пъти: „ръчно“ (с калкулатор) и с помощта на програмата Statistica. За да опростим задачата си, няма да работим с резултатите от реално описание на разнообразието от зелени жаби, а с измислен пример, който се отнася до сравнението на жените и мъжете при хората.Помислете за разликата във височината на 12 възрастни: 7 жени и 5 мъже.

Таблица 5.1.1. Пример за еднопосочен ANOVA: Данни за пол и височина за 12 души

Нека направим еднопосочен анализ на дисперсията: нека сравним дали мъжете и жените се различават статистически значимо или не в характеризираната група по отношение на височината.

5.2. Тест за нормално разпределение

По-нататъшните разсъждения се основават на факта, че разпределението в разглежданата извадка е нормално или близко до нормалното. Ако разпределението е далеч от нормалното, дисперсията (дисперсията) не е адекватна мярка за неговата променливост. Анализът на дисперсията обаче е относително устойчив на отклонения на разпределението от нормалното.

Тестването на тези данни за нормалност може да се извърши по два различни начина. Първо: Статистика / Основна статистика / Таблици / Описателна статистика / Раздел Нормалност. В разделаНормалност можете да изберете кои тестове за нормално разпределение да използвате. При натискане на бутона Честотни таблици се появява честотната таблица, а на бутоните Хистограми - хистограма. Таблицата и лентовата графика ще показват резултатите от различни тестове.

Вторият метод е свързан с използването на подходящи възможности при конструиране на хистограми. В диалоговия прозорец за изграждане на хистограма (Графики / Хистограми...) изберете раздела Разширени. В долната му част има блок Статистика. Обърнете внимание на това Shapiro-Wilk T est и тест на Колмогоров-Смирнов, както е показано на фигурата.

Ориз. 5.2.1. Статистически тестове за нормално разпределение в диалога за изграждане на хистограма

Както се вижда от хистограмата, разпределението на растежа в нашата извадка се различава от нормалното (в средата - „провал“).


Ориз. 5.2.2. Хистограма, начертана с параметрите, посочени в предишната фигура

Третият ред в заглавието на графиката показва параметрите на нормалното разпределение, което е най-близо до наблюдаваното разпределение. Общата средна стойност е 173, общото стандартно отклонение е 10,4. Вмъкването в долната част на графиката показва резултатите от тестовете за нормалност. D е тестът на Колмогоров-Смирнов, а SW-W е тестът на Шапиро-Уилк. Както може да се види, за всички използвани тестове, разликите в разпределението на растежа от нормалното разпределение се оказаха статистически незначими ( стр във всички случаи по-голям от 0,05).

Така че, формално казано, тестовете за нормално разпределение не ни „забраняват“ да използваме параметричен метод, основан на предположението за нормално разпределение. Както вече споменахме, анализът на дисперсията е относително устойчив на отклонения от нормалното, така че ние все още го използваме.

5.3. Еднопосочна ANOVA: Ръчни изчисления

За да характеризираме променливостта на височината на хората в горния пример, ние изчисляваме сумата от квадратните отклонения (на английски се означава като СС , Сума от квадрати или ) отделни стойности от средната стойност: . Средната стойност на височината в горния пример е 173 сантиметра. Въз основа на това,

СС = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

СС = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

СС = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

Получената стойност (1192) е мярка за променливостта на целия набор от данни. Те обаче се състоят от две групи, за всяка от които е възможно да се разпредели собствена средна стойност. В посочените данни средният ръст на жените е 168 см, а на мъжете - 180 см.

Изчислете сумата на квадратите на отклоненията за жени:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

Ние също така изчисляваме сумата на квадратите на отклоненията за мъжете:

SS m = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

SS m = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

От какво зависи изследваната стойност в съответствие с логиката на дисперсионния анализ?

Две изчислени количества, SS f и SS m , характеризират вътрешногруповата дисперсия, която при анализа на дисперсията обикновено се нарича "грешка". Произходът на това име е свързан със следната логика.

Какво определя височината на човек в този пример? На първо място, от средния ръст на хората като цяло, независимо от техния пол. Второ, от пода. Ако хората от един пол (мъжки) са по-високи от другия (женски), това може да се представи като допълнение към "универсалната" средна стойност на някаква стойност, ефектът на пола. И накрая, хората от един и същи пол се различават по височина поради индивидуалните различия. В рамките на модел, който описва височината като сбор от средната стойност за човека плюс корекция на пола, индивидуалните различия са необясними и могат да се разглеждат като „грешка“.

И така, в съответствие с логиката на дисперсионния анализ, изследваната стойност се определя, както следва: , където xij - i-та стойност на изследваната величина при j-та стойност на изследвания фактор; - обща авария; Fj - влиянието на j-тата стойност на изследвания фактор; - "грешка", приносът на индивидуалността на обекта, към който се отнася стойносттаxij .

Междугрупова сума на квадратите

Така, СС грешки = SS f + SS m = 212 + 560 = 772. С тази стойност описахме вътрешногруповата променливост (при разделяне на групите по пол). Но има и втора част от променливостта - междугрупова, която ще наречемSS ефект (защото говорим за ефекта от разделянето на разглежданото множество обекти на жени и мъже).

Средната стойност на всяка група се различава от общата средна стойност. Когато изчисляваме приноса на тази разлика към общата мярка за променливост, трябва да умножим разликата между групата и общата средна стойност по броя на обектите във всяка група.

SS ефект = = 7x(168-173) 2 + 5x(180-173) 2 = 7x52 + 5x72 = 7x25 + 5x49 = 175 + 245 = 420.

Тук се проявява принципът на постоянството на сумата от квадрати, открит от Фишър: SS = SS ефект + SS грешки , т.е. за този пример 1192 = 440 + 722.

Средни квадратчета

Сравнявайки в нашия пример междугруповите и вътрешногруповите суми на квадратите, можем да видим, че първата е свързана с вариацията на двете групи, а втората - 12 стойности в 2 групи. Брой степени на свобода ( df ) за някакъв параметър може да се определи като разликата между броя на обектите в групата и броя на зависимостите (уравнения), които свързват тези стойности.

В нашия пример df ефект = 2–1 = 1, а df грешки = 12–2 = 10.

Можем да разделим сумите на квадратите на броя на техните степени на свобода, за да получим средните квадрати ( ГОСПОЖИЦА , средства на квадрати). След като направим това, можем да установим това ГОСПОЖИЦА - нищо повече от дисперсии ("дисперсии", резултат от разделяне на сумата от квадратите на броя на степените на свобода). След това откритие можем да разберем структурата на таблицата ANOVA. За нашия пример ще изглежда така.

Ефект

Грешка

MS ефект и MS грешки са оценки на междугруповите и вътрешногруповите дисперсии и следователно могат да бъдат сравнявани според критерияЕ (критерий на Снедекор, кръстен на Фишер), предназначен за сравняване на варианти. Този критерий е просто частното от разделянето на по-голямата дисперсия на по-малката. В нашия случай това е 420 / 77,2 = 5,440.

Определяне на статистическата значимост на теста на Фишер по таблиците

Ако трябваше да определим статистическата значимост на ефекта ръчно, използвайки таблици, ще трябва да сравним получената критериална стойност Е с критични, съответстващи на определено ниво на статистическа значимост за дадени степени на свобода.


Ориз. 5.3.1. Фрагмент от таблицата с критични стойности на критерия Е

Както можете да видите, за нивото на статистическа значимост p=0,05, критичната стойност на критерияЕ е 4,96. Това означава, че в нашия пример ефектът от изследвания пол е записан с ниво на статистическа значимост от 0,05.

Полученият резултат може да се тълкува по следния начин. Вероятността на нулевата хипотеза, според която средният ръст на жените и мъжете е еднакъв, а регистрираната разлика в ръста им се дължи на случайност при формирането на извадките, е под 5%. Това означава, че трябва да изберем алтернативната хипотеза, че средният ръст на жените и мъжете е различен.

5.4. Еднопосочен анализ на дисперсията ( ANOVA) в пакета Statistica

В случаите, когато изчисленията не се правят ръчно, а с помощта на подходящи програми (например пакета Statistica), стойността стр определя автоматично. Вижда се, че е малко по-висока от критичната стойност.

За да анализирате обсъждания пример, като използвате най-простата версия на дисперсионния анализ, трябва да изпълните процедурата Statistics / ANOVA за файла със съответните данни и да изберете опцията One-way ANOVA (еднопосочна ANOVA) в Тип на прозорец за анализ и диалоговия прозорец Бързи спецификации в прозореца Метод на спецификация.


Ориз. 5.4.1. Диалог Общ ANOVA/MANOVA (ANOVA)

В бързия диалогов прозорец, който се отваря, в полето Променливи трябва да посочите онези колони, които съдържат данните, чиято променливост изучаваме (списък със зависими променливи; в нашия случай колоната Растеж), както и колона, съдържаща стойности ​които разделят изследваната стойност на групи (Категоричен предиктор (фактор); в нашия случай колоната Пол). В тази версия на анализа, за разлика от многовариантния анализ, може да се вземе предвид само един фактор.


Ориз. 5.4.2. Еднопосочен ANOVA диалог (еднопосочен анализ на дисперсията)

В прозореца Кодове на факторите трябва да посочите тези стойности на разглеждания фактор, които трябва да бъдат обработени по време на този анализ. Всички налични стойности могат да се видят с помощта на бутона Zoom; ако, както в нашия пример, трябва да вземете предвид всички стойности на факторите (а за пола в нашия пример има само две от тях), можете да щракнете върху бутона Всички. Когато колоните за обработка и факторните кодове са зададени, можете да щракнете върху бутона OK и да отидете до прозореца за бърз анализ за резултатите: ANOVA Results 1, в раздела Quick.

Ориз. 5.4.3. Бързият раздел на прозореца с резултати от ANOVA

Бутонът Всички ефекти/Графики ви позволява да видите как се сравняват средните стойности на двете групи. Над графиката е посочен броят на степените на свобода, както и стойностите на F и p за разглеждания фактор.


Ориз. 5.4.4. Графично показване на резултатите от дисперсионния анализ

Бутонът Всички ефекти ви позволява да получите таблица ANOVA, подобна на описаната по-горе (с някои значителни разлики).


Ориз. 5.4.5. Таблица с резултатите от дисперсионния анализ (сравнете с подобна таблица, получена "ръчно")

Долният ред на таблицата показва сумата от квадрати, броя на степените на свобода и средните квадрати за грешката (променливост в рамките на групата). На реда по-горе - подобни показатели за изследвания фактор (в случая знакът Пол), както и критерия Е (отношението на средните квадрати на ефекта към средните квадрати на грешката) и неговото ниво на статистическа значимост. Фактът, че ефектът от разглеждания фактор се оказа статистически значим, е показан чрез червено подчертаване.

И първият ред показва данни за индикатора „Прихващане“. Това редът на таблицата е загадка за потребителите, които се присъединяват към пакета Statistica в неговата 6-та или по-нова версия. Стойността на Intercept вероятно е свързана с разширяването на сумата от квадрати на всички стойности на данните (т.е. 1862 + 1692 … = 360340). Посочената за него стойност на критерия F се получава чрез разделяне MS Intercept/MS Error = 353220 / 77.2 = 4575.389 и естествено дава много ниска стойност стр . Интересното е, че в Statistica-5 тази стойност изобщо не е изчислена и ръководствата за използване на по-късни версии на пакета не коментират въвеждането му по никакъв начин. Вероятно най-доброто нещо, което може да направи биолог на Statistica-6 и по-късно, е просто да игнорира реда Intercept в таблицата ANOVA.

5.5. ANOVA и критериите на Student и Fisher: кое е по-добро?

Както можете да видите, данните, които сравнихме с помощта на еднопосочен анализ на дисперсията, бихме могли да изследваме и с помощта на тестовете на Стюдънт и Фишер. Нека сравним тези два метода. За да направим това, ние изчисляваме разликата във височината на мъжете и жените, използвайки тези критерии. За да направим това, ще трябва да следваме пътя Статистика / Основна статистика / t-тест, независимо, по групи. Естествено, зависимите променливи са променливата за растеж, а променливата за групиране е променливата за пола.


Ориз. 5.5.1. Сравнение на данните, обработени с помощта на ANOVA, според критериите на Стюдънт и Фишер

Както можете да видите, резултатът е същият като при използване на ANOVA. стр = 0.041874 и в двата случая, както е показано на фиг. 5.4.5 и показано на фиг. 5.5.2 (вижте сами!).


Ориз. 5.5.2. Резултатите от анализа (подробно тълкуване на таблицата с резултати - в параграфа за критерия на Стюдента)

Важно е да се подчертае, че въпреки че критерият F от математическа гледна точка в разглеждания анализ според критериите на Стюдънт и Фишер е същият като при ANOVA (и изразява съотношението на дисперсията), неговото значение в резултатите от анализът, представен от финалната таблица, е напълно различен. При сравняване чрез тестовете на Student и Fisher, сравнението на средните стойности на пробите се извършва по критерия на Student, а сравнението на тяхната променливост се извършва по критерия на Fisher. В резултатите от анализа не се показва самата дисперсия, а нейният квадратен корен - стандартното отклонение.

При анализа на дисперсията, за разлика от това, тестът на Фишър се използва за сравняване на средните стойности на различни извадки (както обсъдихме, това се прави чрез разделяне на сумата от квадрати на части и сравняване на средната сума от квадрати, съответстващи на интер- и интра- групова променливост).

Въпреки това, горната разлика се отнася по-скоро до представянето на резултатите от статистическото изследване, отколкото до неговата същност. Както се посочва например от Glantz (1999, p. 99), сравнението на групи чрез теста на Student може да се разглежда като специален случай на дисперсионен анализ за две извадки.

И така, сравнението на проби според тестовете на Стюдънт и Фишър има едно важно предимство пред анализа на дисперсията: то може да сравнява проби по отношение на тяхната променливост. Но предимствата на ANOVA все още са значителни. Сред тях например е възможността за едновременно сравнение на няколко проби.

Споделете с приятели или запазете за себе си:

Зареждане...