Изчисляване на критерия на Фишер. Функция Fisher в excel и примери за нейната работа

Критерий на Фишер

Критерият на Фишер се използва за тестване на хипотезата, че дисперсиите на две генерални съвкупности са равни, разпределени според нормален закон. Това е параметричен критерий.

F-тестът на Фишер се нарича коефициент на дисперсия, тъй като се формира като съотношение на две сравнени безпристрастни оценки на дисперсии.

Нека в резултат на наблюденията се получат две проби. Въз основа на тях се определят дисперсиите и имайки и степени на свобода. Ще приемем, че първата извадка е взета от генералната съвкупност с дисперсия , а вторият - от генералната съвкупност с дисперсия . Излага се нулевата хипотеза за равенството на двете дисперсии, т.е. H0:
или . За да се отхвърли тази хипотеза, е необходимо да се докаже значимостта на разликата при дадено ниво на значимост.
.

Стойността на критерия се изчислява по формулата:

Очевидно, ако дисперсиите са равни, стойността на критерия ще бъде равна на единица. В други случаи ще бъде по-голямо (по-малко) от едно.

Критерият има разпределение на Фишер
. Тестът на Фишер е двустранен тест и нулевата хипотеза
отхвърлен в полза на алтернатива
ако . Ето къде
са обемите съответно на първата и втората проба.

Системата STATISTICA прилага едностранен тест на Фишер, т.е. както винаги вземете максималната дисперсия. В този случай нулевата хипотеза се отхвърля в полза на алтернативата, ако .

Пример

Нека поставим задачата да сравним ефективността на обучението на две групи ученици. Нивото на напредък характеризира нивото на управление на учебния процес, а дисперсията характеризира качеството на управлението на обучението, степента на организация на учебния процес. И двата индикатора са независими и общ случайтрябва да се разглеждат съвместно. Степента на напредък (математическо очакване) на всяка група ученици се характеризира със средно аритметично и , а качеството се характеризира със съответните извадкови дисперсии на оценките: и . При оценка на нивото на текущото представяне се оказа, че то е еднакво и за двамата ученици: == 4,0. Примерни отклонения:
и
. Броят на степените на свобода, съответстващи на тези оценки:
и
. Следователно, за да установим разликите в ефективността на обучението, можем да използваме стабилността на академичното представяне, т.е. нека проверим хипотезата.

Изчислете
(числителят трябва да има голямо отклонение), . Според таблиците ( СТАТИСТИКАВероятностразпространениекалкулатор) намираме , което е по-малко от изчисленото, следователно нулевата хипотеза трябва да бъде отхвърлена в полза на алтернативата. Това заключение може да не задоволи изследователя, тъй като той се интересува от истинската стойност на съотношението
(винаги имаме голямо отклонение в числителя). При проверка на едностранен критерий получаваме , което е по-малко от изчислената по-горе стойност. Така че нулевата хипотеза трябва да бъде отхвърлена в полза на алтернативата.

Тест на Фишер в програмата STATISTICA в среда на Windows

За пример за тестване на хипотеза (критерий на Фишер), ние използваме (създаваме) файл с две променливи (fisher.sta):

Ориз. 1. Таблица с две независими променливи

За да се провери хипотезата, е необходимо в основните статистики ( ОсновенСтатистикаимаси) изберете тест на Стюдънт за независими променливи. ( t-тест, независим, по променливи).

Ориз. 2. Тестване на параметрични хипотези

След като изберете променливи и натиснете клавиша Резюмеизчисляват се стойностите на стандартните отклонения и теста на Фишер. Освен това се определя нивото на значимост стр, където разликата е незначителна.

Ориз. 3. Резултати от проверката на хипотезата (F-тест)

Използвайки Вероятносткалкулатори като зададете стойността на параметрите, можете да начертаете разпределението на Фишер с маркировка на изчислената стойност.

Ориз. 4. Област на приемане (отхвърляне) на хипотезата (F-критерий)

Източници.

    Тестване на хипотези за връзката на две дисперсии

URL: /tryphonov3/terms3/testdi.htm

    Лекция 6. :8080/resources/math/mop/lections/lection_6.htm

    F - Критерий на Фишер

URL: /home/portal/applications/Multivariatadvisor/F-Fisheer/F-Fisheer.htm

    Теория и практика на вероятностно-статистическите изследвания.

URL: /active/referats/read/doc-3663-1.html

    F - Критерий на Фишер

Значимостта на уравнението на множествената регресия като цяло, както и в сдвоената регресия, се оценява с помощта на критерия на Фишер:

, (2.22)

където
е факторният сбор от квадрати за степен на свобода;
е остатъчната сума от квадрати за степен на свобода;
– коефициент (индекс) на множествена детерминация;
е броят на параметрите за променливите (във линейна регресиясъвпада с броя на факторите, включени в модела); е броят на наблюденията.

Оценява се значимостта не само на уравнението като цяло, но и на фактора, допълнително включен в регресионния модел. Необходимостта от такава оценка се дължи на факта, че не всеки фактор, включен в модела, може значително да увеличи дела на обяснената вариация на резултантния атрибут. Освен това, ако има няколко фактора в модела, те могат да бъдат въведени в модела в различни последователности. Поради корелацията между факторите, значимостта на един и същ фактор може да бъде различна в зависимост от последователността на въвеждането му в модела. Мярката за оценка на включването на фактор в модела е частната
-критерий, т.е. .

Частно
- критерият се базира на съпоставяне на увеличението на факторната дисперсия, дължащо се на влиянието на допълнително включен фактор, с остатъчната дисперсия за една степен на свобода съгл. регресионен моделв общи линии. AT общ изгледза фактора частен
-критериите се определят като

, (2.23)

където
– коефициент на множествена детерминация за модел с пълен набор от фактори,
- същия показател, но без включване на фактора в модела ,е броят на наблюденията,
е броят на параметрите в модела (без свободен член).

Действителната стойност на коефициента
-критерият се сравнява с таблицата на ниво на значимост
и броя на степените на свобода: 1 и
. Ако действителната стойност надвишава
, след това допълнителното включване на фактора в модела е статистически обоснован и нетният регресионен коефициент с фактор статистически значим. Ако действителната стойност по-малко от таблицата, след това допълнително включване в модела на фактора не увеличава значително дела на обяснената вариация на признака следователно е неуместно включването му в модела; коефициентът на регресия за този фактор в този случай е статистически незначим.

За двуфакторно уравнение частните
-критериите изглеждат така:

,
. (2.23a)

С помощта на частен
-test, можете да тествате значимостта на всички регресионни коефициенти при допускането, че всеки съответен фактор въведени в уравнението на множествената регресия последни.

-Тест на ученик за уравнение на множествена регресия.

Частно
-критерий оценява значимостта на коефициентите на чиста регресия. Познавайки величината , възможно е да се определи -критерий за коефициента на регресия при -ти фактор, , а именно:

. (2.24)

Оценка на значимостта на коефициентите на чиста регресия по -Критерият на ученика може да се извърши без изчисляване на частни
- критерии. В този случай, както при двойната регресия, следната формула се използва за всеки фактор:

, (2.25)

където е нетният регресионен коефициент с фактора ,е средната квадратична (стандартна) грешка на регресионния коефициент .

За уравнението множествена регресиясредно аритметично квадратична грешкаКоефициентът на регресия може да се определи по следната формула:

, (2.26)

където ,- стандартно отклонение за характеристиката ,
е коефициентът на определяне за уравнението на множествената регресия,
– коефициент на детерминация за зависимостта на фактора с всички други фактори на уравнението на множествената регресия;
е броят на степените на свобода за остатъчната сума на квадратите на отклоненията.

Както можете да видите, за да използвате тази формула, имате нужда от междуфакторна корелационна матрица и изчисляването на съответните коефициенти на детерминация с помощта на нея
. И така, за уравнението
оценка на значимостта на регресионните коефициенти ,,включва изчисляването на три междуфакторни коефициента на определяне:
,
,
.

Взаимовръзка на показателите на частичния коефициент на корелация, частни
- критерии и -Тестът на Студент за чисти регресионни коефициенти може да се използва в процедурата за избор на фактор. Елиминирането на факторите при конструиране на регресионното уравнение по метода на елиминиране може практически да се извърши не само чрез частични коефициенти на корелация, изключвайки на всяка стъпка фактора с най-малката незначителна стойност на частичния коефициент на корелация, но и чрез стойности и . Частно
-критерият се използва широко при изграждането на модела чрез включване на променливи и метода на стъпаловидна регресия.

В този пример нека разгледаме как се оценява надеждността на полученото регресионно уравнение. Същият тест се използва за проверка на хипотезата, че регресионните коефициенти са нула, a=0, b=0. С други думи, същността на изчисленията е да се отговори на въпроса: може ли да се използва за по-нататъшни анализи и прогнози?

Използвайте този t-тест, за да определите сходството или разликата между дисперсиите в две проби.


И така, целта на анализа е да се получи някаква оценка, с помощта на която би било възможно да се твърди, че при определено ниво на α, полученото регресионно уравнение е статистически надеждно. За това използва се коефициентът на детерминация R 2.
Значимостта на регресионния модел се проверява с помощта на F-теста на Fisher, чиято изчислена стойност се намира като съотношение на дисперсията на първоначалната серия от наблюдения на изследвания показател и безпристрастната оценка на дисперсията на остатъчната последователност за този модел.
Ако изчислената стойност с k 1 =(m) и k 2 =(n-m-1) степени на свобода е по-голяма от табличната стойност при дадено ниво на значимост, тогава моделът се счита за значим.

където m е броят на факторите в модела.
Степен статистическа значимостсдвоената линейна регресия се извършва съгласно следния алгоритъм:
1. Изложена е нулева хипотеза, че уравнението като цяло е статистически незначимо: H 0: R 2 =0 при ниво на значимост α.
2. След това определете действителната стойност на F-критерия:


където m=1 за регресия по двойки.
3. Табличната стойност се определя от таблиците за разпределение на Фишер за дадено ниво на значимост, като се има предвид, че броят на степените на свобода за обща сумаквадрати (по-голяма дисперсия) е 1 и броят на степените на свобода на остатъчната сума от квадрати (по-ниска дисперсия) при линейна регресия е n-2 (или чрез Функция на Excel FDISP(вероятност,1,n-2)).
F таблица е максимално възможната стойност на критерия под влияние на случайни фактори за дадени степени на свобода и ниво на значимост α. Ниво на значимост α - вероятността за отхвърляне на правилната хипотеза, при условие че е вярна. Обикновено α се приема равно на 0,05 или 0,01.
4. Ако действителната стойност на F-критерия е по-малка от стойността на таблицата, тогава те казват, че няма причина да се отхвърли нулевата хипотеза.
В противен случай нулевата хипотеза се отхвърля и алтернативната хипотеза за статистическата значимост на уравнението като цяло се приема с вероятност (1-α).
Таблични стойности на критерия със степени на свобода k 1 =1 и k 2 =48, F таблица = 4

заключения: Тъй като действителната стойност на F > F таблица, коефициентът на определяне е статистически значим ( получената оценка на регресионното уравнение е статистически надеждна) .

Дисперсионен анализ

.

Качествени показатели на регресионното уравнение

Пример. Въз основа на общо 25 търговски предприятия се изследва връзката между знаците: X - цената на стоките А, хил. Рубли; Y - печалба на търговско предприятие, милиони рубли. При оценката на регресионния модел са получени следните междинни резултати: ∑(y i -y x) 2 = 46000; ∑(y i -y sr) 2 = 138000. Какъв показател за корелация може да се определи от тези данни? Изчислете стойността на този индикатор въз основа на този резултат и с помощта F-тест на Fisherнаправи заключение за качеството на регресионния модел.
Решение. Въз основа на тези данни може да се определи емпирична корелация: , където ∑(y cf -y x) 2 = ∑(y i -y cf) 2 - ∑(y i -y x) 2 = 138 000 - 46 000 = 92 000.
η 2 = 92000/138000 = 0,67, η = 0,816 (0,7< η < 0.9 - связь между X и Y высокая).

F-тест на Fisher: n = 25, m = 1.
R 2 = 1 - 46000 / 138000 = 0,67, F = 0,67 / (1-0,67)x (25 - 1 - 1) = 46. F таблица (1; 23) = 4,27
Тъй като действителната стойност на F > Ftabl, намерената оценка на регресионното уравнение е статистически надеждна.

Въпрос: Каква статистика се използва за тестване на значимостта на регресионен модел?
Отговор: За значимостта на целия модел като цяло се използва F-статистика (критерий на Фишер).

Критерий на Фишерви позволява да сравнявате стойностите на вариациите на извадката на две независими извадки. За да изчислите F emp, трябва да намерите съотношението на дисперсиите на две проби, така че по-голямата дисперсия да е в числителя, а по-малката - в знаменателя. Формулата за изчисляване на критерия на Фишер е следната:

където са дисперсиите съответно на първата и втората извадка.

Тъй като според условието на критерия стойността на числителя трябва да бъде по-голяма или равна на стойността на знаменателя, стойността на Femp винаги ще бъде по-голяма или равна на единица.

Броят на степените на свобода също се определя просто:

к 1 =n л - 1 за първата извадка (т.е. за извадката, чиято дисперсия е по-голяма) и к 2 = н 2 - 1 за втората проба.

В Приложение 1 критичните стойности на критерия на Фишер се намират от стойностите k 1 (горния ред на таблицата) и k 2 (лявата колона на таблицата).

Ако t emp >t crit, тогава нулевата хипотеза се приема, в противен случай се приема алтернативата.

Пример 3В двата трети класа десет ученици бяха изследвани за умствено развитие по теста TURMS. Получените средни стойности не се различават значително, но психологът се интересува от въпроса - има ли разлики в степента на хомогенност на показателите за умствено развитие между класовете.

Решение. За критерия на Фишер е необходимо да се сравнят дисперсиите на резултатите от тестовете в двата класа. Резултатите от теста са представени в таблицата:

Таблица 3

Брой студенти

Първи клас

Втори клас

След като изчислим дисперсиите за променливите X и Y, получаваме:

с х 2 =572.83; с г 2 =174,04

Тогава, съгласно формулата (8) за изчисление по критерия F Fisher, намираме:

Съгласно таблицата от Приложение 1 за F критерия със степени на свобода и в двата случая k=10 - 1 = 9 намираме F crit = 3.18 (<3.29), следовательно, в терминах статистических гипотез можно утвер­ждать, что Н 0 (гипотеза о сходстве) может быть отвергнута на уровне 5%, а принимается в этом случае гипотеза Н 1 . Иcследователь может утверждать, что по степени однородности такого показа­теля, как умственное развитие, имеется различие между выбор­ками из двух классов.

6.2 Непараметрични тестове

Сравнявайки на око (в проценти) резултатите преди и след всяка експозиция, изследователят стига до извода, че ако се наблюдават разлики, значи има разлика в сравняваните проби. Подобен подход е категорично неприемлив, тъй като е невъзможно да се определи степента на доверие в разликите в процентите. Процентите, взети сами по себе си, не позволяват да се направят статистически надеждни заключения. За да се докаже ефективността на всяко въздействие, е необходимо да се идентифицира статистически значима тенденция в изместването (изместването) на индикаторите. За да реши такива проблеми, изследователят може да използва редица критерии за разлика. По-долу ще бъдат разгледани непараметрични тестове: знаков тест и хи-квадрат тест.

Споделете с приятели или запазете за себе си:

Зареждане...