Автоматично изчисляване на T тест на ученика. t-тест на разпределение на Стюдънт за проверка на хипотезата за средната стойност и изчисляване на доверителния интервал в MS Excel

Таблица за разпределение на учениците

Интегралните таблици на вероятността се използват за големи извадки от безкрайно големи население. Но вече в (n)< 100 получается Несоответствие между

таблични данни и гранична вероятност; при (n)< 30 погрешность становится значительной. Несоответствие вызывается главным образом характером распределения единиц генеральной совокупности. При большом объеме выборки особенность распределения в гене-

Това няма значение за генералната съвкупност, тъй като разпределението на отклоненията на извадковия показател от общата характеристика с голяма извадка винаги се оказва нормално.

nym. В проби с малък размер (n)< 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из со-

население, което има нормална дистрибуция. Теорията за малките извадки е разработена от английския статистик У. Госет (писал под псевдонима Студент) в началото на 20 век. IN

През 1908 г. той конструира специално разпределение, което позволява, дори с малки извадки, да се съпоставят (t) и доверителната вероятност F(t). За (n) > 100 таблиците за разпределение на Стюдънт дават същите резултати като вероятностните интегрални таблици на Лаплас за 30< (n ) <

100 разлики са незначителни. Следователно на практика малките проби включват проби с обем по-малък от 30 единици (разбира се, проба с обем над 100 единици се счита за голяма).

Използването на малки извадки в някои случаи се дължи на естеството на изследваната популация. По този начин, в развъдната работа, "чистият" опит е по-лесен за постигане на малък брой

парцели. Производствено-икономическият експеримент, свързан с икономически разходи, също се провежда върху малък брой опити. Както вече беше отбелязано, в случай на малка извадка, само за нормално разпределена генерална съвкупност могат да бъдат изчислени както вероятностите за достоверност, така и границите на достоверност на общата средна стойност.

Плътността на вероятността на разпределението на Стюдънт се описва с функция.

1 + t2

f (t ,n) := Bn

n − 1

t - текуща променлива n - размер на извадката;

B е стойност, която зависи само от (n).

Разпределението на Стюдънт има само един параметър: (d.f. ) - броят на степените на свобода (понякога се означава с (k)). Това разпределение, подобно на нормалното, е симетрично спрямо точката (t) = 0, но е по-плоско. С увеличаване на размера на извадката и, следователно, на броя на степените на свобода, разпределението на Student бързо се доближава до нормалното. Броят на степените на свобода е равен на броя на тези индивидуални стойности на характеристиките, които трябва да бъдат

предполагам, че определя желаната характеристика. Така че, за да се изчисли дисперсията, трябва да се знае средната стойност. Следователно, когато се изчислява дисперсията, се използва (d.f.) = n - 1.

Таблиците за разпределение на учениците са публикувани в две версии:

1. подобно на таблиците на вероятностния интеграл, стойностите ( t) и

кумулативни вероятности F(t) за различен брой степени на свобода;

2. стойностите (t) са дадени за най-често използваните доверителни вероятности

0,70; 0,75; 0,80; 0,85; 0,90; 0,95 и 0,99 или за 1 - 0,70 = 0,3; 1 - 0,80 = 0,2; …… 1 - 0,99 = 0,01.

3. с различен брой степени на свобода. Такава таблица е дадена в приложението.

(Таблица 1 - 20), както и стойността (t) - тест на Стюдънт при ниво на значимост 0,7

Тестването на статистическа хипотеза ви позволява да направите строго заключение относно характеристиките на общата съвкупност въз основа на извадкови данни. Хипотезите са различни. Една от тях е средната хипотеза ( математическо очакване). Същността му е да се направи правилен извод за това къде общата средна стойност може или не може да се основава само на наличната извадка (никога няма да разберем точната истина, но можем да стесним кръга на търсене).

Общият подход за тестване на хипотези е описан, така че направо към точката. Да приемем първо, че извадката е взета от нормален набор от случайни променливи хс обща авария μ и дисперсия σ2(Знам, знам, че това не се случва, но не е нужно да ме прекъсвате!). Средната аритметична стойност на тази извадка очевидно сама по себе си е случайна променлива. Ако извлечем много такива проби и изчислим средните за тях, тогава те също ще имат с математическото очакване μ И

Тогава произволна стойност

Възниква въпросът дали общата средна стойност с вероятност от 95% ще бъде в рамките на ±1,96 s x̅. С други думи, това са разпределенията на случайни променливи

еквивалентен.

За първи път този въпрос беше повдигнат (и разрешен) от химик, който работеше във фабриката за бира Гинес в Дъблин (Ирландия). Името на химика беше Уилям Сийли Госет и той взе проби от бира за химически анализ. В някакъв момент, очевидно, Уилям започна да изпитва смътни съмнения относно разпределението на средните стойности. Оказа се, че е малко по-разпръснат, отколкото трябва да бъде нормалното разпределение.

След като събра математическа обосновка и изчисли стойностите на откритата от него функция на разпределение, дъблинският химик Уилям Госет написа бележка, която беше публикувана в изданието от март 1908 г. на списание Biometrics (главен редактор - Карл Пиърсън) . защото Гинес категорично забранява разкриването на тайните на пивоварството, Госет се подписва с псевдонима Student.

Въпреки факта, че К. Пиърсън вече е изобретил разпределението, въпреки това общата идея за нормалност все още доминира. Никой нямаше да си помисли, че разпределението на извадковите оценки може да не е нормално. Поради това статията на У. Госет остава практически незабелязана и забравена. И само Роналд Фишър оцени откритието на Госет. Фишер използва новото разпределение в работата си и му дава името t-разпределение на Стюдънт. Критерият за проверка на хипотезите, съответно, стана t-тест на Стюдънт. Така имаше "революция" в статистиката, която навлезе в ерата на анализа на извадкови данни. Това беше кратко отклонение в историята.

Да видим какво може да види W. Gosset. Нека генерираме 20 хиляди нормални проби от 6 наблюдения със средна стойност ( Х) 50 и стандартно отклонение ( σ ) 10. След това нормализираме примерните средства, използвайки обща дисперсия:

Групираме получените 20 хиляди средни стойности в интервали с дължина 0,1 и изчисляваме честотите. Нека начертаем действителното (Norm) и теоретичното (ENorm) честотно разпределение на извадковите средни стойности върху диаграма.

Точките (наблюдавани честоти) почти съвпадат с линията (теоретични честоти). Това е разбираемо, тъй като данните са взети от една и съща генерална съвкупност и разликите са просто грешки в извадката.

Нека направим нов експеримент. Ние нормализираме средните стойности, използвайки дисперсия на извадката.

Нека преброим отново честотите и ги начертаем на диаграмата като точки, оставяйки линията на стандартното нормално разпределение за сравнение. Нека обозначим емпиричната честота на средните, да речем, чрез буквата T.

Вижда се, че разпределенията този път не са много сходни. Близо, да, но не е същото. Опашките са станали по-"тежки".

Gosset-Student нямаше най-новата версия на MS Excel, но точно този ефект забеляза. Защо е така? Обяснението е, че случайната променлива

зависи не само от грешката на извадката (числител), но и от стандартната грешка на средната стойност (знаменател), която също е случайна променлива.

Нека да разберем малко какво разпределение трябва да има такава случайна променлива. Първо, трябва да запомните (или да научите) нещо от математическата статистика. Има такава теорема на Фишер, която казва, че в извадка от нормално разпределение:

1. среден Хи дисперсия на извадката s2са независими величини;

2. Съотношението на извадката и общата дисперсия, умножено по броя на степените на свобода, има разпределение χ 2(хи-квадрат) със същия брой степени на свобода, т.е.

Където к- броят на степените на свобода (на английски градуса на свободата (d.f.))

Много други резултати в статистиката на нормалните модели се основават на този закон.

Да се ​​върнем към разпределението на средната стойност. Разделете числителя и знаменателя на израза

На σX̅. Вземете

Числителят е стандартна нормална случайна променлива (означаваме ξ (xi)). Знаменателят може да бъде изразен от теоремата на Фишер.

Тогава оригиналният израз ще приеме формата

Това е в общи линии (коефициент на студент). Вече е възможно директно да се изведе разпределителната му функция, т.к разпределенията на двете случайни променливи в този израз са известни. Нека оставим това удоволствие на математиците.

Функцията t-разпределение на Стюдънт има формула, която е доста трудна за разбиране, така че няма смисъл да я анализираме. Както и да е, никой не го използва, т.к. вероятностите са дадени в специални таблици на разпределението на Стюдънт (понякога наричани таблици на коефициентите на Стюдънт) или са въведени във формули на PC.

Така че, въоръжени с нови знания, ще можете да разберете официалната дефиниция на разпределението на Student.
Случайна променлива, подчиняваща се на разпределението на Student с кстепените на свобода са отношението на независими случайни променливи

Където ξ разпределени според стандартния нормален закон, и χ 2kподлежат на разпространение χ 2° С кстепени на свобода.

Така формулата за критерия на Стюдънт за средно аритметично

Има специален случай на връзката студент

От формулата и определението следва, че разпределението на t-критерия на Стюдънт зависи само от броя на степените на свобода.

При к> 30 t-тест практически не се различава от стандартното нормално разпределение.

За разлика от хи-квадрат, t-тестът може да бъде едностранен или двустранен. Обикновено се използва двустранно, като се приема, че отклонението може да възникне и в двете посоки от средната стойност. Но ако условието на задачата позволява отклонение само в една посока, тогава е разумно да се приложи едностранен критерий. Това леко увеличава мощността, т.к. при фиксирано ниво на значимост критичната стойност леко се доближава до нула.

Условия за прилагане на t-критерия на Стюдънт

Въпреки факта, че откритието на Студент навремето направи революция в статистиката, t-тестът все още е доста ограничен в своята приложимост, т.к. идва от предположението за нормално разпределение на оригиналните данни. Ако данните не са нормални (което обикновено е така), тогава t-тестът вече няма да има разпределение на Стюдънт. Въпреки това, поради действието на централната гранична теорема, средната стойност, дори за ненормални данни, бързо придобива камбанообразно разпределение.

Помислете например за данни, които имат ясно изразено изкривяване надясно, като разпределение хи-квадрат с 5 степени на свобода.

Сега нека създадем 20 хиляди проби и да наблюдаваме как разпределението на средствата се променя в зависимост от техния размер.

Разликата е доста забележима в малки извадки до 15–20 наблюдения. Но след това бързо изчезва. По този начин ненормалността на разпределението, разбира се, не е добра, но не е критична.

Най-вече t-критерият се „страхува“ от извънредни стойности, т.е. необичайни отклонения. Нека вземем 20 хиляди нормални извадки от 15 наблюдения и добавим едно произволно отклонение към някои от тях.

Картината е нещастна. Действителните честоти на средните стойности са много различни от теоретичните. Използването на t-разпределението в такава ситуация се превръща в много рисковано начинание.

Така че в не много малки извадки (от 15 наблюдения) t-тестът е относително устойчив на ненормалното разпределение на първоначалните данни. Но отклоненията в данните силно изкривяват разпределението на t-теста, което от своя страна може да доведе до грешки в статистическите изводи, така че аномалните наблюдения трябва да бъдат елиминирани. Често всички стойности, които са извън ±2 стандартни отклонения от средната стойност, се премахват от пробата.

Пример за проверка на хипотезата за математическото очакване с помощта на t-тест на Стюдънт в MS Excel

Excel има няколко функции, свързани с t-разпределението. Нека ги разгледаме.

STUDENT.DIST - "класическо" ляво t-разпределение на Student. Входът е стойността на t-критерия, броя на степените на свобода и опцията (0 или 1), която определя какво трябва да се изчисли: плътността или стойността на функцията. На изхода получаваме съответно плътността или вероятността случайната променлива да бъде по-малка от t-критерия, посочен в аргумента.

STUDENT.DIST.2X - двупосочно разпределение. Като аргумент се дава абсолютната стойност (по модул) на t-критерия и броят на степените на свобода. На изхода получаваме вероятността да получим тази или дори повече стойност на t-критерия, т.е. действително ниво на значимост (p-ниво).

STUDENT.DIST.RH - дясно t-разпределение. И така, 1-STUDENT.DIST(2;5;1) = STUDENT.DIST.PX(2;5) = 0,05097. Ако t-тестът е положителен, тогава получената вероятност е p-ниво.

STUDENT.INV - използва се за изчисляване на лявата реципрочна стойност на t-разпределението. Аргументът е вероятността и броят на степените на свобода. На изхода получаваме стойността на t-критерия, съответстващ на тази вероятност. Вероятността се брои отляво. Следователно самото ниво на значимост е необходимо за лявата опашка α , а за дясно 1 - α .

STUDENT.ORD.2X е реципрочната стойност на двустранното разпределение на Стюдънт, т.е. t-тест стойност (по модул). Нивото на значимост също се дава като вход. α . Само че този път обратното броене е от двете страни едновременно, така че вероятността е разпределена между две опашки. И така, STUDENT.OBR (1-0,025; 5) \u003d STUDENT. OBR. 2X (0,05; 5) \u003d 2,57058

STUDENT.TEST е функция за проверка на хипотезата за равенството на математическите очаквания в две извадки. Замества куп изчисления, т.к. достатъчно е да посочите само два диапазона с данни и още няколко параметъра. Изходът е p-ниво.

ДОВЕРИЕ НА СТУДЕНТА - изчисляване на доверителния интервал на средната стойност, като се вземе предвид t-разпределението.

Нека разгледаме такъв пример за обучение. Фирмата пакетира цимент в чували по 50 кг. По случайност в единична торба се допуска известно отклонение от очакваната маса, но общата средна стойност трябва да остане 50 кг. Отделът за контрол на качеството претегли на случаен принцип 9 торби и получи следните резултати: средно тегло ( Х) възлиза на 50,3 kg, стандартното отклонение ( с) - 0,5 кг.

Резултатът съответства ли на нулевата хипотеза, че общата средна стойност е 50 kg? С други думи, възможно ли е да се получи такъв резултат по чиста случайност, ако оборудването работи правилно и дава среден пълнеж от 50 кг? Ако хипотезата не е отхвърлена, тогава получената разлика се вписва в обхвата на случайни колебания, но ако хипотезата е отхвърлена, тогава най-вероятно е възникнала повреда в настройките на апарата, който пълни торбите. Трябва да се провери и настрои.

Кратко условие в общоприетата нотация изглежда така.

H0: μ = 50 кг

H1: μ ≠ 50 кг

Има основания да се приеме, че разпределението на заетостта на багажа следва нормално разпределение (или не се различава много от него). Така че, за да тествате хипотезата за математическото очакване, можете да използвате t-теста на Стюдънт. Случайни отклоненияможе да възникне във всяка посока, така че е необходим двустранен t-тест.

Първо, прилагаме допотопни средства: ръчно изчисляване на t-теста и сравняването му с критична стойност от таблицата. Изчислен t-тест:

Сега нека определим дали полученото число надхвърля критичното ниво на нивото на значимост α = 0,05. Нека използваме таблицата на t-разпределението на Стюдънт (достъпна във всеки учебник по статистика).

Колоните показват вероятността от дясната страна на разпределението, редовете показват броя на степените на свобода. Интересуваме се от двустранен t-тест с ниво на значимост 0,05, което е еквивалентно на t-стойността за половината от нивото на значимост вдясно: 1 - 0,05 / 2 = 0,975. Броят на степените на свобода е размерът на извадката минус 1, т.е. 9 - 1 = 8. В пресечната точка намираме табличната стойност на t-теста - 2,306. Ако използваме стандартното нормално разпределение, тогава критична точкаще има стойност 1,96, но тук е повече, защото t-разпределението върху малки проби има по-плоска форма.

Сравняваме действителната (1,8) и табличната стойност (2,306). Изчисленият критерий се оказа по-малък от табличния. Следователно наличните данни не противоречат на хипотезата H 0, че общата средна стойност е 50 kg (но не я доказват). Това е всичко, което можем да разберем с помощта на таблиците. Можете, разбира се, да опитате да намерите p-ниво, но то ще бъде приблизително. И като правило p-нивото се използва за проверка на хипотези. Така че нека да преминем към Excel.

В Excel няма готова функция за изчисляване на t-теста. Но това не е страшно, защото формулата на t-теста на Student е доста проста и може лесно да бъде построена направо в клетка на Excel.

Имам същия 1.8. Нека първо намерим критичната стойност. Взимаме алфа 0,05, критерият е двустранен. Нуждаем се от функция на обратната стойност на t-разпределението за двустранната хипотеза STUDENT.OBR.2X.

Получената стойност отрязва критичната област. Наблюдаваният t-тест не попада в него, така че хипотезата не се отхвърля.

Това обаче е същият начин за тестване на хипотеза с таблична стойност. Ще бъде по-информативно да се изчисли p-нивото, т.е. вероятността за получаване на наблюдаваното или дори по-голямо отклонение от средната стойност от 50 kg, ако тази хипотеза е вярна. Ще ви е необходима функция за разпределение на Student за двустранната хипотеза STUDENT.DIST.2X.

P-нивото е равно на 0,1096, което е повече от допустимото ниво на значимост от 0,05 - ние не отхвърляме хипотезата. Но сега можем да преценим степента на доказателства. Р-нивото се оказа доста близко до нивото, когато хипотезата се отхвърля и това навежда на различни мисли. Например, че извадката е твърде малка, за да открие значително отклонение.

Да предположим, че след известно време контролният отдел отново реши да провери как се поддържа стандартът за пълнене на торбата. Този път за по-голяма надеждност бяха избрани не 9, а 25 торби. Интуитивно е ясно, че разпространението на средната стойност ще намалее и следователно шансовете за намиране на повреда в системата стават по-големи.

Да кажем, че същите стойности на средната стойност и стандартното отклонение за пробата са получени като първия път (съответно 50,3 и 0,5). Нека изчислим t-теста.


Критичната стойност за 24 степени на свобода и α = 0,05 е 2,064. Картината по-долу показва, че t-тестът попада в областта на отхвърлянето на хипотезата.

Може да се заключи, че с доверителна вероятност над 95% общата средна стойност се различава от 50 кг. За да бъдем по-убедителни, нека разгледаме p-ниво (последния ред в таблицата). Вероятността да се получи средна стойност с това или дори по-голямо отклонение от 50, ако хипотезата е вярна, е 0,0062 или 0,62%, което е почти невъзможно с едно измерване. Като цяло отхвърляме хипотезата като малко вероятна.

Изчисляване на доверителен интервал с помощта на t-разпределението на Student

Тясно свързано с тестването на хипотези е друго статистически методизчисляване на доверителни интервали. Ако стойността, съответстваща на нулевата хипотеза, попада в получения интервал, това е еквивалентно на факта, че нулевата хипотеза не е отхвърлена. В противен случай хипотезата се отхвърля със съответното ниво на достоверност. В някои случаи анализаторите изобщо не тестват хипотези класическа форма, но се изчисляват само доверителните интервали. Този подход ви позволява да извлечете още повече полезна информация.

Нека изчислим доверителните интервали за средната стойност при 9 и 25 наблюдения. За това използваме Функция на ExcelДОВЕРИЕ.УЧЕНИК. Тук, колкото и да е странно, всичко е съвсем просто. В аргументите на функцията трябва да посочите само нивото на значимост α , стандартно отклонениепо извадка и размер на извадката. На изхода получаваме полуширината на доверителния интервал, т.е. стойността, която трябва да бъде отделена от двете страни на средната стойност. След като направим изчисленията и начертаем визуална диаграма, получаваме следното.

Както можете да видите, с извадка от 9 наблюдения, стойността 50 попада в доверителен интервал(хипотезата не се отхвърля), а при 25 наблюдения не пада (хипотезата се отхвърля). В същото време в експеримента с 25 торби може да се твърди, че с вероятност от 97,5% общата средна стойност надвишава 50,1 kg (долната граница на доверителния интервал е 50,094 kg). И това е доста ценна информация.

Така решихме същия проблем по три начина:

1. Древен подход, сравняващ изчислената и табличната стойност на t-критерия
2. По-модерен, чрез изчисляване на p-нивото, добавяйки степен на увереност при отхвърляне на хипотезата.
3. Още по-информативен чрез изчисляване на доверителния интервал и получаване на минималната стойност на общата средна стойност.

Важно е да запомните, че t-тестът се отнася за параметрични методи, защото въз основа на нормално разпределение (има два параметъра: средна стойност и дисперсия). Ето защо за успешното му прилагане са важни поне приблизителната нормалност на изходните данни и липсата на отклонения.

И накрая, предлагам да гледате видеоклип за това как да извършите изчисления, свързани с t-теста на Student в Excel.

В хода на примера ще използваме фиктивна информация, за да може читателят сам да направи необходимите трансформации.

Така например, в хода на изследването, ние проучихме ефекта на лекарството А върху съдържанието на вещество B (в mmol / g) в тъкан C и концентрацията на вещество D в кръвта (в mmol / l) при пациенти разделени по някакъв критерий Е на 3 групи с еднакъв обем (n = 10). Резултатите от това фиктивно изследване са показани в таблицата:

Съдържание на вещество Б, mmol/g

Вещество D, mmol/l

повишаване на концентрацията


Искаме да ви предупредим, че проби от размер 10 се разглеждат от нас за по-лесно представяне на данни и изчисления; на практика такъв размер на извадката обикновено не е достатъчен за формиране на статистическо заключение.

Като пример, разгледайте данните от 1-вата колона на таблицата.

Описателна статистика

извадкова средна стойност

Средната аритметична стойност, която много често се нарича просто "средна", се получава чрез добавяне на всички стойности и разделяне на тази сума на броя на стойностите в набора. Това може да се покаже с помощта на алгебрична формула. Набор от n наблюдения на променлива x може да бъде представен като x 1 , x 2 , x 3 , ..., x n

Формулата за определяне на средноаритметичната стойност на наблюденията (произнася се "X с тире"):

\u003d (X 1 + X 2 + ... + X n) / n

= (12 + 13 + 14 + 15 + 14 + 13 + 13 + 10 + 11 + 16) / 10 = 13,1;

Дисперсия на извадката

Един от начините за измерване на разсейването на данните е да се определи доколко всяко наблюдение се отклонява от средната аритметична стойност. Очевидно, колкото по-голямо е отклонението, толкова по-голяма е променливостта, променливостта на наблюденията. Не можем обаче да използваме средната стойност на тези отклонения като мярка за дисперсия, тъй като положителните отклонения компенсират отрицателните отклонения (сумата им е нула). За да разрешим този проблем, ние повдигаме на квадрат всяко отклонение и намираме средната стойност на квадратите на отклоненията; това количество се нарича вариация или дисперсия. Направете n наблюдения x 1, x 2, x 3, ..., x n, средно което е равно на. Изчисляваме дисперсията този, обикновено наричанs2,тези наблюдения:

Дисперсията на извадката на този показател е s 2 = 3,2.

Стандартно отклонение

Стандартното (средно квадратно) отклонение е положително Корен квадратенот дисперсия. Например, n наблюдения изглежда така:

Можем да мислим за стандартното отклонение като нещо като средно отклонение на наблюденията от средната стойност. Изчислява се в същите единици (измерения) като оригиналните данни.

s = sqrt (s 2) = sqrt (3.2) = 1.79.

Коефициентът на вариация

Ако разделите стандартното отклонение на средноаритметичното и изразите резултата като процент, получавате коефициента на вариация.

CV = (1,79 / 13,1) * 100% = 13,7

Примерна средна грешка

1,79/sqrt(10) = 0,57;

Коефициент на Стюдънт t (t-тест за една извадка)

Използва се за проверка на хипотезата за разликата между средната стойност и някои известна стойностм

Броят на степените на свобода се изчислява като f=n-1.

В този случай доверителният интервал за средната стойност е между границите от 11,87 и 14,39.

За ниво ниво на увереност 95% m=11,87 или m=14,39, т.е. = |13,1-11,82| = |13.1-14.38| = 1,28

Съответно, в този случай, за броя на степените на свобода f = 10 - 1 = 9 и ниво на достоверност от 95% t = 2,26.

Диалог Основни статистики и таблици

В модула Основни статистики и таблициизбирам Описателна статистика.

Ще се отвори диалогов прозорец Описателна статистика.

В полето Променливиизбирам Група 1.

Натискане Добре, получаваме таблици с резултати с описателна статистика на избраните променливи.

Ще се отвори диалогов прозорец t-тест за една проба.

Да предположим, че знаем, че средното съдържание на вещество B в тъкан C е 11.

Таблицата с резултати с описателна статистика и t-тест на Стюдънт е както следва:

Трябваше да отхвърлим хипотезата, че средното съдържание на вещество B в тъкан C е 11.

Тъй като изчислената стойност на критерия е по-голяма от табличната (2.26), нулевата хипотеза се отхвърля при избраното ниво на значимост и разликите между извадката и известната стойност се признават за статистически значими. По този начин изводът за наличието на различия, направен чрез критерия на Стюдънт, се потвърждава с помощта на този метод.

t-тестът на Стюдънт е общо наименование за клас методи статистическа проверкахипотези (статистически тестове) базирани на разпределението на Стюдънт. Най-честите случаи на прилагане на t-теста са свързани с проверка на равенството на средните в две извадки.

1. История на развитието на t-теста

Този критерий беше разработен Уилям Госетза оценка на качеството на бирата в Гинес. Във връзка със задълженията към компанията да не разкрива търговски тайни, статията на Госет е публикувана през 1908 г. в списание Biometrics под псевдонима "Студент" (Student).

2. За какво се използва t-тестът на Стюдънт?

За определяне се използва t-тест на Стюдънт статистическа значимостразлики в средните стойности. Може да се използва както в случаите на сравняване на независими проби ( например групи пациенти със захарен диабет и групи здрави), и когато сравнявате свързани набори ( например средна сърдечна честота при едни и същи пациенти преди и след приема на антиаритмично лекарство).

3. Кога може да се използва t-тестът на Стюдънт?

За прилагане на t-теста на Стюдънт е необходимо оригиналните данни да са налице нормална дистрибуция. В случай на прилагане на тест с две проби за независими проби е необходимо също така да се изпълни условието равенство (хомоскедастичност) на вариациите.

Ако тези условия не са изпълнени, когато се сравняват средните стойности на извадката, трябва да се използват подобни методи. непараметрична статистика, сред които най-известните са U-тест на Ман-Уитни(като тест с две проби за независими проби), и критерий за знакИ Тест на Wilcoxon(използва се в случаи на зависими проби).

4. Как се изчислява t-теста на Стюдънт?

За да се сравнят средните стойности, t-тестът на Student се изчислява по следната формула:

Където М 1- средно аритметично на първата сравнена популация (група), М 2- средно аритметично на втората сравнявана популация (група), m 1 - средна грешкапърво средно аритметично, м2- средната грешка на второто средно аритметично.

5. Как да интерпретираме стойността на t-теста на Стюдънт?

Получената стойност на t-теста на Стюдънт трябва да се интерпретира правилно. За да направим това, трябва да знаем броя на субектите във всяка група (n 1 и n 2). Намиране на броя на степените на свобода fпо следната формула:

f \u003d (n 1 + n 2) - 2

След това определяме критичната стойност на t-теста на Стюдънт за необходимото ниво на значимост (например p=0,05) и за даден брой степени на свобода fспоред таблицата ( виж отдолу).

Сравняваме критичните и изчислените стойности на критерия:

  • Ако изчислената стойност на t-теста на Student равен или по-голямкритични, намерени в таблицата, заключаваме, че разликите между сравняваните стойности са статистически значими.
  • Ако стойността на изчисления t-тест на Student по-малкотабличен, което означава, че разликите между сравняваните стойности не са статистически значими.

6. Пример за изчисляване на t-критерия на Стюдънт

За изследване на ефективността на нов препарат с желязо бяха избрани две групи пациенти с анемия. В първата група пациентите получиха ново лекарствоа втората група е получила плацебо. След това се измерва нивото на хемоглобина в периферната кръв. В първата група средното ниво на хемоглобина е 115,4±1,2 g/l, а във втората - 103,7±2,3 g/l (данните са представени във формат M±m), сравняваните популации имат нормално разпределение. Броят на първата група е 34, а на втората - 40 пациенти. Необходимо е да се направи заключение за статистическата значимост на получените разлики и ефективността на новия железен препарат.

Решение:За да оценим значимостта на разликите, използваме t-теста на Стюдънт, изчислен като разликата между средните стойности, разделена на сумата от квадратите на грешките:

След извършване на изчисленията стойността на t-теста е равна на 4,51. Намираме броя на степените на свобода като (34 + 40) - 2 = 72. Сравняваме получената стойност на t-теста на Student 4.51 с критичната стойност при p=0.05, посочена в таблицата: 1.993. Тъй като изчислената стойност на критерия е по-голяма от критичната стойност, ние заключаваме, че наблюдаваните разлики са статистически значими (ниво на значимост p<0,05).

Споделете с приятели или запазете за себе си:

Зареждане...