Интервална оценка на коефициента на корелация. Тест: Оценяване на значимостта на регресията и коефициентите на корелация с помощта на f-тест на Стюдънт

Пълна версияТази бележка (с формули и таблици) може да бъде изтеглена от тази страница в PDF формат. Текстът на самата страница е резюмесъдържанието на тази бележка и най-важните заключения.

Посвещава се на оптимистите от статистиката

Коефициентът на корелация (CC) е един от най-простите и най-много популярна статистикахарактеризиращи връзката между случайните величини. В същото време QC държи лидерството в броя на погрешните и просто безсмислени заключения, направени с негова помощ. Тази ситуация се дължи на установената практика за представяне на материали, свързани с корелация и корелационни зависимости.

Големи, малки и "междинни" стойности на QC

При разглеждането на корелацията се обсъждат подробно понятията „силна“ (почти единична) и „слаба“ (почти нулева) корелация, но на практика нито едното, нито другото не се срещат. В резултат на това въпросът за разумното тълкуване на „междинните“ стойности на QC, които са често срещани в практиката, остава неясен. Коефициент на корелация, равен на 0.9 или 0.8 , начинаещият е оптимист и по-малките стойности го объркват.

С натрупването на опит оптимизмът расте и сега QC е равен на 0.7 или 0.6 радва изследователя, а ценностите вдъхват оптимизъм 0.5 и 0.4 . Ако изследователят е запознат с методите на тестване статистически хипотези, тогава прагът на „добрите“ стойности на QC пада до 0.3 или 0.2 .

Наистина, кои стойности на QC вече могат да се считат за „достатъчно големи“ и кои остават „твърде малки“? На този въпрос има два диаметрално противоположни отговора – оптимистичен и песимистичен. Помислете първо за оптимистичния (най-популярния) отговор.

Значение на коефициента на корелация

Този вариант на отговор ни дава класическата статистика и е свързан с понятието статистическа значимост QC. Тук ще разгледаме само ситуацията, когато представлява интерес положителна корелация (случаят на отрицателна корелация е напълно аналогичен). По-сложен случай, когато се проверява само наличието на корелация, без да се взема предвид знакът, е относително рядък на практика.

Ако за QC rнеравенството r > r e (n), тогава казваме, че KK статистически значимна ниво на значимост д. Тук re(n)-- квантил, по отношение на който се интересуваме само от факта, че при фиксирано ниво на значимост e стойността му клони към нула с увеличаване на дължината нпроби. Оказва се, че чрез увеличаване на масива от данни е възможно да се постигне статистическата значимост на QC дори при много малките му стойности. В резултат на това, при достатъчно голяма извадка, има изкушение да се признае съществуването в случай на QC, равен, например, 0.06 . въпреки това, здрав разумпредполага, че заключението за наличието на значима корелация с r=0,06не може да бъде вярно за какъвто и да е размер на извадката. Остава да разберем естеството на грешката. За да направите това, разгледайте концепцията за статистическа значимост по-подробно.

Както обикновено, при тестване на статистически хипотези, смисълът на извършените изчисления се крие в избора на нулевата хипотеза и алтернативната хипотеза. Когато се тества значимостта на QC, нулевата хипотеза се приема като предположение ( r = 0 )при алтернативната хипотеза ( r > 0 )(припомнете си, че тук разглеждаме само ситуацията, когато представлява интерес положителна корелация). Произволно избрано ниво на значимост допределя вероятността от т.нар. Грешки от тип I, когато нулевата хипотеза е вярна ( r=0), но се отхвърля от статистическия тест (т.е. тестът погрешно разпознава съществуването на значима корелация). Избирайки нивото на значимост, ние гарантираме малка вероятност за такава грешка, т.е. ние сме почти имунизирани срещу факта, че за независими проби ( r=0) погрешно разпознават наличието на корелация ( r > 0). Грубо казано, значимостта на коефициента на корелация означава само, че е много вероятно той да бъде различен от нула.

Ето защо размерът на извадката и големината на QC взаимно се компенсират - големите проби просто позволяват по-голяма точност при локализирането на малка QC чрез оценката на извадката.

Ясно е, че концепцията за значимост не отговаря на първоначалния въпрос за разбирането на категориите „голям/малък“ във връзка със стойностите на QC. Отговорът, даден от теста за значимост, не ни казва нищо за свойствата на корелацията, а само ни позволява да проверим дали неравенството е изпълнено с голяма вероятност r > 0. В същото време самата CC стойност съдържа много по-значима информация за свойствата на корелацията. Наистина, еднакво значимите КК са равни на 0.1 и 0.9 , се различават значително по степента на тежест на съответната корелация и твърдението за значимостта на QC r = 0,06за практиката е абсолютно безполезно, тъй като за какъвто и да е размер на извадката тук няма нужда да говорим за някаква корелация.

И накрая, можем да кажем, че на практика никакви свойства на корелационната връзка и дори самото й съществуване не следват от значението на коефициента на корелация. От гледна точка на практиката, самият избор на алтернативна хипотеза, използвана при тестване на значимостта на QC, е погрешен, тъй като случаите r=0и r>0на малки rпрактически неразличими.

Всъщност, когато от значение на QCизвод за съществуване значителна корелация, произвеждат напълно безсрамна подмяна на понятия, основана на семантичната двусмисленост на думата "значимост". Значението на QC (ясно дефинирано понятие) е измамно превърнато в „значима корелация“, а тази фраза, която няма строга дефиниция, се тълкува като синоним на „изразена корелация“.

Разцепване на дисперсията

Нека разгледаме друга версия на отговора на въпроса за "малки" и "големи" стойности на QC. Този отговор е свързан с изясняването на регресионното значение на КК и се оказва много полезен за практиката, въпреки че е много по-малко оптимистичен от критериите за значимост на КК.

Интересно е, че дискусията за регресивното значение на CC често се сблъсква с трудности от дидактически (по-скоро психологически) характер. Нека ги коментираме накратко. След официалното въвеждане на QC и изясняването на значението на "силни" и "слаби" корелации, се счита за необходимо да се задълбочим в дискусията на философските проблеми на връзката между корелациите и причинно-следствените връзки. В същото време се правят енергични опити да се отрече от (хипотетичния!) опит корелацията да се тълкува като причинно-следствена. На този фон дискусиите относно наличността функционална зависимост(включително регресия) между корелиращите стойности започва да изглежда просто богохулство. В крайна сметка от функционалната зависимост до причинно-следствената връзка има само една стъпка! В резултат на това въпросът за регресионното значение на QC обикновено се заобикаля, както и въпросът за корелационните свойства на линейната регресия.

Всъщност тук всичко е просто. Ако за нормализирани (т.е. имащи нулева средна стойност и единична дисперсия) случайни променливи хи Yима връзка

Y = a + bX + N,

където не някаква случайна променлива с нулева средна стойност (допълнителен шум), лесно е да се види това а = 0и b = r. Това е съотношението между случайните променливи хи Yсе нарича уравнение на линейна регресия.

Изчисляване на дисперсията на случайна променлива Yлесно е да се получи следният израз:

D[Y] = b 2 D[X] + D[N].

В последния израз първият член определя приноса на случайната променлива хв дисперсия Y, а вторият член е приносът на шума нв дисперсия Y. Използвайки горния израз за параметъра b, лесно е да се изразят приносите на случайните променливи хи нчрез стойността r=r(припомнете си, че ние вземаме предвид количествата хи Yнормализирана, т.е. D[X] = D[Y] = 1):

b 2 D[X] = r 2

D[N] = 1 - r2

Като се имат предвид получените формули, често се казва, че за случайни величини хи Yсвързани регресионно уравнение, стойност r2определя пропорцията на дисперсията на случайна променлива Y, линейно определена от промяната на случайната променлива х. И така, общата дисперсия на случайната променлива Yсе разпада на дисперсия линейно обусловениналичието на регресионна връзка и остатъчна дисперсия поради наличието на допълнителен шум.


Помислете за диаграмата на разсейване на двумерна случайна променлива (X, Y). На малки D[N]диаграмата на разсейване се изражда в линейна връзка между случайни променливи, леко изкривена от адитивен шум (т.е. точките на диаграмата на разсейване ще бъдат предимно концентрирани близо до правата линия X=Y). Такъв случай има за стойностите rблизки по модул до единица. С намаляване (по абсолютна стойност) на стойността на QC, дисперсията на шумовия компонент нзапочва да дава все по-голям принос за дисперсията на количеството Yи за малки rточечната диаграма напълно губи приликата си с права линия. В случая имаме облак от точки, чието разсейване се дължи основно на шума. Именно този случай се реализира при значителни, но малки по абсолютна стойност стойности на QC. Ясно е, че в случая не може да се говори за никаква корелация.

Сега нека да видим какъв отговор на въпроса за "големите" и "малките" стойности на CC ни предлага регресионната интерпретация на CC. На първо място, трябва да се подчертае, че именно дисперсията е най-естествената мярка за дисперсията на стойностите на случайна променлива. Естеството на тази "естественост" се състои в адитивността на дисперсията за независими случайни променливи, но това свойство има много разнообразни проявления, сред които е демонстрираното по-горе разделяне на дисперсията на линейно обусловени и остатъчни дисперсии.

Така че стойността r2определя пропорцията на дисперсията на количеството Y, линейно определена от наличието на регресионна връзка с случайна величина х. Въпросът каква част от линейно обусловената дисперсия може да се счита за признак за наличие на изразена корелация остава на съвестта на изследователя. Въпреки това става ясно, че малките стойности на коефициента на корелация ( r< 0.3 ) дават толкова малка част от линейно обяснената дисперсия, че е безсмислено да се говори за някаква изразена корелация. При r > 0,5можем да говорим за наличие на забележима корелация между количествата и кога r > 0,7корелацията може да се счита за значима.

Значение на коефициентите на корелация проверяваме по критерия на Студент:

където - средната квадратична грешка на коефициента на корелация, която се определя по формулата:

Ако изчислената стойност (по-висока от табличната стойност), тогава можем да заключим, че стойността на коефициента на корелация е значителна. Tсе намират според таблицата със стойностите на критериите на Стюдънт. Това отчита броя на степените на свобода (V = n - 1) и нивото на доверие (обикновено 0,05 или 0,01 при икономически изчисления). В нашия пример броят на степените на свобода е: П - 1 = 40 - 1 = 39. На нивото на увереност Р = 0,05; T= 2,02. Тъй като (действителното (Таблица 7.8) във всички случаи е по-високо от t-таблицата, връзката между ефективно и факторни показателие надежден, а стойността на корелационните коефициенти е значителна.

Следващ етап корелационен анализ-изчисляване на уравнението на комуникацията (регресия). Решението обикновено се извършва стъпка по стъпка. Първо се взема предвид един фактор, който има най-много значително влияниепо ефективния индикатор, след това втори, трети и т.н. И на всяка стъпка се изчислява уравнението на комуникацията, множествен факторкорелации и детерминации, F-отношение (критерий на Фишер), стандартна грешка и други показатели, чрез които се оценява надеждността на уравнението на връзката. Тяхната стойност на всяка стъпка се сравнява с предходната. Колкото по-висока е стойността на коефициентите на множествена корелация, детерминация и критерия на Фишер и колкото по-ниска е стойността на стандартната грешка, толкова по-точно уравнението на връзката описва зависимостите, които са се развили между изследваните показатели. Ако добавянето на следните фактори не подобрява оценените показатели за комуникация, тогава те трябва да бъдат отхвърлени, т.е. спрете се на уравнението, където тези показатели са най-оптимални.

Сравнявайки резултатите на всяка стъпка (Таблица 7.9), можем да заключим, че петфакторният модел, получен на петата стъпка, най-пълно описва връзката между изследваните показатели. В резултат на това уравнението на връзката има формата:

Коефициентите на уравнението показват количественото влияние на всеки фактор върху показателя за ефективност, докато други остават непроменени. В този случай можем да дадем следната интерпретация на полученото уравнение: рентабилността се увеличава с 3,65% с увеличаване на материалната ефективност с 1 рубла; с 0,09% - с увеличение на производителността на капитала с 1 копейка; с 1,02% - с увеличение на средната годишна продукция на служител с 1 милион рубли; с 0,052% - при увеличение на дела на продуктите от най-висока категория качество с 1%. С увеличаване на продължителността на оборота на средствата с 1 ден, доходността намалява средно с 0,122%.

Коефициентите на регресия в уравнението на връзката имат различни мерни единици, което ги прави несравними, ако възникне въпросът за относителната сила на влиянието на факторите върху ефективния показател. За да ги приведат в сравнима форма, всички променливи на регресионното уравнение се изразяват в части от стандартното отклонение, с други думи, те изчисляват стандартизирани регресионни коефициенти.Те се наричат ​​още бета коефициенти чрез символа, който е приет за тяхното обозначение (p).

Бета коефициентите и регресионните коефициенти са свързани със следната връзка:

Вижте също:

Както многократно е отбелязвано, за статистическо заключение за наличието или отсъствието на корелация между изследваните променливи е необходимо да се провери значимостта на извадковия коефициент на корелация. Поради факта, че надеждността на статистическите характеристики, включително коефициента на корелация, зависи от размера на извадката, може да възникне ситуация, когато стойността на коефициента на корелация ще се дължи изцяло на случайни колебания в извадката, въз основа на които е изчислено. При значителна връзка между променливите, коефициентът на корелация трябва да бъде значително различен от нула. Ако няма корелация между изследваните променливи, тогава коефициентът на корелация населениее равно на нула. В практическите изследвания, като правило, те се основават на примерни наблюдения. Подобно на всяка статистическа характеристика, коефициентът на корелация на извадката е случайна променлива, т.е. нейните стойности произволно се разпръскват около параметъра на генералната съвкупност със същото име (истинската стойност на коефициента на корелация). При липса на корелация между променливите, техният коефициент на корелация в генералната съвкупност е нула. Но поради случайния характер на разсейването, принципно са възможни ситуации, когато някои коефициенти на корелация, изчислени от проби от тази популация, ще бъдат различни от нула.

Могат ли наблюдаваните разлики да се припишат на случайни колебания в извадката или отразяват значителна промянаусловия за формиране на връзки между променливите? Ако стойностите на коефициента на корелация на извадката попадат в зоната на разсейване,

поради случайния характер на самия индикатор, това не е доказателство за липсата на връзка. Най-много, което може да се каже в случая е, че данните от наблюденията не отричат ​​липсата на връзка между променливите. Но ако стойността на коефициента на корелация на извадката е извън споменатата зона на разсейване, тогава се заключава, че тя е значително различна от нула и можем да приемем, че има статистически значима връзка между променливите. Критерият, използван за решаване на този проблем, базиран на разпределението на различни статистики, се нарича критерий за значимост.

Процедурата за проверка на значимостта започва с формулирането на нулевата хипотеза B общ изгледтова се крие във факта, че няма значителни разлики между параметъра на извадката и параметъра на популацията. Алтернативна хипотеза е, че има значителни разлики между тези параметри. Например, когато се тества за корелация в общата популация, нулевата хипотеза е, че истинският коефициент на корелация е нула. Ако в резултат на теста се окаже, че нулевата хипотеза не е приемлива, тогава коефициентът на корелация на извадката е значително различна от нула (нулевата хипотеза се отхвърля и алтернативата се приема. С други думи, предположението за некорелирани случайни променливи в общата съвкупност трябва да се признае за неразумно. И обратното, ако нулевата хипотеза се приеме въз основа на лежи в допустимата зона на случайна дисперсия, тогава няма причина да се счита допускането за некорелирани променливи в генералната съвкупност за съмнително.

При тест за значимост изследователят определя ниво на значимост a, което дава известна практическа увереност, че грешни заключения ще бъдат направени само в много редки случаи. Нивото на значимост изразява вероятността нулевата хипотеза да бъде отхвърлена в момента, когато тя действително е вярна. Ясно е, че има смисъл тази вероятност да бъде избрана възможно най-малка.

Нека е известно разпределението на характеристиката на извадката, което е безпристрастна оценка на параметъра на популацията. Избраното ниво на значимост a съответства на защрихованите зони под кривата на това разпределение (виж фиг. 24). Незащрихованата зона под кривата на разпределение определя вероятността.Границите на сегментите по абсцисата под защрихованите области се наричат ​​критични стойности, а самите сегменти образуват критичната област или областта на отхвърляне на хипотезата.

В процедурата за проверка на хипотезата характеристиката на извадката, изчислена от резултатите от наблюденията, се сравнява със съответната критична стойност. В този случай трябва да се прави разлика между едностранни и двустранни критични региони. Формата на определяне на критичната област зависи от формулировката на проблема за статистическо изследване. Двустранен критичен регион е необходим, когато при сравняване на параметър на извадка и параметър на популация,

необходимо е да се оцени абсолютната стойност на несъответствието между тях, т.е. представляват интерес както положителните, така и отрицателните разлики между изследваните стойности. Когато е необходимо да се гарантира, че една средна стойност е строго по-голяма или по-малка от друга, се използва едностранна критична област (дясна или лява). Съвсем очевидно е, че за една и съща критична стойност нивото на значимост при използване на едностранен критичен регион е по-малко, отколкото при използване на двустранен.

Ориз. 24. Тестване на нулевата хипотеза

Ако разпределението на характеристиката на извадката е симетрично, тогава нивото на значимост на двустранната критична област е a, а на едностранната критична област е y (вижте фиг. 24). Ограничаваме се до обща формулировка на проблема. Повече подробности за теоретичната обосновка за проверка на статистически хипотези могат да бъдат намерени в специализираната литература. Освен това ще посочим само критериите за значимост за различни процедури, без да се спираме на тяхната конструкция.

Чрез проверка на значимостта на коефициента на двойна корелация се установява наличието или липсата на корелация между изследваните явления. Ако няма връзка, коефициентът на корелация на популацията е равен на 0. Процедурата за проверка започва с формулирането на нулевата и алтернативната хипотеза:

Разликата между извадковия коефициент на корелация е незначителна,

Разликата между тях е значителна и следователно между променливите те имат значима връзка. От алтернативната хипотеза следва, че трябва да се използва двустранен критичен регион.

В раздел 8.1 вече беше споменато, че примерният коефициент на корелация, при определени предположения, е свързан със случайна променлива, подчиняваща се на разпределението на Стюдънт със степени на свобода. Статистика, изчислена от резултатите от извадката

се сравнява с критичната стойност, определена от таблицата за разпределение на Стюдънт за дадено ниво на значимост a и степени на свобода. Правилото за прилагане на критерия е следното: ако тогава нулевата хипотеза на ниво на значимост a се отхвърля, т.е. връзката между променливите е значима; ако тогава се приема нулевата хипотеза при ниво на значимост a. Отклонението на стойността от може да се припише на случайна вариация. Тези проби характеризират разглежданата хипотеза като много възможна и правдоподобна, т.е. хипотезата за липсата на връзка не предизвиква възражения.

Процедурата за проверка на хипотезата е значително опростена, ако вместо статистика използваме критичните стойности на коефициента на корелация, които могат да бъдат определени чрез квантилите на разпределението на Стюдънт чрез заместване в

Има подробни таблици с критични стойности, извадка от които е дадена в Приложението към тази книга (виж Таблица 6). Правилото за тестване на хипотезата в този случай е следното: ако тогава можем да твърдим, че връзката между променливите е значима. Ако тогава, считаме резултатите от наблюденията в съответствие с хипотезата за липса на връзка.

Нека проверим хипотезата за независимостта на производителността на труда от нивото на механизация на труда при според данните, дадени в раздел 4.1. Преди това беше изчислено, че Чрез (8.38) получаваме

Според таблицата за разпределение на Стюдънт намираме критичната стойност на тази статистика: Тъй като отхвърляме нулевата хипотеза, правим грешка само в 5% от случаите.

Ще получим същия резултат, ако сравним с критичната стойност на корелационния коефициент в съответната таблица с

който има -разпределение със степени на свобода. Освен това процедурата за проверка на значимостта се извършва подобно на предишната с помощта на -критерия.

Пример

Въз основа икономически анализявления, ние приемаме в общата популация силна връзка между производителността на труда и нивото на механизация на труда. Нека, например,. Като алтернатива в този случай можем да изложим хипотеза, тъй като коефициентът на корелация на извадката Следователно трябва да използваме едностранна критична област. От (8.40) следва, че

Получената стойност се сравнява с критичната стойност

По подобен начин се проверява значимостта на частичните корелационни коефициенти. Променя се само броят на степените на свобода, който става равен на къде е броят на обяснителните променливи. Статистическа стойност, изчислена по формула

се сравнява с критичната стойност a, намерена от таблицата на разпределението на ниво на значимост a и броя на степените на свобода. Приемането или отхвърлянето на хипотезата за значимостта на частичния корелационен коефициент се извършва съгласно същото правило, както е описано по-горе. Тестването на значимостта може да се извърши и с помощта на критичните стойности на коефициента на корелация съгласно (8.39), както и с помощта на трансформацията на Фишер (8.40).

Пример

Нека проверим статистическата надеждност на частичните корелационни коефициенти, изчислени в раздел 4.5 на нивото на значимост По-долу, заедно с частичните корелационни коефициенти, са дадени съответните изчислени и критични стойности на статистиката

Поради факта, че когато се приеме хипотезата за значимостта на коефициентите, стигаме до извода, че нивото на механизация на труда има значително влияние върху производителността на труда, като се изключи влиянието на средната възраст на работниците (и средния процент на съответствие с нормите). Разлика от нула на други коефициенти

частична корелация може да се припише на случайни флуктуации в извадката и следователно не можем да кажем нищо определено за частичните влияния на съответните променливи от тях.

Относно значимостта на коеф множествена корелациясъди се по резултата от процедурата за проверка на значимостта на коеф множествено определяне. Ще обсъдим това по-подробно в следващия раздел.

Често въпросът представлява интерес: два коефициента на корелация се различават ли значително един от друг? При тестването на тази хипотеза се приема, че се вземат предвид едни и същи характеристики на хомогенни популации; данните са резултати независими тестове; използват се корелационни коефициенти от един и същи тип, т.е. или двойки корелационни коефициенти, или частични корелационни коефициенти, когато се изключва същия брой променливи.

Обемите на двете проби, за които се изчисляват коефициентите на корелация, могат да бъдат различни. Нулева хипотеза: т.е. коефициентите на корелация на двете разглеждани популации са равни. Алтернативна хипотеза: Алтернативната хипотеза предполага, че трябва да се използва двустранен критичен регион. С други думи, трябва да проверите дали разликата е значително различна от 0. Нека използваме статистики, които имат приблизително нормално разпределение:

където - резултати от - трансформации на коефициентите на корелация - размери на извадката. Правило за тест: ако тогава хипотезата се отхвърля; ако се приеме хипотезата.

Ако се приеме, стойността

след преизчисляване при използване на (8.6) служи като обобщена оценка на коефициента на корелация След това хипотезата може да бъде тествана с помощта на статистика

с нормално разпределение.

Пример

Нека се изисква да се установи дали тяснотата на връзката между производителността на труда и нивото на механизация на труда в предприятия от една и съща индустрия, разположени в различни региони на страната, е различна. Нека сравним предприятията, разположени в два региона. Нека за един от тях коефициентът на корелация бъде изчислен от размера на извадката (вижте раздел 4.1). За Другата област, изчислена от обемната извадка

След преобразуването на двата коефициента на корелация в -стойности, ние изчисляваме стойността на статистиката X, използвайки (8.42):

Критичната стойност на статистиката при е По този начин хипотезата е приета, т.е. въз основа на наличните извадки не можем да установим значителна разлика между корелационните коефициенти. В този случай и двата коефициента на корелация са значими.

Използвайки (8.43) и (8.6), получаваме обобщена оценка на коефициента на корелация за два региона:

И накрая, ние тестваме хипотезата дали обобщената оценка на коефициента на корелация е значително различна от нула, използвайки статистика (8.44):

Откога можем да твърдим, че в общата съвкупност съществува значителна връзка между производителността на труда и степента на механизация на труда.

Критерият X може да се използва по различни начини. По този начин, вместо области, могат да се разглеждат различни индустрии, например, когато се изисква да се определи дали има разлики в силата на изследваните връзки между икономически показателипредприятия, принадлежащи към две различни индустрии.

Нека на базата на две извадки от обема се изчисляват коефициентите на корелация, които характеризират близостта на връзката между производителността на труда и нивото на механизация на труда в предприятия, принадлежащи към две индустрии (две генерални съвкупности). Чрез (8.42) получаваме

Тъй като отхвърляме нулевата хипотеза. Следователно може да се твърди, че има значителни разлики в близостта на връзката между производителността на труда и нивото на механизация на труда в предприятията, принадлежащи към различни отрасли. Ще продължим този пример в раздел 8.7, където ще сравним регресионните линии, конструирани за две популации.

Анализирайки горните примери, ние сме убедени, че разглеждането само на абсолютната разлика между сравнените коефициенти на корелация

(размерите на извадката са еднакви и в двата случая) без тестване за значимостта на тази разлика ще доведе до погрешни заключения. Това потвърждава необходимостта от използване на статистически критерии при сравняване на коефициентите на корелация.

Процедурата за сравняване на два корелационни коефициента може да се обобщи до Повече ▼коефициенти при спазване на горните условия. Хипотезата за равенство на корелационните коефициенти между променливите y се изразява по следния начин: Тества се на базата на корелационните коефициенти, изчислени от обемните извадки от генералните съвкупности. коефициентите на корелация се преизчисляват в -стойности: Тъй като в общ случайе неизвестен, намираме неговата оценка по отношение на формулата, която е обобщение на (8.43).

Трябва да се отбележи, че истинският индикатор за степента на линейна връзка на променливите е теоретичен коефициент на корелация, който се изчислява въз основа на данните за цялата генерална съвкупност (т.е. всички възможни стойности на показателите):

където - теоретична ковариация, което се изчислява като математическото очакване на произведенията на отклонения на SW
и от техните математически очаквания.

По правило не можем да изчислим теоретичния коефициент на корелация. Въпреки това, тъй като коефициентът на вземане на проби не е равен на нула
не следва, че и теоретичният коефициент
(т.е. индикаторите могат да бъдат линейно независими). Че. въз основа на данни от произволна извадка не може да се твърди, че има връзка между показателите.

Извадковият коефициент на корелация е оценка на теоретичния коефициент, тъй като изчислява се само за част от стойностите на променливите.

Винаги съществува грешка на коефициента на корелация. Тази грешка е несъответствието между корелационния коефициент на обема на пробата а коефициентът на корелация за генералната съвкупност се определя по формулите:

при
; и
при
.

Тестването на значимостта на коефициента на линейна корелация означава да се тества доколко можем да се доверим на примерните данни.

За целта се тества нулевата хипотеза.
че стойността на корелационния коефициент за генералната съвкупност е нула, т.е. няма корелация в общата съвкупност. Алтернативата е хипотезата
.

За да проверим тази хипотеза, ние изчисляваме - статистика ( -Критерий на ученика:

.

който има разпределение на Стюдънт с
степени на свобода 1.

Според таблиците за разпределение на Student се определя критичната стойност
.

Ако изчислената стойност на критерия
, тогава нулевата хипотеза се отхвърля, тоест изчисленият коефициент на корелация се различава значително от нула с вероятност
.

Ако
, тогава нулевата хипотеза не може да бъде отхвърлена. В този случай не е изключено истинската стойност на корелационния коефициент да е равна на нула, т.е. връзката на показателите може да се счита за статистически незначима.

Пример 1. Таблицата показва данни за 8 години за общия доход и разходи за крайно потребление .

Да се ​​изследва и измерва плътността на връзката между дадените показатели.

Тема 4. Двойна линейна регресия. Метод на най-малките квадрати

Коефициентът на корелация показва степента на близост на връзката между два признака, но не отговаря на въпроса как промяната на един признак с една единица от неговото измерение влияе върху изменението на друг признак. За да се отговори на този въпрос се използват методи на регресионен анализ.

Регресионен анализустановява формазависимости между случайна променлива и променливи стойности
, освен това ценности
се счита за точно посочен.

Регресионно уравнениее формула за статистическа връзка между променливи.

Ако тази формула е линейна, тогава говорим за линейна регресия.Формулата за статистическата връзка на две променливи се нарича регресия по двойки(няколко променливи - многократни).

Извиква се избор на формула за зависимост спецификациярегресионни уравнения. Извиква се оценка на стойностите на параметрите на избраната формула параметризация.

Как да оценим стойностите на параметрите и да проверим надеждността на направените оценки?

Помислете за фигурата

    На графиката (а) връзката хи прие близка до линейна, правата линия 1 тук е близо до точките на наблюдение и последните се отклоняват от нея само в резултат на относително малки случайни влияния.

    На графиката (b) реалната връзка между стойностите хи присе описва с нелинейна функция 2 и каквато и права линия да начертаем (например 1), отклоненията на точките от нея ще бъдат неслучайни.

    На графиката (c) връзката между променливите хи прилипсва и резултатите от параметризирането на всяка формула на зависимостта няма да бъдат успешни.

Отправната точка на иконометричния анализ на зависимостта обикновено е оценка на линейната зависимост на променливите. Винаги можете да опитате да начертаете такава права линия, която ще бъде „най-близо“ до точките за наблюдение по отношение на тяхната съвкупност (например на фигура (c) линия 1 ще бъде по-добра от линия 2).

Теоретично сдвоено уравнение на линейна регресияизглежда като:


,

където
Наречен теоретични параметри (теоретични коефициенти) регресия; -случайно отклонение(случайна грешка).

Най-общо теоретичният модел ще бъде представен като:

.

За да се определят стойностите на теоретичните коефициенти на регресия, е необходимо да се знаят всички стойности на променливите хи Y, т.е. цялото население, което е практически невъзможно.

Задачата е следната: по наличните данни от наблюдения
,
е необходимо да се оценят стойностите на параметрите
.

Позволявам аоценка на параметъра
,bоценка на параметъра .

Тогава изчисленото регресионно уравнение има формата:
,

където
теоретични стойности на зависимата променлива г, - наблюдавани стойности на грешки . Това уравнение се нарича емпирично регресионно уравнение. Ще го запишем във формата
.

Оценката на параметрите на линейната регресия се основава на Метод на най-малките квадрати (MNC)е метод за оценка на параметрите на линейна регресия, която минимизира сумата от квадратите на отклоненията на наблюденията на зависимата променлива от желаната линейна функция.

функция Qе квадратична функциядва параметъра аи b. защото тя е непрекъсната, изпъкнала и ограничена отдолу (
), така че достига минимум. Необходимо условие за съществуването на минимум е равенството на нула на неговите частни производни по отношение на аи b:


.

Разделяйки двете уравнения на системата на н, получаваме:


или

В противен случай можете да напишете:

и  стандартни отклонения на стойностите на същите характеристики.

Че. регресионната линия минава през точката със средните стойности хи при
, а регресионен коефициент b пропорционална на ковариационния индекс и коефициента на линейна корелация.

Ако освен регресия Yна хза същите емпирични стойности се намира регресионното уравнение X върху Y (
, където
), след това произведението на коефициентите
:

.

Да се регресионен коефициент - това е стойност, показваща колко мерни единици ще се промени стойността при промяна на стойността една единица от неговото измерение. Коефициентът .

ИЗХОДНИ ДАННИ

ОЦЕНКА НА НАДЕЖДНОСТТА НА КОЕФИЦИЕНТА НА КОРЕЛАЦИЯ

Коефициентът на линейна корелация, изчислен от примерни данни, е случайна променлива. Коефициент на корелация, получен от извадката rе оценка на коефициента на корелация rв общата популация. С намаляването на броя на наблюденията надеждността на корелационния коефициент намалява. Оценката на значимостта (значимостта) на коефициента на линейна корелация се основава на сравнение на стойността rсъс своята средна квадратична грешка:

При оценката на значимостта на коефициента на корелация обикновено се вземат предвид следните ситуации.

1. Ако броят на наблюденията е достатъчно голям (обикновено над 30) и стойността на корелационния коефициент не надвишава 0,9, разпределението на корелационния коефициент rможе да се счита за приблизително нормално със средната квадратична грешка

Когато достатъчно големи числанаблюдения rтрябва да превишава средната си грешка поне три пъти: . Ако това неравенство не е изпълнено, тогава съществуването на връзка между характеристиките не може да се счита за доказано.

Като се има предвид определена вероятност, е възможно да се конструират граници на доверие r:

Така например с вероятност от 0,95, за което T= 1,96, доверителните граници ще бъдат

,

С вероятност от 0,997, за която коефициентът на доверие T= 3, доверителните граници ще бъдат

Тъй като стойността на r не може да надвишава единица, тогава ако > 1, трябва да се посочи само долната граница, т.е. трябва да се посочи, че реалното r не е по-малко от .

2. За малък размер на извадката, с разпределение rдалеч от нормалното, се използват други методи за оценка на значимостта на коефициента на корелация. С малък брой наблюдения (n< 30), средна грешкакоефициентът на линейна корелация се намира по формулата:

и значимостта се тества въз основа на TКритерий на ученика. В същото време се излага хипотеза за равенството на корелационния коефициент на нула, тоест за липсата на връзка между y и x в генералната съвкупност. За това се използват статистически данни:

,

чиято изчислена стойност се сравнява с табличната стойност от разпределителните таблици на Студент. Ако нулевата хипотеза е вярна, т.е r=0, тогава разпределението T- критерият се подчинява на закона за разпределение на Стюдънт с n-2степени на свобода и прието ниво на значимост (обикновено 0,05). Във всеки случай, според таблицата за разпределение T-Критерият на Студент е таблична (критична) стойност T, което е приемливо, ако нулевата хипотеза е вярна и действителната (изчислена) стойност се сравнява с нея T. Ако t изч. > t маса. , тогава нулевата хипотеза се отхвърля и линеен коефициентсчитани за значими, и връзката между хи г- съществено. И обратно.



3. С малък брой наблюдения в извадката и висок коефициент на корелация (разпределение rразлична от нормалната) за проверка на хипотезата за наличие на корелация, както и за изграждане доверителен интервалсе прилага z-трансформацията на Fisher.

За целта се изчислява стойността

Разпределение zдоближава до нормалното. Вариация zсе изразява с формулата

Нека изчислим z-теста за пример 1, тъй като в този случай имаме малък брой наблюдения и висок коефициент на корелация.

.

За да не изчислявате стойностите на логаритмите, можете да използвате специални таблици на Z-трансформации (Efimova M.R. p. 402, Shmoylova R.A. p. 446, Eliseeva I.I. p. 473). Откриваме, че коефициентът на корелация от 0,94 съответства на Z=1,74.

Поведение Зкъм средата квадратична грешкае равно на 3. Така можем да приемем, че съществува реална връзка между стойността на произведената продукция и потреблението на електроенергия за цялата съвкупност от предприятия.

Коефициентите на корелация ще изчислим в програмата STATISTICA.

Фигура 1 - Корелационна матрица.

Корелацията определя степента, в която стойностите на две променливи са "пропорционални" една на друга. Пропорционалностозначава просто линейна зависимост. Корелацията е висока, ако зависимостта „може да бъде представена“ на графиката като права линия (с положителен или отрицателен наклон). Така това е най-простото регресионен моделописващ зависимостта на една променлива от един фактор.

Отбелязваме основните характеристики на този показател.

Може да приема стойности от -1 до +1. Знакът „+“ означава, че връзката е директна (когато стойностите на една променлива нарастват, стойностите на другата променлива също се увеличават), „–“ означава, че връзката е обратна.

Колкото по-близо е коефициентът до 1, стойността на коефициента на корелация е по-малка от 0,3, връзката се оценява като слаба, от 0,31 до 0,5 - умерена, от 0,51 до 0,7 - значителна, от 0,71 до 0,9 - тясна, 0,91 и повече - много стегнат.

Ако всички стойности на променливите се увеличат (намалят) с еднакъв брой или с еднакъв брой пъти, тогава стойността на коефициента на корелация няма да се промени.

Коефициентът на корелация е показател, който оценява плътността на линейната връзка между характеристиките.

При r= ±1 корелацията е линейна функционална зависимост. В този случай всички наблюдавани стойности са разположени на обща права линия. Нарича се още регресионна линия. При r= 0 няма линейна корелация. В този случай груповите средни на променливите съвпадат с техните общи средни, а регресионните линии са успоредни на координатните оси.

Равенство r= 0 говори само за липсата на линейна корелационна зависимост (некорелирани променливи), но не като цяло за липсата на корелация и още повече статистическа зависимост.

Въз основа на коефициентите на корелация не можем строго да докажем причинно-следствена връзка между променливите, но можете да идентифицирате фалшиви корелации, тоест корелации, които се дължат на влиянията на „други“ променливи, които остават извън вашето зрително поле.

Основният проблем с фалшивата корелация е, че не знаем

кой е неговият носител. Но ако знаем къде да търсим, тогава

можете да използвате частични корелации , за контрол на (частично изключено) влияние на определени променливи.


Фигура 2 - Точкови диаграми.

Споделете с приятели или запазете за себе си:

Зареждане...