Корелация, изчисляване на корелационни коефициенти. Свойства на линейния корелационен коефициент

Различните икономически явления, както на микро, така и на макро ниво, не са независими, а са взаимосвързани (цената на даден продукт и търсенето му, обемът на производството и печалбата на фирмата и др.).

Тази зависимост може да бъде строго функционална (детерминирана) и статистическа.

Връзката между и
Наречен функционален,когато всяка стойност на един атрибут съответства на една единствена стойност на друг атрибут. (Пример за такава зависимост едно към едно е зависимостта на площта на кръг от радиуса).

В действителност друга връзка между явленията е по-често срещана, когато всяка стойност на един атрибут може да съответства на няколко стойности на друг (например връзката между възрастта на децата и тяхната височина).

Формата на комуникация, при която един или повече взаимосвързани показатели (фактори) влияят на друг показател (резултат) не еднозначно, а с известна степен на вероятност, се нарича статистически. По-специално, ако промяната в едно от количествата променя средната стойност на другото, тогава в този случай статистическата зависимост се нарича корелация.

В зависимост от броя на факторите, включени в модела, има двойна корелация(връзка на две променливи) и многократни(резултатът зависи от няколко фактора).

Корелационен анализе да се определи направления, форми и степенивръзки (стегнатост) между два (няколко) случайни знака
и .

от посокавъзниква корелация положителен (директен)ако увеличаването на стойността на една променлива увеличава стойността на другата, и отрицателен (обратен)когато увеличаването на стойността на една променлива намалява стойността на друга.

от формакорелация може да бъде линеен (праволинеен), когато промяната в стойностите на един атрибут води до равномерна промяна в друг (математически описан с уравнението на права линия
), и криволинейна, когато промяната в стойностите на един атрибут води до неравномерни промени в друг (математически се описва от уравненията на криви линии, например хипербола
, параболи
и т.н.).

Най-простата форма на връзка между променливите е линейна връзка. И проверката на наличието на такава зависимост, оценката на нейните показатели и параметри е една от най-важните области на иконометрията.

Има специални статистически методи и съответно показатели, чиито стойности по определен начин показват наличието или отсъствието на линейна връзка между променливите.

3.1. Линеен коефициент на корелация

Най-простият, приблизителен начин за идентифициране на корелация е графика.

При малък размер на извадката, експерименталните данни се представят като две серии от взаимосвързани стойности и . Ако всяка двойка
представляват точка на равнина
, тогава т.нар корелационно поле (фиг. 1).

Ако корелационното поле е елипса, чиято ос е отляво надясно и отдолу нагоре (фиг. 1в), тогава можем да приемем, че има линейна положителна връзка между характеристиките.

Ако корелационното поле е удължено по оста отляво надясно и отгоре надолу (фиг. 1г), тогава можем да приемем наличието на линейна отрицателна връзка.

Ако точките на наблюдение са произволно разположени в равнината, т.е. корелационното поле образува кръг (фиг. 1а), то това показва липсата на връзка между характеристиките.

Фигура 1b показва строга линейна функционална връзка.

Под стегнатоствръзките между две величини разбират степента на спрежение между тях, която се открива при промяна на изследваните величини. Ако всяка дадена стойност
стойностите са близки една до друга , тогава връзката се счита за тясна (силна); ако стойностите силно разпръснати, тогава връзката се счита за по-малко близка. При тясна корелация корелационното поле е повече или по-малко компресирана елипса.

Количествен критерий за посоката и плътността на линейната връзка е коефициент линейна корелация .

Коефициентът на корелация, определен от извадкови данни, се нарича извадков коефициент на корелация.Изчислява се по формулата:

където , текущи стойности на характеристиките
и ;и  средноаритметични стойности на характеристиките;
- опция средно аритметично на продуктите,
и
 стандартни отклонения на тези характеристики;  размер на извадката.

За да се изчисли коефициентът на корелация, е достатъчно да се приеме предположението за линейна връзка между случайни характеристики. Тогава изчисленият коефициент на корелация ще бъде мярката на тази линейна зависимост.

Коефициентът на линейна корелация приема стойности от -1 в случай на строга линейна отрицателна връзка до +1 в случай на строга линейна положителна връзка (т.е.
). Близостта на корелационния коефициент до 0 показва липсата линеенвръзки между характеристиките, но не и за липсата на връзка между тях изобщо.

На коефициента на корелация може да се даде визуална графична интерпретация.

Ако
, тогава между знаците има линейна функционална зависимост на формата
, което означава пълна корелациязнаци. При
, линията има положителен наклон по отношение на оста
, при
 отрицателна (фиг. 1б).

Ако
, точки
са в зона, ограничена от линия, наподобяваща елипса. Колкото по-близо е коефициентът на корелация до
, колкото по-тясна е елипсата и колкото по-близо са концентрирани точките близо до правата линия. При
Говорейки за положителна корелация. В този случай стойностите са склонни да нарастват с увеличаване (фиг. 1c). При
Говорейки за отрицателна корелация; стойности са склонни да намаляват с увеличаване (фиг. 1d).

Ако
, след това точките
се намират в областта, ограничена от кръга. Това означава, че между произволни характеристики
и няма корелация и такива знаци се наричат некорелирани(фиг. 1а).

Когато оценявате тясността на връзката, можете да използвате следната условна таблица:

Близост на комуникацията

Стойността на коефициента на корелация, ако има такъв

директна връзка (+)

обратна връзка (−)

Няма връзка

Комуникацията е слаба

Общуването е умерено

Комуникацията е силна

Пълна функционалност

Обърнете внимание, че в числителя на формулата за примерния коефициент на линейна корелация на количествата
и с носете ги ковариационен индекс:

Този показател, подобно на коефициента на корелация, характеризира степента на линейна връзка между стойностите
и . Ако е по-голямо от нула, тогава връзката между стойностите е положителна, ако е по-малка от нула, тогава връзката е отрицателна, равна на нула - няма линейна връзка.

За разлика от коефициента на корелация ковариационният индекс е нормализиран – има размерност, като стойността му зависи от мерните единици
и . В статистическия анализ ковариацията обикновено се използва като междинен елемент при изчисляването на линейния корелационен коефициент. Че. формулата за изчисляване на коефициента на корелация на извадката приема формата:

Коефициентът на корелация емярка за линейната зависимост на две случайни променливипо теория на вероятностите и статистика. Някои видове коефициенти на корелацияможе да бъде положителен или отрицателен. В първия случай се предполага, че можем да определим само наличието или отсъствието на връзка, а във втория и нейната посока.

Случайна променлива в теорията на вероятностите

Коефициентът на корелация естатистически индикатор, показващ доколко са свързани колебанията в стойностите на два други показателя. Например, до каква степен движението на доходността на взаимния фонд е свързано, отразява (корелира) с движението на индекса, избран за изчисляване коефициентбета за този взаимен фонд. Колкото по-близо е стойността коефициент на корелациядо 1, толкова повече взаимният фонд и индексът корелират, което означава коефициентбета и следователно коефициенталфа може да се вземе под внимание. Ако стойността на това коефициент на корелацияпо-малко от 0,75, то тези показатели са безсмислени.


Цикъл на случайни променливи

Корелационният анализ се занимава със степента на връзка между две случайни променливи X и Y.

Корелационният анализ на експериментални данни за две случайни променливи включва следните основни техники:
1. Изчисляване на извадкови коефициенти на корелация.
2. Съставяне на корелационна таблица.
3. Проверка статистическа хипотезазначението на връзката.

ОПРЕДЕЛЕНИЕ. Корелационната зависимост между случайните променливи X и Y се нарича линейна корелация, ако и двете регресионни функции f(x) и φ(x) са линейни. В този случай и двете регресионни линии са прави линии; те се наричат ​​директни регресии.

За достатъчно пълно описаниехарактеристики на корелационната зависимост между стойностите, не е достатъчно да се определи формата на тази зависимост и в случай на линейна зависимост да се оцени нейната сила по стойността на коефициента на регресия. Например, ясно е, че корелационната зависимост на възрастта на учениците Y гимназияот година X на тяхното обучение като правило е по-близка от подобна зависимост на възрастта на студентите образователна институцияот годината на обучение, тъй като сред студентите от една и съща година на обучение в университета обикновено има по-голяма разлика във възрастта, отколкото сред студентите от същия клас.

За да се оцени близостта на линейните корелации между стойностите на X и Y въз основа на резултатите от извадкови наблюдения, се въвежда концепцията за примерен коефициент на линейна корелация, който се определя от формулата:



където σ X и σ Y са примерни стандартни отклонения на стойностите на X и Y, които се изчисляват по формулите:

Трябва да се отбележи, че основното значение на примерния коефициент на линейна корелация r B е, че той е емпирична (т.е. получена от резултатите от наблюдения върху стойности X и Y) оценка на съответния общ коефициент на линейна корелация r: r=r Б (9)

Имайки предвид формулите:

виждаме, че примерното уравнение линейна регресия Y върху X има формата:

(10)

където . Същото може да се каже и за примерните уравнения на линейна регресия X върху Y:

(11)

Основните свойства на примерния коефициент на линейна корелация:

1. Коефициентът на корелация на две величини, които не са свързани с линейна корелационна зависимост, е равен на нула.
2. Коефициентът на корелация на две величини, свързани с линейна корелационна зависимост, е равен на 1 при нарастваща зависимост и -1 при намаляваща зависимост.
3. Абсолютната стойност на корелационния коефициент на две величини, свързани с линейна корелационна зависимост, удовлетворява неравенството 0<|r|<1. При этом коэффициент корреляции положителен, если корреляционная зависимость возрастающая, и отрицателен, если корреляционная зависимость убывающая.
4. Колкото по-близо е |r| до 1, толкова по-близка е корелацията по права линия между стойностите на Y, X.

По своя характер корелацията може да бъде пряка и обратна, а по сила - силна, средна, слаба. Освен това връзката може да липсва или да е пълна.

Силата и естеството на връзката между параметрите

Пример 4. Изследвана е връзката между две величини Y и X. Резултатите от наблюденията са дадени в таблицата като двумерна извадка от том 11:



х
Y

Задължително:
1) Изчислете извадковия коефициент на корелация;
2) Оценете характера и силата на корелацията;
3) Напишете уравнение на линейна регресия за Y върху X.

Решение. Известни формули:

Следователно, съгласно (7) и (8):

Следователно трябва да се заключи, че разглежданата корелационна зависимост между стойностите X и Y е обратна по природа и средна по сила.

3) Уравнение на линейна регресия Y върху X:

Пример 5 Изследва се връзката между качество Y (%) и количество X (pcs). Резултатите от наблюденията са дадени под формата на корелационна таблица:

Y\X n y
90
n x

Необходимо е да се изчисли примерният коефициент на линейна корелация на зависимостта на Y от X.

Решение. За да опростим изчисленията, нека да преминем към нови променливи - условни опции (u i , v i), като използваме формулите (*) (§3) за h 1 =4, h 2 =5, x 0 =26, y 0 =80 . За удобство пренаписваме тази таблица в нова нотация:

u\v -2 -1 n v
-2
-1
u

Имаме за x i =u i и y j =v j:

По този начин:

Оттук,

Заключение: Корелационната зависимост между стойностите на X и Y е пряка и силна.

Коефициентът на множествена корелация характеризира плътността на линейната връзка между една променлива и набора от други променливи, които се разглеждат.

От особено значение е изчисляването на коефициента на множествена корелация на резултантния признак y с фактор x1, x2,…, xm, формулата за определяне на който в общия случай има формата

където ∆r е детерминантата на корелационната матрица; ∆11 е алгебричното допълнение на елемента ryy от корелационната матрица.

Ако се вземат предвид само два факторни знака, тогава може да се използва следната формула за изчисляване на коефициента на множествена корелация:

Изграждането на коефициент на множествена корелация е препоръчително само в случай, че частичните коефициенти на корелация се оказаха значими и връзката между получената характеристика и факторите, включени в модела, наистина съществува.

характеризира плътността и посоката на връзката между две корелирани характеристики в случай на линейна връзка между тях.
Коефициентът на линейна корелация има голямо значение при изследване на социално-икономически явления и процеси, чието разпределение е близко до нормалното.
В практиката се използват различни модификации на формулите за изчисляване на този коефициент. Най-простият от тях е зависимостта на формата
_xy-xy
r (1 >
Физическата интерпретация на стойностите на коефициента на корелация е дадена в таблица1. Таблица 1. Оценка на линейния коефициент (научна корелация) Стойност линеен коефициенткорелация Характер на връзката Тълкуване на връзката r=0 Отсъства - 0r
л/н - 2
"R _
(2)
аз
(n - 2_
1-р
r
VT
Ако изчислената стойност t^ >t^ (таблица), тогава хипотезата H0 се отхвърля, което показва значимостта на коефициента на линейна корелация и, следователно, статистическата значимост на връзката между X и Y. Забележка! Този критерий за оценка на значимостта се използва за популации n При по-голям брой наблюдения (n> 100) се използва следната формула за определяне на t - статистика
r
(3)
t„ = , - Vn
стр. I-2
r
Пример. Въз основа на примерни данни за бизнес дейността на предприятия от същия тип, оценете близостта на връзката, като използвате коефициента на линейна корелация между печалбата Y (хиляда рубли) и разходите (X) в копейки за 1 rub. произведени продукти (табл. 2). Алгоритъм за изчисление.
Изчислете стойностите на дисперсията
st2y = 78029.3; =46.
Изчисляваме стойността на коефициента на корелация по формулата (1) r = (60400,67 - 744,33 * 83,67) / (78029,3 * 46) 0 "5 = -0,98.
Проверяваме значимостта на коефициента на корелация, за това изчисляваме t - статистика на Стюдънт
tp \u003d n - 2 \u003d (0,98 / V1-(0,98) 2) * V6-2 \u003d 14,036.
V1-r
Таблица № 2. - Първоначални данни Печалба на предприятието, хил. Разходи, копейки, x рубли, y .05 и броя на степените на свобода k =6-2=4, което е равно на t cr =2,776.
Заключение. Хипотеза H0 се отхвърля, защото | tF|>t cr =2.776, което показва значимостта на този корелационен коефициент.
Трябва да се помни! Горните зависимости и резултатите от практическите изчисления се отнасят до предположенията за наличието на линейна зависимост между оценяваните параметри. Ако е известно предварително, че връзката е нелинейна, тогава можете да използвате емпиричната корелационна връзка.

При изчисляването на този показател се вземат предвид отклоненията на отделните стойности на признака от средните, т.е. съответно за факториела и резултантните знаци на стойността .

Тези абсолютни стойности обаче не могат да се сравняват директно една с друга. Знаците могат да бъдат изразени в различни единици и при едни и същи мерни единици средните стойности могат да бъдат различни по стойност. Сравнението подлежи на отклонения, изразени в части от средната стойност стандартно отклонение(нормализирани отклонения).

Изчислете средното произведение на нормализираните отклонения, което се нарича коефициент на линейна корелация:

Чрез извършване на прости трансформации можете да получите следната формула за изчисляване на коефициента на линейна корелация:

Когато използвате тази формула, няма нужда да изчислявате отклоненията на стойностите на отделните характеристики от среден размер, което елиминира грешката в изчисленията при закръгляване на средни стойности.

Линеен коефициент на корелацияможе да вземе произволна стойност от -1 преди + 1 . Колкото по-близка е абсолютната стойност на коефициента на корелация до 1, толкова по-тясна е връзката между характеристиките. Знакът на коефициента на линейна корелация показва посоката на връзката. Пряката връзка съответства на знак плюс и обратна зависимост- знак минус. Коефициентът на линейна корелация се използва за измерване на плътността на връзката само с линейна форма на комуникация .

Равенството говори само за липсата на линейна корелационна зависимост, но не като цяло за липсата на корелация и още повече на статистическа зависимост. Стойността на коефициента на корелация не е доказателство за наличието на причинно-следствена връзка между изследваните признаци, а е оценка за степента на взаимно съответствие в промените в признаците. Установяването на причинно-следствената връзка се предшества от анализ на качествения характер на явленията. Трябва да се обърне особено внимание при тълкуването на получените коефициенти на корелация за малки размери на извадката.

Нека резултатите селективно наблюдение. Обяснява ли се това с реално съществуващата корелация между характеристиките в населениеили е следствие от случайния подбор на елементи в извадката?

Според изчислената стойност на извадковия коефициент на корелация е необходимо да се провери хипотезата

H 0: коефициентът на корелация в генералната съвкупност е нула с алтернативата

H 1: коефициентът на корелация в генералната съвкупност не е равен на нула.

Като статистически критерий за хипотезата H 0, стойността

която се разпределя по закона на Стюдънт със степени на свобода. Хипотезата H 0 се отхвърля (т.е. зависимостта се счита за установена), ако надвишава допустимата стойност при ниво на значимост и степени на свобода. Някои стойности на критерия са дадени в таблицата по-долу.


Таблица 11

Допустими стойности на критерия на Стюдънт с броя на степените на свобода и нивото на значимост.

0,05 0,01
2,10 2,88
2,09 2,86
2,09 2,85
2,08 2,83
2,07 2,82
2,07 2,81
2,06 2,80
2,06 2,79
2,06 2,78
2,05 2,77
2,05 2,76
2,05 2,76
2,04 2,75
2,02 2,70
2,00 2,66
1,98 2,62
1,96 2,58

Коефициентът на корелация доста точно оценява степента на близост на връзката само в случай на линейна връзка между характеристиките. При криволинейна зависимост коефициентът на линейна корелация подценява степента на близост на връзката и дори може да бъде равен на 0 и следователно в такива случаи се препоръчва използването на други стойности като индикатор за степента на близост на връзката. Обмисли емпирична корелация .

Според правило за добавяне на дисперсии, обща дисперсия е равна на сумата от средното за групата и междугрупата

Или

Коефициентът на корелация е равен на нула, когато няма колебания в стойността на средните стойности на ефективния атрибут за избраните групи. В случаите, когато средната групови отклоненияе близо до нула, т.е. почти цялата вариация на ефективния признак се дължи на действието на фактора , величина корелационна връзкае близо до 1. Лесно можем да установим посоката на връзката според данните от груповата таблица (вижте пример 9).

Корелационният тест на Pearson е параметричен статистически метод, който ви позволява да определите наличието или отсъствието на линейна връзка между два количествени показателя, както и да оцените неговата близост и статистическа значимост. С други думи, корелационният тест на Pearson ви позволява да определите дали има линейна връзка между промените в стойностите на две променливи. В статистическите изчисления и изводи коефициентът на корелация обикновено се означава като rxyили Rxy.

1. История на развитието на корелационния критерий

Корелационният тест на Pearson е разработен от екип британски учени, ръководени от Карл Пиърсън(1857-1936) през 90-те години на 19 век, за да опрости анализа на ковариацията на две случайни променливи. Освен по Карл Пиърсън е работено и по корелационния тест на Пиърсън Франсис Еджуърти Рафаел Уелдън.

2. За какво се използва корелационният тест на Pearson?

Корелационният критерий на Pearson ви позволява да определите каква е близостта (или силата) на корелацията между два показателя, измерени в количествена скала. С помощта на допълнителни изчисления можете също да определите колко статистически значима е идентифицираната връзка.

Например, използвайки корелационния критерий на Pearson, може да се отговори на въпроса дали има връзка между телесната температура и съдържанието на левкоцити в кръвта при остри респираторни инфекции, между височината и теглото на пациента, между съдържанието в пия водафлуор и честотата на кариес сред населението.

3. Условия и ограничения за използването на критерия хи-квадрат на Pearson

  1. Сравнимите показатели трябва да се измерват в количествен мащаб(например сърдечна честота, телесна температура, брой левкоцити на 1 ml кръв, систолично кръвно налягане).
  2. С помощта на корелационния критерий на Пиърсън е възможно да се определи само наличието и силата на линейна връзкамежду количествата. Други характеристики на връзката, включително посоката (директна или обратна), естеството на промените (праволинейни или криволинейни), както и зависимостта на една променлива от друга, се определят с помощта на регресионен анализ.
  3. Броят на стойностите за сравнение трябва да бъде равен на две. В случай на анализ на връзката на три или повече параметъра, трябва да използвате метода факторен анализ.
  4. Корелационният критерий на Пиърсън е параметричен, във връзка с което условието за прилагането му е нормална дистрибуциясъвпадащи променливи. Ако е необходимо корелационен анализпоказатели, чието разпределение се различава от нормалното, включително измерени по ординална скала, следва да се използва коефициентът на рангова корелация на Спирман.
  5. Необходимо е ясно да се разграничат понятията зависимост и корелация. Зависимостта на стойностите определя наличието на корелация между тях, но не и обратното.

Например, растежът на детето зависи от възрастта му, тоест какво по-голямо дете, толкова по-висока е тя. Ако вземем две деца различни възрасти, тогава с голяма степен на вероятност растежът на по-голямото дете ще бъде по-голям от този на по-малкото. Това явлениеи се обади пристрастяване, което предполага причинно-следствена връзка между показателите. Разбира се, има и такива корелация, което означава, че промените в един индикатор са придружени от промени в друг индикатор.

В друга ситуация помислете за връзката между растежа на детето и сърдечната честота (HR). Както знаете, и двете стойности са пряко зависими от възрастта, следователно в повечето случаи децата с по-голям ръст (и следователно по-големите) ще имат по-ниски стойности на сърдечната честота. Това е, корелацияще се наблюдава и може да има достатъчно висока плътност. Ако обаче вземем деца същата възраст, но различна височина, тогава най-вероятно сърдечната им честота ще се различава незначително, във връзка с което можем да заключим, че независимостПулс от растеж.

Горният пример показва колко важно е да се прави разлика между основните понятия в статистиката връзкии зависимостииндикатори за извеждане на правилни заключения.

4. Как да изчислим коефициента на корелация на Пиърсън?

Корелационният коефициент на Pearson се изчислява по следната формула:

5. Как да интерпретираме стойността на корелационния коефициент на Pearson?

Стойностите на коефициента на корелация на Pearson се интерпретират въз основа на неговите абсолютни стойности. Възможните стойности на коефициента на корелация варират от 0 до ±1. Колкото по-голяма е абсолютната стойност на r xy, толкова по-голяма е близостта на връзката между двете величини. r xy = 0 означава пълна липса на връзка. r xy = 1 - показва наличието на абсолютна (функционална) връзка. Ако стойността на корелационния критерий на Pearson се окаже по-голяма от 1 или по-малка от -1, в изчисленията е направена грешка.

За да се оцени близостта или силата на корелацията, се използват общоприети критерии, според които абсолютните стойности на r xy< 0.3 свидетельствуют о слабвръзка, r xy стойности от 0,3 до 0,7 - за връзка средатаплътност, r xy стойности> 0,7 - o силенвръзки.

По-точна оценка на силата на корелацията може да се получи чрез използване на Маса Chaddock:

Степен статистическа значимост коефициентът на корелация r xy се извършва с помощта на t-тест, изчислен по следната формула:

Получената стойност t r се сравнява с критичната стойност при определено ниво на значимост и брой степени на свобода n-2. Ако t r надвишава t crit, тогава се прави заключение за статистическата значимост на идентифицираната корелация.

6. Пример за изчисляване на коефициента на корелация на Pearson

Целта на изследването е да се идентифицира, определи плътността и статистическата значимост на корелацията между два количествени показателя: нивото на тестостерон в кръвта (X) и процента мускулна масав тялото (Y). Изходните данни за извадка от 5 субекта (n = 5) са обобщени в таблицата.

Споделете с приятели или запазете за себе си:

Зареждане...