Корелационен метод на Спирман. Рангова корелация и рангов корелационен коефициент на Спирман

Калкулаторът по-долу изчислява съотношението рангова корелацияКопиеносец между двама случайни променливи. Теоретичната част, за да не се разсейва от калкулатора, традиционно се поставя под него.

добавете внос износ режим_редактиране Изтрий

Промени в случайни променливи

стрелка_нагорестрелка_надолухстрелка_нагорестрелка_надолу Y
Размер на страницата: 5 10 20 50 100 шеврон_вляво chevron_right

Промени в случайни променливи

Импортиране на данниГрешка при импортиране

Можете да използвате един от тези знаци за разделяне на полета: Tab, ";" или "," Пример: -50.5;-50.5

Импортиране Назад Отказ

Методът за изчисляване на коефициента на рангова корелация на Spearman всъщност е описан много просто. Това е същият корелационен коефициент на Пиърсън, само изчислен не за резултатите от измерванията на самите случайни променливи, а за техните ранг ценности.

Това е,

Остава само да разберем какви са стойностите на класирането и защо е необходимо всичко това.

Ако елементите на вариационния ред са подредени във възходящ или низходящ ред, тогава рангелемент ще бъде неговият номер в тази подредена серия.

Например, да кажем, че имаме вариационна серия (17,26,5,14,21). Сортирайте елементите му в низходящ ред (26,21,17,14,5). 26 има ранг 1, 21 има ранг 2 и т.н. Вариационната серия от стойности на ранга ще изглежда така (3,1,5,4,2).

Тоест, когато се изчислява коефициентът на Спирман, началният вариационна сериясе преобразуват във вариационни серии от стойности на ранг, след което към тях се прилага формулата на Pearson.

Има една тънкост - рангът на повтарящите се стойности се приема като средна стойност на ранговете. Тоест, за серията (17, 15, 14, 15), серията от стойности на ранг ще изглежда като (1, 2.5, 4, 2.5), тъй като първият елемент, равен на 15, има ранг 2 и вторият - ранг 3 и .

Ако няма повтарящи се стойности, т.е. всички стойности на серията за класиране са числа от диапазона от 1 до n, формулата на Pearson може да бъде опростена до

Е, между другото, тази формула най-често се дава като формула за изчисляване на коефициента на Спирман.

Каква е същността на прехода от самите ценности към техните ценности на ранга?
И въпросът е, че чрез изследване на корелацията на стойностите на ранга може да се установи колко добре зависимостта на две променливи се описва от монотонна функция.

Знакът на коефициента показва посоката на връзката между променливите. Ако знакът е положителен, тогава стойностите на Y имат тенденция да се увеличават с увеличаване на стойностите на X; ако знакът е отрицателен, тогава стойностите на Y имат тенденция да намаляват с увеличаване на стойностите на X. Ако коефициентът е 0, тогава няма тенденция. Ако коефициентът е равен на 1 или -1, тогава връзката между X и Y има формата на монотонна функция - тоест, с увеличаване на X, Y също се увеличава, или обратното, с увеличаване на X, Y намалява.

Тоест, за разлика от коефициента на корелация на Пиърсън, който може да разкрие само линейна зависимост на една променлива от друга, коефициентът на корелация на Спирман може да разкрие монотонна зависимост, при която не се разкрива пряка линейна зависимост.

Нека обясня с пример. Да приемем, че изследваме функцията y=10/x.
Имаме следните резултати от X и Y измервания
{{1,10}, {5,2}, {10,1}, {20,0.5}, {100,0.1}}
За тези данни корелационният коефициент на Pearson е -0,4686, тоест връзката е слаба или липсва. Но коефициентът на корелация на Спирман е строго равен на -1, което, така да се каже, подсказва на изследователя, че Y има строга отрицателна монотонна зависимост от X.

Методът на ранговата корелация на Spearman ви позволява да определите плътността (силата) и посоката на корелацията между две характеристики или два профила (йерархии) на характеристиките.

За да се изчисли ранговата корелация, е необходимо да има две серии от стойности,

които могат да бъдат класирани. Тези диапазони от стойности могат да бъдат:

1) два признака, измерени в една и съща група субекти;

2) две отделни йерархии от черти, идентифицирани в два субекта за един и същи набор от черти;

3) две групови йерархии на функции,

4) индивидуални и групови йерархии на признаци.

Първо, индикаторите се класират отделно за всяка от характеристиките.

По правило на по-ниска стойност на характеристика се присвоява по-нисък ранг.

В първия случай (две характеристики) индивидуалните стойности за първата характеристика, получени от различни субекти, се класират, а след това индивидуалните стойности за втората характеристика.

Ако два атрибута са положително свързани, тогава субектите с ниски рангове в един от тях ще имат ниски рангове в другия, а субектите с високи рангове в

една от чертите също ще има високи рангове на другата черта. За да се изчисли rs, е необходимо да се определи разликата (d) между ранговете, получени от този субект за двете характеристики. След това тези показатели d се трансформират по определен начин и се изваждат от 1. Than

колкото по-малка е разликата между ранговете, толкова по-голям ще бъде rs, толкова по-близо до +1.

Ако няма корелация, тогава всички рангове ще бъдат смесени и няма да има

няма съвпадение. Формулата е проектирана така, че в този случай rs да бъде близо до 0.

В случай на отрицателна корелация, ниските рангове на субектите по един признак

ще съответства на високи рангове по друг атрибут и обратно. Колкото по-голямо е несъответствието между ранговете на субектите по две променливи, толкова по-близо е rs до -1.

Във втория случай (два индивидуални профила), индивид

стойностите, получени от всеки от 2 субекта според определен (еднакъв и за двамата) набор от характеристики. Първият ранг ще получи чертата с най-ниска стойност; вторият ранг е характеристика с по-висока стойност и т.н. Очевидно всички характеристики трябва да се измерват в едни и същи единици, в противен случай класирането е невъзможно. Например, не е възможно да се класират индикатори по въпросника за личността на Cattell (16PF), ако те са изразени в "сурови" резултати, тъй като диапазоните на стойностите за различни фактори са различни: от 0 до 13, от 0 до

20 и от 0 до 26. Не можем да кажем кой от факторите ще заеме първо място по отношение на тежестта, докато не приведем всички стойности в една скала (най-често това е стенната скала).

Ако индивидуалните йерархии на два субекта са положително свързани, тогава знаците, които имат ниски рангове за един от тях, ще имат ниски рангове за другия и обратно. Например, ако за един предмет факторът E (доминиране) има най-нисък ранг, тогава за друг предмет той трябва да има нисък ранг, ако един субект има фактор C

(емоционална стабилност) има най-висок ранг, тогава другият субект също трябва да има

този фактор има висок ранг и т.н.

В третия случай (два групови профила) средните групови стойности, получени в 2 групи субекти, се класират според определен, идентичен за две групи набор от характеристики. По-нататък разсъжденията са същите като в предишните два случая.

В случай на 4-ти (индивидуални и групови профили), индивидуалните стойности на субекта и средните групови стойности се класират отделно според същия набор от характеристики, които се получават, като правило, чрез изключване на този индивид субект - не участва в средногруповия профил, с който ще се сравнява индивидуален профил. Корелацията по ранг ще ви позволи да проверите колко последователни са индивидуалните и груповите профили.

И в четирите случая значимостта на получения коефициент на корелация се определя от броя на класираните стойности N. В първия случай това число ще съвпадне с размера на извадката n. Във втория случай броят на наблюденията ще бъде броят на характеристиките, които съставят йерархията. В третия и четвъртия случай N също е броят на сравняваните характеристики, а не броят на субектите в групите. Подробни обяснения са дадени в примерите. Ако абсолютната стойност на rs достигне или надвиши критична стойност, корелацията е значителна.

Хипотези.

Има две възможни хипотези. Първият се отнася за случай 1, вторият за останалите три случая.

Първата версия на хипотезите

H0: Корелацията между променливи A и B не е различна от нула.

H1: Корелацията между променливи A и B е значително различна от нула.

Втората версия на хипотезите

H0: Корелацията между йерархии A и B не е различна от нула.

H1: Корелацията между йерархии A и B е значително различна от нула.

Ограничения на коефициента на рангова корелация

1. Най-малко 5 наблюдения трябва да бъдат представени за всяка променлива. Горната граница на извадката се определя от наличните таблици с критични стойности.

2. Коефициентът на рангова корелация на Spearman rs с голям брой идентични рангове за една или и двете сравнявани променливи дава груби стойности. В идеалния случай и двете корелирани серии трябва да бъдат две поредици от несъвпадащи стойности. Ако това условие не е изпълнено, е необходимо да се направи корекция за същите рангове.

Коефициентът на рангова корелация на Spearman се изчислява по формулата:

Ако и в двете сравнени рангови серии има групи от еднакви рангове, преди да се изчисли коефициентът на рангова корелация, е необходимо да се направят корекции за едни и същи рангове Ta и Tv:

Ta \u003d Σ (a3 - a) / 12,

TV \u003d Σ (v3 - c) / 12,

където a е обемът на всяка група от еднакви рангове в серията рангове A, c е обемът на всеки

групи с еднакъв ранг в ранговата серия B.

За да изчислите емпиричната стойност на rs, използвайте формулата:

Изчисляване на коефициента на рангова корелация на Spearman rs

1. Определете в кои две характеристики или две характерни йерархии ще участват

сравнение като променливи A и B.

2. Класирайте стойностите на променливата A, присвоявайки ранг 1 на най-малката стойност, в съответствие с правилата за класиране (вижте A.2.3). Въведете ранговете в първата колона на таблицата по реда на номерата на субектите или знаците.

3. Подредете стойностите на променливата B в съответствие със същите правила. Въведете ранговете във втората колона на таблицата по реда на номерата на субектите или знаците.

5. Повдигнете на квадрат всяка разлика: d2. Въведете тези стойности в четвъртата колона на таблицата.

Ta \u003d Σ (a3 - a) / 12,

TV \u003d Σ (v3 - c) / 12,

където a е обемът на всяка група от еднакви рангове в ранговия ред A; c - обемът на всяка група

същото място в ранглистата серия B.

а) при липса на еднакви рангове

rs  1 − 6 ⋅

б) при наличие на същите чинове

Σd 2  T  T

r  1 − 6 ⋅ a in,

където Σd2 е сумата от квадратите на разликите между ранговете; Та и ТВ са корекции за едно и също

N е броят на субектите или характеристиките, участвали в класирането.

9. Определете от таблицата (вижте Приложение 4.3) критичните стойности на rs за даден N. Ако rs надвишава критичната стойност или според поне, е равно на него, корелацията е значително различна от 0.

Пример 4.1 При определяне на степента на зависимост на реакцията на пиене на алкохол от окуломоторната реакция в тестовата група са получени данни преди пиене на алкохол и след пиене. Реакцията на субекта зависи ли от състоянието на интоксикация?

Резултати от експеримента:

Преди: 16, 13, 14, 9, 10, 13, 14, 14, 18, 20, 15, 10, 9, 10, 16, 17, 18. След: 24, 9, 10, 23, 20, 11, 12, 19, 18, 13, 14, 12, 14, 7, 9, 14. Нека формулираме хипотези:

H0: корелацията между степента на зависимост на реакцията преди пиене на алкохол и след пиене не се различава от нула.

H1: корелацията между степента на зависимост на реакцията преди пиене на алкохол и след пиене е значително различна от нула.

Таблица 4.1. Изчисляване на d2 за ранговия корелационен коефициент rs на Spearman при сравняване на параметрите на окуломоторната реакция преди и след експеримента (N=17)

стойности

стойности

Тъй като имаме повтарящи се рангове, в този случай ще приложим формулата, коригирана за едни и същи рангове:

Ta= ((23-2)+(33-3)+(23-2)+(33-3)+(23-2)+(23-2))/12=6

Tb =((23-2)+(23-2)+(33-3))/12=3

Намерете емпиричната стойност на коефициента на Спирман:

rs = 1- 6*((767,75+6+3)/(17*(172-1)))=0,05

Според таблицата (Приложение 4.3) намираме критичните стойности на коефициента на корелация

0,48 (p ≤ 0,05)

0,62 (p ≤ 0,01)

Получаваме

rs=0.05∠rcr(0.05)=0.48

Заключение: Хипотезата H1 се отхвърля и H0 се приема. Тези. корелация между степен

зависимостта на реакцията преди и след консумация на алкохол не се различава от нула.

37. Коефициент на рангова корелация на Спирман.

С. 56 (64) 063.JPG

http://psystat.at.ua/publ/1-1-0-33

Коефициентът на рангова корелация на Spearman се използва, когато:
- променливите имат скала за класиранеизмервания;
- разпространението на данни е твърде различно от нормалноили изобщо не се знае
- пробите са малки (N< 30).

Интерпретацията на коефициента на рангова корелация на Spearman не се различава от коефициента на Pearson, но значението му е малко по-различно. За да разберем разликата между тези методи и логично да обосновем областите на тяхното приложение, нека сравним техните формули.

Коефициент на корелация на Пиърсън:

Коефициент на корелация на Спирман:

Както можете да видите, формулите се различават значително. Сравнете формули

Корелационната формула на Пиърсън използва средната аритметична стойност и стандартното отклонение на корелираните серии, докато формулата на Спирман не го прави. По този начин, за да се получи адекватен резултат съгласно формулата на Pearson, е необходимо корелираните серии да бъдат близки до нормалното разпределение (средното и стандартното отклонение са параметри нормална дистрибуция ). За формулата на Spearman това не е от значение.

Елемент от формулата на Pearson е стандартизацията на всяка серия в z-резултат.

Както можете да видите, преобразуването на променливите в Z-скалата присъства във формулата на корелационния коефициент на Пиърсън. Съответно за коефициента на Pearson мащабът на данните е абсолютно без значение: например можем да корелираме две променливи, едната от които има мин. = 0 и макс. = 1, а втората min. = 100 и макс. = 1000. Без значение колко различен е диапазонът от стойности, всички те ще бъдат преобразувани в стандартни z-стойности с една и съща скала.

Няма такова нормиране в коефициента на Спирман, така че

ЗАДЪЛЖИТЕЛНО УСЛОВИЕ ЗА ИЗПОЛЗВАНЕ НА КОЕФИЦИЕНТА НА ШПЕРМАН Е РАВЕНСТВОТО НА ОБХВАТА НА ДВЕ ПРОМЕНЛИВИ.

Преди да използвате коефициента на Спирман за серии от данни с различни диапазони, е необходимо да ранг. Класирането кара стойностите на тези серии да придобият същия минимум = 1 (минимален ранг) и максимум, равен на броя на стойностите (максимум, последен ранг = N, т.е. максималния бройслучаи в извадката).

В какви случаи може да се мине без класиране

Това са случаи, когато данните са оригинални скала за класиране. Например тествайте ценностни ориентацииРокич.

Освен това това са случаи, при които броят на опциите за стойност е малък и в извадката има фиксиран минимум и максимум. Например в семантичния диференциал минимум = 1, максимум = 7.

Пример за изчисляване на коефициента на рангова корелация на Спирман

Тестът за ценностни ориентации на Rokeach беше проведен върху две проби X и Y. Задача: да се установи колко близки са ценностните йерархии на тези проби (буквално колко сходни са).

Сравнява се получената стойност r=0,747 таблица с критични стойности. Според таблицата при N=18 получената стойност е достоверна на ниво p<=0,005

Рангови коефициенти на корелация според Spearman и Kendal

За променливи, принадлежащи към ординалната скала или за променливи, които не следват нормално разпределение, както и за променливи, принадлежащи към интервалната скала, се изчислява ранговата корелация на Spearman вместо коефициента на Pearson. За да направите това, на отделните стойности на променливите се присвояват места за класиране, които впоследствие се обработват с помощта на подходящите формули. За да разкриете ранговата корелация, премахнете отметката от квадратчето за корелация на Pearson по подразбиране в диалоговия прозорец Бивариантни корелации... Вместо това активирайте корелационното изчисление на Spearman. Това изчисление ще даде следните резултати. Коефициентите на рангова корелация са много близки до съответните стойности на коефициентите на Pearson (оригиналните променливи имат нормално разпределение).

titkova-matmetody.pdf стр. 45

Методът на ранговата корелация на Spearman ви позволява да определите стегнатостта (силата) и посоката

корелация между два знакаили два профила (йерархии)знаци.

За да се изчисли ранговата корелация, е необходимо да има две серии от стойности,

които могат да бъдат класирани. Тези диапазони от стойности могат да бъдат:

1) два знакаизмерено в същото групатестови субекти;

2) две отделни йерархии на функции,идентифицирани в два предмета за едно и също

набор от функции;

3) две групови йерархии на функции,

4) индивидуални и груповийерархия на характеристиките.

Първо, индикаторите се класират отделно за всяка от характеристиките.

По правило на по-ниска стойност на характеристика се присвоява по-нисък ранг.

В първия случай (две характеристики) отделните стойности се класират според първата

черта, получена от различни субекти, и след това индивидуални стойности за втория

знак.

Ако два знака са положително свързани, тогава субектите с ниски рангове в

единият от тях ще има ниски рангове в другия, а субектите с високи рангове в

една от чертите също ще има високи рангове на другата черта. За преброяване на rs

необходимо е да се определят разликите (д)между ранговете, получени от тези субекти и на двете

знаци. След това тези показатели d се трансформират по определен начин и се изваждат от 1. Than

колкото по-малка е разликата между ранговете, толкова по-голям ще бъде rs, толкова по-близо до +1.

Ако няма корелация, тогава всички рангове ще бъдат смесени и няма да има

няма съвпадение. Формулата е проектирана така, че в този случай rs да бъде близо до 0.

В случай на отрицателна корелацияниски рангове на субектите на едно основание

ще съответства на високи рангове по друг атрибут и обратно. Колкото повече несъответствие

между ранговете на субектите в две променливи, толкова по-близо rs е до -1.

Във втория случай (два индивидуални профила), индивидуален

стойности, получени от всеки от 2-та субекта според определен (еднакъв за тях

и двете) набор от функции. Първият ранг ще получи чертата с най-ниска стойност; втори ранг -

знак с по-висока стойност и др. Очевидно всички характеристики трябва да бъдат измерени

същите единици, в противен случай класирането е невъзможно. Например невъзможно е

класирайте показателите според личностния въпросник на Cattell (16PF), ако са изразени в

"сурови" резултати, тъй като диапазоните на стойностите са различни за различни фактори: от 0 до 13, от 0 до

20 и от 0 до 26. Не можем да кажем кой от факторите ще заеме първо място по отношение на

тежест, докато приведем всички стойности до една скала (най-често това е скалата на стените).

Ако отделните йерархии на два субекта са положително свързани, тогава знаците

имащи ниски рангове в един от тях ще имат ниски рангове в другия и обратно.

Например, ако за един предмет факторът Е (доминиране) е с най-нисък ранг, то за

друг предмет, той трябва да има нисък ранг, ако един предмет има фактор C

(емоционална стабилност) има най-висок ранг, тогава другият субект също трябва да има

този фактор има висок ранг и т.н.

В третия случай (два групови профила) средните групови стойности се класират,

получени в 2 групи предмети по определен, идентичен за две групи набор

знаци. По-нататък разсъжденията са същите като в предишните два случая.

При 4-ти (индивидуален и групов профил) те се класират отделно

индивидуални стойности на субекта и средни групови стойности за същия набор

признаци, които се получават, като правило, с изключване на този отделен субект - той

не участва в средногруповия профил, с който индивидът му ще бъде сравнен

профил. Ранговата корелация ще ви позволи да проверите колко последователен е индивидът и

групови профили.

И в четирите случая значимостта на получения корелационен коефициент се определя от

по брой класирани стойности Н.В първия случай това число ще съвпадне с

размер на извадката n. Във втория случай броят на наблюденията ще бъде броят на характеристиките,

съставляващи йерархия. В третия и четвъртия случай N също е броят на съвпадащите

знаци, а не броя на субектите в групите. Подробни обяснения са дадени в примерите. Ако

абсолютната стойност на rs достига критична стойност или я надвишава, корелацията

надежден.

Хипотези.

Има две възможни хипотези. Първият се отнася за случай 1, вторият за останалите три

Първата версия на хипотезите

H0: Корелацията между променливи A и B не е различна от нула.

H2: Корелацията между променливи A и B е значително различна от нула.

Втората версия на хипотезите

H0: Корелацията между йерархии A и B не е различна от нула.

H2: Корелацията между йерархии A и B е значително различна от нула.

Ограничения на коефициента на рангова корелация

1. Най-малко 5 наблюдения трябва да бъдат представени за всяка променлива. Горен

границата на вземане на проби се определя от наличните таблици с критични стойности .

2. Коефициент на рангова корелация на Spearman rs с голям брой идентични

класира за една или и двете съответстващи променливи дава груби стойности. В идеалния случай

и двете корелирани серии трябва да бъдат две последователности от несъвпадение

стойности. Ако това условие не е изпълнено, трябва да се направи корекция за

същите рангове.

Коефициентът на рангова корелация на Spearman се изчислява по формулата:

Ако и в двете сравнени серии на класиране има групи с еднакъв ранг,

преди да се изчисли коефициентът на рангова корелация, е необходимо да се коригира за същото

класира Ta и Tv:

Ta \u003d Σ (a3 - a) / 12,

TV \u003d Σ (v3 - c) / 12,

където а -обемът на всяка група от еднакви рангове в ранговата серия A, в обем на всеки

групи с еднакъв ранг в ранговата серия B.

За да изчислите емпиричната стойност на rs, използвайте формулата:

38. Точков бисериален корелационен коефициент.

За съотношението като цяло вижте въпрос № 36с. 56 (64) 063.JPG

harchenko-korranaliz.pdf

Нека променливата X се измерва в силна скала, а променливата Y в дихотомична скала. Точковият бисериален корелационен коефициент rpb се изчислява по формулата:

Тук x 1 е средната стойност за X обекти със стойност "едно" за Y;

x 0 - средната стойност за X обекти със стойност "нула" за Y;

s x - стандартно отклонение на всички стойности за X;

n 1 - броят на обектите "едно" в Y, n 0 - броят на обектите "нула" в Y;

n = n 1 + n 0 е размерът на извадката.

Точковият бисериален корелационен коефициент може също да бъде изчислен с помощта на други еквивалентни изрази:

Тук xе общата средна стойност за променливата х.

Точков бисериален корелационен коефициент rpbварира от –1 до +1. Стойността му е равна на нула в случай, че променливи с единица за Yимат средно Y, равно на средната стойност на променливите с нула върху Y.

Преглед хипотези за значимосттрябва да се провери коефициентът на бисериална корелация нулева хипотезач 0 относно равенството на общия коефициент на корелация на нула: ρ = 0, което се извършва с помощта на критерия на Стюдънт. Емпирична стойност

в сравнение с критичните стойности T а (df) за броя на степените на свобода df = н– 2

Ако условието | T| ≤ та(df), нулевата хипотеза ρ = 0 не се отхвърля. Точковият бисериален корелационен коефициент значително се различава от нула, ако емпиричната стойност | T| попада в критичната област, тоест ако условието | T| > та(н– 2). Надеждността на връзката, изчислена с помощта на точков бисериален корелационен коефициент rpb, също може да се определи с помощта на критерия χ 2 за броя на степените на свобода df= 2.

Дот-бисериална корелация

Последващата модификация на корелационния коефициент на произведението на моментите беше отразена в пунктирания бисериал r. Тази статистика. показва връзката между две променливи, едната от които се предполага, че е непрекъсната и нормално разпределена, докато другата е дискретна в точния смисъл на думата. Точковият бисериален корелационен коефициент се означава с r pbisЗащото в r pbisдихотомията отразява истинската природа на дискретната променлива, а не е изкуствена, както в случая r бис, неговият знак е произволно определен. Следователно за всички практики цели r pbisразглеждани в диапазона от 0,00 до +1,00.

Има и такъв случай, когато две променливи се считат за непрекъснати и нормално разпределени, но и двете са изкуствено дихотомизирани, както в случая на бисерийна корелация. За да се оцени връзката между такива променливи, се използва тетрахорният корелационен коефициент r тет, който също е отгледан от Pearson. Основен (точни) формули и процедури за изчисление r тетса доста сложни. Следователно, с практиката. този метод използва приближенията r тетполучени на базата на съкратени процедури и таблици.

/online/dictionary/dictionary.php?term=511

ПУНКТИРАН БИСЕРИЕН КОЕФИЦИЕНТ НА ​​КОРЕЛАЦИЯе коефициентът на корелация между две променливи, едната от които се измерва в дихотомична скала, а другата в интервална скала. Използва се в класическата и съвременна тестология като индикатор за качеството на тестова задача - надеждност-съгласуваност с общ резултатчрез тест.

За корелиране на променливи, измерени в дихотомна и интервална скалаизползване точково-бисериален корелационен коефициент.
Дот-бисериалният корелационен коефициент е метод корелационен анализсъотношения на променливи, една от които се измерва в скалата на имената и приема само 2 стойности (например мъже / жени, отговорът е правилен / отговорът е неправилен, има знак / няма знак), а вторият в съотношението или интервалната скала. Формулата за изчисляване на коефициента на точково-бисериална корелация:

Където:
m1 и m0 са средните стойности на X със стойност 1 или 0 в Y.
σx е стандартното отклонение на всички стойности за X
n1 ,n0 – брой X стойности от 1 или 0 до Y.
n е общият брой двойки стойности

Най-често този тип коефициент на корелация се използва за изчисляване на връзката на тестовите задачи с обобщена скала. Това е един вид проверка за валидиране.

39. Ранг-бисериален коефициент на корелация.

За съотношението като цяло вижте въпрос № 36с. 56 (64) 063.JPG

harchenko-korrananaliz.pdf стр. 28

Коефициентът на рангова бисериална корелация, използван, когато една от променливите ( х) е представена в порядъчна скала, а другата ( Y) - в дихотомни, изчислени по формулата

.

Тук е средният ранг на обектите с единство Y; е средният ранг на обекти с нула в Y, не размерът на извадката.

Преглед хипотези за значимостранговият бисериален корелационен коефициент се извършва подобно на точковия бисериален корелационен коефициент, като се използва t-тест на Стюдънт със заместване във формулите rpbна rrb.

Когато една променлива се измерва в дихотомна скала (променлива х),а другият в ранговата скала (променлива Y), като се използва ранговият бисериален корелационен коефициент. Спомняме си, че променливата х,измерен в дихотомна скала, той приема само две стойности (кодове) 0 и 1. По-специално подчертаваме, че въпреки факта, че този коефициент варира в диапазона от –1 до +1, знакът му няма значение за тълкуването на резултати. Това е още едно изключение от общото правило.

Изчисляването на този коефициент се извършва по формулата:

където ` х 1среден ранг над тези елементи на променливата Y, което съответства на код (функция) 1 в променливата х;

`X 0 – среден ранг за тези елементи на променливата Y,което съответства на кода (функцията) 0 в променливата Х\

Н-общият брой елементи в променливата х.

За да се приложи ранговият бисериален коефициент на корелация, трябва да бъдат изпълнени следните условия:

1. Сравняваните променливи трябва да се измерват в различни скали: една Х-в дихотомна скала; друг Y–в ранглистата.

2. Броят на вариращите характеристики в сравняваните променливи хи Yтрябва да е същото.

3. За да се оцени нивото на надеждност на ранговия бисериален коефициент на корелация, трябва да се използва формулата (11.9) и таблицата с критични стойности за теста на Студент, когато k = n - 2.

http://psystat.at.ua/publ/drugie_vidy_koehfficienta_korreljacii/1-1-0-38

Случаи, в които присъства една от променливите дихотомна скала, а другият в ранг (порядък), изискват използването ранг-бисериален коефициент на корелация:

rpb=2 / n * (m1 - m0)

където:
n е броят на обектите за измерване
m1 и m0 - средният ранг на обектите с 1 или 0 във втората променлива.
Този коефициент се използва и при проверка на валидността на тестовете.

40. Линеен коефициент на корелация.

За корелацията като цяло (и за линейната корелация в частност), вижте въпрос № 36с. 56 (64) 063.JPG

КОЕФИЦИЕНТ НА ​​КОРЕЛАЦИЯ НА Г-Н ПИЪРСЪН

r-Пиърсън (Пиърсън r) се използва за изследване на връзката между два показателядруги променливи, измерени на същата проба.Има много ситуации, в които е подходящо да се използва. Влияе ли интелигентността на представянето в последните години в университета? Свързан ли е размерът на заплатата на служителя с добронамереността му към колегите? Влияе ли настроението на ученика върху успеха при решаването на сложна аритметична задача? За да отговори на такива въпроси, изследователят трябва да измери два показателя, представляващи интерес за всеки член на извадката. След това данните за изследване на връзката се представят в таблица, както в примера по-долу.

ПРИМЕР 6.1

В таблицата са дадени примерни данни от първоначалните измервания за два показателя на интелигентност (вербален и невербален) при 20 ученици от 8 клас.

Връзката между тези променливи може да бъде изобразена с помощта на точкова диаграма (виж Фигура 6.3). Диаграмата показва, че има известна зависимост между измерените показатели: колкото по-голяма е стойността на вербалната интелигентност, толкова (главно) толкова по-голяма е стойността на невербалната интелигентност.

Преди да дадем формулата за коефициента на корелация, нека се опитаме да проследим логиката на неговото възникване, използвайки данните от пример 6.1. Позицията на всяка /-точка (субект с номер /) върху диаграмата на разсейване спрямо другите точки (фиг. 6.3) може да бъде дадена чрез величините и знаците на отклоненията на съответните стойности на променливите от техните средни стойности: (xj - MJ и (ум при ). Ако признаците на тези отклонения съвпадат, това показва в полза на положителна връзка (големи стойности за хотговарят на големи стойности приили по-малки стойности за хотговарят на по-малки стойности y).

За предмет № 1, отклонението от средната стойност хи от приположителни, а за субект № 3 и двете отклонения са отрицателни. Следователно данните и на двамата показват положителна връзка между изследваните черти. Напротив, ако признаците на отклонения от средното хи от присе различават, това ще покаже отрицателна връзка между знаците. По този начин, за предмет № 4, отклонението от средната стойност хе отрицателна, според y -положителен, а за предмет No 9 - обратно.

Така, ако продуктът на отклоненията (x, - М х ) х (ум при ) положителен, тогава данните на /-субекта показват пряка (положителна) връзка, а ако са отрицателни, тогава обратна (отрицателна) връзка. Съответно, ако хwгса предимно правопропорционални, тогава повечето от продуктите на отклоненията ще бъдат положителни, а ако са обратно пропорционални, тогава повечето от продуктите ще бъдат отрицателни. Следователно, общ показателза силата и посоката на връзката може да служи сумата от всички произведения на отклонения за дадена проба:

При пряко пропорционална връзка между променливите тази стойност е голяма и положителна - за повечето от субектите отклоненията съвпадат по знак (големи стойности на една променлива съответстват на големи стойности на друга променлива и обратно). Ако хи приима обратна връзка, тогава за повечето субекти големите стойности на една променлива ще съответстват на по-малки стойности на друга променлива, т.е. знаците на продуктите ще бъдат отрицателни и сумата на продуктите като цяло също ще бъде голяма по абсолютна стойност, но отрицателен по знак. Ако няма систематична връзка между променливите, тогава положителните членове (продукти от отклонения) ще бъдат балансирани от отрицателни членове, а сумата от всички продукти от отклонения ще бъде близка до нула.

За да не зависи сумата от продуктите от размера на извадката, достатъчно е да я осредните. Но ние се интересуваме от мярката на връзката не като общ параметър, а като изчислена оценка за нея - статистика. Следователно, що се отнася до дисперсионната формула, в този случай ще направим същото, разделяме сумата от продуктите на отклоненията не на н, и по телевизията - 1. Оказва се мярка за комуникация, широко използвана във физиката и техническите науки, която се нарича ковариация (Коваханс):


AT психологията, за разлика от физиката, повечето променливи се измерват по произволни скали, тъй като психолозите не се интересуват от абсолютната стойност на атрибута, а взаимно споразумениетествани субекти в групата. Освен това ковариацията е много чувствителна към мащаба (дисперсията), в който се измерват характеристиките. За да направите мярката за комуникация независима от мерните единици на който и да е атрибут, е достатъчно да разделите ковариацията на съответните стандартни отклонения. Така се получи за-Коефициентът на корелация на К. Пиърсън муле:

или след заместване на изразите за o x и


Ако стойностите на двете променливи бяха преобразувани в r-стойности с помощта на формулата


тогава формулата за коефициента на корелация r-Pearson изглежда по-проста (071.JPG):

/dict/sociology/article/soc/soc-0525.htm

КОРЕЛАЦИЯ ЛИНЕЙНА- статистическа некаузална линейна връзка между две количествени променливи хи при. Измерено с помощта на "фактора K.L." Pearson, което е резултат от разделянето на ковариацията на стандартните отклонения на двете променливи:

,

където с xy- ковариация между променливите хи при;

с х , с г- стандартни отклонения за променливи хи при;

х аз , г аз- променливи стойности хи приза номер на обект аз;

х, г- средни аритметични за променливи хи при.

Коефициент на Пиърсън rможе да приема стойности от интервала [-1; +1]. Значение r = 0означава липса на линейна зависимост между променливите хи при(но не изключва нелинейна статистическа връзка). Положителни стойностикоефициент ( r> 0) показват пряка линейна връзка; колкото по-близо е стойността му до +1, толкова по-силна е пряката статистическа връзка. Отрицателни стойностикоефициент ( r < 0) свидетельствуют об обратной линейной связи; чем ближе его значение к -1, тем сильнее обратная связь. Значения r= ±1 означава наличието на пълна линейна връзка, права или обратна. В случай на пълна връзка всички точки с координати ( х аз , г аз) лежат на права линия г = а + bx.

"Коефициент K.L." Pearson се използва и за измерване на плътността на връзката в регресионния модел на линейна двойка.

41. Корелационна матрица и корелационен график.

За съотношението като цяло вижте въпрос № 36с. 56 (64) 063.JPG

корелационна матрица.Често корелационният анализ включва изследване на връзката не на две, а на много променливи, измерени в количествена скала върху една проба. В този случай корелациите се изчисляват за всяка двойка от този набор от променливи. Изчисленията обикновено се извършват на компютър и резултатът е корелационна матрица.

Корелационна матрица(корелация матрица) е резултат от изчисляване на корелации от един и същи тип за всяка двойка от набора Рпроменливи, измерени в количествена скала на една проба.

ПРИМЕР

Да приемем, че изучаваме връзки между 5 променливи (vl, v2,..., v5; П= 5), измерено върху проба от N=30човек. По-долу има таблица с първоначални данни и корелационна матрица.

И
свързани данни:

Корелационна матрица:

Лесно се вижда, че корелационната матрица е квадратна, симетрична по отношение на главния диагонал (takkakg, y = /) y), с единици на главния диагонал (тъй като Ж и = Гу = 1).

Корелационната матрица е квадрат:броят на редовете и колоните е равен на броя на променливите. Тя е симетриченспрямо главния диагонал, тъй като корелацията хс прие равно на корелация прис Х.Единиците са разположени на главния му диагонал, тъй като корелацията на признака със себе си е равна на единица. Следователно не всички елементи на корелационната матрица подлежат на анализ, а тези, които са над или под главния диагонал.

Брой корелационни коефициенти, P характеристиките, които трябва да се анализират при изследването на връзките, се определят по формулата: P(P- 1)/2. В примера по-горе броят на такива коефициенти на корелация е 5(5 - 1)/2 = 10.

Основната задача на анализа на корелационната матрица еразкриване на структурата на взаимовръзките на набор от характеристики. Това позволява визуален анализ корелационни плеяди- графично изображение структурира статистическизначими връзкиако няма много такива връзки (до 10-15). Друг начин е да се използват многовариантни методи: множествена регресия, факторен или клъстерен анализ (виж раздел „Многовариантни методи...“). С помощта на факторен или клъстерен анализ е възможно да се идентифицират групи от променливи, които са по-тясно свързани една с друга, отколкото с други променливи. Комбинацията от тези методи също е много ефективна, например, ако има много признаци и те не са хомогенни.

Сравнение на корелациите -допълнителна задача за анализ на корелационната матрица, която има два варианта. Ако е необходимо да се сравнят корелациите в един от редовете на корелационната матрица (за една от променливите), се прилага методът за сравнение на зависимите извадки (стр. 148-149). При сравняване на едноименни корелации, изчислени за различни проби, се използва методът за сравнение за независими проби (стр. 147-148).

Методи за сравнениекорелации по диагоналикорелационна матрица (за оценка на стационарността на случаен процес) и сравняване няколкокорелационните матрици, получени за различни проби (за тяхната хомогенност), отнемат много време и са извън обхвата на тази книга. Можете да се запознаете с тези методи от книгата на Г. В. Суходолски 1 .

проблем статистическа значимосткорелации.Проблемът е, че процедурата статистическа проверкапредполага хипотезата едно-многократнитест, извършен върху една проба. Ако се приложи същия метод много пъти,дори и във връзка с различни променливи, тогава вероятността за получаване на резултат чисто случайно се увеличава. AT общ случайако повторим същия метод за проверка на хипотези до пътипо отношение на различни променливи или извадки, тогава с установената стойност на a гарантирано ще получим потвърждение на хипотезата в ахкброя на случаите.

Да приемем, че е анализирана корелационната матрица за 15 променливи, т.е. изчислени са 15(15-1)/2 = 105 коефициента на корелация. За проверка на хипотезите е зададено ниво a = 0.05 Тествайки хипотезата 105 пъти, ще получим нейното потвърждение пет пъти (!), независимо дали връзката действително съществува. Знаейки това и след като сме получили, да речем, 15 "статистически значими" коефициента на корелация, можем ли да кажем кои от тях са получени случайно и кои отразяват реална връзка?

Строго погледнато, да приеме статистическо решениенеобходимо е да се намали нивото а толкова пъти, колкото пъти се проверяват хипотезите. Но това едва ли е препоръчително, тъй като вероятността от игнориране на наистина съществуваща връзка (направете грешка от тип II) нараства по непредсказуем начин.

Корелационната матрица сама по себе си не е достатъчна основаза статистически изводи относно включените в него индивидуални коефициентикорелации!

Има само един наистина убедителен начин за решаване на този проблем: разделете извадката произволно на две части и вземете предвид само тези корелации, които са статистически значими и в двете части на извадката. Алтернатива може да бъде използването на мултивариантни методи (факторен, клъстерен или множествен регресионен анализ) – за подбор и последваща интерпретация на групи от статистически значимо свързани променливи.

Проблемът с липсващите ценности.Ако има липсващи стойности в данните, тогава са възможни две опции за изчисляване на корелационната матрица: а) изтриване на стойности ред по ред (изключвамслучаипо списък); б) изтриване по двойки на стойности (изключвамслучаипо двойки). При изтриване ред по реднаблюдения с пропуски, целият ред се изтрива за обекта (субекта), който има поне една липсваща стойност за една от променливите. Този метод води до "правилна" корелационна матрица в смисъл, че всички коефициенти се изчисляват от един и същи набор от обекти. Въпреки това, ако липсващите стойности са произволно разпределени в променливите, тогава този методможе да доведе до факта, че в разглеждания набор от данни няма да има нито един обект (всеки ред ще съдържа поне една липсваща стойност). За да избегнете тази ситуация, използвайте друг метод, наречен отстраняване по двойки.Този метод взема предвид само пропуски във всяка избрана двойка колони с променливи и игнорира пропуски в други променливи. Корелацията за двойка променливи се изчислява за тези обекти, където няма пропуски. В много ситуации, особено когато броят на пропуските е относително малък, да речем 10%, и пропуските са сравнително произволно разпределени, този метод не води до сериозни грешки. Понякога обаче това не е така. Например, при систематично отклонение (изместване) на оценката, систематичното местоположение на пропуските може да бъде „скрито“, което е причината за разликата в коефициентите на корелация, изградени върху различни подмножества (например за различни подгрупи обекти ). Друг проблем, свързан с корелационната матрица, изчислена с по двойкипремахването на пропуските се случва, когато тази матрица се използва в други видове анализ (например при множествена регресия или факторен анализ). Те предполагат, че се използва "правилна" корелационна матрица с определено ниво на последователност и "съответствие" на различни коефициенти. Използването на матрица с "лоши" (предубедени) оценки води до факта, че програмата или не може да анализира такава матрица, или резултатите ще бъдат погрешни. Следователно, ако се използва метод по двойки за елиминиране на липсващи данни, е необходимо да се провери дали има или няма систематични модели в разпределението на пропуските.

Ако елиминирането по двойки на липсващи данни не води до систематично изместване на средните стойности и дисперсиите (стандартни отклонения), тогава тези статистики ще бъдат подобни на тези, изчислени с метода за премахване на пропуски по линиите. Ако има значителна разлика, тогава има основание да се предположи, че има промяна в оценките. Например, ако средната (или стандартното отклонение) на стойностите на променливата НО,който беше използван при изчисляване на корелацията му с променливата AT,много по-малко от средното (или стандартно отклонение) същите стойности на променливата НО,които са използвани при изчисляването на неговата корелация с променливата C, тогава има всички основания да се очаква, че тези две корелации (А-Бнас)въз основа на различни подгрупи от данни. Ще има промяна в корелациите, причинена от неслучайното местоположение на пропуските в стойностите на променливите.

Анализ на корелационните плеяди.След решаване на проблема със статистическата значимост на елементите на корелационната матрица, статистически значимите корелации могат да бъдат представени графично под формата на корелационна плеада или плеяди. Корелационна галактика -това е фигура, състояща се от върхове и линии, които ги свързват. Върховете съответстват на характеристиките и обикновено се означават с числа - номерата на променливите. Линиите съответстват на статистически значими връзки и графично изразяват знака, а понякога и /j-нивото на значимост на връзката.

Корелационната галактика може да отразява всичкостатистически значими връзки на корелационната матрица (наричана понякога корелационна графика ) или само тяхната смислово избрана част (например, съответстваща на един фактор според резултатите от факторния анализ).

ПРИМЕР ЗА КОНСТРУКЦИЯ НА КОРЕЛАЦИОННА ПЛЕЯДА


Подготовка за държавното (окончателно) сертифициране на завършилите: формиране на базата данни на USE (общ списък на участниците в USE от всички категории, посочващи предмети) - като се вземат предвид резервните дни в случай на съвпадение на предмети;

  • Работен план (27)

    Решение

    2. Дейностите на образователната институция за подобряване на съдържанието и оценка на качеството по предметите на естественото и математическото образование MOU средно училище № 4, Литвиновская, Чапаевская,

  • На практика коефициентът на рангова корелация (P) на Спирман често се използва за определяне на близостта на връзката между два признака. Стойностите на всяка характеристика се класират във възходящ ред (от 1 до n), след което се определя разликата (d) между ранговете, съответстващи на едно наблюдение.

    Пример #1. Връзката между обема на промишленото производство и инвестициите в основен капитал в 10 региона на един от федералните окръзи на Руската федерация през 2003 г. се характеризира със следните данни.
    Изчисли коефициенти за рангкопиеносни корелациии Кендала. Проверете тяхната значимост при α=0,05. Формулирайте заключение за връзката между обема на промишленото производство и инвестициите в дълготрайни активи в разглежданите региони на Руската федерация.

    Задайте рангове на признака Y и фактора X. Намерете сумата от разликата на квадратите d 2 .
    С помощта на калкулатора изчисляваме коефициента на рангова корелация на Spearman:

    х Y ранг X, dx ранг Y, d y (dx - dy) 2
    1.3 300 1 2 1
    1.8 1335 2 12 100
    2.4 250 3 1 4
    3.4 946 4 8 16
    4.8 670 5 7 4
    5.1 400 6 4 4
    6.3 380 7 3 16
    7.5 450 8 5 9
    7.8 500 9 6 9
    17.5 1582 10 16 36
    18.3 1216 11 9 4
    22.5 1435 12 14 4
    24.9 1445 13 15 4
    25.8 1820 14 19 25
    28.5 1246 15 10 25
    33.4 1435 16 14 4
    42.4 1800 17 18 1
    45 1360 18 13 25
    50.4 1256 19 11 64
    54.8 1700 20 17 9
    364

    Връзката между функция Y фактор X е силна и директна.

    Оценка на коефициента на рангова корелация на Спирман



    Според таблицата на ученика намираме Ttable.
    T таблица \u003d (18; 0,05) \u003d 1,734
    Тъй като Tobs > Ttabl, ние отхвърляме хипотезата, че коефициентът на рангова корелация е равен на нула. С други думи, коефициентът на рангова корелация на Spearman е статистически значим.

    Интервална оценка за коефициента на рангова корелация (доверителен интервал)
    Доверителен интервал за коефициент на рангова корелация на Spearman: p(0.5431;0.9095).

    Пример #2. Изходни данни.

    5 4
    3 4
    1 3
    3 1
    6 6
    2 2
    Тъй като матрицата има свързани рангове (един и същ номер на ранг) на 1-ви ред, ние ще ги преформатираме. Ранговете се формират отново, без да се променя важността на ранга, т.е. съответните съотношения (по-голямо, по-малко или равно) трябва да се запазят между номерата на ранга. Също така не се препоръчва да се задава ранг над 1 и под стойността, равна на броя на параметрите (в този случай n = 6). Реформирането на редиците се извършва в табл.
    Нови звания
    1 1 1
    2 2 2
    3 3 3.5
    4 3 3.5
    5 5 5
    6 6 6
    Тъй като има обвързани рангове на 2-ри ред в матрицата, ще ги преоформим. Реформирането на редиците се извършва в табл.
    Номерата на седалките в подреден редРазположение на факторите по експертна оценкаНови звания
    1 1 1
    2 2 2
    3 3 3
    4 4 4.5
    5 4 4.5
    6 6 6
    Рангова матрица.
    ранг X, dxранг Y, d y(dx - dy) 2
    5 4.5 0.25
    3.5 4.5 1
    1 3 4
    3.5 1 6.25
    6 6 0
    2 2 0
    21 21 11.5
    Тъй като сред стойностите на характеристиките x и y има няколко идентични, т.е. се формират обвързани рангове, тогава в този случай коефициентът на Спирман се изчислява като:

    където


    j - номерата на връзките по ред за функция x;
    И j е броят на еднаквите рангове в j-ти снопчрез x;
    k - броят на сноповете по ред за функция y;
    In k - броят на еднаквите редици в k-тия пакет в y.
    A = [(2 3 -2)]/12 = 0,5
    B = [(2 3 -2)]/12 = 0,5
    D = A + B = 0,5 + 0,5 = 1

    Връзката между характеристика Y и фактор X е умерена и директна.

    При наличието на две серии от стойности, подложени на класиране, е рационално да се изчисли ранговата корелация на Spearman.

    Такива редове могат да бъдат представени:

    • двойка признаци, определени в една и съща група изследвани обекти;
    • двойка отделни подчинени признаци, определени в 2 изследвани обекта от същия набор от признаци;
    • двойка групови подчинени знаци;
    • индивидуална и групова подчиненост на признаци.

    Методът включва ранжиране на показателите поотделно за всеки от признаците.

    Най-малката стойност има най-малък ранг.

    Този метод е непараметричен статистически метод, предназначени да установят наличието на връзка между изследваните явления:

    • определяне на действителната степен на паралелност между двете серии от количествени данни;
    • оценка на стегнатостта на идентифицираната връзка, изразена количествено.

    Корелационен анализ

    Статистически метод, предназначен да идентифицира наличието на връзка между 2 или повече случайни променливи (променливи), както и нейната сила, се нарича корелационен анализ.

    Името си получава от correlatio (лат.) - съотношение.

    При използването му са възможни следните сценарии:

    • наличието на корелация (положителна или отрицателна);
    • няма корелация (нула).

    В случай на установяване на връзка между променливи, говорим за тяхната корелация. С други думи, можем да кажем, че когато стойността на X се промени, непременно ще се наблюдава пропорционална промяна в стойността на Y.

    Като инструменти се използват различни мерки за връзка (коефициенти).

    Техният избор се влияе от:

    • начин за измерване на случайни числа;
    • естеството на връзката между произволни числа.

    Съществуването на корелация може да се покаже графично (графики) и с коефициент (числово показване).

    Корелацията се характеризира със следните характеристики:

    • сила на връзката (с коефициент на корелация от ±0,7 до ±1 - силна; от ±0,3 до ±0,699 - средна; от 0 до ±0,299 - слаба);
    • посока на комуникация (напред или назад).

    Цели на корелационния анализ

    Корелационният анализ не позволява да се установи причинно-следствена връзка между изследваните променливи.

    Провежда се с цел:

    • установяване на зависимост между променливи;
    • получаване на определена информация за променлива въз основа на друга променлива;
    • определяне на близостта (свързаността) на тази зависимост;
    • определяне посоката на установената връзка.

    Методи за корелационен анализ


    Този анализможе да се направи с помощта на:

    • метод на квадратите или Pearson;
    • ранг метод или Spearman.

    Методът на Pearson е приложим за изчисления, изискващи точно определяне на силата, която съществува между променливите. Признаците, изучавани с негова помощ, трябва да се изразяват само количествено.

    За да се приложи методът на Спирман или ранговата корелация, няма строги изисквания при изразяването на признаците - то може да бъде както количествено, така и атрибутивно. Благодарение на този метод се получава информация не за точното установяване на силата на връзката, а с ориентировъчен характер.

    Променливите редове могат да съдържат отворени опции. Например, когато трудовият стаж се изразява със стойности като до 1 година, повече от 5 години и т.н.

    Коефициент на корелация

    Статистическа стойност, характеризираща естеството на промяната в две променливи, се нарича корелационен коефициент или двойка коефициенткорелации. В количествено отношение той варира от -1 до +1.

    Най-често срещаните съотношения са:

    • Пиърсън– приложимо за променливи, принадлежащи към интервалната скала;
    • Копиеносец– за променливи с порядъчна скала.

    Ограничения при използването на корелационния коефициент

    Получаването на ненадеждни данни при изчисляване на коефициента на корелация е възможно в случаите, когато:

    • има достатъчен брой стойности за променливата (25-100 двойки наблюдения);
    • между изследваните променливи например се установява квадратична връзка, а не линейна;
    • във всеки случай данните съдържат повече от едно наблюдение;
    • наличието на анормални стойности (отклонения) на променливите;
    • изследваните данни се състоят от добре дефинирани подгрупи от наблюдения;
    • наличието на корелация не позволява да се установи коя от променливите може да се разглежда като причина и коя - като следствие.

    Тест за корелационна значимост

    За ставка статистикаизползва се концепцията за тяхната значимост или надеждност, която характеризира вероятността от случайно появяване на величина или нейни екстремни стойности.

    Най-често срещаният метод за определяне на значимостта на корелация е определянето на t-теста на Стюдънт.

    Стойността му се сравнява с табличната стойност, броят на степените на свобода се приема за 2. Когато изчислената стойност на критерия е по-голяма от табличната стойност, това показва значимостта на корелационния коефициент.

    При извършване на икономически изчисления се счита за достатъчно ниво на доверие от 0,05 (95%) или 0,01 (99%).

    Копиеносци редици

    Коефициентът на рангова корелация на Спирман дава възможност да се установи статистически наличието на връзка между явленията. Изчисляването му включва установяването на пореден номер за всеки атрибут - ранг. Рангът може да бъде възходящ или низходящ.

    Броят на характеристиките, които трябва да бъдат класирани, може да бъде произволен. Това е доста трудоемък процес, ограничаващ броя им. Трудностите започват, когато достигнете 20 знака.

    За да изчислите коефициента на Спирман, използвайте формулата:

    където:

    n - показва броя на класираните характеристики;

    d не е нищо повече от разликата между ранговете в две променливи;

    и ∑(d2) е сумата от квадратните разлики в ранга.

    Приложение на корелационния анализ в психологията

    Статистическа поддръжка психологически изследванияги прави по-обективни и силно представителни. Статистическа обработка на данните, получени по време на психологически експериментипомага да се извлече максимум полезна информация.

    Корелационният анализ е получил най-широко приложение при обработката на техните резултати.

    Целесъобразно е да се извърши корелационен анализ на резултатите, получени по време на изследването:

    • тревожност (според тестовете на R. Temml, M. Dorca, V. Amen);
    • семейни отношения (въпросник „Анализ на семейните отношения” (DIA) на E.G. Eidemiller, V.V. Yustitskis);
    • нивото на интерналност-външност (въпросник на E.F. Bazhin, E.A. Golynkina и A.M. Etkind);
    • нивото на емоционално прегаряне сред учителите (въпросник V.V. Boyko);
    • връзки между елементите на вербалната интелигентност на учениците в различни профили на обучение (метод на К. М. Гуревич и др.);
    • връзка между нивото на емпатия (метод на В. В. Бойко) и удовлетворението от брака (въпросник на В. В. Столин, Т. Л. Романова, Г. П. Бутенко);
    • връзки между социометричния статус на подрастващите (тест на Джейкъб Л. Морено) и стила на семейно образование (въпросник на E.G. Eidemiller, V.V. Yustitskis);
    • структури на житейски цели на юноши, отгледани в пълни семейства и семейства с един родител (въпросник Edward L. Deci, Richard M. Ryan Ryan).

    Кратки указания за провеждане на корелационен анализ по критерия на Спирман

    Извършва се корелационен анализ по метода на Spearman по следния алгоритъм:

    • сдвоените сравними признаци са подредени в 2 реда, единият от които е обозначен с X, а другият с Y;
    • стойностите на серията X са подредени във възходящ или низходящ ред;
    • последователността на подреждане на стойностите от серията Y се определя от тяхното съответствие със стойностите на серията X;
    • за всяка стойност в серията X определете ранга - задайте пореден номер от минималната стойност до максималната;
    • за всяка от стойностите в серията Y също определете ранга (от минимум до максимум);
    • изчислете разликата (D) между ранговете на X и Y, като използвате формулата D=X-Y;
    • получените стойности на разликата се повдигат на квадрат;
    • сумирайте квадратите на разликите в ранговете;
    • извършете изчисления по формулата:

    Пример за корелация на Спирман

    Необходимо е да се установи наличието на връзка между трудовия стаж и процента на наранявания при наличие на следните данни:

    Най-подходящият метод за анализ е ранговият метод, т.к един от знаците е представен под формата на отворени опции: трудов стаж до 1 година и трудов стаж 7 или повече години.

    Решаването на задачата започва с класирането на данните, което се обобщава в работен лист и може да се извърши ръчно, т.к. обемът им не е голям:

    Работен опит Брой наранявания Редни числа (класове) Разлика в ранга разлика в ранга на квадрат
    d(x-y)
    до 1 година 24 1 5 -4 16
    1-2 16 2 4 -2 4
    3-4 12 3 2,5 +0,5 0,25
    5-6 12 4 2,5 +1,5 2,5
    7 или повече 6 5 1 +4 16
    Σd2 = 38,5

    Появата на дробни рангове в колоната се дължи на факта, че в случай на появата на вариант със същата стойност се намира средната стойност аритметична стойностранг. В този пример процентът на нараняванията 12 се среща два пъти и му се присвояват рангове 2 и 3, намираме средноаритметичната стойност на тези рангове (2 + 3) / 2 = 2,5 и поставяме тази стойност в работния лист за 2 индикатора.
    Като заместим получените стойности в работната формула и направим прости изчисления, получаваме коефициента на Спирман, равен на -0,92

    Отрицателната стойност на коефициента показва наличието на обратна връзка между знаците и предполага, че краткият трудов стаж е придружен от Голям бройнаранявания. Освен това силата на връзката на тези показатели е доста голяма.
    Следващият етап от изчисленията е да се определи надеждността на получения коефициент:
    изчисляват се неговата грешка и критерият на Стюдънт

    Споделете с приятели или запазете за себе си:

    Зареждане...