Формула за рангова корелация. Пример за намиране на коефициента на рангова корелация на Спирман

- това е количествено определянестатистическо изследване на връзката между явленията, използвани в непараметричните методи.

Индикаторът показва как наблюдаваната сума от квадратни разлики между ранговете се различава от случая на липса на връзка.

Сервизно задание. С този онлайн калкулатор можете:

Коефициент на рангова корелация на Спирмансе отнася до показателите за оценка на близостта на общуване. Качествена характеристика на стегнатостта на връзката на коефициента на рангова корелация, както и други коефициенти на корелация, може да бъде оценена с помощта на скалата на Chaddock.

Изчисляване на коефициентасе състои от следните стъпки:

Свойства на коефициента на рангова корелация на Спирман

Област на приложение. Ранг коефициент на корелацияизползва се за оценка на качеството на комуникация между две групи. Освен това неговата статистическа значимостизползвани при анализ на данни за хетероскедастичност.

Пример. На извадка от данни на наблюдаваните променливи X и Y:

  1. направете таблица за класиране;
  2. намерете коефициента на рангова корелация на Spearman и тествайте неговата значимост на ниво 2a
  3. преценете естеството на пристрастяването
Решение. Задайте рангове на признака Y и фактора X.
хYранг X, dxранг Y, d y
28 21 1 1
30 25 2 2
36 29 4 3
40 31 5 4
30 32 3 5
46 34 6 6
56 35 8 7
54 38 7 8
60 39 10 9
56 41 9 10
60 42 11 11
68 44 12 12
70 46 13 13
76 50 14 14

Рангова матрица.
ранг X, dxранг Y, d y(dx - dy) 2
1 1 0
2 2 0
4 3 1
5 4 1
3 5 4
6 6 0
8 7 1
7 8 1
10 9 1
9 10 1
11 11 0
12 12 0
13 13 0
14 14 0
105 105 10

Проверка на правилността на съставянето на матрицата въз основа на изчисляването на контролната сума:

Сумата по колоните на матрицата е равна една на друга и на контролната сума, което означава, че матрицата е съставена правилно.
Използвайки формулата, изчисляваме коефициента на рангова корелация на Spearman.


Връзката между черта Y и фактор X е силна и пряка
Значение на коефициента на рангова корелация на Спирман
За да се тества нулевата хипотеза на ниво на значимост α относно равенството на общия рангов коефициент на корелация на Спирман на нула при конкурентната хипотеза H i . p ≠ 0, е необходимо да се изчисли критичната точка:

където n е размерът на извадката; ρ - Коефициент на рангова корелация на извадката на Спирман: t(α, k) - критична точка на двустранната критична област, която се намира от табл. критични точкиРазпределения на Стюдънт, според нивото на значимост α и броя на степените на свобода k = n-2.
Ако |p|< Т kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками не значима. Если |p| >T kp - нулевата хипотеза се отхвърля. Съществува значителна рангова корелация между качествените характеристики.
Според таблицата на Стюдънт намираме t(α/2, k) = (0,1/2;12) = 1,782

Тъй като T kp< ρ , то отклоняем гипотезу о равенстве 0 коэффициента ранговой корреляции Спирмена. Другими словами, коэффициент ранговой корреляции статистически - значим и ранговая корреляционная связь между оценками по двум тестам значимая.

Определяне на коефициента на рангова корелация

Методът на ранговата корелация на Spearman ви позволява да определите стегнатостта (силата) и посоката на корелацията между два знакаили два профила (йерархии)знаци.

Описание на метода

За да се изчисли корелацията на ранг, е необходимо да има два реда от стойности, които могат да бъдат класирани. Тези диапазони от стойности могат да бъдат:

1) два знакаизмерени в същата група субекти;

2) две отделни йерархии на функции,идентифицирани в два субекта според същия набор от характеристики (например профили на личността според 16-факторния въпросник на R. B. Cattell, йерархия на ценностите според метода на R. Rokeach, последователности от предпочитания при избор от няколко алтернативи и т.н.);

3) две групови йерархии на функции;

4) индивидуални и груповийерархия на характеристиките.

Първо, индикаторите се класират отделно за всяка от характеристиките. По правило на по-ниска стойност на характеристика се присвоява по-нисък ранг.

Разгледайте случай 1 (две характеристики).Тук се класират индивидуалните стойности за първата характеристика, получени от различни субекти, а след това индивидуалните стойности за втората характеристика.

Ако две характеристики са положително свързани, тогава субекти, които имат ниски рангове в едната от тях, ще имат ниски рангове в другата, а субекти, които имат високи рангове в една от характеристиките, също ще имат високи рангове в другата характеристика. За броене r с необходимо е да се определят разликите (d) между ранговете, получени от дадения субект по двете основания. След това тези показатели d се трансформират по определен начин и се изваждат от 1. Колкото по-малка е разликата между ранговете, толкова по-голямо ще бъде r s, толкова по-близо до +1.

Ако няма корелация, тогава всички рангове ще бъдат смесени и няма да има съответствие между тях. Формулата е създадена така, че в този случай r с, ще бъде близо до 0.

В случай на отрицателна корелация, ниските рангове на субектите по един атрибут ще съответстват на високи рангове по друг атрибут и обратно.

Колкото по-голямо е несъответствието между ранговете на субектите по двете променливи, толкова по-близо е r s до -1.

Разгледайте случай 2 (два индивидуални профила).Тук индивидуалните стойности, получени от всеки от двата субекта, се класират според определен (еднакъв и за двамата) набор от признаци. Първият ранг ще получи чертата с най-ниска стойност; вторият ранг е характеристика с по-висока стойност и т.н. Очевидно всички характеристики трябва да се измерват в едни и същи единици, в противен случай класирането е невъзможно. Например, невъзможно е да се класират показатели според личностния въпросник на Cattell (16 PF), ако са изразени в "сурови" резултати, тъй като диапазоните на стойностите са различни за различните фактори: от 0 до 13, от 0 до 20 и от 0 до 26. Не можем да кажем кой от факторите ще вземе първо място по отношение на тежестта, но няма да приведем всички стойности в една скала (най-често това е скалата на стените).

Ако отделните йерархии на два субекта са положително свързани, тогава характеристиките, които имат ниски рангове за един от тях, ще имат ниски рангове за другия и обратно. Например, ако фактор E (доминиране) има най-нисък ранг за един субект, тогава за друг субект той трябва да има нисък ранг, ако фактор C (емоционална стабилност) има най-висок ранг за един субект, тогава другият субект трябва да има висок ранг за този фактор ранг и т.н.

Разгледайте случай 3 (два групови профила).Тук средните групови стойности, получени в 2 групи субекти, се класират според определен набор от характеристики, който е еднакъв за двете групи. По-нататък разсъжденията са същите като в предишните два случая.

Разгледайте случай 4 (индивидуални и групови профили).Тук индивидуалните стойности на субекта и средните групови стойности се класират отделно за един и същ набор от характеристики, които се получават, като правило, чрез изключване на този индивидуален субект - той не участва в профила на средната група, с които ще се сравнява индивидуалния му профил. Корелацията по ранг ще ви позволи да проверите колко последователни са индивидуалните и груповите профили.

И в четирите случая значимостта на получения корелационен коефициент се определя от броя на класираните стойности Н.В първия случай това число ще съвпадне с размера на извадката n. Във втория случай броят на наблюденията ще бъде броят на характеристиките, които съставляват йерархията. В третия и четвъртия случай Н-това е и броят на сравняваните характеристики, а не броят на субектите в групите. Подробни обяснения са дадени в примерите.

Ако абсолютната стойност на r s достигне или надвиши критична стойност, корелацията е значителна.

Хипотези

Има две възможни хипотези. Първият се отнася за случай 1, вторият за останалите три случая.

Първата версия на хипотезите

H 0: Корелацията между променливите A и B е различна от нула.

H 1: Корелацията между променливи A и B е значително различна от нула.

Втората версия на хипотезите

H 0: Корелацията между йерархиите A и B е различна от нула.

H1: Корелацията между йерархии A и B е значително различна от нула.

Графично представяне на метода на ранговата корелация

Най-често корелацията се представя графично под формата на облак от точки или под формата на линии, отразяващи общата тенденция в разположението на точките в пространството на две оси: осите на характеристика A и характеристика B (виж фиг. 6.2).

Нека се опитаме да изобразим ранговата корелация като две серии от класирани стойности, които са свързани по двойки с линии (фиг. 6.3). Ако ранговете на атрибут A и на атрибут B съвпадат, тогава между тях има хоризонтална линия, ако ранговете не съвпадат, тогава линията става наклонена. Колкото по-голямо е несъответствието в ранга, толкова по-наклонена става линията. Отляво на фиг. 6.3 показва най-високата възможна положителна корелация (r in = +1.0) - практически това е "стълба". В центъра се показва нулева корелация - плитка с неправилни тъкани. Всички рангове са смесени тук. Най-високата отрицателна корелация (r s =-1.0) се показва вдясно - мрежа с правилно преплитане на линии.

Ориз. 6.3. Графично представяне на ранговата корелация:

а) висока положителна корелация;

б) нулева корелация;

в) висока отрицателна корелация

Ограничениярангов коефициенткорелации

1. Най-малко 5 наблюдения трябва да бъдат представени за всяка променлива. Горната граница на извадката се определя от наличните таблици на критичните стойности (Таблица XVI от Приложение 1), а именно н40.

2. Коефициентът на рангова корелация на Spearman r s с голям брой идентични рангове за една или и двете сравнявани променливи дава груби стойности. В идеалния случай и двете корелирани серии трябва да бъдат две поредици от несъвпадащи стойности. Ако това условие не е изпълнено, е необходимо да се направи корекция за същите рангове. Съответната формула е дадена в пример 4.

Пример 1 - Корелациямежду двамазнаци

В проучване, симулиращо дейността на ръководител на полети (Одеришев Б.С., Шамова Е.П., Сидоренко Е.В., Ларченко Н.Н., 1978), група субекти, студенти от Физическия факултет на Ленинградския държавен университет, бяха обучени преди да започнат работа по симулатор. Субектите трябваше да решат проблема с избора на оптималния тип писта за даден тип самолет. Свързан ли е броят на грешките, допуснати от субектите в тренировъчната сесия, с показателите за вербална и невербална интелигентност, измерени по метода на Д. Векслер?

Таблица 6.1

Индикатори за броя на грешките в учебната сесия и показатели за нивото на вербална и невербална интелигентност сред студентите по физика (N=10)

тестов обект

Брой грешки

Резултат за вербална интелигентност

Резултат за невербална интелигентност

Първо, нека се опитаме да отговорим на въпроса дали показателите за броя на грешките и вербалната интелигентност са свързани.

Да формулираме хипотези.

H 0: Корелацията между броя на грешките в тренировъчната сесия и нивото на вербална интелигентност не се различава от нула.

H1 : Корелацията между показателя за броя на грешките в тренировъчната сесия и нивото на вербална интелигентност е статистически значимо различна от нула.

След това трябва да класираме и двата индикатора, приписвайки по-нисък ранг на по-малката стойност, след това да изчислим разликите между ранговете, които всеки субект е получил за две променливи (характеристики), и да повдигнем тези разлики на квадрат. Ние ще направим всички необходими изчисления в таблицата.

В табл. 6.2 в първата колона вляво са стойностите по отношение на броя на грешките; в следващата колона, техните редици. Третата колона отляво представя стойности за вербална интелигентност; следващата колона е техните редици. Петият отляво показва разликите д между ранга в променлива A (брой грешки) и променлива B (вербален интелект). Последната колона показва квадратите на разликите - д 2 .

Таблица 6.2

Изчисляване д 2 за коефициента на рангова корелация на Spearman r s при сравняване на показателите за броя на грешките и вербалната интелигентност сред студентите по физика (N=10)

тестов обект

Променлива А

брой грешки

Променлива Б

вербална интелигентност.

д (ранг А -

Дж 2

Индивидуален

стойности

Индивидуален

стойности

Коефициентът на рангова корелация на Spearman се изчислява по формулата:

където д - разликата между ранговете на двете променливи за всеки субект;

Н-брой класирани стойности, c. в този случай броят на субектите.

Нека изчислим емпиричната стойност на r s:

Получената емпирична стойност на r s е близка до 0. И все пак определяме критичните стойности на r s при N=10 съгласно табл. XVI Приложение 1:

Отговор: H 0 се получава. Корелацията между показателя за броя на грешките в тренировъчната сесия и нивото на вербална интелигентност не се различава от нула.

Сега нека се опитаме да отговорим на въпроса дали показателите за броя на грешките и невербалната интелигентност са свързани.

Да формулираме хипотези.

H 0: Корелацията между броя на грешките в тренировъчната сесия и нивото на невербална интелигентност не се различава от 0.

H 1: Корелацията между броя на грешките в тренировъчната сесия и нивото на невербална интелигентност е статистически значимо различна от 0.

Резултатите от класирането и сравнението на ранговете са представени в табл. 6.3.

Таблица 6.3

Изчисляване д 2 за коефициента на рангова корелация на Spearman r s при сравняване на показателите за броя на грешките и невербалната интелигентност сред студентите по физика (N=10)

тестов обект

Променлива А

брой грешки

Променлива Е

невербална интелигентност

д (ранг А -

д 2

Индивидуален

Индивидуален

стойности

стойности

Спомняме си, че за определяне на значимостта на r s няма значение дали е положителна или отрицателна, важна е само нейната абсолютна стойност. В такъв случай:

r s emp

Отговор: H 0 се получава. Корелацията между показателя за броя на грешките в тренировъчната сесия и нивото на невербална интелигентност е случайна, r s не се различава от 0.

Все пак можем да обърнем внимание на определена тенденция отрицателенвръзка между тези две променливи. Може би бихме могли да го потвърдим на статистически значимо ниво, ако увеличим размера на извадката.

Пример 2 - корелация между отделните профили

В проучване, посветено на проблемите на ценностната преориентация, йерархиите на терминалните ценности са идентифицирани според метода на M. Rokeach при родители и техните възрастни деца (Sidorenko E.V., 1996). Ранговете на терминалните стойности, получени по време на изследването на двойка майка-дъщеря (майка - 66 години, дъщери - 42 години) са представени в табл. 6.4. Нека се опитаме да определим как тези ценностни йерархии корелират една с друга.

Таблица 6.4

Ранговете на крайните стойности според списъка на M. Rokeach в индивидуалните йерархии на майка и дъщеря

крайни стойности

Рангът на ценностите в

Рангът на ценностите в

д 2

йерархия на майката

дъщерна йерархия

1 Активен активен живот

2 Житейска мъдрост

3 Здраве

4 Интересна работа

5 Красотата на природата и изкуството

7 Финансово осигурен живот

8 Да имаш добри и верни приятели

9 Обществено признание

10 Познание

11 Продуктивен живот

12 Развитие

13 Развлечения

14 Свобода

15 Щастлив семеен живот

16 Щастието на другите

17 Творчество

18 самочувствие

Да формулираме хипотези.

H 0: Корелацията между йерархиите на крайната стойност на майката и дъщерята не се различава от нула.

H 1: Корелацията между йерархиите на терминалните стойности на майката и дъщерята е статистически значимо различна от нула.

Тъй като класирането на стойностите се подразбира от самата изследователска процедура, трябва само да изчислим разликите между ранговете на 18-те стойности в двете йерархии. В 3-та и 4-та колона на табл. 6.4 представя разликите д и квадратите на тези разлики д 2 .

Определяме емпиричната стойност r s по формулата:

където д - разлики между ранговете за всяка от променливите, в случая за всяка от крайните стойности;

н- броят на променливите, образуващи йерархията, в този случай броят на стойностите.

За този пример:

Според табл. XVI Приложение 1 определя критичните стойности:

Отговор: H 0 се отхвърля. H 1 се приема. Корелацията между йерархиите на терминалните стойности на майката и дъщерята е статистически значима (стр<0,01) и является положительной.

Според табл. 6.4 можем да определим, че основните разлики са в ценностите "Щастлив семеен живот", "Обществено признание" и "Здраве", редиците на други ценности са доста близки.

Пример 3 - Корелация между две групови йерархии

Джоузеф Уолпе в книга, написана съвместно със сина му (Wolpe J., Wolpe D., 1981) дава подреден списък на най-често срещаните „безполезни“ страхове в съвременния човек, както той ги нарича, които не носят сигнална стойност и само пречат на пълноценния живот и действие. В местно проучване, проведено от M.E. Рахова (1994) 32 субекта трябваше да оценят по 10-бална скала колко уместен е за тях този или онзи вид страх от списъка Volpe 3. Изследваната извадка се състоеше от студенти от Хидрометеорологичните и Педагогическите институти на Санкт Петербург: 15 момчета и 17 момичета на възраст от 17 до 28 години, средна възраст 23 години.

Данните, получени по 10-точкова скала, бяха осреднени за 32 субекта и средните стойности бяха класирани. В табл. 6.5 са представени рейтинговите показатели, получени от J. Volpe и M. E. Rakhova. Съвпадат ли последователностите за класиране на 20-те вида страх?

Да формулираме хипотези.

H 0: Корелацията между подредените списъци с видове страх в американската и местната извадка не се различава от нула.

H 1: Корелацията между подредените списъци с видове страх в американската и руската извадка е статистически значимо различна от нула.

Всички изчисления, свързани с изчисляването и квадратурата на разликите между ранговете на различните видове страх в две извадки, са представени в табл. 6.5.

Таблица 6.5

Изчисляване д за коефициента на рангова корелация на Спирман при сравняване на подредени списъци с видове страх в американски и руски проби

Видове страх

Класиране в американската извадка

Ранг на руски

Страх от публично говорене

Страх от летене

Страх от грешка

Страх от провал

Страх от неодобрение

Страх от отхвърляне

Страх от зли хора

Страх да останеш сам

Страх от кръв

Страх от отворени рани

Страх от зъболекар

Страх от инжекции

Страх от вземане на тестове

Страх от полиция ^милиция)

Страх от височини

страх от кучета

Страх от паяци

Страх от осакатени хора

Страх от болници

Страх от тъмното

Определяме емпиричната стойност r s:

Според табл. XVI Приложение 1 определя критичните стойности на g s при N=20:

Отговор: H 0 се получава. Корелацията между подредените списъци от видове страх в американската и руската извадка не достига нивото на статистическа значимост, т.е. не се различава значително от нула.

Пример 4 - Корелация между индивидуални и групови средни профили

Извадка от жители на Санкт Петербург на възраст от 20 до 78 години (31 мъже, 46 жени), балансирани по възраст по такъв начин, че хората на възраст над 55 години представляват 50% от тях 4 , беше помолена да отговори на въпроса: " Какво е нивото на развитие на всяко от следните качества, необходимо за депутат от градското събрание на Санкт Петербург?" (Сидоренко Е.В., Дерманова И.Б., Анисимова О.М., Витенберг Е.В., Шулга А.П., 1994 г.). Оценката е извършена по 10-бална система. Успоредно с това беше анкетирана извадка от депутати и кандидати за депутати в Градското събрание на Санкт Петербург (n=14). Индивидуалната диагностика на политици и кандидати беше извършена с помощта на Оксфордската система за експресна видеодиагностика според същия набор от лични качества, който беше представен на извадка от избиратели.

В табл. 6.6 показва средните стойности, получени за всяко от качествата визвадка от гласоподаватели ("референтен ред") и индивидуални стойности на един от депутатите на Градското събрание.

Нека се опитаме да определим как индивидуалният профил на заместника на K-va корелира с референтния профил.

Таблица 6.6

Осреднени референтни оценки на избирателите (n=77) и индивидуални показатели на депутата от К-ва по 18 лични качества на експресна видеодиагностика

Име на качеството

Средни показатели за избиратели

Индивидуални показатели на зам.К-ва

1. Общо ниво на култура

2. Възможност за обучение

4. Способност за създаване на нещо ново

5. Самокритика

6. Отговорност

7. Разчитане на собствените сили

8. Енергия, активност

9. Целенасоченост

10. Издръжливост, самоконтрол

I. Постоянство

12. Личностна зрялост

13. Благоприличие

14. Хуманизъм

15. Умение за общуване с хора

16. Толерантност към чуждото мнение

17. Гъвкавост на поведението

18. Способност да правите благоприятно впечатление

Таблица 6.7

Изчисляване д 2 за коефициента на рангова корелация на Spearman между референтния и индивидуалния профил на личните качества на депутата

Име на качеството

качествен ранг в референтния профил

Ред 2: Ранг на качеството в индивидуалния профил

д 2

1 Отговорност

2 Почтеност

3 Способност за общуване с хора

4 Издръжливост, самоконтрол

5 Общо ниво на култура

6 Енергия, активност

8 Самокритика

9 Автономия

10 Лична зрялост

И Целенасоченост

12 Възможност за обучение

13 Хуманизъм

14 Толерантност към чуждото мнение

15 Сила на духа

16 Гъвкавост на поведението

17 Способност да правите благоприятно впечатление

18 Възможност за създаване на нови

Както се вижда от табл. 6.6 оценките на избирателите и индивидуалните показатели на депутата варират в различни граници. Действително оценките на избирателите са получени по 10-бална скала, а индивидуалните показатели за експресна видеодиагностика се измерват по 20-бална скала. Класирането ни позволява да преведем двете измервателни скали в една скала, където мерната единица ще бъде 1 ранг, а максималната стойност ще бъде 18 ранга.

Класирането, както си спомняме, трябва да се извършва отделно за всяка серия от стойности. В този случай е препоръчително да присвоите по-нисък ранг на по-висока стойност, така че веднага да видите на какво място по отношение на значимостта (за избирателите) или по отношение на тежестта (за депутат) се намира това или онова качество .

Резултатите от класирането са представени в табл. 6.7. Качествата са изброени в последователност, която отразява референтния профил.

Да формулираме хипотези.

H 0: Корелацията между индивидуалния профил на депутата от К-ва и референтния профил, изграден на базата на оценки на избирателите, не се различава от нула.

H 1: Корелацията между индивидуалния профил на депутата от К-ва и референтния профил, изграден на базата на оценки на избирателите, е статистически значимо различна от нула. Тъй като и двете сравнени класационни серии съдържат

групи от еднакви рангове, преди да се изчисли ранговият коефициент

корелация, е необходимо да се коригират за същите рангове T a и T b :

където а -обемът на всяка група от еднакви рангове в ранг ред А,

b - обемът на всяка група от еднакви рангове в серията рангове B.

В този случай в ред А (референтен профил) има една група от еднакви рангове – качествата „способност за учене” и „хуманизъм” са с еднакъв ранг 12,5; Следователно, а=2.

T a \u003d (2 3 -2) / 12 \u003d 0,50.

В ред B (индивидуален профил) има две групи от еднакви степени, докато b 1 =2 и b 2 =2.

T a =[(2 3 -2)+(2 3 -2)]/12=1,00

За да изчислим емпиричната стойност на r s, използваме формулата

В такъв случай:

Обърнете внимание, че ако не въведохме корекция за същите рангове, тогава стойността на r s би била само (с 0,0002) по-висока:

За голям брой еднакви рангове промените в r 5 могат да се окажат много по-значими. Наличието на едни и същи рангове означава по-малка степен на диференцирани™ подредени променливи и, следователно, по-ниска способност да се оцени степента на връзка между тях (Sukhodolsky G.V., 1972, p. 76).

Според табл. XVI Приложение 1 определя критичните стойности на r, при N=18:

Отговор: hq е отхвърлен. Корелацията между индивидуалния профил на депутата от Q-va и референтния профил, който отговаря на изискванията на избирателите, е статистически значима (p<0,05) и является положи­тельной.

От табл. 6.7 се вижда, че Заместник K-v има по-нисък ранг по скалите Способност за общуване с хората и по-висок ранг по скалите Целеустременост и Сила на духа от предписаните от изборния стандарт. Тези несъответствия обясняват главно известно намаление на получените r s .

Нека формулираме общ алгоритъм за броене на r s .

Коефициентът на корелация на ранговете, предложен от К. Спирман, се отнася до непараметрични показатели за връзката между променливите, измерени по рангова скала. При изчисляването на този коефициент не се изискват предположения относно естеството на разпределението на признаците в генералната съвкупност. Този коефициент определя степента на близост на връзката на порядковите признаци, които в този случай представляват редиците на сравняваните стойности.

Стойността на коефициента на корелация на Spearman също е в диапазона от +1 и -1. Той, подобно на коефициента на Пиърсън, може да бъде положителен и отрицателен, характеризирайки посоката на връзката между два признака, измерени в ранговата скала.

По принцип броят на класираните характеристики (качества, черти и т.н.) може да бъде произволен, но процесът на класиране на повече от 20 характеристики е труден. Възможно е поради тази причина таблицата с критични стойности на коефициента на рангова корелация да е изчислена само за четиридесет класирани характеристики (n< 40, табл. 20 приложения 6).

Коефициентът на рангова корелация на Spearman се изчислява по формулата:

където n е броят на класираните характеристики (индикатори, предмети);

D е разликата между ранговете в две променливи за всеки субект;

Сума от квадратни разлики в ранга.

Използвайки коефициента на рангова корелация, разгледайте следния пример.

Пример: Психологът установява как са взаимосвързани индивидуалните показатели за готовност за училище, получени преди започване на обучението на 11 първокласници и средната им успеваемост в края на учебната година.

За да разрешим този проблем, ние класирахме, първо, стойностите на показателите за училищна готовност, получени при влизане в училище, и, второ, крайните показатели за представяне в края на годината за същите тези ученици средно. Резултатите са представени в табл. 13.

Таблица 13

Брой студенти

Ранове на показателите за училищна готовност

Рангове на средногодишно представяне

Заместваме получените данни във формулата и извършваме изчислението. Получаваме:

За да намерим нивото на значимост, се обръщаме към табл. 20 от Приложение 6, където са дадени критичните стойности за коефициентите на рангова корелация.

Подчертаваме, че в табл. 20 Приложение 6, както и в таблицата за линейната корелация на Пиърсън, всички стойности на корелационните коефициенти са дадени в абсолютна стойност. Следователно знакът на коефициента на корелация се взема предвид само при интерпретирането му.

Намирането на нивата на значимост в тази таблица се извършва според числото n, т.е. според броя на субектите. В нашия случай n = 11. За това число намираме:

0,61 за P 0,05

0,76 за P 0,01

Изграждаме съответната ``ос на значимост"":

Полученият коефициент на корелация съвпадна с критичната стойност за ниво на значимост от 1%. Следователно може да се твърди, че показателите за училищна готовност и крайните оценки на първокласниците са в положителна корелация – с други думи, колкото по-висок е показателят за училищна готовност, толкова по-добре учи първокласникът. От гледна точка на статистическите хипотези, психологът трябва да отхвърли нулевата хипотеза за сходство и да приеме алтернативната (но разлика) хипотеза, която казва, че връзката между готовността за училище и средното представяне е различна от нула.

Случай на еднакви (равни) рангове

При наличието на едни и същи рангове формулата за изчисляване на коефициента на линейна корелация на Spearman ще бъде малко по-различна. В този случай към формулата за изчисляване на коефициентите на корелация се добавят два нови члена, като се вземат предвид същите рангове. Те се наричат ​​корекции за едни и същи рангове и се добавят към числителя на формулата за изчисление.

където n е броят на еднаквите рангове в първата колона,

k е броят на еднаквите рангове във втората колона.

Ако има две групи от еднакви рангове във всяка колона, тогава формулата за корекция става малко по-сложна:

където n е броят на еднакви рангове в първата група на класираната колона,

k е броят на равните рангове във втората група на класираната колона. Модификацията на формулата в общия случай е следната:

Пример: Психолог, използвайки тест за умствено развитие (ISTU), провежда изследване на интелигентността на 12 ученици в 9 клас. В същото време той моли учителите по литература и математика да класират същите тези ученици по показатели за умствено развитие. Задачата е да се установи как са свързани обективните показатели за умствено развитие (данни от STI) и експертните оценки на учителите.

Експерименталните данни от тази задача и допълнителните колони, необходими за изчисляване на коефициента на корелация на Спирман, са представени под формата на таблица. четиринадесет.

Таблица 14

Брой студенти

Рангове на тестване с помощта на SHTUR

Експертни оценки на учителите по математика

Експертни оценки на учителите по литература

D (втора и трета колона)

D (втора и четвърта колона)

(втора и трета колона)

(втора и четвърта колона)

Тъй като при класирането са използвани едни и същи рангове, е необходимо да се провери коректността на класирането във втора, трета и четвърта колона на таблицата. Сумирането във всяка от тези колони дава една и съща сума - 78.

Проверяваме според формулата за изчисление. Чекът дава:

Петата и шестата колона на таблицата показват стойностите на разликата в ранговете между експертните оценки на психолога по STUD теста за всеки ученик и стойностите на експертните оценки на учителите съответно по математика и литература . Сумата от разликите в ранга трябва да е равна на нула. Сумирането на стойностите на D в петата и шестата колона даде желания резултат. Следователно изваждането на ранговете е извършено правилно. Подобна проверка трябва да се прави всеки път, когато се извършват сложни видове класиране.

Преди да започнете изчислението по формулата, е необходимо да изчислите корекциите за същите рангове за втората, третата и четвъртата колона на таблицата.

В нашия случай във втората колона на таблицата има два еднакви ранга, следователно според формулата корекционната стойност на D1 ще бъде:

В третата колона има три еднакви ранга, следователно според формулата корекционната стойност D2 ще бъде:

В четвъртата колона на таблицата има две групи от три еднакви ранга, следователно според формулата корекционната стойност на D3 ще бъде:

Преди да пристъпим към решаване на проблема, нека си припомним, че психологът открива два въпроса - как стойностите на ранговете на теста STUR са свързани с експертните оценки по математика и литература. Ето защо изчислението се извършва два пъти.

Разглеждаме коефициента на първи ранг, като вземем предвид добавките по формулата. Получаваме:

Нека изчислим, без да вземаме предвид добавката:

Както можете да видите, разликата в стойностите на коефициентите на корелация се оказа много незначителна.

Разглеждаме коефициента на втори ранг, като вземем предвид добавките по формулата. Получаваме:

Нека изчислим, без да вземаме предвид добавката:

Отново разликите бяха много малки. Тъй като броят на учениците и в двата случая е еднакъв, според табл. 20 Приложение 6 намираме критичните стойности при n = 12 за двата коефициента на корелация наведнъж.

0,58 за P 0,05

0,73 за P 0,01

Начертайте първата стойност на ``оста на значимост"":

В първия случай полученият коефициент на рангова корелация е в зоната на значимост. Следователно, психологът трябва да отхвърли нулевата хипотеза, че коефициентът на корелация е подобен на нула и да приеме алтернативната хипотеза, че коефициентът на корелация е значително различен от нула. С други думи, полученият резултат предполага, че колкото по-високи са експертните резултати на студентите на теста STUD, толкова по-високи са техните експертни резултати по математика.

Начертайте втората стойност на ``оста на значимост"":

Във втория случай коефициентът на рангова корелация е в зоната на несигурност. Следователно, психологът може да приеме нулевата хипотеза, че коефициентът на корелация е подобен на нула и да отхвърли алтернативната хипотеза, че коефициентът на корелация е значително различен от нула. В този случай полученият резултат показва, че експертните оценки на студентите по теста STUD не са свързани с експертните оценки по литература.

За да се приложи коефициентът на корелация на Spearman, трябва да бъдат изпълнени следните условия:

1. Променливите, които се сравняват, трябва да бъдат получени по ординална (рангова) скала, но могат да бъдат измерени и по скала от интервали и съотношения.

2. Естеството на разпределението на корелираните стойности няма значение.

3. Броят на вариращите характеристики в сравняваните променливи X и Y трябва да бъде еднакъв.

Таблиците за определяне на критичните стойности на коефициента на корелация на Спирман (Таблица 20, Приложение 6) се изчисляват от броя на знаците, равен на n = 5 до n = 40, и с по-голям брой сравнявани променливи, таблицата за Трябва да се използва корелационният коефициент на Pearson (Таблица 19, Приложение 6). Намирането на критични стойности се извършва при k = n.

Коефициент на корелация на Пиърсън

Коефициент р- Pearson се използва за изследване на връзката на две метрични променливи, измерени върху една и съща проба. Има много ситуации, в които е подходящо да се използва. Влияе ли интелигентността на представянето на студентите? Свързана ли е заплатата на един служител с добронамереността му към колегите? Влияе ли настроението на ученика върху успеха при решаването на сложна аритметична задача? За да отговори на такива въпроси, изследователят трябва да измери два показателя, представляващи интерес за всеки член на извадката.

Стойността на коефициента на корелация не се влияе от единиците, в които са представени признаците. Следователно всякакви линейни трансформации на признаци (умножение по константа, добавяне на константа) не променят стойността на корелационния коефициент. Изключение е умножаването на един от знаците с отрицателна константа: коефициентът на корелация променя знака си на противоположния.

Приложение на корелацията на Спирман и Пиърсън.

Корелацията на Пиърсън е мярка за линейната връзка между две променливи. Тя ви позволява да определите колко пропорционална е променливостта на две променливи. Ако променливите са пропорционални една на друга, тогава графично връзката между тях може да бъде представена като права линия с положителен (пряка пропорция) или отрицателен (обратна пропорция) наклон.

На практика връзката между две променливи, ако има такава, е вероятностна и графично изглежда като елипсоидален разпръснат облак. Този елипсоид обаче може да бъде представен (апроксимиран) като права линия или регресионна линия. Регресионната линия е права линия, конструирана чрез метода на най-малките квадрати: сумата от квадратите на разстоянията (изчислени по оста y) от всяка точка на диаграмата на разсейване до линията е минимална.

От особено значение за оценка на точността на прогнозата е дисперсията на оценките на зависимата променлива. По същество дисперсията на оценките на зависимата променлива Y е тази част от нейната обща дисперсия, която се дължи на влиянието на независимата променлива X. С други думи, съотношението на дисперсията на оценките на зависимата променлива към нейната истинска дисперсия е равен на квадрата на корелационния коефициент.

Квадратът на корелационния коефициент на зависимите и независимите променливи представлява съотношението на дисперсията на зависимата променлива поради влиянието на независимата променлива и се нарича коефициент на детерминация. Следователно коефициентът на детерминация показва степента, в която променливостта на една променлива се дължи (определя) от влиянието на друга променлива.

Коефициентът на детерминация има важно предимство пред коефициента на корелация. Корелацията не е линейна функция на връзката между две променливи. Следователно средноаритметичната стойност на коефициентите на корелация за няколко проби не съвпада с корелацията, изчислена веднага за всички субекти от тези проби (т.е. коефициентът на корелация не е адитивен). Напротив, коефициентът на определяне отразява връзката линейно и следователно е адитивен: може да бъде осреднен за няколко проби.

Допълнителна информация за силата на връзката се дава от стойността на корелационния коефициент на квадрат - коефициентът на детерминация: това е частта от дисперсията на една променлива, която може да се обясни с влиянието на друга променлива. За разлика от коефициента на корелация, коефициентът на детерминация нараства линейно с увеличаване на силата на връзката.

Корелационните коефициенти на Спирман и τ - Кендъл (рангови корелации )

Ако и двете променливи, между които се изследва връзката, са представени в ординална скала или едната от тях е в ординална скала, а другата е в метрична скала, тогава се прилагат коефициентите на рангова корелация: Spearman или τ - Кендел. И двата коефициента изискват предварително класиране на двете променливи за тяхното приложение.

Коефициентът на рангова корелация на Спирман е непараметричен метод, който се използва за статистическо изследване на връзката между явленията. В този случай се определя действителната степен на паралелизъм между двата количествени реда на изследваните признаци и се дава оценка за стегнатостта на установената връзка с помощта на количествено изразен коефициент.

Ако членовете на групата са класирани първо по променливата x, след това по променливата y, тогава корелацията между променливите x и y може да се получи чрез просто изчисляване на коефициента на Pearson за двете рангови серии. При условие, че няма връзки в ранговете (т.е. няма повтарящи се класации) за която и да е променлива, формулата за Pearson може да бъде значително опростена изчислително и преобразувана във формулата, известна като Spearman.

Мощността на коефициента на рангова корелация на Spearman е малко по-ниска от мощността на параметричния коефициент на корелация.

Препоръчително е да използвате коефициента на рангова корелация при наличие на малък брой наблюдения. Този метод може да се използва не само за количествени данни, но и в случаите, когато записаните стойности се определят от описателни характеристики с различна интензивност.

Коефициентът на рангова корелация на Spearman с голям брой идентични рангове за една или и двете сравнявани променливи дава груби стойности. В идеалния случай и двете корелирани серии трябва да бъдат две поредици от несъвпадащи стойности

Алтернатива на корелацията на Спирман за ранговете е корелацията τ - Кендъл. Корелацията, предложена от М. Кендъл, се основава на идеята, че посоката на връзката може да се прецени чрез сравняване на субектите по двойки: ако двойка субекти има промяна в x, която съвпада по посока с промяна в y, тогава това показва положителна връзка, ако не съвпада - нещо за отрицателна връзка.

Коефициентите на корелация са специално разработени, за да определят числено силата и посоката на връзката между две свойства, измерени на цифрови скали (метрични или рангови). Както вече беше споменато, стойностите на корелация +1 (строга пряка или правопропорционална връзка) и -1 (строга обратна или обратно пропорционална връзка) съответстват на максималната сила на връзката, корелацията, равна на нула, съответства на липсата на връзка. Допълнителна информация за силата на връзката се дава от стойността на коефициента на детерминация: това е частта от дисперсията на една променлива, която може да се обясни с влиянието на друга променлива.

9. Параметрични методи за сравнение на данни

Методите за параметрично сравнение се прилагат, ако вашите променливи са измерени по метрична скала.

Сравнение на дисперсии 2- x проби чрез теста на Фишер .


Този метод ви позволява да тествате хипотезата, че дисперсиите на 2 генерални съвкупности, от които са извлечени сравнените проби, се различават една от друга. Ограничения на метода - разпределението на признака в двете проби не трябва да се различава от нормалното.

Алтернатива на сравняването на дисперсии е тестът на Lieven, за който не е необходимо да се тества за нормално разпределение. Този метод може да се използва за тестване на предположението за равенство (хомогенност) на дисперсиите, преди да се провери надеждността на разликата в средните стойности чрез t-теста на Стюдънт за независими проби с различни размери.

На практика коефициентът на рангова корелация (P) на Спирман често се използва за определяне на близостта на връзката между два признака. Стойностите на всяка характеристика се класират във възходящ ред (от 1 до n), след което се определя разликата (d) между ранговете, съответстващи на едно наблюдение.

Пример #1. Връзката между обема на промишленото производство и инвестициите в основен капитал в 10 региона на един от федералните окръзи на Руската федерация през 2003 г. се характеризира със следните данни.
Изчисли Коефициенти на рангова корелация на Спирмани Кендала. Проверете тяхната значимост при α=0,05. Формулирайте заключение за връзката между обема на промишленото производство и инвестициите в дълготрайни активи в разглежданите региони на Руската федерация.

Задайте рангове на признака Y и фактора X. Намерете сумата от разликата на квадратите d 2 .
С помощта на калкулатора изчисляваме коефициента на рангова корелация на Spearman:

х Y ранг X, dx ранг Y, d y (dx - dy) 2
1.3 300 1 2 1
1.8 1335 2 12 100
2.4 250 3 1 4
3.4 946 4 8 16
4.8 670 5 7 4
5.1 400 6 4 4
6.3 380 7 3 16
7.5 450 8 5 9
7.8 500 9 6 9
17.5 1582 10 16 36
18.3 1216 11 9 4
22.5 1435 12 14 4
24.9 1445 13 15 4
25.8 1820 14 19 25
28.5 1246 15 10 25
33.4 1435 16 14 4
42.4 1800 17 18 1
45 1360 18 13 25
50.4 1256 19 11 64
54.8 1700 20 17 9
364

Връзката между функция Y фактор X е силна и директна.

Оценка на коефициента на рангова корелация на Спирман



Според таблицата на ученика намираме Ttable.
T таблица \u003d (18; 0,05) \u003d 1,734
Тъй като Tobs > Ttabl, ние отхвърляме хипотезата, че коефициентът на рангова корелация е равен на нула. С други думи, коефициентът на рангова корелация на Spearman е статистически значим.

Интервална оценка за коефициента на рангова корелация (доверителен интервал)
Доверителен интервалза коефициент на рангова корелация на Spearman: p(0.5431;0.9095).

Пример #2. Изходни данни.

5 4
3 4
1 3
3 1
6 6
2 2
Тъй като матрицата има свързани рангове (един и същ номер на ранг) на 1-ви ред, ние ще ги преформатираме. Ранговете се формират отново, без да се променя важността на ранга, т.е. съответните съотношения (по-голямо, по-малко или равно) трябва да се запазят между номерата на ранга. Също така не се препоръчва да се задава ранг над 1 и под стойността, равна на броя на параметрите (в този случай n = 6). Реформирането на редиците се извършва в табл.
Нови звания
1 1 1
2 2 2
3 3 3.5
4 3 3.5
5 5 5
6 6 6
Тъй като има обвързани рангове на 2-ри ред в матрицата, ще ги преоформим. Реформирането на редиците се извършва в табл.
Номерата на седалките в подреден редРазположение на факторите по експертна оценкаНови звания
1 1 1
2 2 2
3 3 3
4 4 4.5
5 4 4.5
6 6 6
Рангова матрица.
ранг X, dxранг Y, d y(dx - dy) 2
5 4.5 0.25
3.5 4.5 1
1 3 4
3.5 1 6.25
6 6 0
2 2 0
21 21 11.5
Тъй като сред стойностите на характеристиките x и y има няколко идентични, т.е. се формират обвързани рангове, тогава в този случай коефициентът на Спирман се изчислява като:

където


j - номерата на връзките по ред за функция x;
И j е броят на еднаквите рангове в j-тия пакет в x;
k - броят на сноповете по ред за функция y;
In k - броят на еднаквите редици в k-тия пакет в y.
A = [(2 3 -2)]/12 = 0,5
B = [(2 3 -2)]/12 = 0,5
D = A + B = 0,5 + 0,5 = 1

Връзката между характеристика Y и фактор X е умерена и директна.
Споделете с приятели или запазете за себе си:

Зареждане...