Тест на Студент за значимостта на корелацията. Статистическа значимост на регресионните и корелационни параметри

Корелационният тест на Pearson е параметричен статистически метод, който ви позволява да определите наличието или отсъствието на линейна връзка между два количествени показателя, както и да оцените неговата близост и статистическа значимост. С други думи, корелационният тест на Pearson ви позволява да определите дали има линейна връзка между промените в стойностите на две променливи. В статистическите изчисления и изводи коефициентът на корелация обикновено се означава като rxyили Rxy.

1. История на развитието на корелационния критерий

Корелационният тест на Pearson е разработен от екип британски учени, ръководени от Карл Пиърсън(1857-1936) през 90-те години на 19 век, за да опрости анализа на ковариацията на две случайни променливи. Освен по Карл Пиърсън е работено и по корелационния тест на Пиърсън Франсис Еджуърти Рафаел Уелдън.

2. За какво се използва корелационният тест на Pearson?

Корелационният критерий на Pearson ви позволява да определите каква е близостта (или силата) на корелацията между два показателя, измерени в количествена скала. С помощта на допълнителни изчисления можете също да определите колко статистически значима е идентифицираната връзка.

Например, използвайки корелационния критерий на Pearson, може да се отговори на въпроса дали има връзка между телесната температура и съдържанието на левкоцити в кръвта при остри респираторни инфекции, между височината и теглото на пациента, между съдържанието в пия водафлуор и честотата на кариес сред населението.

3. Условия и ограничения за използването на критерия хи-квадрат на Pearson

  1. Сравнимите показатели трябва да се измерват в количествен мащаб(например сърдечна честота, телесна температура, брой левкоцити на 1 ml кръв, систолично кръвно налягане).
  2. С помощта на корелационния критерий на Пиърсън е възможно да се определи само наличието и силата на линейна връзкамежду количествата. Други характеристики на връзката, включително посоката (директна или обратна), естеството на промените (праволинейни или криволинейни), както и зависимостта на една променлива от друга, се определят с помощта на регресионен анализ.
  3. Броят на стойностите за сравнение трябва да бъде равен на две. В случай на анализ на връзката на три или повече параметъра, трябва да използвате метода факторен анализ.
  4. Корелационният критерий на Пиърсън е параметричен, във връзка с което условието за прилагането му е нормална дистрибуциясъвпадащи променливи. Ако е необходимо корелационен анализпоказатели, чието разпределение се различава от нормалното, включително измерени по ординална скала, следва да се използва коефициентът на рангова корелация на Спирман.
  5. Необходимо е ясно да се разграничат понятията зависимост и корелация. Зависимостта на стойностите определя наличието на корелация между тях, но не и обратното.

Например, растежът на детето зависи от възрастта му, тоест какво по-голямо дете, толкова по-висока е тя. Ако вземем две деца различни възрасти, тогава с голяма степен на вероятност растежът на по-голямото дете ще бъде по-голям от този на по-малкото. Това явлениеи се обади пристрастяване, което предполага причинно-следствена връзка между показателите. Разбира се, има и такива корелация, което означава, че промените в един индикатор са придружени от промени в друг индикатор.

В друга ситуация помислете за връзката между растежа на детето и сърдечната честота (HR). Както знаете, и двете стойности са пряко зависими от възрастта, следователно в повечето случаи децата с по-голям ръст (и следователно по-големите) ще имат по-ниски стойности на сърдечната честота. Това е, корелацияще се наблюдава и може да има достатъчно висока плътност. Ако обаче вземем деца същата възраст, но различна височина, тогава най-вероятно сърдечната им честота ще се различава незначително, във връзка с което можем да заключим, че независимостПулс от растеж.

Горният пример показва колко важно е да се прави разлика между основните понятия в статистиката връзкии зависимостииндикатори за извеждане на правилни заключения.

4. Как да изчислим коефициента на корелация на Пиърсън?

Корелационният коефициент на Pearson се изчислява по следната формула:

5. Как да интерпретираме стойността на корелационния коефициент на Pearson?

Стойностите на коефициента на корелация на Pearson се интерпретират въз основа на неговите абсолютни стойности. Възможните стойности на коефициента на корелация варират от 0 до ±1. Колкото по-голяма е абсолютната стойност на r xy, толкова по-голяма е близостта на връзката между двете величини. r xy = 0 означава пълна липса на връзка. r xy = 1 - показва наличието на абсолютна (функционална) връзка. Ако стойността на корелационния критерий на Pearson се окаже по-голяма от 1 или по-малка от -1, в изчисленията е направена грешка.

За да се оцени близостта или силата на корелацията, се използват общоприети критерии, според които абсолютните стойности на r xy< 0.3 свидетельствуют о слабвръзка, r xy стойности от 0,3 до 0,7 - за връзка средатаплътност, r xy стойности> 0,7 - o силенвръзки.

По-точна оценка на силата на корелацията може да се получи чрез използване на Маса Chaddock:

Степен статистическа значимосткоефициентът на корелация r xy се извършва с помощта на t-тест, изчислен по следната формула:

Получената стойност t r се сравнява с критичната стойност при определено ниво на значимост и брой степени на свобода n-2. Ако t r надвишава t crit, тогава се прави заключение за статистическата значимост на идентифицираната корелация.

6. Пример за изчисляване на коефициента на корелация на Pearson

Целта на изследването е да се идентифицира, определи плътността и статистическата значимост на корелацията между два количествени показателя: нивото на тестостерон в кръвта (X) и процента мускулна масав тялото (Y). Изходните данни за извадка от 5 субекта (n = 5) са обобщени в таблицата.


Въведение. 2

1. Оценка на значимостта на коефициентите на регресия и корелация с помощта на f-критерия на Стюдънт. 3

2. Изчисляване на значимостта на коефициентите на регресия и корелация с помощта на f-критерия на Стюдънт. 6

Заключение. петнадесет

След конструирането на регресионното уравнение е необходимо да се провери неговата значимост: като използвате специални критерии, определете дали получената зависимост е изразено с уравнениеторегресия, случаен, т.е. дали може да се използва за прогнозни цели и за факторен анализ. В статистиката са разработени методи за стриктно тестване на значимостта на регресионните коефициенти, използващи дисперсионен анализи изчисляване на специални критерии (например F-критерий). Нестрог тест може да се извърши чрез изчисляване на средното относително линейно отклонение (e), т.нар средна грешкаприближения:

Сега да преминем към оценка на значимостта на регресионните коефициенти bj и конструиране на доверителен интервал за параметрите на регресионния модел Py (J=l,2,..., p).

Блок 5 - оценка на значимостта на регресионните коефициенти по стойността на t-критерия на Стюдънт. Изчислените стойности на ta се сравняват с допустимата стойност

Блок 5 - оценка на значимостта на регресионните коефициенти по стойността на ^-критерия. Изчислените стойности на t0n се сравняват с допустимата стойност 4,/, която се определя от таблиците на t - разпределение за дадена вероятностгрешки (а) и броя на степените на свобода (/).

В допълнение към проверката на значимостта на целия модел е необходимо да се провери значимостта на регресионните коефициенти с помощта на /-теста на Стюдънт. Минималната стойност на регресионния коефициент bg трябва да отговаря на условието bifob- ^t, където bi е стойността на коефициента на регресионното уравнение в естествен мащаб с i-ти знак на фактора; аб. - средно квадратична грешкавсеки коефициент. несъвместимост помежду си по отношение на значението им на коефициентите D;

Допълнителният статистически анализ се отнася до тестването на значимостта на регресионните коефициенти. За да направим това, намираме стойността на ^-критерия за регресионните коефициенти. В резултат на тяхното сравнение се определя най-малкият t-критерий. Факторът, чийто коефициент отговаря на най-малкия ^-критерий, се изключва от по-нататъшния анализ.

За да се оцени статистическата значимост на коефициентите на регресия и корелация, t-тестът на Student и доверителни интерваливсеки от показателите. Излага се хипотезата Но за случайния характер на показателите, т.е. за тяхната незначителна разлика от нула. Оценката на значимостта на коефициентите на регресия и корелация с помощта на f-теста на Student се извършва чрез сравняване на техните стойности с големината на случайната грешка:

Оценката на значимостта на коефициентите на чиста регресия с помощта на /-критерия на Стюдънт се свежда до изчисляване на стойността

Качеството на труда е характеристика на конкретен труд, отразяващ степента на неговата сложност, напрежение (интензивност), условия и значение за развитието на икономиката. К.т. измерено чрез тарифна система, което позволява да се диференцират заплатите в зависимост от нивото на квалификация (сложността на труда), условията, тежестта на труда и неговата интензивност, както и значението на отделните отрасли и отрасли, региони, територии за развитието на икономиката на страната. К.т. намира израз в заплатиработници, които се появяват на пазара на труда под влияние на търсенето и предлагането на труд (специфични видове труд). К.т. - сложна структура

Резултатите, получени за относителната значимост на отделните икономически, социални и екологични последици от проекта, допълнително осигуряват основа за сравняване на алтернативни проекти и техните опции, като се използва "комплексният точков безразмерен критерий за социална и екологично-икономическа ефективност" на проекта Ec, изчислен (в средни оценки на значимост) по формулата

Вътрешноотрасловото регулиране предвижда разлики в заплащането на работниците в даден отрасъл в зависимост от значението на отделните видове производство в този отрасъл, от сложността и условията на работа, както и от използваните форми на заплащане.

Получената рейтингова оценка на анализираното предприятие по отношение на предприятието-бенчмарк, без да се отчита значимостта на отделните показатели, е сравнителна. При сравняване на рейтингите на няколко предприятия най-висок рейтинг има предприятието с минимална стойност на получената сравнителна оценка.

Разбирането на качеството на даден продукт като мярка за неговата полезност повдига практически важен въпрос за неговото измерване. Неговото решаване се постига чрез изследване на значението на отделните свойства за задоволяване на конкретна потребност. Значението дори на едно и също свойство може да варира в зависимост от условията на потребление на продукта. Следователно полезността на стоката при различни обстоятелства на нейната употреба е различна.

Вторият етап на работа е изследването на статистическите данни и идентифицирането на връзката и взаимодействието на показателите, определянето на значимостта на отделните фактори и причините за промяната общи показатели.

Всички разглеждани показатели са обединени по такъв начин, че резултатът е цялостна оценка на всички анализирани аспекти на дейността на предприятието, като се вземат предвид условията на неговата дейност, като се вземе предвид степента на значимост на отделните показатели за различни видове инвеститори:

Коефициентите на регресия показват интензивността на влиянието на факторите върху показателя за ефективност. Ако се извърши предварителна стандартизация на факторните показатели, тогава b0 е равно на средната стойност показател за ефективностОбщо. Коефициентите b, b2 ..... bl показват колко единици нивото на ефективния индикатор се отклонява от средната му стойност, ако стойностите на факторния индикатор се отклоняват от средната стойност, равна на нула с единица стандартно отклонение. По този начин регресионните коефициенти характеризират степента на значимост на отделните фактори за повишаване нивото на ефективния показател. Конкретните стойности на регресионните коефициенти се определят от емпирични данни по метода най-малки квадрати(в резултат на решаване на системи нормални уравнения).

2. Изчисляване на значимостта на коефициентите на регресия и корелация с помощта на f-тест на Стюдънт

Нека разгледаме линейната форма на многофакторни връзки не само като най-проста, но и като форма, предоставена от приложни софтуерни пакети за персонални компютри. Ако връзката на отделен фактор с резултатен атрибут не е линейна, тогава уравнението се линеаризира чрез заместване или трансформиране на стойността на факторния атрибут.

Обща формамногофакторното регресионно уравнение има формата:


където k е броят на факторните характеристики.

За да се опрости системата от уравнения на най-малките квадрати, необходими за изчисляване на параметрите на уравнение (8.32), обикновено се въвеждат отклоненията на отделните стойности на всички характеристики от средните стойности на тези характеристики.

Получаваме система от k уравнения на най-малките квадрати:

Решавайки тази система, получаваме стойностите на условно чистите коефициенти на регресия b. Свободният член на уравнението се изчислява по формулата


Терминът „условно-чист коефициент на регресия“ означава, че всяка от стойностите bj измерва средното отклонение на популацията на получения атрибут от неговия среден размеркогато този фактор xj се отклонява от средната си стойност за единица от неговото измерване и при условие, че всички други фактори, включени в регресионното уравнение, са фиксирани на средни стойности, не се променят, не варират.

По този начин, за разлика от коефициента на двойната регресия, коефициентът на условно-чистата регресия измерва влиянието на даден фактор, абстрахирайки се от връзката между вариацията на този фактор и вариацията на други фактори. Ако е възможно да се включат в регресионното уравнение всички фактори, влияещи върху вариацията на получения атрибут, тогава стойностите bj. могат да се считат за мерки за чистото влияние на факторите. Но тъй като наистина е невъзможно да се включат всички фактори в уравнението, коефициентите bj. не е свободен от примеса на влиянието на фактори, които не са включени в уравнението.

Невъзможно е да се включат всички фактори в регресионното уравнение по една от трите причини или за всички наведнъж, защото:

1) някои фактори може да са неизвестни съвременна наука, познаването на всеки процес винаги е непълно;

2) няма информация за известни теоретични фактори или е ненадеждна;

3) размерът на изследваната популация (извадка) е ограничен, което ви позволява да включите ограничен брой фактори в регресионното уравнение.

Коефициенти на условно чиста регресия bj. са наименувани числа, изразени в различни мерни единици, поради което са несравними помежду си. Да ги преобразува в съпоставими относителна производителностприлага се същата трансформация, както за получаване на корелационния коефициент на двойката. Получената стойност се нарича стандартизиран коефициентрегресия или ?-коефициент.


Коефициентът при фактора xj определя степента на влияние на изменението на фактора xj върху изменението на ефективния признак y, когато други фактори, включени в регресионното уравнение, се извадят от съпътстващото изменение.

Полезно е да се изразят коефициентите на условно чиста регресия под формата на относителни сравними показатели за комуникация, коефициенти на еластичност:

Коефициентът на еластичност на фактора xj показва, че ако стойността на този фактор се отклонява от средната си стойност с 1% и ако се вземат предвид други фактори, включени в уравнението, полученият атрибут ще се отклонява от средната си стойност с ej процента от г. По-често коефициентите на еластичност се интерпретират и прилагат от гледна точка на динамиката: с увеличаване на коефициента x с 1% от средната му стойност, резултантният атрибут ще се увеличи с e.% от средната му стойност.

Помислете за изчислението и интерпретацията на многовариантното регресионно уравнение на примера на същите 16 ферми (Таблица 8.1). Ефективният признак е нивото на брутния доход и три фактора, влияещи върху него, са представени в табл. 8.7.

Припомнете още веднъж, че за получаване на надеждни и достатъчно точни корелационни показатели е необходима по-голяма популация.


Таблица 8.7

Нивото на брутния доход и неговите фактори

Номера на ферми

Брутен доход, rub./ra

Разходи за труд, човекодни/ха x1

Дял обработваема земя

млечност на крава,


Таблица 8.8 Индикатори на регресионното уравнение


Зависима променлива: y

регресионен коефициент

Константа-240,112905

Std. грешка на прибл. = 79.243276


Решението е извършено с помощта на програмата "Microstat" за компютър. Ето и таблиците от разпечатката: табл. 8.7 дава средни стойности и средни стойности стандартни отклонениявсички знаци. Раздел. 8.8 съдържа регресионните коефициенти и тяхната вероятностна оценка:

първата колона "var" - променливи, т.е. фактори; втората колона "регресионен коефициент" - коефициенти на условно чиста регресия bj; третата колона „std. грешка" - средните грешки на оценките на регресионните коефициенти; четвъртата колона - стойностите на t-теста на Student при 12 степени на свобода на вариация; петата колона "prob" - вероятността на нулевата хипотеза по отношение на регресионните коефициенти;

шестата колона "частично r2" - частични коефициенти на определяне. Съдържанието и методологията за изчисляване на показателите в колони 3-6 са разгледани допълнително в Глава 8. „Константа“ – свободен член на регресионното уравнение a; "станд. грешка на est." - средноквадратична грешка на оценката на ефективния признак по регресионното уравнение. Уравнението се получи множествена регресия:


y \u003d 2,26x1 - 4,31x2 + 0,166x3 - 240.


Това означава, че стойността на брутния доход на 1 хектара земеделска земя средно са се увеличили с 2,26 рубли. с увеличение на разходите за труд с 1 ч/ха; намалява средно с 4,31 рубли. с увеличение на дела на обработваемата земя в земеделските земи с 1% и се увеличава с 0,166 рубли. с увеличение на млечността на крава с 1 килограма. Отрицателната стойност на свободния термин е съвсем естествена и, както вече беше отбелязано в параграф 8.2, ефективната характеристика - брутният доход става нула много преди да достигне нулеви стойности на факторите, което е невъзможно в производството.

Отрицателно значениекоефициент при х^ е сигнал за значителни проблеми в икономиката на изследваните ферми, където растениевъдството е нерентабилно, а само животновъдството е рентабилно. С рационални методи на управление селско стопанствои нормални цени (равновесни или близки до тях) за продуктите от всички отрасли доходите не трябва да намаляват, а да се увеличават с увеличаване на най-плодородния дял в земеделската земя - обработваемата земя.

Въз основа на данните от предпоследните два реда на табл. 8.7 и табл. 8.8 изчислете p-коефициентите и коефициентите на еластичност по формули (8.34) и (8.35).

Както вариацията в нивото на дохода, така и евентуалната му промяна в динамиката се влияят най-силно от фактора х3 - продуктивността на кравите, и най-слабо - х2 - дела на обработваемата земя. Стойностите на Р2/ ще се използват в бъдеще (Таблица 8.9);


Таблица 8.9 Сравнително влияние на факторите върху нивото на доходите

Фактори xj


И така, получихме, че ?-коефициентът на фактора xj се отнася до коефициента на еластичност на този фактор, както коефициентът на вариация на фактора към коефициента на вариация на ефективната характеристика. Тъй като, както се вижда от последния ред на табл. 8.7, коефициентите на вариация на всички фактори са по-малки от коефициента на вариация на резултантния атрибут; всички ?-коефициенти са по-малки от коефициентите на еластичност.

Помислете за връзката между сдвоения и условно чистия коефициент на регресия, като използвате примера на фактора -c. Сдвоени линейно уравнениевръзката между y и x има формата:


y = 3,886x1 - 243,2


Условно чистият регресионен коефициент при x1 е само 58% от двойния. Останалите 42% се дължат на факта, че вариацията х1 е придружена от вариацията на фактора х2 х3, което от своя страна влияе на резултантния признак. Връзките на всички признаци и техните двойни регресионни коефициенти са представени на графиката на връзката (фиг. 8.2).

Ако сумираме оценките на прякото и косвеното влияние на вариацията x1 върху y, т.е. произведението на сдвоените регресионни коефициенти за всички „пътища“ (фиг. 8.2), получаваме: 2.26 + 12.55 0.166 + (-0.00128 ) (-4,31) + (-0,00128) 17,00 0,166 = 4,344.

Тази стойност е дори повече двойка коефициентвръзки x1 с y. Следователно косвеното влияние на вариацията x1 чрез знаците-фактори, които не са включени в уравнението, е обратното, което дава общо:


1 Айвазян С.А., Мхитарян В.С. Приложна статистика и основи на иконометрията. Учебник за средните училища. - М.: UNITI, 2008, - 311s.

2 Джонстън Дж. Иконометрични методи. - М.: Статистика, 1980,. - 282s.

3 Dougherty K. Въведение в иконометрията. - М.: INFRA-M, 2004, - 354 с.

4 Dreyer N., Smith G., Applied регресионен анализ. - М.: Финанси и статистика, 2006, - 191s.

5 Магнус Я.Р., Картишев П.К., Пересецки А.А. Иконометрия. Начален курс.-М .: Дело, 2006, - 259с.

6 Семинар по иконометрия / Изд. I.I.Eliseeva.- М.: Финанси и статистика, 2004, - 248с.

7 Иконометрия / Ред. I.I.Eliseeva.- М.: Финанси и статистика, 2004, - 541с.

8 Кремер Н., Путко Б. Иконометрия.- М.: ЮНИТИ-ДАНА, 200, - 281с.



Обучение

Нуждаете се от помощ при изучаването на тема?

Нашите експерти ще съветват или предоставят услуги за обучение по теми, които ви интересуват.
Подайте заявлениепосочване на темата точно сега, за да разберете за възможността за получаване на консултация.

Пълната версия на тази бележка (с формули и таблици) може да бъде изтеглена от тази страница в PDF формат. Текстът на самата страница е резюмесъдържанието на тази бележка и най-важните заключения.

Посвещава се на оптимистите от статистиката

Коефициентът на корелация (CC) е един от най-простите и най-много популярна статистикахарактеризиращи връзката между случайните величини. В същото време QC държи лидерството в броя на погрешните и просто безсмислени заключения, направени с негова помощ. Тази ситуация се дължи на установената практика за представяне на материали, свързани с корелация и корелационни зависимости.

Големи, малки и "междинни" стойности на QC

При разглеждането на корелацията се обсъждат подробно понятията „силна“ (почти единична) и „слаба“ (почти нулева) корелация, но на практика нито едното, нито другото не се срещат. В резултат на това въпросът за разумното тълкуване на „междинните“ стойности на QC, които са често срещани в практиката, остава неясен. Коефициент на корелация, равен на 0.9 или 0.8 , начинаещият е оптимист и по-малките стойности го объркват.

С натрупването на опит оптимизмът расте и сега QC е равен на 0.7 или 0.6 радва изследователя, а ценностите вдъхват оптимизъм 0.5 и 0.4 . Ако изследователят е запознат с методите на тестване статистически хипотези, тогава прагът на „добрите“ стойности на QC пада до 0.3 или 0.2 .

Наистина, кои стойности на QC вече могат да се считат за „достатъчно големи“ и кои остават „твърде малки“? На този въпрос има два диаметрално противоположни отговора – оптимистичен и песимистичен. Помислете първо за оптимистичния (най-популярния) отговор.

Значение на коефициента на корелация

Този вариант на отговор ни дава класическата статистика и е свързан с понятието статистическа значимост QC. Тук ще разгледаме само ситуацията, когато представлява интерес положителна корелация (случаят на отрицателна корелация е напълно аналогичен). По-сложен случай, когато се проверява само наличието на корелация, без да се взема предвид знакът, е относително рядък на практика.

Ако за QC rнеравенството r > r e (n), тогава казваме, че KK статистически значимна ниво на значимост д. Тук re(n)-- квантил, по отношение на който се интересуваме само от факта, че при фиксирано ниво на значимост e стойността му клони към нула с увеличаване на дължината нпроби. Оказва се, че чрез увеличаване на масива от данни е възможно да се постигне статистическата значимост на QC дори при много малките му стойности. В резултат на това, при достатъчно голяма извадка, има изкушение да се признае съществуването в случай на QC, равен, например, 0.06 . въпреки това, здрав разумпредполага, че заключението за наличието на значима корелация с r=0,06не може да бъде вярно за какъвто и да е размер на извадката. Остава да разберем естеството на грешката. За да направите това, разгледайте концепцията за статистическа значимост по-подробно.

Както обикновено, при тестване на статистически хипотези, смисълът на извършените изчисления се крие в избора на нулевата хипотеза и алтернативната хипотеза. Когато се тества значимостта на QC, нулевата хипотеза се приема като предположение ( r = 0 )при алтернативната хипотеза ( r > 0 )(припомнете си, че тук разглеждаме само ситуацията, когато представлява интерес положителна корелация). Произволно избрано ниво на значимост допределя вероятността от т.нар. Грешки от тип I, когато нулевата хипотеза е вярна ( r=0), но се отхвърля от статистическия тест (т.е. тестът погрешно разпознава съществуването на значима корелация). Избирайки нивото на значимост, ние гарантираме малка вероятност за такава грешка, т.е. ние сме почти имунизирани срещу факта, че за независими проби ( r=0) погрешно разпознават наличието на корелация ( r > 0). Грубо казано, значимостта на коефициента на корелация означава само, че е много вероятно той да бъде различен от нула.

Ето защо размерът на извадката и големината на QC взаимно се компенсират - големите проби просто позволяват по-голяма точност при локализирането на малка QC чрез оценката на извадката.

Ясно е, че концепцията за значимост не отговаря на първоначалния въпрос за разбирането на категориите „голям/малък“ във връзка със стойностите на QC. Отговорът, даден от теста за значимост, не ни казва нищо за свойствата на корелацията, а само ни позволява да проверим дали неравенството е изпълнено с голяма вероятност r > 0. В същото време самата CC стойност съдържа много по-значима информация за свойствата на корелацията. Наистина, еднакво значимите КК са равни на 0.1 и 0.9 , се различават значително по степента на тежест на съответната корелация и твърдението за значимостта на QC r = 0,06за практиката е абсолютно безполезно, тъй като за какъвто и да е размер на извадката тук няма нужда да говорим за някаква корелация.

И накрая, можем да кажем, че на практика никакви свойства на корелационната връзка и дори самото й съществуване не следват от значението на коефициента на корелация. От гледна точка на практиката, самият избор на алтернативна хипотеза, използвана при тестване на значимостта на QC, е погрешен, тъй като случаите r=0и r>0на малки rпрактически неразличими.

Всъщност, когато от значение на QCизвод за съществуване значителна корелация, произвеждат напълно безсрамна подмяна на понятия, основана на семантичната двусмисленост на думата "значимост". Значението на QC (ясно дефинирано понятие) е измамно превърнато в „значима корелация“, а тази фраза, която няма строга дефиниция, се тълкува като синоним на „изразена корелация“.

Разцепване на дисперсията

Нека разгледаме друга версия на отговора на въпроса за "малки" и "големи" стойности на QC. Този отговор е свързан с изясняването на регресионното значение на КК и се оказва много полезен за практиката, въпреки че е много по-малко оптимистичен от критериите за значимост на КК.

Интересно е, че дискусията за регресивното значение на CC често се сблъсква с трудности от дидактически (по-скоро психологически) характер. Нека ги коментираме накратко. След официалното въвеждане на QC и изясняването на значението на "силни" и "слаби" корелации, се счита за необходимо да се задълбочим в дискусията на философските проблеми на връзката между корелациите и причинно-следствените връзки. В същото време се правят енергични опити да се отрече от (хипотетичния!) опит корелацията да се тълкува като причинно-следствена. На този фон дискусиите относно наличността функционална зависимост(включително регресия) между корелиращите стойности започва да изглежда просто богохулство. В крайна сметка от функционалната зависимост до причинно-следствената връзка има само една стъпка! В резултат на това въпросът за регресионното значение на QC обикновено се заобикаля, както и въпросът за корелационните свойства на линейната регресия.

Всъщност тук всичко е просто. Ако за нормализирани (т.е. имащи нулева средна стойност и единична дисперсия) случайни променливи хи Yима съотношение

Y = a + bX + N,

където не някаква случайна променлива с нулева средна стойност (допълнителен шум), лесно е да се види това а = 0и b = r. Това е съотношението между случайните променливи хи Yсе нарича уравнение на линейна регресия.

Изчисляване на дисперсията на случайна променлива Yлесно е да се получи следният израз:

D[Y] = b 2 D[X] + D[N].

В последния израз първият член определя приноса на случайната променлива хв дисперсия Y, а вторият член е приносът на шума нв дисперсия Y. Използвайки горния израз за параметъра b, лесно е да се изразят приносите на случайните променливи хи нчрез стойността r=r(припомнете си, че ние вземаме предвид количествата хи Yнормализирана, т.е. D[X] = D[Y] = 1):

b 2 D[X] = r 2

D[N] = 1 - r2

Като се имат предвид получените формули, често се казва, че за случайни величини хи Yсвързани регресионно уравнение, стойност r2определя пропорцията на дисперсията на случайна променлива Y, линейно определена от промяната на случайната променлива х. И така, общата дисперсия на случайната променлива Yсе разпада на дисперсия линейно обусловениналичието на регресионна връзка и остатъчна дисперсия поради наличието на допълнителен шум.


Помислете за диаграмата на разсейване на двумерна случайна променлива (X, Y). На малки D[N]диаграмата на разсейване се изражда в линейна връзка между случайни променливи, леко изкривена от адитивен шум (т.е. точките на диаграмата на разсейване ще бъдат предимно концентрирани близо до правата линия X=Y). Такъв случай има за стойностите rблизки по модул до единица. С намаляване (по абсолютна стойност) на стойността на QC, дисперсията на шумовия компонент нзапочва да дава все по-голям принос за дисперсията на количеството Yи за малки rточечната диаграма напълно губи приликата си с права линия. В случая имаме облак от точки, чието разсейване се дължи основно на шума. Именно този случай се реализира при значителни, но малки по абсолютна стойност стойности на QC. Ясно е, че в случая не може да се говори за никаква корелация.

Сега нека да видим какъв отговор на въпроса за "големите" и "малките" стойности на CC ни предлага регресионната интерпретация на CC. На първо място, трябва да се подчертае, че именно дисперсията е най-естествената мярка за дисперсията на стойностите на случайна променлива. Естеството на тази "естественост" се състои в адитивността на дисперсията за независими случайни променливи, но това свойство има много разнообразни проявления, сред които е демонстрираното по-горе разделяне на дисперсията на линейно обусловени и остатъчни дисперсии.

Така че стойността r2определя пропорцията на дисперсията на количеството Y, линейно определена от наличието на регресионна връзка със случайна променлива х. Въпросът каква част от линейно обусловената дисперсия може да се счита за признак за наличие на изразена корелация остава на съвестта на изследователя. Въпреки това става ясно, че малките стойности на коефициента на корелация ( r< 0.3 ) дават толкова малка част от линейно обяснената дисперсия, че е безсмислено да се говори за някаква изразена корелация. При r > 0,5можем да говорим за наличие на забележима корелация между количествата и кога r > 0,7корелацията може да се счита за значима.

Някои изследователи, след като са изчислили стойността на коефициента на корелация, спират дотук. Но от гледна точка на компетентната методология на експеримента е необходимо също така да се определи нивото на значимост (т.е. степента на надеждност) на този коефициент.

Нивото на значимост на коефициента на корелация се изчислява с помощта на таблица с критични стойности. По-долу е даден фрагмент от тази таблица, който ни позволява да определим нивото на значимост на получения от нас коефициент.

Избираме реда, който съответства на размера на извадката. В нашия случай n = 10. Избираме в този ред стойността от таблицата, която е малко по-малка от емпиричната стойност (или точно равна на нея, което е изключително рядко). Това е удебеленото число 0,632. Отнася се за колона със стойност на ниво на достоверност p = 0,05. Това означава, че всъщност емпиричната стойност е междинна между колоните p = 0,05 и p = 0,01, следователно 0,05  p  0,01. По този начин отхвърляме нулевата хипотеза и заключаваме, че полученият резултат (R xy = 0,758) е значим на ниво p< 0,05 (это уровень статистической значимости): R эмп >R cr (стр< 0,05) H 0 ,  Н 1 ! ст. зн.

На ежедневен език това може да се тълкува по следния начин: можем да очакваме, че тази сила на връзката ще се появи в извадката по-рядко от пет случая от 100, ако тази връзка е следствие от случайност.

    1. Регресионен анализ

х(растеж)

Y(теглото)

М х = 166,6

М г = 58,3

х = 6 , 54

г = 8 , 34

Регресионният анализ се използва за изследване на връзката между две величини, измерени в интервална скала. Този тип анализ включва изграждането на регресионно уравнение, което позволява да се опише количествено зависимостта на една характеристика от друга (коефициентът на корелация на Пиърсън показва наличието или отсъствието на връзка, но не описва тази връзка). Познавайки произволната стойност на една от характеристиките и използвайки това уравнение, изследователят може с определена степен на вероятност да предскаже съответната стойност на втората характеристика. Линейната зависимост на признаците се описва с уравнение от следния тип:

y = a +b г * х ,

където а -свободен член на уравнението, равен на издигането на графиката в точка х=0относно оста x, b е наклонът на регресионната линия, равен на тангенса на наклона на графиката към абсцисната ос (при условие, че скалата на стойностите на двете оси е една и съща).

Познавайки стойностите на изследваните характеристики, е възможно да се определи стойността на свободния термин и коефициента на регресия, като се използват следните формули:

а =М г b г * М х

В нашия случай:
;

а = 58,3 – 0,97 * 166,6 = -103,3

Така формулата за зависимостта на теглото от височината е следната: y = 0,969 * х - 103,3

Съответната диаграма е показана по-долу.

Ако е необходимо да се опише зависимостта на височината от теглото ( хот при), след това стойностите аи bстават различни и формулите трябва да бъдат съответно модифицирани:

х= а +b х * при

а =М х b х * М г

В този случай формата на графиката също се променя.

Коефициентът на регресия е тясно свързан с коефициента на корелация. Последното е средното геометрично на регресионните коефициенти на характеристиките:

Квадратът на коефициента на корелация се нарича коефициент на детерминация. Стойността му определя процентното взаимно влияние на променливите. В нашия случай Р 2 = 0,76 2 = 0,58 . Това означава, че 58% обща дисперсия Y се обяснява с влиянието на променливата X, останалите 42% се дължат на влиянието на фактори, които не са взети предвид в уравнението.

Споделете с приятели или запазете за себе си:

Зареждане...