Значение и определение на индекса на множествена корелация. коефициент

коеф. (индекс) множествена корелация

R = -

R свойства:

R xy = R uh.

1 . До 0,3 връзката е слаба 2 . 0,3-0,5 комуникацията е умерена

3 . 0,5-0,7 връзка забележима 4. 0,7-0,9 връзка висока

R 2 офсет =

R 2 офсетвинаги повече от R 2 факт.

22. Показатели за частична корелация

Корен от R 2 = R = Корен от (SS R / SS T) = Корен от (1 - SS E / SS T);

R = -колкото по-близо до 1, толкова по-близка е връзката (и в двойката = [-1; 1]).

R свойства:

Р- стандартизиран коефициентрегресия;

Ако няма връзка между x и y, тогава R = 0; НО ако R = 0, тогава няма само линейна връзка;

R xy = R uh.

Скала за стойност на коефициента. корелации:

1 . До 0,3 връзката е слаба 2 . 0,3-0,5 комуникацията е умерена

3 . 0,5-0,7 връзка забележима 4. 0,7-0,9 връзка висока

5 . 0.9-1.0 връзката е много висока, близка до функционалната.

Коригиран (нормализиран) коеф. определяне R 2 кор.:

Моделите могат да се сравняват по R 2, НО е необходимо да се преизчисли по броя на степените на свобода, т.к. моделите могат да имат различен набор от фактори и различни цифрови наблюдения.

R 2 офсет = 1 - (SS E: (n-m-1) / SS T: (n-1)) = 1 - (1- R 2) * ((n-1) / (n-m-1))

R 2 офсетвинаги повече от R 2 факт.

Показатели за частична корелация околосе основават на съотношението на намаляването на остатъчната вариация, дължаща се на фактора, допълнително включен в модела, към остатъчната вариация преди включването на съответния фактор в модела.

Частни коефициенти корелации(повтарящи се формули - изразяване на всеки член на редицата чрез предишните членове):

r yx 2. x 1 = корен от ((SS E yx 1 - SS E yx 1 x 2) / SS E yx 1) = квадрат от ((1 - SS E yx 1 x 2) / SS E yx 1) , x 2 фиксирани;

r yx 1. x 2 = корен от ((SS E yx 2 - SS E yx 1 x 2) / SS E yx 2) = квадрат от ((1 - SS E yx 1 x 2) / SS E yx 2) , x 1 фиксиран.

!!! Матрица на частните коефициенти. корелации може да има използвани за избор на фактори за модела.

23. Оценяване на значимостта на уравнение множествена регресияи неговите параметри

Стойност на коефициента определянето на R2 може да отразява истинска зависимост или може да бъде комбинация от обстоятелства, т.к при конструирането на уравнението се използват примерни данни. Ето защо е необходимо да се определи колко надеждни и значими са извадковите показатели (оценки). За това се използват вероятностни оценки. хипотези.

Статистическа хипотеза (H) -предположение за собственост население, което може да се провери въз основа на примерните данни.

Стъпки за проверка статистически хипотези :

1. проблемът на изследването се формулира под формата на стат. хипотези;

2 . избира се статистическа характеристика на хипотезата;

3. предметът и алтернативата H 0 и H 1 са предложени;

4. Определят се ODZ, критична област и критична стойност на статистическия критерий;

5. изчислява се действителната стойност на статистическия критерий;

6. обектът H 1 се проверява въз основа на сравнение на стойностите на действителните и критичните критерии и в зависимост от резултатите от проверката H 1 се отхвърля или приема .

Критична зона– площ, постигане на стойността на статистическия критерий, в която води до отклонение H 0 . Вероятността стойността на критерия да попадне в тази област е равна на ниво на значимост(1 минус нивото на доверие).

ОДЗ- площ, постигане на стойността на статистическия критерий, в която води до приемане на H 0 .

аз Статистическа оценкадостоверност регресионен модел:

НО. 1 . H 0 е представен: r 2 в генералната съвкупност = 0;

2. изплъзва се H 1: r 2 в общата съвкупност не = 0;

3. определя се ODZ или ниво на значимост;

4. изчислено Критерий на Фишер F (n е броят на единиците от съвкупността, m е броят на факторите):

F = MS R / MS E = (Σ(y от покриви - y cf) 2 / m) / (Σ(y - y от покриви) 2 / (n-m-1))

F \u003d R 2 / (1-R 2) * (n-m-1) / m \u003d R 2 / (1-R 2) * (n-2);

5 . определя се табличната стойност на таблицата F на критерия на Фишер;

6 . действителната стойност се сравнява с табличната стойност.

а.Ако Раздел F>F.

b.Ако Е

Заключение:

Брой степени на свобода (df)е броят на свободно променливите променливи.

df T = df R + df E; n-1 = m + (n - m - 1).

При изчисляване на действителната сума на квадратните отклонения ((y - y с покриви) 2 = SS R), теоретичните стойности на ефективната характеристика (y с покриви), определени от регресионната линия (y с покриви = a + bx) са използвани. защото обяснената (факториална) сума от квадрати зависи само от n константи, тогава този модел има n степени на свобода.

Ако разделите сумата от квадратите на броя на степените на свобода, можете да получите дисперсиите за 1-ва степен на свобода (MS):

MS R = SS R /df R = Σ(y от покриви – y ср.) 2 / m

MS Е = SS Е /df Е = Σ(y– y от покриви) 2/ (n-m-1)

Всички показатели могат да бъдат представени под формата на ANOVA таблица.

Източник на вариация: df СС ГОСПОЖИЦА Е
- регресия м СС Р MS R Е
- остатък n-m-1 СС Е MS E –
- обща сума n-1 СС Т – –
df– брой степени на свобода; ГОСПОЖИЦА =SS/df СС Е = MS R/MS E- Критерий на Фишер.

б. Има частни F-критерии

F таблица = 10.

Заключение:

df– брой степени на свобода; ГОСПОЖИЦА =SS/df– дисперсия на 1 степен на свобода; SS x 2 = SS T * r 2 yx 2- сума на квадратите на отклоненията (общо, действително, остатъчно); Е = MS R/MS E- Критерий на Фишер. F = t2.

II. Оценка на значимостта на регресионните коефициенти:

1. H 0 е напреднал: регресионният коефициент b в генералната съвкупност е 0;

2. H 1 е представен: коефициентът на регресия b в генералната съвкупност не е равен на 0;

3. Определя се нивото на значимост α;

4. Критичното стойност на критерия на Стюдънт (себ– стойка. грешка b; b– коеф. регресия, абс. индикатор за силата на връзката (в линеен ur-ii), мярка за зависимостта на y от x):

t = b/Seb

S eb 1 \u003d δ y / δ x1 * корен от ((1 - R 2 yx 1 x 2) / (1- r 2 x 1 x 2 * (n-m-1))

S eb 2 \u003d δ y / δ x2 * корен от ((1 - R 2 yx 1 x 2) / (1- r 2 x 1 x 2 * (n-m-1))

а. раздел t > t., тогава H 0 се отклонява, т.е. параметърът b не случайно се различава от нула, той се формира под въздействието на систематично действащ фактор.

b. T< t табл. , тогава H 0 не се отхвърля и се признава случайният характер на образуването на b.

Можете да проверите валидността а(свободен член на регресионното уравнение; не се интерпретира икономически):

S e a \u003d корен от (MS E / Σ (x-x cf) 2) \u003d корен от (Σ (y-y с покриви) 2 / (n-2)) * Σx 2 / n * Σ (x- x cf) 2

III. Оценка на качеството (надеждността) на модела

Грешка на приближението (A) – грешка или остатък.

A \u003d (Σ | (y-y от покриви) / y | * 100%) / n

Изчислението може да се направи в таблицата:

№ г х от покривите oo от покривите |(y-y от покривите) / y| * 100%
10,57 21,48 -10,91 103,22
17,50 22,29 -4,79 27,37
… … … … … …
Обща сума: - - - - 197,15
Ако n = 8, тогава A = 197,15 / 8 = 24,64%

Ако<10% - норма.

24. Специални критерии на Фишър при оценка на резултатите от множествената регресия

Има частни F-критерии , с помощта на които можем да оценим допълнителното включване на даден фактор в модела. Необходимостта от такава оценка се дължи на факта, че не всеки фактор в модела значително увеличава действителната вариация - така че трябва ли този фактор да бъде включен в модела?

Важно е, че поради различната връзка между факторите, значимостта на едни и същи доп. фактор е различен в зависимост от реда на включването му в модела.

Конкретните F-критерии се основават на сравнение на увеличението на факторите за 1 степен на свобода поради допълнителни. включване в модела на фактора към остатъчната вариация преди модела.

F x1 = ((R 2 yx1x2 - r 2 yx2) / (1-R 2 yx1x2)) * (n-m-1) = 0,96

F x2 = ((R 2 yx1x2 - r 2 yx1) / (1-R 2 yx1x2)) * (n-m-1) = 1,9

F таблица = 10.

Заключение: С вероятност α може да се твърди, че включването на фактора x 1 след x 2 не е подходящо, а включването на x 2 след x 1 не е подходящо - невъзможно е да се изгради двуфакторен модел.

Всички показатели могат да бъдат представени под формата на частна ANOVA таблица.

df– брой степени на свобода; ГОСПОЖИЦА =SS/df– дисперсия на 1 степен на свобода; SS x 2 = SS T * r 2 yx 2- сума на квадратите на отклоненията (общо, действително, остатъчно); Е = MS R/MS E- Критерий на Фишер. F = t2.

а.Ако Раздел F>F., тогава хипотезата за случайния характер на оценените характеристики се отхвърля и се признава статистическата значимост и надеждност.

b.Ако Е , тогава хипотезата за случая ... не се отхвърля и се признава статистическата незначимост, ненадеждността на регресионното уравнение.

Заключение: с вероятност α м. да се твърди, че коеф. определянето на R 2 в общата популация не е значимо; моделът е невалиден.

25. Използване на фиктивни променливи в модели на множествена регресия

Фиктивна (структурна) променлива – променлива, която приема стойност 1 или 0.

Използва се при решаване на следните задачи:

1. при моделиране на качествени характеристики;

2. да се отчита структурната разнородност, която води до качествени характеристики;

3. за оценка на сезонните колебания.

Фиктивни (структурни) променливи – това са изкуствено конструирани променливи, например номерирани атрибути (пол, образование, регион).

Помислете за пример:

Дадено е: Z=0 ако в къщата няма камина; Z=1, ако в къщата има камина.

Нека изчислим показателите за плътност (R 2) и якост (b, E) на връзката.

Нека оценим значимостта (надеждността) на параметрите на модела (t) и самия модел (F, F spec.).

Обща форма на уравнението: Y = 50 + 16X + 3Z.

Заключение: За къщи без камина: Y = 50 + 16X (защото З=0); за къщи с камина: Y = 5 + 3 + 16X = 53 + 16X (защото З=1).

Заключение:

1. Увеличаването на жилищното пространство от 1000 кв. фута увеличава прогнозираната средна оценена стойност с $16 000. (това е b) при условие, че фиктивната променлива (наличие на камина) има постоянна стойност.

2. Ако жилищната площ е постоянна, наличието на камина увеличава средната оценена стойност на дома с $3000. (това е коефициентът преди Z = c).

!!! Фиктивни променливи м. се въвежда и в нелинейните модели. В този случай те се въвеждат линейно.

Помислете за пример:

ln y = ln a + b 1 ln x 1 + b 2 z; ln y = 4 +0,3 ln x + 0,05z

y c покриви = e 4 x 0,3 e 0,05z e 4 = 65 e 0,05z = 1,05

y = a + b 1 z 1 + b 2 z 2

Параметър а- средната стойност на ефективната характеристика при z 1 , z 2 = 0.

Параметър b1и b2характеризира разликата между средните уравнения на получения атрибут за група 1 и основна група 0.

Параметър b2характеризира разликата между средните уравнения на получения атрибут за група 2 и основна група 0.

Заключение:

1. 0,3 - коеф. E: с увеличение на площта с 1%, цената се увеличава с 0,3%.

2. e 0,05 z - оценката на къщите с камина е 1,05 пъти по-скъпа (с 5%), отколкото без нея.

26. Предпоставки на метода на най-малките квадрати

При оценката на регресионното уравнение се прилага методът на най-малките квадрати. Правят се предпоставки по отношение на случайния компонент ε (ненаблюдаема величина): y \u003d a + b 1 x 1 + b 2 x 2 + ... + ε.

Основни предпоставки за МНК:

1. случаен характер на остатъците (ако няма посока в местоположението на точките ε върху корелационното поле);

2 . нулева средна стойност на остатъците, независимо от фактора x: Σ(y - y x от покриви) = 0 или нелин. модел - Σ(ln y - ln y x с покриви) = 0 и също върху корелационното поле ... ;

3 . хомоскедастичност (разпръскване на всеки

отклонението е еднакво за всички стойности х);

4 . няма автокорелация на остатъците

(разпределение на остатъците независимо един от друг);

5 . остатъците трябва да следват нормално разпределение.

Ако всички 5 предпоставки са изпълнени, тогава оценките, получени чрез метода на най-малките квадрати и метода на максималната вероятност, съвпадат. Ако не всички - трябва да коригирате модела.
27. Хетероскедастичност - понятие, проявление и мерки за отстраняване

Проблеми, които възникват при изграждането на регресионни модели:

1. Хетероскедастичност.

2. Мултиколинеарност.

Хетероскедастичност(хетерогенност) - означава ситуация, при която дисперсията на грешката в регресионното уравнение се променя от наблюдение на наблюдение. В този случай е необходимо най-малките квадрати да бъдат подложени на определена модификация (в противен случай са възможни погрешни заключения).

Симптоми на G.:

1 . нисък коефициент на детерминация r 2 ;

2 . това може да доведе до отклонение в оценката.

Мерки за премахване на хетероскедастичността:

1 . Увеличаване на броя на наблюденията.

2 . Промяна на функционалната форма на модела.

3. Разделяне на първоначалната популация на качествено хомогенни групи и провеждане на анализ във всяка група.

4 . Използването на фиктивни променливи, които отчитат хетерогенността.

5 . Изключване от набора от единици, които дават хетерогенност.

Зависимост на остатъците от изравнената стойност на резултата:

а.дисперсията на остатъците се увеличава с

увеличаване на изравнената стойност

резултат (един от случаите на Г.).

b.липса на зависимост (хомоскедастизъм). а) б)

Тестове, използвани за идентифициране на G.:

1. Голдфелд-Кванд

3. Глейзър

5. Ранг корелация на Spearman

28. Оценка на хетероскедастичността по метода на Goldfeld и Quandt

Хетероскедастичност(хетерогенност) - проблем, който възниква при изграждане на регресионни модели; означава ситуация, при която отклонението на грешката в регресионното уравнение се променя от наблюдение на наблюдение. В този случай е необходимо най-малките квадрати да бъдат подложени на определена модификация (в противен случай са възможни погрешни заключения).

Ж. се проявява, ако съвкупността е разнородна (изследват се различни области).

Този метод се използва, когато размерът на извадката е малък. Смятан за еднофакторен модел за котката. дисперсията на остатъците нараства с квадрата на фактора. За преценка на нарушението на Г. предложиха параметричен тест.

1. Всички наблюдения са подредени по ред на нарастване на всеки фактор, за който се предполага, че има ефект върху увеличаването на дисперсията на остатъците.

2. Подредената съвкупност е разделена на три групи, като първата и последната трябва да са с еднакъв размер с брой единици, по-голям от броя на параметрите на регресионния модел. Нека обозначим броя на избраните единици к

См. Структурен индекс.

- В групи от свързани животни се изчисляват четири коефициента на корелация между две различни фенотипни черти в рамките на всяка съвпадаща свързана група и между групите...
Термини и определения, използвани в развъждането, генетиката и репродукцията на селскостопанските животни

- максимални стойности на коефициентите на корелация между двойки линейни функции от две групи случайни променливи X 1, ..., Xs и Xs+1, ..., Xs+t, за които U и V са канонични случайни променливи...
Математическа енциклопедия

- една от примерните мерки за зависимост на две случайни променливи X и Y, базирана на класирането на елементите на извадката, .. .,...
Математическа енциклопедия

- числена характеристика на съвместното разпределение на две случайни величини, изразяваща тяхната връзка. K. k. за случайни променливи X 1 и X 2 с математически ...
Математическа енциклопедия

- характеристика на взаимозависимостта на случайните променливи X и Y, дефинирана като точната горна граница на стойностите на корелационните коефициенти между реални случайни променливи - функции на случайни променливи X и ...
Математическа енциклопедия

- Математическо представяне на степента на връзка между две серии от измервания...
Голяма психологическа енциклопедия

- Закон на Кювие, закон, формулиран от Ж. Кювие, според който специализацията на отделен орган на животински организъм до определен етап от живота причинява съответни ...
Екологичен речник

- вижте закона на Головкински-Валтер фациес ...
Геологическа енциклопедия

- Паун, 1931 г. съдържание съдържание. SiO, фиксиран по абсцисата на двоичната вариационна диаграма чрез проекцията на пресечната точка на линиите Na2O + K2O и CaO, soder. които в същия мащаб като SiO2 са нанесени по оста y...
Геологическа енциклопедия

- , където n е броят на двойките наблюдения, d2 е сумата от квадратните разлики в ранга. Понякога, когато изчислявате знаменателя на дроб, е по-удобно да го представите като продукт на три числа: n ...
Геологическа енциклопедия

- ρ - μмярка за силата на линейна връзка между случайните величини X и Y: , където EX - математическото очакване на X; DX - дисперсия на X, EY - математическо очакване на Y; DY - дисперсия Y; - 1 ≤ ρ ≤ 1. Ако X, Y са линейно свързани, тогава ρ...
Геологическа енциклопедия

- характеризира връзката между случайните променливи X1 и X2, когато при наличието на n случайни променливи X1, X2, X3, ..., Xn се елиминират промените, причинени от влиянието на X3 ..., Xn. Ако въведете = Xi - βi3 X3 - ... - βin Хn, където β...
Геологическа енциклопедия

- сравнение на участъци от тихи слоеве, в които взаимното положение на два участъка се определя чрез изчисляване на стойностите на взаимната корелационна функция ...
Геологическа енциклопедия

- или сравнения на въгленосни слоеве, могат да бъдат разделени на 4 основни групи: 1) палеонтологични и биофациални; 2) литоложки и геохимични; 3) геофизични; 4) структурно-геометрични...
Геологическа енциклопедия

- са специфични методи за корелация на въглищни образувания...
Геологическа енциклопедия

- корелация на раздели гл. обр. тиха обсада. пластове по литоложки особености: структура на разрези - наличие на ритми или цикли и техния характер; съставът на елемента - наличието на маркиращи хоризонти ...
Геологическа енциклопедия

"КОРЕЛАЦИОНЕН ИНДЕКС" в книгите

Важно: корелациите се променят
От книгата Дневна търговия на Форекс пазара. Стратегии за печалба от Лин Кети
Важно: Корелациите се променят Всеки, който някога е търгувал на Форекс, знае, че валутите са много динамични. Икономическите условия, пазарните настроения и цените се променят всеки ден. В тази връзка, когато се анализират валутните корелации, трябва да се помни, че с течение на времето те могат

43. Други агрегатни показатели: индекс на производствените разходи, индекс на производителността на труда, индекс на трудоемкостта
автор
43. Други агрегатни показатели: индекс на производствените разходи, индекс на производителността на труда, индекс на трудоемкостта 1. Индексът на производствените разходи показва колко пъти разходите през отчетния период са средно по-високи или по-ниски от базовите или планираните разходи

44. Други агрегатни показатели: индекс за изпълнение на плана, средноаритметичен и среден хармоничен индекс, индекси на средни стойности
От книгата Теория на статистиката автор Бурханова Инеса Викторовна
44. Други агрегатни показатели: индекс на изпълнение на плана, средноаритметичен и среден индекс на хармоника, индекси на средни стойности 1. Индекс на изпълнение на плана. При изчисляването му действителните данни се съпоставят с планираните, като теглата на индекса могат да бъдат индикатори

Въпрос 64. Индекс на потребителските цени. Индекс на цените на производител
От книгата Икономическа статистика. Детско легло автор Яковлева Ангелина Виталиевна
Въпрос 64. Индекс на потребителските цени. Индекс на цените на производител Индексът на потребителските цени (CPI) се използва за оценка на динамиката на цените на потребителските стоки Системата от индекси на потребителските цени, които се изчисляват в Русия, включва: 1) съставен CPI, който

квантови корелации
От книгата Портите към други светове от Филип Гардинър
Квантови корелации Учени от Пекин, Станфорд и други изследователски центрове работят върху теорията на квантовите корелации от дълго време. Образователният уебсайт на Станфордския университет (plato.stanford.edu/entries/qt-entangle/) предлага следното обяснение на тази теория:

§ 4. Измерване на корелация
От книгата Въведение в логиката и научния метод автор Коен Морис
§ 4. Измерване на корелация Целта на всички научни изследвания е да се намерят значими връзки в рамките на изучаваната предметна област. Целта на статистическото изследване е да улесни процеса на това откритие и да направи възможно изразяването на връзката

6. 2. Принципът на корелация на максимумите
От книгата Empire - I [с илюстрации] автор
6. 2. Принципът на корелация на максимумите Нека историческият период от година А до година Б в историята на регион P е описан в хроника X, разделена на части (глави) X(T), всяка от които е посветена на събития от една година T. Нека изчислим обема на всички части X (T), т.е. броя на страниците или редовете във всяка

6.2. ПРИНЦИПЪТ НА МАКСИМАЛНАТА КОРЕЛАЦИЯ
От книгата Реконструкция на световната история [само текст] автор Носовски Глеб Владимирович
6.2. ПРИНЦИП НА МАКСИМАЛНА КОРЕЛАЦИЯ Нека историческият период от година A до година B в историята на даден регион бъде описан в хроника X, разделена на части, глави X(T), всяка от които е посветена на събитията от една година T. Нека изчислете обема на всички парчета X(T) , тоест броя на страниците или редовете

От книгата на автора
1.2. Принципът на корелация на максимумите И така, нека някакъв исторически период от година А до година Б в историята на една държава t бъде описан в някаква доста обширна метеорологична хроника X. Тоест хрониката X вече е нарушена или може да бъде нарушена, на части - „глави“ от X (t), всяка

7.2. Принцип на пикова корелация
От книгата Математическа хронология на библейските събития автор Носовски Глеб Владимирович
7.2. Принципът на корелация на максимумите Нека историческият период от година A до година B в историята на регион P бъде описан в хрониката X, разделена на части (глави) X(T), всяка от които е посветена на събитията от един година T. Нека изчислим обема на всички части X(T), т.е. броя на страниците или редовете във всяка

1.2. Принцип на пикова корелация
От книгата на автора
1.2. Принципът на корелация на максимумите И така, нека някакъв исторически период от година А до година Б в историята на някаква държава D е описан в доста обширен метеорологичен запис X. Тоест хрониката X вече е разделена или може да бъде счупена, на части - „глави“ X (t), всяка от които

7.3. Корелационно поле
От книгата Систематично решаване на проблеми автор Лапигин Юрий Николаевич
7.3. Поле на корелационната логика е усмирителната риза на фантазията. Helmar Nar За да се установят връзки между две променливи, обикновено се изграждат графики.Ако и двете променливи се променят синхронно, това може да означава, че има връзки между тях и те влияят една на друга.

Индекс на телесна маса (ИТМ) - индекс на Quetelet
От книгата 170 рецепти за нормализиране на теглото автор Синелникова А. А.
Индекс на телесна маса (ИТМ) - индекс на Quetelet Индексът на телесна маса дава възможност да се определи колко тегло се отклонява от нормата. Това знание помага да се предотврати развитието на редица заболявания, свързани с наднорменото тегло. Определете индекса на телесна маса: разделете теглото си в килограми

Илюзия за корелация
От книгата Интуиция автор Майерс Дейвид Дж
Илюзия за корелация Представете си, че сте участник в проучване за това как хората правят връзки между събитията. Психолозите Уилям Уорд и Хърбърт Дженкинс ви показват резултатите от хипотетичен петдесетдневен експеримент за засяване на облак.

Корелации и причинно-следствена връзка
От книгата Псевдонауката и паранормалното [Критичен поглед] автор Смит Джонатан
Корелации и причинно-следствена връзка Фактът, че две събития се случват едновременно и са свързани, не означава непременно, че едното от тях е причина за другото. Като цяло, събития А и Б могат да възникнат едновременно по една от четирите причини: (I) А е причината

Въведеният по-горе коефициент на корелация, както вече беше отбелязано, е пълноценен индикатор за близостта на връзката само в случай на линейна връзка между променливите. Често обаче има нужда от надежден индикатор за интензивността на връзката с всяка форма на зависимост.

За да получим такъв индикатор, припомняме правилото за добавяне на отклонения:

където е общата дисперсия на променливата

Средна стойност на груповите дисперсии или остатъчна дисперсия

Междугрупова дисперсия

Остатъчната дисперсия измерва онази част от дисперсията в Y, която възниква поради променливостта на неотчетените фактори, които не зависят от X. Междугруповата дисперсия изразява тази част от дисперсията в Y, която се дължи на променливостта на X. стойност

получи името на емпиричното съотношение на корелация на Y към X. Колкото по-тясна е връзката, толкова по-голямо е влиянието върху вариацията на променливата Y, променливостта на X в сравнение с неотчетените фактори, толкова по-висока. Стойността, наречена емпиричен коефициент на детерминация, показва каква част от общата вариация на Y се дължи на вариацията на X. По подобен начин се въвежда емпиричното съотношение на корелация на X към Y:

Забележка основни свойства на корелационните връзки(с достатъчно голям размер на извадката n).

1. Коефициентът на корелация е неотрицателна стойност, която не надвишава единица: 0
2. Ако = 0, тогава няма корелация.

3. Ако = 1, тогава съществува функционална зависимост между променливите.

четири.? тези. за разлика от коефициента на корелация r (за който) при изчисляване на съотношението на корелация е от съществено значение коя променлива се счита за независима и коя е зависима.

Емпирична корелационна връзкае индикатор за разпространението на точките на корелационното поле спрямо линията на емпиричната регресия, изразена с прекъсната линия, свързваща стойностите. Но поради факта, че закономерната промяна се нарушава от произволни зигзаги на прекъснатата линия, възникващи в резултат на остатъчното действие на неотчетени фактори, близостта на връзката е преувеличена. Следователно, заедно с се счита индикаторът за близост на връзката, който характеризира разсейването на точките на корелационното поле спрямо линията на регресия (1.3). Индикаторът се нарича теоретично съотношение на корелация или индекс на корелация Y по X

където дисперсиите и се определят от формули (1.54)-(1.56), в които груповите средства y са заменени с условни средни y, изчислени с помощта на регресионното уравнение (1.16).

По подобен начин се въвежда индексът на корелация X от Y:

Предимството на разглежданите показатели и R е, че те могат да бъдат изчислени за всяка форма на връзка между променливите. Въпреки че надценява тясността на връзката в сравнение с R, но за да го изчислите, не е необходимо да знаете уравнението на регресията. Коефициентите на корелация и R са свързани с коефициента на корелация r, както следва.

корелационна връзка
Коефициентът на корелация е пълноценен индикатор за близостта на връзката само в случай на линейна връзка между променливите. Често обаче има нужда от надежден индикатор за интензивността на връзката с всяка форма на зависимост.

За да получим такъв индикатор, припомняме правилото за добавяне на отклонения (19)

където S 2 y -- обща дисперсия на променливата

С" 2 iy -- средна стойност на груповите дисперсии С при , или остатъчна дисперсия --

Остатъчната вариация измерва онази част от флуктуацията Y, която възниква поради променливостта на неотчетени фактори, които не зависят от х.

Междугруповата вариация изразява тази част от вариацията Y,което се дължи на промяната х.Стойност

наречена емпирична корелационна връзка YНа х.Колкото по-тясна е връзката, толкова по-голямо влияние върху вариацията на променливата доказва променливостта хв сравнение с неотчетените фактори, толкова по-висок е s yx.

Стойност h 2 Еха, наречен емпиричен коефициент на детерминация , показва каква част от общата вариация Yпоради вариация х.Емпиричното съотношение на корелация X върху Y се въвежда по подобен начин .

Отбелязваме основните свойства на корелационните отношения (за достатъчно голям размер на извадката n):

1. Коефициентът на корелация е неотрицателна стойност, която не надвишава 1:0?z? един.

2. Ако h = 0, тогава няма корелация.

3. Ако z = 1, тогава има функционална връзка между променливите.

4. ч xy ?ч xyтези. за разлика от коефициента на корелация r (за който r yx = r xy = r ) при изчисляване на съотношението на корелация е от съществено значение коя променлива се счита за независима и коя е зависима.

Емпирична корелационна връзка z xy е индикатор за разпространението на точките на корелационното поле спрямо емпиричната регресионна линия, изразена чрез прекъсната линия, свързваща стойностите на y i . Но поради факта, че закономерната промяна на y се нарушава от случайни зигзаги на прекъснатата линия, възникващи в резултат на остатъчното действие на неотчетени фактори, Р xy преувеличава стегнатостта на връзката. Следователно, заедно с z xy, се разглежда индикаторът за плътност на връзката R yx, който характеризира разсейването на точките на корелационното поле спрямо регресионната линия y x.

Индекс Р yx беше наречен теоретична корелация или корелационен индекс Y към X

където са отклоненията 2 при и с" г 2 се определят от (20) - (22), в които групата осреднява г аз , заменени с условни средни стойности при xiизчислено по регресионното уравнение. като Р yx въведе и индекс на корелация X по Y

Предимството на разглежданите показатели h и Ре, че те могат да бъдат изчислени с всякаква форма на връзка между променливи. Въпреки че h надценява тясността на връзката в сравнение с R, но за да го изчислите, не е необходимо да знаете регресионното уравнение. Корелационни връзки h и Рса свързани с коефициента на корелация r, както следва:

Нека покажем, че в случай на линеен модел, т.е. зависимости

y x - y = b yx (x - x), индексът на корелация R xy е равен на коефициента на корелация r (по абсолютна стойност): R yx = |r| (или R yx= |r|), за простота n i = 1. Според формулата (26)

(тъй като от регресионното уравнение y xi -y=b yx (x i -x)

Сега, като вземем предвид формулите за дисперсията, регресионните коефициенти и корелацията, получаваме:

Индекс на корелация

Коефициентът на индекса на корелация показва съотношението на общата вариация в зависимата променлива поради регресия или вариабилност в обяснителната променлива. Колкото по-близо до 1 е индексът на корелация, толкова по-близо до регресионната линия са наблюденията, толкова по-добре регресията описва зависимостта на променливите.

Тестът за значимостта на корелационната връзка се основава на факта, че статистиката

(където T-- броя на интервалите според атрибута за групиране) има F-разпределението на Фишер-Снедекор с k1=t- 1 и k 2 \u003d n - Tстепени на свобода. Следователно, s е значително различно от нула, ако F>F a,k1,k2 , където Е a,k1,k2 - таблична стойност на F-критерия на ниво на значимост b с броя на степените на свобода да се 1 = t- 1 и да се 2 = n- T.

Индекс на корелация Рдве променливи са значими, ако стойността на статистиката е:

по-табличен Е a,k1,k2, където k1=1и к 2 = n - 2.

Корелация и зависимост на случайни величини

Две случайни променливи x и y се наричат корелирани, ако техният момент на корелация (или, което е същото, коефициент на корелация) е различен от нула; X и y се наричат некорелирани величини, ако техният корелационен момент е нула. Двете корелирани величини също са зависими. Всъщност, ако приемем обратното, трябва да заключим, че K xy =0 и това противоречи на условието, тъй като за корелирани стойности K xy ?0. Обратното предположение не винаги е в сила, тоест, ако две величини са зависими, тогава те могат да бъдат както корелирани, така и некорелирани. С други думи, корелационният момент на две зависими величини може да не е равен на нула, но може също да е равен на нула.

И така, от корелацията на две случайни променливи следва тяхната зависимост, но корелацията все още не следва от зависимостта; от независимостта на две променливи следва тяхната некорелация, но от некорелацията все още е невъзможно да се заключи, че тези количества са независими .

Източник на вариация:	df	СС	ГОСПОЖИЦА	Е
- регресия	м	СС Р	MS R	Е
- остатък	n-m-1	СС Е	MS E	–
- обща сума	n-1	СС Т	–	–

№	г	х	от покривите	oo от покривите	\|(y-y от покривите) / y\| * 100%
	10,57		21,48	-10,91	103,22
	17,50		22,29	-4,79	27,37
…	…	…	…	…	…
Обща сума:	-	-	-	-	197,15