Сенс та визначення індексу множинної кореляції. Коеф

Коеф. (індекс) множинної кореляції

R = -

Властивості R:

R ху = R ух.

1 . До 0,3 зв'язок слабкий 2 . 0,3-0,5 зв'язок помірний

3 . 0,5-0,7 зв'язок помітний 4. 0,7-0,9 зв'язок високий

R 2 скорр =

R 2 скоррзавжди більше, ніж R 2 факт.

22. Показники приватної кореляції

Корінь з R 2 = R = корінь (SS R / SS T) = корінь з (1 - SS E / SS T);

R = -чим ближче до 1, тим тісніше зв'язок (а парної = [-1; 1]).

Властивості R:

R - стандартизований коефіцієнтрегресії;

Якщо зв'язок між х і у немає, то R = 0; А якщо R = 0, то немає тільки лінійного зв'язку;

R ху = R ух.

Шкала значення коеф. кореляції:

1 . До 0,3 зв'язок слабкий 2 . 0,3-0,5 зв'язок помірний

3 . 0,5-0,7 зв'язок помітний 4. 0,7-0,9 зв'язок високий

5 . 0,9-1,0 зв'язок дуже високий, близький до функціонального.

Коригований (нормований) коеф. детермінації R 2 скор.

По R 2 можна порівнювати моделі, АЛЕ необхідно перерахувати їх у число ступенів свободи, т.к. моделі м. мати різний набір факторів та різні числові спостереження.

R 2 скорр = 1 – (SS E: (n-m-1) / SS T: (n-1)) = 1 – (1-R 2) * ((n-1) / (n-m-1))

R 2 скоррзавжди більше, ніж R 2 факт.

Показники приватної кореляції прознову на співвідношенні скорочення залишкової варіації за рахунок додатково включеного в модель фактора до залишкової варіації до включення в модель відповідного фактора.

Приватні коеф. кореляції(Рекурентні формули - що виражають кожен член послідовності через попередніх членів):

r yx 2. x 1 = корінь з ((SS E yx 1 – SS E yx 1 x 2) / SS E yx 1) = к. з ((1 – SS E yx 1 x 2) / SS E yx 1) ,х 2 зафіксовано;

r yx 1. x 2 = корінь з ((SS E yx 2 – SS E yx 1 x 2) / SS E yx 2) = к. з ((1 – SS E yx 1 x 2) / SS E yx 2) ,х 1 зафіксовано.

!!! Матриця приватних коеф. кореляції м.б. використана для відбору факторів у модель.

23. Оцінка значущості рівняння множинної регресіїта його параметрів

Значення коеф. детермінації R 2 може відбивати справжню залежність, і може – збіг обставин, т.к. при побудові рівняння використовують вибіркові дані. Тому необхідно визначити, наскільки вибіркові показники (оцінки) є достовірними, значущими. Для цього використовують імовірнісні оцінки стат. гіпотез.

Статистична гіпотеза (Н)припущення про властивість генеральної сукупності, яке можна перевірити, спираючись на ці вибірки.

Етапи перевірки статистичних гіпотез :

1. формулюється завдання дослідження як стат. гіпотези;

2 . вибирається статистична характеристика гіпотези;

3. висуваються випробувана та альтернативна Н 0 і Н 1 ;

4. визначається ОДЗ, критична область та критичне значення статистичного критерію;

5. обчислюється фактичне значення статистичного критерію;

6. випробувана Н 1 перевіряється на основі порівняння значень фактичного та критичного критерію, і залежно від результатів перевірки Н 1 або відхиляється, або приймається .

Критична область- Область, потрапляння значення статистичного критерію в яку призводить до відхилення Н 0 . Імовірність влучення значення критерію в цю область дорівнює рівню значимості(1 мінус довірча ймовірність).

ОДЗ- область, потрапляння значення статистичного критерію, в яку призводить до прийняття Н 0 .

I. Статистична оцінкадостовірності регресійної моделі:

А. 1 . висувається H 0: r 2 у генеральній сукупності = 0;

2. висувається H 1: r 2 у генеральній сукупності не = 0;

3. визначається ОДЗ чи рівень значимості;

4. розраховується критерій Фішера F (n – число одиниць сукупності, m – число факторів):

F = MS R / MS E = (Σ(y з дахів - y ср) 2 / m) / (Σ (y - y з дахів) 2 / (n-m-1))

F = R 2 /(1-R 2) * (n-m-1)/m = R 2 / (1-R 2) * (n-2);

5 . визначається табличне значення критерію Фішера Fтабл;

6 . Фактичне значення порівнюється з табличним.

а.Якщо F>Fтабл.

б.Якщо F

Висновок:

Число ступенів свободи (df)- Число вільно змінних, що варіюються.

df T = df R + df E; n-1 = m + (n - m - 1).

При розрахунку фактичної суми квадратних відхилень ((у – у с дахів) 2 = SS R) використовуються теоретичні значення результативної ознаки (у с дахів), визначеної по лінії регресії (у с дахів = a + bx). Т.к. Пояснена (факторна) сума квадратів залежить лише від n констант, то дана модель має n ступенів свободи.

Якщо розділити суму квадратів на число ступенів свободи, можна отримати дисперсії на перший ступінь свободи (MS):

MS R = SS R /df R = Σ(y з дахів - y ср) 2 / m

MS Е = SS Е / df Е = Σ(y-y з дахів) 2/ (n-m-1)

Усі показники м. оформити як таблиці дисперсійного аналізу ANOVA.

Джерело варіації: df SS MS F
- регресія m SS R MS R F
- залишок n-m-1 SS E MS E –
- разом n-1 SS T – –
df- Кількість ступенів свободи; MS =SS/df SS F = MS R /MS E- Критерій Фішера.

Б. Є приватні F-критерії

F табл = 10.

Висновок:

df- Кількість ступенів свободи; MS =SS/df- Дисперсія на 1 ступінь свободи; SS x 2 = SS T * r 2 yx 2- сума квадратів відхилень (заг., Факт., Залиш.); F = MS R /MS E- Критерій Фішера. F = t2.

ІІ. Оцінка значимості коефіцієнтів регресії:

1. Висувається Н 0: коефіцієнт регресії b генеральної сукупності дорівнює 0;

2. Висувається Н 1: коефіцієнт регресії b у генеральній сукупності не дорівнює 0;

3. Визначається рівень значення α;

4. Визначається критичне значення критерію Стьюдента (S eb- Станд. помилка b; b- Коеф. регресії, абс. показник сили зв'язку (в лін. ур-ії), міра залежності від х):

t = b/S eb

S eb 1 = δ у / δ х1 * корінь з ((1 - R 2 yx 1 x 2) / (1- r 2 x 1 x 2 * (n-m-1))

S eb 2 = δ у / δ х2 * корінь з ((1 - R 2 yx 1 x 2) / (1- r 2 x 1 x 2 * (n-m-1))

а. t> t табл., то Н 0 відхиляється, тобто параметр b не випадково відрізняється від нуля, що сформувався під впливом систематично діючого фактора.

б. t< t табл. , то Н 0 не відхиляється і визнається випадкова природа формування b.

Можна перевірити достовірність а(Вільний член рівняння регресії; економічно не інтерпретується):

S e а = корінь із (MS E / Σ(x-x ср) 2) = корінь з (Σ(у-у з дахів) 2 /(n-2)) * Σx 2 /n* Σ(х- x ср) 2

ІІІ. Оцінка якості (достовірності) моделі

Помилка апроксимації (А) – помилка чи залишок.

А = (Σ | (у-у з дахів) / у | * 100%) / n

Розрахунок м. оформити у таблиці:

№ y x у з дахів у-у з дахів |(у-у з дахів)/у| * 100%
10,57 21,48 -10,91 103,22
17,50 22,29 -4,79 27,37
… … … … … …
Разом: - - - - 197,15
Якщо n = 8, то А = 197,15/8 = 24,64 %

Якщо А<10% - норма.

24. Приватні критерії Фішера в оцінці результатів множинної регресії

Є приватні F-критерії , за допомогою яких м. оцінити додаткове включення фактора до моделі. Необхідність такої оцінки пов'язана з тим, що не кожен фактор у моделі суттєво збільшує фактичну варіацію – тому чи потрібно включати цей фактор у модель?

Важливо, що з-за різного зв'язку між чинниками, значимість однієї й тієї ж доп. фактора різна залежно від порядку його включення до моделі.

Приватні F-критерії будуються у порівнянні приросту чинників на 1 рівень свободи з допомогою доп. включення до моделі фактора до залишкової варіації до моделі.

F x1 = ((R 2 yx1x2 – r 2 yx2) / (1-R 2 yx1x2)) * (n-m-1) = 0,96

F x2 = ((R 2 yx1x2 – r 2 yx1) / (1-R 2 yx1x2)) * (n-m-1) = 1,9

F табл = 10.

Висновок: З ймовірністю α м. стверджувати, що включення фактора х 1 після х 2 недоцільно, і включення х 2 після х 1 недоцільно - не можна побудувати двофакторну модель.

Усі показники м. оформити як приватної таблиці дисперсійного аналізу ANOVA.

df- Кількість ступенів свободи; MS =SS/df- Дисперсія на 1 ступінь свободи; SS x 2 = SS T * r 2 yx 2- сума квадратів відхилень (заг., Факт., Залиш.); F = MS R /MS E- Критерій Фішера. F = t2.

а.Якщо F>Fтабл., то гіпотеза про випадкову природу оцінюваних показників відхиляється і визнається статистична значимість і надійність.

б.Якщо F , то гіпотеза про випадок ... не відхиляється і визнається статистична незначущість, ненадійність рівняння регресії.

Висновок: з ймовірністю α м. стверджувати, що коеф. детермінації R 2 у генеральній сукупності не значущий; модель недостовірна.

25. Використання фіктивних змінних у моделях множинної регресії

Фіктивна (структурна) змінна – змінна, що набирає значення 1 або 0.

Використовується при вирішенні наступних завдань:

1. при моделюванні якісних ознак;

2. для врахування структурної неоднорідності, до якої наводять якісні ознаки;

3. для оцінки сезонних вагань.

Фіктивні (структурні) змінні – це сконструйовані штучно змінні, наприклад, пронумеровані атрибутивні ознаки (стаття, освіта, регіон).

Розглянемо приклад:

Дано: Z = 0, якщо каміна в будинку немає; Z=1, якщо камін у будинку є.

Розрахуємо показники тісноти (R 2) та сили (b, Е) зв'язку.

Оцінимо значущість (достовірність) параметрів моделі (t) і самої моделі (F, F частн).

Загальний вигляд рівняння: Y = 50 + 16X + 3Z.

Висновок: Для будинків, що не мають каміна: Y = 50 + 16X (оскільки Z=0); для будинків, що мають камін: Y = 5 + 3 + 16X = 53 + 16Х (оскільки Z=1).

Висновок:

1. Збільшення житлової площі на 1000 кв. футів призводить до збільшення передбаченої середньої оцінної вартості на 16 тис. дол. (Це b) за умови, що фіктивна змінна (наявність каміна) має постійне значення.

2. Якщо житлова площа стала, наявність каміна збільшує середню оцінну вартість будинку на 3 тис.дол. (це коеф. перед Z = c).

!!! Фіктивні змінні м. вводиться і в нелінійні моделі. У цьому вони вводяться лінійно.

Розглянемо приклад:

ln y = ln a + b 1 ln x 1 + b 2 z; ln y = 4 +0,3 ln x + 0,05z

y c дахів = e 4 x 0,3 e 0,05z e 4 = 65 e 0,05z = 1,05

y = a + b 1 z 1 +b 2 z 2

Параметр a- Середнє значення результативної ознаки при z 1, z 2 = 0.

Параметр b1і b2характеризує різницю середніх рівнянь результативної ознаки для групи 1 та базової групи 0.

Параметр b2характеризує різницю середніх рівнянь результативної ознаки для групи 2 та базової групи 0.

Висновок:

1. 0,3 - Коеф. Е: зі збільшенням площі на 1 %, вартість збільшується на 0,3 %.

2. e 0,05 z – оцінка вартості будинків з каміном у 1,05 разів дорожча (на 5 %), ніж без нього.

26. Причини способу менших квадратів

МНК застосовується в оцінці рівняння регресії. Робляться передумови щодо випадкової складової ε (не спостерігається величиною): y = a + b 1 х 1 + b 2 х 2 + … + ε.

Основні передумови МНК:

1. випадковий характер залишків (якщо на полі кореляції немає спрямованості розташування точок ε);

2 . нульова середня залишків, яка залежить від фактора x: Σ(у - у х з дахів) = 0 або нелін. модель - Σ(ln у - ln у х з дахів) = 0 і також на полі кореляції. ;

3 . гомоскедастичність (дисперсія кожного

відхилення однакова всім значень x);

4 . відсутність автокореляції залишків

(розподіл залишків незалежно один від одного);

5 . залишки повинні підкорятися нормальному розподілу.

Якщо всі 5 передумов виконані, то оцінки, отримані МНК та методом максимальної правдоподібності, збігаються. Якщо не все – потрібно скоригувати модель.
27. Гетероскедастичність - поняття, прояв та заходи усунення

Проблеми, що виникають при побудові регресійних моделей:

1. Гетероскедастичність.

2. Мультиколлінеарність.

Гетероскедастичність(Неоднорідність) - означає ситуацію, коли дисперсія помилки у рівнянні регресії змінюється від спостереження до спостереження. І тут доводиться піддавати певної модифікації МНК (інакше можливі помилкові висновки).

Симптоми Р.:

1 . низький коефіцієнт детермінації r 2;

2 . це м. призвести до зміщення оцінки.

Заходи щодо усунення гетероскедастичності:

1 . Збільшення числа спостережень.

2 . Зміна функціональної форми моделі.

3. Поділ вихідної сукупності на якісно-однорідні групи та проведення аналізу у кожній групі.

4 . Використання фіктивних змінних, які враховують неоднорідність.

5 . Виняток із сукупності одиниць, що дають неоднорідність.

Залежність залишків від вирівняного значення результату:

а.дисперсія залишків збільшується з

збільшенням вирівняного значення

результату (один із випадків Г.).

б.немає залежності (гомоскедастичність). а) б)

Тести, що використовуються для виявлення Г.:

1. Гольдфельда-Квандта

3. Глейзер

5. Рангової кореляції Спірмена

28. Оцінка гетероскедастичності за допомогою методу Гольдфельда та Квандта

Гетероскедастичність(Неоднорідність) - проблема, що виникає при побудові регресійних моделей; означає ситуацію, коли дисперсія помилки у рівнянні регресії змінюється від спостереження спостереження. І тут доводиться піддавати певної модифікації МНК (інакше можливі помилкові висновки).

Р. проявляється, якщо сукупність неоднорідна (вивчаються різнобічні області).

Цей метод використовується при малому обсязі вибірки. Розглянули однофакторну модель, для кіт. дисперсія залишків зростає пропорційно до квадрата фактора. Щоб оцінити порушення Р., запропонували параметричний тест

1. Усі спостереження впорядковують у міру зростання будь-якого фактора, який, як передбачається, впливає на дисперсію залишків.

2. Упорядковану сукупність ділять на три групи, причому перша і остання повинні бути рівного обсягу з числом одиниць, більших за число параметрів моделі регресії. Число відібраних одиниць позначимо k

Див. Індекс структурний.

- У групах родинних тварин обчислюють чотири коефіцієнти кореляції між двома різними фенотиповими ознаками в межах кожної зіставної родинної групи і між групами...
Терміни та визначення, що використовуються в селекції, генетиці та відтворенні сільськогосподарських тварин

- максимальні значення коефіцієнтів кореляції між парами лінійних функцій від двох множин випадкових величинХ 1, ..., Xs і Xs+1, .. ., Xs+t, для яких брало Uі V є канонічними випадковими величинами...
Математична енциклопедія

- один із вибіркових заходів залежності двох випадкових величин Xі Y, заснована на ранжируванні елементів вибірки, .. .,...
Математична енциклопедія

- Чисельна характеристика спільного розподілу двох випадкових величин, що виражає їх взаємозв'язок. для випадкових величин Х 1 і Х 2 з математич...
Математична енциклопедія

- характеристика взаємозалежності випадкових величин Xі У, яка визначається як точна верхня грань значень коефіцієнтів кореляції між дійсними випадковими величинами - функціями від випадкових величин Xі...
Математична енциклопедія

- Математичне уявлення про рівень зв'язку між двома серіями вимірювань.
Велика психологічна енциклопедія

- закон Кюв'є, закон, сформульований Ж. Кюв'є, згідно з яким спеціалізація окремого органу будь-якого тваринного організму до певного о6разу життя викликає відповідні...
Екологічний словник

- див. Фаціальний закон Головкінського - Вальтера...
Геологічна енциклопедія

- Peacock, 1931,-величина содер. SiO, що фіксується по осі абсцис бінарної варіаційної діаграми проекцією точки перетину ліній Na2O + K2O та СаО, содер. яких у тому самому масштабі, як і SiO2, відкладаються по осі ординат...
Геологічна енциклопедія

- де n - число пар спостережень, d2 - сума квадратів рангових відмінностей. Іноді при обчисленні знаменник дробу зручніше представляти у вигляді добутку трьох чисел: п...
Геологічна енциклопедія

- ρ - μера сили лінійного зв'язку між випадковими величинами X і У: , де ЕХ - математичне очікування X; DX – дисперсія X, EY – математичне очікування У; DY – дисперсія У; - 1 ≤ ρ ≤ 1. Якщо X, Y лінійно пов'язані, то ρ...
Геологічна енциклопедія

- характеризує зв'язок між випадковими величинами X1 і X2, коли за наявності n випадкових величин Х1, Х2, Х3, ..., Хn усуваються зміни, викликані впливом Х3 ..., Хn. Якщо ввести = Xi - βi3 X3 - ... - βin Хn, де β...
Геологічна енциклопедія

- зіставлення розрізів німих товщ, при якому взаємне положення двох розрізів визначається шляхом обчислення значень взаємної кореляційної функції.
Геологічна енциклопедія

- або зіставлення вугленосних товщ, можна розділити на 4 основні гр.: 1) палеонтологічні та біофаціальні; 2) літологічні ігеохім.; 3) геофіз.; 4) структурно-геометричні...
Геологічна енциклопедія

- є приватними методами кореляції вугленосних формацій.
Геологічна енциклопедія

- Кореляція розрізів гол. обр. німих облог. товщ за літологічними ознаками: будовою розрізів - наявності ритмів або циклів та їх характеру; складу п.- наявності маркіруючих горизонтів.
Геологічна енциклопедія

"ІНДЕКС КОРРЕЛЯЦІЇ" у книгах

Важливо: кореляції змінюються
З книги Дейтрейдінг на ринку Forex. Стратегії отримання прибутку автора Лін Кетті
Важливо: кореляції змінюються Усі, хто колись торгував на Forex, знають, що валюти дуже динамічні. Економічна кон'юнктура, настрій ринку та ціни змінюються щодня. У зв'язку з цим під час аналізу валютних кореляцій слід пам'ятати у тому, що з часом вони можуть

43. Інші агрегатні індекси: індекс собівартості продукції, індекс продуктивності праці, індекс трудомісткості
автора
43. Інші агрегатні індекси: індекс собівартості продукції, індекс продуктивності праці, індекс трудомісткості 1. Індекс собівартості продукції показує, у скільки разів собівартість у звітному періоді в середньому вища або нижча за базисну або планову собівартість,

44. Інші агрегатні індекси: індекс виконання плану, середньоарифметичний та середньогармонічний індекс, індекси середніх величин
З книги Теорія статистики автора Бурханова Інеса Вікторівна
44. Інші агрегатні індекси: індекс виконання плану, середньоарифметичний та середньогармонічний індекс, індекси середніх величин 1. Індекс виконання плану. При його обчисленні фактичні дані зіставляються з плановими, причому вагами індексу можуть бути показники

Питання 64. Індекс споживчих цін. Індекс цін виробників
Із книги Економічна статистика. Шпаргалка автора Яковлєва Ангеліна Віталіївна
Питання 64. Індекс споживчих цін. Індекс цін виробників Індекс споживчих цін (ІСЦ) використовується для оцінки динаміки цін на споживчі товари. Система індексів споживчих цін, які розраховуються в Росії, включає: 1) зведений ІСЦ, який

Квантові кореляції
З книги Ворота до інших світів автора Гардінер Філіп
Квантові кореляції Вчені з Пекіна, Стенфорда та інших дослідних центрів тривалий час працювали над теорією квантових кореляцій. Освітній сайт Стенфордського Університету (plato.stanford.edu/entries/qt-entangle/) пропонує таке пояснення цієї теорії:

§ 4. Вимір кореляції
З книги Введення в логіку та науковий метод автора Коен Морріс
§ 4. Вимір кореляції Метою всіх наукових досліджень про відшукання значних відносин всередині предметної області, що вивчається. Мета ж статистичних досліджень полягає в тому, щоб полегшити процес даного відкриття та дати можливість висловити стосунки

6. 2. Принцип кореляції максимумів
З книги Імперія – I [з ілюстраціями] автора
6. 2. Принцип кореляції максимумів Нехай історичний період від року A до року B в історії регіону P описаний у літописі X, розбитому на шматки (голови) X(T), кожен з яких присвячений подіям одного року T. Підрахуємо об'єм усіх шматків X (T), тобто кількість сторінок або рядків у кожному

6.2. ПРИНЦИП КОРРЕЛЯЦІЇ МАКСИМУМІВ
З книги Реконструкція загальної історії [тільки текст] автора Носівський Гліб Володимирович
6.2. ПРИНЦИП КОРРЕЛЯЦІЇ МАКСИМУМІВ Нехай історичний період від року A до року B в історії якогось регіону описаний у літописі X, розбитому на шматки, розділу X(T), кожен з яких присвячений подіям одного року T. Підрахуємо обсяг всіх шматків X(T) , тобто кількість сторінок або рядків у

З книги автора
1.2. Принцип кореляції максимумів Отже, нехай деякий історичний період від року А до року В в історії однієї держави t описаний в якійсь досить широкій погодній літописі X. Тобто літопис X вже розбитий, або може бути розбитий, на шматки - «глави» X (t), кожен з

7.2. Принцип кореляції максимумів
З книги Математична хронологія біблійних подій автора Носівський Гліб Володимирович
7.2. Принцип кореляції максимумів Нехай історичний період від року A до року B в історії регіону P описаний у літописі X, розбитому на шматки (голови) X(T), кожен з яких присвячений подіям одного року T. Підрахуємо обсяг всіх шматків X(T), тобто кількість сторінок або рядків у кожному

1.2. Принцип кореляції максимумів
З книги автора
1.2. Принцип кореляції максимумів Отже, нехай деякий історичний період від року А до року В в історії якоїсь держави Г описаний у досить широкій погодній літописі X. Тобто, літопис X вже розбитий, або може бути розбитий, на шматки-«глави» X (t), кожен з яких

7.3. Поле кореляції
З книги Системне вирішення проблем автора Лапигін Юрій Миколайович
7.3. Поле кореляції Логіка - сорому фантазії. Для встановлення зв'язків між двома змінними зазвичай будують графіки. Якщо обидві змінні змінюються синхронно, це може означати, що між ними існують зв'язки і вони впливають один на одного.

Індекс маси тіла (ІМТ) – індекс Кетле
З книги 170 рецептів для нормалізації ваги автора Синельникова А. А.
Індекс маси тіла (ІМТ) – індекс Кетле Індекс маси тіла дає можливість визначити, наскільки вага відхилена від норми. Це знання допомагає запобігти розвитку низки захворювань, пов'язаних із зайвою вагою. Визначаємо індекс маси тіла: свою вагу в кілограмах ділимо

Ілюзія кореляції
З книги Інтуїція автора Майєрс Девід Дж
Ілюзія кореляції Уявіть, що ви учасник дослідження того, як люди встановлюють зв'язки між подіями. Психологи Вільям Уорд та Герберт Дженкінс показують вам результати гіпотетичного п'ятдесятиденного експерименту щодо засіву хмар

Кореляції та причинність
З книги Псевдонаука та паранормальні явища [Критичний погляд] автора Сміт Джонатан
Кореляції та причинність Той факт, що дві події відбуваються одночасно і корелюють між собою, не обов'язково означає, що одна з них є причиною іншої. Взагалі події А і Б можуть статися одночасно з однієї з чотирьох причин: (I) А є причиною

Введений вище коефіцієнт кореляції, як зазначалося, є повноцінним показником тісноти зв'язку лише у разі лінійної залежності між змінними. Однак часто виникає необхідність у достовірному показнику інтенсивності зв'язку за будь-якої форми залежності.

Для отримання такого показника пригадаємо правило додавання дисперсій:

де - загальна дисперсія змінної

Середня групових дисперсій, або залишкова дисперсія

Міжгрупова дисперсія

Залишковою дисперсією вимірюють ту частину коливання Y, яка виникає через мінливість неврахованих факторів, що не залежать від X. Міжгрупова дисперсія виражає ту частину варіації Y, яка обумовлена мінливістю X.

отримала назву емпіричного кореляційного відношення Y по X. Чим тісніше зв'язок, тим більший вплив на варіацію змінної Y надає мінливість X в порівнянні з неврахованими факторами, тим вище. Величина, звана емпіричним коефіцієнтом детермінації, показує, яка частина загальної варіації Y обумовлена варіацією X. Аналогічно вводиться емпіричне кореляційне відношення X Y:

Зазначимо основні властивості кореляційних відносин(При досить великому обсязі вибірки n).

1. Кореляційне відношення є невід'ємною величиною, яка не перевищує одиницю: 0
2. Якщо = 0, то кореляційний зв'язок відсутня.

3. Якщо = 1, між змінними існує функціональна залежність.

4. ? тобто. на відміну коефіцієнта кореляції r (для якого) при обчисленні кореляційного відношення істотно, яку змінну вважати незалежною, а яку - залежною.

Емпіричне кореляційне ставленняє показником розсіювання точок кореляційного поля щодо емпіричної лінії регресії, що виражається ламаною, що з'єднує значення. Однак у зв'язку з тим, що закономірна зміна порушується випадковими зигзагами ламаною, що виникають внаслідок залишкової дії неврахованих факторів, перебільшує тісноту зв'язку. Тому поруч із розглядається показник тісноти зв'язку, що характеризує розсіювання точок кореляційного поля щодо лінії регресії (1.3). Показник отримав назву теоретичного кореляційного відношення або індексу кореляції Y до X

де дисперсії і визначаються за формулами (1.54)-(1.56), в яких групові середні у замінені умовними середніми, обчисленими за рівнянням регресії (1.16).

Подібно вводиться індекс кореляції X по Y:

Перевагою розглянутих показників і R є те, що вони можуть бути обчислені за будь-якої форми зв'язку між змінними. Хоча й завищує тісноту зв'язку проти R, але його обчислення не потрібно знати рівняння регресії. Кореляційні відносини R пов'язані з коефіцієнтом кореляції r наступним чином.

Кореляційне ставлення
Коефіцієнт кореляції є повноцінним показником тісноти зв'язку лише у разі лінійної залежності між змінними. Однак часто виникає необхідність у достовірному показнику інтенсивності зв'язку за будь-якої форми залежності.

Для отримання такого показника згадаємо правило додавання дисперсій (19)

де S 2 y - загальна дисперсія змінної

S" 2 iy - середня групових дисперсій S у , або залишкова дисперсія

Залишковою дисперсією вимірюють ту частину коливання Y, яка виникає через мінливість неврахованих факторів, що не залежать від X.

Міжгрупова дисперсія висловлює ту частину варіації. Y,яка обумовлена мінливістю X.Величина

отримала назву емпіричного кореляційного відношення Yпо X.Чим тісніше зв'язок, тим більше вплив на варіацію змінної доводить мінливість Xв порівнянні з неврахованими факторами, тим вище з yx.

Величина з 2 ухзвана емпіричним коефіцієнтом детермінації , показує, яка частина загальної варіації Yобумовлена варіацією X.Аналогічно вводиться емпіричне кореляційне відношення X до Y .

Відзначимо основні властивості кореляційних відносин (при досить великому обсязі вибірки п):

1. Кореляційне відношення є невід'ємною величиною, яка не перевищує 1: 0? 1.

2. Якщо з = 0, то кореляційний зв'язок відсутня.

3. Якщо з = 1, між змінними існує функціональна залежність.

4. з xy ?з xyтобто. на відміну від коефіцієнта кореляції r (для якого r yx = r xy = r ) при обчисленні кореляційного відношення суттєво, яку змінну вважати незалежною, а яку - залежною.

Емпіричне кореляційне ставлення xy є показником розсіювання точок кореляційного поля щодо емпіричної лінії регресії, що виражається ламаною, що з'єднує значення y i . Однак у зв'язку з тим, що закономірна зміна, порушується випадковими зигзагами ламаною, що виникають внаслідок залишкової дії неврахованих факторів, R xy перебільшує тісноту зв'язку. Тому поруч із з xy розглядається показник тісноти зв'язку R yx , що характеризує розсіювання точок кореляційного поля щодо лінії регресії у х.

Показник R yx отримав назву теоретичного кореляційного відношення або індексу кореляції Y по X

де дисперсії д 2 у і s" y 2 визначаються за (20) - (22), у яких групові середні y i , замінені умовними середніми у хі, обчисленими за рівнянням регресії Подібно R yx вводиться та індекс кореляції X по Y

Перевагою розглянутих показників з і Rє те, що вони можуть бути обчислені за будь-якої форми зв'язку між змінними. Хоча з і завищує тісноту зв'язку в порівнянні з R, але для його обчислення не потрібно знати рівняння регресії. Кореляційні відносини з та Rпов'язані з коефіцієнтом кореляції r наступним чином:

Покажемо, що у разі лінійної моделі, тобто. залежності

у х - у = b yx (x - х) індекс кореляції R xy дорівнює коефіцієнту кореляції r (за абсолютною величиною): R yx = | r | (або R yx = | r |), для простоти n i = 1. За формулою (26)

(оскільки з рівняння регресії y xi -y=b yx (x i -x)

Тепер, враховуючи формули дисперсії, коефіцієнтів регресії та кореляції, отримаємо:

Індекс кореляції

Коефіцієнт індексу кореляції показує частку загальної варіації залежної змінної, обумовленої регресією або мінливістю пояснюючої змінної. Чим ближче індекс кореляції до 1, тим більше спостереження примикають до лінії регресії, краще регресія визначає залежність змінних.

Перевірка значущості кореляційного відношення полягає в тому, що статистика

(де т-- кількість інтервалів за групувальною ознакою) має F-розподіл Фішера - Снедекору з к1=т- 1 і k 2 =n - тступенями свободи. Тому з значно відрізняється від нуля, якщо F >F a,k1,k2 , де F a,k1,k2 - табличне значення F-критерію на рівні значущості б при числі ступенів свободи до 1 = т- 1 та до 2 = п- т.

Індекс кореляції Rдвох змінних значимо, якщо значення статистики:

більше табличного F a,k1,k2, де к1=1і k 2 = n – 2.

Корельованість та залежність випадкових величин

Дві випадкові величини x і у називають корельованими, якщо їх кореляційний момент (або, що те, коефіцієнт кореляції) відмінний від нуля; X і у називають некорельованими величинами, якщо їхній кореляційний момент дорівнює нулю. Дві корельовані величини також залежні. Справді, допустивши неприємне, ми маємо зробити висновок, що K xy =0, але це суперечить умові, оскільки для корелированных величин K xy ?0. Зворотне припущення який завжди має місце, т. е. якщо дві величини залежні, всі вони можуть бути як корелированными, і некоррелированными. Іншими словами, кореляційний момент двох залежних величин може бути не дорівнює нулю, але може й дорівнювати нулю.

Отже, з корелюваності двох випадкових величин випливає їхня залежність, але із залежності ще не випливає корелюваність із незалежності двох величин випливає їх некорелеваність, але з некорелюваності ще не можна укласти про незалежність цих величин.

Джерело варіації:	df	SS	MS	F
- регресія	m	SS R	MS R	F
- залишок	n-m-1	SS E	MS E	–
- разом	n-1	SS T	–	–

№	y	x	у з дахів	у-у з дахів	\|(у-у з дахів)/у\| * 100%
	10,57		21,48	-10,91	103,22
	17,50		22,29	-4,79	27,37
…	…	…	…	…	…
Разом:	-	-	-	-	197,15