Критерій студента для важливості кореляції. Статистична значимість параметрів регресії та кореляції

Критерій кореляції Пірсона – це метод параметричної статистики, що дозволяє визначити наявність або відсутність лінійного зв'язку між двома кількісними показниками, а також оцінити її тісноту та статистичну значимість. Іншими словами, критерій кореляції Пірсона дозволяє визначити, чи є лінійний зв'язок між змінами значень двох змінних. У статистичних розрахунках та висновках коефіцієнт кореляції зазвичай позначається як r xyабо R xy.

1. Історія розробки критерію кореляції

Критерій кореляції Пірсона був розроблений командою британських учених на чолі з Карлом Пірсоном(1857-1936) у 90-х роках 19-го століття, для спрощення аналізу коваріації двох випадкових величин. Крім Карла Пірсона, над критерієм кореляції Пірсона працювали також Френсіс Еджуорті Рафаель Велдон.

2. Навіщо використовується критерій кореляції Пірсона?

Критерій кореляції Пірсона дозволяє визначити, яка тіснота (або сила) кореляційного зв'язку між двома показниками, виміряними у кількісній шкалі. За допомогою додаткових розрахунків можна також визначити, наскільки статистично значущий виявлений зв'язок.

Наприклад, за допомогою критерію кореляції Пірсона можна відповісти на питання про наявність зв'язку між температурою тіла та вмістом лейкоцитів у крові при гострих респіраторних інфекціях, між зростанням та вагою пацієнта, між вмістом у питну водуфтору та захворюваністю населення карієсом.

3. Умови та обмеження застосування критерію хі-квадрат Пірсона

Порівняні показники повинні бути виміряні в кількісній шкалі(Наприклад, частота серцевих скорочень, температура тіла, вміст лейкоцитів в 1 мл крові, систолічний артеріальний тиск).
За допомогою критерію кореляції Пірсона можна визначити лише наявність та силу лінійного взаємозв'язкуміж величинами. Інші характеристики зв'язку, у тому числі напрямок (прямий або зворотний), характер змін (прямолінійний або криволінійний), а також наявність залежності однієї змінної від іншої - визначаються за допомогою регресійного аналізу.
Кількість зіставлюваних величин має дорівнювати двом. У разі аналізу взаємозв'язку трьох і більше параметрів слід скористатися методом факторного аналізу.
Критерій кореляції Пірсона є параметричним, у зв'язку з чим умовою його застосування служить нормальний розподілзіставлюваних змінних. У випадку необхідності кореляційного аналізупоказників, розподіл яких відрізняється від нормального, у тому числі виміряних у порядковій шкалі, слід використовувати коефіцієнт рангової кореляції Спірмена.
Слід чітко розрізняти поняття залежності та кореляції. Залежність величин зумовлює наявність кореляційного зв'язку з-поміж них, але з навпаки.

Наприклад, зростання дитини залежить від її віку, тобто чим старша дитинатим він вищий. Якщо ми візьмемо двох дітей різного віку, то з високою ймовірністю зростання старшої дитини буде більше, ніж у молодшого. Це явищеі називається залежністю, що передбачає причинно-наслідковий зв'язок між показниками Зрозуміло, між ними є і кореляційний зв'язок, Що означає, що зміни одного показника супроводжуються змінами іншого показника.

В іншій ситуації розглянемо зв'язок зростання дитини та частоти серцевих скорочень (ЧСС). Як відомо, обидві ці величини безпосередньо залежать від віку, тому в більшості випадків діти більшого зростання (а значить і старшого віку) матимуть менші значення ЧСС. Тобто, кореляційний зв'язокспостерігатиметься і може мати досить високу тісноту. Однак якщо ми візьмемо дітей одного віку, але різного зростання, то, швидше за все, ЧСС у них буде відрізнятися несуттєво, у зв'язку з чим можна зробити висновок незалежностіЧСС від зростання.

Наведений приклад показує, як важливо розрізняти фундаментальні у статистиці поняття зв'язкуі залежностіпоказників для побудови правильних висновків.

4. Як розрахувати коефіцієнт кореляції Пірсона?

Розрахунок коефіцієнта кореляції Пірсона здійснюється за такою формулою:

5. Як інтерпретувати значення коефіцієнта кореляції Пірсона?

Значення коефіцієнта кореляції Пірсона інтерпретуються з його абсолютних значень. Можливі значення коефіцієнта кореляції варіюють від 0 до ±1. Чим більше абсолютне значення r xy – тим вища тіснота зв'язку між двома величинами. r xy = 0 говорить про повну відсутність зв'язку. r xy = 1 – свідчить про наявність абсолютного (функціонального) зв'язку. Якщо значення критерію кореляції Пірсона виявилося більшим за 1 або менше -1 – у розрахунках допущена помилка.

Для оцінки тісноти або сили кореляційного зв'язку зазвичай використовують загальноприйняті критерії, згідно з якими абсолютні значення r xy< 0.3 свидетельствуют о слабкоюзв'язку, значення r xy від 0.3 до 0.7 - про зв'язок середньоїтісноти, значення r xy > 0.7 - о сильноюзв'язку.

Точнішу оцінку сили кореляційного зв'язку можна отримати, якщо скористатися таблицею Чеддока:

Оцінка статистичної значимостікоефіцієнта кореляції r xy здійснюється за допомогою t-критерію, що розраховується за такою формулою:

Отримане значення t r порівнюється з критичним значенням за певного рівня значущості та числа ступенів свободи n-2. Якщо t r перевищує t крит, робиться висновок про статистичній значущості виявленого кореляційного зв'язку.

6. Приклад розрахунку коефіцієнта кореляції Пірсона

Метою дослідження стало виявлення, визначення тісноти та статистичної значущості кореляційного зв'язку між двома кількісними показниками: рівнем тестостерону в крові (X) та відсотком м'язової масиу тілі (Y). Вихідні дані для вибірки, що складається з 5 досліджуваних (n = 5), зведені у таблиці.

Вступ. 2

1. Оцінка значущості коефіцієнтів регресії та кореляції за допомогою f-критерію Стьюдента. 3

2. Розрахунок значущості коефіцієнтів регресії та кореляції за допомогою f-критерію Стьюдента. 6

Висновок. 15

Після побудови рівняння регресії необхідно перевірити його значимість: за допомогою спеціальних критеріїв встановити, чи не є отримана залежність, виражена рівняннямрегресії, випадкової, тобто. чи можна її використовувати у прогнозних цілях і для факторного аналізу. У статистиці розроблено методики суворої перевірки значущості коефіцієнтів регресії за допомогою дисперсійного аналізута розрахунку спеціальних критеріїв (наприклад, F-критерію). Нестрога перевірка може бути виконана шляхом розрахунку середнього відносного лінійного відхилення (е), званого середньою помилкоюапроксимації:

Перейдемо тепер до оцінки значимості коефіцієнтів регресії bj і побудові довірчого інтервалу параметрів регресійної моделі Ру (J=l,2,..., р).

Блок 5 - оцінка значимості коефіцієнтів регресій за величиною ^-критерію Стьюдента. Розрахункові значення ta порівнюються з допустимим значенням

Блок 5 - оцінка значимості коефіцієнтів регресій за величиною -критерію. Розрахункові значення t0n порівнюються з допустимим значенням 4/, яке визначається за таблицями t - розподілу для заданої ймовірностіпомилок (а) та числа ступенів свободи (/).

Крім перевірки значущості всієї моделі, необхідно провести перевірки значущості коефіцієнтів регресії за критерієм Стюдента. Мінімальне значення коефіцієнта регресії Ьг має відповідати умові bifob-^t, де bi - значення коефіцієнта рівняння регресії в натуральному масштабі при i-ц факторної ознаки; аь. - середня квадратична помилкакожного коефіцієнта. непорівнянність між собою за своєю значимістю коефіцієнтів D;

Подальший статистичний аналіз стосується перевірки важливості коефіцієнтів регресії. Для цього знаходимо значення ^-критерію для коефіцієнтів регресії. В результаті їх порівняння визначається найменший за величиною -критерій. Фактор, коефіцієнту якого відповідає найменший -критерій, виключається з подальшого аналізу.

Для оцінки статистичної значущості коефіцієнтів регресії та кореляції розраховуються t-критерій Ст'юдента та довірчі інтерваликожного із показників. Висувається гіпотеза Але про випадкову природу показників, тобто. про незначне їх відмінність від нуля. Оцінка значимості коефіцієнтів регресії та кореляції за допомогою f-критерію Стьюдента проводиться шляхом зіставлення їх значень із величиною випадкової помилки:

Оцінка значимості коефіцієнтів чистої регресії за допомогою /-критерію Стьюдента зводиться до обчислення значення

Якість праці - характеристика конкретної праці, що відбиває ступінь його складності, напруженості (інтенсивності), умови значимість у розвиток економіки. К.т. вимірюється за допомогою тарифної системи, що дозволяє диференціювати заробітну плату залежно від рівня кваліфікації (складності праці), умов, тяжкості праці та її інтенсивності, і навіть значимості окремих галузей і виробництв, районів, територій у розвиток економіки нашої країни. К.т. знаходить вираз у заробітної платипрацівників, що складається на ринку праці під впливом попиту та пропозиції робочої сили (конкретні види праці). К.т. - складна за структурою

Отримані бали відносної значимості окремих економічних, соціальних та екологічних наслідків здійснення проекту дають далі основу для порівняння альтернативних проектів та їх варіантів за допомогою "комплексного бального безрозмірного критерію соціальної та еколого-економічної ефективності" проекту Ек, що розраховується (у усереднених балах значущості)

Внутрішньогалузеве регулювання забезпечує відмінності в оплаті праці працівників цієї галузі промисловості залежно від значимості окремих видів виробництва даної галузі, від складності та умов праці, а також від застосовуваних форм оплати праці.

Отримана рейтингова оцінка підприємства, що аналізується, по відношенню до підприємства-еталону без урахування значимості окремих показників є порівняльною. При порівнянні рейтингових оцінок кількох підприємств найвищий рейтинг має підприємство із мінімальним значенням отриманої порівняльної оцінки.

Розуміння якості товару як міри його корисності ставить практично важливе питання про її вимір. Його рішення досягається вивченням значимості окремих властивостей у задоволенні певної потреби. Значимість навіть однієї й тієї ж якості може бути неоднаковою залежно та умовами споживання товару. Отже, і корисність товару за різних обставин її використання різна.

Другий етап роботи - вивчення статистичних даних та виявлення взаємозв'язку та взаємодії показників, визначення значимості окремих факторів та причин зміни загальних показників.

Всі аналізовані показники зводяться в один такий спосіб, що в результаті виходить комплексна оцінка всіх аналізованих сторін діяльності підприємства з урахуванням умов його діяльності, з урахуванням ступеня значимості окремих показників для різних типів інвесторів:

p align="justify"> Коефіцієнти регресії показують інтенсивність впливу факторів на результативний показник. Якщо проведено попередню стандартизацію факторних показників, то Ь0 дорівнює середньому значенню результативного показникав сукупності. Коефіцієнти Ь, Ь2 ..... Ьл показують, на скільки одиниць рівень результативного показника відхиляється від свого середнього значення, якщо значення факторного показника відхиляються від середнього, рівного нулю, на одне стандартне відхилення. Отже, коефіцієнти регресії характеризують ступінь значимості окремих чинників підвищення рівня результативного показника. Конкретні значення коефіцієнтів регресії визначають за емпіричними даними згідно з методом найменших квадратів(внаслідок вирішення систем нормальних рівнянь).

2. Розрахунок значущості коефіцієнтів регресії та кореляції за допомогою f-критерію Стьюдента

Розглянемо лінійну форму багатофакторних зв'язків як найбільш просту, а й як форму, передбачену пакетами прикладних програм для ПЕОМ. Якщо ж зв'язок окремого фактора з результативною ознакою не є лінійним, то роблять лінеаризацію рівняння шляхом заміни чи перетворення величини факторної ознаки.

Загальний виглядбагатофакторного рівняння регресії має вигляд:

де k – число факторних ознак.

Щоб спростити систему рівнянь МНК, необхідну обчислення параметрів рівняння (8.32), зазвичай вводять величини відхилень індивідуальних значень всіх ознак середніх величин цих ознак.

Отримуємо систему k рівнянь МНК:

Вирішуючи цю систему, отримуємо значення коефіцієнтів умовно-чистої регресії b. Вільний член рівняння обчислюється за формулою

Термін "коефіцієнт умовно-чистої регресії" означає, що кожна з величин bj вимірює середнє за сукупністю відхилення результативної ознаки від його середньої величинипри відхиленні даного фактора хj від своєї середньої величини на одиницю його виміру та за умови, що всі інші фактори, що входять до рівняння регресії, закріплені на середніх значеннях, не змінюються, не варіюють.

Отже, на відміну коефіцієнта парної регресії коефіцієнт умовно-чистої регресії вимірює вплив чинника, абстрагуючись від зв'язку варіації цього з варіацією інших чинників. Якщо було б можливим включити до рівняння регресії всі чинники, що впливають варіацію результативного ознаки, то величини bj. можна було б вважати за заходи чистого впливу факторів. Але оскільки реально неможливо включити всі чинники рівняння, то коефіцієнти bj. не вільні від домішки впливу факторів, що не входять до рівняння.

Включити всі фактори в рівняння регресії неможливо з однієї з трьох причин або відразу з усіх, оскільки:

1) частина факторів може бути невідома сучасній науці, Пізнання будь-якого процесу завжди неповне;

2) у відомих теоретичних чинників немає інформації чи така ненадійна;

3) чисельність досліджуваної сукупності (вибірки) обмежена, що дозволяє включити до рівняння регресії обмежену кількість факторів.

Коефіцієнти умовно чистої регресії bj. є іменованими числами, вираженими у різних одиницях виміру, і тому незрівнянні друг з одним. Для перетворення їх у порівняні відносні показникизастосовується те саме перетворення, що й отримання коефіцієнта парної кореляції. Отриману величину називають стандартизованим коефіцієнтомрегресії чи?-коефіцієнтом.

Коефіцієнт при факторі хj, визначає міру впливу варіації фактора хj на варіацію результативної ознаки при відволіканні від супутньої варіації інших факторів, що входять до рівняння регресії.

Коефіцієнти умовно-чистої регресії корисно висловити як відносних порівняних показників зв'язку, коефіцієнтів еластичності:

p align="justify"> Коефіцієнт еластичності фактора хj говорить про те, що при відхиленні величини даного фактора від його середньої величини на 1% і при відволіканні від супутнього відхилення інших факторів, що входять до рівняння, результативна ознака відхилиться від свого середнього значення на ej відсотків від у. Найчастіше інтерпретують і застосовують коефіцієнти еластичності в термінах динаміки: зі збільшенням фактора х.на 1% його середньої величини результативна ознака збільшиться на е. відсотків його середньої величини.

Розглянемо розрахунок та інтерпретацію рівняння багатофакторної регресії на прикладі тих самих 16 господарств (табл. 8.1). Результативна ознака – рівень валового доходу та три фактори, що впливають на нього, представлені в табл. 8.7.

Нагадаємо ще раз, що для отримання надійних і досить точних показників кореляційного зв'язку необхідна численніша сукупність.

Таблиця 8.7

Рівень валового доходу та його фактори

Номери господарств	Валовий дохід, руб.	Витрати праці, чол.-дні/га х1	Частка ріллі,	Надій молока на 1 корову,

Таблиця 8.8 Показники рівняння регресії

	Dependent variable: у
	Regression coefficient



Constant-240,112905
Std. error оf est. = 79,243276

Рішення проведено за програмою Microstat для ПЕОМ. Наведемо таблиці з друку: табл. 8.7 дає середні величини та середні квадратичні відхиленнявсіх ознак. Табл. 8.8 містить коефіцієнти регресії та їх ймовірнісну оцінку:

перша графа "var" - змінні, тобто фактори; друга графа "regression coefficient" - коефіцієнти умовно-чистої регресії bj; третю графу «std. errror» - середні помилки оцінок коефіцієнтів регресії; четверта графа – значення t-критерію Стьюдента при 12 ступенях свободи варіації; п'ята графа «prob» - ймовірність нульової гіпотези щодо коефіцієнтів регресії;

шоста графа "partial r2" - приватні коефіцієнти детермінації. Зміст та методика розрахунку показників у графах 3-6 розглядаються далі у розділі 8. «Constant» - вільний член рівняння регресії a; «Std. error of est.» - Середня квадратична помилка оцінки результативної ознаки рівняння регресії. Було отримано рівняння множинної регресії:

у = 2,26 x1 - 4,31 х2 + 0,166 х3 - 240.

Це означає, що величина валового доходу на 1 га сільгоспугідь у середньому за сукупністю зростала на 2,26 руб. зі збільшенням витрат праці на 1 год/га; зменшувалась у середньому на 4,31 руб. при зростанні частки ріллі в сільгоспугіддях на 1% і збільшувалася на 0,166 руб. при зростанні надою молока на корову на 1 кг. Негативна величина вільного члена цілком закономірна, і, як уже зазначено у п. 8.2, результативна ознака - валовий дохід стає нульовим задовго до досягнення нульових значень факторів, що у виробництві неможливе.

Негативне значеннякоефіцієнта при х^ - сигнал про суттєве неблагополуччя в економіці досліджуваних господарств, де рослинництво збиткове, а прибуткове лише тваринництво. При раціональних методах ведення сільського господарствата нормальних цінах (рівноважних чи близьких до них) на продукцію всіх галузей, дохід повинен не зменшуватися, а зростати зі збільшенням найбільш родючої частки у сільгоспугіддях – ріллі.

На основі даних передостанніх двох рядків табл. 8.7 та табл. 8.8 розрахуємо р-коефіцієнти та коефіцієнти еластичності згідно з формулами (8.34) та (8.35).

Як на варіацію рівня доходу, так і на його можливу зміну в динаміці найсильніше впливає фактор х3 – продуктивність корів, а найслабше – х2 – частка ріллі. Значення Р2/ використовуватимуться надалі (табл. 8.9);

Таблиця 8.9 Порівняльний вплив факторів на рівень доходу

Чинники хj

Отже, ми отримали, що?-коефіцієнт фактора хj відноситься до коефіцієнта еластичності цього фактора, як коефіцієнт варіації фактора до коефіцієнта варіації результативної ознаки. Оскільки, як видно з останнього рядка табл. 8.7, коефіцієнти варіації всіх факторів менші за коефіцієнт варіації результативної ознаки; всі?-коефіцієнти менше коефіцієнтів еластичності.

Розглянемо співвідношення між парним і умовно-чистим коефіцієнтом регресії з прикладу чинника -с,. Парне лінійне рівняннязв'язку у с х, має вигляд:

y = 3,886x1 - 243,2

Умовно-чистий коефіцієнт регресії при x1 становить лише 58% парного. Інші 42% пов'язані з тим, що варіації x1 супроводжує варіація факторів x2 x3, яка, у свою чергу, впливає на результативну ознаку. Зв'язки всіх ознак та його коефіцієнти парних регресій представлені на графі зв'язків (рис. 8.2).

Якщо скласти оцінки прямого та опосередкованого впливу варіації х1 на у, тобто добутку коефіцієнтів парних регресій по всіх «шляхах» (рис. 8.2), отримаємо: 2,26 + 12,55 · 0,166 + (-0,00128) · (-4,31) + (-0,00128) · 17,00 · 0,166 = 4,344.

Ця величина навіть більша парного коефіцієнтазв'язку x1 із у. Отже, непрямий вплив варіації x1 через ознаки-фактори, що не входять до рівняння, - зворотне, що дає в сумі:

1 Айвазян С.А., Мхітарян В.С. Прикладна статистика та основи економетрики. Підручник для вишів. - М.: ЮНІТІ, 2008, - 311с.

2 Джонстон Дж. Економетричні методи. - М: Статистика, 1980,. - 282с.

3 Доугерті К. Введення в економетрику. - М: ІНФРА-М, 2004, - 354с.

4 Дрейєр Н., Сміт Р., Прикладний регресійний аналіз. - М.: Фінанси та статистика, 2006, - 191с.

5 Магнус Я.Р., Картишев П.К., Пересецький А.А. Економетрики. Початковий курс.-М.: Справа, 2006, - 259с.

6 Практикум з економетрики / Под ред. І.І.Єлісєєвої.- М.: Фінанси та статистика, 2004, - 248с.

7 Економетрика / Под ред. І.І.Єлісєєвої.- М.: Фінанси та статистика, 2004, - 541с.

8 Кремер Н., Путко Б. Економетрика. - М.: ЮНІТІ-ДАНА, 200, - 281с.

Репетиторство

Потрібна допомога з вивчення якоїсь теми?

Наші фахівці проконсультують або нададуть репетиторські послуги з цікавої для вас тематики.
Надішліть заявкуіз зазначенням теми прямо зараз, щоб дізнатися про можливість отримання консультації.

Повний варіант цієї нотатки (з формулами та таблицями) можна завантажити з цієї сторінки у форматі PDF. Розміщений на самій сторінці текст є коротким викладомзмісту цієї замітки та найважливіших висновків.

Оптимістам від статистики присвячується

Коефіцієнт кореляції (КК) - одна з найбільш простих і популярних статистик, Що характеризують зв'язок між випадковими величинами Одночасно КК утримує першість за кількістю зроблених з його допомогою помилкових і безглуздих висновків. Таке становище зумовлено практикою викладу матеріалу, що відноситься до кореляції і кореляційних залежностей.

Великі, маленькі та "проміжні" значення КК

При розгляді кореляційного зв'язку докладно обговорюється поняття «сильної» (майже одиничної) та «слабкої» (майже нульової) кореляції, але практично ні та, ні інша ніколи не зустрічаються. В результаті залишається незрозумілим питання про розумне трактування звичайних для практики «проміжних» значень КК. Коефіцієнт кореляції, рівний 0.9 або 0.8 , Новичку вселяє оптимізм, а менші значення приводять його в замішання.

У міру набуття досвіду оптимізм зростає, і ось уже КК, що дорівнює 0.7 або 0.6 приводить дослідника у захват, а оптимізм вселяють значення 0.5 і 0.4 . Якщо ж дослідник знайомий із методами перевірки статистичних гіпотез, то поріг «хороших» значень КК падає до 0.3 або 0.2 .

Справді, які значення КК вже можна вважати «досить великими», а які залишаються «надто маленькими»? На це питання є дві діаметрально протилежні відповіді - оптимістична і песимістична. Розглянемо спочатку оптимістичний (найпопулярніший) варіант відповіді.

Значення коефіцієнта кореляції

Цей варіант відповіді дає нам класична статистика і він пов'язаний із поняттям статистичної значимостіКК. Ми розглянемо тут лише ситуацію, коли інтерес представляє позитивний кореляційний зв'язок (випадок негативного кореляційного зв'язку абсолютно аналогічний). Більш складний випадок, коли перевіряється наявність кореляційного зв'язку без урахування знака, відносно рідко зустрічається на практиці.

Якщо для КК rвиконано нерівність r > r e (n), то кажуть, що КК статистично значущийза рівня значимості е. Тут r e (n)-- квантиль, щодо якого нас цікавитиме лише те, що при фіксованому рівні значущості e його значення прагне нуля зі зростанням довжини nвибірки. Виходить, що збільшуючи масив даних можна досягти статистичної значущості КК навіть за дуже малих його значеннях. В результаті за наявності досить великої вибірки з'являється спокуса визнати наявність у випадку КК, що дорівнює, наприклад, 0.06 . Проте, здоровий глуздпідказує, що висновок про наявність значного кореляційного зв'язку при r=0.06не може бути справедливим за жодного обсягу вибірки. Залишається зрозуміти природу помилки. І тому розглянемо докладніше поняття статистичної значимості.

Як завжди, при перевірці статистичних гіпотез зміст розрахунків, що проводяться, криється у виборі нуль-гіпотези та альтернативної гіпотези. При перевірці значимості КК як нуль-гіпотеза береться припущення (r = 0)при альтернативній гіпотезі (r> 0)(нагадаємо, що ми розглядаємо тут лише ситуацію, коли інтерес представляє позитивний кореляційний зв'язок). Вибирається довільний рівень значущості eвизначає ймовірність т.зв. помилки першого роду, коли нуль-гіпотеза вірна ( r=0), але відхиляється статистичним критерієм (тобто. критерій помилково визнає наявність значної кореляції). Вибираючи рівень значущості, ми гарантуємо мінімальну можливість такої помилки, тобто. ми майже застраховані від того, щоб для незалежних вибірок ( r=0) помилково визнати наявність кореляційного зв'язку ( r > 0). Грубо кажучи, значимість коефіцієнта кореляції означає лише те, що він із великою ймовірністю відмінний від нуля.

Саме тому розмір вибірки та величина КК компенсують один одного - великі вибірки просто дозволяють досягти більшої точності в локалізації малого КК за його вибірковою оцінкою.

Зрозуміло, що поняття значимості не дає відповіді на вихідне питання про розуміння категорій "великий/маленький" стосовно значень КК. Відповідь, що дається критерієм значущості, нічого не говорить нам про властивості кореляційного зв'язку, а дозволяє лише переконатися, що з великою ймовірністю виконано нерівність. r > 0. У той самий час, саме значення КК містить значно суттєвішу інформацію про властивості кореляційного зв'язку. Справді, однаково значущі КК, рівні 0.1 і 0.9 , істотно різняться за рівнем вираженості відповідного кореляційного зв'язку, а твердження про значимість КК r = 0.06для практики абсолютно марно, оскільки за будь-яких обсягів вибірки ні про який кореляційний зв'язок тут говорити не доводиться.

Остаточно можна сказати, що на практиці із значущості коефіцієнта кореляції не випливають будь-які властивості кореляційного зв'язку і навіть саме її існування. З погляду практики порочний сам вибір альтернативної гіпотези, яка використовується під час перевірки значимості КК, оскільки випадки r=0і r>0при малих rз практичної точки зору не відрізняються.

Фактично, коли з значимості ККвиводять існування значущого кореляційного зв'язку, Виробляють абсолютно безпардонну підміну понять, засновану на смисловій неоднозначності слова "значимість". Значимість КК (чітко певне поняття) обманно перетворюють на "значний кореляційний зв'язок", а це словосполучення, що не має строгого визначення, трактують як синонім "вираженого кореляційного зв'язку".

Розщеплення дисперсії

Розглянемо інший варіант відповіді питання " малих " і " великих " значеннях КК. Цей варіант відповіді пов'язаний з з'ясуванням регресійного сенсу КК і виявляється дуже корисним для практики, хоча і відрізняється набагато меншим оптимізмом, ніж критерії значущості КК.

Цікаво, що обговорення регресійного сенсу КК часто наштовхується на труднощі дидактичного (а швидше психологічного) характеру. Коротко прокоментуємо їх. Після формального введення КК та пояснення сенсу "сильного" і "слабкого" кореляційного зв'язку вважається за необхідне заглибитися в обговорення філософських питань співвідношення між кореляційними та причинно-наслідковими зв'язками. При цьому робляться енергійні спроби відхреститися від (гіпотетичної!) спроби трактувати кореляційний зв'язок як причинно-наслідковий. На цьому фоні обговорення питання про наявність функціональної залежності(у тому числі й регресійної) між корелюючими величинами починає здаватися просто блюзнірською. Адже від функціональної залежності до причинно-наслідкового зв'язку лише один крок! Через війну питання регресійному сенсі КК взагалі обходиться стороною, як і питання кореляційні властивості лінійної регресії.

Насправді, тут все просто. Якщо для нормованих (тобто мають нульове маточування і одиничну дисперсію) випадкових величин Xі Yмає місце співвідношення

Y = a + bX + N,

де N- Деяка випадкова величина з нульовим матожиданням (адитивний шум), то легко переконатися, що a = 0і b = r. Це співвідношення між випадковими величинами Xі Yназивається рівнянням лінійної регресії.

Обчислюючи дисперсію випадкової величини Yлегко отримати такий вираз:

D[Y] = b 2 D[X] + D[N].

В останньому виразі перший доданок визначає внесок випадкової величини Xу дисперсію Y, а другий доданок -- внесок шуму Nу дисперсію Y. Використовуючи отриманий вираз для параметра bлегко висловити вклади випадкових величин Xі Nчерез величину r =r(нагадаємо, що ми вважаємо величини Xі Yнормованими, тобто. D[X] = D[Y] = 1):

b 2 D[X] = r 2

D[N] = 1 - r 2

З урахуванням отриманих формул часто кажуть, що для випадкових величин Xі Yпов'язаних регресійним рівнянням, величина r 2визначає частку дисперсії випадкової величини Y, лінійно обумовлену зміною випадкової величини X. Отже, сумарна дисперсія випадкової величини Yрозпадається на дисперсію, лінійно обумовленунаявністю регресійного зв'язку та залишкову дисперсію , обумовлену присутністю адитивного шуму

Розглянемо діаграму розсіювання двовимірної випадкової величини (X, Y). При малих D[N]діаграма розсіювання вироджується в лінійну залежність між випадковими величинами, злегка спотворену адитивним шумом (тобто точки на діаграмі розсіювання будуть в основному зосереджені поблизу прямої X=Y). Такий випадок має місце при значеннях rблизьких по модулю до одиниці. При зменшенні (за модулем) величини КК дисперсія шумової складової Nпочинає давати все більший внесок у дисперсію величини Yі за малих rдіаграма розсіювання повністю втрачає схожість із прямою лінією. У цьому випадку ми маємо хмару точок, розсіяння яких зумовлено переважно шумом. Саме цей випадок реалізується за значних, але малих за абсолютною величиною значення КК. Зрозуміло, що в цьому випадку ні про який кореляційний зв'язок годі й говорити.

Подивимося тепер, який варіант відповіді на питання про "великі" і "маленькі" значення КК пропонує нам регресійна інтерпретація КК. Насамперед необхідно підкреслити, що саме дисперсія є найбільш природним заходом розсіювання значень випадкової величини. Природа цієї "природності" полягає в адитивності дисперсії для незалежних випадкових величин, але ця властивість має дуже різноманітні прояви, до яких належить і продемонстроване вище розщеплення дисперсії на лінійно обумовлену та залишкову дисперсії.

Отже, величина r 2визначає частку дисперсії величини Y, лінійно обумовлену наявністю регресійного зв'язку з випадковою величиною X. Питання, яку частку лінійно обумовленої дисперсії вважатимуться ознакою наявності вираженої кореляційної зв'язку, залишається совісті дослідника. Тим не менш, стає ясно, що малі значення коефіцієнта кореляції ( r< 0.3 ) дають настільки малу частку лінійно поясненої дисперсії, що безглуздо говорити про будь-який виражений кореляційний зв'язок. При r > 0.5можна говорити про наявність помітного кореляційного зв'язку між величинами, а при r > 0.7кореляційний зв'язок може розглядатися як суттєвий.

Деякі дослідники, обчисливши значення коефіцієнта кореляції, цьому і зупиняються. Але з погляду грамотної методології експерименту слід визначити рівень значущості (тобто ступінь достовірності) даного коефіцієнта.

Рівень важливості коефіцієнта кореляції обчислюється з допомогою таблиці критичних значень. Нижче наведено фрагмент зазначеної таблиці, що дозволяє визначити рівень значущості отриманого нами коефіцієнта.

Ми вибираємо той рядок, який відповідає обсягу вибірки. У нашому випадку n = 10. Ми вибираємо в даному рядку те табличне значення, яке трохи менше емпіричного (або точно дорівнює йому, що буває вкрай рідко). Це виділене жирним шрифтом число 0632. Воно відноситься до стовпця зі значенням рівня достовірності p = 0,05. Тобто фактично емпіричне значення займає проміжне положення між стовпцями p = 0,05 і p = 0,01, отже, 0,05  p  0,01. Таким чином, ми відкидаємо нульову гіпотезу і приходимо до висновку, що отриманий результат (R xy = 0,758) значимо на рівні p< 0,05 (это уровень статистической значимости): R эмп >R кр (p< 0,05) H 0 ,  Н 1 ! ст. зн.

Побутовою мовою це можна проінтерпретувати наступним чином: можна очікувати, що ця сила зв'язку матиме місце у вибірці рідше, ніж у п'яти випадках зі 100, якщо цей зв'язок – наслідок випадковості.

Регресійний аналіз

	X(зріст)	Y(Вага)










	М х = 166,6	М y = 58,3
	 x = 6 , 54	 y = 8 , 34

Регресійний аналіз використовується вивчення взаємозв'язку між двома величинами, виміряними в інтервальної шкалою. Цей вид аналізу передбачає побудову регресійного рівняння, що дозволяє кількісно описати залежність однієї ознаки від іншої (коефіцієнт кореляції Пірсона вказує на наявність або відсутність зв'язку, але це не описує). Знаючи випадкову величину однієї з ознак і використовуючи дане рівняння, дослідник може з певною мірою ймовірності передбачити відповідне значення другої ознаки. Лінійна залежність ознак описується рівнянням такого типу:

у = а +b y * x ,

де а -вільний член рівняння, рівний підйому графіка в точці х = 0щодо осі абсцис, b – кутовий коефіцієнт нахилу лінії регресії дорівнює тангенсу кута нахилу графіка до осі абсцис (за умови, що масштаб значень обох осях однаковий).

Знаючи значення досліджуваних ознак, можна визначити величину вільного члена та коефіцієнта регресії за такими формулами:

а =M y – b y * M x

У нашому випадку:
;

а = 58,3 – 0,97 * 166,6 = -103,3

Таким чином, формула залежності ваги від зростання виглядає так: у = 0,969 * х – 103,3

Відповідний графік наведено нижче.

Якщо необхідно описати залежність зростання від ваги ( хвід у), то значення аі bстають іншими та формули необхідно відповідним чином модифікувати:

x= а +b x * у

а =M x – b x * M y

Змінюється у разі і вигляд графіка.

Коефіцієнт регресії перебуває у зв'язку з коефіцієнтом кореляції. Останній є середнім геометричним з коефіцієнтів регресії ознак:

Квадрат коефіцієнта кореляції називається коефіцієнтом детермінації. Його величина визначає відсотковий взаємний вплив змінних. У нашому випадку R 2 = 0,76 2 = 0,58 . Це означає, що 58% загальної дисперсії Y пояснюється впливом змінної X, решта 42% обумовлені впливом неврахованих у рівнянні чинників.