Визначення коефіцієнта значущості чинників із рівняння регресії. Оцінка рівнів значимості коефіцієнтів регресійного рівняння

ТЕМА 4. СТАТИСТИЧНІ МЕТОДИ ВИВЧЕННЯ ЗВ'ЯЗКІВ

Рівняння регресії -це аналітичне уявлення кореляційної залежності. Рівняння регресії визначає гіпотетичну функціональну залежність між умовним середнім значенням результативного ознаки і значенням ознаки – чинника (чинників), тобто. основну тенденцію залежності.

Парна кореляційна залежність описується рівнянням парної регресії, множинна кореляційна залежність – рівнянням множинної регресії.

Ознака-результат у рівнянні регресії – це залежна змінна (відгук, яка пояснюється змінна), а ознака-фактор – незалежна змінна (аргумент, що пояснює змінна).

Найпростішим видом рівняння регресії є рівняння парної лінійної залежності:

де y – залежна змінна (ознака-результат); x - незалежна змінна (ознака-фактор); та – параметри рівняння регресії; - Помилка оцінювання.

Як рівняння регресії можна використовувати різні математичні функції. Часте практичне застосуваннязнаходять рівняння лінійної залежності, параболи, гіперболи, степової функції та ін.

Як правило, аналіз починається з оцінки лінійної залежності, оскільки результати легко піддаються змістовній інтерпретації. Вибір типу рівняння зв'язку досить відповідальний етап аналізу. У «докомп'ютерну» епоху ця процедура була з певними труднощами і вимагала від аналітика знання властивостей математичних функцій. В даний час на базі спеціалізованих програм можна оперативно побудувати безліч рівнянь зв'язку та на основі формальних критеріїв здійснити вибір кращої моделі (проте математична грамотність аналітика не втратила своєї актуальності).

Гіпотезу про тип кореляційної залежності можна висунути за наслідками побудови поля кореляції (див. лекцію 6). Виходячи з характеру розташування точок на графіку (координати точок відповідають значенням залежної та незалежної змінних), виявляється тенденція зв'язку між ознаками (показниками). Якщо лінія регресії проходить через усі точки поля кореляції, це свідчить про функціональної зв'язку. У практиці соціально-економічних досліджень таку картину спостерігати не доводиться, оскільки є статистична (кореляційна) залежність. В умовах кореляційної залежності при нанесенні лінії регресії на діаграму розсіювання спостерігається відхилення точок поля кореляції від лінії регресії, що демонструє так звані залишки або помилки оцінювання (див. рис. 7.1).

Наявність помилки рівняння пов'язана з тим, що:

§ не всі фактори, що впливають на результат, враховуються в рівнянні регресії;

§ може бути невірно обрана форма зв'язку - рівняння регресії;

§ не всі фактори включені до рівняння.

Побудувати рівняння регресії означає розрахувати значення його параметрів. Рівняння регресії будується з урахуванням фактичних значень аналізованих ознак. Розрахунок параметрів зазвичай виконується з використанням методу найменших квадратів(МНК).

Суть МНКполягає в тому, що вдається отримати такі значення параметрів рівняння, при яких мінімізується сума квадратів відхилень теоретичних значень ознаки-результату (розрахованих на основі рівняння регресії) від фактичних його значень:

,

де - фактичне значення ознаки-результату у i-ї одиницісукупності; - Значення ознаки-результату у i-ї одиниці сукупності, отримане за рівнянням регресії ().

Тобто вирішується завдання на екстремум, тобто необхідно знайти, при яких значеннях параметрів, функція S досягає мінімуму.

Проводячи диференціювання, прирівнюючи приватні похідні нулю:



, (7.3)

, (7.4)

де - середній добуток значень фактора та результату; - Середнє значення ознаки – фактора; - Середнє значення ознаки-результату; - Дисперсія ознаки-фактора.

Параметр у рівнянні регресії характеризує кут нахилу лінії регресії графіку. Цей параметр називають коефіцієнтом регресіїта його величина характеризує, наскільки одиниць свого виміру зміниться ознака-результат при зміні ознаки-фактора на одиницю свого виміру. Знак при коефіцієнті регресії відбиває спрямованість залежності (пряма чи зворотна) і збігається зі знаком коефіцієнта кореляції (за умов парної залежності).

У рамках аналізованого прикладу, у програмі STATISTICA розраховані параметри рівняння регресії, що описує залежність між рівнем середньодушових грошових доходів населення і величиною валового регіонального продукту душу населення регіонах Росії, див. таблицю 7.1.

Таблиця 7.1 - Розрахунок та оцінка параметрів рівняння, що описує залежністьміж рівнем середньодушових грошових доходів населення та величиною валового регіонального продукту на душу населення в регіонах Росії, 2013 р.

У графі "В" таблиці містяться значення параметрів рівняння парної регресії, отже можна записати: = 13406,89 + 22,82 x. Дане рівняння описує тенденцію зв'язку між аналізованими характеристиками. Параметр – це коефіцієнт регресії. У разі він дорівнює 22,82 і характеризує таке: зі збільшенням ВРП душу населення на 1 тыс.рублей середньодушові грошові доходи загалом зростають (на що вказує знак " + " ) на 22,28 крб.

Параметр рівняння регресії у соціально-економічних дослідженнях, як правило, змістовно не інтерпретується. Формально він відображає величину ознаки - результату за умови, що ознака - фактор дорівнює нулю. Параметр характеризує розташування лінії регресії на графіку, див. рисунок 7.1.

Рисунок 7.1 - Поле кореляції та лінія регресії, що відображають залежність рівня середньодушових грошових доходів населення в регіонах Росії та величини ВРП на душу населення

Значення параметра відповідає точці перетину лінії регресії з віссю Y, X=0.

Побудова рівняння регресії супроводжується оцінкою статистичної значимостірівняння загалом та її параметрів. Необхідність таких процедур пов'язана з обмеженим обсягом даних, що може перешкоджати дії закону великих чиселі, отже, виявлення справжньої тенденції у взаємозв'язку аналізованих показників. Крім того, будь-яку досліджувану сукупність можна розглядати як вибірку з генеральної сукупності, а показники, отримані під час аналізу, як оцінку генеральних властивостей.

Оцінка статистичної значущості параметрів та рівняння в цілому – це обґрунтування можливості використання побудованої моделі зв'язку для прийняття управлінських рішень та прогнозування (моделювання).

Статистична значущість рівняння регресіїзагалом оцінюється з використанням F-критерія Фішера, який являє собою відношення факторної та залишкових дисперсій, розрахованих на один ступінь свободи:

де - факторна дисперсія ознаки – результату; k – число ступенів свободи факторної дисперсії (кількість факторів у рівнянні регресії); - Середнє значення залежної змінної; - теоретичне (отриманої за рівнянням регресії) значення залежної змінної у i - й одиниці сукупності; - залишкова дисперсіяознаки – результату; n – обсяг сукупності; n-k-1 – число ступенів свободи залишкової дисперсії.

Величина F-критерію Фішера, згідно з формулою, характеризує співвідношення між факторною та залишковою дисперсіями залежною змінною, демонструючи, по суті, у скільки разів величина поясненої частини варіації перевищує непояснену.

F-критерій Фішера табульований, входом до таблиці є число ступенів свободи факторної та залишкової дисперсій. Порівняння розрахункового значення критерію з табличним (критичним) дозволяє відповісти на питання: чи статистично значуща та частина варіації ознаки-результату, яку вдається пояснити факторами, включеними до рівняння даного виду. Якщо , то рівняння регресії визнається статистично значущим і, відповідно, статистично значущим і коефіцієнтом детермінації. В іншому випадку ( ), рівняння – статистично незначимо, тобто. Варіація врахованих у рівнянні чинників не пояснює статистично значимої частини варіації ознаки-результату, або правильно обрано рівняння зв'язку.

Оцінка статистичної значущості параметрів рівнянняздійснюється на основі t-статистикияка розраховується як відношення модуля параметрів рівняння регресії до їх стандартних помилок ( ):

, де ; (7.6)

, де ; (7.7)

де - стандартні відхиленняознаки - фактора та ознаки - результату; - Коефіцієнт детермінації.

У спеціалізованих статистичних програмах розрахунок параметрів завжди супроводжується розрахунком значень їх стандартних (середньоквадратичних) помилок та t-статистики (див. таблицю 7.1). Розрахункове значення t-статистики порівнюється з табличним, якщо обсяг сукупності, що вивчається, менше 30 одиниць (безумовно мала вибірка), слід звернутися до таблиці t-розподілу Стьюдента, якщо обсяг сукупності великий, слід скористатися таблицею нормального розподілу (інтеграла ймовірностей Лапласа). Параметр рівняння визнається статистично значущим, якщо.

Оцінка параметрів на основі t-статистики, по суті, є перевіркою нульової гіпотези про рівність генеральних параметрів нулю (H 0: =0; H 0: = 0;), тобто про статистично не значущу величину параметрів рівняння регресії. Рівень значущості гіпотези, зазвичай, приймається: = 0,05. Якщо розрахунковий рівень значимості менше 0,05, то нульова гіпотеза відкидається і приймається альтернативна - статистичної значущості параметра.

Продовжимо розгляд прикладу. У таблиці 7.1 у графі «B» наведено значення параметрів, у графі Std.Err.ofB – величини стандартних помилок параметрів ( ), у графі t(77 – число ступенів свободи) розраховані значення t – статистики з урахуванням числа ступенів свободи. Для оцінки статистичної значущості параметрів розрахункові значення t – статистик необхідно порівняти з табличним значенням. Заданого рівня значущості (0,05) у таблиці нормального розподілу відповідає t = 1,96. Бо 18,02, 10,84, тобто. , Слід визнати статистичну значимість отриманих значень параметрів, тобто. ці значення сформовані під впливом невипадкових факторів і відображають тенденцію зв'язку між аналізованими показниками.

Для оцінки статистичної значущості рівняння загалом звернемося до значення F-критерію Фішера (див. таблицю 7.1). Розрахункове значення F-критерію = 117,51, табличне значення критерію, виходячи з відповідного числа ступенів свободи (для факторної дисперсії d.f. =1, для залишкової дисперсії d.f. =77), дорівнює 4,00 (див. додаток.... .). Таким чином, Отже, рівняння регресії загалом статистично значуще. У разі можна говорити про статистичної значимості величини коефіцієнта детермінації, тобто. Варіація середньодушових доходів населення регіонах Росії на 60 відсотків можна пояснити варіацією обсягів валового регіонального продукту душу населення.

Проводячи оцінку статистичної значимості рівняння регресії та її параметрів, можемо отримати різне поєднання результатів.

· Рівняння за F-критерієм статистично значуще і всі параметри рівняння з t-статистики теж статистично значущі. Це рівняння може бути використане як для прийняття управлінських рішень (на які фактори слід впливати, щоб отримати бажаний результат), так і для прогнозування поведінки ознаки-результату при тих чи інших значеннях факторів.

· За F-критерієм рівняння статистично значуще, але незначні параметри (параметр) рівняння. Рівняння може бути використане для прийняття управлінських рішень (що стосуються тих факторів, якими отримано підтвердження статистичної значущості їх впливу), але рівняння не може бути використане для прогнозування.

· Рівняння за F-критерієм статистично незначне. Рівняння не можна використовувати. Слід продовжити пошук значимих ознак-факторів чи аналітичної форми зв'язку аргументу та відгуку.

Якщо доведено статистична значимість рівняння та її параметрів, може бути реалізований, про, точковий прогноз, тобто. отримано оцінку значення ознаки-результату (y) при тих чи інших значеннях фактора (x).

Цілком очевидно, що прогнозне значення залежної змінної, розраховане на основі рівняння зв'язку, не співпадатиме з фактичним її значенням ( ).Графічно ця ситуація підтверджується тим, що не всі точки поля кореляції лежать на лінії регресії,тільки при функціональному зв'язку лінія регресії пройде через усі точки діаграми розсіювання. Наявність розбіжностей між фактичними і теоретичними значеннями залежної змінної пов'язано, передусім, із суттю кореляційної залежності: одночасно на результат впливає безліч чинників, у тому числі лише частина може бути врахована у конкретному рівнянні зв'язку. Крім того, може бути неправильно обрана форма зв'язку результату та фактора (тип рівняння регресії). У зв'язку з цим постає питання, наскільки інформативно побудоване рівняння зв'язку. На це питання відповідають два показники: коефіцієнт детермінації (про нього вже говорилося вище) та стандартна помилка оцінювання.

Різницю між фактичними та теоретичними значеннями залежної змінної називають відхиленнями чи помилками, чи залишками. За підсумками цих величин розраховується залишкова дисперсія. Квадратний коріньз залишкової дисперсії і є середньоквадратичною (стандартною) помилкою оцінювання:

= (7.8)

Стандартна помилка рівняння вимірюється у тих самих одиницях, як і прогнозований показник. Якщо помилки рівняння підпорядковуються нормальному розподілу (при великих обсягах даних), то 95 відсотків значень повинні знаходитися від лінії регресії на відстані, що не перевищує 2S (виходячи з якості нормального розподілу - правила трьох сигм). Розмір стандартної помилки оцінювання використовується при розрахунку довірчих інтервалів при прогнозуванні значення ознаки - результату конкретної одиниці сукупності.

У практичних дослідженнях часто виникає необхідність у прогнозі середнього значення ознаки – результату при тому чи іншому значенні ознаки – фактора. У цьому випадку з розрахунку довірчого інтервалу для середнього значення залежної змінної()

враховується величина середньої помилки:

(7.9)

Використання різних величин помилок пояснюється тим, що мінливість рівнів показників у конкретних одиниць сукупності набагато вища, ніж мінливість середнього значення, отже помилка прогнозу середнього значення менша.

Довірчий інтервалпрогнозу середнього значення залежної змінної:

, (7.10)

де - гранична помилкаоцінки (див. теорію вибірки); t - коефіцієнт довіри, значення якого знаходиться у відповідній таблиці, виходячи з прийнятого дослідником рівня ймовірності (числа ступенів свободи) (див. теорію вибірки).

Довірчий інтервал для прогнозованого значення ознаки-результату може бути розрахований і з урахуванням поправки на зсув лінії лінії регресії. Величина поправочного коефіцієнта визначається:

(7.11)

де - значення ознаки-фактора, виходячи з якого, прогнозується значення ознаки-результату.

Звідси випливає, що більше значення відрізняється від середнього значення ознаки-фактора, тим більша величинакоригувального коефіцієнта, тим більша помилка прогнозу. З урахуванням даного коефіцієнта довірчий інтервал прогнозу розраховуватиметься:

На точність прогнозу з урахуванням рівняння регресії можуть впливати різні причини. Насамперед слід враховувати, що оцінка якості рівняння та його параметрів проводиться, виходячи з припущення про нормальний розподіл випадкових залишків. Порушення цього припущення може бути пов'язане з наявністю різко відмінних значень даних, з нерівномірною варіацією, з наявністю нелінійної залежності. І тут якість прогнозу знижується. Другий момент, про який слід пам'ятати - значення факторів, що враховуються при прогнозуванні результату, не повинні виходити за межі розмаху варіації даних, на основі яких побудовано рівняння.

©2015-2019 сайт
Усі права належати їх авторам. Цей сайт не претендує на авторства, а надає безкоштовне використання.
Дата створення сторінки: 2018-01-08

Після того, як знайдено рівняння лінійної регресії, проводиться оцінка значущості як рівняння загалом, і окремих його параметрів.

Перевірити значущість рівняння регресії - означає встановити, чи відповідає математична модель, що виражає залежність між змінними, експериментальними даними і чи достатньо включених до рівняння пояснюючих змінних (однієї або декількох) для опису залежної змінної.

Перевірка значущості проводиться на основі дисперсійного аналізу.

Відповідно до ідеї дисперсійного аналізу, загальна сума квадратів відхилень (СКО) y від середнього значення розкладається на дві частини – пояснену та непояснену:

або, відповідно:

Тут можливі два крайні випадки: коли загальна СКО точно дорівнює залишкової і коли загальна СКО дорівнює факторной.

У першому випадку фактор х не впливає на результат, вся дисперсія y обумовлена ​​впливом інших факторів, лінія регресії паралельна осі Ох і рівняння має мати вигляд.

У другому випадку інші фактори не впливають на результат, пов'язаний з x функціонально, і залишкова СКО дорівнює нулю.

Однак на практиці у правій частині присутні обидва доданки. Придатність лінії регресії для прогнозу залежить від цього, яка частина загальної варіації y посідає пояснену варіацію. Якщо пояснена СКО буде більше залишкової СКО, то рівняння регресії статистично значуще і фактор х істотно впливає на результат y. Це рівнозначно тому, що коефіцієнт детермінації наближатиметься до одиниці.

Число ступенів свободи (df-degrees of freedom) - це число незалежно значень ознаки, що варіюються.

Для загальної СКО потрібно (n-1) незалежних відхилень,

Факторна СКО має один ступінь свободи, та

Таким чином, можемо записати:

На цьому балансу визначаємо, що = n-2.

Розділивши кожну СКО на свою кількість ступенів свободи, отримаємо середній квадрат відхилень, або дисперсію на один ступінь свободи: - загальна дисперсія, - Факторна, - Залишкова.

Аналіз статистичної значущості коефіцієнтів лінійної регресії

Хоча теоретичні значення коефіцієнтів рівняння лінійної залежності передбачаються постійними величинами, оцінки а і b цих коефіцієнтів, одержувані в ході побудови рівняння за даними випадкової вибірки, є випадковими величинами. Якщо помилки регресії мають нормальний розподіл, то оцінки коефіцієнтів також розподілені нормально і можуть характеризуватись своїми середніми значеннями та дисперсією. Тому аналіз коефіцієнтів починається з розрахунку цих показників.

Дисперсії коефіцієнтів розраховуються за формулами:

Дисперсія коефіцієнта регресії:

де - Залишкова дисперсія на один ступінь свободи.

Дисперсія параметра:

Звідси стандартна помилка коефіцієнта регресії визначається за такою формулою:

Стандартна помилка параметра визначається за такою формулою:

Вони служать для перевірки нульових гіпотез у тому, що справжнє значення коефіцієнта регресії b чи вільного члена a дорівнює нулю: .

Альтернативна гіпотеза має вигляд: .

t – статистики мають t – розподіл Стьюдента зі ступенями свободи. За таблицями розподілу Стьюдента при певному рівні значущості б і степенях свободи знаходять критичне значення.

Якщо, то нульова гіпотеза має бути відхилена, коефіцієнти вважаються статистично значущими.

Якщо, то нульова гіпотеза може бути відхилена. (У разі, якщо коефіцієнт b статистично незначний, рівняння має мати вигляд, і це означає, що зв'язок між ознаками відсутній. У випадку, якщо коефіцієнт а статистично незначний, рекомендується оцінити нове рівняння у вигляді).

Інтервальні оцінки коефіцієнтів лінійного рівняннярегресії:

Довірчий інтервал дляа: .

Довірчий інтервал для b:

Це означає, що із заданою надійністю (де – рівень значущості) справжні значення а, b перебувають у зазначених інтервалах.

Коефіцієнт регресії має чітку економічну інтерпретацію, тому довірчі межі інтервалу не повинні містити суперечливих результатів, наприклад, вони не повинні включати нуль.

Аналіз статистичної значущості рівняння загалом.

Розподіл Фішера у регресійному аналізі

Оцінка значущості рівняння регресії загалом дається з допомогою F- критерію Фішера. У цьому висувається нульова гіпотеза у тому, що це коефіцієнти регресії, крім вільного члена а, рівні нулю і, отже, чинник х впливає результат y (чи).

Розмір F - критерію пов'язані з коефіцієнтом детермінації. В разі множинної регресії:

де m – число незалежних змінних.

В разі парної регресіїформула F - статистики набуває вигляду:

При знаходженні табличного значення F-критерію визначається рівень значущості (зазвичай 0,05 або 0,01) і два ступені свободи: - у разі множинної регресії, - для парної регресії.

Якщо, то відхиляється і робиться висновок про суттєвість статистичного зв'язку між y та x.

Якщо, то ймовірність рівняння регресії вважається статистично незначним, не відхиляється.

Зауваження. У парній лінійній регресії. Крім того, тому. Таким чином, перевірка гіпотез про значущість коефіцієнтів регресії та кореляції рівносильна перевірці гіпотези про суттєвість лінійного рівняння регресії.

Розподіл Фішера може бути використаний не тільки для перевірки гіпотези про одночасну рівність нуля всіх коефіцієнтів лінійної регресії, але і гіпотези про рівність нуля частини цих коефіцієнтів. Це важливо при розвитку лінійної регресійної моделі, оскільки дозволяє оцінити обгрунтованість виключення окремих змінних чи його груп із пояснюючих змінних, чи, навпаки, включення в це число.

Нехай, наприклад, спочатку була оцінена множинна лінійна регресія за п спостереженнями з пояснювальними змінними, і коефіцієнт детермінації дорівнює, потім останні k змінних виключені з числа пояснюючих, і за тими ж даними оцінено рівняння, для якого коефіцієнт детермінації дорівнює (, т.к кожна додаткова змінна пояснює частину, нехай невелику, варіації залежної змінної).

Для того щоб перевірити гіпотезу про одночасну рівність нулю всіх коефіцієнтів при виключених змінних, розраховується величина

має розподіл Фішера зі ступенями свободи.

По таблицях розподілу Фішера, за заданого рівня значущості, знаходять. І якщо, то нульова гіпотеза відкидається. У разі виключати все k змінних з рівняння некоректно.

Аналогічні міркування можуть бути проведені і з приводу обґрунтованості включення до рівняння регресії однієї або кількох нових пояснюючих змінних.

У цьому випадку розраховується F - статистика

має розподіл. І якщо вона перевищує критичний рівень, то включення нових змінних пояснює істотну частину непоясненої раніше дисперсії залежної змінної (тобто включення нових змінних, що пояснюють, виправдано).

Зауваження. 1. Включати нові змінні доцільно за однією.

2. Для розрахунку F - статистики під час розгляду питання включення пояснюючих змінних рівняння бажано розглядати коефіцієнт детермінації з поправкою на кількість ступенів свободи.

F - статистика Фішера використовується також для перевірки гіпотези про збіг рівнянь регресії для окремих груп спостережень.

Нехай є дві вибірки, що містять, відповідно, спостережень. Для кожної із цих вибірок оцінено рівняння регресії виду. Нехай СКО від лінії регресії (тобто) рівні їм, відповідно, .

Перевіряється нульова гіпотеза: у тому, що це відповідні коефіцієнти цих рівнянь рівні одне одному, тобто. рівняння регресії цих вибірок одне й те саме.

Нехай оцінено рівняння регресії тієї самої виду одночасно всім спостережень, і СКО.

Тоді розраховується F - статистика за такою формулою:

Вона має розподіл Фішера зі ступенями свободи. F - статистика буде близькою до нуля, якщо рівняння обох вибірок однаково, т.к. в цьому випадку. Тобто. якщо, то нульова гіпотеза приймається.

Якщо ж, то нульова гіпотеза відкидається, і єдине рівняння регресії збудувати не можна.

Коли знайдено рівняння лінійної регресії, проводиться оцінка значущості як рівняння загалом, і окремих його параметрів.

Оцінка значущості рівняння регресії загалом дається з допомогою F-критерію Фішера. При цьому висувається нульова гіпотеза, коефіцієнт регресії дорівнює нулю, тобто b = 0, і, отже, фактор х не впливає на результат у. Безпосереднім розрахунком F-критерію передує аналіз дисперсії. Центральне місцеу ньому займає розкладання загальної сумиквадратів відхилень змінної у від середнього значення на дві частини - «пояснену» і «непояснену» (додаток 2).

Загальна сума квадратів відхилень індивідуальних значень результативної ознаки від середнього значення у викликана впливом безлічі причин. Умовно всю сукупність причин можна поділити на дві групи:

  • · Досліджуваний фактор х
  • · Інші фактори

Якщо чинник впливає результат, то лінія регресії на графіці паралельна осі охи у = y. Тоді вся дисперсія результативної ознаки обумовлена ​​впливом інших факторів, і загальна сума квадратів відхилень збігається з залишковою. Якщо ж інші фактори не впливають на результат, то пов'язаний з х функціонально і залишкова сума квадратів дорівнює нулю. І тут сума квадратів відхилень, пояснена регресією, збігається із загальною сумою квадратів.

Оскільки не всі точки поля кореляції лежать на лінії регресії, то має місце їх розкид як обумовлений впливом фактора х, тобто регресією у по х, так і викликаний дією інших величин (непояснена варіація). Придатність лінії регресії для прогнозу залежить від цього, яка частина загальної варіації ознаки припадає на пояснену варіацію. Очевидно, що якщо сума квадратів відхилень, обумовлена ​​регресією, буде більшою від залишкової суми квадратів, то рівняння регресії статистично значуще і фактор х істотно впливає на результат у. Це рівнозначно з того що коефіцієнт детермінації r 2 xy наближатися до одиниці.

Будь-яка сума квадратів відхилень пов'язана з числом ступенів свободи (df - degrees of freedom), тобто з свободою незалежного варіювання ознаки. Число ступенів свободи пов'язане з числом одиниць сукупності n і з числом констант, що визначаються за нею. Стосовно досліджуваної проблеми число ступенів свободи має показати, скільки незалежних відхилень з n можливих [(y 1 -y), (y 2 -y),…,(y n -y)] потрібно для утворення цієї суми квадратів. Так, для загальної суми квадратів?(y-y) 2 потрібні (n-1) незалежні відхилення.

При розрахунку поясненої чи факторної суми квадратів?(y x -y) 2 використовуються теоретичні (розрахункові) значення результативної ознаки y x , знайдені лінією регресії: y x ​​=а+b*x.

У лінійній регресії сума квадратів відхилень, зумовлених лінійною регресією, становитиме: ?(y x -y) 2 = b 2 *?(x -x) 2 .

Оскільки при заданому обсязі спостережень з х і у факторна сума квадратів при лінійній регресії залежить тільки від однієї константи коефіцієнта регресії b, то сума квадратів має одну ступінь свободи. До того ж висновку прийдемо, якщо розглянемо змістовну сторону розрахункового значення ознаки, тобто y x . Величина y x визначається рівнянням лінійної регресії: y x ​​=а+b*x. Параметр а можна визначити як: a = y-b * x. Підставивши вираз параметра в лінійну модель отримаємо:

y x = y-b * x + b * x = y-b * (х-х).

Звідси видно, що з заданому наборі змінних у них розрахункове значення y x у лінійної регресії функцією лише одного параметра - коефіцієнта регресії. Відповідно і факторна сума квадратів відхилень має число ступенів свободи, що дорівнює 1.

Існує рівність між числом ступенів свободи загальної, факторної та залишкової сумами квадратів. Число ступенів свободи залишкової суми квадратів при лінійній регресії становить n-2. Число ступенів свободи для загальної суми квадратів визначається числом одиниць, і оскільки використовується середня обчислена за даними вибірки, втрачаємо один ступінь свободи, тобто df заг = n-1.

Отже, є дві рівності:

?(у-у) 2 =?(y x -у) 2 +?(у- y x) 2 ,

Розділивши кожну суму квадратів на відповідне їй число ступенів свободи, отримаємо середній квадрат відхилень, або, що те саме, дисперсію на один ступінь свободи D.

D заг =? (у-у) 2 / (n-1);

D факт =?(Y x -у) 2/1;

D ост =? (у-y x) 2 / (n-1).

Визначення дисперсії однією ступінь свободи призводить дисперсії до порівняльного виду. Зіставляючи факторну та залишкову дисперсію в розрахунку на один ступінь свободи, отримаємо величину F-відносини (F-критерію):

F = D факт / D зуст, де

F - критерій для перевірки нульової гіпотези Н0: D факт = D зуп.

Якщо нульова гіпотеза справедлива, то факторна та залишкова дисперсії не відрізняються одна від одної. Для Н 0 необхідно спростування, щоб факторна дисперсія перевищувала залишкову кілька разів.

Англійським статистиком Снедекором розроблено таблиці критичних значень F-відносин при різних рівняхсуттєвості нульової гіпотези та помітному числі ступенів свободи.

Табличне значення F-критерію - це максимальна величина відношення дисперсій, яка може мати місце при випадковому їх розбіжності для даного рівняймовірність наявності нульової гіпотези.

Обчислене значення F-відносини визнається достовірним (відмінним від одиниці), якщо воно більше табличного.

У цьому випадку нульова гіпотеза про відсутність зв'язку ознак відхиляється і робиться висновок про суттєвість зв'язку: F факт >F табл. Н0 відхиляється.

Якщо ж величина виявиться меншою за табличну F факт

Оцінка якості моделі дає коефіцієнт детермінації. Коефіцієнт детермінації ( R 2) - це квадрат множинного коефіцієнта кореляції.

Він показує, яка частка дисперсії результативної ознаки пояснюється впливом незалежних змінних.

Формула для обчислення коефіцієнта детермінації:

y i-- вибіркові дані, а f i- Відповідні їм значення моделі.

Також це квадрат кореляції Пірсона між двома змінними. Він висловлює кількість дисперсії, спільної між двома змінними.

Коефіцієнт приймає значення з інтервалу. Чим ближче значення до 1, тим ближче модель до емпіричних спостережень.

У разі парної лінійної регресійної моделі коефіцієнт детермінації дорівнює квадрату коефіцієнта кореляції, тобто R 2 = r 2 .

Іноді показники тісноти зв'язку можна дати якісну оцінку (шкала Чеддока) (додаток 3).

Функціональний зв'язок виникає при значенні рівному 1, а відсутність зв'язку - 0. При значеннях показників тісноти зв'язку менше 0,7 величина коефіцієнта детермінації завжди буде нижче 50%. Це означає, що частку варіації факторних ознак припадає менша частина проти іншими неврахованими у моделі чинниками, які впливають зміну результативного показника. Побудовані за таких умов регресійні моделі мають низьке практичне значення.

Парна регресіяє регресією між двома змінними

-у і х, тобто.модель виду + ​​Е

Де у- результативна ознака, тобто залежна змінна; х- Ознака-фактор.

Лінійна регресія зводиться до знаходження рівняння виду або

Рівняння виду дозволяє за заданими значеннями фактора x мати теоретичні значення результативної ознаки, підставляючи фактичні значення фактора х.

Побудова лінійної регресії зводиться до оцінки її параметрів і ст.

Оцінки параметрів лінійної регресії можна знайти різними методами.

1.

2.

Параметр bназивається коефіцієнтом регресії. Його величина показує

середня зміна результату із зміною фактора на одну одиницю.

Формально а- значення упри х = 0. Якщо ознака-фактор

не має і не може мати нульового значення, то вищезазначена

трактування вільного члена, ане має сенсу. Параметр, аможе

не мати економічного змісту. Спроби економічно

інтерпретувати параметр, аможуть призвести до абсурду, особливо при а < 0.

Інтерпретувати можна лише знак за параметра а.Якщо а > 0,

то відносна зміна результату відбувається повільніше, ніж зміна

перевірка якості знайдених параметрів та всієї моделі в цілому:

-Оцінка значущості коефіцієнта регресії (b) та коефіцієнта кореляції

-Оцінка значимості всього рівняння регресії. Коефіцієнт детермінації

Рівняння регресії завжди доповнюється показником тісноти зв'язку. При

використання лінійної регресії як такий показник виступає

лінійний коефіцієнт кореляції r xy . Існують різні

модифікації формули лінійного коефіцієнта кореляції

Лінійний коефіцієнткореляції знаходиться в межах: -1≤ .r xy

≤ 1. При цьому чим ближче rдо 0 тим слабша кореляція і навпаки

ближче r до 1 чи -1, тим більше кореляція, тобто. залежність х і близька до

лінійної. Якщо rточно =1або -1 всі точки лежать на одній прямій.

Якщо коеф. регресії b>0 то 0 ≤. r xy≤ 1 та

навпаки при b<0 -1≤.r xy≤0. Коеф.

кореляції відображає ступеня лінійної залежності між величинами за наявності

яскраво вираженої залежності ін. виду.

Для оцінки якості підбору лінійної функції розраховується квадрат лінійного

коефіцієнта кореляції

Називний коефіцієнт детермінації.Коефіцієнт детермінації

характеризує частку дисперсії результативної ознаки y, яка пояснюється

регресією. Відповідна величина

характеризує частку дисперсії у,викликану впливом інших не врахованих

у моделі факторів.

МНК дозволяєотримати такі оцінки параметрів аі b,яких

сума квадратів відхилень фактичних значень результативної ознаки

(у)від розрахункових (теоретичних)

мінімальна:

Іншими словами, з

всього безлічі ліній лінія регресії на графіку вибирається так, щоб сума

квадратів відстаней по вертикалі між точками та цією лінією була б

мінімальної.

Вирішується система нормальних рівнянь

ОЦІНКА СУТНІСТЬ ПАРАМЕТРІВ ЛІНІЙНОЇ РЕГРЕСІЇ.

Оцінка значущості рівняння регресії загалом дається з допомогою F-критерия

Фішера. При цьому висувається нульова гіпотеза, що коефіцієнт регресії дорівнює

нулю, тобто. b = 0, і отже, фактор хне надає

впливу на результат у.

Безпосереднім розрахунком F-критерію передує аналіз дисперсії.

Центральне місце у ньому займає розкладання загальної суми квадратів відхилень

змінної увід середнього значення уна дві частини -

«пояснену» та «непояснену»:

Загальна сума квадратів відхилень

Сума квадратів

відхилення пояснене регресією

Залишкова сума квадратів відхилення.

Будь-яка сума квадратів відхилень пов'язана з числом ступенів свободи , т.

е. з числом свободи незалежного варіювання ознаки. Число ступенів свободи пов'язане з числом одиниць сукупності nз числом визначених нею констант. Стосовно досліджуваної проблеми число ступенів свободи має показати, скільки незалежних відхилень з пможливих потрібно для

утворення цієї суми квадратів.

Дисперсія на один ступінь свободи D.

F-відносини (F-критерій):

Якщо нульова гіпотеза справедлива, то факторна і залишкова дисперсії не

відрізняються один від одного. Для Н 0 необхідно спростування, щоб

факторна дисперсія перевищувала залишкову у кілька разів. Англійською

статистиком Снедекором розроблено таблиці критичних значень F-відносин

при різних рівнях суттєвості нульової гіпотези та різному числі ступенів

свободи. Табличне значення F-критерію – це максимальна величина відношення

дисперсій, яка може мати місце при випадковому їх розбіжності для даного

рівня ймовірності наявності нульової гіпотези Обчислене значення F-відносини

визнається достовірним, якщо більше табличного. У цьому випадку нульова

гіпотеза про відсутність зв'язку ознак відхиляється і робиться висновок

суттєвості зв'язку: F факт > F табл Н 0

відхиляється.

Якщо ж величина виявиться меншою за табличну F факт ‹, F табл

То ймовірність нульової гіпотези вище за заданий рівень і вона не може бути

відхилено без серйозного ризику зробити неправильний висновок про наявність зв'язку. У

У цьому випадку рівняння регресії вважається статистично незначним. Але

не відхиляється.


Подібна інформація.


Поділіться з друзями або збережіть для себе:

Завантаження...