Оцінка параметрів регресійного рівняння. Рівняння лінійної множинної регресії

Дня оцінки параметрів регресійного рівняння найчастіше використовують метод найменших квадратів (МНК).

Метод найменших квадратів дає оцінки, що мають найменшу дисперсію у класі всіх лінійних оцінокякщо виконуються передумови нормальної лінійної регресійної моделі.

МНК мінімізує суму квадратів відхилення значень, що спостерігаються від модельних значень .

Відповідно до принципу методу найменших квадратів, оцінки знаходять шляхом мінімізації суми квадратів

за всіма можливими значеннями і при заданих (спостерігаються) значеннях
.

В результаті застосування МНК отримуємо формули для обчислення параметрів парної регресії моделі.

(3)

Таке рішення може існувати лише при виконанні умови

що рівносильно на відміну від нуля визначника системи нормальних рівнянь. Справді, цей визначник дорівнює

Остання умова називається умовою ідентифікованостімоделі спостережень , і означає, що не всі значення
збігаються між собою. При порушенні цієї умови Усекрапки
лежать на одній вертикальній прямій

Оцінки і називають оцінками найменших квадратів . Звернімо увагу на отриманий вираз для параметра. У цей вислів входять суми квадратів, які брали участь у визначенні вибіркової дисперсії

та вибіркової коваріації
отже, у цих термінах параметр можна отримати так:

=
=
=

=

Оцінка якості рівняння регресії

Якість моделі регресії пов'язують з адекватністю моделі (емпіричним) даним. Перевірка адекватності (або відповідності) моделі регресії даних, що спостерігаються, проводиться на основі аналізу залишків.

Після побудови рівняння регресії ми можемо розбити значення Y, у кожному спостереженні на дві складові - і .

Залишок є відхиленням фактичного значення залежної змінної від значення даної змінної, отримане розрахунковим шляхом:
(
).

Насправді, зазвичай, має місце деяке розсіювання точок кореляційного поля щодо теоретичної лінії регресії, т. е. відхилення емпіричних даних від теоретичних (
). Величина цих відхилень лежить в основі розрахунку показників якості (адекватності) рівняння.

При аналізі якості моделі регресії використовується основне положення дисперсійного аналізу, згідно з яким Загальна сумаквадратів відхилень залежною змінною від середнього значення може бути розкладена на дві складові - пояснену та непояснену рівнянням регресії дисперсії:

(4)

де - значення y, обчислені за моделлю
.

Розділивши праву та ліву частину (4) на

,

.

Коефіцієнт детермінації визначається так:

Коефіцієнт детермінації показує частку варіації результативної ознаки, що перебуває під впливом факторів, що вивчаються, тобто визначає, яка частка варіації ознаки Y врахована в моделі і обумовлена ​​впливом на нього факторів.

Чим ближче
до 1, тим вища якість моделі.

Для оцінки якості регресійних моделей доцільно також використовувати коефіцієнт множинної кореляції (індекс кореляції) R

Даний коефіцієнт є універсальним, так як він відображає тісноту зв'язку та точність моделі, а також може використовуватися за будь-якої форми зв'язку змінних.

При побудові однофакторної моделі він дорівнює коефіцієнту лінійної кореляції
.

Вочевидь, що менше вплив неврахованих чинників, краще модель відповідає фактичним данным.

Також для оцінки якості регресійних моделей доцільно використовувати середню помилку апроксимації:


Чим менше розсіювання емпіричних точок навколо теоретичної лінії регресії, тим менша середня помилка апроксимації. Помилка апроксимації менше 7% свідчить про хорошу якість моделі.

Коли рівняння регресії побудовано, виконується перевірка значимості побудованого рівняння загалом і окремих параметрів.

Оцінити значущість рівняння регресії – це означає встановити, чи відповідає математична модель, що виражає залежність між Y і Х, фактичним даним і чи достатньо включених до рівняння пояснюючих змінних Х для опису залежної змінної Y

Оцінка значущості рівняння регресії проводиться для того, щоб дізнатися, чи придатне рівняння регресії для практичного використання (наприклад, для прогнозу) чи ні. При цьому висувають основну гіпотезу про незначущість рівняння в цілому, яка формально зводиться до гіпотези про рівність нулю параметрів регресії, або, що те саме, про рівність нуля коефіцієнта детермінації:
. Альтернативна їй гіпотеза про значущість рівняння – гіпотеза про нерівність нулю параметрів регресії.

Для перевірки значимості моделі регресії використовується F-критерій Фішера , що обчислюється як відношення дисперсії вихідного ряду та незміщеної дисперсії залишкової компоненти. Якщо розрахункове значення з  1 = k та  2 = (n - k - 1) ступенями свободи, де k – кількість факторів, включених у модель, більша за табличний при заданому рівні значущості, то модель вважається значущою.

Для моделі парної регресії:

В якості міри точності застосовують незміщену оцінку дисперсії залишкової компоненти, яка є відношенням суми квадратів рівнів залишкової компоненти до величини (n-k -1), де k – кількість факторів, включених у модель. Квадратний корінь із цієї величини ( ) називається стандартною помилкою :

Д ля моделі парної регресії

Лінійна регресія зводиться до знаходження рівняння виду:

(або
) (3)

Перше вираз дозволяє за заданими значеннями фактора х розрахувати теоретичні значення результативної ознаки, підставляючи в нього фактичні значення фактора х . На графіку теоретичні значення лежать на прямій, які є лінією регресії.

Побудова лінійної регресіїзводиться до оцінки її параметрів - а і b . Класичний підхід до оцінювання параметрів лінійної регресії заснований на метод найменших квадратів (МНК).

МНК дозволяє отримати такі оцінки параметрів а і b , у яких сума квадратів відхилень фактичних значень у від теоретичних мінімальна:

, або
(4)

Для знаходження мінімуму треба обчислити приватні похідні суми (4) за кожним із параметрів - а і b - та прирівняти їх до нуля.

(5)

Перетворюємо, отримуємо систему нормальних рівнянь:

(6)

У цій системі n - обсяг вибірки, суми легко розраховуються із вихідних даних. Вирішуємо систему щодо а і b , отримуємо:

(7)

(8)

Вираз (7) можна записати в іншому вигляді:

(9)

де зіv(х,у) -коваріація ознак, - дисперсія фактора х .

Параметр b називається коефіцієнтом регресії.Його величина показує середню зміну результату із зміною фактора на одну одиницю. Можливість чіткої економічної інтерпретації коефіцієнта регресії зробила лінійне рівнянняпарної регресії є досить поширеним в економетричних дослідженнях.

Формально а - значення у при х = 0. Якщо х не має і не може мати нульового значення, то таке трактування вільного члена а не має сенсу. Параметр а може мати економічного змісту. Спроби економічно інтерпретувати його можуть призвести до абсурду, особливо при а< 0 . Інтерпретувати можна лише знак за параметра а . Якщо а > 0 , то відносна зміна результату відбувається повільніше, ніж зміна фактора. Порівняємо ці відносні зміни:

при.

Іноді лінійне рівняння парної регресії записують для відхилень від середніх значень:

y′ = b·x" , (10)

де
,
. У цьому вільний член дорівнює нулю, як і відбито у виразі (10). Цей факт випливає з геометричних міркувань: рівняння регресії відповідає та ж пряма (3), але при оцінці регресії у відхиленнях початок координат переміщується в точку з координатами
. При цьому у виразі (8) обидві суми дорівнюватимуть нулю, що і спричинить рівність нуля вільного члена.

Розглянемо як приклад за групою підприємств, що випускають один вид продукції, регресійну залежність витрат від випуску продукції у = a + bx + ε.

Таблиця 1

Випуск продукції тис. од. x)

Витрати виробництва, млн.руб.( y)

x 2

y 2

Система нормальних рівнянь матиме вигляд:

Вирішуючи її, отримуємо а = -5,79,b = 36,84.

Рівняння регресії має вигляд:

Підставивши в рівняння значення х , знайдемо теоретичні значення y (Остання колонка таблиці).

Величина а немає економічного сенсу. Якщо змінні х і у висловити через відхилення від середніх рівнів, то лінія регресії на графіку пройде через початок координат. Оцінка коефіцієнта регресії у своїй не зміниться:

, де
,

Як інший приклад розглянемо функцію споживання як:

С = К · у + L

де З- споживання, у-дохід, K, L- Параметри. Дане рівняння лінійної регресії зазвичай використовується у зв'язку з балансовою рівністю:

y = C + I - r,

де I- Розмір інвестицій, r- Заощадження.

Для простоти припустимо, що дохід витрачається споживання та інвестиції. Таким чином, розглядається система рівнянь:

Наявність балансової рівності накладає обмеження на величину коефіцієнта регресії, яка може бути більше одиниці, тобто. До≤ 1.

Припустимо, що функція споживання становила:

Коефіцієнт регресії характеризує схильність до споживання. Він показує, що з кожної тисячі карбованців доходу споживання витрачається загалом 650 крб., а 350 крб. інвестується. Якщо розрахувати регресію обсягу інвестицій від доходу, тобто.
, то рівняння регресії становитиме
. Це рівняння можна і не визначати, оскільки воно виводиться із функції споживання. Коефіцієнти регресії цих двох рівнянь пов'язані рівністю:

Якщо коефіцієнт регресії виявляється більше одиниці, то у< С + 1, і споживання витрачаються як доходи, а й заощадження.

Коефіцієнт регресії функції споживання використовується для розрахунку мультиплікатора:

.

Тут m≈ 2,86, тому додаткові вкладення 1 тис. руб. на тривалий термін приведуть за інших рівних умов додаткового доходу 2,86 тис. крб.

При лінійній регресії як показник тісноти зв'язку виступає лінійний коефіцієнт кореляції r:

(11)

Його значення перебувають у межах: 0 < r ≤ 1 . Якщо b > 0 , то 0 ≤ r ≤ 1 , при b < 0, – 1 ≤ r < 0 . За даними прикладу r=0,991, що означає дуже тісну залежність витрат за виробництво від величини обсягу своєї продукції.

Для оцінки якості підбору лінійної функції розраховується коефіцієнт детермінаціїяк квадрат лінійного коефіцієнта кореляції r 2 . Він характеризує частку дисперсії результативної ознаки y , що пояснюється регресією, загальної дисперсіїрезультативної ознаки:

12

Величина 1 - r 2 характеризує частку дисперсії у,викликану впливом інших, не врахованих у моделі чинників.

У прикладі σ2 = 0,092. Рівнянням регресії пояснюється 98,2% дисперсії у,а інші чинники припадає 1,8%, це залишкова дисперсія.

Що таке регресія?

Розглянемо дві безперервні змінні x = (x 1, x 2, .., x n), y = (y 1, y 2, ..., y n).

Розмістимо крапки на двовимірному графіку розсіювання та скажемо, що ми маємо лінійне співвідношенняякщо дані апроксимуються прямою лінією.

Якщо ми вважаємо, що yзалежить від x, причому зміни в yвикликаються саме змінами в x, ми можемо визначити лінію регресії (регресія yна x), яка найкраще описує прямолінійне співвідношення між цими двома змінними.

Статистичне використання слова " регресія " походить від явища, відомого як регресія до середнього, приписуваного серу Френсісу Гальтону (1889).

Він показав, що хоча вищі батьки мають тенденцію мати високих синів, середнє зростання синів менше, ніж у їхніх високих батьків. Середній зрістсинів " регресував " і " рухався назад " до середнього зростання всіх батьків у популяції. Таким чином, у середньому високі батьки мають нижчих (але все-таки високих) синів, а низькі батьки мають синів вищі (але все-таки досить низькі).

Лінія регресії

Математичне рівняння, яке оцінює лінію простої (парної) лінійної регресії:

xназивається незалежною змінною чи предиктором.

Y- Залежна змінна або змінна відгуку. Це значення, яке ми очікуємо для y(у середньому), якщо ми знаємо величину x, тобто. це «передбачене значення y»

  • a- вільний член (перетин) лінії оцінки; це значення Y, коли x=0(Рис.1).
  • b- Кутовий коефіцієнт або градієнт оціненої лінії; вона є величиною, на яку Yзбільшується в середньому, якщо ми збільшуємо xодну одиницю.
  • aі bназивають коефіцієнтами регресії оціненої лінії, хоча цей термін часто використовують тільки для b.

Парну лінійну регресію можна розширити, включивши до неї більше однієї незалежної змінної; у цьому випадку вона відома як множинна регресія.

Рис.1. Лінія лінійної регресії, що показує перетин a і кутовий коефіцієнт b (величину зростання Y при збільшенні x на одну одиницю)

Метод найменших квадратів

Ми виконуємо регресійний аналіз, використовуючи вибірку спостережень, де aі b- вибіркові оцінки істинних (генеральних) параметрів, і β, які визначають лінію лінійної регресії в популяції (генеральної сукупності).

Найбільш простим методомвизначення коефіцієнтів aі bє метод найменших квадратів(МНК).

Підганяння оцінюється, розглядаючи залишки (вертикальна відстань кожної точки від лінії, наприклад, залишок = спостережуваному y- Передбачений y, Мал. 2).

Лінію кращого припасування вибирають так, щоб сума квадратів залишків була мінімальною.

Мал. 2. Лінія лінійної регресії із зображеними залишками (вертикальні пунктирні лінії) для кожної точки.

Припущення лінійної регресії

Отже, для кожної величини, що спостерігається, залишок дорівнює різниці і відповідного передбаченого Кожен залишок може бути позитивним або негативним.

Можна використовувати залишки для перевірки таких припущень, що лежать в основі лінійної регресії:

  • Залишки нормально розподілені з нульовим середнім значенням;

Якщо припущення лінійності, нормальності та/або постійної дисперсії сумнівні, ми можемо перетворити або розрахувати нову лініюрегресії, на яку ці припущення задовольняються (наприклад, використовувати логарифмічне перетворення чи ін.).

Аномальні значення (викиди) та точки впливу

"Впливове" спостереження, якщо воно опущене, змінює одну або більше оцінок параметрів моделі (тобто кутовий коефіцієнт або вільний член).

Викид (спостереження, що суперечить більшості значень у наборі даних) може бути "впливовим" спостереженням і може добре виявлятися візуально, під час огляду двовимірної діаграми розсіювання або графіка залишків.

І для викидів, і для "впливових" спостережень (крапок) використовують моделі як з їх включенням, так і без них звертають увагу на зміну оцінки (коефіцієнтів регресії).

При проведенні аналізу не варто відкидати викиди або точки впливу автоматично, оскільки звичайне ігнорування може вплинути на отримані результати. Завжди вивчайте причини появи цих викидів та аналізуйте їх.

Гіпотеза лінійної регресії

При побудові лінійної регресії перевіряється нульова гіпотеза про те, що генеральний кутовий коефіцієнт лінії регресії дорівнює нулю.

Якщо кутовий коефіцієнт лінії дорівнює нулю, між і немає лінійного співвідношення: зміна не впливає на

Для тестування нульової гіпотези про те, що справжній кутовий коефіцієнт дорівнює нулю, можна скористатися наступним алгоритмом:

Обчислити статистику критерію, рівну відношенню , яка підпорядковується розподілу зі ступенями свободи, де стандартна помилка коефіцієнта


,

- Оцінка дисперсії залишків.

Зазвичай, якщо досягнутий рівень значущості нульова гіпотеза відхиляється.


де процентна точка розподілу зі ступенями свободи що дає можливість двостороннього критерію

Це той інтервал, який містить генеральний кутовий коефіцієнт із ймовірністю 95%.

Для великих вибірок, скажімо, ми можемо апроксимувати значенням 1,96 (тобто статистика критерію буде прагнути до нормальному розподілу)

Оцінка якості лінійної регресії: коефіцієнт детермінації R 2

Через лінійне співвідношення і ми очікуємо, що змінюється, у міру того, як змінюється , і називаємо це варіацією, яка обумовлена ​​чи пояснюється регресією. Залишкова варіація має бути якнайменше.

Якщо це, то більшість варіації пояснюватиметься регресією, а точки лежатимуть близько до лінії регресії, тобто. лінія добре відповідає даним.

Частку загальної дисперсії , яка пояснюється регресією називають коефіцієнтом детермінаціїзазвичай виражають через відсоткове співвідношення і позначають R 2(У парній лінійній регресії це величина r 2, квадрат коефіцієнта кореляції), дозволяє суб'єктивно оцінити якість рівняння регресії.

Різниця є відсотком дисперсії який не можна пояснити регресією.

Немає формального тесту для оцінки ми змушені покластися на суб'єктивне судження, щоб визначити якість припасування лінії регресії.

Застосування лінії регресії для прогнозу

Можна застосовувати регресійну лінію для прогнозування значення за межею спостерігається діапазону (ніколи не екстраполюйте поза цими межами).

Ми передбачаємо середню величину для спостережуваних, які мають певне значення шляхом встановлення цього значення в рівняння лінії регресії.

Отже, якщо прогнозуємо як Використовуємо цю передбачену величину та її стандартну помилку, щоб оцінити довірчий інтервалдля істинної середньої величиниу популяції.

Повторення цієї процедури для різних величин дозволяє побудувати довірчі межі цієї лінії. Це смуга або область, яка містить справжню лінію, наприклад, з 95% вірогідністю.

Прості регресійні плани

Прості регресійні плани містять один безперервний предиктор. Якщо існує 3 спостереження зі значеннями предиктора P, наприклад, 7, 4 і 9, а план включає ефект першого порядку P, то матриця плану X матиме вигляд

а регресійне рівнянняз використанням P для X1 виглядає як

Y = b0 + b1 P

Якщо простий регресійний план містить ефект вищого порядкудля P , наприклад квадратичний ефект, значення в стовпці X1 в матриці плану будуть зведені в другий ступінь:

а рівняння набуде вигляду

Y = b0 + b1 P2

Сигма -обмежені та надпараметризовані методи кодування не застосовуються по відношенню до простих регресійних планів та інших планів, що містять тільки безперервні предиктори (оскільки просто не існує категоріальних предикторов). Незалежно від вибраного методу кодування, значення безперервних змінних збільшуються у відповідному ступені та використовуються як значення для змінних X . При цьому перекодування не виконується. Крім того, при описі регресійних планів можна опустити розгляд матриці плану X, а працювати тільки з регресійним рівнянням.

Приклад: простий регресійний аналіз

Цей приклад використовує дані, подані у таблиці:

Мал. 3. Таблиця вихідних даних.

Дані складені на основі порівняння переписів 1960 та 1970 у довільно обраних 30 округах. Назви округів представлені як імен спостережень. Інформація щодо кожної змінної представлена ​​нижче:

Мал. 4. Таблиця специфікацій змінних.

Завдання дослідження

Для цього прикладу будуть аналізуватися кореляція рівня бідності та ступінь, що передбачає відсоток сімей, які перебувають за межею бідності. Отже ми трактуватимемо змінну 3 (Pt_Poor ) як залежну змінну.

Можна висунути гіпотезу: зміна чисельності населення та відсоток сімей, які перебувають за межею бідності, пов'язані між собою. Здається розумним очікувати, що бідність веде до відтоку населення, отже, тут буде негативна кореляція між відсотком людей за межею бідності та зміною чисельності населення. Отже ми трактуватимемо змінну 1 (Pop_Chng ) як змінну-предиктор.

Перегляд результатів

Коефіцієнти регресії

Мал. 5. Коефіцієнти регресії Pt_Poor на Pop_Chng.

На перетині рядка Pop_Chng та стовпця Парам. не стандартизований коефіцієнт для регресії Pt_Poor на Pop_Chng дорівнює -0.40374. Це означає, що для кожного зменшення чисельності населення на одиницю є збільшення рівня бідності на.40374. Верхній та нижній (за замовчуванням) 95% довірчі межі для цього не стандартизованого коефіцієнтане включають нуль, отже коефіцієнт регресії значимо лише на рівні p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Розподіл змінних

Коефіцієнти кореляції можуть стати суттєво завищені або занижені, якщо в даних є великі викиди. Вивчимо розподіл залежної змінної Pt_Poor по округах. Для цього побудуємо гістограму змінної Pt_Poor.

Мал. 6. Гістограма змінної Pt_Poor.

Як можна помітити, розподіл цієї змінної помітно відрізняється від нормального розподілу. Тим не менш, хоча навіть два округи (два праві стовпці) мають високий відсоток сімей, які знаходяться за межею бідності, ніж очікувалося у разі нормального розподілу, здається, що вони знаходяться "всередині діапазону."

Мал. 7. Гістограма змінної Pt_Poor.

Це судження певною мірою суб'єктивне. Емпіричне правило свідчить, що викиди необхідно враховувати, якщо спостереження (або спостереження) не потрапляють до інтервалу (середнє ± 3 помножене на стандартне відхилення). У цьому випадку варто повторити аналіз з викидами і без, щоб переконатися, що вони не мають серйозного ефекту на кореляцію між членами сукупності.

Діаграма розсіювання

Якщо одна з гіпотез апріорі про взаємозв'язок між заданими змінними, її корисно перевірити на графіку відповідної діаграми розсіювання.

Мал. 8. Діаграма розсіювання.

Діаграма розсіювання показує явну негативну кореляцію (-.65) між двома змінними. На ній також показаний 95% довірчий інтервал для лінії регресії, тобто з 95% ймовірністю лінія регресії проходить між двома пунктирними кривими.

Критерії значимості

Мал. 9. Таблиця, що містить критерії значущості.

Критерій коефіцієнта регресії Pop_Chng підтверджує, що Pop_Chng сильно пов'язані з Pt_Poor , p<.001 .

Підсумок

У цьому прикладі було показано, як проаналізувати простий регресійний план. Була також представлена ​​інтерпретація нестандартизованих та стандартизованих коефіцієнтів регресії. Обговорено важливість вивчення розподілу відгуків залежною змінною, продемонстровано техніку визначення напрямку та сили взаємозв'язку між предиктором та залежною змінною.

100 рбонус за перше замовлення

Оберіть тип роботи Дипломна робота Курсова робота Реферат Магістерська дисертація Звіт з практики Стаття Доповідь Рецензія Контрольна робота Монографія Рішення задач Бізнес-план Відповіді на запитання Творча робота Есе Чертеж Твори Переклад Презентації Набір тексту Інше Підвищення унікальності тексту

Дізнатись ціну

Оцінюючи параметрів рівняння регресії застосовується метод найменших квадратів (МНК). У цьому робляться певні причини щодо випадкової складової e. У моделі – випадкова складова e є неспостережуваною величиною. Після того як проведено оцінку параметрів моделі, розраховуючи різниці фактичних і теоретичних значень результативної ознаки y можна визначити оцінки випадкової складової . Оскільки вони є реальними випадковими залишками, їх вважатимуться деякою вибірковою реалізацією невідомого залишку заданого рівняння, т. е. ei.

При зміні специфікації моделі, додаванні до неї нових спостережень вибіркові оцінки залишків ei можуть змінюватись. Тому завдання регресійного аналізу входить як побудова самої моделі, а й дослідження випадкових відхилень ei, т. е. залишкових величин.

При використанні критеріїв Фішера та Стьюдента робляться припущення щодо поведінки залишків ei – залишки є незалежними випадковими величинами та їх середнє значення дорівнює 0; вони мають однакову (постійну) дисперсію та підкоряються нормальному розподілу.

Статистичні перевірки параметрів регресії, показників кореляції засновані на передумовах неперевірених розподілу випадкової складової ei. Вони мають лише попередній характер. Після побудови рівняння регресії проводиться перевірка наявності у

оцінок ei (випадкових залишків) тих властивостей, які передбачалися. Пов'язано це з тим, що оцінки параметрів регресії мають відповідати певним критеріям. Вони мають бути незміщеними, заможними та ефективними. Ці властивості оцінок, отриманих МНК, мають надзвичайно важливе практичне значення у використанні результатів регресії та кореляції.

Незміщеність оцінки означає, що математичне очікування залишків дорівнює нулю. Якщо оцінки мають властивість несмещенности, їх можна порівнювати з різних дослідженням.

Оцінки вважаються ефективнимиякщо вони характеризуються найменшою дисперсією. У практичних дослідженнях це можливість переходу від точкового оцінювання до інтервального.

Заможність оцінок характеризує збільшення їх точності із збільшенням обсягу вибірки. Великий практичний інтерес становлять ті результати регресії, для яких довірчий інтервал очікуваного значення параметра регресії bi має межу значень ймовірності, що дорівнює одиниці. Іншими словами, можливість отримання оцінки на заданій відстані від істинного значення параметра близька до одиниці.

Зазначені критерії оцінок (несмещенность, спроможність та ефективність) обов'язково враховуються за різних способів оцінювання. Метод найменших квадратів будує оцінки регресії з урахуванням мінімізації суми квадратів залишків. Тому дуже важливо дослідити поведінку залишкових величин регресії ei. Умови, необхідні отримання несмещенных, заможних і ефективних оцінок, є передумови МНК, дотримання яких бажано отримання достовірних результатів регресії.

Дослідження залишків ei припускають перевірку наявності наступних п'яти передумов МНК:

1. випадковий характер залишків;

2. нульова середня величина залишків, яка залежить від xi;

3. гомоскедастичність – дисперсія кожного відхилення ei, однакова всім значень x ;

4. відсутність автокореляції залишків – значення залишків ei розподілені незалежно один від одного;

5. залишки підпорядковуються нормальному розподілу.

Якщо розподіл випадкових залишків ei відповідає деяким передумовам МНК, слід коригувати модель.

Насамперед перевіряється випадковий характер залишків ei – перша передумова МНК. З цією метою стоїть графік залежності залишків ei від теоретичних значень результативної ознаки.

Якщо графіку отримана горизонтальна смуга, то залишки ei є випадкові величини і МНК виправданий, теоретичні значення добре апроксимують фактичні значення y.

Можливі такі випадки, якщо ei залежить від то:

1) залишки ei не випадкові

2) залишки ei не мають постійної дисперсії

3) залишки ei носять систематичний характер.

У цих випадках необхідно або застосовувати іншу функцію, або вводити додаткову інформацію і знову будувати рівняння регресії доти, поки залишки ei не будуть випадковими величинами.

Друга передумова МНК щодо нульової середньої величини залишків означає, що . Це здійснено для лінійних моделей і моделей, нелінійних щодо змінних, що включаються.

Разом про те несмещенность оцінок коефіцієнтів регресії, отриманих МНК, залежить від незалежності випадкових залишків і величин x, що також досліджується рамках дотримання другої передумови МНК. З цією метою поряд із викладеним графіком залежності залишків ei від теоретичних значень результативної ознаки будується графік залежності випадкових залишків ei від факторів, включених до регресії xj.

Якщо залишки на графіку розташовані у вигляді горизонтальної смуги, то вони незалежні від значень xj. Якщо графік показує наявність залежності ei і xj, то модель неадекватна. Причини неадекватності можуть бути різні. Можливо, що порушена третя передумова МНК і дисперсія залишків не є постійною для кожного значення фактора xj. Можливо, неправильна специфікація моделі і в неї необхідно ввести

додаткові члени від xj, наприклад. Накопичення точок у певних ділянках значень фактора xj говорить про наявність систематичної похибки моделі.

Передумова нормальному розподілі залишків дозволяє проводити перевірку параметрів регресії і кореляції з допомогою F - і t -критеріїв. Разом про те оцінки регресії, знайдені із застосуванням МНК, мають хороші властивості навіть за відсутності нормального розподілу залишків, тобто. у разі порушення п'ятої причини МНК.

Цілком необхідним для отримання за МНК заможних оцінок параметрів регресії є дотримання третьої та четвертої передумов.

Відповідно до третьої передумови МНК потрібно, щоб дисперсія залишків була гомоскедастичної. Це означає, що для кожного значення фактора xj залишки ei мають однакову дисперсію. Якщо цієї умови застосування МНК не дотримується, має місце гетероскедастичність. Наявність гетероскедастичності можна наочно бачити з поля кореляції:

1. Дисперсія залишків зростає зі збільшенням x.

Тоді маємо наступний вид гетероскедастичності: велика дисперсія ei для більших значень

2. Дисперсія залишків досягає максимальної величини при середніх значеннях x і зменшується при мінімальних і максимальних значеннях.

Тоді маємо наступний вид гетероскедастичності: велика дисперсія ei для середніх значень і мала дисперсія ei для малих і великих значень

3. Максимальна дисперсія залишків при малих значеннях x та дисперсія залишків однорідна зі збільшенням x.

Тоді маємо наступний вид гетероскедастичності: велика дисперсія ei для малих значень, зменшення дисперсії залишків ei у міру збільшення

При побудові регресійних моделей надзвичайно важливим є дотримання четвертої передумови МНК – відсутність автокореляції залишків, тобто значення залишків ei розподілені незалежно один від одного.

Автокореляція залишків означає наявність кореляції між залишками поточних та попередніх (наступних) спостережень. Коефіцієнт кореляції між ei та ej , де ei – залишки поточних спостережень, ej – залишки попередніх спостережень (наприклад, j=i-1), може бути визначений як:

тобто за звичайною формулою лінійного коефіцієнта кореляції. Якщо цей коефіцієнт виявиться суттєво відмінним від нуля, то залишки автокорельовані та функція щільності ймовірності F(e) залежить від j -й точки спостереження та від розподілу значень залишків в інших точках спостереження.

Відсутність автокореляції залишкових величин забезпечує спроможність та ефективність оцінок коефіцієнтів регресії. Особливо актуально дотримання цієї передумови МНК при побудові регресійних моделей за рядами динаміки, де з огляду на наявність тенденції наступні рівні динамічного ряду, зазвичай, залежить від попередніх рівнів.

При недотриманні основних передумов МНК доводиться коригувати модель, змінюючи її специфікацію, додавати (виключати) деякі фактори, перетворювати вихідні дані для того, щоб отримати оцінки коефіцієнтів регресії, які мають властивість незміщеності, мають менше дисперсії залишків і забезпечують у зв'язку з цим більш ефективну статистичну перевірку значимості властивостей регресії.

Рівняння регресії завжди доповнюється показником тісноти зв'язку. При використанні лінійної регресії як такий показник виступає лінійний коефіцієнт кореляції r yt. Існують різні модифікації формули лінійного коефіцієнта кореляції.

Слід пам'ятати, що величина лінійного коефіцієнта кореляції оцінює тісноту зв'язку аналізованих ознак її лінійної формі. Тому близькість абсолютної величини лінійного коефіцієнта кореляції до нуля ще означає відсутність зв'язку між ознаками.

Для оцінки якості підбору лінійної функції розраховується квадрат лінійного коефіцієнта кореляції r yt 2 називається коефіцієнтом детермінації. p align="justify"> Коефіцієнт детермінації характеризує частку дисперсії результативної ознаки у t, що пояснюється регресією, в загальній дисперсії результативної ознаки.

Рівняння нелінійної регресії, як і й у лінійної залежності, доповнюється показником кореляції, саме індексом кореляції R.

Парабола другого порядку, як і поліном вищого порядку, при ліанеризації набуває вигляду рівняння множинної регресії. Якщо ж нелінійне щодо змінної змінної рівняння регресії при лінеаризації приймає форму лінійного рівняння парної регресії, то для оцінки тісноти зв'язку може бути використаний лінійний коефіцієнт кореляції, величина якого в цьому випадку збігається з індексом кореляції.

Інша справа, коли перетворення рівняння в лінійну форму пов'язані із залежною змінною. У цьому випадку лінійний коефіцієнт кореляції за перетвореними значеннями ознак дає лише наближену оцінку тісноти зв'язку та чисельно не збігається з індексом кореляції. Так, для статечної функції

після переходу до логарифмічно лінійного рівняння

lny = lna + blnx

може бути знайдений лінійний коефіцієнт кореляції задля фактичних значень змінних х і у, а їх логарифмів, тобто r lnylnx . Відповідно квадрат його значення характеризуватиме відношення факторної суми квадратів відхилень до загальної, але не для у, а для його логарифмів:

Тим часом при розрахунку індексу кореляції використовуються суми квадратів відхилень ознаки у, а чи не їх логарифмів. З цією метою визначаються теоретичні значення результативної ознаки, тобто як антилогарифм розрахованої за рівнянням величини і залишкова сума квадратів як.

У знаменнику розрахунку R 2 yx бере участь загальна сума квадратів відхилень фактичних значень від їх середньої величини, а в розрахунку r 2 lnxlny бере участь. Відповідно розрізняються чисельники та знаменники аналізованих показників:

  • - в індексі кореляції та
  • - у коефіцієнті кореляції.

Внаслідок близькості результатів та простоти розрахунків з використанням комп'ютерних програм для характеристики тісноти зв'язку з нелінійних функцій широко використовується лінійний коефіцієнт кореляції.

Незважаючи на близькість значень R і r або R і r в нелінійних функціях з перетворенням значення ознаки, слід пам'ятати, що якщо при лінійній залежності ознак один і той же коефіцієнт кореляції характеризує регресію, як слід пам'ятати, що якщо при лінійній залежності ознак один і той самий коефіцієнт кореляції характеризує регресію як, і, оскільки, то при криволінійної залежності функції y=j(x) не дорівнює регресії x=f(y).

Оскільки в розрахунку індексу кореляції використовується співвідношення факторної та загальної суми квадратів відхилень, то має той самий сенс, що й коефіцієнт детермінації. У спеціальних дослідженнях величину нелінійних зв'язків називають індексом детермінації.

Оцінка суттєвості індексу кореляції проводиться, як і і оцінка надійності коефіцієнта кореляції.

Індекс кореляції використовується для перевірки суттєвості загалом рівняння нелінійної регресії за F-критерієм Фішера.

Величина m характеризує число ступенів свободи для факторної суми квадратів, а (n – m – 1) – число ступенів свободи для залишкової суми квадратів.

Для статечної функції m = 1 і формула F - критерію набуде того ж вигляду, що і при лінійній залежності:

Для параболи другого ступеня

y = a 0 + a 1 x + a 2 x 2 +еm = 2

Розрахунок F-критерію можна вести і таблиці дисперсійного аналізу результатів регресії, як це було показано для лінійної функції.

Індекс детермінації можна порівнювати з коефіцієнтом детермінації для обґрунтування можливості застосування лінійної функції. Чим більша кривизна лінії регресії, тим величина коефіцієнта детермінації менша за індекс детермінації. Близькість цих показників означає, що не потрібно ускладнювати форму рівняння регресії і можна використовувати лінійну функцію.

Практично, якщо величина різниці між індексом детермінації та коефіцієнтом детермінації не перевищує 0,1, то припущення про лінійну форму зв'язку вважається виправданим.

Якщо t факт t табл, то відмінності між аналізованими показниками кореляції істотні і заміна нелінійної регресії рівнянням лінійної функції неможлива. Фактично, якщо величина t< 2, то различия между R yx и r yx несущественны, и, следовательно, возможно применение линейной регрессии, даже если есть предположения о некоторой нелинейности рассматриваемых соотношений признаков фактора и результата.

Поділіться з друзями або збережіть для себе:

Завантаження...