Прогнозування за моделлю множинної регресії.

У прогнозних розрахунках щодо рівняння регресії визначається передбачуване значення як точковий прогноз при , тобто шляхом підстановки до рівняння регресії відповідного значення х.Однак точковий прогноз явно не є реальним. Тому він доповнюється розрахунком стандартної помилки. тобто, і відповідно інтервальною оцінкою прогнозного значення (у*)

Щоб зрозуміти, як будується формула для визначення величин середньоквадратичної помилки, звернімося до рівняння лінійної парної регресії:

Відомим чином знайдемо дисперсію моделі парної лінійної регресії:

(3.29)

З урахуванням виразу (3.24) та (3.25) попередньо запишемо:

Після нескладних перетворень остаточно отримаємо:

(3.30)

Звідси перейдемо до середньоквадратичної помилки моделі парної лінійної регресії:

Розглянута формула середньоквадратичної помилки передбачуваного середнього значення y при заданому значенні характеризує помилку становища лінії регресії. Величина стандартної помилки , як видно з формули, досягає мінімуму при , і зростає в міру того, як «віддаляється» від у будь-якому напрямку. Іншими словами, чим більша різниця між і x, тим більше помилка з якою передбачається середнє значення yдлязаданого значення. Очікується найкращі результати прогнозу, якщо ознака-фактор хзнаходиться в центрі області спостережень хі не можна очікувати хороших результатів прогнозу при видаленні від . Якщо ж значення виявляється за межами спостережуваних значень х,використовуються при побудові лінійної регресії, то результати прогнозу погіршуються залежно від того, наскільки відхиляється від області значень фактору, що спостерігаються x.

Для нашого прикладу становитиме:

Для прогнозованого значення 95% довірчі інтервали при заданому визначаються виразом

Для ймовірності 95% тоді26,04.

При , прогнозне значення yскладе:

яке є точковим прогнозом.

Прогноз лінії регресії в інтервалі становитиме:

Однак фактичні значення уваріюють близько середнього значення. Індивідуальні значення уможуть відхилятися від на величину випадкової помилки, дисперсія якої оцінюється як залишкова дисперсіяна один ступінь свободи . Тому передбачуваного індивідуального значення y повинна включати не лише стандартну помилку, а й випадкову помилку S.

Середня помилка прогнозованого індивідуального значення y складе:

За даними прикладу отримаємо:

Довірчі інтервали прогнозу індивідуальних значень yз ймовірністю 0,95 складуть:, або 141,57, це означає, що.

Інтервал досить широкий, насамперед, з допомогою малого обсягу спостережень.

При прогнозуванні з урахуванням рівняння регресії слід пам'ятати, що величина прогнозу залежить лише від стандартної помилки індивідуального значення у,але й від точності прогнозу значення фактора х.Його величина може задаватися на основі аналізу інших моделей виходячи з конкретної ситуації, а також аналізу динаміки даного фактора.

Розглянута формула середньої помилки індивідуального значення ознаки y може бути використана також для оцінки суттєвості відмінності передбачуваного значення, виходячи з регресійної моделі та висунутої гіпотези розвитку подій.

Припустимо, що у прикладі з функцією витрат висувається припущення, що у наступного року у зв'язку з стабілізацією економіки під час випуску продукції 8 тис. од. Витрати виробництво не перевищать 250 млн крб. Чи означає це дійсно зміна знайденої закономірності чи дана величина витрат відповідає регресійній моделі?

Щоб відповісти на це питання, знайдемо точковий прогноз при х= 8, тобто.

Передбачуване значення витрат, виходячи з економічної ситуації, - 250,0. Для оцінки суттєвості відмінності цих величин визначимо середню помилку прогнозованого індивідуального значення:

Порівняємо її з величиною передбачуваного зниження витрат виробництва, тобто:

Оскільки оцінюється значимість лише зменшення витрат, використовується односторонній критерій Стьюдента. При помилці в 5% із п'ятьма ступенями свободи. Отже, передбачуване зменшення витрат істотно відрізняється від прогнозованого за моделлю при 95% рівні довіри. Однак якщо збільшити ймовірність до 99%, при помилці в 1% фактичне значення критерію виявляється нижче табличного 3,365, і розбіжність у величині витрат статистично не значимо.

Прогнозування за рівнянням регресії є підстановкою рівняння регресії відповідного значення х . Такий прогноз називається точковим.Він не є точним, тому доповнюється розрахунком стандартної помилки ; виходить інтервальна оцінкапрогнозного значення:

Перетворимо рівняння регресії:

помилка залежить від помилки та помилки коефіцієнта регресії b , тобто. .

З теорії вибірки відомо, що .

Використовуємо як оцінку s 2 залишкову дисперсію однією ступінь свободи S 2 , отримуємо: .

Помилка коефіцієнта регресії з формули (15):

Таким чином, при х=х k отримуємо:

(31)

Як видно з формули, величина досягає мінімуму при і зростає в міру віддалення в будь-якому напрямку.

Для нашого прикладу ця величина становитиме:

При , При х k = 4

Для прогнозованого значення 95% - ні довірчі інтервали при заданому х kвизначені виразом:

тобто. при х k=4±2,57-3,34 або ±8,58. При х до=4 прогнозне значення становитиме

у p=-5,79 +36,84 · 4 = 141,57 - це точковий прогноз.

Прогноз лінії регресії лежить в інтервалі: 132,99 150,15.

Ми розглянули довірчі інтервали для середнього значення упри заданому х.Однак фактичні значення у варіюються близько середнього значення , вони можуть відхилятися на величину випадкової помилки e дисперсія якої оцінюється як залишкова дисперсія на один ступінь свободи S 2 .Тому помилка прогнозу окремого значення у повинна включати не лише стандартну помилку, а й випадкову помилку S . Таким чином, середня помилка прогнозу індивідуального значення yскладе:

(33)

Для прикладу:

Довірчий інтервалпрогнозу індивідуальних значень упри х до=4 з вірністю 0,95 становитиме:. 141,57 ±2,57·8,01, або 120,98 ≤ у р ≤ 162,16.

Нехай у прикладі з функцією витрат висувається припущення, що в наступному році у зв'язку зі стабілізацією економіки витрати на виробництво 8 тис. од. продукції не перевищать 250 млн. руб. Чи означає ця зміна знайденої закономірності чи витрати відповідають регресійній моделі?

Точковий прогноз: = -5,79 + 36,84 8 = 288,93. Передбачуване значення – 250. Середня помилкапрогнозного індивідуального значення:

Порівняємо її з передбачуваним зниженням витрат виробництва, тобто. 250-288,93 = -38,93:

Оскільки оцінюється лише значення зменшення витрат, то використовується односторонній t~критерій Стьюдента. При помилці 5% з n-2=5 t табл=2,015, тому передбачуване зменшення витрат значно відрізняється від прогнозованого значення при 95 % - ном рівні довіри. Однак, якщо збільшити ймовірність до 99%, при помилці 1% фактичне значення t-Критерію виявляється нижче табличного 3,365, і відмінність у витратах статистично значимо, тобто. витрати відповідають запропонованій регресійній моделі.

Нелінійна регресія

Досі ми розглядали лише лінійнумодель регресійної залежності у від х (3). У той же час багато важливих зв'язків в економіці нелінійними.Прикладами такого роду регресійних моделейє виробничі функції(залежності між обсягом виробленої продукції та основними факторами виробництва - працею, капіталом тощо) та функції попиту (залежності між попитом на будь-який вид товарів чи послуг, з одного боку, та доходом та цінами на цей та інші товари - з іншого).

При аналізі нелінійних регресійних залежностейНайбільш важливим питанням застосування класичного МНК є спосіб їхньої лінеаризації. У разі лінеаризації нелінійної залежності отримуємо лінійне регресійне рівняннятипу (3), параметри якого оцінюються звичайним МНК, після чого можна записати вихідне нелінійне співвідношення.

Дещо особняком у цьому сенсі стоїть поліноміальна модель довільного ступеня:

до якої стандартний МНК можна використовувати без будь-якої попередньої лінеаризації.

Розглянемо зазначену процедуру стосовно параболі другого ступеня:

(35)

Така залежність доцільна у разі, якщо для деякого інтервалу значень фактора зростаюча залежність змінюється на спадну або навпаки. І тут можна визначити значення чинника, у якому досягається максимальне чи мінімальне значення результативного ознаки. Якщо вихідні дані не виявляють зміну спрямованості зв'язку, параметри параболи стають важко інтерпретованими, і краще краще замінити форму зв'язку іншими нелінійними моделями.

Застосування МНК для оцінки параметрів параболи другого ступеня зводиться до диференціювання суми квадратів залишків регресії по кожному з параметрів, що оцінюються, і прирівнюванню отриманих виразів нулю. Виходить система нормальних рівнянь, Число яких дорівнює числу параметрів, що оцінюються, тобто. трьом:

(36)

Вирішувати цю систему можна будь-яким способом, зокрема методом визначників.

Екстремальне значення функції спостерігається при значенні фактора, що дорівнює:

Якщо b>0, с<0, має місце максимум, тобто. залежність спочатку зростає, а потім падає. Такі залежності спостерігаються економіки праці щодо заробітної плати працівників фізичної праці, як у ролі чинника виступає вік. При b<0, с>0 парабола має мінімум, що зазвичай проявляється у питомих витратах виробництва залежно від обсягу своєї продукції.

У нелінійних залежностях, які є класичними поліномами, обов'язково проводиться попередня лінеаризація, яка полягає у перетворенні або змінних, або параметрів моделі, або комбінації цих перетворень. Розглянемо деякі класи таких залежностей.

Залежності гіперболічного типу мають вигляд:

(37)

Прикладом такої залежності є крива Філіпса, що констатує зворотну залежність відсотка приросту заробітної плати від рівня безробіття. У цьому випадку значення параметра b буде більше за нуль. Іншим прикладом залежності (37) є криві Енгеля, що формулюють наступну закономірність: зі зростанням доходу частка доходів, що витрачаються на продовольство, зменшується, а частка доходів, що витрачаються на непродовольчі товари, зростатиме. В цьому випадку b<0 , А результативна ознака (37) показує частку витрат на непродовольчі товари.

Лінеаризація рівняння (37) зводиться до заміни фактора z=1/х , і рівняння регресії має вигляд (3), у якому замість фактора х використовуємо фактор z:

До такого ж лінійного рівняння зводиться напівлогарифмічна крива:

(39)

яка може бути використана для опису кривих Енгеля. Тут 1п(х) замінюється на z , І виходить рівняння (38).

Досить широкий клас економічних показників характеризується постійним темпом відносного приросту в часі. Цьому відповідають залежності показового (експоненційного) типу, які записуються як:

або у вигляді

Можлива така залежність:

У регресіях типу (40) - (42) застосовується той самий спосіб лінеаризації - логарифмування. Рівняння (40) наводиться до вигляду:

(43)

Заміна змінної Y= ln узводить його до лінійного вигляду:

(44)

де . Якщо Езадовольняє умовам Гаусса-Маркова, параметри рівняння (40) оцінюються МНК з рівняння (44). Рівняння (41) наводиться до вигляду:

який відрізняється від (43) тільки видом вільного члена, і лінійне рівняння виглядає так:

Y=A+bx+E(46)

де A= ln a. Параметри Аі bвиходять звичайним МНК, потім параметр а залежно (41) виходить як антилогарифм А.При логарифмуванні (42) отримуємо лінійну залежність:

Y=A+Bx+E(47)

де B=ln b, А інші позначення самі, як і вище. Тут також застосовується МНК до перетворених даних, а параметр b для (42) виходить як антилогарифм коефіцієнта Ст.

Широко поширеніу практиці соціально-економічних досліджень статечні залежності. Вони використовуються для побудови та аналізу виробничих функцій. У функціях виду:

особливо цінною є та обставина, що параметр b дорівнює коефіцієнту еластичності результативної ознаки за фактором х . Перетворюючи (48) шляхом логарифмування, отримуємо лінійну регресію:

Y=A+bX+E (49)

де Y= ln y,A= ln a, X= ln x, E = ln ε .

Ще одним видом нелінійності, що приводиться до лінійного вигляду, є зворотна залежність:

(50)

Проводячи заміну і=1/у, Отримаємо:

(51)

Нарешті, слід зазначити залежність логістичного типу:

(52)

Графіком функції (52) є так звана «крива насичення», яка має дві горизонтальні асимптоти у=0і у=1/аі точку перегину x= ln (b/a), у=1/(2а), а також точку перетину з віссю ординат у=1/(а+b):

Рівняння (52) наводиться до лінійного вигляду замінами змінних і = 1/у, z = e - x.

Будь-яке рівняння нелінійної регресії, як і лінійної залежності, доповнюється показником кореляції, який у цьому випадку називається індексом кореляції:

(53)

Тут – загальна дисперсія результативногоознаки у , залишкова дисперсія, що визначається за рівнянням нелінійної регресії. Слід звернути увагу, що різниці у відповідних сумах і беруться над перетворених, а вихідних значеннях результативного ознаки. Інакше висловлюючись, при обчисленні цих сум слід використовувати не перетворені (лінеаризовані) залежності, саме вихідні нелінійні рівняння регресії. Інакше (53) можна записати так:

(54)

Величина Rзнаходиться у межах 0 ≤ R ≤ 1, і чим ближче вона до одиниці, тим тісніше зв'язок ознак, тим більше надійно знайдене рівняння регресії. При цьому індекс кореляції збігається з лінійним коефіцієнтом кореляції у разі коли перетворення змінних з метою лінеаризації рівняння регресії не проводиться з величинами результативної ознаки. Така ситуація з напівлогарифмічною і поліноміальною регресією, а також з рівносторонньою гіперболою (37). Визначивши лінійний коефіцієнт кореляції для лінеаризованих рівнянь, наприклад, на пакеті Excel за допомогою функції ЛІНІЙН, можна використовувати його і для нелінійної залежності.

Інша справа у випадку, коли перетворення проводиться також з величиною у , наприклад, взяття зворотної величини або логарифмування. Тоді значення R,обчислене тією ж функцією Лінейн, буде ставитися до лінеаризованого рівняння регресії, а не до початкового нелінійного рівняння, і величини різниць під сумами (54) будуть ставитися до перетворених величин, а не до вихідних, що не те саме. При цьому, як було зазначено вище, для розрахунку Rслід скористатися виразом (54), обчисленим за вихідним нелінійним рівнянням.

Оскільки в розрахунку індексу кореляції використовується співвідношення факторної та загальної СКО, то R 2має той самий сенс, як і коефіцієнт детермінації. У спеціальних дослідженнях величину R 2для нелінійних зв'язків називають індекс детермінації.

Оцінка суттєвості індексу кореляції проводиться як і, як і оцінка надійності коефіцієнта кореляції.

Індекс детермінації використовується для перевірки суттєвості в цілому рівняння нелінійної регресії за F-критерію Фішера:

(55)

де n -число спостережень, m -число параметрів при змінних х . У всіх розглянутих нами випадках, крім поліноміальної регресії, m=1, для поліномів (34) m=k, тобто. ступеня полінома. Величина т характеризує число ступенів свободи для факторної СКО, а (п-т-1) -число ступенів свободи для залишкової СКО.

Індекс детермінації R 2 можна порівнювати з коефіцієнтом детермінації r 2 для обґрунтування можливості застосування лінійної функції. Чим більша кривизна лінії регресії, тим більша різниця між R 2 і r 2 . Близькість цих показників означає, що ускладнювати форму рівняння регресії годі було і можна використовувати лінійну функцію. Фактично, якщо величина (R 2 -r 2)не перевищує 0,1, то лінійна залежність вважається виправданою. В іншому випадку проводиться оцінка суттєвості відмінності показників детермінації, обчислених за одними і тими ж даними, через t-Критерій Стьюдента:

Тут у знаменнику знаходиться помилка різниці (R 2 -r 2),визначається за формулою:

Якщо t >t табл (α;n-m-1),то відмінності між показниками кореляції суттєві та заміна нелінійної регресії лінійної недоцільна.

На закінчення наведемо формули розрахунку коефіцієнтів еластичності найбільш поширених рівнянь регресії.

Однією з центральних завдань економетричного моделювання є передбачення (прогнозування) значень залежної змінної при певних значеннях змінних, що пояснюють, при певних значеннях пояснюючих змінних. Тут можливий подвійний підхід: або передбачити умовне математичне очікування залежної змінної ( прогноз середнього значення), або прогнозувати певне конкретне значення залежної змінної ( передбачення конкретного значення).

Зауваження.Деякі автори розрізняють такі поняття, як прогнозування та передбачення. Якщо значення пояснюючої змінної Xвідомо точно, то оцінювання залежної змінної Yназивається пророцтвом. Якщо ж значення пояснюючої змінної Xневідомо точно, то кажуть, що робиться прогноззначення Y. Така ситуація характерна для тимчасових лав. В даному випадку ми не розрізнятимемо прогноз і прогноз.

Розрізняють точковеі інтервальнепрогнозування. У першому випадку оцінка – кілька, у другому – інтервал, у якому перебуває справжнє значення залежної змінної із заданим рівнем значимості.

а) Передбачення середнього значення. Нехай побудовано рівняння парної регресії, на основі якого необхідно передбачити умовне математичне очікування . У цьому випадку значення є точковою оцінкою . Тоді природно виникає питання, як може відхилитися модельне значення , розраховане по емпіричному рівнянню, від відповідного умовного математичного очікування. Відповідь це питання дається з урахуванням інтервальних оцінок, побудованих із заданим рівнем значимості a за будь-якого конкретному значенні x pпояснюючої змінної.

Запишемо емпіричне рівняння регресії як

Тут виділено дві незалежні складові: середня та приріст. Звідси випливає, що дисперсія дорівнюватиме

З теорії вибірки відомо, що

Використовуючи як оцінку s 2 залишкову дисперсію S 2 , отримаємо



Дисперсія коефіцієнта регресії, як було показано

Підставляючи знайдені дисперсії (5.41), отримаємо

. (5.56)

Таким чином, формула розрахунку стандартної помилки передбачуваного по лінії регресії середнього значення Yмає вигляд

. (5.57)

Величина стандартної помилки , як видно з формули, досягає мінімуму при , і зростає в міру віддалення в будь-якому напрямку. Іншими словами, більше різниця між і , тим більше помилка з якою передбачається середнє значення yдля заданого значення x p. Очікується найкращі результати прогнозу, якщо значення x pперебувають у центрі області спостережень Xі не можна очікувати хороших результатів прогнозу в міру віддалення від .

Випадкова величина

(5.58)

має розподіл Стьюдента з числом ступенів свободи n= n-2 (У рамках нормальної класичної моделі). Отже, за таблицею критичних точок розподілу Стьюдента за потрібним рівнем значимості a і числом ступенів свободи n= n-2 можна визначити критичну точку , що задовольняє умову

.

З урахуванням (5.46) маємо:

.

Звідси, після деяких алгебраїчних перетворень, отримаємо, що довірчий інтервал має вигляд:

, (5.59)

де гранична помилка D pмає вигляд

. (5.60)

З формул (5.57) і (5.60) видно, що величина (довжина) довірчого інтервалу залежить від значення змінної, що пояснює x p: при вона мінімальна, а в міру видалення x pвід величина довірчого інтервалу збільшується (рис. 5.4). Таким чином, прогноз значень залежної змінної Yза рівнянням регресії виправданий, якщо значення x pпояснюючої змінної Xне виходить за діапазон її значень за вибіркою (причому точніший, ніж ближче x pдо). Іншими словами, екстраполяція кривої регресії, тобто. її використання поза межами обстеженого діапазону значень пояснюючої змінної(навіть якщо вона виправдана для аналізованої змінної виходячи із сенсу розв'язуваної задачі) може призвести до значних похибок.

б) Передбачення індивідуальних значень залежної змінної. На практиці іноді важливіше знати дисперсію Y, ніж її середні значення чи довірчі інтервали для умовних математичних очікувань. Це пов'язано з тим, що фактичні значення Yваріюють близько середнього значення. Індивідуальні значення Yможуть відхилятися на величину випадкової помилки e, дисперсія якої оцінюється як залишкова дисперсія на один ступінь свободи S 2 . Тому помилка передбачуваного індивідуального значення Yповинні включати не лише стандартну помилку, а й випадкову помилку S. Це дозволяє визначати допустимі межі для конкретного значення Y.

Нехай нас цікавить певне можливе значення y 0 змінної Yза певного значення x pпояснюючої змінної X. Передбачене за рівнянням регресії значення Yпри X=x pскладає y p. Якщо розглядати значення y 0 як випадкову величину Y 0 , а y p- Як випадкову величину Y p, можна відзначити, що

,

.

Випадкові величини Y 0 та Y pє незалежними, а отже, випадкова величина U=Y 0 –Y pмає нормальний розподіл з

І . (5.61)

Використовуючи як s 2 залишкову дисперсію S 2 , отримаємо формулу розрахунку стандартної помилки передбачуваного по лінії регресії індивідуального значення Y:

. (5.63)

Випадкова величина

(5.64)

має розподіл Стьюдента з числом ступенів свободи k=n-2. На підставі цього можна побудувати довірчий інтервал для індивідуальних значень Y p:

, (5.65)

де гранична помилка D uмає вигляд

. (5.66)

Зауважимо, що цей інтервал ширший за довірчий інтервал для умовного математичного очікування (див. рис. 5.4).

Приклад 5.5.За даними прикладів 5.1-5.3 розрахувати 95% довірчий інтервал для умовного математичного очікування та індивідуального значення при x p=160.

Рішення.У прикладі 5.1 було знайдено. Скориставшись формулою (5.48), знайдемо граничну помилку для умовного математичного очікування

Тоді довірчий інтервал для середнього значення на рівні значущості a=0,05 матиме вигляд

Іншими словами, середнє споживання при доході 160 з ймовірністю 0,95 перебуватиме в інтервалі (149,8; 156,6).

Розрахуємо межі інтервалу, в якому буде зосереджено не менше 95% можливих обсягів споживання за рівня доходу x p=160, тобто. довірчий інтервал для індивідуального значення. Знайдемо граничну помилку для індивідуального значення

Тоді інтервал, в якому будуть перебувати принаймні 95% індивідуальних обсягів споживання при доході x p=160, має вигляд

Неважко помітити, що він включає довірчий інтервал для умовного середнього споживання. â

ПРИКЛАДИ

Приклад 5.65.Територіями регіону наводяться дані за 199X р. (таб. 1.1).

2. Побудувати лінійне рівняння парної регресії yна xта оцінити статистичну значущість параметрів регресії. Зробити малюнок.

3. Оцінити якість рівняння регресії з допомогою коефіцієнта детермінації. Перевірити якість рівняння регресії за допомогою F-Крітерія Фішера.

4. Виконати прогноз заробітної плати yпри прогнозному значенні середньодушового прожиткового мінімуму x, Що становить 107% від середнього рівня Оцінити точність прогнозу, розрахувавши помилку прогнозу та її довірчий інтервал рівня значимості a=0,05. Зробити висновки.

Рішення

1. Для визначення ступеня тісноти зв'язку зазвичай використовують коефіцієнт кореляції:

де , - вибіркові дисперсії змінних xі y. Для розрахунку коефіцієнта кореляції будуємо розрахункову таблицю (табл. 5.4):

Таблиця 5.4

x y xy x 2 y 2 e 2
148,77 -15,77 248,70
152,45 -4,45 19,82
157,05 -23,05 531,48
149,69 4,31 18,57
158,89 3,11 9,64
174,54 20,46 418,52
138,65 0,35 0,13
157,97 0,03 0,00
144,17 7,83 61,34
157,05 4,95 24,46
146,93 12,07 145,70
182,83 -9,83 96,55
Разом 1574,92
Середнє значення 85,58 155,75 13484,00 7492,25 24531,42

За даними таблиці знаходимо:

, , , ,

, , , ,

, .

Таким чином, між заробітною платою (y) та середньодушовим прожитковим мінімумом (x) існує пряма досить сильна кореляційна залежність .

Для оцінки статистичної значущості коефіцієнта кореляціїрозрахуємо двосторонній t-критерій Стьюдента:

який має розподіл Стьюдента з k=n–2 та рівнем значущості a. У нашому випадку

і .

Оскільки коефіцієнт кореляції істотно відрізняється від нуля.

Для значного коефіцієнта можна побудувати довірчий інтервал, який із заданою ймовірністю містить невідомий генеральний коефіцієнт кореляції Для побудови інтервальної оцінки (для малих вибірок n<30), используют z-перетворення Фішера:

Розподіл zвже за невеликих nє наближеним нормальним розподілом з математичним очікуванням та дисперсією. Тому спочатку будують довірчий інтервал для M[ z], а потім роблять зворотне z-перетворення. Застосовуючи z-перетворення для знайденого коефіцієнта кореляції, отримаємо

Довірчий інтервал для M( z) матиме вигляд

,

де t g знаходиться за допомогою функції Лапласа F( t g) = g/2. Для g=0,95 маємо t g = 1,96. Тоді

або . Назад z-перетворення здійснюється за формулою

В результаті знаходимо

.

У зазначених межах лише на рівні значимості 0,05 (з надійністю 0,95) укладено генеральний коефіцієнт кореляції r.

2. Таким чином, між змінними xі yмає суттєва кореляційна залежність. Вважатимемо, що ця залежність є лінійною. Модель парної лінійної регресії має вигляд

,

де y– залежна змінна (результативна ознака), x- незалежна (пояснювальна) змінна, e - випадкові відхилення, b 0 і b 1 - параметри регресії. За вибіркою обмеженого обсягу можна побудувати емпіричне рівняння регресії:

де b 0 та b 1 – емпіричні коефіцієнти регресії. Для оцінки параметрів регресії зазвичай використовують метод найменших квадратів (МНК). Відповідно до МНК, сума квадратів відхилень фактичних значень залежної змінної yвід теоретичних була мінімальною:

,

де відхилення y iвід оціненої лінії регресії. Необхідною умовою існування мінімуму функції двох змінних є рівність нуля її приватних похідних за невідомими параметрами b 0 та b 1 . В результаті отримуємо систему нормальних рівнянь:

Вирішуючи цю систему, знайдемо

, .

За даними таблиці знаходимо

Отримано рівняння регресії:

Параметр b 1 називається коефіцієнтом регресії. Його величина показує середню зміну результату із зміною фактора на одну одиницю. У цьому випадку, зі збільшенням середньодушового мінімуму на 1 руб. середньоденна вести збільшується загалом на 0,92 крб .

,

де Fпідпорядковується розподілу Фішера з рівнем значимості a і ступенями свободи k 1 = 1 і k 2 =n-2. У нашому випадку

.

Оскільки критичне значення критерію дорівнює

і , то зізнається статистична значимість побудованого рівняння регресії. Зазначимо, що для лінійної моделі F- І t-критерії пов'язані рівністю , що можна використовуватиме перевірки розрахунків.

4. Отримані оцінки рівняння регресії дають змогу використовувати його для прогнозу. Прогнозне значення y pвизначається шляхом підстановки рівняння регресії (1.16) відповідного (прогнозного) значення x p

ЛЕКЦІЯ 5 99

§5.2. Аналіз точності оцінок коефіцієнтів регресії 99

5.2.1. Оцінка дисперсії випадкового відхилення 99

5.2.2. Перевірка гіпотез щодо коефіцієнтів регресії 100

5.2.3. Інтервальні оцінки коефіцієнтів регресії 103

§5.3. Показники якості рівняння регресії 104

5.3.1. Коефіцієнт детермінації 104

5.3.2. Перевірка загальної якості рівняння регресії: F-тест 106

5.3.3. Перевірка загальної якості рівняння регресії: t-тест 108

§5.4. Інтервали прогнозу рівняння регресії 108

Застосування лінійної регресії у прогнозуванні

Прогнозування - це самостійна галузь науки, яка знаходить широке застосування у всіх галузях людської діяльності. Існує велика різноманітність видів та способів прогнозування, розроблених з урахуванням характеру розглянутих завдань, цілей дослідження, стану інформації. Цим питанням присвячено багато книг та журнальних статей. Покажемо з прикладу лінійної регресії застосування економетричних моделей у прогнозуванні значень економічних показників.

У повсякденному розумінні прогнозування - це передбачення майбутнього стану об'єкта, що цікавить нас, або явища на основі ретроспективних даних про минуле і сучасне стани за умови наявності причинно-наслідкового зв'язку між минулим і майбутнім. Можна сміливо сказати, що прогноз - це здогад, підкріплена знанням. Оскільки прогностичні оцінки насправді є наближеними, може виникнути сумнів щодо його доцільності взагалі. Тому основна вимога до будь-якого прогнозу полягає в тому, щоб у межах можливого мінімізувати похибки у відповідних оцінках. Порівняно з випадковими та інтуїтивними прогнозами, науково обґрунтовані та планомірно розроблені прогнози, без сумніву, є більш точними та ефективними. Саме такими є прогнози, що ґрунтуються на використанні методів статистичного аналізу. Можна стверджувати, що з усіх способів прогнозування саме вони вселяють найбільшу довіру, по-перше, тому що статистичні дані є надійною основою для прийняття рішень щодо майбутнього, по-друге, такі прогнози виробляються і піддаються ретельній перевірці за допомогою фундаментальних методів математичної статистики.

Оцінка параметрів лінійної регресії є прогнозом справжніх значень цих параметрів, виконаний на основі статистичних даних. Отримані прогнози, виявляються досить ефективними, оскільки є незміщеними оцінками справжніх параметрів.

Застосуємо модель лінійної регресії (8.2.4) зі знайденими параметрами (8.2.8) і (8.2.9) для визначення змінної, що пояснюється, на деяке безліч неспостережуваних значень пояснюючої змінної . Точніше кажучи, поставимо завдання прогнозування середнього значення, що відповідає деякому значенню пояснюючої змінної, яке не збігається з жодним значенням. При цьому може лежати як між вибірковими спостереженнями так і поза інтервалом. Прогноз значення може бути точковим чи інтервальним. Обмежимося розглядом точкового прогнозу, тобто. потрібне значення визначимо у вигляді

де - спостерігаються значення випадкової величини , а - коефіцієнти (ваги), які мають бути обрані те щоб був найкращим лінійним незміщеним прогнозом, тобто. щоб

З (8.5.1) для значень, що спостерігаються

Оскільки за якістю математичного очікування ((2.5.4) - (2.5.5))

,

Але оскільки у правій частині під оператором математичного очікування стоять лише постійні числа, то

Враховуючи співвідношення можемо сказати тепер, що буде незміщеним лінійним прогнозом для тоді і лише тоді, коли

Отже, кожен вектор, що задовольняє умовам (8.5.2), робить вираз (8.5.1) незміщеним лінійним прогнозом величини . Тому треба знайти конкретне вираз терезів через відомі нам величини. Для цього вирішимо задачу мінімізації дисперсії величини:

Так як під оператором дисперсії в першому доданку правої частини рівняння стоять постійні числа, то

З урахуванням припущень b) та c) та користуючись властивостями дисперсії (2.5.4) та (2.5.6), маємо:

де - середньоквадратичне відхилення випадкової величини.

Складемо оптимізаційне завдання мінімізації дисперсії з обмеженнями (8.5.2):

при обмеженнях

Оскільки множник не залежить і не впливає на мінімальне значення цільової функції, то функцію Лагранжа (див. (2.3.8)) сконструюємо наступним чином:

де і – множники Лагранжа. Необхідні умови оптимальності точки мають вигляд (див. (2.3.9)):

(8.5.3)

Підсумувавши перше рівняння по , з урахуванням другого рівняння отримаємо:

Звідси знаходимо множник Лагранжа

де - Середнє значення випадкової величини. Отримане значення знову підставимо до першого рівняння системи (8.5.3) і знайдемо

Прогнозування за моделлю множинної лінійної регресії передбачає оцінку очікуваних значень залежної змінної при заданих значеннях незалежних змінних, що входять до рівняння регресії. Розрізняють точковий та інтервальний прогнози.

Точковий прогноз – це розрахункове значення залежної змінної, отримане підстановкою рівняння множинної лінійної регресії прогнозних (заданих дослідником) значень незалежних змінних. Якщо задані значення , то прогнозне значення залежної змінної (точковий прогноз) дорівнюватиме

Інтервальний прогноз – це мінімальне та максимальне значення залежної змінної, у проміжок між

якими вона потрапляє із заданою часткою ймовірності та при заданих значеннях незалежних змінних.

Інтервальний прогноз для лінійної функції обчислюється за формулою

де t T – теоретичне значення критерію Стьюдента при df=n- - т- 1 ступенях свободи; s y – стандартна помилка прогнозу, що обчислюється за формулою

(2.57)

де Х– матриця вихідних значень незалежних змінних; Хпр – матриця-стовпець прогнозних значень незалежних змінних видів

Знайдемо прогнозні значення надходження податків (приклад 2.1) за умови, що зв'язок між показниками описується рівнянням

Задамо прогнозні значення незалежних змінних:

  • - Кількість зайнятих Xj: 500 тис. осіб;
  • - Обсяг відвантаження в обробних виробництвах х 2: 65000 млн руб.;
  • - Виробництво енергії х3: 15 000 млн руб.

Знайдемо точковий та інтервальний прогноз надходження податків.

При заданих значеннях незалежних змінних надходження податків у середньому складе

Вектор прогнозних значень незалежних змінних матиме вигляд

Помилка прогнозу, розрахована за формулою (2.57), становила 5556,7. Табличне значення t-критерію при числі ступенів свободи df = 44 та рівні значимості а = 0,05 дорівнює 2,0154. Отже, прогнозні значення надходження податків з імовірністю 0,95 будуть у межах:

від 18 013,69 - 2,0154-5556,7 = 6814,1 млн руб.;

до 18 013,69 + 2,0154-5556,7 = 29 212 млн руб.

Прогнозування за нелінійними моделями множинної регресії також можна здійснювати за формулами (2.55)-(2.57), попередньо лінеаризувавши зазначені моделі.

Мультиколлінеарність даних

При побудові економетричної моделі передбачається, що незалежні змінні впливають залежну ізольовано, т. е. вплив окремої змінної на результативний ознака пов'язані з впливом інших змінних. У реальній економічній дійсності всі явища тією чи іншою мірою пов'язані, тому досягти виконання цього припущення практично неможливо. Наявність зв'язку між незалежними змінними призводить до необхідності оцінки її впливу результати кореляційно-регресійного аналізу.

Розрізняють функціональні та стохастичні зв'язки між пояснювальними змінними. У першому випадку говорять про помилки специфікації моделі, які мають бути виправлені.

Функціональний зв'язок виникає, якщо рівняння регресії як пояснюючих змінних включають, зокрема, всі змінні, що входять у тотожність. Наприклад, можна сказати, що дохід У складається зі споживання С та інвестицій I,тобто має місце тотожність. Ми припускаємо, що відсоткові ставки г залежить від доходу, тобто. модель у загальному вигляді може бути представлена ​​у вигляді

Недосвідчений дослідник, бажаючи поліпшити модель, може включити до рівняння також змінні "споживання" та "інвестиції", що призведе до функціонального зв'язку між змінними, що пояснюють:

Функціональний взаємозв'язок стовпців матриці Xпризведе до неможливості знайти єдине рішення рівняння

регресії, оскільки , а перебування зворотної

матриці передбачає розподіл алгебраїчних доповнень матриці на її визначник, який в даний час

ном випадку дорівнюватиме нулю.

Частіше між пояснювальними змінними спостерігається стохастичний зв'язок, що призводить до зменшення

величини визначника матриці: чим сильніший зв'язок,

тим менше буде визначник. Це призводить до зростання не лише оцінок параметрів, отриманих з використанням МНК, а й їх стандартних помилок, що обчислюються за формулою (2.24):

в якій, як ми бачимо, також використовується матриця Кореляційний зв'язок може існувати як між двома перемінними ( інтеркореляція), так і між декількома (Мультиколлінеарність).

Існує кілька ознак, що вказують на наявність мультиколінеарності. Зокрема, такими ознаками є:

  • - Знаки коефіцієнтів регресії, що не відповідають економічній теорії. Наприклад, нам відомо, що пояснювальна змінна хнадає пряме вплив на пояснювану змінну у, у той же час коефіцієнт регресії при цій змінній менше нуля;
  • - Значні зміни параметрів моделі при невеликому скороченні (збільшенні) обсягу досліджуваної сукупності;
  • – незначущість параметрів регресії, обумовлена ​​високими значеннями стандартних помилок параметрів.

Існування кореляційного зв'язку між незалежними змінними може бути виявлено за допомогою показників кореляції між ними, зокрема, за допомогою парних коефіцієнтів кореляції. r XiX, які можна записати у вигляді матриці

(2.58)

Коефіцієнт кореляції змінної із собою дорівнює одиниці хх = 1), а коефіцієнт кореляції змінної*, зі змінною*, дорівнює коефіцієнту кореляції змінної XjCзмінної X, х х х х ). Отже, дана матриця є симетричною, тому в ній вказують лише головну діагональ та елементи під нею:

Високі значення парних лінійних коефіцієнтів кореляції свідчить про наявність інтеркореляції, тобто. лінійного зв'язку між двома пояснювальними змінними. Чим вище величина, тим вище інтеркореляція. Так як при побудові моделей уникнути відсутності зв'язків між пояснювальними змінними практично неможливо, існує наступна рекомендація щодо включення двох змінних в модель як пояснюють. Обидві змінні можна включити до моделі, якщо виконуються співвідношення

тобто. тіснота зв'язку результуючої та пояснюючої змінних більше, ніж тіснота зв'язку між пояснювальними змінними.

Наявність мультиколлінеарності можна підтвердити, знайшовши визначник матриці (2.58). Якщо зв'язок між незалежними змінними повністю відсутня, то недіагональні елементи дорівнюватимуть нулю, а визначник матриці – одиниці. Якщо зв'язок між незалежними змінними близька до функціональної (тобто є дуже тісною), то визначник матриці ГХГ буде близьким до нуля.

Ще один метод вимірювання мультиколлінеарності є наслідком аналізу формули стандартної помилки коефіцієнта регресії (2.28):

Як випливає з цієї формули, стандартна помилка буде тим більшою, чим менше буде величина, яку називають фактор інфляції дисперсії (абофактор здуття дисперсії ) VIF:

де - коефіцієнт детермінації, знайдений для рівняння залежності змінної Xjз інших змінних , які входять у розглянуту модель множинної регресії.

Так як величина відображає тісноту зв'язку між змінною Xjта іншими пояснювальними змінними, то вона, по суті, характеризує мультиколлінеарність стосовно цієї змінної Xj.За відсутності зв'язку показник VIF X дорівнюватиме (або близький) одиниці, посилення зв'язку веде до прагнення цього показника до нескінченності. Вважають, що якщо VIF X >3 кожної змінної *, то має місце мультиколлинеарность.

Вимірювачем мультиколлінеарності є також так званий показник (число) обумовленості матриці. Він дорівнює відношенню максимального та мінімального власних чисел цієї матриці:

Вважається, що й порядок цього співвідношення перевищує 10s–106, має місце сильна мультиколлинеарность .

Перевіримо наявність мультиколлінеарності в наведеному нами прикладі 2.1. Матриця парних коефіцієнтів кореляції має вигляд

Можна відзначити, що зв'язки між тими, що пояснюють змінними, досить тісні, особливо між змінними. Xj і х2; X] та х3, що вказує на інтеркореляцію цих змінних. Більш слабкий зв'язок спостерігається між змінними х2 та х3. Знайдемо визначник матриці г^.

Отримане значення ближче до нуля, ніж до одиниці, що вказує на наявність мультиколінеарності змінних, що пояснюють.

Перевіримо обґрунтованість включення всіх трьох незалежних змінних до моделі регресії, використовуючи правило (2.59). Парні лінійні коефіцієнти кореляції залежної та незалежних змінних рівні

Вони більші, ніж показники тісноти зв'язку між незалежними змінними, отже, правило (2.59) виконується, всі три змінні можна включити до моделі регресії.

Виміряємо ступінь мультиколлінеарності змінних за допомогою фактора інфляції дисперсії ( VIF). Для цього необхідно розрахувати коефіцієнти детермінації для регресій:

Для цього до кожної регресії необхідно застосувати МНК, оцінити її параметри та розрахувати коефіцієнт детермінації. Для нашого прикладу результати розрахунків такі:

Отже, фактор інфляції дисперсії для кожної незалежної змінної дорівнюватиме

Всі розраховані величини не перевищили критичного значення, що дорівнює трьом, отже, при побудові моделі можна знехтувати існуванням зв'язків між незалежними змінними.

Для знаходження власних чисел матриці (з метою розрахунку показника обумовленості η (2.60)) необхідно знайти рішення характеристичного рівняння

Матриця для нашого прикладу має вигляд

а матриця, модуль визначника якої потрібно прирівняти нулю, вийде такою:

Характеристичний многочлен у разі матиме четвертий ступінь, що утрудняє вирішення завдання вручну. У разі рекомендується скористатися можливостями обчислювальної техніки. Наприклад, у ППП EViewsотримані такі власні числа матриці:

Отже, показник обумовленості η дорівнюватиме

що свідчить про наявність у моделі сильної мультиколінеарності.

Методами усунення мультиколлінеарності є такі.

  • 1. Аналіз зв'язків між змінними, що включаються до моделі регресії як пояснюючі (незалежні), з метою відбору тільки тих змінних, які слабко пов'язані один з одним.
  • 2. Функціональні перетворення тісно пов'язаних між собою змінних. Наприклад, ми припускаємо, що надходження податків у містах залежить від кількості мешканців та площі міста. Очевидно, що ці змінні будуть тісно пов'язані. Їх можна замінити однією відносною змінною "щільність населення".
  • 3. Якщо з якихось причин перелік незалежних змінних не підлягає зміні, можна скористатися спеціальними методами коригування моделей з метою виключення мультиколинеарности: ридж-регресією (гребеневою регресією), методом головних компонент.

Застосування рідж-регресіїпередбачає коригування елементів головної діагоналі матриці на якусь довільну позитивну величину τ. Значення рекомендується брати від 0,1 до 0,4. М. Дрейпер, Г. Сміт у своїй роботі наводять один із способів "автоматичного" вибору величини τ, запропонований Хоерлом, Кеннардом і Белдвіном:

(2.61)

де т– кількість параметрів (без урахування вільного члена) у вихідній моделі регресії; SS e – залишкова сума квадратів, отримана за вихідною моделлю регресії без коригування на мультиколлінеарність; а- Вектор-стовпець коефіцієнтів регресії, перетворених за формулою

(2.62)

де cij- Параметр при змінній у, у вихідній моделі регресії.

Після вибору величини τ формула для оцінки параметрів регресії матиме вигляд

(2.63)

де I- одинична матриця; X,– матриця значень незалежних змінних: вихідних чи перетворених за формулою (2.64); Υ τ – вектор значень залежної змінної: вихідних чи перетворених за формулою (2.65).

(2.64)

та результативну змінну

У цьому випадку після оцінки параметрів за формулою (2.63) необхідно перейти до регресії за вихідними змінними, використовуючи співвідношення

Оцінки параметрів регресії, отримані формулою (2.63), будуть зміщеними. Однак, оскільки визначник матриці більший за визначник матриці , дисперсія оцінок параметрів регресії зменшиться, що позитивно вплине на прогнозні властивості моделі.

Розглянемо застосування рідж-регресії для прикладу 2.1. Знайдемо величину з допомогою формули (2.61). Для цього спочатку розрахуємо вектор перетворених коефіцієнтів регресії за формулою (2.62):

Добуток дорівнює 1,737-109. Отже, рекомендоване τ становитиме

Після застосування формули (2.63) та перетворень за формулою (2.66) отримаємо рівняння регресії

Застосування методу основних компонент передбачає перехід від взаємозалежних змінних х до незалежних один від одного змінних ζ, які називають головними

компонентами. Кожна головна компонента z може бути представлена ​​як лінійна комбінація центрованих (або стандартизованих) пояснюючих змінних t:.Нагадаємо, що центрування змінної передбачає віднімання з кожного і-го значення даної j-йзмінної її середнього значення:

а стандартизація (масштабування) –розподіл виразу (2.67) на середнє квадратичне відхилення, розраховане для вихідних значень змінної Xj

Оскільки незалежні змінні часто мають різний масштаб виміру, формула (2.68) вважається кращою.

Кількість компонентів може бути меншою або дорівнює кількості вихідних незалежних змінних нар.Компоненту з номером доможна записати так:

(2.69)

Можна показати, що оцінки у формулі (2.69) відповідають елементам до-го власного вектора матриці , де Т- матриця розміром, що містить стандартизовані змінні. Нумерація основних компонентів не є довільною. Перша головна компонента має максимальну дисперсію, їй відповідає максимальне власне число матриці; остання – мінімальну дисперсію та найменше власне число.

Частка дисперсії до-й компоненти у спільній дисперсії незалежних змінних розраховується за формулою

де Хдо – власне число, що відповідає даній компоненті; у знаменнику формули (2.70) наведено суму всіх власних чисел матриці .

Після розрахунку значень компонент z, будують регресію, використовуючи МНК. Залежну змінну в регресії за основними компонентами (2.71) доцільно центрувати (стандартизувати) за формулами (2.67) або (2.68).

де t y – стандартизована (центрована) залежна змінна; - Коефіцієнти регресії за основними компонентами; – головні компоненти, впорядковані щодо спадання власних чисел Хдо ; δ – випадковий залишок.

Після оцінки параметрів регресії (2.71) можна перейти до рівняння регресії у вихідних змінних, використовуючи вирази (2.67)–(2.69).

Розглянемо застосування методу основних компонент даних прикладу 2.1. Зазначимо, що матриця для стандартизованих змінних є водночас матрицею парних лінійних коефіцієнтів кореляції між незалежними змінними. Вона вже була розрахована і рівна

Знайдемо власні числа та власні вектори цієї матриці, використовуючи ППП Eviews.Отримаємо такі результати.

Власні числа матриці:

Частка дисперсії незалежних змінних, яка відображається компонентами, склала

Об'єднаємо власні вектори матриці, записавши їх як стовпці наведеної нижче матриці F.Вони впорядковані за зменшенням своїх чисел, тобто. перший стовпець є власним вектором максимального власного числа і т.д.

Отже, три компоненти (відповідні трьом власним векторам) можна записати як

Після стандартизації вихідних змінних за формулою (2.68) та розрахунку значень компонент (за n значень кожної компоненти) за допомогою МНК знайдемо параметри рівняння (2.71):

У отриманому рівнянні регресії значущий лише параметр за першої компоненти. Це закономірний результат з урахуванням того, що цей компонент описує 70,8% варіації незалежних змінних. Оскільки компоненти незалежні, за винятком з моделі одних компонент параметри рівняння інших компонентах не змінюються. Таким чином, маємо рівняння регресії з одним компонентом:

Перетворимо отриманий вираз у регресію з вихідними змінними

Таким чином, використовуючи метод головних компонентів, ми отримали рівняння регресії

Усунення мультиколлінеарності за допомогою рідж-регресії та методу головних компонентів призвело до певної зміни параметрів вихідної регресії, що мала вигляд

Зазначимо, що ці зміни були відносно невеликими, що вказує на невисокий ступінь мультиколінеарності.

  • наприклад, Вучков І., Бояджієва Л., Солаков Є.Прикладний регресійний аналіз: пров. з болг. M.: Фінанси та статистика, 1987. С. 110.
  • Дрейпер Н., Сміт Р.Указ. тв. С. 514.
Поділіться з друзями або збережіть для себе:

Завантаження...