Специфікація моделей множинної регресії. Модель множинної регресії

У попередніх розділах було згадано про те, що навряд чи обрана незалежна змінна є єдиним фактором, який вплине на залежну змінну. У більшості випадків ми можемо ідентифікувати більше одного фактора, здатного якимось чином впливати на залежну змінну. Так, наприклад, розумно припустити, що витрати цеху будуть визначатися кількістю відпрацьованого годинника, використаної сировини, кількістю виробленої продукції. Очевидно, потрібно використовувати всі чинники, які ми перерахували у тому, щоб передбачити витрати цеху. Ми можемо зібрати дані про витрати, відпрацьований час, використану сировину і т.д. за тиждень або за місяць Але ми не зможемо дослідити природу зв'язку між витратами та іншими змінними за допомогою кореляційної діаграми. Почнемо з припущень про лінійний зв'язок, і тільки якщо це припущення буде неприйнятним, спробуємо використати нелінійну модель. Лінійна модель для множинної регресії:

Варіація у пояснюється варіацією всіх незалежних змінних, які в ідеалі мають бути незалежними один від одного. Наприклад, якщо ми вирішимо використовувати п'ять незалежних змінних, модель буде наступною:

Як і у разі простої лінійної регресії ми отримуємо за вибіркою оцінки тощо. Найкраща лініядля вибірки:

Коефіцієнт а та коефіцієнти регресії обчислюються за допомогою мінімальності суми квадратів помилок Для подальшої регресійної моделі використовують наступні припущення про помилку будь-якого даного

2. Дисперсія дорівнює і однакова всім х.

3. Помилки незалежні одна від одної.

Ці припущення ті самі, що у разі простої регресії. Однак у разі вони ведуть до дуже складних обчислень. На щастя, виконує обчислення, дозволяючи нам зосередитися на інтерпретації та оцінці торної моделі. У наступному розділі ми визначимо кроки, які необхідно зробити у разі множинної регресії, але в будь-якому випадку ми покладаємося на комп'ютер.

КРОК 1. ПІДГОТОВКА ВИХІДНИХ ДАНИХ

Перший крок зазвичай передбачає обміркувати, як залежна змінна бути пов'язана з кожною з незалежних змінних. Немає сенсу змінні х, якщо вони не дають можливість пояснення варіа Згадаємо, що наше завдання полягає в пояснити варіацію зміни незалежною зміною х. Нам необхідно розрахувати коефіцієнт кореляції для всіх пар змінних за умови незалежності наблк один від одного. Це дасть нам можливість визначити, пов'язані з у лінією! а ні, чи незалежні між собою. Це важливо в множинні регр. Ми можемо обчислити кожен з коефіцієнтів кореляції, як поки: розділ 8.5, щоб подивитися, наскільки їх значення відмінні від нуля потрібно з'ясувати, чи немає високої кореляції між значеннями незамінних змінних. Якщо ми виявимо високу кореляцію, наприклад, між х то малоймовірно, що обидві ці змінні повинні бути включені в оконч модель.

КРОК 2. ВИЗНАЧЕННЯ ВСІХ СТАТИСТИЧНО ЗНАЧИМИ МОДЕЛІВ

Ми можемо досліджувати лінійний зв'язок між у та будь-якою комбінацією змінних. Але модель має силу тільки в тому випадку, якщо значущий лінійний зв'язок між у і всіма х і якщо кожен коефіцієнт регресії значуще відмінний від нуля.

Ми можемо оцінити значущість моделі в цілому, використовуючи того, ми повинні використовувати критерій для кожного коефіцієнта регр щоб визначити, чи значуще він відрізняється від нуля. Якщо коефіцієнт ці не значно відрізняється від нуля, то відповідна незалежна зміна не допомагає в прогнозі значення у і модель не має сили.

Повна процедура полягає в тому, щоб встановити множинну регресійну модель для всіх комбінацій незалежних змін. Оцінимо кожну модель, використовуючи F-критерій для моделі в цілому та -крі для кожного коефіцієнта регресії. Якщо F-критерій або будь-який з-кря! незначні, то ця модель не має сили і не може бути використана.

моделі виключаються із розгляду. Цей процес займає багато часу. Наприклад, якщо у нас є п'ять незалежних змінних, то можлива побудова 31 моделі: одна модель з усіма п'ятьма змінними, п'ять моделей, що включають чотири з п'яти змінних, десять - з трьома змінними, десять - з двома змінними та п'ять моделей з однієї.

Можна отримати множинну регресію не виключаючи послідовно незалежні змінні, а розширюючи їхнє коло. У цьому випадку ми починаємо з побудови простих регресійдля кожної із незалежних змінних по черзі. Ми вибираємо найкращу із цих регресій, тобто. з найвищим коефіцієнтом кореляції, потім додаємо до цього, найбільш прийнятного значення змінної у другу змінну. Цей метод побудови множинної регресії називається прямим.

Зворотний метод починається з дослідження моделі, що включає усі незалежні змінні; у наведеному нижче прикладі їх п'ять. Змінна, яка дає найменший внесок у загальну модель, виключається з розгляду, залишається лише чотири змінні. Для цих чотирьох змінних визначається лінійна модель. Якщо ж ця модель не вірна, виключається ще одна змінна, що дає найменший внесок, залишається три змінні. І цей процес повторюється із наступними змінними. Щоразу, коли виключається нова змінна, потрібно перевіряти, щоб значну змінну не видалено. Всі ці події необхідно робити з великою увагою, оскільки можна необережно виключити необхідну, значиму модель з розгляду.

Не важливо, який саме метод використовується, можливо кілька значущих моделей і кожна з них може мати величезне значення.

КРОК 3. ВИБІР НАЙКРАЩОЇ МОДЕЛІ З ВСІХ ЗНАЧИМИ МОДЕЛЕЙ

Ця процедура може бути розглянута за допомогою прикладу, в якому визначилися три найважливіші моделі. Спочатку було п'ять незалежних змінних, але три з них - виключені з усіх моделей. Ці змінні не допомагають у прогнозуванні в.

Тому значущими моделями виявились:

Модель 1: у прогнозується тільки

Модель 2: у прогнозується тільки

Модель 3: прогнозується разом.

Для того, щоб зробити вибір із цих моделей, перевіримо значення коефіцієнта кореляції та стандартного відхиленнязалишків Коефіцієнт множинної кореляції- є відношення "поясненої" варіації у загальної варіації у і обчислюється так само, як і коефіцієнт парної кореляції для простої регресії при двох змінних. Модель, яка описує зв'язок між у та кількома значеннями х, має множинний коефіцієнткореляції котрий є близьким до та значення дуже мало. Коефіцієнт детермінації який часто пропонується в ППП, описує відсоток змінності у, яка обмінюється моделлю. Модель має значення у тому випадку, коли близько до 100%.

У даному прикладі ми просто вибираємо модель з найбільшим значеннямі найменшим значеннямПереважною моделлю виявилася модель наступного кроку необхідно порівняти моделі 1 і 3. Відмінність між цими моделями полягає у включенні змінної в модель 3. Питання в тому чи підвищує значно точність передбачення значення у чи ні! Наступний критерій допоможе відповісти на це питання - це приватний F-критерій. Розглянемо приклад, що ілюструє всю процедуру побудови множинної регресії.

Приклад 8.2. Керівництво великої шоколадної фабрики зацікавлене у побудові моделі для того, щоб передбачити реалізацію однієї зі своїх торгових марок, що вже довго існують. Були зібрані такі дані.

Таблиця 8.5. Побудова моделі для прогнозу обсягу реалізації (див. скан)

Для того, щоб модель була корисною і мала силу, ми повинні відкинути Але і прийняти значення F-критерію є співвідношення двох величин, описаних вище:

Цей критерій з одним хвостом (односторонній), тому що середній квадрат, обумовлений регресією, має бути більшим, щоб ми могли прийняти . У попередніх розділах, коли ми використовували F-критерій, критерії були двосторонні, оскільки на чільне місце ставилося більше значення варіації, хоч би яким воно було. У регресійному аналізі немає вибору - нагорі (у чисельнику) завжди варіація у регресії. Якщо вона менша, ніж варіація по залишковій величині, ми приймаємо Але, оскільки модель не пояснює змін. Це значення F-критерію порівнюється з табличним:

З таблиць стандартного розподілу F-критерію:

У прикладі значення критерію:

Тому ми отримали результат із високою достовірністю.

Перевіримо кожне із значень коефіцієнтів регресії. Припустимо, що комп'ютер порахував всі необхідні критерії. Для першого коефіцієнта гіпотези формулюються так:

Час допомагає пояснити зміна продажів за умови, інші змінні присутні у моделі, тобто.

Час дає істотний внесок і має бути включено до моделі, тобто.

Проведемо випробування гіпотези на рівні, користуючись двостороннім критерієм при:

Граничні значення цьому рівні:

Значення критерію:

Розраховані значення -критерію повинні лежати поза вказаними межами для того, щоб ми змогли відкинути гіпотезу

Рис. 8.20. Розподіл залишків для моделі із двома змінними

Виявилося вісім помилок із відхиленнями 10% або більше від фактичного обсягу продажу. Найбільша з них – 27%. Чи буде розмір помилки прийнятий компанією під час планування діяльності? Відповідь це питання залежатиме від ступеня надійності інших методів.

8.7. Нелінійні зв'язки

Повернемося до ситуації, коли в нас лише дві змінні, але зв'язок між ними нелінійний. Насправді багато зв'язків між змінними є криволінійними. Наприклад, зв'язок може бути виражений рівнянням:

Якщо зв'язок між змінними сильний, тобто. відхилення від криволінійної моделі відносно невелике, ми зможемо здогадатися про природу найкращої моделі по діаграмі (полю кореляції). Однак важко застосувати нелінійну модель до вибіркової сукупності. Було б легше, якби ми могли маніпулювати нелінійною моделлю у лінійній формі. У перших двох записаних моделях функцій можуть бути присвоєні різні імена, і тоді використовуватиметься множинна модельрегресії. Наприклад, якщо модель:

найкраще описує зв'язок між у них, то перепишемо нашу модель, використовуючи незалежні змінні

Ці змінні розглядаються як звичайні незалежні змінні, навіть якщо ми знаємо, що їх не можуть бути незалежними один від одного. Найкраща модель вибирається так само, як і в попередньому розділі.

Третя та четверта моделі розглядаються по-іншому. Тут ми вже зустрічаємось із необхідністю так званої лінійної трансформації. Наприклад, якщо зв'язок

то на графіку це буде зображено кривою лінією. всі необхідні діїможуть бути представлені наступним чином:

Таблиця 8.10. Розрахунок

Рис. 8.21. Нелінійний зв'язок

Лінійна модель, при трансформованому зв'язку:

Рис. 8.22. Лінійна трансформація зв'язку

Загалом, якщо вихідна діаграма показує, що зв'язок може бути зображена у формі: то уявлення проти X, де визначить пряму лінію. Скористайтеся простою лінійною регресією для встановлення моделі: Розраховані значення а і - найкращі значенняа та (5.

Четверта модель, наведена вище, включає трансформацію з використанням натурального логарифму:

Взявши логарифми по обидва боки рівняння, отримаємо:

тому: де

Якщо , то рівняння лінійного зв'язку між Y і х. Нехай - зв'язок між у і х, тоді ми повинні трансформувати кожне значення у взяттям логарифму по е. Визначаємо просту лінійну регресію по х для того, щоб знайти значення А та Антилогарифм записано нижче.

Таким чином, метод лінійної регресії може бути застосований до нелінійних зв'язків. Однак у цьому випадку потрібно перетворення алгебри при записі вихідної моделі.

Приклад 8.3. Наступна таблиця містить дані про загальний річний обсяг виробництва промислової продукції у певній країні за період

Парна регресія використовується при моделюванні, якщо вплив інших факторів, що впливають на об'єкт дослідження можна знехтувати.

Наприклад, при побудові моделі споживання того чи іншого товару від доходу, дослідник припускає, що в кожній групі доходу однаково впливає на споживання таких факторів, як ціна товару, розмір сім'ї, її склад. Проте, впевненості у справедливості цього твердження немає.

Прямий шлях розв'язання такого завдання полягає у відборі одиниць сукупності з однаковими значеннями всіх інших факторів, крім доходу. Він призводить до планування експерименту - метод, який використовується в природничих дослідженнях. Економіст не має змоги регулювати інші фактори. Поведінка окремих економічних змінних контролювати не можна, тобто. не вдається забезпечити рівність інших умов оцінки впливу одного досліджуваного чинника.

Як вчинити у цьому випадку? Треба виявити вплив інших чинників, запровадивши в модель, тобто. побудувати рівняння множинної регресії.

Такі рівняння використовується щодо споживання.

Коефіцієнти b j - приватні похідні у факторами х i

За умови, що решта х i = const

Розглянемо сучасну споживчу функцію (вперше 30е роки запропонував Кейнс Дж.М.) як модель виду С = f(y,P,M,Z)

c-споживання. у – дохід

P - ціна, індекс вартості.

M – готівка

Z – ліквідні активи

При цьому

Множинна регресія широко використовується у вирішенні проблем попиту, дохідності акцій, щодо функцій витрат виробництва, в макроекономічних питаннях та інших питаннях економетрики.

В даний час множинна регресія - один з найпоширеніших методів в економетриці.

Основна мета множинної регресії– побудувати модель з більшим числомфакторів, визначивши при цьому вплив кожного з них окремо, а також сукупний вплив на показник, що моделюється.

Побудова рівняння множинної регресії починається з вирішення питання специфікації моделі. Вона включає два кола питань:

1. Відбір факторів;

2. Вибір рівняння регресії.

Включення в рівняння множинної регресії того чи іншого набору факторів пов'язане з уявленням дослідника про природу взаємозв'язку показника, що моделюється, з іншими економічними явищами. Вимоги до факторів, що включаються до множинної регресії:

1. вони повинні бути кількісно вимірні, якщо необхідно включити в модель якісний фактор, що не має кількісного виміру, то йому потрібно надати кількісну визначеність (наприклад, у моделі врожайності якість ґрунту задається у вигляді балів; у моделі вартості об'єктів нерухомості: райони мають бути проранжовані ).

2. фактори не повинні бути інтеркорельовані і тим більше перебувати у точному функціональному зв'язку.

Включення в модель факторів з високою інтеркореляцією, коли R у x 1

Якщо між факторами існує висока кореляція, то не можна визначити їхній ізольований вплив на результативний показник і параметри рівняння регресії виявляються інтерпретованими.

У рівняння передбачається, що фактори х 1 і х 2 незалежні один від одного, r х1х2 = 0, тоді параметр b 1 вимірює силу впливу фактора х 1 на результат при незмінному значенні фактора х 2 . Якщо r х1х2 = 1, то зі зміною фактора х1 фактор х2 не може залишатися незмінним. Звідси b 1 і b 2 не можна інтерпретувати як показники роздільного впливу х 1 і х 2 і у.

Приклад, розглянемо регресію собівартості одиниці виробленої продукції у (крб.) від зарплати працівника x (крб.) і продуктивність праці z (од. на годину).

у = 22600 - 5x - 10z + e

Коефіцієнт b 2 = -10, показує, що зі зростанням продуктивності праці на 1 од. собівартість одиниці виробленої продукції знижується на 10 крб. за постійного рівня оплати.

Разом про те параметр при їх не можна інтерпретувати як зниження собівартості одиниці виробленої продукції з допомогою зростання зарплати. Негативне значення коефіцієнта регресії при змінній х обумовлено високою кореляцією між х та z (r х z = 0,95). Тому зростання заробітної плати за незмінності продуктивності праці (не враховуючи інфляції) бути не може.

Включені до множинної регресії фактори повинні пояснити варіацію незалежної змінної. Якщо будуватися модель з набором р факторів, то для неї розраховується показник детермінації R 2 яка фіксує частку поясненої варіації результативної ознаки за рахунок аналізованих в регресії р факторів. Вплив інших неврахованих у моделі факторів оцінюється як 1-R 2 c відповідною залишковою дисперсією S 2 .

При додатковому включенні до регресії р+1 фактора коефіцієнт детермінації має зростати, а залишкова дисперсія зменшується.

R 2 p +1 ≥ R 2 p і S 2 p +1 ≤ S 2 p.

Якщо ж цього не відбувається і дані показники мало відрізняються один від одного, то включений в аналіз фактор x р +1 не покращує модель і практично є зайвим фактором.

Якщо для регресії, що включає 5 факторів R 2 = 0,857, і включений 6 дало R 2 = 0,858, недоцільно включати в модель цей фактор.

Насичення моделі зайвими чинниками як знижує величину залишкової дисперсії і збільшує показник детермінації, а й призводить до статистичної не значущості параметрів регресії за критерієм t-Стьюдента.

Таким чином, хоча теоретично регресійна модель дозволяє врахувати будь-яку кількість факторів, практично в цьому немає потреби.

Відбір факторів здійснюватиметься на основі теоретико-економічного аналізу. Однак він часто не дозволяє однозначно відповісти на питання про кількісний взаємозв'язок аналізованих ознак і доцільність включення фактора в модель. Тому відбір факторів здійснюється у дві стадії:

на першій – підбирають чинники, з сутності проблеми.

другий – з урахуванням матриці показників кореляції визначають t-статистики для параметрів регресії.

Коефіцієнти інтеркореліції (тобто кореляція між пояснювальними змінними) дозволяють виключити з моделей дублюючі фактори. Вважається, що дві змінні явно колінеарні, тобто. знаходяться між собою у лінійній залежності, якщо r xixj ≥0,7.

Оскільки однією з умов побудови рівняння множинної регресії є незалежність впливу чинників, тобто. r х ixj = 0, колінеарність факторів порушує цю умову. Якщо фактори явно колінеарні, то вони дублюють один одного і один із них рекомендується виключити з регресії. Перевага при цьому надається не фактору, більш тісно пов'язаному з результатом, а тому фактору, який за досить тісного зв'язку з результатом має найменшу тісноту зв'язку з іншими факторами. У цьому вся вимогі проявляється специфіка множинної регресії як методу дослідження комплексного впливу чинників за умов їх незалежності друг від друга.

Розглянемо матрицю парних коефіцієнтів кореляції щодо залежності у = f(x, z, v)

y x z V
Y
X 0,8
Z 0,7 0,8
V 0,6 0,5 0,2

Очевидно, фактори x та z дублюють один одного. В аналіз доцільно включить фактор z, а не х, так як кореляція z з слабше ніж кореляція фактора х с у (r у z< r ух), но зато слабее межфакторная корреляция (r zv < r х v)

Тому в даному випадку рівняння множинної регресії включає фактори z і v. За величиною парних коефіцієнтів кореляції виявляється лише явна колінеарність факторів. Але найбільше труднощі виникають за наявності мультиколлінеарності факторів, коли більш ніж два фактори пов'язані між собою лінійною залежністю, тобто. має місце сукупний вплив чинників друг на друга. Наявність мультиколлінеарності факторів може означати, що деякі фактори завжди діятимуть в унісон. В результаті варіація у вихідних даних перестає бути повністю незалежною, і не можна оцінити вплив кожного фактора окремо. Чим сильніша мультиколлінеарність факторів, тим менш надійна оцінка розподілу суми поясненої варіації за окремими факторами за допомогою МНК. Якщо розглянута регресія у = a + bx + cx + dv + e, то розрахунку параметрів, застосовується МНК:

S y = S факт +S e

або
=
+

загальна сума = факторна + залишкова

Квадратів відхилень

У свою чергу, за незалежності факторів один від одного, здійснимо рівність:

S = S x + S z + S v

Суми квадратів відхилення обумовлені впливом відповідних факторів.

Якщо ж фактори інтеркорельовані, то ця рівність порушується.

Включення в модель мультиколінеарних факторів небажано в силу:

· Утрудняється інтерпретація параметрів множинної регресії як характеристик дії факторів у «чистому» вигляді, бо фактори корельовані; параметри лінійної регресії втрачають економічний зміст;

· Оцінки параметрів ненадійні, виявляють великі стандартні помилки і змінюються зі зміною обсягу спостережень (не тільки за величиною, але і за знаком), що робить модель непридатною для аналізу та прогнозування.

Для оцінки мультиколлінеарних факторів використовуватимемо визначник матриці парних коефіцієнтів кореляції між факторами. Якби фактори не корелювали між собою, то матриця парних коефіцієнтів була б поодинокою.

y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + e

Якщо між чинниками існує повна лінійна залежність, то:

Чим ближче до 0 визначник, тим сильніша міжколінеарність факторів і ненадійні результати множинної регресії. Чим ближче до 1, тим менша мультиколінеарність факторів.

Оцінка значимості мультиколлінеарності факторів може бути проведена методами випробування гіпотези 0 незалежності змінних H 0:

Доведено, що величина
має наближений розподіл з ступенями свободи. Якщо власне значення перевищує табличне (критичне) то гіпотеза H0 відхиляється. Це означає, що , недіагональні коефіцієнти вказують на колінеарність факторів Мультиколлінеарність вважається доведеною.

Через коефіцієнти множинної детермінаціїможна знайти змінні, відповідальні за мультиколінеарність факторів. Для цього як залежна змінна розглядається кожен з факторів. Чим ближче значення R 2 до 1, тим більше проявляється мультиколлінеарність. Порівнюючи між собою коефіцієнти множинної детермінації і т.п.

Можна виділити змінні, відповідальні за мультиколлінеарність, отже, вирішити проблему відбору факторів, залишаючи рівняння фактори з мінімальною величиною коефіцієнта множинної детермінації.

Існує низка походів подолання сильної міжфакторної кореляції. Найпростіший шлях усунення МК полягає у виключенні з моделі одного або кількох факторів.

Інший підхід пов'язані з перетворенням чинників, у якому зменшується кореляція з-поміж них.

Якщо y = f(x 1 , x 2 , x 3), то можлива побудова наступного суміщеного рівняння:

у = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 12 x 1 x 2 + b 13 x 1 x 3 + b 23 x 2 x 3 + e.

Це рівняння включає взаємодію першого порядку (взаємодія двох факторів).

Можливе включення в рівняння взаємодій та вищого порядку, якщо буде доведено їх статистично значущість за F-критерієм

b 123 x 1 x 2 х 3 – взаємодія другого порядку.

Якщо аналіз суміщеного рівняння показав значущість лише взаємодії факторів х 1 і х 3 , то рівняння має вигляд:

у = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 13 x 1 x 3 + e.

Взаємодія факторів х 1 і х 3 означає, що на різних рівнях фактора х 3 вплив фактора х 1 на у буде неоднаково, тобто. воно залежить від значення фактора х3. На рис. 3.1 взаємодія факторів є непаралельними лініями зв'язку з результатом у. І навпаки, паралельні лінії вплив фактора х 1 на у різних рівнях фактора х 3 означають відсутність взаємодії факторів х 1 і х 3 .

(Х 3 = В 2)
(х 3 = 1)
(х 3 = 1)
(Х 3 = В 2)
у
у
1
х 1
а
б
у
у
Х 1
Х 1

Рис. 3.1. Графічні ілюстрації взаємодії факторів.

а- х 1 впливає на у, причому цей вплив однаково при х 3 = 1 , так і при х 3 = 2 (однаковий нахил ліній регресії), що означає відсутність взаємодії факторів х 1 і х 3;

б- Зі зростанням х 1 результативний ознака у зростає при х 3 = В 1, зі зростанням х 1 результативний ознака у знижується при х 3 = В 2 . Між х 1 та х 3 існує взаємодія.

Поєднані рівняння регресії будуються, наприклад, щодо ефекту впливу врожайність різних видів добрив (комбінації азоту і фосфору).

Вирішенню проблеми усунення мультиколлінеарності факторів може допомогти і перехід до усунення наведеної форми. З цією метою в рівняння регресії проводиться підстановка фактора, що розглядається, через вираження його з іншого рівняння.

Нехай, наприклад, розглядається двофакторна регресія виду a + b 1 x 1 + b 2 x 2 для якої x 1 і x 2 виявляють високу кореляцію. Якщо виключити один із факторів, то ми прийдемо до рівняння парної регресії. Разом з тим, можна залишити фактори в моделі, але досліджувати дане двофакторне рівняння регресії спільно з іншим рівнянням, в якому фактор (наприклад х 2) розглядається як залежна змінна. Припустимо, відомо, що . Постановляючи це рівняння шукане замість х 2 , отримаємо:

Якщо , то розділивши обидві частини рівності на , отримуємо рівняння виду:

,

яке являє собою наведену форму рівняння для визначення результативної ознаки у. Це рівняння може бути подане у вигляді:

До нього з метою оцінки параметрів може бути застосований МНК.

Відбір чинників, які входять у регресію, одна із найважливіших етапів практичного використання методів регресії. Походи до відбору чинників з урахуванням показників кореляції може бути різні. Вони наводять побудову рівняння множинної регресії відповідно до різних методик. Залежно від цього, яка методика побудова рівняння регресії прийнята, змінюється алгоритм її розв'язання на ЕОМ.

Найбільш широке застосування набули наступні методи побудови рівняння множинної регресії:

· Метод виключення;

· Метод включення;

· кроковий регресійний аналіз.

Кожен із цих методів по-своєму вирішує проблему відбору чинників, даючи загалом близькі результати – відсів чинників з його відбору (метод виняток), додаткове запровадження чинника (метод включення), виняток раніше введеного чинника (кроковий регресійний аналіз).

На погляд може здатися, що матриця парних коефіцієнтів кореляції грає головну роль відборі чинників. Разом про те внаслідок взаємодії чинників парні коефіцієнти кореляції що неспроможні повною мірою вирішувати питання доцільності включення до моделі тієї чи іншої чинника. Цю роль виконують показники приватної кореляції, що оцінюють у чистому вигляді тісноту зв'язку фактора з результатом. Матриця окремих коефіцієнтів кореляції найбільш широко використовується процедура відсіву фактора. При відборі факторів рекомендується користуватися наступним правилом: число факторів, що включаються зазвичай у 6-7 разів менше обсягу сукупності, за якою будує регресії. Якщо це ставлення порушено, то кількість ступенів свободи залишкової варіацій дуже мала. Це призводить до того, що параметри рівняння регресії виявляються статистично незначними, а F-критерій менше табличного значення.

Класична лінійна модель множинної регресії (КЛММР):

де y - Регрессанд; x i – регресори; u – випадкова складова.

Модель множинної регресії є узагальненням моделі парної регресії на багатовимірний випадок.

Незалежні змінні (х) мають на увазі не випадкові (детерміновані) величини.

Змінна х 1 = х 1 = 1 називається допоміжною змінною для вільного члена і ще в рівняннях вона називається параметром зрушення.

«y» і «u» (2) є реалізаціями випадкової величини.

Називається також параметром зсуву.

Для статистичної оцінки параметрів регресійної моделі необхідний набір (безліч) даних спостережень незалежних та залежних змінних. Дані можуть бути представлені у вигляді просторових даних або тимчасових рядів спостережень. Для кожного з таких спостережень згідно з лінійною моделлю можна записати:

Векторно-матричне записування системи (3).

Введемо такі позначення:

вектор-стовпець незалежної змінної (регресанда)

розмірність матриці (n·1)

Матриця спостережень незалежних змінних (регресорів):

розмір (n×k)

Векторні стовпець параметрів:

- матричний запис системи рівнянь (3). Вона простіше і компактніше.

Сформуємо передумови, які необхідні для виведення рівняння для оцінок параметрів моделі, вивчення їх властивостей та тестування якості моделі. Ці причини узагальнюють і доповнюють причини класичної моделі парної лінійної регресії (умови Гауса – Маркова).

Передумова 1.незалежні змінні не випадкові і вимірюються без помилок. Це означає, що матриця спостережень Х – детермінована.

Передумова 2. (перша умова Гауса – Маркова):Математичне очікування випадкової складової у кожному спостереженні дорівнює нулю.

Передумова 3. (Друга умова Гауса – Маркова):теоретична дисперсія випадкової складової однакова всім спостережень.

(Це гомоскедастичність)

Передумова 4. (третя умова Гауса – Маркова):випадкові складові моделі не кореловані для різних спостережень. Це означає, що теоретична коваріація

Передумови (3) та (4) зручно записати, використовуючи векторні позначення:

матриця – симетрична матриця. - Поодинока матриця розмірності n, верхній індекс Т - транспонування.

Матриця називається теоретичною матрицею підступів (або підступної матрицею).

Передумова 5. (четверте умова Гауса – Маркова):випадкова складова і пояснюють змінні не корелированны (для моделі нормальної регресії ця умова означає і незалежність). У припущенні, що пояснюють змінні не випадкові, ця передумова класичної регресійної моделі завжди виконується.

Передумова 6. Коефіцієнти регресії - постійні величини.

Передумова 7. рівняння регресії ідентифіковано. Це означає, що параметри рівняння в принципі оцінюються, або розв'язання задачі оцінювання параметрів існує і єдино.

Передумова 8. регресори не колінеарні. У такому разі матриця спостережень регресорів має бути повного рангу. (її стовпці мають бути лінійно незалежні). Ця передумова тісно пов'язана з попередньою, оскільки при застосуванні для оцінювання коефіцієнтів МНК її виконання гарантує ідентифікованість моделі (якщо кількість спостережень більша за кількість оцінюваних параметрів).

Передумова 9.Кількість спостережень більше від кількості оцінюваних параметрів, тобто. n>k.

Всі ці 1-9 причини однаково важливі, і тільки при їх виконанні можна використовувати класичну регресійну модель на практиці.

Передумова нормальності випадкової складової. При побудові довірчих інтервалівдля коефіцієнтів моделі та прогнозів залежної змінної, перевірки статистичних гіпотезщодо коефіцієнтів, розроблення процедур для аналізу адекватності (якості) моделі в цілому необхідне припущення про нормальному розподілівипадковою складовою. З урахуванням цієї передумови модель (1) називається класичною багатовимірною лінійною моделлю регресії.

Якщо передумови не виконуються, необхідно будувати звані узагальнені моделі лінійної регресії. Від того, наскільки коректно (правильно) та усвідомлено використовуються можливості регресійного аналізу, залежить успіх економетричного моделювання, і, зрештою, обґрунтованість прийнятих рішень.

Для побудови рівняння множинної регресії найчастіше використовуються наступні функції

1. лінійна: .

2. статечна: .

3. Експонентна: .

4. гіпербола:

Через чітку інтерпретацію параметрів найбільш широко використовуються лінійна і статечна функції. У лінійній множинні регресії параметри при Х називаються коефіцієнтами «чистої» регресії. Вони характеризують середнє зміна результату із зміною відповідного чинника на одиницю при постійному значенні інших чинників, закріплених середньому рівні.

приклад. Припустимо, залежність витрат за продукти харчування за сукупністю сімей характеризується наступним рівнянням:

де у - Витрати сім'ї за місяць на продукти харчування, тис.руб.;

х 1 – місячний дохід однієї члена сім'ї, тыс.руб.;

х 2 – розмір сім'ї, людина.

Аналіз цього рівняння дозволяє зробити висновки – зі зростанням доходу однієї члена сім'ї на 1 тис. крб. Витрати харчування зростуть у середньому 350 крб. при тому ж розмірі сім'ї. Інакше кажучи, 35% додаткових сімейних витрат витрачається харчування. Збільшення розміру сім'ї за тих же її доходах передбачає додаткове зростання витрат харчування на 730 крб. Параметр а – не має економічної інтерпретації.

При вивченні питань споживання коефіцієнти регресії розглядають як характеристики граничної схильності до споживання. Наприклад, якщо функції споживання t має вигляд:

t = a+b 0 R t + b 1 R t -1 +e,

то споживання в період часу t залежить від доходу того ж періоду Rt і від доходу попереднього періоду Rt-1. Відповідно коефіцієнт b0 зазвичай називають короткостроковою граничною схильністю до споживання. Загальним ефектом зростання як поточного, і попереднього доходу буде зростання споживання на b= b 0 + b 1 . Коефіцієнт b розглядається тут як довгострокова схильність до споживання. Оскільки коефіцієнти b 0 і b 1 >0, довгострокова схильність до споживання повинна перевищувати короткострокову b 0 . Наприклад, у період 1905 – 1951 гг. (за винятком військових років) М.Фрідман побудував для США наступну функцію споживання: Сt = 53+0,58 Rt +0,32Rt-1 з короткостроковою граничною схильністю до споживання 0,58 та з довгостроковою схильністю до споживання 0 ,9.

Функція споживання можна розглядати також залежно від минулих навичок споживання, тобто. від попереднього рівня споживання

t-1: t = a+b 0 R t +b 1 t-1 +e,

У цьому рівнянні параметр b0 також характеризує короткострокову граничну схильність до споживання, тобто. вплив на споживання одиничного зростання доходів того ж періоду Rt. Довгострокову граничну схильність до споживання тут вимірює вираз b0/(1-b1).

Так, якщо рівняння регресії становило:

t = 23,4 +0,46 R t +0,20 t -1 +e,

то короткострокова схильність до споживання дорівнює 0,46, а довгострокова – 0,575 (0,46/0,8).

У статечної функції
Коефіцієнти b j є коефіцієнтами еластичності. Вони показують, скільки відсотків змінюється у середньому результат із зміною відповідного чинника на 1% при незмінності дії інших чинників. Цей вид рівняння регресії набув найбільшого поширення у виробничих функціях, у дослідженнях попиту та споживання.

Припустимо, що з дослідженні попиту м'ясо отримано рівняння:

де у – кількість запитуваного м'яса; х 1 – його вартість; х 2 – дохід.

Отже зростання цін на 1% при тому ж доході викликає зниження попиту на м'ясо в середньому на 2.63%. Збільшення доходу на 1% зумовлює за постійних цін зростання попиту на 1.11%.

У виробничих функціях виду:

де P – кількість продукту, що виготовляється за допомогою m виробничих факторів(F1, F2, ……Fm).

b – параметр, що є еластичністю кількості продукції стосовно кількості відповідних факторів виробництва.

Економічний сенсмають як коефіцієнти b кожного чинника, а й їх сума, тобто. сума еластичностей: В = b 1 + b 2 + ... ... + b m. Ця величина фіксує узагальнену характеристику еластичності виробництва. Виробнича функціямає вигляд

де Р – випускати продукцію; F 1 - вартість основних виробничих фондів; F 2 - відпрацьовано людино-днів; F 3 – Витрати виробництво.

Еластичність випуску з окремих чинників виробництва становить середньому 0,3% зі зростанням F 1 на 1% при постійному рівні інших чинників; 0,2% - зі зростанням F 2 на 1% також за незмінності інших факторів виробництва та 0,5% зі зростанням F 3 на 1% при незмінному рівні факторів F 1 і F 2 . Для цього рівняння У = b 1 +b 2 +b 3 = 1. Отже, загалом із зростанням кожного чинника виробництва, на 1% коефіцієнт еластичності випуску продукції становить 1%, тобто. випуск продукції збільшується на 1%, що у мікроекономіці відповідає постійної віддачі масштаб.

При практичних розрахунках не завжди . Вона може бути як більше, так і менше 1. У цьому випадку величина фіксує наближену оцінку еластичності випуску зі зростанням кожного фактора виробництва на 1% в умовах збільшується (В> 1) або зменшується (В<1) отдачи на масштаб.

Так, якщо
, то зі зростанням значень кожного фактора виробництва на 1% випуск продукції загалом зростає приблизно на 1.2%.

При оцінці параметрів моделі за МНК мірою (критерієм) кількості припасування емпіричної регресійної моделі до вибірки, що спостерігається, служить сума квадратів помилок (залишків).

Де е = (e1, e2, ... e n) T ;

Для рівняння застосували рівність: .

Скалярна функція;

Система нормальних рівнянь (1) містить k лінійних рівнянь щодо k невідомих i = 1,2,3……k

= (2)

Перемноживши (2) отримаємо розгорнуту форму запису систем нормальних рівнянь

Оцінка коефіцієнтів

Стандартизовані коефіцієнти регресії, їхня інтерпретація. Парні та приватні коефіцієнти кореляції. Множинний коефіцієнт кореляції. Множинний коефіцієнт кореляції та множинний коефіцієнт детермінації. Оцінка надійності показників кореляції.

Параметри рівняння множинної регресії оцінюються, як і парної регресії, методом найменших квадратів (МНК). При його застосуванні будується система нормальних рівнянь, вирішення якої дозволяє отримати оцінки параметрів регресії.

Так, для рівняння система нормальних рівнянь становитиме:

Її рішення може бути здійснене методом визначників:

, ,…, ,

де D – головний визначник системи;

Dа, Db 1, ..., Db p - Приватні визначники.

а Dа, Db 1 ..., Db p виходять шляхом заміни відповідного стовпця матриці визначника системи даними лівої частини системи.

Можливий інший підхід у визначенні параметрів множинної регресії, коли на основі матриці парних коефіцієнтів кореляції будується рівняння регресії в стандартизованому масштабі:

де - стандартизовані змінні , для яких середнє значення дорівнює нулю , А середнє квадратичне відхилення дорівнює одиниці: ;

Стандартизовані коефіцієнти регресії.

Застосовуючи МНК до рівняння множинної регресії у стандартизованому масштабі, після відповідних перетворень отримаємо систему нормальних видів

Вирішуючи її методом визначників, знайдемо параметри стандартизовані коефіцієнти регресії (b-коефіцієнти).

Стандартизовані коефіцієнти регресії показують, наскільки сигм зміниться в середньому результат, якщо відповідний фактор х i зміниться однією сигму при незмінному середньому рівні інших факторів. У силу того, що всі змінні задані як центровані та нормовані, стандартизовані коефіцієнти регресії b I можна порівняти між собою. Порівнюючи їх один з одним, можна ранжувати фактори за силою їхнього впливу. У цьому основне достоїнство стандартизованих коефіцієнтів регресії на відміну коефіцієнтів «чистої» регресії, які незрівнянні між собою.

приклад.Нехай функція витрат виробництва у (тис. руб.) Характеризується рівнянням виду

де х 1 – основні виробничі фонди;

х 2 – чисельність зайнятих у виробництві.

Аналізуючи його, бачимо, що з тієї ж зайнятості додаткове зростання вартості основних виробничих фондів на 1 тис. крб. тягне у себе збільшення витрат загалом на 1,2 тис. крб., а збільшення чисельності зайнятих однією людину сприяє за тієї ж технічної оснащеності підприємств зростання витрат загалом на 1,1 тис. крб. Однак це не означає, що фактор х 1 сильніше впливає на витрати виробництва в порівнянні з фактором х 2 . Таке порівняння можливе, якщо звернутися до рівняння регресії у стандартизованому масштабі. Припустимо, воно виглядає так:

Це означає, що зі зростанням фактора х 1 одну сигму при постійної чисельності зайнятих витрат за продукцію збільшуються загалом на 0,5 сигми. Оскільки b 1< b 2 (0,5 < 0,8), то можно заключить, что большее влияние оказывает на производство продукции фактор х 2 , а не х 1 , как кажется из уравнения регрессии в натуральном масштабе.

У парній залежності стандартизований коефіцієнт регресії не що інше, як лінійний коефіцієнт кореляції r xy . Подібно до того, як у парній залежності коефіцієнт регресії та кореляції пов'язані між собою, так і в множинні регресії коефіцієнти «чистої» регресії b i пов'язані зі стандартизованими коефіцієнтами регресії b i , а саме:

(3.1)

Це дозволяє від рівняння регресії у стандартизованому масштабі

(3.2)

перехід до рівняння регресії у натуральному масштабі змінних.

1. Основні визначення та формули

Множинна регресія- регресія між змінними та тобто. модель виду:

де – залежна змінна (результативна ознака);

- незалежні пояснюючі змінні;

Обурення або стохастична змінна, що включає вплив неврахованих у моделі факторів;

Число параметрів при змінних

Основна мета множинної регресії- побудувати модель з великою кількістю факторів, визначивши при цьому вплив кожного з них окремо, а також сукупний їх вплив на показник, що моделюється.

Рівняння множинної лінійної регресіїу разі незалежних змінних має вигляд а у разі двох незалежних змінних - (Двофакторне рівняння).

Для оцінки параметрів рівняння множинної регресії застосовують метод найменших квадратів. Будується система нормальних рівнянь:

Рішення цієї системи дозволяє отримати оцінку параметрів регресії за допомогою методу визначників

де - Визначник системи;

- приватні визначники, що виходять шляхом заміни відповідного стовпця матриці визначника системи даними правої частини системи.

Для двофакторного рівняння коефіцієнти множинної лінійної регресіїможна обчислити за формулами:

Приватні рівняння регресіїхарактеризують ізольований вплив чинника результат, оскільки інші чинники закріплені на постійному рівні. Ефекти впливу інших факторів приєднані до них до вільного члена рівняння множинної регресії. Це дозволяє на основі приватних рівнянь регресії визначати приватні коефіцієнти еластичності:

Середні коефіцієнти еластичностіпоказують на скільки відсотків у середньому зміниться результат за зміни відповідного фактора на 1%:

Їх можна порівнювати один з одним і відповідно ранжувати фактори за силою їхнього впливу на результат.

Тісноту спільного впливу факторів на результат оцінює коефіцієнтіент (індекс) множинної кореляції:

Величина індексу множинної кореляції лежить у межах від 0 до 1 і повинна бути більшою або дорівнює максимальному парному індексу кореляції:

Чим ближче значення індексу множинної кореляції до 1, тим вже зв'язок результативної ознаки з усім набором досліджуваних факторів.

Порівнюючи індекси множинної та парної кореляції, можна зробити висновок про доцільність (величина індексу множинної кореляції істотно відрізняється від індексу парної кореляції) включення до рівняння регресії того чи іншого фактора.

При лінійній залежності сукупний коефіцієнт множинирреляціївизначається через матрицю парних коефіцієнтів кореляції:

де - Визначник матриці парних коефіцієнтів кореляції;

- Визначник матриці міжфакторної кореляції.

Приватніекоефіцієнтыкореляціїхарактеризують тісноту лінійної залежності між результатом та відповідним фактором при усуненні впливу інших факторів. Якщо обчислюється, наприклад, (приватний коефіцієнт кореляції між і при фіксованому впливі ), це означає, що визначається кількісна міра лінійної залежності між і яка буде мати місце, якщо усунути вплив на ці ознаки фактора

Приватні коефіцієнти кореляції, що вимірюють вплив на фактор при незмінному рівні інших факторів, можна визначити як:

або за рекурентною формулою:

Для двофакторного рівняння:

або

Приватні коефіцієнти кореляції змінюються не більше -1 до +1.

Порівняння значень парного та приватного коефіцієнтів кореляціїпоказує напрямок впливу фіксованого фактора. Якщо приватний коефіцієнт кореляції вийде менше, ніж відповідний парний коефіцієнт означає взаємозв'язок ознак і в деякій мірі обумовлена ​​впливом на них змінної змінної І навпаки, більше значення приватного коефіцієнта в порівнянні з парним свідчить про те, що фіксована змінна послаблює своїм впливом зв'язок і

Порядок частки коефіцієнта кореляції визначається кількістю чинників, вплив яких виключається. Наприклад, коефіцієнт приватної кореляції першого порядку.

Знаючи приватні коефіцієнти кореляції (послідовно першого, другого та вищого порядку), можна визначити сукупний коефіцієнтмножіночноюкореляції:

Якість побудованої моделі загалом оцінює коефіцієнт (індекс) множинної детермінації, Який розраховується як квадрат індексу множинної кореляції: Індекс множинної детермінації фіксує частку поясненої варіації результативної ознаки за рахунок факторів, що розглядаються в регресії. Вплив інших, не врахованих у моделі факторів, оцінюється як

Якщо число параметрів близько до обсягу спостережень, то коефіцієнт множинної кореляції наблизиться до одиниці навіть при слабкому зв'язку факторів з результатом. Для того щоб не допустити можливого перебільшення тісноти зв'язку, використовується скоригований індекс множинної кореляції, Що містить поправку на число ступенів свободи:

Чим більша величина тим сильніша відмінність і

Значення приватних коефіцієнтів кореляціїперевіряється аналогічно випадку парних коефіцієнтів кореляції. Єдиною відмінністю є число ступенів свободи, яке слід брати рівним =-2.

Значення рівняння множинної регресії загалом, так само як і в парній регресії, оцінюється за допомогою - критерію Фішера:

Мірою для оцінки включення фактора в модель служить приватний-Критерій. У загальному вигляді для фактора приватний критерій визначається як

Для двофакторного рівняння приватні критерії мають вигляд:

Якщо фактичне значення перевищує табличне, то додаткове включення чинника в модель статистично виправдано і коефіцієнт чистої регресії за чинника статистично значимий. Якщо фактичне значення менше табличного, то фактор недоцільно включати в модель, а коефіцієнт регресії при даному факторі в цьому випадку статистично незначний.

Для оцінки значимості коефіцієнтів чистої регресіїза критерієм Стьюдента використовується формула:

де - коефіцієнт чистої регресії за фактора

- середня квадратична (стандартна) помилка коефіцієнта регресіїяка може бути визначена за формулою:

При додатковому включенні до регресії нового фактора коефіцієнт детермінації має зростати, а залишкова дисперсія зменшуватись. Якщо це не так, то новий фактор, що включається в аналіз, не покращує модель і практично є зайвим фактором. Насичення моделі зайвими чинниками як знижує величину залишкової дисперсії і збільшує показник детермінації, а й призводить до статистичної незначимості параметрів регресії по -критерию Стьюдента.

При побудові рівняння множинної регресії може виникнути проблема мультиколінеарностіфакторів. Вважається, що дві змінні явно колінеарні, тобто. знаходяться між собою в лінійній залежності, якщо фактори явно колінеарні, то вони дублюють один одного і один з них рекомендується виключити з регресії. Перевага при цьому надається не фактору, більш тісно пов'язаному з результатом, а тому фактору, який за досить тісного зв'язку з результатом має найменшу тісноту зв'язку з іншими факторами.

Для оцінки мультиколінеарності факторів може використовуватись определітель матриці між факторами. Чим ближче до 0 визначник матриці міжфакторної кореляції, тим сильніша мультиколлінеарність факторів і ненадійніше результати множинної регресії. І навпаки, чим ближче до 1 визначника, тим менша мультиколлінеарність факторів.

Для застосування МНК потрібно, щоб дисперсія залишків була гомоскедастичною. Це означає, що для кожного значення фактора залишки мають однакову дисперсію. Якщо цієї умови застосування МНК не дотримується, має місце гетероскедастичність. За порушення гомоскедастичності виконуються нерівності

Наявність гетероскедастичності можна бачити з поля кореляції (рис. 9.22).

Рис. 9.22 . Приклади гетероскедастичності:

а) дисперсія залишків зростає у міру збільшення

б) дисперсія залишків досягає максимальної величини при середніх значеннях змінної та зменшується при мінімальних та максимальних значеннях

в) максимальна дисперсія залишків при малих значеннях і дисперсія залишків однорідна зі збільшенням значень

Для перевірки вибірки на гетероскедастичність можна використовувати метод Гольдфельда-Квандта (при малому обсязі вибірки) або критерій Бартлетта (при великому обсязі вибірки).

Послідовність застосування тіста Гольдфельда-Квандта:

1) Упорядкувати дані щодо спадання тієї незалежної змінної, щодо якої є підозра на гетероскедастичність.

2) Виключити із розгляду центральних спостережень. При цьому де - Число оцінюваних параметрів. З експериментальних розрахунків випадку однофакторного рівняння регресії рекомендовано при =30 приймати =8, а при =60 відповідно =16.

3) Розділити сукупність із спостережень на дві групи (відповідно з малими та великими значеннями фактора) та визначити по кожній із груп рівняння регресії.

4) Обчислити залишкову суму квадратів для першої та другої груп і знайти їхнє відношення де При виконанні нульової гіпотези про гомоскедастичність відношення задовольнятиме - критерію Фішера зі ступенями свободи для кожної залишкової суми квадратів. Чим більше величина перевищує тим більше порушена передумова рівності дисперсій залишкових величин.

Якщо необхідно включити до моделі фактори, що мають два або більше якісних рівнів (стаття, професія, освіта, кліматичні умови, належність до певного регіону тощо), то їм мають бути присвоєні цифрові мітки,тобто. якісні змінні перетворені на кількісні. Такого виду сконструйовані змінні називають фіктивними (і з штучними) змінними .

Дооефіцієнт регресії при фіктивній зміннійінтерпретується як середнє зміна залежної змінної під час переходу від однієї категорії до іншої при постійних значеннях інших властивостей. Значимість впливу фіктивної змінної перевіряється за допомогою критерію Стьюдента.

2. Вирішення типових завдань

приклад9. 2. По 15 підприємствам галузі (табл. 9.4) вивчається залежність витрат за випускати продукцію (тис. ден. од.) від обсягу виробленої продукції (тис. од.) і витрат за сировину (тис. ден. од.). Необхідно:

1) Побудувати рівняння множинної лінійної регресії.

2) Обчислити та інтерпретувати:

Середні коефіцієнти еластичності;

Парні коефіцієнти кореляції, оцінити їх значущість лише на рівні 0,05;

Приватні коефіцієнти кореляції;

Коефіцієнт множинної кореляції, множинний коефіцієнт детермінації, скоригований коефіцієнт детермінації.

3) Оцінити надійність побудованого рівняння регресії та доцільність включення фактора після фактора та після

Таблиця 9.4

x1

x2

Рішення:

1) У Excel складемо допоміжну таблицю рис. 9.23.

Рис.9.23 . Розрахункова таблиця багатофакторної регресії.

За допомогою вбудованих функцій обчислимо: = 345,5; =13838,89; =8515,78; =219,315; =9,37; =6558,08.

Потім знайдемо коефіцієнти множинної лінійної регресії та оформимо виведення результатів як на рис. 9.24.

Рис.9.24 . Розв'язання задачі вMSExcel

Для обчислення значення коефіцієнта використовуємо формули

Формули для обчислення параметрів заносимо до осередків Е20 , Е2 1, Е2 2. Так для обчислення параметра b1 в Е20 помістимо формулу =(B20*B24-B21*B22)/(B23*B24-B22^2)та отримаємо 29,83. Аналогічно отримуємо значення =0,301 та коефіцієнт =-31,25 (рис. 9.25.).

Рис.9.25 . Обчислення параметрів рівняння множинної регресії(у строке формул формула для розрахункуb2) .

Рівняння множинної лінійної регресії набуде вигляду:

31,25+29,83+0,301

Таким чином, зі збільшенням обсягу виробленої продукції на 1 тис. од. витрати на випуск цієї продукції в середньому збільшаться на 29,83 тис. грош. од., а зі збільшенням витрат за сировину на 1 тис. ден. од. витрати збільшаться в середньому на 0,301 тис. грош. од.

2) Для обчислення середніх коефіцієнтів еластичностіскористаємося формулою: Обчислюємо: =0,884 та =0,184. Тобто. збільшення обсягу виробленої продукції (від свого середнього значення) або лише витрат на сировину на 1% збільшує в середньому витрати на випуск продукції на 0,884% або 0,184% відповідно. Таким чином, фактор надає більшого впливу на результат, ніж фактор

Для обчислення парних коефіцієнтів кореляціїскористаємося функцією "КОРРЕЛ" рис. 9.26.

Рис.9.26 . Обчислення парних коефіцієнтів кореляції

Значення парних коефіцієнтів кореляції вказують на тісний зв'язок з і на тісний зв'язок з У той же час міжфакторний зв'язок дуже сильна (=0,88>0,7), що говорить про те, що один з факторів є неінформативним, тобто. у модель необхідно включати або

Значимостьпарних коефіцієнтів кореляціїоцінимо за допомогою критерію Стьюдента. =2,1604 визначаємо за допомогою вбудованої статистичної функції Стьюдрозбірвзявши =0,05 і =-2=13.

Фактичне значення - критерій Стьюдента для кожного парного коефіцієнтавизначимо за формулами: . Результат розрахунку подано на рис. 9.27.

Рис.9.27 . Результат розрахунку фактичних значень-критеріяСтьюдента

Отримаємо = 12,278; =7,1896; =6,845.

Оскільки фактичні значення -статистики перевищують табличні, то парні коефіцієнти кореляції невипадково від нуля, а статистично значущі.

Отримаємо = 0,81; =0,34; =0,21. Таким чином, фактор надає сильніший вплив на результат, ніж

При порівнянні значень коефіцієнтів парної та приватної кореляції приходимо до висновку, що через сильний міжфакторний зв'язок коефіцієнти парної та приватної кореляції відрізняються досить значно.

Коефіцієнт множинної кореляції

Отже, залежність і характеризується дуже тісна, у якій =93% варіації витрат за випускати продукцію визначаються варіацією врахованих у моделі чинників: обсягу виробленої продукції і на сировину. Інші фактори, які не включені в модель, становлять відповідно 7% від загальної варіації.

Коригований коефіцієнт множинної детермінації =0,9182 вказує на тісний зв'язок між результатом та ознаками.

Рис.9.28 . Результати розрахунку приватних коефіцієнтів кореляції та коефіцієнта множинної кореляції

3) Оцінимо надійність рівняння регресії загаломза допомогою - критерію Фішера. Обчислимо . =3,8853 визначаємо взявши =0,05, =2, =15-2-1=12 допомогою вбудованої статистичної функції FРОЗПОЧз такими самими параметрами.

Так як фактичне значення більше табличного, то з ймовірністю 95% робимо висновок про статистичної значимостірівняння множинної лінійної регресії загалом.

Оцінимо доцільність включення фактора після фактора і після за допомогою приватного критерію Фішера за формулами

; .

Для цього в осередок B32заносимо формулу для розрахунку Fx1 « =(B28-H24^2)*(15-3)/(1-B28)», а в осередок B33 формулу для розрахунку Fx2 « =(B28-H23^2)*(15-3)/(1-B28)», результат обчислення Fx1 = 22,4127, Fx2 = 1,5958. Табличне значення критерію Фішера визначимо за допомогою вбудованої функції FРОЗПОЧз параметрами =0,05, =1, =12 =FРОЗКЛАД(0,05;1 ;12) », результат - = 4,747. Оскільки =22,4127>=4,747, а =1,5958<=4,747, то включение фактора в модель статистически оправдано и коэффициент чистой регрессии статистически значим, а дополнительное включение фактора после того, как уже введен фактор нецелесообразно (рис. 9.29).

Рис.9.29 . Результати розрахунку критерію Фішера

Це означає, що парна регресійна модель залежності витрат на випуск продукції від обсягу виробленої продукції є досить статистично значущою, надійною і що немає необхідності покращувати її, включаючи додатковий чинник (витрати сировину).

3. Додаткові відомості для вирішення задач за допомогою MS Excel

Зведені дані основних характеристик для одного або декількох масивів даних можна отримати за допомогою інструмента аналізу даних Описатільна статистика. Порядок дій наступний:

1. Необхідно перевірити доступ до Пакету аналізу. Для цього у стрічці вибираємо вкладку «Дані», в ній розділ «Аналіз» (рис. 9.30).

Рис.9.30 . Вкладка данихдіалогове вікно «Аналіз даних»

2. У діалоговому вікні «Аналіз даних» вибрати Описовий стат і стику і натиснути кнопку «ОК», у діалоговому вікні, що з'явилося, заповніть необхідні поля (рис. 9.31):

Рис. 9.31 . Діалогове вікно введення параметрів інструменту
« Описова статистика »

Вхідний інтервал- діапазон, що містить дані результативної та пояснювальних ознак;

Групування- Вказати, як розташовані дані (у стовпцях або рядках);

Мітки- прапорець, який вказує, чи містить перший рядок назви стовпців чи ні;

Вихідний інтервал- Досить вказати ліву верхню комірку майбутнього діапазону;

Новий робочий лист- можна задати довільне ім'я нового аркуша, який буде виведено результати.

Для отримання інформації Підсумковий статистики,жності,-го найбільшого та найменшого значеньпотрібно встановити відповідні прапорці у діалоговому вікні.

Отримуємо наступну статистику (рис. 2.10).

1. Вступ…………………………………………………………………….3

1.1. Лінійна модель множинної регресії……………………...5

1.2. Класичний метод найменших квадратів для моделі множинної регресії…………………………………………..6

2. Узагальнена лінійна модель множинної регресії……………...8

3. Список використаної литературы…………………………………….10

Вступ

Тимчасовий ряд - це сукупність значень якогось показника за кілька послідовних моментів (періодів) часу. Кожен рівень часового ряду формується під впливом великої кількості факторів, які умовно можна поділити на три групи:

Чинники, що формує тенденцію низки;

Чинники, що формують циклічні коливання ряду;

Випадкові фактори.

При різних поєднаннях цих чинників залежність рівнів рада іноді може набувати різних форм.

Більшість часових рядів економічних показників мають тенденцію, що характеризує сукупний довготривалий вплив безлічі факторів на динаміку показника, що вивчається. Очевидно, ці чинники, взяті окремо, можуть надавати різноспрямоване вплив досліджуваний показник. Однак у сукупності вони формують його зростаючу чи спадну тенденцію.

Також досліджуваний показник може бути схильний до циклічних коливань. Ці коливання можуть мати сезонний характер., оскільки економічна діяльність ряду галузей залежить від пори року (наприклад, ціни на сільськогосподарську продукцію в літній період вищі, ніж у зимовий; рівень безробіття в курортних містах у зимовий період вищий у порівнянні з літнім). За наявності великих масивів даних за тривалі проміжки часу можна виявити циклічні коливання, пов'язані із загальною динамікою кон'юнктури ринку, і навіть із фазою бізнес-циклу, де знаходиться економіка країни.

Деякі часові ряди не містять тенденції та циклічну компоненту, а кожен наступний їхній рівень утворюється як сума середнього рівня рада та деякої (позитивної чи негативної) випадкової компоненти.

Очевидно, що реальні дані не відповідають повністю жодній з описаних вище моделей. Найчастіше вони містять усі три компоненти. Кожен їхній рівень формується під впливом тенденції, сезонних коливань та випадкової компоненти.

Найчастіше фактичний рівень часового ряду можна як суму чи твір трендової, циклічної і випадкової компонент. Модель, у якій часовий ряд представлений як сума перерахованих компонентів, називається адитивною моделлю часового ряду. Модель, у якій часовий ряд представлений як добуток перерахованих компонентів, називається мультиплікативною моделлю часового ряду.


1.1. Лінійна модель множинної регресії

Парна регресія може дати хороший результат при моделюванні, якщо вплив інших факторів, що впливають на об'єкт дослідження, можна знехтувати. Якщо ж цим впливом знехтувати не можна, то цьому випадку слід спробувати виявити вплив інших чинників, запроваджуючи в модель, тобто, побудувати рівняння множинної регресії.

Множинна регресія широко використовується у вирішенні проблем попиту, дохідності акцій, при вивченні функції витрат виробництва, в макроекономічних розрахунках та низці інших питань економетрики. Нині множинна регресія - одне із найпоширеніших методів економетриці.

Основна мета множинної регресії - побудувати модель з великою кількістю факторів, визначивши при цьому вплив кожного з них окремо, а також сукупний їх вплив на показник, що моделюється.

Загальний вигляд лінійної моделі множинної регресії:

де n - обсяг вибірки, який по Крайній мірів 3 рази перевищує m-кількість незалежних змінних;

у i - значення результативної змінної у спостереженні I;

х i1, х i2, ..., х im-значення незалежних змінних у спостереженні i;

β 0 , β 1 , … β m -параметри рівняння регресії, що підлягають оцінці;

ε - значення випадкової помилки моделі множинної регресії у спостереженні I,

При побудові моделі множинної лінійної регресії враховуються такі п'ять умов:

1. величини х i1, х i2, ..., х im - невипадкові та незалежні змінні;

2. математичне очікування випадкової помилки рівняння регресії
дорівнює нулю у всіх спостереженнях: М (ε) = 0, i = 1, m;

3. дисперсія випадкової помилки рівняння регресії є постійною всім спостережень: D(ε) = σ 2 = const;

4. випадкові помилки моделі регресії не корелюють між собою (ковариація випадкових помилок будь-яких двох різних спостережень дорівнює нулю): соv(ε i ,ε j .) = 0, i≠j;

5. випадкова помилка моделі регресії - випадкова величина, що підкоряється нормальному закону розподілу з нульовим математичним очікуванням та дисперсією σ 2 .

Матричний вид лінійної моделі множинної регресії:

де: - Вектор значень результативної змінної розмірності n×1

матриця значень незалежних змінних розмірності n×(m+1). Перший стовпець цієї матриці є одиничним, так як у моделі регресії коефіцієнт 0, множиться на одиницю;

Вектор значень результативної змінної розмірності (m+1)×1

Вектор випадкових помилок розмірності n×1

1.2. Класичний метод найменших квадратів для моделі множинної регресії

Невідомі коефіцієнти лінійної моделі множинної регресії β 0 , β 1 , … β m оцінюються за допомогою класичного методу найменших квадратів, основна ідея якого полягає у визначенні такого вектора оцінки Д, який мінімізував би суму квадратів відхилень спостеріганих значень результативної змінної е. розрахованих на підставі побудованої моделі регресії).

Як відомо з курсу математичного аналізу, щоб знайти екстремум функції кількох змінних, треба обчислити приватні похідні першого порядку по кожному з параметрів і прирівняти їх до нуля.

Позначивши b i з відповідними індексами оцінки коефіцієнтів моделі i, i=0,m, має функцію m+1 аргументу.

Після елементарних перетворень приходимо до системи лінійних нормальних рівнянь знаходження оцінок параметрів лінійного рівняння множинної регресії.

Отримана система нормальних рівнянь є квадратною, тобто кількість рівнянь дорівнює кількості невідомих змінних, тому рішення системи можна знайти за допомогою методу Крамера або методу Гауса,

Рішенням системи нормальних рівнянь матричної формі буде вектор оцінок.

На основі лінійного рівняння множинної регресії можуть бути знайдені приватні рівняння регресії, тобто рівняння регресії, які пов'язують результативну ознаку з відповідним фактором х i при закріпленні інших факторів на середньому рівні.

При підстановці у ці рівняння середніх значень відповідних чинників вони набувають вигляду парних рівнянь лінійної регресії.

На відміну від парної регресії, приватні рівняння регресії характеризують ізольований вплив чинника результат, оскільки інші чинники закріплені на постійному рівні. Ефекти впливу інших факторів приєднані до них до вільного члена рівняння множинної регресії. Це дозволяє з урахуванням приватних рівнянь регресії визначати приватні коефіцієнти еластичності:

де b i - Коефіцієнт регресії для фактора x i; в рівнянні множинної регресії,

у х1 хm – приватне рівняння регресії.

Поряд із приватними коефіцієнтами еластичності можуть бути знайдені середні за сукупністю показники еластичності. які показують, скільки відсотків у середньому зміниться результат при зміні відповідного чинника на 1%. Середні показники еластичності можна порівнювати один з одним і, відповідно, ранжувати фактори за силою з впливу на результат.

2. Узагальнена лінійна модель множинної регресії

Корінна відмінність узагальненої моделі від класичної полягає тільки у вигляді квадратної кваріаційної матриці вектора збурень: замість матриці Σ ε = σ 2 E n для класичної моделі маємо матрицю Σ ε = Ω для узагальненої. Остання має довільні значення підступів та дисперсій. Наприклад, коварійні матриці класичної та узагальненої моделей для двох спостережень (п=2) у загальному випадку матимуть вигляд:

Формально узагальнена лінійна модель множинної регресії (ОЛММР) у матричній формі має вигляд:

Y = Xβ + ε (1)

та описується системою умов:

1. ε – випадковий вектор збурень із розмірністю n; X -невипадкова матриця значень пояснюючих змінних (матриця плану) з розмірністю nх(р+1); нагадаємо, що перший стовпець цієї матриці складається з пединиц;

2. M(ε) = 0 n – математичне очікування вектора збурень дорівнює нуль-вектору;

3. Σ ε = M(εε') = Ω, де Ω – позитивно визначена квадратна матриця; зауважимо, що добуток векторів ε'ε дає скаляр, а добуток векторів εε' дає матрицю розмірністю nxn;

4. Ранг матриці X дорівнює р+1 який менше n; нагадаємо, що р+1 - число пояснюючих змінних у моделі (разом з фіктивною змінною), n - число спостережень за результуючою і змінними, що пояснюють.

Наслідок 1. Оцінка параметрів моделі (1) звичайним МНК

b = (X'X) -1 X'Y (2)

є незміщеною та заможною, але неефективною (неоптимальною у сенсі теореми Гаусса-Маркова). Для отримання ефективної оцінки необхідно використовувати узагальнений спосіб найменших квадратів.

Множинний регресійний аналіз є розширенням парного регресійного аналізу. Про застосовується у тих випадках, коли поведінка пояснюваної, залежної змінної необхідно пов'язати з впливом більш ніж однієї факторної незалежної змінної. Хоча певна частина многофакторного аналізу є безпосереднє узагальнення понять парної регресійної моделі, і під час його може виникнути ряд принципово нових завдань.

Так, при оцінці впливу кожної незалежної змінної необхідно вміти розмежовувати її вплив на зміну, що пояснюється, від впливу інших незалежних змінних. У цьому множинний кореляційний аналіз зводиться до аналізу парних, приватних кореляцій. Насправді зазвичай обмежуються визначенням їх узагальнених числових характеристик, як-от приватні коефіцієнти еластичності, приватні коефіцієнти кореляції, стандартизовані коефіцієнти множинної регресії.

Потім вирішуються завдання специфікації регресійної моделі, одна з яких полягає у визначенні обсягу і складу сукупності незалежних змінних, які можуть впливати на змінну, що пояснюється. Хоча це часто робиться з апріорних міркувань або на підставі відповідної економічної (якісної) теорії, деякі змінні можуть через індивідуальні особливості об'єктів, що вивчаються, не підходити для моделі. Як найбільш характерні з них можна назвати мультиколінеарністьабо автокорелюваністьфакторних змінних.

3.1. Аналіз множинної лінійної регресії за допомогою

методу найменших квадратів (МНК)

У розділі вважається, що розглядається модель регресії, яка специфікована правильно. Зворотне, якщо вихідні припущення виявилися невірними, можна встановити лише на основі якості отриманої моделі. Отже, цей етап є вихідним для проведення множинного регресійного аналізу навіть у найскладнішому випадку, оскільки тільки він, а точніше, його результати можуть дати підстави для подальшого уточнення модельних уявлень. У такому випадку виконуються необхідні зміни та доповнення у специфікації моделі, і аналіз повторюється після уточнення моделі доти, доки не будуть отримані задовільні результати.

На будь-який економічний показник у реальних умовах зазвичай впливає не один, а кілька і не завжди незалежних факторів. Наприклад, попит на певний вид товару визначається не тільки ціною даного товару, але й цінами на товари, що заміщають і доповнюють, доходом споживачів і багатьма іншими факторами. В цьому випадку замість парної регресії M(Y/ Х = х ) = f(x) розглядається множинна регресія

M(Y/ Х1 = х1, Х2 = х2, …, Хр = Хр ) = f(x 1 х 2 , …, х р ) (2.1)

Завдання оцінки статистичного взаємозв'язку змінних Yі Х 1 , Х 2 , ..., Х Рформулюється аналогічно випадку парної регресії. Рівняння множинної регресії може бути подане у вигляді

Y = f(B , X ) + 2

де X - Вектор незалежних (пояснюючих) змінних; У - Вектор параметрів рівняння (що підлягають визначенню); - Випадкова помилка (відхилення); Y - Залежна (пояснюється) змінна.

Передбачається, що з цієї генеральної сукупності саме функція fпов'язує досліджувану змінну Yз вектором незалежних змінних X .

Розглянемо найуживанішу і найпростішу для статистичного аналізу та економічної інтерпретації модель множинної лінійної регресії. Для цього є принаймні дві істотні причини.

По-перше, рівняння регресії є лінійним, якщо система випадкових величин ( X 1 , X 2 , ..., Х Р , Y) має спільний нормальний закон розподілу. Припущення про розподіл може бути у деяких випадках обгрунтовано з допомогою граничних теорем теорії ймовірностей. Часто таке припущення приймається як гіпотеза, коли при подальшому аналізі та інтерпретації його результатів не виникає явних протиріч.

Друга причина, через яку лінійна регресійна модель краща за інших, полягає в тому, що при використанні її для прогнозу ризик значної помилки виявляється мінімальним.

Теоретичне лінійне рівняння регресії має вигляд:

або для індивідуальних спостережень із номером i:

де i = 1, 2, ..., п.

Тут У = (b 0 , b 1 ,bР) – вектор розмірності (р+1) невідомих параметрів b j , j = 0, 1, 2, ..., р, називається j-им теоретичним коефіцієнтом регресії (частковим коефіцієнтом регресії) Він характеризує чутливість величини Yдо зміни X j. Інакше кажучи, він відбиває впливом геть умовне математичне очікування M(Y/ Х1 = х1, Х2 = х2, …, Хр = x р ) залежною змінною Yпояснюючої змінної Х j за умови, що всі інші пояснюючі змінні моделі залишаються незмінними. b 0 - вільний член, що визначає значення Yу разі, коли всі пояснюючі змінні X jрівні нулю.

Після вибору лінійної функції як модель залежності необхідно оцінити параметри регресії.

Нехай є nспостережень вектора пояснюючих змінних X = (1 , X 1 , X 2 , ..., Х Р) та залежною змінною Y:

(1 , х i1 , x i2 , …, x ip , y i), i = 1, 2, …, n.

Для того, щоб однозначно можна було б вирішити задачу відшукання параметрів b 0 , b 1 , … , bР (тобто знайти деякий кращий вектор У ), має виконуватися нерівність n > p + 1 . Якщо ця нерівність не буде виконуватися, то існує безліч різних векторів параметрів, при яких лінійна формула зв'язку між X і Y буде абсолютно точно відповідати наявним спостереженням. При цьому, якщо n = p + 1 оцінки коефіцієнтів вектора У розраховуються єдиним чином – шляхом вирішення системи p + 1 лінійного рівняння:

де i = 1, 2, ..., п.

Наприклад, для однозначного визначення оцінок параметрів рівняння регресії Y = bпро + b 1 X 1 + b 2 X 2 достатньо мати вибірку із трьох спостережень ( 1 , х i 1 , х i 2 , y i), i= 1, 2, 3. У цьому випадку знайдені значення параметрів b 0 , b 1 , b 2 визначають таку площину Y = bпро + b 1 X 1 + b 2 X 2 у тривимірному просторі, яка пройде саме через три точки.

З іншого боку, додавання у вибірку до наявних трьох спостережень ще одного призведе до того, що четверта точка ( х 41 , х 42 , х 43 , y 4) практично завжди лежатиме поза побудованою площиною (і, можливо, досить далеко). Це вимагатиме певної переоцінки параметрів.

Отже, цілком логічним є наступний висновок: якщо число спостережень більше мінімально необхідної величини, тобто. n > p + 1 , то вже не можна підібрати лінійну форму, яка точно задовольняє всім спостереженням. Тому виникає потреба оптимізації, тобто. оцінювання параметрів b 0 , b 1 , …, b Р, у яких формула регресії дає найкраще наближення одночасно всім наявних спостережень.

У цьому випадку число  = n - p - 1 називається числом ступенів волі. Неважко помітити, що якщо кількість ступенів свободи невелика, то статистична надійність формули, що оцінюється, невисока. Наприклад, ймовірність надійного виведення (отримання найбільш реалістичних оцінок) за трьома спостереженнями істотно нижче, ніж за тридцять. Вважається, що при оцінюванні множинної лінійної регресії для забезпечення статистичної надійності потрібно, щоб кількість спостережень перевищувала кількість параметрів, що оцінюються, принаймні, в 3 рази.

Перш ніж перейти до опису алгоритму знаходження оцінок коефіцієнтів регресії, зауважимо бажаність здійсненності ряду передумов МНК, які дозволять обґрунтувати характерні особливості регресійного аналізу у рамках класичної лінійної багатофакторної моделі.

Поділіться з друзями або збережіть для себе:

Завантаження...