Який сенс мають параметри рівняння множинної регресії. Лінійне рівняння множинної регресії

Мета : навчитися визначення параметрів рівняння множини лінійної регресіїметодом найменших квадратівта проведення аналізу побудованого рівняння.

Методичні вказівки

У цьому розділі важливо абсолютно все. Перед вивченням необхідно повторити наступний матеріал із матричного аналізу: множення матриць, зворотна матриця, розв'язання системи лінійних рівнянь методом зворотної матриці. У цьому розділі все, що стосується парної лінійної регресії, узагальнюється на множинну лінійну модель. У першому розділі наведено функції Microsoft Office Excel, що дозволяють проводити операції з матрицями. Зверніть увагу, що порівняно з попереднім розділом для визначення соціально-економічного сенсу коефіцієнтів при пояснюючих змінних важливою є відсутність мультиколлінеарності (сильного лінійного взаємозв'язку) цих змінних. Запам'ятайте, що формула для розрахунку коефіцієнтів рівняння також випливає із застосування методу найменших квадратів. Слід вивчити наведений нижче приклад. Зверніть увагу на взаємозв'язок моделі у вихідних та стандартизованих змінних.

§ 1. Визначення параметрів рівняння регресії

На будь-який економічний показникнайчастіше впливають не один, а кілька факторів. У цьому випадку замість парної рег-

ресії M(Y ​​x) = f(x) розглядаєтьсямножинна регресія:

x1, x2, ..., xm) = f (x1, x2, ..., xm).

Завдання оцінки статистичного взаємозв'язку

змінних

Y і X = (X 1, X 2, ..., X m) формулюється аналогічно

нагоди пар-

ної регресії. Рівняння множинної регресії може бути представлено у вигляді:

Y = f(β, X) + ε,

де Y і X = (X 1 , X 2 , ..., X m ) - Вектор незалежних (пояснюють) змінних;

(що підлягають визначенню); ε - випадкова помилка (відхилення); Y - залежна (пояснюється) змінна. Передбачається, що для цієї генеральної сукупностісаме функціяf пов'язує досліджувану зміннуY з вектором незалежних змінних

Y і X = (X1, X2, ..., Xm).

Розглянемо найуживанішу і найпростішу з моделей множинної регресії - модель множинної лінійної регресії.

Теоретичне лінійне рівняння регресії має вигляд:

Тут β= (β 0 , β 1 , β 2 ,..., β m ) - вектор розмірності (т +1) невідомих параметрів. м теоретично-

ським коефіцієнтом регресії (приватним коефіцієнтом регресії). Він характеризує чутливість величини Y до зміни Xj. Інакше кажучи, він відбиває впливом геть умовне математи-

ческое очікування M (Y x 1 ,x 2 ,...,x m ) залежної змінноїY об'яс-

няючою змінною X j за умови, що всі інші пояснюють змінні моделі залишаються постійними, β 0 -вільний член ,

визначальний значення Y у разі, коли всі пояснюючі змінні X j дорівнюють нулю.

Після вибору лінійної функціїяк модель залежності необхідно оцінити параметри регресії.

Нехай є n спостережень вектора пояснюючих змінних X = (X 1, X 2, ..., X m) і залежною змінною Y:

(xi 1, xi 2, ..., xim, yi), i = 1,2, ..., n.

Для того щоб однозначно можна було вирішити задачу відшукання параметрів β 0 , β 1 , β 2 ,..., β m , має виконуватися нерівність

n ≥ m + 1 . Якщоn = m + 1, то оцінки коефіцієнтів вектора?

розраховуються єдиним чином.

Якщо число спостережень більше мінімально необхідного: n > m + 1 виникає необхідність оптимізації, оцінювання

параметрів β 0 , β 1 , β 2 ,..., β m , у яких формула дає найкраще

наближення для наявних спостережень.

У цьому випадку число ν= n − m − 1 називається числом ступенів свободи. Найпоширенішим методом оцінки параметрів рівняння множинної лінійної регресії є метод найменших квадратів(МНК). Нагадаємо, що його суть полягає в мінімізації суми квадратів відхилень значень, що спостерігаються.

залежної змінної Y від її значень Y, одержуваних за рівнянням регресії.

Зазначимо, що викладені раніше передумови МНК дозволяють проводити аналіз у рамках класичної лінійної регресійної моделі.

Як і у випадку парної регресії, справжні значення параметрів j по вибірці отримати неможливо. У цьому випадку замість

теоретичного рівняння регресії (3.3) оцінюється так

емпіричне рівняння регресії:

Y = b0 + b1 X1 + b2 X2 + ... + bm Xm + e.

b 0 , b 1 , ..., b m - оцінки теоретичних

значень

β 0 ,β 1 , ...,β m

коефіцієнтів регресії (емпіричні коефіцієнти

енти регресії, e -оцінка випадкового відхиленняε). Для індивідуальних спостережень маємо:

yi = b0 + b1 xi 1 + b2 xi 2 + ... + bm xim + ei, (i = 1,2, ..., n) (3.6)

Оцінене рівняння насамперед має описувати загальний тренд (напрямок) зміни залежної змінної Y . При цьому необхідно мати можливість розрахувати відхилення від цього тренду.

За даними вибірки обсягу n: (xi 1, xi 2, ..., xim, yi), i = 1,2, ..., n

потрібно оцінити значення параметрів β j вектораβ , тобто провести параметризацію обраної моделі (тут x ij , j = 1, 2, ..., m

значення змінної X j в i-му спостереженні).

При виконанні передумов МНК щодо випадкових відхилень ε i , оцінки b 0 , b 1 , ..., b m параметрівβ 0 , β 1 , ..., β m множе-

ній лінійної регресії по МНК є незміщеними, ефективними та заможними.

На підставі (3.6) відхилення e i значення y i залежної змінної від модельного значення y i , відповідного рівнянню регрессиивi спостереження i = 1, 2, ..., n , розраховується по формулі:

ei = yi − ˆyi = yi − b0 − b1 xi 1 − b2 xi 2 − ...− bm xim . (3.7)

§ 2. Розрахунок коефіцієнтів множинної лінійної регресії

Представимо дані спостережень та відповідні коефіцієнти у матричній формі.

xn 1

xn 2

X1 m

X2 m

Тут Y - n -вимірний вектор-стовпець спостережень залежної змінної Y ; ,X 2 , ...,X m , одиниця відповідає змінній при вільному членіb 0 ;B - вектор-стовпець розмір-

ності (m + 1) параметрів рівняння регресії (3.5); e - вектор стовпець розмірностіn відхилень вибіркових (реальних) значень y i залежної змінної від значень?

рівняння регресії:

i= 1

де e T = (e 1 , e 2 , ..., e n ) , Тобто надрядковий значок T означає транс-

поновану матрицю.

Можна показати, що умова (3.10) виконується, якщо вектор стовпець коефіцієнтів B знайти за формулою:

B = (XT X) − 1 XT Y.

Тут X T - матриця, транспонована до матриці X ,

(X T X ) - 1 - матриця, зворотна до (X T X ). Співвідношення (3.11)

справедливо для рівнянь регресії з довільною кількістю m пояснюючих змінних.

Приклад 3.1. Нехай обсяг пропозиції деякого блага Y фірми лінійно залежить від ціни X 1 і заробітної X 2 співробітників, які виробляють це благо (табл. 3.1). Визначимо коефіцієнти рівняння лінійної регресії. (Тут передбачається знання матричної алгебри).

Таблиця 3.1

Дані для множинної лінійної регресії

Матриці мають вигляд:

X T X = 318

7, 310816

− 0, 10049

− 0, 53537

−1

0, 001593

, (XT X)

= − 0, 10049

− 0, 006644,

− 0, 53537

− 0, 006644

0, 043213

X T Y = 23818,

Завданням множинної лінійної регресії є побудова лінійної моделі зв'язку між набором безперервних предикторів та безперервною залежною змінною. Часто використовується наступне регресійне рівняння:

Тут а i - регресійні коефіцієнти, b 0- вільний член (якщо він використовується), е- Член, що містить помилку - з приводу нього робляться різні припущення, які, однак, частіше зводяться до нормальності розподілу з нульовим вектором мат. очікування та кореляційною матрицею.

Такою лінійною моделлю добре описуються багато завдань у різних предметних галузях, наприклад, економіці, промисловості, медицині. Це тому, що деякі завдання лінійні за своєю природою.

Наведемо найпростіший приклад. Нехай потрібно передбачити вартість прокладання дороги за відомими її параметрами. При цьому у нас є дані про вже прокладені дороги із зазначенням протяжності, глибини обсипання, кількості робочого матеріалу, числа робітників і так далі.

Зрозуміло, що вартість дороги врешті-решт стане рівної сумівартості всіх цих факторів окремо. Потрібна деяка кількість, наприклад, щебеню з відомою вартістю за тонну, деяка кількість асфальту також з відомою вартістю.

Можливо, для прокладання доведеться вирубувати ліс, що також призведе до додаткових витрат. Все це разом дасть вартість створення дороги.

При цьому в модель увійде вільний член, який, наприклад, відповідатиме за організаційні витрати (приблизно однакові для всіх будівельно-монтажних робіт даного рівня) або податкові відрахування.

Помилка буде включати фактори, які ми не врахували при побудові моделі (наприклад, погоду при будівництві - її взагалі врахувати неможливо).

Приклад: множинний регресійний аналіз

Для цього прикладу будуть аналізуватися кілька можливих кореляцій рівня бідності та ступінь, що передбачає відсоток сімей, що перебувають за межею бідності. Отже ми вважатимемо змінну характеризуючу відсоток сімей, що є межею бідності, - залежною змінної, інші ж змінні безперервними предикторами.

Коефіцієнти регресії

Щоб дізнатися, яка з незалежних змінних робить більший внесок у передбачення рівня бідності, вивчимо стандартизовані коефіцієнти(або Бета) регресії.

Рис. 1. Оцінки параметрів коефіцієнтів регресії.

Коефіцієнти Бета це коефіцієнти, які ви отримали б, якби привели всі змінні до середнього 0 і стандартного відхилення 1. Отже величина цих Бета коефіцієнтів дозволяє порівнювати відносний внесок кожної незалежної змінної в залежну змінну. Як видно з Таблиці, наведеної вище, змінні зміни населення з 1960 року (POP_ CHING), відсоток населення, що проживає в селі (PT_RURAL) та кількість людей, зайнятих у сільському господарстві(N_Empld) є головними предикторами рівня бідності, т.к. тільки вони статистично значущі (їх 95% довірчий інтервал не включає 0). Коефіцієнт регресії зміни населення з 1960 року (Pop_Chng) негативний, отже, що менше зростає чисельність населення, то більше вписувалося сімей, які живуть за межею бідності у відповідному окрузі. Коефіцієнт регресії населення (%), що у селі (Pt_Rural) позитивний, тобто, що більше відсоток сільських жителів, то більше вписувалося рівень бідності.

Значення ефектів предиктора

Переглянемо Таблицю з умовами значимості.

Рис. 2. Одночасні результати кожної заданої змінної.

Як свідчить ця Таблиця, статистично значущі лише ефекти 2 змінних: зміна населення з 1960 року (Pop_Chng) і відсоток населення, що у селі (Pt_Rural), p< .05.

Аналіз залишків. Після припасування рівняння регресії, майже завжди потрібно перевіряти передбачені значення та залишки. Наприклад, великі викиди можуть сильно спотворити результати та призвести до помилкових висновків.

Порядковий графік викидів

Зазвичай необхідно перевіряти вихідні або стандартизовані залишки великих викидів.

Рис. 3. Номери спостережень та залишки.

Шкала вертикальної осі цього графіка відкладена за величиною сигма, тобто, стандартного відхиленнязалишків. Якщо одне або кілька спостережень не потрапляють в інтервал ± 3, помножене на сигму, то, можливо, варто виключити ці спостереження (це можна легко зробити через умови вибору спостережень) і ще раз запустити аналіз, щоб переконатися, що результати не змінюються цими викидами.

Відстань Махаланобіса

Більшість статистичних підручників приділяють багато часу викидам та залишкам щодо залежної змінної. Проте роль викидів у предикторах часто залишається виявленою. На стороні змінної предиктора є перелік змінних, які беруть участь з різними вагами (коефіцієнти регресії) у передбаченні залежної змінної. Можна вважати незалежні змінні багатовимірним простором, де можна відкласти будь-яке спостереження. Наприклад, якщо у вас є дві незалежні змінні з рівними коефіцієнтами регресії, то можна було б побудувати діаграму розсіювання цих двох змінних і помістити кожне спостереження на цей графік. Потім можна було відзначити на цьому графіку середнє значення та обчислити відстані від кожного спостереження до цього середнього (так званий центр тяжкості) у двовимірному просторі. У цьому полягає основна ідея обчислення відстані Махаланобиса . Тепер подивимося на гістограму змінної зміни населення із 1960 року.

Рис. 4. Гістограма розподілу відстаней Махаланобіса.

З графіка випливає, що є один викид на відстані Махаланобіса.

Рис. 5. Спостережувані, передбачені та значення залишків.

Зверніть увагу на те, що округ Shelby (у першому рядку) виділяється на тлі інших округів. Якщо подивитися на вихідні дані, то ви виявите, що насправді округ Shelby має саме велике числолюдей, зайнятих у сільському господарстві (змінна N_Empld). Можливо, було б розумним висловити у відсотках, а не в абсолютних числах, і в цьому випадку відстань Махаланобіса округу Shelby, ймовірно, не буде такою великою на тлі інших округів. Очевидно, що округ Shelby є викидом.

Віддалені залишки

Іншою дуже важливою статистикою, яка дозволяє оцінити серйозність проблеми викидів, є віддалені залишки. Це стандартизовані залишки для відповідних спостережень, що виходять при видаленні цього спостереження з аналізу. Пам'ятайте, що процедура множинної регресії підганяє поверхню регресії таким чином, щоб показати взаємозв'язок між залежною та змінною та предиктором. Якщо одне спостереження є викидом (як округ Shelby), існує тенденція до " відтягування " поверхні регресії до цього викиду. В результаті, якщо відповідне спостереження видалити, буде отримана інша поверхня (і коефіцієнти Бета). Отже, якщо віддалені залишки дуже сильно відрізняються від стандартизованих залишків, то у вас буде привід вважати, що регресійний аналіз серйозно спотворений відповідним спостереженням. У цьому прикладі віддалені залишки для округу Shelby показують, що це викид, який серйозно перекручує аналіз. На діаграмі розсіювання очевидно видно викид.

Рис. 6. Вихідні залишки та Видалені залишки змінної, що означає відсоток сімей, які проживають нижче за прожитковий мінімум.

Більшість з них має більш менш ясні інтерпретації, проте звернемося до нормальних ймовірнісних графіків.

Як вже було згадано, множинна регресія передбачає, що існує лінійний взаємозв'язок між змінними у рівнянні та нормальний розподіл залишків. Якщо ці припущення порушені, висновок може виявитися неточним. Нормальний ймовірнісний графік залишків вкаже вам, є серйозні порушення цих припущень чи ні.

Рис. 7. Нормальний імовірнісний графік; Початкові залишки.

Цей графік був побудований в такий спосіб. Спочатку стандартизовані залишки ранжуються по порядку. За цими рангами можна обчислити значення z (тобто стандартні значення нормального розподілу) на основі припущення, що дані підпорядковуються нормальному розподілу. Ці значення відкладаються по осі y на графіку.

Якщо залишки (відкладаються по осі x), що спостерігаються, нормально розподілені, то всі значення лягли б на пряму лінію на графіку. На нашому графіку всі крапки лежать дуже близько щодо кривої. Якщо залишки не є нормально розподіленими, вони відхиляються від цієї лінії. Викиди також стають помітними на цьому графіку.

Якщо є втрата згоди і здається, що дані утворюють явну криву (наприклад, у формі літери S) щодо лінії, залежну змінну можна перетворити деяким способом (наприклад, логарифмічне перетворення для "зменшення" хвоста розподілу і т.д.). Обговорення цього методу знаходиться за межами цього прикладу (Neter, Wasserman, і Kutner, 1985, pp. 134-141, представлено обговорення перетворень, що прибирають ненормальність та нелінійність даних). Однак дослідники часто-густо просто проводять аналіз безпосередньо без перевірки відповідних припущень, що веде до помилкових висновків.

Економічні явища, як правило, визначаються більшим числомодночасно та сукупно діючих факторів. У зв'язку з цим часто виникає завдання дослідження залежності змінної увід кількох пояснюючих змінних ( х 1, х 2,…, х k)яка може бути вирішена за допомогою множинного кореляційно-регресійного аналізу

При дослідженні залежності методами множинної регресії завдання формується як і, як і використанні парної регресії, тобто. потрібно визначити аналітичний вираз форми зв'язку між результативною ознакою ута факторними ознаками х, х 2 ,..., х k ,знайти функцію , де k – число факторних ознак

Множинна регресія широко використовується у вирішенні проблем попиту, дохідності акцій, при вивченні функції витрат виробництва, в макроекономічних розрахунках та низці інших питань економетрики. В даний час множинна регресія - один з найпоширеніших методів в економетриці. Основна мета множинної регресії - побудувати модель з великою кількістю факторів, визначивши при цьому вплив кожного з них окремо, а також сукупний їх вплив на показник, що моделюється.

Через особливості методу найменших квадратів у множинні регресії, як і в парній, застосовуються тільки лінійні рівняння та рівняння, що приводяться до лінійного вигляду шляхом перетворення змінних. Найчастіше використовується лінійне рівняння, яке можна записати так:

a 0 , a 1, …, ak – параметри моделі (коефіцієнти регресії);

ε j – випадкова величина(величина залишку).

Коефіцієнт регресії а j показує, яку величину в середньому зміниться результативний ознака у,якщо змінну х j збільшити на одиницю виміру при фіксованому (постійному) значенні інших факторів, що входять до рівняння регресії. Параметри при xназиваються коефіцієнтами «чистої» регресії .

приклад.

Припустимо, залежність витрат за продукти харчування за сукупністю сімей характеризується наступним рівнянням:

y- Витрати сім'ї за місяць на продукти харчування, тис. руб.;

x 1 - місячний дохід на одного члена сім'ї, тис. руб.;

x 2 – розмір сім'ї, людина.

Аналіз цього рівняння дозволяє зробити висновки – зі зростанням доходу однієї члена сім'ї на 1 тис. крб. Витрати харчування зростуть у середньому 350 крб. при тому ж середньому розмірі сім'ї. Інакше кажучи, 35% додаткових сімейних витрат витрачається харчування. Збільшення розміру сім'ї за тих же її доходах передбачає додаткове зростання витрат харчування на 730 крб. Перший параметр підлягає економічної інтерпретації.

Оцінювання достовірності кожного з параметрів моделі здійснюється за допомогою t-критерію Стьюдента. Для будь-якого з параметрів моделі а j значення t-критерію розраховується за формулою , де


S ε – стандартне (середнє квадратичне) відхилення рівняння регресії)

визначається за формулою

Коефіцієнт регресії а j вважається досить надійним, якщо розрахункове значення t-критерію з ( n - k - 1) ступенями свободи перевищує табличне, тобто. t розрахунки > t а jn-k-1. Якщо надійність коефіцієнта регресії не підтверджується, слід; висновок про несуттєвість у моделі факторного jознаки та необхідності його усунення з моделі або заміни на іншу факторну ознаку.

Важливу роль в оцінці впливу чинників грають коефіцієнти регресійної моделі. Однак безпосередньо з їх допомогою не можна зіставляти факторні ознаки за ступенем їх впливу на залежну змінну через відмінність одиниць вимірювання та різного ступеня коливання. Для усунення таких відмінностей застосовуються приватні коефіцієнти еластичностіЕ j та бета-коефіцієнти β j.

Формула для розрахунку коефіцієнта еластичності

де

a j – коефіцієнт регресії фактора j,

Середнє значення результативної ознаки

Середнє значення ознаки j

Коефіцієнт еластичності показує, на скільки відсотків змінюється залежна змінна упри зміні фактора jна 1 %.

Формула визначення бета – коефіцієнта.

, де

S xj - Середнє квадратичне відхилення фактора j;

S y – середнє квадратичне відхилення фактора y.

β - коефіцієнт показує, яку частину величини середнього квадратичного відхилення S yзміниться залежна змінна узі зміною відповідної незалежної змінної х j на величину свого середнього квадратичного відхилення при фіксованому значенні інших незалежних змінних.

Частку впливу певного фактора у сумарному впливі всіх факторів можна оцінити за величиною дельта-коефіцієнтів Δ j.

Зазначені коефіцієнти дозволяють проранжувати фактори за ступенем впливу факторів на залежну змінну.

Формула визначення дельта – коефіцієнта.

r yj – коефіцієнт парної кореляції між фактором j та залежною змінною;

R 2 – множинний коефіцієнтдетермінації.

Коефіцієнт множинної детермінаціївикористовують для оцінки якостімножинних регресійних моделей.

Формула визначення коефіцієнта множинної детермінації.

Коефіцієнт детермінації показує частку варіації результативного ознаки, що під впливом факторних ознак, тобто. визначає, яка частка варіації ознаки уврахована в моделі та обумовлена ​​впливом на нього факторів, включених у модель. Чим ближче R 2до одиниці, тим вища якість моделі

При додаванні незалежних змінних значення R 2збільшується, тому коефіцієнт R 2має бути скоригований з урахуванням числа незалежних змінних за формулою

Для перевірки значимості моделіРегресія використовується F-критерій Фішера. Він визначається за формулою

Якщо розрахункове значення критерію з γ 1, = kі γ 2 = (n - k-1)ступенями свободи більше табличного при заданому рівні значущості, модель вважається значущою.

Як міра точності моделі застосовують стандартну помилку, яка є відношенням суми квадратів рівнів залишкової компоненти до величини (n - k -1):

Класичний підхід до оцінювання параметрів лінійної моделі заснований на метод найменших квадратів (МНК). Система нормальних рівняньмає вигляд:

Рішення системи може бути здійснено по одному з відомих способів: Метод Гауса, метод Крамера і т.д.

Приклад15.

По чотирьох підприємствах регіону (таблиця 41) вивчається залежність виробітку продукції на одного працівника y(Тис. руб.) від введення в дію нових основних фондів (% від вартості фондів на кінець року) та від питомої ваги робітників високої кваліфікації у загальній чисельності робітників (%). Потрібно написати рівняння множинної регресії.

Таблиця 41 - Залежність вироблення продукції на одного працівника

Основна мета множинної регресії- побудувати модель з великою кількістю факторів, визначивши при цьому вплив кожного з них окремо, а також сукупний їх вплив на показник, що моделюється.

Призначення сервісу. За допомогою онлайн-калькулятора можна знайти такі показники:

  • рівняння множинної регресії; матриця парних коефіцієнтів кореляції; середні коефіцієнти еластичності для лінійної регресії;
  • множинний коефіцієнт детермінації, довірчі інтервалидля індивідуального та середнього значення результативної ознаки;
Крім цього проводиться перевірка на автокореляцію залишківі гетероскедастичність.

Інструкція. Вкажіть кількість даних (кількість рядків), кількість змінних x натисніть Далі. Отримане рішення зберігається у файлі Word (див. приклад знаходження рівняння множинної регресії та кореляції). Якщо даних багато, можна вставити їх із MS Excel . Для цього вкажіть кількість змінних x натисніть Вставити з Excel ().

Кількість факторів (x) 1 2 3 4 5 6 7 8 9 10 Кількість рядків
",0);">

При обчисленні параметрів рівняння множинної регресії використовується матричний метод . Для множинної регресії з двома змінними (m = 2) можна скористатися методом розв'язання системи рівнянь .

Побудова рівняння множинної регресіїпочинається з вирішення питання про специфікацію моделі, яке у свою чергу включає 2 кола питань: відбір факторіві вибір рівняння регресії.

Відбір факторів зазвичай здійснюється у два етапи:

  1. теоретичний аналіз взаємозв'язку результату та кола факторів, які надають на нього суттєвий вплив;
  2. кількісна оцінка взаємозв'язку факторів із результатом. При лінійній формі зв'язку між ознаками цей етап зводиться до аналізу кореляційної матриці (матриці парних лінійних коефіцієнтів кореляції). Науково обґрунтоване вирішення завдань подібного виду також здійснюється за допомогою дисперсійного аналізу- однофакторного, якщо перевіряється суттєвість впливу того чи іншого фактора на ознаку, що розглядається, або багатофакторного у разі вивчення впливу на нього комбінації факторів.
Чинники, що включаються до множинної регресії, повинні відповідати наступним вимогам:
  1. Вони мають бути кількісно вимірні. Якщо необхідно включити в модель якісний фактор, що не має кількісного виміру, йому потрібно надати кількісну визначеність.
  2. Кожен фактор має бути досить тісно пов'язаний з результатом (тобто коефіцієнт парної лінійної кореляції між фактором та результатом має бути суттєвим).
  3. Фактори не повинні бути сильно корелювані один з одним, тим більше перебувати у строгому функціональному зв'язку (тобто вони не повинні бути інтеркорелювані). Різновидом інтеркорелювання факторів є мультиколлінеарність - тісний лінійний зв'язок між факторами.

Приклад. Побудуйте регресійну модель з двома пояснювальними змінними (множина регресія). Визначте теоретичне рівняння множинної регресії. Оцініть адекватність збудованої моделі.
Рішення.
До вихідної матриці X додамо одиничний стовпець, отримавши нову матрицю X


Знаходимо зворотну матрицю(X T X) -1
13.99 0.64 -1.3
0.64 0.1 -0.0988
-1.3 -0.0988 0.14

Вектор оцінок коефіцієнтів регресії дорівнює
(X T X) -1 X T Y = y(x) =
13,99 0,64 -1,3
0,64 0,1 -0,0988
-1,3 -0,0988 0,14
*
73
563
1032,5
=
34,66
1,97
-2,45

Отримали оцінку рівняння регресії: Y = 34.66 + 1.97X 1 -2.45X 2
Оцінка значущості рівняння множинної регресіїздійснюється шляхом перевірки гіпотези про рівність нулю коефіцієнт детермінації розрахованого за даними генеральної сукупності. Для її перевірки використовують

Суть регресійного аналізу: побудова математичної моделіта визначення її статистичної надійності.

Вид множинної лінійної моделі регресійного аналізу: Y = b 0 + b 1 x i1 + ... + b j x ij + ... + b k x ik + e i де e i- випадкові помилки спостереження, незалежні між собою, мають нульову середню та дисперсію s.

Призначення множинної регресії: аналіз зв'язку між декількома незалежними змінними та залежною змінною.

Економічний зміст параметрів множинної регресії
Коефіцієнт множинної регресії b jпоказує, яку величину у середньому зміниться результативний ознака Y, якщо змінну X jзбільшити на одиницю виміру, т. е. є нормативним коефіцієнтом.

Матричний запис множинної лінійної моделі регресійного аналізу: Y = Xb + e де Y (n x 1)значень результативної ознаки ( y 1 , y 2 ,..., y n);
X- матриця розмірності [ n x (k+1)] спостережуваних значень аргументів;
b- Вектор - стовпець розмірності [ (k+1) x 1] невідомих, які підлягають оцінці параметрів (коефіцієнтів регресії) моделі;
e- випадковий вектор - стовпець розмірності (n x 1)помилок спостережень (залишків).

Завдання регресійного аналізу
Основне завдання регресійного аналізу полягає у знаходженні за вибіркою обсягом nоцінки невідомих коефіцієнтів регресії b 0 , b 1 ,..., b k. Завдання регресійного аналізу полягають у тому, щоб за наявними статистичними даними для змінних X iі Y:

  • отримати найкращі оцінки невідомих параметрів b 0 , b 1 ,..., b k;
  • перевірити статистичні гіпотезипро параметри моделі;
  • перевірити, чи добре модель узгоджується зі статистичними даними (адекватність моделі даним спостережень).

Побудова моделей множинної регресії складається з наступних етапів:

  1. вибір форми зв'язку (рівняння регресії);
  2. визначення параметрів вибраного рівняння;
  3. аналіз якості рівняння та перевірка адекватності рівняння емпіричним даним, удосконалення рівняння.
  • Множинна регресія з однією змінною
  • Множинна регресія з трьома змінними

Інструкція. Вкажіть кількість даних (кількість рядків), кількість змінних x натисніть Далі.

Кількість факторів (x) 1 2 3 4 5 6 7 8 9 10 Кількість рядків
.");">

Приклад вирішення знаходження моделі множинної регресії

Множинна регресія з двома змінними

Модель множинної регресіївиду Y = b 0 + b 1 X 1 + b 2 X 2;
1) Знайти невідомі b 0 , b 1 ,b 2 можна, розв'яжемо систему трилінійних рівнянь з трьома невідомими b 0 ,b 1 ,b 2:

Для вирішення системи можете скористатися
2) Або використавши формули


Для цього будуємо таблицю виду:

Y x 1 x 2 (y-y ср) 2 (x 1 -x 1ср) 2 (x 2 -x 2ср) 2 (y-y ср)(x 1 -x 1ср) (y-y ср)(x 2 -x 2ср) (x 1 -x 1ср)(x 2 -x 2ср)

Вибіркові дисперсії емпіричних коефіцієнтів множинної регресії можна визначити так:

Тут z" jj - j-тий діагональний елемент матриці Z -1 = (X T X) -1 .

При цьому:

де m - кількість пояснюючих змінних моделей.
Зокрема, для рівняння множинної регресії Y = b 0 + b 1 X 1 + b 2 X 2 з двома змінними, що пояснюють, використовуються наступні формули:


Або

або
,,.
Тут r 12 - вибірковий коефіцієнт кореляції між пояснювальними змінними X 1 і X 2; Sb j - стандартна помилка коефіцієнта регресії; S – стандартна помилка множинної регресії (незміщена оцінка).
За аналогією з парною регресією після визначення точкових оцінок b j коефіцієнтів β j (j=1,2,…,m) теоретичного рівняння множинної регресії можуть бути розраховані інтервальні оцінкизазначених коефіцієнтів.

Довірчий інтервал, що накриває з надійністю (1-α) невідоме значення параметра j, визначається як

Множинна регресія в Excel

Щоб знайти параметри множинної регресії засобами Excel, використовується функція ЛІНІЙН(Y; X; 0; 1),
де Y - масив для значень Y
де X - масив для значень X (вказується як єдиний масив для всіх значень Х i)

Перевірка статистичної значущості коефіцієнтів рівняння множинної регресії

Як і у випадку множинної регресії, статистична значимість коефіцієнтів множинної регресії з m пояснювальними змінними перевіряється на основі t-статистики:

що має в даному випадку розподіл Стьюдента з числом ступенів свободи v = n-m-1. При необхідному рівні значимості значення t-статистики, що спостерігається, порівнюється з критичною точною розподілу Стьюдента.
Якщо , то статистична значущість відповідного коефіцієнта множинної регресії підтверджується. Це означає, що фактор Xj лінійно пов'язаний із залежною змінною Y. Якщо ж встановлено факт незначущості коефіцієнта b j , то рекомендується виключити з рівняння змінну Xj. Це не спричинить суттєвої втрати якості моделі, але зробить її більш конкретною.

Для цієї мети, як і у випадку множинної регресії, використовується коефіцієнт детермінації R 2:

Справедливе співвідношення 0<=R2<=1. Чем ближе этот коэффициент к единице, тем больше уравнение множественной регрессии объясняет поведение Y.
Для множинної регресіїКоефіцієнт детермінації є незменшною функцією числа пояснюючих змінних. Додавання нової пояснюючої змінної ніколи не зменшує значення R 2 так як кожна наступна змінна може лише доповнити, але ніяк не скоротити інформацію, що пояснює поведінку залежної змінної.

Співвідношення може бути представлене в наступному вигляді:

для m>1. Зі зростанням значення m


Показники F і R2 дорівнюють або не дорівнює нулю одночасно. Якщо F=0, то R 2 =0, отже, величина Y лінійно залежить від X1,X2,…,Xm..Расчетное значення F порівнюється з критичним Fкр. Fкр, виходячи з необхідного рівня значимості і чисел ступенів свободи v1 = m і v2 = n - m - 1, визначається на основі розподілу Фішера. Якщо F>Fкр, то R2 статистично значущий.

Перевірка здійсненності передумов МНК множинної регресії. Статистика Дарбіна-Уотсона для множинної регресії

Статистична значимість коефіцієнтів множинної регресії та близьке до одиниці значення коефіцієнта детермінації R 2 не гарантують висока якістьрівняння множинної регресії. Тому наступним етапом перевірки якості рівняння множинної регресії є перевірка здійсненності передумов МНК. Причини та наслідки нездійсненності цих передумов, методи коригування регресійних моделей будуть розглянуті в наступних розділах. У цьому параграфі розглянемо популярну в регресійний аналізстатистику Дарбіна-Уотсона.
При статистичному аналізі рівняння регресії на початковому етапічасто перевіряють здійсненність однієї передумови: умови статистичної незалежності відхилень між собою.

При цьому перевіряється некорельованість сусідніх величин e i, i = 1,2, ... n..
Для аналізу корелюваності відхилень використовують статистику Дарбіна-Уотсона:

Критичні значення d 1і d 2визначаються з урахуванням спеціальних таблиць для необхідного рівня значимості α , числа спостережень nта кількості пояснюючих змінних m.

Приватні коефіцієнти кореляції при множинній регресії

Приватні коефіцієнти (або індекси) кореляції, що вимірюють вплив на фактор х i при незмінному рівні інших факторів визначаються за стандартною формулою лінійного коефіцієнтакореляції, тобто. послідовно беруться пари yx 1 ,yx 2 ,... , x 1 x 2 , x 1 x 3 і так далі і для кожної пари знаходиться коефіцієнт кореляції
Обчислення в MS Excel. Матрицю парних коефіцієнтів кореляції змінних можна розрахувати за допомогою інструмента аналізу даних Кореляція. Для цього:
1) Виконати команду Сервіс / Аналіз даних / Кореляція.
2) Вказати діапазон даних;

Перевірка загальної якості рівняння множинної регресії

Для цієї мети, як і у випадку множинної регресії, використовується коефіцієнт детермінації R 2:

Справедливе співвідношення 0 < =R 2 < = 1 . Чим ближче цей коефіцієнт до одиниці, тим більше рівняння множинної регресії пояснює поведінку Y.
Для множинної регресіїкоефіцієнт детермінації є незнищувальною функцією числа пояснюючих змінних. Додавання нової пояснюючої змінної ніколи не зменшує значення R 2, Так як кожна наступна змінна може лише доповнити, але ніяк не скоротити інформацію, що пояснює поведінку залежної змінної.
Іноді при розрахунку коефіцієнта детермінації щоб одержати незміщених оцінок у чисельнику і знаменнику віднімається з одиниці дробу робиться поправка на кількість ступенів свободи, тобто. вводиться так званий скоригований (виправлений) коефіцієнт детермінації:

Співвідношення може бути представлене у такому вигляді:

для m>1. Зі зростанням значення m скоригований коефіцієнт детермінаціїзростає повільніше, ніж звичайний. Очевидно, що тільки при R 2 = 1 може приймати від'ємні значення.
Доведено, що збільшується при додаванні нової пояснюючої змінної тоді і тільки тоді, коли t-статистика для цієї змінної модуля більше одиниці. Тому додавання до моделі нових пояснюючих змінних здійснюється доти, доки зростає скоригований коефіцієнт детермінації.
Рекомендується після перевірки загальної якості рівняння регресії провести його аналіз статистичної значимості. Для цього використовується F-статистика:
Показники Fі R 2рівні чи не дорівнює нулю одночасно. Якщо F=0, то R 2 =0, отже, величина Yлінійно не залежить від X 1 ,X 2 ,…,X m.Розрахункове значення Fпорівнюється з критичним Fкр. Fкрвиходячи з необхідного рівня значущості α та чисел ступенів свободи v 1 = mі v 2 = n - m - 1визначається на основі розподілу Фішера. Якщо F > Fкр, то R 2статистично значущий.

Поділіться з друзями або збережіть для себе:

Завантаження...