Побудувати графік рівняння регресії. Розв'язання задач: лінійна регресія та коефіцієнт кореляції

Призначення сервісу. За допомогою сервісу в онлайн-режимі можна знайти:

параметри рівняння лінійної регресії y=a+bx лінійний коефіцієнткореляції із перевіркою його значимості;
тісноту зв'язку за допомогою показників кореляції та детермінації, МНК-оцінку, статичну надійність регресійного моделювання за допомогою F-критерію Фішера та за допомогою t-критерію Стьюдента, довірчий інтервалпрогнозу рівня значимості α

Рівняння парної регресії відноситься до рівняння регресії першого порядку. Якщо економетрична модель містить лише одну пояснювальну змінну, вона має назву парної регресії. Рівняння регресії другого порядкуі рівняння регресії третього порядкуставляться до нелінійних рівнянь регресії.

Приклад. Здійсніть вибір залежної (пояснюється) і пояснюючої змінної для побудови парної регресійної моделі. Дайте. Визначте теоретичне рівняння парної регресії. Оцініть адекватність збудованої моделі (інтерпретуйте R-квадрат, показники t-статистики, F-статистики).
Рішеннябудемо проводити на основі процесу економетричного моделювання.
1-й етап (постановочний) – визначення кінцевих цілей моделювання, набору чинників і показників, що беруть участь у моделі, їх ролі.
Специфікація моделі - визначення мети дослідження та вибір економічних змінних моделі.
Ситуаційне (практичне) завдання. По 10 підприємствам регіону вивчається залежність вироблення продукції одного працівника y (тис. крб.) від частки робітників високої кваліфікації у кількості робочих x (в %).
2-й етап (апріорний) – передмодельний аналіз економічної сутностівивченого явища, формування та формалізація апріорної інформації та вихідних припущень, зокрема що стосується природи та генези вихідних статистичних даних та випадкових залишкових складових у вигляді низки гіпотез.
Вже на цьому етапі можна говорити про явну залежність рівня кваліфікації робітника та його виробленням, адже чим досвідченіший працівник, тим вища його продуктивність. Але як оцінити цю залежність?
Парна регресіяявляє собою регресію між двома змінними - y і x, тобто модель виду:

Де y – залежна змінна (результативна ознака); x - незалежна, або пояснює, змінна (ознака-фактор). Знак «^» означає, що між змінними x і y немає суворої функціональної залежності, тому практично в кожному окремому випадку величина y складається з двох доданків:

Де y – фактичне значення результативної ознаки; y x – теоретичне значення результативної ознаки, знайдене з рівняння регресії; ε – випадкова величина, Що характеризує відхилення реального значення результативної ознаки від теоретичного, знайденого за рівнянням регресії
Графічно покажемо регресійну залежність між виробленням продукції одного працівника і частки робітників високої кваліфікації.

3-й етап (параметризація) – власне моделювання, тобто. вибір загального виду моделі, зокрема складу і форми зв'язків, що входять до неї, між змінними. Вибір виду функціональної залежності у рівнянні регресії називається параметризацією моделі. Вибираємо рівняння парної регресії, тобто. на кінцевий результат y впливатиме лише один фактор.
4-й етап (інформаційний) – збирання необхідної статистичної інформації, тобто. реєстрація значень факторів, що беруть участь у моделі, і показників. Вибірка складається із 10 підприємств галузі.
5-й етап (ідентифікація моделі) – оцінювання невідомих параметрів моделі за наявними статистичними даними.
Щоб визначити параметри моделі, використовуємо МНК – метод найменших квадратів . Система нормальних рівняньбуде виглядати так:
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Для розрахунку параметрів регресії збудуємо розрахункову таблицю (табл. 1).

x	y	x 2	y 2	x y
10	6	100	36	60
12	6	144	36	72
15	7	225	49	105
17	7	289	49	119
18	7	324	49	126
19	8	361	64	152
19	8	361	64	152
20	9	400	81	180
20	9	400	81	180
21	10	441	100	210
171	77	3045	609	1356

Дані беремо з таблиці 1 (останній рядок), у результаті маємо:
10a + 171 b = 77
171 a + 3045 b = 1356
Цю СЛАУ вирішуємо методом Крамера або методом зворотної матриці.
Отримуємо емпіричні коефіцієнти регресії: b = 0.3251, a = 2.1414
Емпіричне рівняння регресії має вигляд:
y = 0.3251 x + 2.1414
6-й етап (верифікація моделі) - зіставлення реальних та модельних даних, перевірка адекватності моделі, оцінка точності модельних даних.
Аналіз проводимо за допомогою

У попередніх нотатках предметом аналізу часто ставала окрема числова змінна, наприклад, прибутковість взаємних фондів, час завантаження Web-сторінки або обсяг споживання безалкогольних напоїв. У цій і наступних нотатках ми розглянемо методи передбачення значень числової змінної залежно від значень однієї чи кількох інших числових змінних.

Матеріал буде проілюстрований наскрізним прикладом. Прогнозування обсягу продажу у магазині одягу.Мережа магазинів зниженого в ціні одягу Sunflowers протягом 25 років постійно розширювалася. Проте на даний час компанія не має систематичного підходу до вибору нових торгових точок. Місце, де компанія збирається відкрити новий магазин, визначається з урахуванням суб'єктивних міркувань. Критеріями вибору є вигідні умови оренди або подання менеджера про ідеальне розташування магазину. Уявіть, що ви - керівник відділу спеціальних проектів та планування. Вам доручили розробити стратегічний план для відкриття нових магазинів. Цей план повинен містити прогноз річного обсягу продажів у магазинах, що знову відкриваються. Ви вважаєте, що торгова площа безпосередньо пов'язана з обсягом виручки і хочете врахувати цей факт у процесі прийняття рішення. Як розробити статистичну модель, Що дозволяє прогнозувати річний обсяг продажів на основі розміру нового магазину?

Як правило, для прогнозування значень змінної використовується регресійний аналіз. Його мета - розробити статистичну модель, що дозволяє передбачати значення залежної змінної, або відгуку, за значеннями, Крайній міріоднієї, незалежної, чи пояснюючої, змінної. У цьому замітці ми розглянемо просту лінійну регресію - статистичний метод, що дозволяє передбачати значення залежної змінної Yза значеннями незалежної змінної X. У наступних нотатках буде описано модель множинної регресії, призначена для передбачення значень незалежної змінної Yза значеннями кількох залежних змінних ( Х 1 , Х 2 , …, X k).

Завантажити нотатку у форматі або , приклади у форматі

Види регресійних моделей

де ρ 1 - Коефіцієнт автокореляції; якщо ρ 1 = 0 (немає автокореляції), D≈ 2; якщо ρ 1 ≈ 1 (позитивна автокореляція), D≈ 0; якщо ρ 1 = -1 (негативна автокореляція), D ≈ 4.

На практиці застосування критерію Дурбіна-Уотсона ґрунтується на порівнянні величини Dз критичними теоретичними значеннями d Lі d Uдля заданої кількості спостережень n, числа незалежних змінних моделі k(для простої лінійної регресії k= 1) та рівня значущості α. Якщо D< d L , гіпотеза про незалежність випадкових відхиленьвідкидається (отже, є позитивна автокореляція); якщо D > d U, гіпотеза не відкидається (тобто автокореляція відсутня); якщо d L< D < d U немає достатніх підстав для прийняття рішення. Коли розрахункове значення Dперевищує 2, то з d Lі d Uпорівнюється не сам коефіцієнт D, а вираз (4 – D).

Для обчислення статистики Дурбіна-Уотсона в Excel звернемося до нижньої таблиці на рис. 14 Виведення залишку. Чисельник у виразі (10) обчислюється за допомогою функції СУММКВРАЗН(масив1;масив2), а знаменник СУММКВ(масив) (рис. 16).

Рис. 16. Формули розрахунку статистики Дурбіна-Уотсона

У нашому прикладі D= 0,883. Основне питання полягає в наступному - яке значення статистики Дурбіна-Уотсона слід вважати досить малим, щоб зробити висновок про існування позитивної автокореляції? Необхідно співвіднести значення D з критичними значеннями ( d Lі d U), що залежать від числа спостережень nта рівня значущості α (рис. 17).

Рис. 17. Критичні значення статистики Дурбіна-Уотсона (фрагмент таблиці)

Таким чином, у задачі про обсяг продажу в магазині, що доставляє товари додому, існують одна незалежна змінна ( k= 1), 15 спостережень ( n= 15) та рівень значущості α = 0,05. Отже, d L= 1,08 та dU= 1,36. Оскільки D = 0,883 < d L= 1,08, між залишками існує позитивна автокореляція, метод найменших квадратів застосовувати не можна.

Перевірка гіпотез про нахил та коефіцієнт кореляції

Вище регресія застосовувалась виключно для прогнозування. Для визначення коефіцієнтів регресії та передбачення значення змінної Yпри заданій величині змінної Xвикористовувався метод найменших квадратів. Крім того, ми розглянули середньоквадратичну помилку оцінки та коефіцієнт змішаної кореляції. Якщо аналіз залишків підтверджує, що умови застосування методу найменших квадратів не порушуються, і модель простої лінійної регресії є адекватною, на основі вибіркових даних можна стверджувати, що між змінними в генеральної сукупностіІснує лінійна залежність.

Застосуванняt -Критерію для нахилу.Перевіряючи, чи дорівнює нахил генеральної сукупності β 1 нулю, можна визначити, чи існує статистично значуща залежність між змінними Xі Y. Якщо ця гіпотеза відхиляється, можна стверджувати, що між змінними Xі YІснує лінійна залежність. Нульова та альтернативна гіпотези формулюються наступним чином: Н 0: β 1 = 0 (немає лінійної залежності), Н1: β 1 ≠ 0 (є лінійна залежність). За визначенням t-статистика дорівнює різниці між вибірковим нахилом та гіпотетичним значенням нахилу генеральної сукупності, поділеної на середньоквадратичну помилку оцінки нахилу:

(11) t = (b 1 – β 1 ) / S b 1

де b 1 – нахил прямої регресії за вибірковими даними, β1 – гіпотетичний нахил прямої генеральної сукупності, , а тестова статистика tмає t-розподіл з n – 2ступенями свободи.

Перевіримо, чи існує статистично значуща залежність між розміром магазину та річним обсягом продажу при α = 0,05. t-критерій виводиться поряд з іншими параметрами під час використання Пакет аналізу(опція Регресія). Повністю результати роботи Пакету аналізу наведено на рис. 4 фрагмент, що відноситься до t-статистики - на рис. 18.

Рис. 18. Результати застосування t

Оскільки кількість магазинів n= 14 (див. рис.3), критичне значення t-Статистики при рівні значимості α = 0,05 можна знайти за формулою: t L=СТЬЮДЕНТ.ОБР(0,025;12) = –2,1788, де 0,025 – половина рівня значимості, а 12 = n – 2; t U=СТЬЮДЕНТ.ОБР(0,975;12) = +2,1788.

Оскільки t-статистика = 10,64> t U= 2,1788 (рис. 19), нульова гіпотеза Н 0відхиляється. З іншого боку, р-значення для Х= 10,6411, що обчислюється за формулою =1-СТЬЮДЕНТ.РАСП(D3;12;ІСТИНА), приблизно дорівнює нулю, тому гіпотеза Н 0знову відхиляється. Той факт, що рзначення майже дорівнює нулю, означає, що якби між розмірами магазинів і річним обсягом продажів не існувало реальної лінійної залежності, виявити її за допомогою лінійної регресії було б практично неможливо. Отже, між середнім річним обсягом продажів у магазинах та їх розміром існує статистично значуща лінійна залежність.

Рис. 19. Перевірка гіпотези про нахил генеральної сукупності при рівні значимості, що дорівнює 0,05, та 12 ступенях свободи

ЗастосуванняF -Критерію для нахилу.Альтернативним підходом до перевірки гіпотез про нахил простої лінійної регресії є використання F-Критерія. Нагадаємо, що F-Критерій застосовується для перевірки відносин між двома дисперсіями (докладніше див.). При перевірці гіпотези про нахил мірою випадкових помилок є дисперсія помилки (сума квадратів помилок, поділена на кількість ступенів свободи), тому F-Критерій використовує відношення дисперсії, що пояснюється регресією (тобто величини SSR, поділеної на кількість незалежних змінних k), до дисперсії помилок ( MSE = S YX 2 ).

За визначенням F-статистика дорівнює середньому квадрату відхилень, обумовлених регресією (MSR), поділеному на дисперсію помилки (MSE): F = MSR/ MSE, де MSR =SSR / k, MSE =SSE/(n- k - 1), k– кількість незалежних змінних у регресійній моделі. Тестова статистика Fмає F-розподіл з kі n– k – 1ступенями свободи.

При заданому рівні значення α вирішальне правилоформулюється так: якщо F > FUнульова гіпотеза відхиляється; в іншому випадку вона не відхиляється. Результати оформлені у вигляді зведеної таблиці дисперсійного аналізу, наведені на рис. 20.

Рис. 20. Таблиця дисперсійного аналізу для перевірки гіпотези про статистичної значимостікоефіцієнта регресії

Аналогічно t-критерію F-критерій виводиться в таблицю під час використання Пакет аналізу(опція Регресія). Цілком результати роботи Пакет аналізунаведено на рис. 4, фрагмент, що відноситься до F-Статистиці - на рис. 21.

Рис. 21. Результати застосування F-критерію, отримані за допомогою Пакету аналізу Excel

F-статистика дорівнює 113,23, а р-значення близько до нуля (комірка ЗначимістьF). Якщо рівень значущості α дорівнює 0,05, визначити критичне значення F-розподілу з одним і 12 ступенями свободи можна за формулою F U= F.ОБР (1-0,05; 1; 12) = 4,7472 (рис. 22). Оскільки F = 113,23 > F U= 4,7472, причому р-значення близько до 0< 0,05, нулевая гипотеза Н 0відхиляється, тобто. Обсяг магазину був із його річним обсягом продажів.

Рис. 22. Перевірка гіпотези про нахилі генеральної сукупності при рівні значимості, що дорівнює 0,05, з одним і 12 ступенями свободи

Довірчий інтервал, що містить нахил β 1 .Для перевірки гіпотези про існування лінійної залежності між змінними можна побудувати довірчий інтервал, що містить нахил 1 і переконатися, що гіпотетичне значення 1 = 0 належить цьому інтервалу. Центром довірчого інтервалу, що містить нахил β 1 , є вибірковий нахил b 1 , а його межами - величини b 1 ±t n –2 S b 1

Як показано на рис. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =СТЬЮДЕНТ.ОБР(0,975;12) = 2,1788. Отже, b 1 ±t n –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, або + 1,328 ≤ β 1 ≤ +2,012. Таким чином, нахил генеральної сукупності з ймовірністю 0,95 лежить в інтервалі від +1,328 до +2,012 (тобто від 1328000 до 2012000 дол.). Оскільки ці величини більші за нуль, між річним обсягом продажів і площею магазину існує статистично значуща лінійна залежність. Якби довірчий інтервал містив нуль, між змінними не було б залежності. Крім того, довірчий інтервал означає, що кожне збільшення площі магазину на 1000 кв. футів призводить до збільшення середнього обсягу продажів на величину від 1328000 до 2012000 доларів.

Використанняt -Критерію для коефіцієнта кореляції.було введено коефіцієнт кореляції r, що є мірою залежності між двома числовими змінними. З його допомогою можна встановити, чи існує між двома змінними статистично значущий зв'язок. Позначимо коефіцієнт кореляції між генеральними сукупностями обох змінних символом ρ. Нульова та альтернативна гіпотези формулюються наступним чином: Н 0: ρ = 0 (немає кореляції), Н 1: ρ ≠ 0 (є кореляція). Перевірка існування кореляції:

де r = + , якщо b 1 > 0, r = – , якщо b 1 < 0. Тестовая статистика tмає t-розподіл з n – 2ступенями свободи.

У задачі про мережу магазинів Sunflowers r 2= 0,904, а b 1- +1670 (див. рис. 4). Оскільки b 1> 0, коефіцієнт кореляції між обсягом річних продажів та розміром магазину дорівнює r= +√0,904 = +0,951. Перевіримо нульову гіпотезу, яка стверджує, що між цими змінними немає кореляції, використовуючи t-Статистику:

При рівні значимості α = 0,05 нульову гіпотезу слід відхилити, оскільки t= 10,64> 2,1788. Таким чином, можна стверджувати, що між обсягом річних продажів та розміром магазину існує статистично значущий зв'язок.

При обговоренні висновків, що стосуються нахилу генеральної сукупності, довірчі інтервали та критерії перевірки гіпотез є взаємозамінними інструментами. Проте обчислення довірчого інтервалу, що містить коефіцієнт кореляції, виявляється складнішою справою, оскільки вид вибіркового розподілу статистики. rзалежить від справжнього коефіцієнта кореляції.

Оцінка математичного очікування та передбачення індивідуальних значень

У цьому розділі розглядаються методи оцінки математичного очікування відгуку Yта передбачення індивідуальних значень Yпри заданих значеннях змінної X.

Побудова довірчого інтервалу.У прикладі 2 (див. вище розділ Метод найменших квадратів) регресійне рівняннядозволило передбачити значення змінної Y X. У задачі про вибір місця для торгової точки середній річний обсяг продажу магазині площею 4000 кв. футів дорівнював 7,644 млн. дол. Однак ця оцінка математичного очікування генеральної сукупності є точковою. для оцінки математичного очікування генеральної сукупності було запропоновано концепцію довірчого інтервалу. Аналогічно можна запровадити поняття довірчого інтервалу для математичного очікування відгукупри заданому значенні змінної X:

де , = b 0 + b 1 X i- Передбачене значення змінне Yпри X = X i, S YX- Середньоквадратична помилка, n- Обсяг вибірки, Xi- задане значення змінної X, µ Y|X = Xi – математичне очікуваннязмінної Yпри Х = Х i, SSX =

Аналіз формули (13) показує, що ширина довірчого інтервалу залежить від кількох факторів. При заданому рівні значущості зростання амплітуди коливань навколо лінії регресії, виміряне за допомогою середньоквадратичної помилки, призводить до збільшення ширини інтервалу. З іншого боку, як і слід було очікувати, збільшення обсягу вибірки супроводжується звуженням інтервалу. Крім того, ширина інтервалу змінюється в залежності від значень Xi. Якщо значення змінної Yпередбачається для величин Xблизьких до середнього значення , Довірчий інтервал виявляється вже, ніж при прогнозуванні відгуку для значень, далеких від середнього.

Припустимо, що, вибираючи місце для магазину, ми хочемо побудувати 95% довірчий інтервал для середнього річного обсягу продажів у всіх магазинах, площа яких дорівнює 4000 кв. футів:

Отже, середній річний обсяг продажів у всіх магазинах, площа яких дорівнює 4000 кв. футів, з 95%-ною ймовірністю лежить в інтервалі від 6,971 до 8,317 млн. дол.

Обчислення довірчого інтервалу для передбаченого значення.Крім довірчого інтервалу для математичного очікування відгуку при заданому значенні змінної Xчасто необхідно знати довірчий інтервал для передбаченого значення. Незважаючи на те, що формула для обчислення такого довірчого інтервалу дуже схожа на формулу (13), цей інтервал містить передбачене значення, а не оцінку параметра. Інтервал для передбаченого відгуку YX = Xiпри конкретному значенні змінної Xiвизначається за формулою:

Припустимо, що, вибираючи місце для торгової точки, ми хочемо побудувати 95% довірчий інтервал для передбаченого річного обсягу продажів у магазині, площа якого дорівнює 4000 кв. футів:

Отже, передбачений річний обсяг продажів у магазині, площа якого дорівнює 4000 кв. футів, з 95%-ной ймовірністю лежить в інтервалі від 5,433 до 9,854 млн. дол. Як бачимо, довірчий інтервал для передбаченого значення відгуку набагато ширший, ніж довірчий інтервал для його математичного очікування. Це тим, що мінливість при прогнозуванні індивідуальних значень набагато більше, ніж за оцінці математичного очікування.

Підводне каміння та етичні проблеми, пов'язані із застосуванням регресії

Проблеми, пов'язані з регресійним аналізом:

Ігнорування умов застосування методу найменших квадратів.
Помилкова оцінка умов застосування методу найменших квадратів.
Неправильний вибір альтернативних методів у разі порушення умов застосування методу найменших квадратів.
Застосування регресійного аналізу без глибоких знань про предмет дослідження.
Екстраполяція регресії за межі діапазону зміни змінної, що пояснює.
Плутанина між статистичною та причинно-наслідковою залежностями.

Широке поширення електронних таблиць та програмного забезпечення для статистичних розрахунків ліквідувало обчислювальні проблеми, що перешкоджали застосуванню регресійного аналізу. Однак це призвело до того, що регресійний аналіз стали застосовувати користувачі, які не мають достатньої кваліфікації та знань. Звідки користувачам знати про альтернативні методи, якщо багато хто з них взагалі не має жодного поняття про умови застосування методу найменших квадратів і не вміє перевіряти їх виконання?

Дослідник не повинен захоплюватися перемелюванням чисел - обчисленням зсуву, нахилу та коефіцієнта змішаної кореляції. Йому потрібні глибші знання. Проілюструємо це класичним прикладом, взятим із підручників. Анскомб показав, що це чотири набору даних, наведених на рис. 23, мають одні й самі параметри регресії (рис. 24).

Рис. 23. Чотири набори штучних даних

Рис. 24. Регресійний аналіз чотирьох штучних наборів даних; виконаний за допомогою Пакет аналізу(Клікніть на малюнку, щоб збільшити зображення)

Отже, з погляду регресійного аналізу, всі ці набори даних абсолютно ідентичні. Якби аналіз був на цьому закінчений, ми втратили б багато корисної інформації. Про це свідчать діаграми розкиду (рис. 25) та графіки залишків (рис. 26), побудовані для цих наборів даних.

Рис. 25. Діаграми розкиду для чотирьох наборів даних

Діаграми розкиду та графіки залишків свідчать про те, що ці дані відрізняються одна від одної. Єдиний набір, розподілений уздовж прямої лінії, - набір А. Графік залишків, обчислених за набором А, немає закономірності. Цього не можна сказати про набори Б, В та Г. Графік розкиду, побудований за набором Б, демонструє яскраво виражену квадратичну модель. Цей висновок підтверджується графіком залишків, які мають параболічну форму. Діаграма розкиду та графік залишків показують, що набір даних містить викид. У цій ситуації необхідно виключити викид із набору даних та повторити аналіз. Метод, що дозволяє виявляти та виключати викиди зі спостережень, називається аналізом впливу. Після виключення викиду результат повторної оцінки моделі може бути зовсім іншим. Діаграма розкиду, побудована за даними набору Р, ілюструє незвичайну ситуацію, у якій емпірична модель значно залежить від окремого відгуку ( Х 8 = 19, Y 8 = 12,5). Такі регресійні моделі необхідно обчислювати особливо ретельно. Отже, графіки розкиду та залишків є вкрай необхідним інструментомрегресійного аналізу та повинні бути його невід'ємною частиною. Без них регресійний аналіз не заслуговує на довіру.

Рис. 26. Графіки залишків для чотирьох наборів даних

Як уникнути підводного каміння при регресійному аналізі:

Аналіз можливого взаємозв'язку між змінними Xі Yзавжди починайте з побудови діаграми розкиду.
Перш ніж інтерпретувати результати регресійного аналізу, перевіряйте умови його застосування.
Побудуйте графік залежності залишків від незалежної змінної. Це дозволить визначити, наскільки емпірична модель відповідає результатам спостереження, та виявити порушення сталості дисперсії.
Для перевірки припущення про нормальному розподіліпомилок використовуйте гістограми, діаграми «ствол та листя», блокові діаграми та графіки нормального розподілу.
Якщо умови застосування методу найменших квадратів не виконуються, використовуйте альтернативні методи (наприклад, моделі квадратичної або множинної регресії).
Якщо умови застосування методу найменших квадратів виконуються, необхідно перевірити гіпотезу про статистичну значущість коефіцієнтів регресії та побудувати довірчі інтервали, що містять математичне очікування та передбачене значення відгуку.
Уникайте передбачати значення залежної змінної за межами діапазону зміни незалежної змінної.
Майте на увазі, що статистичні залежності не завжди є причинно-наслідковими. Пам'ятайте, що кореляція між змінними не означає наявності причинно-наслідкової залежності між ними.

РезюмеЯк показано на структурній схемі (рис. 27), у замітці описані модель простої лінійної регресії, умови її застосування та способи перевірки цих умов. Розглянуто t-Критерій для перевірки статистичної значущості нахилу регресії Для передбачення значень залежною змінною використано регресійну модель. Розглянуто приклад, пов'язаний із вибором місця для торгової точки, в якому досліджується залежність річного обсягу продажу від площі магазину. Отримана інформація дозволяє точніше вибрати місце для магазину та передбачити його річний обсяг продажу. У наступних нотатках буде продовжено обговорення регресійного аналізу, а також розглянуто моделі множинної регресії.

Рис. 27. Структурна схема нотатки

Використовуються матеріали книги Левін та ін. Статистика менеджерів. - М.: Вільямс, 2004. - с. 792–872

Якщо залежна змінна є категорійною, необхідно застосовувати логістичну регресію.

Лінія регресії є графічним відображенням взаємозв'язку між явищами. Дуже наочно можна побудувати лінію регресії у Excel.

Для цього необхідно:

1.Відкрити програму Excel

2.Створити стовпці з даними. У нашому прикладі ми будуватимемо лінію регресії, або взаємозв'язку, між агресивністю та невпевненістю в собі у дітей-першокласників. В експерименті брали участь 30 дітей, дані представлені в таблиці ексель:

1 стовпчик - № випробуваного

2 стовпчик агресивністьу балах

3 стовпчик невпевненість в собіу балах

3. Потім необхідно виділити обидва стовпчики (без назви стовпчика), натиснути вкладку вставка , вибрати точкова , а із запропонованих макетів вибрати найперший точкова з маркерами .

4.Отже, у нас вийшла заготівля для лінії регресії — так звана — діаграма розсіювання. Для переходу до лінії регресії потрібно клацнути на малюнок, що вийшов, натиснути вкладку конструктор, знайти на панелі макети діаграм та вибрати М акет9 , на ньому ще написано f(x)

5.Отже, у нас вийшла лінія регресії. На графіку також зазначено її рівняння та квадрат коефіцієнта кореляції

6. Залишилося додати назву графіка, назву осей. Також за бажанням можна прибрати легенду, зменшити кількість горизонтальних лінійсітки (вкладка макет , потім сітка ). Основні зміни та налаштування відбуваються у вкладці Макет

Лінія регресії побудована у MS Excel. Тепер її можна додати до тексту роботи.

Територіями регіону наводяться дані за 200Х р.

Номер регіону	Середньодушовий прожитковий мінімум на день одного працездатного, руб., х	Середньоденна заробітна плата, руб., у
1	78	133
2	82	148
3	87	134
4	79	154
5	89	162
6	106	195
7	67	139
8	88	158
9	73	152
10	87	162
11	76	159
12	115	173

Завдання:

1. Побудуйте поле кореляції та сформулюйте гіпотезу про форму зв'язку.

2. Розрахуйте параметри рівняння лінійної регресії

4. Дайте за допомогою середнього (загального) коефіцієнта еластичності порівняльну оцінку сили зв'язку фактора із результатом.

7. Розрахуйте прогнозне значення результату, якщо прогнозне значення фактора збільшиться на 10% його середнього рівня. Визначте довірчий інтервал прогнозу рівня значущості .

Рішення:

Вирішимо це завдання за допомогою Excel.

1. Зіставивши наявні дані х і у, наприклад, ранжирувавши їх у порядку зростання фактора х, можна спостерігати наявність прямої залежності між ознаками, коли збільшення середньодушового прожиткового мінімуму збільшує середньоденну заробітну плату. Виходячи з цього, можна зробити припущення, що зв'язок між ознаками прямий і його можна описати рівнянням прямий. Той самий висновок підтверджується і основі графічного аналізу.

Щоб побудувати поле кореляції, можна скористатися ППП Excel. Введіть вихідні дані у послідовності: спочатку х, потім у.

Виділіть область клітинок, що містить дані.

Потім оберіть: Вставка / Точкова діаграма / Точкова з маркерамияк показано малюнку 1.

Малюнок 1 Побудова поля кореляції

Аналіз поля кореляції показує наявність близької прямолінійної залежності, оскільки точки розташовані практично по прямій лінії.

2. Для розрахунку параметрів рівняння лінійної регресії
скористаємося вбудованою статистичною функцією Лінейн.

Для цього:

1) Відкрийте існуючий файл, що містить дані, що аналізуються;
2) Виділіть область порожніх осередків 5×2 (5 рядків, 2 стовпці) для виведення результатів регресійної статистики.
3) Активізуйте Майстер функцій: у головному меню оберете Формули / Вставити функцію.
4) У вікні Категоріяви берете Статистичні, у вікні функція - Лінейн. Клацніть по кнопці ОКяк показано на малюнку 2;

Рисунок 2 Діалогове вікно «Майстер функцій»

5) Заповніть аргументи функції:

Відомі значення у

Відомі значення х

Константа- логічне значення, що вказує на наявність або відсутність вільного члена в рівнянні; якщо Константа = 1, вільний член розраховується звичайним чином, якщо Константа = 0, то вільний член дорівнює 0;

Статистика- логічне значення, яке вказує, виводити додаткову інформацію щодо регресійного аналізу чи ні. Якщо Статистика = 1, то додаткова інформаціявиводиться, якщо Статистика = 0, виводяться лише оцінки параметрів рівняння.

Клацніть по кнопці ОК;

Рисунок 3 Діалогове вікно аргументів функції ЛІНІЙН

6) У лівому верхньому осередку виділеної області з'явиться перший елемент підсумкової таблиці. Щоб розкрити всю таблицю, натисніть клавішу , а потім на комбінацію клавіш ++ .

Додаткова регресійна статистика буде виводитись у порядку, зазначеному в наступній схемі:

Значення коефіцієнта b	Значення коефіцієнта a
Стандартна помилка b	Стандартна помилка a
Стандартна помилка y
F-статистика
Регресійна сума квадратів

Рисунок 4 Результат обчислення функції ЛІНІЙН

Набули рівняння регресії:

Робимо висновок: Зі збільшенням середньодушового прожиткового мінімуму на 1 руб. середньоденна вести збільшується загалом на 0,92 крб.

Це означає, що 52% варіації заробітної плати(у) пояснюється варіацією фактора х – середньодушового прожиткового мінімуму, а 48% – дією інших факторів, не включених до моделі.

За обчисленим коефіцієнтом детермінації можна розрахувати коефіцієнт кореляції: .

Зв'язок оцінюється як тісний.

4. За допомогою середнього (загального) коефіцієнта еластичності визначимо силу впливу фактора на результат.

Для рівняння прямий середній (загальний) коефіцієнт еластичності визначимо за такою формулою:

Середні значення знайдемо, виділивши область осередків зі значеннями х, і виберемо Формули / Автосума / Середнє, і те саме зробимо зі значеннями у.

Рисунок 5 Розрахунок середніх значень функції та аргумент

Таким чином, за зміни середньодушового прожиткового мінімуму на 1% від свого середнього значення середньоденна заробітна плата зміниться в середньому на 0,51%.

За допомогою інструмента аналізу даних Регресіяможна отримати:
- результати регресійної статистики,
- результати дисперсійного аналізу,
- результати довірчих інтервалів,
- залишки та графіки підбору лінії регресії,
- залишки та нормальну ймовірність.

Порядок дій наступний:

1) перевірте доступ до Пакету аналізу. У головному меню виберіть: Файл/Параметри/Надбудови.

2) У списку, що розкривається Управліннявиберіть пункт Надбудови Excelта натисніть кнопку Перейти.

3) У вікні Надбудовивстановіть прапорець Пакет аналізу, а потім натисніть кнопку ОК.

Якщо Пакет аналізувідсутня у списку поля Доступні надбудови, натисніть кнопку Огляд, щоб здійснити пошук.

Якщо відображається повідомлення про те, що пакет аналізу не встановлено на комп'ютері, натисніть кнопку Так, щоб встановити його.

4) У головному меню послідовно виберіть: Дані / Аналіз даних / Інструменти аналізу / Регресія, а потім натисніть кнопку ОК.

5) Заповніть діалогове вікно введення даних та параметрів виведення:

Вхідний інтервал Y- Діапазон, що містить дані результативної ознаки;

Вхідний інтервал X- Діапазон, що містить дані факторної ознаки;

Мітки- прапорець, який вказує, чи містить перший рядок назви стовпців чи ні;

Константа - нуль- Прапорець, що вказує на наявність або відсутність вільного члена у рівнянні;

Вихідний інтервал- Досить вказати ліву верхню комірку майбутнього діапазону;

6) Новий робочий лист – можна задати довільне ім'я нового листа.

Потім натисніть кнопку ОК.

Рисунок 6 Діалогове вікно введення параметрів інструменту Регресія

Результати регресійного аналізу даних завдань представлені малюнку 7.

Рисунок 7 Результат застосування інструменту регресія

5. Оцінимо за допомогою середньої помилкиапроксимації якість рівнянь. Скористаємося результатами регресійного аналізу, представленого на Рисунку 8.

Рисунок 8 Результат застосування інструменту регресія «Виведення залишку»

Складемо нову таблицю як показано малюнку 9. У графі З розрахуємо відносну помилкуапроксимації за формулою:

Рисунок 9 Розрахунок середньої помилки апроксимації

Середня помилка апроксимації розраховується за формулою:

Якість побудованої моделі оцінюється як хороша, тому що не перевищує 8 – 10%.

6. З таблиці з регресійною статистикою(Малюнок 4) випишемо фактичне значення F-критерію Фішера:

Оскільки при 5%-ном рівні значимості, можна дійти невтішного висновку про значимість рівняння регресії (зв'язок доведено).

8. Оцінку статистичної значущості параметрів регресії проведемо за допомогою t-статистики Стьюдента та шляхом розрахунку довірчого інтервалу кожного з показників.

Висуваємо гіпотезу Н 0 про статистично незначну відмінність показників від нуля:

для числа ступенів свободи

На малюнку 7 є фактичні значення t-статистики:

t-критерій для коефіцієнта кореляції можна розрахувати двома способами:

I спосіб:

де - Випадкова помилка коефіцієнта кореляції.

Дані до розрахунку візьмемо з таблиці на Рисунку 7.

II спосіб:

Фактичні значення t-статистики перевищують табличні значення:

Тому гіпотеза Н 0 відхиляється, тобто параметри регресії та коефіцієнт кореляції не випадково відрізняються від нуля, а статистично значущі.

Довірчий інтервал для параметра a визначається як

Для параметра a 95% межі як показано на малюнку 7 склали:

Довірчий інтервал для коефіцієнта регресії визначається як

Для коефіцієнта регресії b 95% межі як показано на малюнку 7 склали:

Аналіз верхньої та нижньої меж довірчих інтервалів призводить до висновку про те, що з ймовірністю параметри a і b, перебуваючи у зазначених межах, не набувають нульових значень, тобто. є статистично незначущими і істотно відмінні від нуля.

7. Отримані оцінки рівняння регресії дають змогу використовувати його для прогнозу. Якщо прогнозне значення прожиткового мінімуму становитиме:

Тоді прогнозне значення прожиткового мінімуму становитиме:

Помилку прогнозу розрахуємо за такою формулою:

де

Дисперсію вважатимемо також за допомогою ППП Excel. Для цього:

1) Активізуйте Майстер функцій: у головному меню оберете Формули / Вставити функцію.

3) Заповніть діапазон, що містить числові дані факторної ознаки. Натисніть ОК.

Рисунок 10 Розрахунок дисперсії

Набули значення дисперсії

Для підрахунку залишкової дисперсії на один ступінь свободи скористаємося результатами дисперсійного аналізу, як показано на Рисунку 7.

Довірчі інтервали прогнозу індивідуальних значень у при ймовірності 0,95 визначаються виразом:

Інтервал досить широкий, передусім, рахунок малого обсягу спостережень. Загалом виконаний прогноз середньомісячної заробітної плати виявився надійним.

Умову задачі взято з: Практикум з економетрики: Навч. посібник/І.І. Єлісєєва, С.В. Куришева, Н.М. Гордєєнко та ін; За ред. І.І. Єлісєєвої. – М.: Фінанси та статистика, 2003. – 192 с.: іл.

Парна лінійна регресія - це залежність між однією змінною та середнім значенням іншої змінної. Найчастіше модель записується як $y=ax+b+e$, де $x$ - факторна змінна, $y$ - результативна (залежна), $e$ - випадкова компонента (залишок, відхилення).

У навчальних задачах з математичної статистики зазвичай використовується наступний алгоритмдля знаходження рівняння регресії.

Вибір моделі (рівняння). Часто модель задана заздалегідь (знайти лінійну регресію) або для підбору використовують графічний метод: будують діаграму розсіювання та аналізують її форму
Обчислення коефіцієнтів (параметрів) рівняння регресії. Часто для цього використовують метод найменших квадратів.
Перевірка значущості коефіцієнта кореляції та параметрів моделі (також для них можна побудувати довірчі інтервали), оцінка якості моделі за критерієм Фішера.
Аналіз залишків, обчислення стандартної помилки регресії, прогноз за моделлю (опціонально).

Нижче ви знайдете рішення для парної регресії (за рядами даних чи кореляційної таблиці, з різними додатковими завданнями) і кілька завдань визначення і дослідження коефіцієнта кореляції.

Сподобалось? Додати до закладок

Приклади рішень онлайн: лінійна регресія

Проста вибірка

приклад 1.Є дані середнього вироблення однієї робочого Y (тис. крб.) і товарообігу X (тис. крб.) в 20 магазинах за квартал. На основі вказаних даних потрібно:
1) визначити залежність (коефіцієнт кореляції) середнього виробітку на одного робітника від товарообігу,
2) скласти рівняння прямої регресії цієї залежності.

приклад 2.З метою аналізу взаємного впливу зарплати та плинності робочої сили на п'яти однотипних фірмах з однаковим числом працівників проведено вимірювання рівня місячної зарплатиХ і числа робочих, що звільнилися за рік Y:
X 100150200250300
Y 60 35 20 20 15
Знайти лінійну регресію Y на X, вибірковий коефіцієнт кореляції.

приклад 3.Знайти вибіркові числові характеристикита вибіркове рівняння лінійної регресії $y_x=ax+b$. Побудувати пряму регресію та зобразити на площині точки $(x,y)$ з таблиці. Обчислити залишкову дисперсію. Перевірити адекватність лінійної регресійної моделі за коефіцієнтом детермінації.

приклад 4.Обчислити коефіцієнти рівняння регресії. Визначити вибірковий коефіцієнт кореляції між густиною деревини маньчжурського ясена та його міцністю.
Вирішуючи завдання необхідно побудувати поле кореляції, за видом поля визначити вид залежності, написати загальний виглядрівняння регресії Y на Х, визначити коефіцієнти рівняння регресії та обчислити коефіцієнти кореляції між двома заданими величинами.

Приклад 5.Компанію з прокату автомобілів цікавить залежність між пробігом автомобілів X та вартістю щомісячного технічне обслуговування Y. Для з'ясування характеру зв'язку було відібрано 15 автомобілів. Побудуйте графік вихідних даних і визначте характер залежності. Розрахуйте вибірковий коефіцієнт лінійної кореляції Пірсона, перевірте його значення при 0,05. Побудуйте рівняння регресії та дайте інтерпретацію отриманих результатів.

Кореляційна таблиця

Приклад 6.Знайти вибіркове рівняння прямої регресії Y на X за заданою кореляційною таблицею

Приклад 7.У таблиці 2 наведено дані залежності споживання Y (ум. од.) від доходу X (ум. од.) для деяких домашніх господарств.
1. У припущенні, що між X та Y існує лінійна залежність, знайдіть точкові оцінкикоефіцієнтів лінійної регресії
2. Знайдіть стандартне відхилення$s$ та коефіцієнт детермінації $R^2$.
3. У припущенні нормальності випадкової складової регресійної моделі перевірте гіпотезу про відсутність лінійної залежності між Y та X.
4. Яке очікуване споживання домашнього господарства з доходом $ x_n = 7 $ ум. од.? Знайдіть довірчий інтервал прогнозу.
Дайте інтерпретацію одержаних результатів. Рівень значущості завжди вважати рівним 0,05.

Приклад 8.Розподіл 100 нових видів тарифів на стільниковий зв'язок всіх відомих мобільних систем X (ден. од.) та виручка від них Y (ден. од.) наводиться у таблиці:
Необхідно:
1) Обчислити групові середні та побудувати емпіричні лінії регресії;
2) Припускаючи, що між змінними X та Y існує лінійна кореляційна залежність:
А) знайти рівняння прямих регресій, побудувати їх графіки на одному кресленні з емпіричними лініями регресії та дати економічну інтерпретацію отриманих рівнянь;
Б) обчислити коефіцієнт кореляції, на рівні значущості 0,05 оцінити його значущість і зробити висновок про тісноту та напрям зв'язку між змінними X і Y;
В) використовуючи відповідне рівняння регресії, оцінити середню виручку від мобільних систем із 20 новими видами тарифів.

Номер регіону	Середньодушовий прожитковий мінімум на день одного працездатного, руб., х	Середньоденна заробітна плата, руб., у
1	78	133
2	82	148
3	87	134
4	79	154
5	89	162
6	106	195
7	67	139
8	88	158
9	73	152
10	87	162
11	76	159
12	115	173

Номер регіону	Середньодушовий прожитковий мінімум на день одного працездатного, руб., х	Середньоденна заробітна плата, руб., у
1	78	133
2	82	148
3	87	134
4	79	154
5	89	162
6	106	195
7	67	139
8	88	158
9	73	152
10	87	162
11	76	159
12	115	173

Номер регіону	Середньодушовий прожитковий мінімум на день одного працездатного, руб., х	Середньоденна заробітна плата, руб., у
1	78	133
2	82	148
3	87	134
4	79	154
5	89	162
6	106	195
7	67	139
8	88	158
9	73	152
10	87	162
11	76	159
12	115	173