Регресія у Excel: рівняння, приклади. Лінійна регресія

Регресійний аналіз - це статистичний метод дослідження, що дозволяє показати залежність того чи іншого параметра від однієї чи кількох незалежних змінних. У докомп'ютерну епоху його застосування було досить складно, особливо якщо йшлося про великі обсяги даних. Сьогодні, дізнавшись, як побудувати регресію в Excel, можна вирішувати складні статистичні завданнябуквально за кілька хвилин. Нижче представлені конкретні приклади галузі економіки.

Види регресії

Саме це поняття було введено в математику у 1886 році. Регресія буває:

лінійної;
параболічній;
статечної;
експоненційною;
гіперболічній;
показовою;
логарифмічні.

Приклад 1

Розглянемо завдання визначення залежності кількості членів колективу, що звільнилися. середньої зарплатина 6 промислових підприємствах.

Завдання. На шести підприємствах проаналізували середньомісячну заробітну платута кількість співробітників, які звільнилися за власним бажанням. У табличній формі маємо:


		Кількість звільнених	Зарплата
			30000 рублів
			35000 рублів
			40000 рублів
			45000 рублів
			50000 рублів
			55000 рублів
			60000 рублів

Для завдання визначення залежності кількості працівників, що звільнилися, від середньої зарплати на 6 підприємствах модель регресії має вигляд рівняння Y = а 0 + а 1 x 1 +…+а k x k , де х i — що впливають змінні, a i — коефіцієнти регресії, a k — число факторів.

Для цього завдання Y — це показник співробітників, що звільнилися, а впливаючий фактор — зарплата, яку позначаємо X.

Використання можливостей табличного процесора «Ексель»

Аналізу регресії в Excel має передувати застосування наявних табличних даних вбудованих функцій. Однак для цього краще скористатися дуже корисною надбудовою «Пакет аналізу». Для його активації потрібно:

з вкладки "Файл" перейти до розділу "Параметри";
у вікні вибрати рядок «Надбудови»;
клацнути на кнопці «Перейти», розташованої внизу, праворуч від рядка «Управління»;
поставити галочку поруч із назвою «Пакет аналізу» та підтвердити свої дії, натиснувши «Ок».

Якщо все зроблено правильно, у правій частині вкладки "Дані", розташованому над робочим листом "Ексель", з'явиться потрібна кнопка.

в Excel

Тепер, коли під рукою є всі необхідні віртуальні інструменти для здійснення економетричних розрахунків, можемо розпочати вирішення нашого завдання. Для цього:

клацаємо по кнопці «Аналіз даних»;
у вікні натискаємо на кнопку «Регресія»;
в вкладку, що з'явилася, вводимо діапазон значень для Y (кількість звільнених працівників) і для X (їх зарплати);
підтверджуємо свої дії, натиснувши кнопку «Ok».

В результаті програма автоматично заповнить новий аркуш табличного процесора даними аналізу регресії. Зверніть увагу! В Excel є можливість самостійно задати місце, якому ви надаєте перевагу для цієї мети. Наприклад, це може бути той самий лист, де знаходяться значення Y і X, або навіть нова книгаспеціально призначена для зберігання подібних даних.

Аналіз результатів регресії для R-квадрату

В Excel дані отримані в ході обробки даних прикладу, що розглядається, мають вигляд:

Насамперед, слід звернути увагу до значення R-квадрата. Він є коефіцієнтом детермінації. У цьому прикладі R-квадрат = 0,755 (75,5%), тобто розрахункові параметри моделі пояснюють залежність між параметрами, що розглядаються, на 75,5 %. Чим вище значення коефіцієнта детермінації, тим вибрана модель вважається застосовнішою для конкретної задачі. Вважається, що вона коректно визначає реальну ситуацію за значення R-квадрату вище 0,8. Якщо R-квадрату<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Аналіз коефіцієнтів

Число 64,1428 показує, яким буде значення Y, якщо всі змінні xi в моделі, що розглядається, обнуляться. Іншими словами можна стверджувати, що на значення аналізованого параметра впливають інші фактори, не описані в конкретній моделі.

Наступний коефіцієнт -0,16285, розташований у осередку B18, показує вагомість впливу змінної Х на Y. Це означає, що середньомісячна зарплата співробітників у межах аналізованої моделі впливає кількість звільнених з вагою -0,16285, т. е. ступінь її впливу зовсім невелика. Знак «-» свідчить про те, що коефіцієнт має негативне значення. Це очевидно, оскільки всім відомо, що чим більша зарплата на підприємстві, тим менше людей висловлюють бажання розірвати трудовий договір чи звільняється.

Множинна регресія

Під таким терміном розуміється рівняння зв'язку з кількома незалежними змінними видами:

y=f(x 1 +x 2 +…x m) + ε, де y — це результативна ознака (залежна змінна), а x 1 , x 2 , …x m — ознаки-фактори (незалежні змінні).

Оцінка параметрів

Для множинної регресії (МР) її здійснюють, використовуючи метод найменших квадратів(МНК). Для лінійних рівнянь виду Y = a + b 1 x 1 +…+b m x m + ε будуємо систему нормальних рівнянь(див. нижче)

Щоб зрозуміти принцип методу, розглянемо двофакторний випадок. Тоді маємо ситуацію, що описується формулою

Звідси отримуємо:

де σ - це дисперсія відповідної ознаки, відображеної в індексі.

МНК застосуємо до рівняння МР в масштабі, що стандартизується. У такому разі отримуємо рівняння:

в якому t y , t x 1, ... t xm - Змінні, що стандартизуються, для яких середні значення рівні 0; β i – стандартизовані коефіцієнти регресії, а середньоквадратичне відхилення – 1.

Зверніть увагу, що всі β i в даному випадку задані як нормовані та централізовані, тому їх порівняння між собою вважається коректним та допустимим. Крім того, прийнято здійснювати відсівання факторів, відкидаючи ті з них, які мають найменші значення βi.

Завдання з використанням рівняння лінійної регресії

Припустимо, є таблиця динаміки ціни конкретного товару протягом останніх 8 місяців. Необхідно ухвалити рішення про доцільність придбання його партії за ціною 1850 руб./т.


номер місяця	назва місяця	ціна товару N
		1750 рублів за тонну
		1755 рублів за тонну
		1767 рублів за тонну
		1760 рублів за тонну
		1770 рублів за тонну
		1790 рублів за тонну
		1810 рублів за тонну
		1840 рублів за тонну

Для вирішення цього завдання в табличному процесорі «Ексель» потрібно задіяти вже відомий за наведеним вище прикладом інструмент «Аналіз даних». Далі вибирають розділ «Регресія» та задають параметри. Потрібно пам'ятати, що у полі «Вхідний інтервал Y» має вводитися діапазон значень для залежної змінної (у разі ціни на товар у конкретні місяці року), а «Вхідний інтервал X» — для незалежної (номер місяця). Підтверджуємо дії натисканням OK. На новому аркуші (якщо було зазначено) отримуємо дані для регресії.

Будуємо за ними лінійне рівняння виду y=ax+b, де як параметри a та b виступають коефіцієнти рядка з найменуванням номера місяця та коефіцієнти та рядки «Y-перетин» з аркуша з результатами регресійного аналізу. Таким чином, лінійне рівняння регресії (УР) для задачі 3 записується у вигляді:

Ціна товару N = 11,714* номер місяця + 1727,54.

або в позначеннях алгебри

y = 11,714 x + 1727,54

Аналіз результатів

Щоб вирішити, чи адекватно отримане рівняння лінійної регресії, використовуються коефіцієнти множинної кореляції (КМК) та детермінації, а також критерій Фішера та критерій Стьюдента. У таблиці «Ексель» з результатами регресії вони виступають під назвами множинний R, R-квадрат, F-статистика та t-статистика відповідно.

КМК R дає можливість оцінити тісноту ймовірнісного зв'язку між незалежною та залежною змінними. Її високе значення свідчить про досить сильний зв'язок між змінними «Номер місяця» та «Ціна товару N у рублях за 1 тонну». Проте характер цього зв'язку залишається невідомим.

Квадрат коефіцієнта детермінації R 2 (RI) є числову характеристику частки загального розкиду і показує, розкид якої частини експериментальних даних, тобто. значень залежної змінної відповідає рівнянню лінійної регресії У даній задачі ця величина дорівнює 84,8%, тобто статистичні дані з високим ступенем точності описуються отриманим УР.

F-статистика, яка називається також критерієм Фішера, використовується для оцінки значущості лінійної залежності, спростовуючи або підтверджуючи гіпотезу про її існування.

(Критерій Стьюдента) допомагає оцінювати значущість коефіцієнта при невідомій чи вільного члена лінійної залежності. Якщо значення t-критерію > t кр, то гіпотеза про незначущість вільного члена лінійного рівняннявідкидається.

У розглянутій задачі для вільного члена за допомогою інструментів «Ексель» було отримано, що t=169,20903, а p=2,89Е-12, тобто маємо нульову ймовірність того, що буде відкинута вірна гіпотеза про незначущість вільного члена. Для коефіцієнта за невідомої t=5,79405, а p=0,001158. Іншими словами ймовірність того, що буде відкинута вірна гіпотеза про незначущість коефіцієнта за невідомої, дорівнює 0,12%.

Отже, можна стверджувати, що отримане рівняння лінійної регресії адекватно.

Завдання про доцільність купівлі пакету акцій

Множинна регресія в Excel виконується з використанням того ж інструменту «Аналіз даних». Розглянемо конкретне прикладне завдання.

Керівництво компанія «NNN» має ухвалити рішення про доцільність купівлі 20% пакету акцій АТ «MMM». Вартість пакету (СП) складає 70 млн. американських доларів. Фахівцями NNN зібрані дані про аналогічні угоди. Було ухвалено рішення оцінювати вартість пакета акцій за такими параметрами, вираженими в мільйонах американських доларів, як:

кредиторська заборгованість (VK);
обсяг річного обороту (VO);
дебіторська заборгованість (VD);
вартість основних фондів (СОФ).

Крім того, використовується параметр заборгованості підприємства із зарплати (V3 П) у тисячах американських доларів.

Рішення засобами табличного процесора Excel

Насамперед, необхідно скласти таблицю вихідних даних. Вона має такий вигляд:

викликають вікно "Аналіз даних";
обирають розділ «Регресія»;
у віконце «Вхідний інтервал Y» вводять діапазон значень залежних змінних зі стовпця G;
клацають по іконці з червоною стрілкою праворуч від вікна «Вхідний інтервал X» і виділяють на аркуші діапазон всіх значень стовпців B,C, D, F.

Позначають пункт «Новий робочий лист» та натискають «Ok».

Отримують аналіз регресії для цього завдання.

Вивчення результатів та висновки

«Збираємо» із заокруглених даних, представлених вище на аркуші табличного процесора Excel, рівняння регресії:

СП = 0,103 * СОФ + 0,541 * VO - 0,031 * VK + 0,405 * VD +0,691 * VZP - 265,844.

У більш звичному математичному вигляді його можна записати як:

y = 0,103 * x1 + 0,541 * x2 - 0,031 * x3 +0,405 * x4 +0,691 * x5 - 265,844

Дані для АТ «MMM» представлені у таблиці:

Підставивши їх у рівняння регресії, одержують цифру в 64,72 млн американських доларів. Це означає, що акції АТ «MMM» не варто купувати, оскільки їхня вартість у 70 млн американських доларів досить завищена.

Як бачимо, використання табличного процесора «Ексель» та рівняння регресії дозволило ухвалити обґрунтоване рішення щодо доцільності цілком конкретної угоди.

Тепер ви знаєте, що таке регресія. Приклади в Excel, розглянуті вище, допоможуть вам вирішити практичних завданьз галузі економетрики.

Призначення сервісу. За допомогою цього онлайн-калькулятора можна знайти параметри рівняння нелінійної регресії (експоненційної, статечної, рівносторонньої гіперболи, логарифмічної, показової) (див. приклад).

Інструкція. Вкажіть кількість вихідних даних. Отримане рішення зберігається у файлі Word. Також автоматично створюється шаблон рішення в Excel.

Примітка: якщо необхідно визначити параметри параболічної залежності (y = ax 2 + bx + c), можна скористатися сервісом Аналітичне вирівнювання .
Обмежити однорідну сукупність одиниць, усунувши аномальні об'єкти спостереження можна через метод Ірвіна чи за правилом трьох сигм (усунути ті одиниці, котрим значення пояснюючого чинника відхиляється від середнього більш, ніж потрійне середньоквадратичне відхилення).

Види нелінійної регресії

Тут - випадкова помилка (відхилення, обурення), що відображає вплив всіх неврахованих факторів.

Рівняння регресії першого порядку- Це рівняння парної лінійної регресії.

Рівняння регресії другого порядкуце поліномальне рівняння регресії другого порядку: y = a + bx + cx2.

Рівняння регресії третього порядкувідповідно поліномальне рівняння регресії третього порядку: y = a + bx + cx2 + dx3.

Щоб привести нелінійні залежності до лінійної, використовують методи лінеаризації (див. метод вирівнювання):

Заміна змінних.
Логарифмування обох частин рівняння.
Комбінований.

y = f(x)	Перетворення	Метод лінеаризації
y = b x a	Y = ln (y); X = ln (x)	Логарифмування
y = b e ax	Y = ln (y); X = x	Комбінований
y = 1/(ax+b)	Y = 1/y; X = x	Заміна змінних
y = x/(ax+b)	Y = x/y; X = x	Заміна змінних. приклад
y = aln(x)+b	Y = y; X = ln (x)	Комбінований
y = a + bx + cx 2	x1 = x; x 2 = x 2	Заміна змінних
y = a + bx + cx 2 + dx 3	x1 = x; x 2 = x 2; x 3 = x 3	Заміна змінних
y = a + b/x	x 1 = 1/x	Заміна змінних
y = a + sqrt(x)b	x1 = sqrt(x)	Заміна змінних

Приклад. За даними, взятими з відповідної таблиці, виконати такі дії:

Побудувати поле кореляції та сформулювати гіпотезу про форму зв'язку.
Розрахувати параметри рівнянь лінійної, статечної, експоненційної, напівлогарифмічної, зворотної, гіперболічної парної регресії.
Оцінити тісноту зв'язку за допомогою показників кореляції та детермінації.
Дати з допомогою середнього (загального) коефіцієнта еластичності порівняльну оцінку сили зв'язку з результатом.
Оцінити за допомогою середньої помилкиапроксимації якість рівнянь.
Оцінити за допомогою F-критерію Фішера статистичну надійність результатів регресійного моделювання. За значеннями характеристик, розрахованих у пп. 4, 5 і даному пункті, вибрати найкраще рівняння регресії та дати його обґрунтування.
Розрахувати прогнозне значення результату, якщо прогнозне значення фактора збільшиться на 15% його середнього рівня. Визначити довірчий інтервалпрогнозу рівня значимості α=0,05 .
Оцінити отримані результати, оформити висновки в аналітичній записці.

Рік	Фактичне кінцеве споживання домашніх господарств (у поточних цінах), млрд. руб. (1995 р - трлн. руб.), y	Середньодушові грошові доходи населення (на місяць), руб. (1995 р. - тис. руб.), Х
1995	872	515,9
2000	3813	2281,1
2001	5014	3062
2002	6400	3947,2
2003	7708	5170,4
2004	9848	6410,3
2005	12455	8111,9
2006	15284	10196
2007	18928	12602,7
2008	23695	14940,6
2009	25151	16856,9

Рішення. У калькуляторі послідовно вибираємо види нелінійної регресії. Отримаємо таблицю такого виду.
Експонентне рівняння регресії має вигляд y = a e bx
Після лінеаризації отримаємо: ln(y) = ln(a) + bx
Отримуємо емпіричні коефіцієнти регресії: b = 0.000162, a = 7.8132
Рівняння регресії: y = e 7.81321500 e 0.000162x = 2473.06858e 0.000162x

Ступінне рівняння регресії має вигляд y = a x b
Після лінеаризації отримаємо: ln(y) = ln(a) + b ln(x)
Емпіричні коефіцієнти регресії: b = 0.9626, a = 0.7714
Рівняння регресії: y = e 0.77143204 x 0.9626 = 2.16286x 0.9626

Гіперболічне рівняння регресії має вигляд y = b/x + a + ε
Після лінеаризації отримаємо: y = bx + a
Емпіричні коефіцієнти регресії: b = 21089190.1984, a = 4585.5706
Емпіричне рівняння регресії: y = 21089190.1984/x+4585.5706

Логарифмічне рівняння регресії має вигляд y = b ln(x) + a + ε
Емпіричні коефіцієнти регресії: b = 7142.4505, a = -49694.9535
Рівняння регресії: y = 7142.4505 ln(x) – 49694.9535

Показове рівняння регресії має вигляд y = a b x + ε
Після лінеаризації отримаємо: ln(y) = ln(a) + x ln(b)
Емпіричні коефіцієнти регресії: b = 0.000162, a = 7.8132
y = e 7.8132 * e 0.000162x = 2473.06858 * 1.00016 x

x	y	1/x	ln(x)	ln(y)
515.9	872	0.00194	6.25	6.77
2281.1	3813	0.000438	7.73	8.25
3062	5014	0.000327	8.03	8.52
3947.2	6400	0.000253	8.28	8.76
5170.4	7708	0.000193	8.55	8.95
6410.3	9848	0.000156	8.77	9.2
8111.9	12455	0.000123	9	9.43
10196	15284	9.8E-5	9.23	9.63
12602.7	18928	7.9E-5	9.44	9.85
14940.6	23695	6.7E-5	9.61	10.07
16856.9	25151	5.9E-5	9.73	10.13

Рівняння регресії

Рівняння регресії - це математична формула, визначальна, яким буде середнє значення у при тому чи іншому значенні х, якщо всі інші фактори, що впливають на, не враховувати, тобто. абстрагуватися від них.

Знайти в кожному конкретному випадку тип функції, за допомогою якої можна точно відобразити залежність між х і у, - перше завдання регресійного аналізу. Види рівнянь:

1) лінійна залежність;

2) парабола ;

3) гіпербола;

4) показова функція ;

5) статечна функціяі т.д.

Головною основою вибору типу функції має бути змістовний аналіз природи досліджуваного явища. Корисно відобразити залежність графічно.

Метод найменших квадратів

Далі необхідно визначити параметри рівняння регресії а 0і а 1, (для параболи ще й а 2). І тому використовують метод найменших квадратів. У його основу покладено ідею мінімізації суми квадратів відхилень фактичних значень від їх вирівняних (теоретичних) значень, тобто.

де у i- Фактичні значення результативної ознаки;

y i (x i)- Значення у, знайдені за рівнянням регресії.

Якщо регресія лінійна, то

Розглядаючи суму як функцію параметрів а 0і а 1, визначають приватні похідні за а 0і а 1і прирівнюють їх до нуля, оскільки в точці екстремуму похідна функції дорівнює нулю:

Система рівнянь для різних типівзалежності між ознаками

Якщо зв'язок між ознаками лінійний, то система рівнянь для знаходження параметрів рівняння регресії набуде вигляду:

Після вирішення системи щодо а 1і а 1становлять рівняння регресії.

Якщо зв'язок між ознаками у них описується рівнянням параболи , то система нормальних рівнянь набуде вигляду:

Економічний сенспараметрів рівняння лінійної регресії

У рівнянні лінійної регресії параметр а 0визначає середнє значення yяке складається під впливом усіх факторів, крім х.

Параметр а 1називається коефіцієнтом регресії, він визначає, наскільки в середньому зміниться уза зміни факторного ознаки на одиницю. Чим більша величина а 1, Тим значніший вплив даного факторного ознаки на результативний, що моделюється. Знак коефіцієнта регресії свідчить про характер впливу чинника результативний ознака.

Коефіцієнт еластичності показує, на скільки відсотків зміниться результативна ознака при зміні факторної ознаки на 1%. Загальна формула для розрахунку коефіцієнта еластичності виглядає так:

де у "(х)- перша похідна рівняння регресії у(х)по х.

При різних значенняхфакторної ознаки хкоефіцієнт еластичності набуває різних значень.

Для лінійного рівняння регресії коефіцієнт еластичності набуде вигляду:

Для параболічного зв'язку коефіцієнт еластичності дорівнює:

Для гіперболічного зв'язку коефіцієнт еластичності дорівнює:

3. Кореляційний аналіз. Показники тісноти зв'язку між ознаками

У разі лінійної залежності між ознаками для оцінки тісноти зв'язку застосовують лінійний коефіцієнт кореляції:

Лінійний коефіцієнт кореляції змінюється не більше від -1 до +1. Якщо |r|<0,3, то связь слабая. Если 0,3 <|r| < 0,7, то связь средняя. Если 0,7 < |r| < 0,9, то зв'язок вищий за середній або тісний. Якщо | r | > 0,9, то зв'язок сильний чи дуже тісний. Якщо , то це дає підстави говорити про відсутність лінійного зв'язку між хі у.

Багатомірний регресійний аналіз дозволяє розмежувати вплив факторних ознак. Параметр регресії при кожній факторній ознакі дає оцінку його впливу на величину результативної ознаки
у разі зміни на одиницю за сталості всіх інших факторів.

Прогнозування на основі отриманої моделівиконується аналогічно прогнозам парної лінійної регресії.

Точковий прогнозвиходить при підстановці прогнозних значень факторних ознак рівняння регресії. Отримане значення є точковим прогнозом результативної ознаки
.

Інтервальний прогнозвказує нижню та верхню межу проміжку, в якому знаходиться справжнє значення прогнозованого показника
. Довірчий інтервал визначається виразом

тобто. справжнє значення прогнозованого показника
з ймовірністю 1 - належить довірчому інтервалу.

Приклад 3.9.За даними таблиці 3.17 записати рівняння регресії та виконати аналіз отриманої моделі.

Рішення.Оскільки інструмент «Регресія» може виконувати лише лінійний регресійний аналіз, то маємо наступне рівняння багатовимірної лінійної регресії

Таблиця 3.17. Результати роботи інструменту Регресія

Виконаємо аналіз отриманої моделі регресії:

Отже, модель регресії придатна прийняття деяких рішень, але з прогнозування.

Проаналізуємо наявність парного кореляційного зв'язку між факторними ознаками, що входять до моделі регресії, за кореляційною матрицею (рис.3.8):

Рис.3.8. Кореляційна матриця

Позначення до кореляційної матриці: - продуктивність праці (середньорічне вироблення продукції на одного працівника), тис. грн.;
- трудомісткість одиниці виробленої продукції;
- Питома вага робітників у складі промислово-виробничого персоналу;
-Коефіцієнт змінності обладнання; - премії та винагороди на одного працівника, %;
- Невиробничі витрати,%.

Отже, з урахуванням досліджуваної багатовимірної вибірки можна дійти невтішного висновку, що з аналізованих факторних ознак на продуктивність праці впливають трудомісткість одиниці виробленої продукції і премії. Ці факторні ознаки слід включити до моделі багатовимірної нелінійної регресії.

Оскільки коефіцієнт детермінації порівняно малий, то розробки моделі регресії слід розглянути додаткові невраховані факторні ознаки.

У таблиці 3.18 наведено результати роботи інструменту «Регресія» для моделі регресії без факторної ознаки
Здійсніть аналіз цієї моделі регресії.

І кореляція

1.1. Поняття регресії

Парною регресією називається рівняння зв'язку двох змінних у них

виду y= f(x),

де у – залежна змінна (результативна ознака); х - незалежна, що пояснює змінна (ознака-фактор).

Розрізняють лінійні та нелінійні регресії.

Лінійна регресіяописується рівнянням: y= a+ b× x+e .

Нелінійні регресії діляться на два класи: регресії, нелінійні щодо включених в аналіз пояснюючих змінних, але лінійні за параметрами, що оцінюються, і регресії, нелінійні за оцінюваними параметрами.

Приклади регресій, нелінійних за змінними, що пояснюють , але чи-

нійних за оцінюваними параметрами:

· поліноми різних ступенів

· рівностороння гіпербола:

Приклади регресій, нелінійних за параметрами, що оцінюються:

· статечна

· Показова

· Експонентна

Найчастіше застосовуються такі моделі регресій:

- Прямий

– гіперболи

– параболи

- Показової функції

– статечна функція

1.2. Побудова рівняння регресії

Постановка задачі.За наявними даними nспостережень за спільним

зміною двох параметрів xі y{(xi,yi), i=1,2,...,n) необхідно визначити

аналітичну залежність ŷ =f(x), що найкраще описує дані спостережень.

Побудова рівняння регресії здійснюється у два етапи (передбачає вирішення двох завдань):

– специфікація моделі (визначення виду аналітичної залежності

ŷ =f(x));

– оцінка параметрів вибраної моделі.

1.2.1. Специфікація моделі

Парна регресія застосовується, якщо є домінуючий фактор, який і використовується як пояснювальна змінна.

Застосовується три основні методи вибору виду аналітичної залежності:

– графічний (з урахуванням аналізу поля кореляцій);

– аналітичний, т. е. виходячи з теорії взаємозв'язку, що вивчається;

- Експериментальний, тобто шляхом порівняння величини залишкової дисперсії Dост або середньої помилки апроксимації , розрахованих для різних

моделей регресії (метод перебору)

1.2.2. Оцінка параметрів моделі

Для оцінки параметрів регресій, лінійних за цими параметрами, використовується метод найменших квадратів (МНК) . МНК дозволяє отримати такі оцінки параметрів, при яких сума квадратів відхилень фактичних значень результативної ознаки від теоретичних значень ŷ xпри тих же значеннях фактора xмінімальна, тобто.

У разі лінійної регресії параметри а та bзнаходяться з наступної

системи нормальних рівнянь методу МНК:

(1.1)

Можна скористатися готовими формулами, які випливають із цієї

(1.2)

Для нелінійних рівнянь регресії, що наводяться до лінійних за допомогою перетворення ( x, y) → (x’, y’), система нормальних рівнянь має

вид (1.1) у перетворених змінних x’, y’.

Коефіцієнт bпри факторній змінній xмає таку інтерпретацію: він показує, наскільки зміниться у середньому величина yпри зміні фактора xна 1 одиницю виміру.

Гіперболічна регресія:

x' = 1/x; y’ = y.

Рівняння (1.1) та формули (1.2) набувають вигляду

Експонентна регресія:

Лінеарізуюче перетворення: x' = x; y’ = lny.

Модифікована експонента: , (0 < a 1 < 1).

Лінеарізуюче перетворення: x' = x; y’ = ln│y –К│.

Величина межі зростання Kвибирається попередньо на основі аналізу

поля кореляцій чи з якісних міркувань. Параметр a 0 береться зі

знаком «+», якщо yх > Kі зі знаком «–» в іншому випадку.

Ступінна функція:

Лінеарізуюче перетворення: x' = ln x; y’ = ln y.

Показова функція:

Лінеарізуюче перетворення: x' = x; y’ = lny.

https://pandia.ru/text/78/146/images/image026_7.jpg" width="459" height="64 src=">

Парабола другого порядку:

Парабола другого порядку має 3 параметри a 0, a 1, a 2, які визначаються із системи трьох рівнянь

1.3. Оцінка тісноти зв'язку

Тісноту зв'язку явищ, що вивчаються, оцінює лінійний коефіцієнт

парної кореляції rxy для лінійної регресії (–1 ≤ r xy≤ 1)

та індекс кореляції ρ xy для нелінійної регресії

Має місце співвідношення

Частку дисперсії, яка пояснюється регресією, в загальної дисперсіїрезультативної ознаки у характеризує коефіцієнт детермінації r2xy (для лінійної регресії) або індекс детермінації (Для нелінійної регресії).

Коефіцієнт детермінації- Квадрат коефіцієнта або індексу кореляції.

Для оцінки якості побудованої моделі регресії можна використовувати

показник (коефіцієнт, індекс) детермінації R 2 чи середню помилку апроксимації.

Чим вище показник детермінації чи нижча середня помилка апроксимації, тим краще модель описує вихідні дані.

Середня помилка апроксимації – середнє відносне відхилення

розрахункових значень від фактичних

Побудоване рівняння регресії вважається задовільним, якщо

значення не перевищує 10-12%.

1.4. Оцінка значущості рівняння регресії, його коефіцієнтів,

коефіцієнта детермінації

Оцінка значимості всього рівняння регресії загалом здійснюється з

допомогою F-Крітерія Фішера.

F- критерій Фішера полягає у перевірці гіпотези Але про статистичну незначущість рівняння регресії . Для цього виконується порівняння

фактичного Fфакт та критичного (табличного) Fтабл значень F-критерію

Фішера .

F факт визначається із співвідношення значень факторної та залишкової

дисперсій, розрахованих на один ступінь свободи

де n- Число одиниць сукупності; m- Число параметрів при змінних.

Для лінійної регресії m= 1 .

Для нелінійної регресії замість r 2 xyвикористовується R 2.

F табл - максимально можливе значення критерію під впливом випадкових факторів при ступенях свободи k1 = m, k2 = n - m- 1 (для лінійної регресії m= 1) та рівні значущості α.

Рівень значущості α – можливість відкинути правильну гіпотезу

за умови, що вона вірна. Зазвичай величина приймається рівною 0,05 або

Якщо Fтабл< Fфакт, то Н 0 -гіпотеза про випадкову природу оцінюваних характеристик відхиляється і визнається їх статистична значимістьта надійність. Якщо Fтабл > Fфакт, то гіпотеза не відхиляється і визнається статистична незначимість, ненадійність рівняння регресії.

Для оцінки статистичної значущості коефіцієнтів лінійної регресіїі лінійного коефіцієнтапарної кореляції застосовується

t- критерій Стьюдента та розраховуються довірчі інтервали кожного

із показників.

Згідно t-критерієм висувається гіпотеза Н 0 про випадкову природу показників, тобто про незначне їх відмінність від нуля. Далі розраховуються фактичні значення критерію tфакт для оцінюваних коефіцієнтів регресії та коефіцієнта кореляції шляхом зіставлення їх значень із величиною стандартної помилки

Стандартні помилки параметрів лінійної регресії та коефіцієнта

кореляції визначаються за формулами

Порівнюючи фактичне та критичне (табличне) значення t-статистики

tтабл і tфакт приймають чи відкидають гіпотезу Але.

t табл- максимально можливе значення критерію під впливом випадкових факторів при даному ступені свободи k = n- 2 та рівні значимості α.

Зв'язок між F-критерієм Фішера (при k 1 = 1; m=1) та t-критерієм Стьюдента виражається рівністю

Якщо tтабл< tфакт, то Але відхиляється, тобто. a, bі не випадково відрізняються

від нуля і сформувалися під впливом систематично діючого фактора х . Якщо tтабл > tфакт, то гіпотеза Але не відхиляється і визнається випадкова природа формування , bабо https://pandia.ru/text/78/146/images/image041_2.jpg" width="574" height="59">

Fтабл визначається з таблиці при ступенях свободи k 1 = 1, k 2 = n-2 і при

заданому рівні значущості. Якщо Fтабл< Fфакт, то визнається статистична значущість коефіцієнта детермінації. У формулі (1.6) величина mозначає число параметрів при змінних відповідному рівнянні регресії.

1.5. Розрахунок довірчих інтервалів

Розраховані значення показників (коефіцієнти a, b, ) є

наближеними, отриманими на основі наявних вибіркових даних.

Для оцінки того, наскільки точні значенняпоказників можуть відрізнятись від розрахованих, здійснюється побудова довірчих інтервалів.

Довірчі інтервали визначають межі, в яких лежать точні значення визначених показників із заданим ступенем впевненості, що відповідає заданому рівню значущості α.

Для розрахунку довірчих інтервалів для параметрів aі bрівняння лінійної регресії визначаємо граничну помилку Δ для кожного показника:

Величина tтабл. являє собою табличне значення t-критерію Стьюдента під впливом випадкових факторів за ступенем свободи k= n–2 та заданому рівні значущості α.

Формули для розрахунку довірчих інтервалів мають такий вигляд:

https://pandia.ru/text/78/146/images/image045_3.jpg" width="188" height="62">

де tγ – значення випадкової величини, що підкоряється стандартному нормальному розподілу, що відповідає ймовірності γ = 1 - α/2 (α - рівень значущості);

z' = Z (rxy)– значення Z-розподілу Фішера, що відповідає отриманому значенню лінійного коефіцієнта кореляції rxy.

Граничні значення довірчого інтервалу ( r-, r+) для rxyвиходять

з граничних значень довірчого інтервалу ( z–, z+) для zза допомогою

функції, зворотної Z-розподілу Фішера

1.6. Точковий та інтервальний прогноз щодо рівняння лінійної

регресії

Точковий прогноз полягає в отриманні прогнозного значення у p, яке визначається шляхом підстановки рівняння регресії

відповідного (прогнозного
) значення x p

Інтервальний прогноз полягає в побудові довірчого інтервалу прогнозу, тобто нижньої та верхньої меж у pmin,у pmaxінтервалу, що містить точну величину для прогнозного значення width="37" height="44 src=">

і потім будується довірчий інтервал прогнозу, тобто визначаються нижня та верхня межа інтервалу прогнозу

Контрольні питання:

1. Що розуміємо під парною регресією?

2. Які завдання вирішуються при побудові рівняння регресії?

3. Які методи застосовують для вибору виду моделі регресії?

4. Які функції найчастіше використовуються для побудови рівняння парної регресії?

5. Який вид має система нормальних рівнянь методу найменших квадратів у разі лінійної регресії?

6. Який вид має система нормальних рівнянь методу найменших квадратів у разі гіперболічної, показової регресії?

7. За якою формулою обчислюється лінійний коефіцієнт парної кореляції r xy?

8. Як будується довірчий інтервал для лінійного коефіцієнта парної кореляції?

9. Як обчислюється індекс кореляції?

10. Як обчислюється та що показує індекс детермінації?

11. Як перевіряється значущість рівняння регресії та окремих коефіцієнтів?

12. Як будується довірчий інтервал прогнозу у разі лінійної регресії?

Лабораторна робота №1

Завдання.1 З даних табл. П1 для відповідного варіанту (табл. 1.1):

1. Обчислити лінійний коефіцієнт парної кореляції.

2. Перевірити важливість коефіцієнта парної кореляції.

3. Побудувати довірчий інтервал для лінійного коефіцієнта парної кореляції.

Завдання. 2 З даних табл. П1 для відповідного варіанту (табл. 1.1):

1. Побудувати запропоновані рівняння регресії, включаючи лінійну регресію.

2. Обчислити індекси парної кореляції кожного рівняння.

3. Перевірити значущість рівнянь регресії та окремих коефіцієнтів лінійного рівняння.

4. Визначити найкраще рівняння регресії з урахуванням середньої помилки апроксимації.

5. Побудувати інтервальний прогноз для значення x= x max для лінійного

рівняння регресії.

Вимоги до оформлення результатів

Звіт про лабораторну роботу повинен містити розділи:

1. Опис завдання;

2. Опис рішення лабораторної роботи (за етапами);

3. Виклад отриманих результатів.

Таблиця П1

Вихідні дані до лабораторним роботам № 1, 2

Наявність предметів тривалого користування у домашніх господарствах по регіонах Російської Федерації(європейська частина території без республік Північного Кавказу) (за матеріалами вибіркового обстеження бюджетів домашніх господарств; на 100 домогосподарств; штук)