Контрольна робота рівняння множинної регресії. Приклад вирішення задачі множинної регресії за допомогою Python

Натиснувши на кнопку "Завантажити архів", ви завантажуєте потрібний вам файл безкоштовно.
Перед скачуванням даного файлу згадайте про ті хороші реферати, контрольні, курсові, дипломні роботи, статті та інші документи, які лежать незатребуваними у вашому комп'ютері. Це ваша праця, вона повинна брати участь у розвитку суспільства та приносити користь людям. Знайдіть ці роботи та відправте в базу знань.
Ми та всі студенти, аспіранти, молоді вчені, які використовують базу знань у своєму навчанні та роботі, будемо вам дуже вдячні.

Щоб завантажити архів з документом, введіть п'ятизначне число в поле, розташоване нижче, і натисніть кнопку "Завантажити архів"

###### ## ## ###### ######
## ### ### ## ##
## #### ## ##### ##
## ## ## ## ## ##
## ## ###### ## ## ## ## ##
#### ## ###### #### ####

Введіть число, зображене вище:

Подібні документи

    Основи побудови та тестування адекватності економічних моделей множинної регресії, проблема їх специфікації та наслідки помилок. Методичне та інформаційне забезпечення множинної регресії. Числовий приклад моделі множинної регресії.

    курсова робота , доданий 10.02.2014

    Поняття моделі множинної регресії. Сутність методу найменших квадратів, який використовується для визначення параметрів рівняння множинної лінійної регресії Оцінка якості припасування регресійного рівняннядо даних. Коефіцієнт детермінації.

    курсова робота , доданий 22.01.2015

    Побудова моделі множинної лінійної регресії за заданими параметрами. Оцінка якості моделі за коефіцієнтами детермінації та множинної кореляції. Визначення значущості рівняння регресії на основі F-критерію Фішера та t-критерію Стьюдента.

    контрольна робота , доданий 01.12.2013

    Побудова рівняння множинної регресії у лінійній формі з повним набором факторів, відбір інформативних факторів. Перевірка значущості рівняння регресії за критерієм Фішера та статистичної значимостіпараметрів регресії за критерієм Стьюдента

    лабораторна робота , доданий 17.10.2009

    Опис класичної лінійної моделі множинної регресії. Аналіз матриці парних коефіцієнтів кореляції на наявність мультиколінеарності. Оцінка моделі парної регресії із найбільш значущим чинником. Графічна побудова інтервалу прогнозу.

    курсова робота , доданий 17.01.2016

    Чинники, що формують ціну квартир в будинках, що будуються в Санкт-Петербурзі. Упорядкування матриці парних коефіцієнтів кореляції вихідних змінних. Тестування помилок рівняння множинної регресії на гетероскедастичність. Тест Гельфельда Квандта.

    контрольна робота , доданий 14.05.2015

    Оцінка розподілу змінної Х1. Моделювання взаємозв'язку між змінними У та Х1 за допомогою лінійної функціїта методом множинної лінійної регресії. Порівняння якості збудованих моделей. Складання точкового прогнозу за заданими значеннями.

    курсова робота , доданий 24.06.2015

I have a big bookshelf включаючи багато books divided in many varieties. На верхньому дворі є religious books як Fiqh books, Tauhid books, Tasawuf books, Nahwu books, etc. Вони є lined up neatly in many rows and some of them are lined up neatly according to the writers. На першому рівні є мої studious books як Grammar books, Writing books, TOEFL books, etc. Вони є arranged засновані на розмірах. On the next shelf are багато малюків of scientific and knowledgeable books; для прикладу, Philosophies, Politics, Histories, etc. Там є три рівні для них. Ймовірно, внизу моїх bookshelf є висновки, вони є арабські слів і англійських слів як добре як англійські слів. Indeed, є шість рівнів у моїх великих книгах and the y є lined up in many rows. Перші рівні включають religious books, second level includes my studious books, third level have three levels includes many kinds of scientific and knowledgeable books and last level includes dictionaries. У часі, I love my bookshelf.

Specific-to-general order

Skills потрібні для отримання рівня від написання відповідних графічних знаків, за допомогою ресурсів chosen language, anticipation the reactions of intended readers. Перші шкільні області встановлюють придбання системи, які можуть бути alfabetic (as in European languages) або nonalphabetic (as in many Asian languages). У другій зоні знаряддя потреби вирізняють відповідні grammar і vocabulary до форми сприйнятливі sentences і будуть писати їх в параграфах. Трьох, писавши взавжди думати про те, що purpose of the text, щоб бути складеним і про свої можливі ефекти на виконаному стилі. Одним важливим аспектом цієї останньої риси є те, що потрібний стильний стиль. Unlike speaking, writing is a complex sociocognitive process, що має бути придбаний через роки тренування або навчання. (Swales and Feak, 1994, p. 34)

General-to-specific order

"Працюю частину часу як cashier на Piggly Wiggly має велику велику можливість для того, щоб захистити людську поведінку. рати - customers, я можу - спрямовувати routine pattern, стролячи вниз і вниз ялинки, стежити за моїми chute, і будуть escaping через кінець ящика. abnormal customer: the amnesiac, the super shopper, and the dawdler. . ."

Існують багато факторів, що contribute до student success in college. Перший factor is hago goal in mind before establishing a course of study. The goal may be as general as wanting to better educate oneself for the future. A більше specific goal would be to earn a teaching credential. A second factor related to student success is self-motivation and commitment. Студент, який намагається досліджувати і працював за ці невтішні, щоб досягти успіху, easily as a college student. На три factor linked to student success is using college services. Більшість початківців школярів усвідомлюють, як важливо, щоб вона могла скористатися комунікатором або консультуванням з лікарняним або фінансовою адміністрацією.

There are three reasons why Canada is one of the best countries in the world. First, Canada має чудову медичну допомогу. Всі Canadians мають доступ до медичних послуг на відповідній вартості. Second, Canada має високий рівень освіти. Students є taught be well-trained teachers і є encouraged to continue studying at university. Finally, Canada's cities є clean and efficiently organized. Canadian cities мають багато парків і багато місць для людей до життя. Як результат, Canada є desirable place to live.

York був підписаний шістьма німецькими зірками, які на ньому з fixed bayonets. Він drew bead на шістьох людей, огортається, і він на шість. Він працював, як він поставив на лінію, і перед тим, як знімати його, перша людина була все по ній. York killed him with a single shot.

Як я кинувся навколо campus, який мав hardly changed, he unconsciously relieved those moments he had spent with Nancy. Він зазначає, що два з них повинні були сидіти біля ящиків, хлопчики нескінченно як вони пишуть риби, так і як кажуть, що вони беруть ходи до того, як у них власний світ. Yes, Nancy був одним з кількох дорослих, що він had ever had. ….He був suddenly filled with nostalgia as he recalled that afternoon he had bid farewell to Nancy. He sniffed loudly as his eyes filled with tears.

Приклади розв'язання задач з множинної регресії

приклад 1.Рівняння регресії, побудоване за 17 спостереженнями, має вигляд:

Розставити пропущені значення, а також збудувати довірчий інтервалдля b 2із ймовірністю 0,99.

Рішення.Пропущені значення визначаємо за допомогою формул:

Таким чином, рівняння регресії зі статистичними характеристиками виглядає так:

Довірчий інтервал для b 2будуємо за відповідною формулою. Тут рівень значущості дорівнює 0,01, а кількість ступенів свободи дорівнює np- 1 = 17 - 3 - 1 = 13, де n= 17 - обсяг вибірки, p= 3 – число чинників у рівнянні регресії. Звідси

або . Цей довірчий інтервал накриває дійсне значення параметра з ймовірністю 0,99.

приклад 2.Рівняння регресії у стандартизованих змінних виглядає так:

При цьому варіації всіх змінних дорівнюють наступним величинам:

Порівняти фактори за ступенем впливу на результуючу ознаку та визначити значення приватних коефіцієнтів еластичності.

Рішення.Стандартизовані рівняння регресії дозволяють порівнювати чинники за силою їхнього впливу результат. При цьому, чим більший за абсолютною величиною коефіцієнт при стандартизованій змінній, тим сильніше цей фактор впливає на результуючу ознаку. У аналізованому рівнянні найсильніший вплив на результат надає фактор х 1, що має коефіцієнт - 0,82, найслабше - фактор х 3з коефіцієнтом, що дорівнює – 0,43.

У лінійній моделі множинної регресії узагальнюючий (середній) коефіцієнт приватної еластичності визначається виразом, який включає середні значення змінних і коефіцієнт при відповідному факторі рівняння регресії натурального масштабу. У разі завдання ці величини не задані. Тому скористаємося виразами для варіації за змінними:

Коефіцієнти b jпов'язані зі стандартизованими коефіцієнтами β jвідповідним співвідношенням, яке підставимо у формулу для середнього коефіцієнта еластичності:

.

При цьому знак коефіцієнта еластичності співпадатиме зі знаком β j:

приклад 3.За 32 спостереженнями отримані такі дані:

Визначити значення скоригованого коефіцієнта детермінації, приватних коефіцієнтів еластичності та параметра а.

Рішення.Значення скоригованого коефіцієнта детермінації визначимо по одному з формул для його обчислення:

Приватні коефіцієнти еластичності (середні за сукупністю) обчислюємо за відповідними формулами:

Оскільки лінійне рівняння множинної регресії виконується при підстановці до нього середніх значень усіх змінних, визначаємо параметр а:

приклад 4.За деякими змінними є такі статистичні дані:

Побудувати рівняння регресії у стандартизованому та натуральному масштабах.

Рішення.Оскільки відомі коефіцієнти парної кореляції між змінними, почати слід з побудови рівняння регресії в стандартизованому масштабі. Для цього треба вирішити відповідну систему нормальних рівнянь, яка у разі двох факторів має вигляд:

або після підстановки вихідних даних:

Вирішуємо цю систему будь-яким способом, отримуємо: β 1 = 0,3076, β 2 = 0,62.

Запишемо рівняння регресії у стандартизованому масштабі:

Тепер перейдемо до рівняння регресії в натуральному масштабі, для чого використовуємо формули розрахунку коефіцієнтів регресії через бета-коефіцієнти та властивість справедливості рівняння регресії для середніх змінних:

Рівняння регресії в натуральному масштабі має вигляд:

Приклад 5.При побудові лінійної множинної регресії за 48 вимірами коефіцієнт детермінації становив 0,578. Після виключення факторів х 3, х 7і х 8коефіцієнт детермінації зменшився до 0,495. Чи обґрунтовано було прийняте рішення про зміну складу змінних, що впливають, на рівнях значущості 0,1, 0,05 і 0,01?

Рішення.Нехай коефіцієнт детермінації рівняння регресії при початковому наборі факторів, коефіцієнт детермінації після виключення трьох факторів. Висуваємо гіпотези:

;

Основна гіпотеза припускає, що зменшення величини було несуттєвим, і рішення про виключення групи факторів було правильним. Альтернативна гіпотеза свідчить про правильність прийнятого рішення про виключення.

Для перевірки нуль – гіпотези використовуємо таку статистику:

,

де n = 48, p= 10 - первісна кількість факторів, k= 3 – кількість факторів, що виключаються. Тоді

Порівняємо отримане значення з критичним F(α ; 3; 39) на рівнях 01; 0,05 та 0,01:

F(0,1; 3; 37) = 2,238;

F(0,05; 3; 37) = 2,86;

F(0,01; 3; 37) = 4,36.

На рівні α = 0,1 F набл > F кр, нуль – гіпотеза відкидається, виняток цієї групи чинників не виправдано, рівнях 0,05 0,01 нуль – гіпотеза може бути відкинуто, і виняток чинників вважатимуться виправданим.

Приклад 6. На основі квартальних даних з 2000 р. по 2004 р. отримано рівняння. У цьому ESS=110,3, RSS=21,4 (ESS – пояснена СКО, RSS – залишкова СКО). До рівняння було додано три фіктивні змінні, що відповідають трьом першим кварталам року, і величина ESS збільшилася до 120,2. Чи є сезонність у цьому рівнянні?

Рішення. Це завдання на перевірку обґрунтованості включення групи факторів до рівняння множинної регресії. До початкового рівняння з трьома факторами було додано три змінні, що відповідають першим трьом кварталам року.

Визначимо коефіцієнти детермінації рівнянь. Загальна СКО визначається як сума факторної та залишкової СКО:

ТSS = ESS 1 + RSS 1 = 110,3 + 21,4 = 131,7

Перевіряємо гіпотези. Для перевірки нуль – гіпотези використовуємо статистику

Тут n= 20 (20 кварталів за п'ять років – з 2000 р. до 2004 р.), p= 6 (загальна кількість факторів у рівнянні регресії після включення нових факторів), k= 3 (кількість факторів, що включаються). Таким чином:

Визначимо критичні значення статистики Фішера різних рівнях значимості:

На рівнях значущості 0,1 та 0,05 F набл> F кр, нуль - гіпотеза відкидається на користь альтернативної, і облік сезонності в регресії є обґрунтованим (додавання трьох нових факторів виправдане), а на рівні 0,01 F набл< F кр, і нуль – гіпотеза може бути відхилена; додавання нових факторів не виправдане, сезонність у регресії не є суттєвою.

Приклад 7.При аналізі даних на гетероскедастичність вся вибірка була після впорядкування по одному з факторів розбита на три підвибори. Потім за результатами трифакторного регресійного аналізу було визначено, що залишкова СКО у першій підвиборці склала 180, а в третій – 63. Чи підтверджується наявність гетероскедастичності, якщо обсяг даних у кожній підвиборці дорівнює 20?

Рішення. Розрахуємо-статистику для перевірки нуль-гіпотези про гомоскедастичність за тестом Голдфелда-Квандта:

.

Знайдемо критичні значення статистики за Фішером:

Отже, на рівнях значущості 0,1 та 0,05 F набл> F кр, і гетероскедастичність має місце, а на рівні 0,01 F набл< F кр, і гіпотезу про гомоскедастичність відхилити не можна.

Приклад 8. На основі квартальних даних отримано рівняння множинної регресії, для якого ESS = 120,32 та RSS = 41,4. Для цієї моделі були окремо проведені регресії з урахуванням наступних даних: 1 квартал 1991 р. – 1 квартал 1995 р. і 2 квартал 1995 р. – 4 квартал 1996 р. У цих регресіях залишкові СКО відповідно становили 22,25 і 12,32 . Перевірити гіпотезу про наявність структурних змін у вибірці.

Рішення. Завдання про наявність структурних змін у вибірці вирішується за допомогою тесту Чоу.

Гіпотези мають вигляд: , де s 0, s 1і s 2- Залишкові СКО відповідно для єдиного рівняння по всій вибірці та рівнянь регресії двох підвибірок загальної вибірки. Основна гіпотеза заперечує наявність структурних змін у вибірці. Для перевірки нуль – гіпотези розраховується статистика ( n = 24; p = 3):

Оскільки F – статистика менше одиниці, нуль – гіпотезу не можна відхилити для рівня значимості. Наприклад, рівня значимості 0,05.

Запитання:

4. Оцінка параметрів лінійної моделі множинної регресії.

5. Оцінка якості множинної лінійної регресії.

6. Аналіз та прогнозування на основі багатофакторних моделей.

Множинна регресія є узагальненням парної регресії. Вона використовується для опису залежності між пояснюється (залежною) зміною У і пояснюють (незалежними) змінними Х 1 Х 2 ... Х к . Множинна регресія може бути як лінійна, і нелінійна, але найбільшого поширення економіки отримала лінійна множинна регресія.

Теоретична лінійна модель множинної регресії має вигляд:

відповідну вибіркову регресію позначимо:

Як і парної регресії випадковий член ε повинен задовольняти основним припущенням регресійного аналізу. Тоді за допомогою МНК отримують найкращі незміщені та ефективні оцінки параметрів теоретичної регресії. Крім того змінні Х 1, Х 2, ..., Х k повинні бути некорельовані (лінійно незалежні) один з одним. Для того, щоб записати формули для оцінки коефіцієнтів регресії (2), отримані на основі МНК, введемо такі позначення:

Тоді можна записати у векторно-матричній формі теоретичну модель:

та вибіркову регресію

МНК призводить до наступної формули для оцінки вектора коефіцієнтів вибіркової регресії:

(3)

Для оцінки коефіцієнтів множинної лінійної регресії з двома незалежними змінними , Можна вирішити систему рівнянь:

(4)

Як і парної лінійної регресії для множинної регресії розраховується стандартна помилка регресії S:

(5)

та стандартні помилки коефіцієнтів регресії:

(6)

значимість коефіцієнтів перевіряється з допомогою t-критерію.

має поширення Стьюдента з числом ступенів свободи v= n-k-1.

Для оцінки якості регресії використовується коефіцієнт (індекс) детермінації:

, (8)

що ближче до 1, то вище якість регресії.

Для перевірки значущості коефіцієнта детермінації використовується критерій Фішера чи F-статистика.



(9)

з v 1=k, v 2=n-k-1 ступенями свободи.

У багатофакторній регресії додавання додаткових змін, що пояснюють, збільшує коефіцієнт детермінації. Для компенсації такого збільшення вводиться скоригований (або нормований) коефіцієнт детермінації:

(10)

Якщо збільшення частки регресії, що пояснюється при додаванні нової змінної мало, то може зменшитися. Отже, додавати нову змінну недоцільно.

Приклад 4:

Нехай розглядається залежність прибутку підприємства від витрат за нове обладнання та техніку і від витрат за підвищення кваліфікації працівників. Зібрано статистичні дані щодо 6 однотипних підприємств. Дані у млн. ден. од. наводяться у таблиці 1.

Таблиця 1

Побудувати двофакторну лінійну регресію та оцінити її значимість. Введемо позначення:

Транспонуємо матрицю Х:

Звернення цієї матриці:

таким чином залежність прибутку від витрат на нове обладнання та техніку та від витрат на підвищення кваліфікації працівників можна описати наступною регресією:

Використовуючи формулу (5), де k=2 розрахуємо стандартну помилку регресії S=0,636.

Стандартні помилки коефіцієнтів регресії розрахуємо, використовуючи формулу (6):

Аналогічно:

Перевіримо значущість коефіцієнтів регресії а1, а2. порахуємо t розрах.

Виберемо рівень значущості, число ступенів свободи

означає коефіцієнт а 1значущий.

Оцінимо значущість коефіцієнта а 2:

Коефіцієнт а 2незначущий.

Розрахуємо коефіцієнт детермінації за формулою (7). Прибуток підприємства на 96% залежить від витрат на нове обладнання та техніку та підвищення кваліфікації на 4% від інших та випадкових факторів. Перевіримо значущість коефіцієнта детермінації. Розрахуємо F розрах.:

т.ч. коефіцієнт детермінації значимий, рівняння регресії значимо.

Велике значенняв аналізі на основі багатофакторної регресії має порівняння впливу факторів на залежний показник. Коефіцієнти регресії для цієї мети не використовується, через відмінності одиниць вимірювання та різного ступеняколивання. Від цих недоліків вільні коефіцієнти еластичності:

Еластичність показує, наскільки відсотків у середньому змінюється залежний показник при зміні змінної на 1% за умови незмінності значень інших змінних. Чим більше, тим більше вплив відповідної змінної. Як і парної регресії для множинної регресії розрізняють точковий прогноз і інтервальний прогноз. Точковий прогноз (число) отримують при підстановці прогнозних значень незалежних змінних рівняння множинної регресії. Позначимо через:

(12)

вектор прогнозних значень незалежних змінних, тоді точковий прогноз

Стандартна помилка передбачення у разі множинної регресії визначається так:

(15)

Виберемо рівень значущості по таблиці розподілу Стьюдента. Для рівня значущості α та числа ступенів свободи ν = n-k-1 знайдемо t кр. Тоді справжнє значення у р з ймовірністю 1-α потрапляє в інтервал:


Тема 5:

Тимчасові ряди.

Запитання:

4. Основні поняття часових рядів.

5. Основна тенденція розвитку – тренд.

6. Побудова адитивної моделі.

Тимчасові рядиявляють собою сукупність значень якогось показника за кілька послідовних моментів або періодів часу.

Момент (або період) часу позначають t, а значення показника на момент часу позначають у(t) і називають рівнем ряду .

Кожен рівень тимчасового ряди формується під впливом великої кількості факторів, які можна поділити на 3 групи:

Тривалі, постійно діючі чинники, які на явище визначальний вплив і формують основну тенденцію низки – тренд T(t).

Короткочасні періодичні чинники, що формують сезонні коливання низки S(t).

Випадкові фактори, що формують випадкові зміни рівнів ряду ε(t).

Адитивною моделлютимчасового ряду називається модель, в якій кожен рівень ряду представлений сумою тренду, сезонної та випадкової компоненти:

Мультиплікативна модель– це модель, у якій кожен рівень низки є твір перелічених компонент:

Вибір однієї з моделей складає основі аналізу структури сезонних коливань. Якщо амплітуда коливань приблизно стала, то будують адитивну модель. Якщо амплітуда зростає, мультиплікативну модель.

Основне завдання економетричного аналізуполягає у виявленні кожної з перерахованих компонентів.

Основною тенденцією розвитку (трендом)називають плавну та стійку зміну рівнів ряду в часі вільне від випадкових та сезонних коливань.

Завдання виявлення основних тенденцій розвитку називається вирівнюванням тимчасового ряду .

До методів вирівнювання часового ряду відносять:

1) метод укрупнення інтервалів,

2) метод ковзної середньої,

3) аналітичне вирівнювання.

1) Збільшуються періоди часу, до яких належать рівні низки. Потім за укрупненими інтервалами підсумовуються рівні низки. Коливання рівнях, обумовлені випадковими причинами, взаємно погашаються. Точніше виявиться загальна тенденція.

2) Для визначення числа перших рівнів низки розраховується середня величина. Потім розраховується середня з такої кількості рівнів ряду, починаючи з другого рівня і т.д. середня величина ковзає рядом динаміки, просуваючись на 1 термін (момент часу). Число рівнів ряду, яким розраховується середня, може бути парним і непарним. Для непарного ковзну середню відносять до середини періоду ковзання. Для парного періоду перебування середнього значення не зіставляють із визначенням t, а застосовують процедуру центрування, тобто. обчислюють середнє з двох послідовних ковзних середніх.

3) Побудова аналітичної функції, що характеризує залежність рівня від часу. Для побудови трендів застосовують такі функції:

Параметри трендів визначаються з допомогою МНК. Вибір найкращої функції складає основі коефіцієнта R 2 .

Побудову адитивної моделі проведемо з прикладу.

Приклад 7:

Є поквартальні дані про обсяги споживання електроенергії в деякому районі за 4 роки. Дані у млн. кВт у таблиці 1.

Таблиця 1

Побудувати модель часового ряду.

У цьому прикладі як незалежну змінну розглядаємо номер кварталу , а як залежну змінну y(t) споживання електроенергії за квартал.

З діаграми розсіювання можна побачити, що тенденція (тренд) має лінійний характер. Видно також наявність сезонних коливань (період = 4) однакової амплітуди, тому будуватимемо адитивну модель.

Побудова моделі включає такі кроки:

1. Проведемо вирівнювання вихідного ряду методом ковзної середньої за 4 квартали та проведемо центрування:

1.1. Підсумуємо рівні ряду послідовно за кожні 4 квартали зі зрушенням на 1 момент часу.

1.2. Розділивши отримані суми, 4 знайдемо ковзаючі середні.

1.3. Приводимо ці значення у відповідність до фактичних моментів часу, для чого знайдемо середнє значення з двох послідовних ковзних середніх – центровані ковзні середні.

2. Розрахуємо сезонну варіацію. Сезонна варіація (t) = y(t) - центрована ковзна середня. Побудуємо таблицю 2 .

Таблиця 2

Наскрізний № кварталу t Споживання електроенергії Y(t) Ковзна середня за 4 квартали Центрована ковзна середня Оцінка сезонної варіації
6,0 - - -
4,4 6,1 - -
5,0 6,4 6,25 -1,25
9,0 6,5 6,45 2,55
7,2 6,75 6,625 0,575
: : : : :
6,6 8,35 8,375 -1,775
7,0 - - -
10,8 - - -

3. На основі сезонної варіації у таблиці 3 розраховується сезонна компонента.

Показники Рік Номер кварталу року I II III IV
- - -1,250 2,550
0,575 -2,075 -1,100 2,700
0,550 -2,025 -1,475 2,875
0,675 -1,775 - -
Разом 1,8 -5,875 -3,825 8,125 Сума
Середнє 0,6 -1,958 -1,275 2,708 0,075
Сезонна компонента 0,581 -1,977 -1,294 2,690

4. Усуваємо сезонну компоненту з вихідних рівнів ряду:

Висновок:

Адитивна модель пояснює 98,4% від загальної варіації рівнів вихідного часового ряду.

Матеріал буде проілюстрований наскрізним прикладом: прогнозування обсягів продажу компанії OmniPower.Уявіть собі, що ви - менеджер з маркетингу у великій національній мережі бакалійних магазинів. В останні роки на ринку з'явилися поживні батончики, що містять велику кількість жирів, вуглеводів та калорій. Вони дозволяють швидко відновити запаси енергії, витраченої бігунами, альпіністами та іншими спортсменами на виснажливих тренуваннях та змаганнях. За останні роки обсяг продажів поживних батончиків різко зріс, і керівництво компанії OmniPower дійшло висновку, що цей сегмент ринку досить перспективний. Перш ніж пропонувати новий вид батончика на загальнонаціональному ринку, компанія хотіла б оцінити вплив його вартості та рекламних витрат на обсяг продажу. Для маркетингового дослідження було відібрано 34 магазини. Вам необхідно створити регресійну модель, що дозволяє проаналізувати дані, отримані під час дослідження. Чи можна застосувати для цього модель простої лінійної регресії, розглянуту в попередній статті? Як її слід змінити?

Модель множинної регресії

Для маркетингового дослідження в компанії OmniPower було створено вибірку, що складається з 34 магазинів із приблизно однаковими обсягами продажів. Розглянемо дві незалежні змінні - ціна батончика OmniPower у центах ( Х 1) та місячний бюджет рекламної кампанії, що проводиться у магазині, виражений у доларах ( Х 2). До цього бюджету входять витрати на оформлення вивісок та вітрин, а також на роздачу купонів та безкоштовних зразків. Залежна змінна Yє кількість батончиків OmniPower, проданих за місяць (рис. 1).

Рис. 1. Місячний обсяг продажу батончиків OmniPower, їх ціна та витрати на рекламу

Завантажити нотатку у форматі або , приклади у форматі

Інтерпретація регресійних коефіцієнтів.Якщо завдання досліджуються кілька пояснюючих змінних, модель простої лінійної регресії можна розширити, припускаючи, що між відгуком і кожної з незалежних змінних існує лінійна залежність. Наприклад, за наявності kпояснюючих змінних модель множинної лінійної регресії набуває вигляду:

(1) Y i = β 0 + β 1 X 1i + β 2 X 2i + … + β k X ki + ε i

де β 0 - Зсув, β 1 - нахил прямий Y, що залежить від змінної Х 1, якщо змінні Х 2, Х 3, …, Х kє константами, β 2 - нахил прямий Y, що залежить від змінної Х 2, якщо змінні Х 1, Х 3, …, Х kє константами, β k- нахил прямий Y, що залежить від змінної Х k, якщо змінні Х 1, Х 2, …, Х k-1є константами, ε i Yв i-м спостереженні.

Зокрема, модель множинної регресії з двома змінними, що пояснюють:

(2) Y i = β 0 + β 1 X 1 i + β 2 X 2 i + ε i

де β 0 - Зсув, β 1 - нахил прямий Y, що залежить від змінної Х 1, якщо змінна Х 2є константою, β 2 - нахил прямий Y, що залежить від змінної Х 2, якщо змінна Х 1є константою, ε i- випадкова помилка змінної Yв i-м спостереженні.

Порівняємо цю модель множинної лінійної регресії та модель простої лінійної регресії: Y i = β 0 + β 1 X i + ε i. У моделі простої лінійної регресії нахил β 1 Yпри зміні значення змінної X на одиницю і враховує вплив інших чинників. У моделі множинної регресії з двома незалежними змінними (2) нахил β 1 є зміною середнього значення змінної Yпри зміні значення змінної X 1на одиницю з урахуванням впливу змінної Х 2. Ця величина називається коефіцієнтом чистої регресії (або приватної регресії).

Як і в моделі простої лінійної регресії, вибіркові регресійні коефіцієнти b 0 , b 1 , і b 2 є оцінками параметрів відповідної генеральної сукупності β 0 , β 1 і β 2 .

Рівняння множинної регресії з двома незалежними змінними:

(3) = b 0 + b 1 X 1 i + b 2 X 2 i

Для обчислення коефіцієнтів регресії використовують метод найменших квадратів. В Excel можна скористатися Пакетом аналізу, опцією Регресія. На відміну від побудови лінійної регресії, просто задайте як Вхідного інтервалу Хобласть, що включає усі незалежні змінні (рис. 2). У нашому прикладі це $C$1:$D$35.

Рис. 2. Вікно Регресія Пакету аналізу Excel

Результати роботи Пакету аналізу представлені на рис. 3. Як бачимо, b 0 = 5 837,52, b 1 = -53,217 та b 2 = 3,163. Отже, = 5 837,52 –53,217 X 1 i + 3,163 X 2 i, де Ŷ i- передбачений обсяг продажів поживних батончиків OmniPower в i-му магазині (штук), Х 1i- ціна батончика (у центах) i-му магазині, Х 2i- щомісячні витрати на рекламу в i-му магазині (у доларах).

Рис. 3. Множинна регресія дослідження обсяг продаж батончиків OmniPower

Вибірковий нахил b 0 дорівнює 5837,52 і є оцінкою середньої кількості батончиків OmniPower, проданих за місяць при нульовій ціні та відсутності витрат на рекламу. Оскільки ці умови позбавлені сенсу, у цій ситуації величина нахилу b 0немає розумної інтерпретації.

Вибірковий нахил b 1 дорівнює -53,217. Це означає, що при заданому щомісячному обсязі витрат на рекламу, збільшення ціни батончика на один цент призведе до зниження очікуваного обсягу продажів на 53,217 штук. Аналогічно вибірковий нахил b 2 , що дорівнює 3,613, означає, що при фіксованій ціні збільшення щомісячних рекламних витрат на один долар супроводжується збільшенням очікуваного обсягу продажів батончиків на 3,613 шт. Ці оцінки дозволяють краще зрозуміти вплив ціни та реклами на обсяг продажу. Наприклад, при фіксованому обсязі витрат за рекламу зменшення ціни батончика на 10 центів збільшить обсяг продажу на 532,173 прим., а за фіксованою ціною батончика збільшення рекламних витрат за 100 дол. збільшить обсяг продажу на 361,31 прим.

Інтерпретація нахилів у моделі множинної регресії.Коефіцієнти моделі множинної регресії називаються коефіцієнтами чистої регресії. Вони оцінюють середню зміну відгуку Yпри зміні величини Xна одиницю, якщо інші пояснюють змінні «заморожені». Наприклад, у задачі про батончиків OmniPower магазин з фіксованим обсягом рекламних витрат за місяць продасть на 53,217 батончика менше, якщо збільшить їхню вартість на один цент. Можлива ще одна інтерпретація цих коефіцієнтів. Уявіть собі однакові магазини з однаковим обсягом рекламних витрат. При зменшенні ціни на один цент батончика обсяг продажів у цих магазинах збільшиться на 53,217 батончика. Розглянемо тепер два магазини, де батончики стоять однаково, але витрати на рекламу відрізняються. У разі збільшення цих витрат на один долар обсяг продажів у цих магазинах збільшиться на 3,613 штук. Як бачимо, розумна інтерпретація нахилів можлива лише за певних обмежень, накладених на пояснюючі змінні.

Пророцтво значень залежної змінної Y.З'ясувавши, що накопичені дані дозволяють використовувати модель множинної регресії, ми можемо прогнозувати щомісячний обсяг продажів батончиків OmniPower та побудувати довірчі інтервали для середнього та передбаченого обсягів продажів. Для того, щоб передбачити середній щомісячний обсяг продажів батончиків OmniPower за ціною 79 центів у магазині, що витрачає на рекламу 400 дол. на місяць, слід застосувати рівняння множинної регресії: Y = 5 837,53 - 53,2173 * 79 = 3079. Отже, очікуваний обсяг продажів у магазинах, що торгують батончиками OmniPower за ціною 79 центів і витрачають на рекламу 400 дол. на місяць, дорівнює 3079 шт.

Обчисливши величину Yта оцінивши залишки, можна побудувати довірчі інтервали, що містять математичне очікування та передбачене значення відгуку. ми розглянули цю процедуру у рамках моделі простої лінійної регресії. Проте побудова аналогічних оцінок моделі множинної регресії пов'язані з великими обчислювальними труднощами і тут не наводиться.

Коефіцієнт множинної змішаної кореляції.Нагадаємо, що модель регресії дозволяє обчислити коефіцієнт змішаної кореляції. r 2. Оскільки в моделі множинної регресії існують принаймні дві пояснюючі змінні, коефіцієнт множинної змішаної кореляції є частка варіації змінної Y, що пояснюється заданим набором змінних, що пояснюють:

де SSR- Сума квадратів регресії, SST- Повна сума квадратів.

Наприклад, у задачі про продаж батончика OmniPower SSR = 39 472 731, SST= 52093677 і k = 2. Таким чином,

Це означає, що 75,8% варіації обсягів продажу пояснюється змінами цін та коливаннями обсягів витрат на рекламу.

Аналіз залишків для моделі множинної регресії

Аналіз залишків дозволяє визначити, чи можна застосовувати модель множинної регресії з двома (або більше) перемінними, що пояснюють. Як правило, проводять такі види аналізу залишків:

Перший графік (рис. 4а) дозволяє проаналізувати розподіл залишків залежно від передбачених значень. Якщо величина залишків не залежить від передбачених значень і набуває як позитивних так і негативних значень (як у нашому прикладі), умова лінійної залежності змінної Yвід обох пояснюючих змінних виконується. На жаль, у Пакет аналізуцей графік чомусь не створюється. Можна у вікні Регресія(див. рис. 2) увімкнути Залишки. Це дозволить вивести таблицю із залишками, а вже по ній побудувати точковий графік (рис. 4).

Рис. 4. Залежність залишків від передбаченого значення

Другий і третій графік демонструють залежність залишків від змінних, що пояснюють. Ці графіки можуть виявити квадратичний ефект. У цій ситуації необхідно додати в модель множинної регресії квадрат, що пояснює змінну. Ці графіки виводяться Пакетом аналізу (див. рис. 2), якщо увімкнути опцію Графік залишків (рис. 5).

Рис. 5. Залежність залишків від ціни та витрат на рекламу

Перевірка значимості моделі множинної регресії.

Переконавшись за допомогою аналізу залишків, що модель лінійної множинної регресії є адекватною, можна визначити, чи існує статистично значущий взаємозв'язок між залежною змінною та набором змінних, що пояснюють. Оскільки в модель входить кілька пояснюючих змінних, нульова та альтернативна гіпотези формулюються наступним чином: Н 0: β 1 = β 2 = … = β k = 0 (між відгуком та пояснювальними змінними немає лінійної залежності), Н 1: існує принаймні одне значення β j ≠ 0 (між відгуком і хоча б однією пояснювальною змінною існує лінійна залежність).

Для перевірки нульової гіпотези застосовується F-критерій – тестова F-статистика дорівнює середньому квадрату, обумовленому регресією (MSR), поділеному на дисперсію помилок (MSE):

де F F-розподіл з kі n – k – 1ступенями свободи, k –кількість незалежних змінних у регресійної моделі.

Вирішальне правило виглядає так: при рівні значимості нульова гіпотеза Н 0відхиляється, якщо F > F U (k, n – k – 1), інакше гіпотеза Н 0 не відхиляється (рис. 6).

Рис. 6. Зведена таблиця дисперсійного аналізу для перевірки гіпотези про статистичну значущість коефіцієнтів множинної регресії

Зведена таблиця дисперсійного аналізу, заповнена з використанням Пакет аналізу Excel при вирішенні задачі про продаж батончиків OmniPower показана на рис. 3 (див. область А10: F14). Якщо рівень значущості дорівнює 0,05, критичне значення F-розподілу з двома та 31 ступенями свободи F U(2,31)= F.ОБР (1-0,05; 2; 31) = дорівнює 3,305 (рис. 7).

Рис. 7. Перевірка гіпотези про значимість коефіцієнтів регресії при рівні значущості α = 0,05, з 2 та 31 ступенями свободи

Як показано на рис. 3, F-статистика дорівнює 48,477> F U(2,31)= 3,305, а p-значення близько 0,000< 0,05. Следовательно, нулевая гипотеза Н 0 отклоняется, и объем продаж линейно связан хотя бы с одной из объясняющих переменных (ценой и/или затратами на рекламу).

Статистичні висновки про генеральну сукупність коефіцієнтів регресії

Щоб виявити статистично значущу залежність між змінними Xі Yу моделі простої лінійної регресії, було виконано перевірку гіпотези про нахилі. З іншого боку, з метою оцінки нахилу генеральної сукупності було побудовано довірчий інтервал (див. ).

Перевірка гіпотез.Для перевірки гіпотези, яка стверджує, що нахил генеральної сукупності β 1 у моделі простої лінійної регресії дорівнює нулю, використовується формула t = (b 1 – β 1)/S b 1 . Її можна поширити на модель множинної регресії:

де t– тестова статистика, що має t-розподіл з n – k – 1ступенями свободи, b j- нахил змінної хjпо відношенню до змінної Yякщо всі інші пояснюючі змінні є константами, S bj- Середньоквадратична помилка регресійного коефіцієнта b j, k- кількість пояснюючих змінних у рівнянні регресії, β j - гіпотетичний нахил генеральної сукупності відгуків j-й щодо змінної, коли решта змінні фіксовані.

На рис. 3 (нижня таблиця) показані результати застосування t-критерію (отримані за допомогою Пакет аналізу) для кожної з незалежних змінних, включених до регресійної моделі. Таким чином, якщо необхідно визначити, чи надає змінна Х 2(витрати на рекламу) суттєвий вплив на обсяг продажу за фіксованою ціною батончика OmniPower, формулюються нульова та альтернативна гіпотези: Н 0: β2 = 0, Н 1: β2 ≠ 0. Відповідно до формули (6) отримуємо:

Якщо рівень значущості дорівнює 0,05, критичними значеннями t-розподілу з 31 ступенями свободи є t L = СТЬЮДЕНТ.ОБР(0,025;31) = -2,0395 і t U = СТЬЮДЕНТ.ОБР(0,975;31) = 2,0395 (рис. 8). р-значення = 1-СТЬЮДЕНТ.РАСП (5,27; 31; ІСТИНА) і близько до 0,0000. На підставі однієї з нерівностей t= 5,27> 2,0395 або р = 0,0000 < 0,05 нулевая гипотеза Н 0відхиляється. Отже, при фіксованій ціні батончика між змінною Х 2(Витрати на рекламу) та обсягом продажів існує статистично значуща залежність. Таким чином, існує надзвичайно мала ймовірність відкинути нульову гіпотезу, якщо між витратами на рекламу та обсягами продажу немає лінійної залежності.

Рис. 8. Перевірка гіпотези про значущість коефіцієнтів регресії при рівні значущості α = 0,05, з 31 ступенем свободи

Перевірка значимості конкретних коефіцієнтів регресії фактично є перевірку гіпотези про значущість конкретної змінної, включеної до регресійної моделі поряд з іншими. Отже, t-Критерій для перевірки гіпотези про значущість регресійного коефіцієнта еквівалентний перевірці гіпотези про вплив кожної з пояснюючих змінних.

Довірчі інтервали.Замість перевірки гіпотези про нахилі генеральної сукупності можна оцінити значення цього нахилу. У моделі множинної регресії для побудови довірчого інтервалу використовується формула:

(7) b j ± t nk –1 S bj

Скористаємося цією формулою для того, щоб побудувати 95% довірчий інтервал, що містить нахил генеральної сукупності β 1 (вплив ціни X 1на обсяг продажу Yпри фіксованому обсязі витрат на рекламу Х 2). За формулою (7) отримуємо: b 1 ± t nk –1 S b 1 . Оскільки b 1 = -53,2173 (див. рис. 3), S b 1 = 6,8522, критичне значення t-статистики при 95%-ному довірчому рівні та 31 ступені свободи t nk –1 =СТЬЮДЕНТ.ОБР(0,975;31) = 2,0395, отримуємо:

-53,2173 ± 2,0395 * 6,8522

-53,2173 ± 13,9752

–67,1925 ≤ β 1 ≤ –39,2421

Таким чином, враховуючи ефект витрат на рекламу, можна стверджувати, що зі збільшенням ціни батончика на один цент обсяг продажу зменшується на величину, яка коливається від 39,2 до 67,2 шт. Існує 95% ймовірність, що цей інтервал правильно оцінює залежність між двома змінними. Оскільки цей довірчий інтервал не містить нуля, можна стверджувати, що регресійний коефіцієнт β1 має статистично значний впливна обсяг продажу.

Оцінка значущості змінних, що пояснюють, у моделі множинної регресії

У модель множинної регресії слід включати ті пояснюючі змінні, які дозволяють точно передбачити значення залежної змінної. Якщо яка-небудь із змінних, що пояснюють, не відповідає цій вимогі, її потрібно видалити з моделі. Як альтернативний метод, що дозволяє оцінити внесок пояснюючої змінної, як правило, застосовується приватний F-Критерій. Він полягає в оцінці зміни суми квадратів регресії після включення до моделі чергової змінної. Нова змінна включається до моделі лише тоді, коли це призводить до значного збільшення точності передбачення.

Для того, щоб застосувати приватний F-критерій для вирішення завдання про продаж батончика OmniPower, необхідно оцінити внесок змінної Х 2(Витрати на рекламу) після включення в модель змінної X 1(ціна батончика). Якщо в модель входять кілька змінних, що пояснюють, внесок пояснюючої змінної хjможна визначити, виключивши її з моделі і оцінивши суму квадратів регресії (SSR), обчислену за змінними, що залишилися. Якщо модель входять дві змінні, внесок кожної їх визначається по формулам:

Оцінка вкладу змінної Х 1 Х 2:

(8а) SSR(X 1 |Х 2) = SSR(X 1 і Х 2) - SSR(X 2)

Оцінка вкладу змінної Х 2за умови, що в модель включено змінну Х 1:

(8б) SSR(X 2 |Х 1) = SSR(X 1 і Х 2) - SSR(X 1)

Величини SSR(X 2)і SSR(X 1) відповідно являють собою суми квадратів регресії, обчислених тільки по одній з змінних, що пояснюються (рис. 9).

Рис. 9. Коефіцієнти моделі простої лінійної регресії, яка враховує: (а) обсяг продажу та ціну батончика – SSR(X 1); (б) обсяг продажу та витрати на рекламу – SSR(X 2)(отримані за допомогою Пакету аналізу Excel)

Нульова та альтернативна гіпотези про внесок змінної Х 1формулюються так: Н 0- Увімкнення змінної Х 1не призводить до значного збільшення точності моделі, в якій враховується змінна Х 2; Н 1- Увімкнення змінної Х 1призводить до значного збільшення точності моделі, в якій враховано змінну Х 2. Статистика, покладена основою приватного F-критерію для двох змінних, обчислюється за формулою:

де MSE- Дисперсія помилки (залишку) для двох факторів одночасно. За визначенням F-статистика має F-розподіл з одного та n–k–1ступенями свободи.

Отже, SSR(X 2)= 14915814 (рис. 9), SSR(X 1 і Х 2)= 39472731 (рис. 3, осередок С12). Отже, за формулою (8а) отримуємо: SSR(X 1 |Х 2) = SSR(X 1 і Х 2) - SSR(X 2) = 39472731 - 14915814 = 24556917. Отже, для SSR(X 1 |Х 2) = 24 556 917 та MSE (X 1 та Х 2) = 407 127 (рис. 3, осередок D13), використовуючи формулу (9), отримуємо: F= 24556917 / 407127 = 60,32. Якщо рівень значимості дорівнює 0,05, то критичне значення F-розподілу з одним і 31 ступенями свободи = F.ОБР (0,95; 1; 31) = 4,16 (рис. 10).

Рис. 10. Перевірка гіпотези про значущість коефіцієнтів регресії при рівні значимості, що дорівнює 0,05, з одним і 31 ступенями свободи

Оскільки обчислене значення F-статистики більше критичного (60,32> 4,17), гіпотеза Н 0відхиляється, отже, облік змінної Х 1(ціни) значно покращує модель регресії, до якої вже включено змінну Х 2(Витрати на рекламу).

Аналогічно можна оцінити вплив змінної Х 2(Витрати на рекламу) на модель, в яку вже включена змінна Х 1(ціна). Проведіть обчислення самостійно. Вирішальна умова призводить до того, що 27,8 > 4,17, а отже, включення змінної Х 2також призводить до значного збільшення точності моделі, в якій враховується змінна Х1. Отже, включення кожної із змінних підвищує точність моделі. Отже, до моделі множинної регресії необхідно включити обидві змінні: і ціну, і витрати на рекламу.

Цікаво, що значення t-статистики, обчислене за формулою (6), та значення приватної F-статистики, заданою формулою (9), однозначно взаємопов'язані:

де а- кількість ступенів волі.

Регресійні моделі з фіктивною змінною та ефекти взаємодії

Обговорюючи моделі множинної регресії, ми припускали, що кожна незалежна змінна є числовою. Однак у багатьох ситуаціях модель необхідно включати категорійні змінні. Наприклад, у задачі про продаж батончиків OmniPower для передбачення середньомісячного обсягу продажів використовувалися ціна та витрати на рекламу. Крім цих числових змінних, можна спробувати врахувати моделі розташування товару всередині магазину (наприклад, на вітрині чи ні). Щоб врахувати в регресійній моделі категорійні змінні, слід включити до неї фіктивні змінні. Наприклад, якщо якась категорійна змінна, що пояснює, має дві категорії, для їх представлення достатньо однієї фіктивної змінної. Xd: X d= 0, якщо спостереження належить першій категорії, X d= 1, якщо спостереження належить другий категорії.

Для ілюстрації фіктивних змінних розглянемо модель для передбачення середньої оцінної вартості нерухомості на основі вибірки з 15 будинків. Як пояснюють змінних виберемо житлову площу будинку (тис. кв. футів) та наявність каміна (рис. 11). Фіктивна змінна Х 2(Наявність каміна) визначена наступним чином: Х 2= 0, якщо каміна в будинку немає, Х 2= 1, якщо у будинку є камін.

Рис. 11. Оцінна вартість, передбачена за житловою площею та наявністю каміна

Припустимо, що нахил оцінної вартості, яка залежить від житлової площі, однаковий у будинків, що мають камін і не мають його. Тоді модель множинної регресії виглядає так:

Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i

де Y i- оціночна вартість i-го будинку, виміряна в тисячах доларів, β 0 - Зсув відгуку, X 1i,- житлова площа i-го будинку, виміряна в тис. кв. футів, β 1 - нахил оцінної вартості, яка залежить від житлової площі будинку при постійному значенні фіктивної змінної, X 1i,- фіктивна змінна, що означає наявність або відсутність каміна, β 1 - нахил оцінної вартості, яка залежить від житлової площі будинку при постійному значенні фіктивної змінної β 2 - ефект збільшення оцінної вартості будинку в залежності від наявності каміна за постійної величини житлової площі, ε i– випадкова помилка оцінної вартості i-го будинку. Результати обчислення регресійної моделі представлені на рис. 12.

Рис. 12. Результати обчислення регресійної моделі для оцінної вартості будинків; отримані за допомогою Пакет аналізув Excel; для розрахунку використано таблицю, аналогічну рис. 11, з єдиною зміною: «Так» замінені одиницями, а «Ні» – нулями

У цій моделі коефіцієнти регресії інтерпретуються так:

  1. Якщо фіктивна змінна має незмінне значення, збільшення житлової площі на 1000 кв. футів призводить до збільшення передбаченої середньої оцінної вартості на 16,2 тис. дол.
  2. Якщо житлова площа стала, наявність каміна збільшує середню оцінну вартість будинку на 3,9 тис. дол.

Зверніть увагу (рис. 12), t-статистика, що відповідає житловій площі, дорівнює 6,29, а р-значення майже дорівнює нулю. В той же час t-статистика, що відповідає фіктивній змінній, дорівнює 3,1, а p-значення - 0,009. Таким чином, кожна з цих двох змінних робить істотний внесок у модель, якщо рівень значущості дорівнює 0,01. Крім того, коефіцієнт множинної змішаної кореляції означає, що 81,1% варіації оцінної вартості пояснюється мінливістю житлової площі будинку та наявністю каміна.

Ефект взаємодії.У всіх регресійних моделях, розглянутих вище, вважалося, що вплив відгуку на змінну, що пояснює, є статистично незалежним від впливу відгуку на інші пояснюючі змінні. Якщо ця умова не виконується, виникає взаємодія між залежними змінними. Наприклад, цілком імовірно, що реклама дуже впливає на обсяг продажу товарів, що мають низьку ціну. Однак, якщо ціна товару надто висока, збільшення витрат на рекламу не може суттєво підвищити обсяг продажу. У цьому випадку спостерігається взаємодія між ціною товару та витратами на його рекламу. Інакше висловлюючись, не можна робити загальних тверджень про залежність обсягу продажу від витрат за рекламу. Вплив рекламних витрат обсяг продажів залежить від ціни. Цей вплив враховується у моделі множинної регресії за допомогою ефекту взаємодії. Для ілюстрації цього поняття повернемося до завдання вартості будинків.

У розробленій нами регресійній моделі передбачалося, вплив розміру будинку на його вартість не залежить від того, чи є в будинку камін. Інакше висловлюючись, вважалося, що нахил оцінної вартості, що залежить від житлової площі будинку, однаковий у будинків, що мають камін і не мають його. Якщо ці нахили відрізняються один від одного, між розміром будинку та наявністю каміна існує взаємодія.

Перевірка гіпотези про рівність нахилів зводиться до оцінки вкладу, який вносить у модель регресії твір пояснювальної змінної X 1та фіктивної змінної Х 2. Якщо цей вклад є статистично значущим, вихідну модель регресії застосовувати не можна. Результати регресійного аналізу, що включає змінні Х 1 , Х 2і Х 3 = Х 1 * Х 2наведено на рис. 13.

Рис. 13. Результати, отримані за допомогою Пакет аналізу Excel для регресійної моделі, що враховує житлову площу, наявність каміна та їх взаємодія

Для того щоб перевірити нульову гіпотезу Н 0: β 3 = 0 та альтернативну гіпотезу Н 1: β 3 ≠ 0, використовуючи результати, наведені на рис. 13, звернемо увагу на те, що t-Статистика, що відповідає ефекту взаємодії змінних, дорівнює 1,48. Оскільки рзначення дорівнює 0,166 > 0,05, нульова гіпотеза не відхиляється. Отже, взаємодія змінних немає істотного впливу модель регресії, враховує житлову площу і наявність каміна.

Резюме У замітці показано, як менеджер з маркетингу може застосовувати множинний лінійний аналіз для передбачення обсягу продажу, що залежить від ціни та витрат на рекламу. Розглянуто різні моделі множинної регресії, включаючи квадратичні моделі, моделі з фіктивними змінними та моделі з ефектами взаємодії (рис. 14).

Рис. 14. Структурна схема нотатки

Використовуються матеріали книги Левін та ін. Статистика менеджерів. - М.: Вільямс, 2004. - с. 873–936

Доброго дня, шановні читачі.
У минулих статтях, на практичні приклади, Мною були показані способи вирішення завдань класифікації (завдання кредитного скорингу) та основ аналізу текстової інформації (завдання про паспорти). Сьогодні ж мені хотілося б торкнутися іншого класу завдань, а саме відновлення регресії. Завдання цього класу, як правило, використовуються при прогнозуванні.
Для прикладу розв'язання задач прогнозування, я взяв набір даних Energy efficiency з найбільшого репозиторію UCI . Як інструменти за традицією будемо використовувати Python з аналітичними пакетами pandas і scikit-learn.

Опис набору даних та постановка задачі

Даний набір даних, який описує наступні атрибути приміщення:

У ньому – характеристики приміщення на підставі яких проводитиметься аналіз, а – значення навантаження, які треба спрогнозувати.

Попередній аналіз даних

Для початку завантажимо наші дані та подивимося на них:

From pandas import read_csv, DataFrame from sklearn.neighbors import KNeighborsRegressor from sklearn.linear_model import LinearRegression, LogisticRegression from sklearn.svm import SVR from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import r2_score from sklearn.cross_validation import train_test_split dataset = read_csv("EnergyEfficiency /ENB2012_data.csv",";") dataset.head()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

Тепер давайте подивимося, чи не пов'язані між собою які-небудь атрибути. Зробити це можна, розрахувавши коефіцієнти кореляції для всіх стовпців. Як це зробити було описано в попередній статті:

Dataset.corr()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1.000000e+00 -9.919015e-01 -2.037817e-01 -8.688234e-01 8.277473e-01 0.000000 1.283986e-17 1.764620e-17 0.622272 0.634339
X2 -9.919015e-01 1.000000e+00 1.955016e-01 8.807195e-01 -8.581477e-01 0.000000 1.318356e-16 -3.558613e-16 -0.658120 -0.672999
X3 -2.037817e-01 1.955016e-01 1.000000e+00 -2.923165e-01 2.809757e-01 0.000000 -7.969726e-19 0.000000e+00 0.455671 0.427117
X4 -8.688234e-01 8.807195e-01 -2.923165e-01 1.000000e+00 -9.725122e-01 0.000000 -1.381805e-16 -1.079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8.581477e-01 2.809757e-01 -9.725122e-01 1.000000e+00 0.000000 1.861418e-18 0.000000e+00 0.889431 0.895785
X6 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 1.000000 0.000000e+00 0.000000e+00 -0.002587 0.014290
X7 1.283986e-17 1.318356e-16 -7.969726e-19 -1.381805e-16 1.861418e-18 0.000000 1.000000e+00 2.129642e-01 0.269841 0.207505
X8 1.764620e-17 -3.558613e-16 0.000000e+00 -1.079129e-16 0.000000e+00 0.000000 2.129642e-01 1.000000e+00 0.087368 0.050525
Y1 6.222722e-01 -6.581202e-01 4.556712e-01 -8.618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6.729989e-01 4.271170e-01 -8.625466e-01 8.957852e-01 0.014290 2.075050e-01 5.052512e-02 0.975862 1.000000

Як можна помітити з нашої матриці, корелюють між собою такі стовпи (Значення коефіцієнта кореляції більше 95%):
  • y1 --> y2
  • x1 --> x2
  • x4 --> x5
Тепер давайте виберемо, які стовпці наших пар ми можемо прибрати з нашої вибірки. Для цього, у кожній парі, виберемо стовпці, які більшою мірою впливають на прогнозні значення Y1і Y2і залишимо їх, а решту вилучимо.
Як можна помітити і матриці з коефіцієнтами кореляції на y1 ,y2 більше значення надають X2 і X5 , ніж X1 та X4, таким чином ми можемо останні стовпці ми можемо видалити.

Dataset = dataset.drop(["X1","X4"], axis=1) dataset.head()
Крім цього, можна помітити, що поля Y1 і Y2 дуже тісно корелюють між собою. Але, тому що нам треба спрогнозувати обидва значення, ми їх залишаємо «як є».

Вибір моделі

Відокремимо від нашої вибірки прогнозні значення:

Trg = dataset[["Y1","Y2"]] trn = dataset.drop(["Y1","Y2"], axis=1)
Після обробки даних можна перейти до побудови моделі. Для побудови моделі будемо використовувати такі методи:

Теорію про дані методи можна почитати в курсі лекцій К.В.Воронцова з машинного навчання.
Оцінку будемо проводити за допомогою коефіцієнта детермінації ( R-квадрат). Цей коефіцієнт визначається наступним чином:

Де - умовна дисперсія залежної величини уза фактором х.
Коефіцієнт приймає значення на проміжку і чим він ближче до 1 тим сильніша залежність.
Ну що ж тепер можна перейти безпосередньо до побудови моделі та вибору моделі. Давайте помістимо всі наші моделі в один список для зручності подальшого аналізу:

Models =
Отже моделі готові, тепер ми розіб'ємо наші вихідні дані на 2 підвибори: тестовуі навчальну. Хто читав мої попередні статті, знає, що зробити це можна за допомогою функції train_test_split() з пакету scikit-learn:

Xtrn, Xtest, Ytrn, Ytest = train_test_split (trn, trg, test_size = 0.4)
Тепер, тому що нам треба спрогнозувати 2 параметри, треба побудувати регресію для кожного з них. Крім цього, для подальшого аналізу, можна записати отримані результати до тимчасового DataFrame. Зробити це можна так:

#створюємо часові структури TestModels = DataFrame() tmp = () #для кожної моделі зі списку for model in models: #отримуємо ім'я моделі m = str(model) tmp["Model"] = m[:m.index("( ")] #для кожного стовпцям результуючого набору for i in xrange(Ytrn.shape): #навчаємо модель model.fit(Xtrn, Ytrn[:,i]) #обчислюємо коефіцієнт детермінації tmp["R2_Y%s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #записуємо дані та підсумковий DataFrame TestModels = TestModels.append() #робимо індекс за назвою моделі TestModels.set_index("Model", inplace= True)
Як можна помітити з вище коду, для розрахунку коефіцієнта використовується функція r2_score().
Отже, дані для аналізу отримано. Давайте тепер побудуємо графіки та подивимося яка модель показала найкращий результат:

Fig, axes = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="bar", title="R2_Y1)") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Аналіз результатів та висновки

З графіків, наведених вище, можна зробити висновок, що краще за інших із завданням впорався метод RandomForest(Випадковий ліс). Його коефіцієнти детермінації вищі за інші за обома змінними:
ля подальшого аналізу давайте заново навчимо нашу модель:

Model = models model.fit(Xtrn, Ytrn)
При уважному розгляді може виникнути питання, чому в попередній раз і ділили залежну вибірку Ytrnна змінні (по стовпцях), а тепер ми цього не робимо.
Справа в тому, що деякі методи, такі як RandomForestRegressorможе працювати з кількома прогнозованими змінними, а інші (наприклад SVR) можуть працювати лише з однією змінною. Тому на попередньому навчанні ми використовували розбиття по стовпцях, щоб уникнути помилки в процесі побудови деяких моделей.
Вибрати модель це, звичайно ж, добре, але ще непогано б мати інформацію, як кожен фактор впливає на прогнозне значення. Для цього модель має властивість feature_importances_.
За допомогою нього можна подивитися вагу кожного фактора в підсумковій моделі:

Model.feature_importances_
array([ 0.40717901, 0.11394948, 0.34984766, 0.00751686, 0.09158358,
0.02992342])

У нашому випадку видно, що найбільше на навантаження при обігріві та охолодженні впливають загальна висота та площа. Їхній загальний внесок у прогнозній моделі близько 72%.
Також необхідно зазначити, що за вищезгаданою схемою можна подивитися вплив кожного фактора окремо на обігрів та окремо на охолодження, але тому що ці фактори у нас дуже тісно корелюють між собою (), ми зробили загальний висновок за ними обом, який і був написаний вище .

Висновок

У статті я постарався показати основні етапи під час регресійного аналізу даних за допомогою Python та аналітичних пакетів pandasі scikit-learn.
Необхідно відзначити, що набір даних спеціально вибирався таким чином, щоб бути максимально формалізованим і первинна обробка вхідних даних була б мінімальною. На мій погляд стаття буде корисною тим, хто тільки починає свій шлях в аналізі даних, а також тим, хто має хорошу теоретичну базу, але вибирає інструментарій для роботи.
Поділіться з друзями або збережіть для себе:

Завантаження...