Для регресійної залежності. Методи математичної статистики

А) Графічний аналіз простий лінійної регресії.

Просте лінійне рівняння регресії y = a + bx. Якщо між випадковими величинамиУ та X існує кореляційний зв'язок, то значення у = ý + ,

де y – теоретичне значення у, отримане з рівняння y = f(x),

 – похибка відхилення теоретичного рівняння від фактичних (експериментальних) даних.

Рівняння залежності середньої величини від х, тобто ý = f(x) називають рівнянням регресії. Регресійний аналіз складається з чотирьох етапів:

1) постановка завдання та встановлення причин зв'язку.

2) обмеження об'єкта досліджень, збирання статистичної інформації.

3) вибір рівняння зв'язку на основі аналізу та характеру зібраних даних.

4) розрахунок числових значень, показників кореляційного зв'язку.

Якщо дві змінні пов'язані таким чином, що зміна однієї змінної відповідає систематичній зміні іншої змінної, то для оцінки та вибору рівняння зв'язку між ними застосовують регресійний аналіз, якщо ці змінні відомі. На відміну від регресійного аналізу, кореляційний аналіз застосовують для аналізу тісноти зв'язку між X та У.

Розглянемо знаходження прямої при регресійному аналізі:

Теоретичне рівняння регресії.

Термін «проста регресія» вказує на те, що величина однієї змінної оцінюється на основі знань про іншу змінну. На відміну від простої, багатофакторна регресія застосовується для оцінки змінної на основі знання двох, трьох і більше змінних. Розглянемо графічний аналіз простої лінійної регресії.

Припустимо, є результати відбіркових випробувань за попереднім наймом на роботу та продуктивністю праці.

Результати відбору (100 балів), x

Продуктивність (20 балів), y

Нанісши крапки на графік, отримаємо діаграму (поле) розсіювання. Використовуємо її для аналізу результатів відбірних випробувань та продуктивності праці.

За діаграмою розсіювання проаналізуємо лінію регресії. У регресійному аналізі завжди вказуються хоча б дві змінні. Систематичне зміна однієї змінної пов'язані з зміною інший. основна ціль регресійного аналізуполягає в оцінці величини однієї змінної, якщо величина іншої змінної відома. Для повного завданняважлива оцінка продуктивність праці.

Незалежною змінноюу регресійному аналізі називається величина, яка використовується як основа для аналізу іншої змінної. У разі – це результати відбіркових випробувань (по осі X).

Залежною змінноюназивається оцінювана величина (по осі У). У регресійному аналізі може бути лише одна залежна змінна та кілька незалежних змінних.

Для простого регресійного аналізу залежність можна у двокоординатної системі (х і у), по осі X – незалежна змінна, по осі У – залежна. Наносимо точки перетину таким чином, щоб на графіку було представлено пару величин. Графік називають діаграмою розсіювання. Її побудова – це другий етап регресійного аналізу, оскільки перший – це вибір аналізованих величин та збір даних вибірки. Отже, регресійний аналіз застосовується для статистичного аналізу. Зв'язок між вибірковими даними діаграми лінійний.

Для оцінки величини змінної у на основі змінної х необхідно визначити положення лінії, яка найкращим чиномпредставляє зв'язок між х і на основі розташування точок діаграми розсіювання. У прикладі це аналіз продуктивності. Лінія, проведена через точки розсіювання – лінія регресії. Одним із способів побудови лінії регресії, заснованому на візуальному досвіді, є спосіб побудови від руки. На нашій лінії регресії можна визначити продуктивність праці. При знаходженні рівняння лінії регресії

часто застосовують критерій найменших квадратів. Найбільш підходящою є та лінія, де сума квадратів відхилень мінімальна

Математичне рівняння лінії зростання представляє закон зростання арифметичної прогресії:

у = аbх.

Y = а + bх– наведене рівняння з одним параметром є найпростішим видом рівняння зв'язку. Воно прийнятне для середніх величин. Щоб точніше висловити зв'язок між хі у, вводиться додатковий коефіцієнт пропорційності bщо вказує нахил лінії регресії.

Б) Побудова теоретичної лінії регресії.

Процес її знаходження полягає у виборі та обґрунтуванні типу кривої та розрахунків параметрів а, b, зі т.д. Процес побудови називають вирівнюванням і запас кривих, пропонованих мат. аналізом, різноманітний. Найчастіше в економічних завданнях використовують сімейство кривих, рівняння, які виражаються багаточленами цілих позитивних ступенів.

1)
- Рівняння прямої,

2)
- Рівняння гіперболи,

3)
- Рівняння параболи,

де - ординати теоретичної лінії регресії.

Вибравши тип рівняння, необхідно знайти параметри, від яких це рівняння залежить. Наприклад, характер розташування точок у полі розсіювання показав, що теоретична лінія регресії є прямою.

Діаграма розсіювання дозволяє уявити продуктивність праці з допомогою регресійного аналізу. В економіці за допомогою регресійного аналізу передбачаються багато показників, що впливають на кінцевий продукт (з урахуванням ціноутворення).

В) Критерій найменших кадратів знаходження прямої лінії.

Один із критеріїв, які ми могли б застосувати для відповідної лінії регресії на діаграмі розсіювання, заснований на виборі лінії, для якої сума квадратів похибок буде мінімальною.

Близькість точок розсіювання до прямої вимірюється ординатами відрізків. Відхилення цих точок можуть бути позитивними та негативними, але сума квадратів відхилень теоретичної прямої від експериментальної завжди позитивна і має бути мінімальною. Факт розбіжності всіх точок розсіювання зі становищем лінії регресії свідчить про існування розбіжності між експериментальними і теоретичними даними. Таким чином, можна сказати, що жодна інша лінія регресії, крім тієї, яку знайшли, не може дати меншу суму відхилень між експериментальними та досвідченими даними. Отже, знайшовши теоретичне рівняння ý та лінію регресії, ми задовольняємо вимогам найменших квадратів.

Це робиться за допомогою рівняння зв'язку
, використовуючи формули для знаходження параметрів аі b. Взявши теоретичне значення
і позначивши ліву частину рівняння через f, отримаємо функцію
від невідомих параметрів аі b. Значення аі bбудуть задовольняти мінімум функції fта перебувають з рівнянь приватних похідних
і
. Це необхідна умоваОднак для позитивної квадратичної функції це є і достатньою умовою для знаходження аі b.

Виведемо з рівнянь похідних формули формули параметрів аі b:



отримаємо систему рівнянь:

де
- Середньоарифметичні похибки.

Підставивши числові значення, знайдемо параметри аі b.

Існує поняття
. Це коефіцієнт апроксимації.

Якщо е < 33%, то модель приемлема для дальнейшего анализа;

Якщо е> 33%, то беремо гіперболу, параболу тощо. Це дає право на аналіз у різних ситуаціях.

Висновок: за критерієм коефіцієнта апроксимації найбільш підходящою є та лінія, для яких

і жодна інша лінія регресії для нашого завдання не дає мінімум відхилень.

Г) Квадратична помилка оцінки, перевірка їхньої типовості.

Стосовно сукупності, у якої число параметрів дослідження менше 30 ( n < 30), для проверки типичности параметров уравнения регрессии используется t-Критерій Стьюдента. При цьому обчислюється фактичне значення t-критерія:

Звідси

де - Залишкова середньоквадратична похибка. Отримані t aі t bпорівнюють із критичним t kіз таблиці Стьюдента з урахуванням прийнятого рівня значущості ( = 0,01 = 99% або  = 0,05 = 95%). P = f = k 1 = m- Число параметрів досліджуваного рівняння (ступінь свободи). Наприклад, якщо y = a + bx; m = 2, k 2 = f 2 = p 2 = n – (m+ 1), де n– кількість досліджуваних ознак.

t a < t k < t b .

Висновок: за перевіреними на типовість параметрами рівняння регресії проводиться побудова математичної моделі зв'язку
. При цьому параметри застосованої в аналізі математичної функції (лінійна, гіпербола, парабола) набувають відповідних кількісних значень. Смисловий зміст одержаних таким чином моделей полягає в тому, що вони характеризують середню величину результативної ознаки
від факторної ознаки X.

Д) Криволінійна регресія.

Досить часто зустрічається криволінійна залежність, коли між змінними встановлюється співвідношення, що змінюється. Інтенсивність зростання (зменшення) залежить від рівня перебування X. Криволінійна залежність буває різних видів. Наприклад, розглянемо залежність між урожаєм та опадами. Зі збільшенням опадів за рівних природних умов інтенсивне збільшення врожаю, але до певної межі. Після критичної точки опади виявляються зайвими і врожайність катастрофічно падає. З прикладу видно, що спочатку зв'язок був позитивним, а потім негативним. Критична точка - оптимальний рівень ознаки X, якому відповідає максимальне чи мінімальне значення ознаки У.

В економіці такий зв'язок спостерігається між ціною та споживанням, продуктивністю та стажем.

Параболічна залежність.

Якщо дані показують, що збільшення факторної ознаки призводить до зростання результативної ознаки, то як рівняння регресії береться рівняння другого порядку (парабола).

. Коефіцієнти a,b,c перебувають з рівнянь приватних похідних:

Отримуємо систему рівнянь:

Види криволінійних рівнянь:

,

,

Має право припускати, що між продуктивністю праці та балами відбіркових випробувань існує криволінійна залежність. Це означає, що зі зростанням бальної системи продуктивність почне на якомусь рівні зменшуватися, тому пряма модель може бути криволінійною.

Третьою моделлю буде гіпербола, і у всіх рівняннях замість змінної х стоятиме вираз.

Метою регресійного аналізу є вимірювання зв'язку між залежною змінною та однією (парний регресійний аналіз) або декількома (множинним) незалежними змінними. Незалежні змінні називають також факторними, що пояснюють, визначальними, регресорами та предикторами.

Залежну змінну іноді називають обумовленою, пояснюваною, «відгуком». Надзвичайно широке поширення регресійного аналізу в емпіричних дослідженнях пов'язано не тільки з тим, що це зручний інструмент для тестування гіпотез. Регресія, особливо множинна, є ефективним методоммоделювання та прогнозування.

Пояснення принципів роботи з регресійним аналізом почнемо з простішого - парного методу.

Парний регресійний аналіз

Перші дії при використанні регресійного аналізу будуть практично ідентичними нами в рамках обчислення коефіцієнта кореляції. Три основні умови ефективності кореляційного аналізу за методом Пірсона – нормальний розподіл змінних, інтервальний вимір змінних, лінійний зв'язок між змінними – актуальні і для множинної регресії. Відповідно, на першому етапі будуються діаграми розсіювання, проводиться статистично-описовий аналіз змінних та обчислюється лінія регресії. Як і рамках кореляційного аналізу, лінії регресії будуються шляхом найменших квадратів.

Щоб наочно проілюструвати різницю між двома методами аналізу даних, звернемося до вже розглянутому прикладу зі змінними «підтримка УПС» і «частка сільського населення». Вихідні дані ідентичні. Відмінність у діаграмах розсіювання полягатиме у цьому, що у регресійному аналізі коректно відкладати залежну змінну - у разі «підтримка УПС» по осі Y, тоді як і кореляційному аналізі це має значення. Після чищення викидів діаграма розсіювання має вигляд:

Принципова ідея регресійного аналізу у тому, що, маючи загальну тенденцію для змінних - як лінії регресії, - можна передбачити значення залежної змінної, маючи значення незалежної.

Уявімо звичайну математичну лінійну функцію. Будь-яку пряму в евклідовому просторі можна описати формулою:

де а - константа, що задає зміщення осі ординат; b – коефіцієнт, що визначає кут нахилу лінії.

Знаючи кутовий коефіцієнт і константу, можна розрахувати (передбачити) значення для будь-якого х.

Ця найпростіша функція і лягла основою моделі регресійного аналізу з тим застереженням, що значення ми передбачимо не точно, а межах певного довірчого інтервалу, тобто. приблизно.

Константою є точка перетину лінії регресії та осі ординат (F-перетин, у статистичних пакетах, як правило, що позначається «interceptor»). У нашому прикладі із голосуванням за УПС її округлене значення становитиме 10,55. Кутовий коефіцієнт Ъ дорівнюватиме приблизно -0,1 (як і в кореляційному аналізі, знак показує тип зв'язку - пряма або зворотна). Таким чином, отримана модель матиме вигляд СП = -0,1 х Сел. нас. + 10,55.

УПС = -0,10 х 47 + 10,55 = 5,63.

Різниця між вихідним і передбаченим значеннями називається залишком (з цим терміном – важливим для статистики – ми вже стикалися при аналізі таблиць сполученості). Так, для випадку «Республіка Адигея» залишок дорівнюватиме 3,92 - 5,63 = -1,71. Чим більше модульне значення залишку, тим менш успішно передбачено значення.

Розраховуємо передбачені значення та залишки для всіх випадків:
Випадок Сіл. нас. УПС

(вихідне)

УПС

(передбачене)

Залишки
Республіка Адигея 47 3,92 5,63 -1,71 -
Республіка Алтай 76 5,4 2,59 2,81
Республіка Башкортостан 36 6,04 6,78 -0,74
Республіка Бурятія 41 8,36 6,25 2,11
республіка Дагестан 59 1,22 4,37 -3,15
Республіка Інгушетія 59 0,38 4,37 3,99
І т.д.

Аналіз співвідношення вихідних та передбачених значень служить для оцінки якості отриманої моделі, її прогностичної здатності. Одним із головних показників регресійної статистики є множинний коефіцієнткореляції R - коефіцієнт кореляції між вихідними та передбаченими значеннями залежної змінної. У парному регресійному аналізі він дорівнює звичайному коефіцієнту кореляції Пірсона між залежною та незалежною змінною, у нашому випадку – 0,63. Щоб змістовно інтерпретувати множинний R, його необхідно перетворити на коефіцієнт детермінації. Це робиться так само, як і в кореляційному аналізі – зведенням у квадрат. Коефіцієнт детермінації R-квадрат (R 2) показує частку варіації залежної змінної, яка пояснюється незалежною (незалежними) змінними.

У разі R 2 = 0,39 (0,63 2); це означає, що змінна «частка сільського населення» пояснює приблизно 40% варіації змінної «підтримка УПС». Чим більша величинакоефіцієнта детермінації, тим вища якість моделі.

Іншим показником якості моделі є стандартна помилка оцінки (standard error of estimate). Це показник того, наскільки сильно точки розкидані навколо лінії регресії. Мірою розкиду для інтервальних змінних є стандартне відхилення. Відповідно, стандартна помилка оцінки – це стандартне відхилення розподілу залишків. Чим вище її значення, тим сильніший розкид і тим гірша модель. У разі стандартна помилка становить 2,18. Саме на цю величину наша модель "помилятиметься в середньому" при прогнозуванні значення змінної "підтримка УПС".

Регресійна статистика включає також дисперсійний аналіз. За його допомогою ми з'ясовуємо: 1) яка частка варіації (дисперсії) залежної змінної пояснюється незалежною змінною; 2) яка частка дисперсії залежної змінної посідає залишки (непояснена частина); 3) яке відношення цих двох величин (/"-відношення).Дисперсійна статистика особливо важлива для вибіркових досліджень - вона показує, наскільки ймовірно наявність зв'язку між незалежною і залежною змінними в генеральної сукупності. Однак і для суцільних досліджень (як у нашому прикладі) вивчення результатів дисперсійного аналізунедаремно. І тут перевіряють, чи викликана виявлена ​​статистична закономірність збігом випадкових обставин, наскільки вона у тому комплексу умов, у яких перебуває обстежувана сукупність, тобто. встановлюється не істинність отриманого результату для більш широкої генеральної сукупності, а ступінь його закономірності, свободи від випадкових впливів.

У нашому випадку статистика дисперсійного аналізу така:

SS df MS F значення
Регрес. 258,77 1,00 258,77 54,29 0.000000001
Залиш. 395,59 83,00 Л,11
Усього 654,36

F-відношення 54,29 значимо лише на рівні 0,0000000001. Відповідно, ми можемо з упевненістю відкинути нульову гіпотезу (що виявлений нами зв'язок носить випадковий характер).

Аналогічну функцію виконує критерій t, але вже щодо регресійних коефіцієнтів (кутового та F-перетину). За допомогою критерію/перевіряємо гіпотезу про те, що в генеральній сукупності регресійні коефіцієнти дорівнюють нулю. У нашому випадку ми знову можемо впевнено відкинути нульову гіпотезу.

Множинний регресійний аналіз

Модель множинної регресіїпрактично ідентична моделі парної регресії; різниця лише тому, що у лінійну функцію послідовно включаються кілька незалежних змінних:

Y = b1X1 + b2X2 + … + bpXp + а.

Якщо незалежних змінних більше двох, ми не маємо можливості отримати візуальне уявлення про їхній зв'язок, у цьому плані множинна регресія менш «наочна», ніж парна. За наявності двох незалежних змінних дані корисно відобразити на тривимірній діаграмі розсіювання. У професійних статистичних пакетах програм (наприклад Statisticа) існує опція обертання тривимірної діаграми, що дозволяє добре візуально подати структуру даних.

Працюючи з множинної регресією, на відміну парної, необхідно визначати алгоритм аналізу. Стандартний алгоритм включає у підсумкову регресійну модель усі наявні предиктори. Покроковий алгоритмпередбачає послідовне включення (виключення) незалежних змінних, виходячи з їх пояснювальної «ваги». Покроковий методхороший, коли є багато незалежних змінних; він «очищає» модель від відверто слабких предикторів, роблячи її компактнішою і лаконічнішою.

Додатковою умовою коректності множинної регресії (поряд з інтервальністю, нормальністю та лінійністю) є відсутність мультиколлінеарності – наявності сильних кореляційних зв'язків між незалежними змінними.

Інтерпретація статистики множинної регресії включає всі злементи, розглянуті нами для випадку парної регресії. Крім того, у статистиці множинного регресійного аналізу є й інші важливі складові.

Роботу з множинною регресією ми проілюструємо на прикладі тестування гіпотез, що пояснюють відмінності в рівні електоральної активності в регіонах Росії. У ході конкретних емпіричних досліджень було висловлено припущення, що на рівень явки виборців впливають:

Національний чинник (змінна «російське населення»; операціоналізована як частка російського населення суб'єктах РФ). Передбачається, що частка російського населення веде до зниження активності виборців;

Фактор урбанізації (змінна «міське населення»; операціоналізована як частка міського населення в суб'єктах РФ, з цим фактором ми вже працювали в рамках кореляційного аналізу). Передбачається, що збільшення частки міського населення також призводить до зниження активності виборців.

Залежна змінна - «інтенсивність виборчої активності» («актив») операціоналізована через усереднені дані явки по регіонах на федеральних виборах з 1995 по 2003 р. Вихідна таблиця даних для двох незалежних та однієї залежної змінної матиме такий вигляд:

Випадок Змінні
актив. Гір. нас. Рос. нас.
Республіка Адигея 64,92 53 68
Республіка Алтай 68,60 24 60
Республіка Бурятія 60,75 59 70
республіка Дагестан 79,92 41 9
Республіка Інгушетія 75,05 41 23
Республіка Калмикія 68,52 39 37
Карачаєво-Черкеська Республіка 66,68 44 42
республіка Карелія 61,70 73 73
Республіка Комі 59,60 74 57
Республіка Марій Ел 65,19 62 47

І т.д. (після чищення викидів залишається 83 випадки із 88)

Статистика, що описує якість моделі:

1. Множинний R = 0,62; Л-квадрат = 0,38. Отже, національний фактор та фактор урбанізації разом пояснюють близько 38% варіації змінної «електоральної активності».

2. Середня помилка складає 3,38. Саме настільки «в середньому помиляється» побудована модель під час прогнозування рівня явки.

3. /л-відношення поясненої та непоясненої варіації становить 25,2 на рівні 0,000000003. Нульова гіпотеза про випадковість виявлених зв'язків відкидається.

4. Критерій /для константи та регресійних коефіцієнтів змінних «міське населення» і «російське населення» значимо на рівні 0,0000001; 0,00005 та 0,007 відповідно. Нульова гіпотеза про випадковість коефіцієнтів відкидається.

Додаткова корисна статистика в аналізі співвідношення вихідних та передбачуваних значень залежної змінної – відстань Махаланобіса та відстань Кука. Перше - міра унікальності випадку (показує, наскільки поєднання значень всіх незалежних змінних для цього випадку відхиляється від середнього значення по всіх незалежних змінних одночасно). Друге – міра впливовості випадку. p align="justify"> Різні спостереження по-різному впливають на нахил лінії регресії, і за допомогою відстані Кука можна зіставляти їх за цим показником. Це буває корисно при чищенні викидів (викид можна уявити як надмірно впливовий випадок).

У нашому прикладі до унікальних та впливових випадків, зокрема, відноситься Дагестан.

Випадок Вихідні

значення

Предська

значення

Залишки Відстань

Махаланобіса

Відстань
Адигея 64,92 66,33 -1,40 0,69 0,00
Республіка Алтай 68,60 69.91 -1,31 6,80 0,01
Республіка Бурятія 60,75 65,56 -4,81 0,23 0,01
республіка Дагестан 79,92 71,01 8,91 10,57 0,44
Республіка Інгушетія 75,05 70,21 4,84 6,73 0,08
Республіка Калмикія 68,52 69,59 -1,07 4,20 0,00

Власне регресійна модель має наступні параметри: У-перетин (константа) = 75,99; Ь (Мір. нас.) = -0,1; Ъ (Рус. нас.) = -0,06. Підсумкова формула.

Регресійний аналіз досліджує залежність певної величини від іншої або декількох інших величин. Регресійний аналіз застосовується переважно у середньостроковому прогнозуванні, а також у довгостроковому прогнозуванні. Середньо- та довгостроковий періодидають можливість встановлення змін у середовищі бізнесу та обліку впливів цих змін на досліджуваний показник.

Для здійснення регресійного аналізу необхідно:

    наявність щорічних даних за досліджуваними показниками,

    наявність одноразових прогнозів, тобто. таких прогнозів, які не одужують з надходженням нових даних.

Регресійний аналіз зазвичай проводиться для об'єктів, що мають складну, багатофакторну природу, таких як обсяг інвестицій, прибуток, обсяги продажів та ін.

При нормативному методі прогнозуваннявизначаються шляхи та терміни досягнення можливих станів явища, що приймаються як ціль. Йдеться про прогнозування досягнення бажаних станів явища на основі заздалегідь заданих норм, ідеалів, стимулів та цілей. Такий прогноз відповідає питанням: якими шляхами можна досягти бажаного? Нормативний метод найчастіше застосовується для програмних чи цільових прогнозів. Використовуються як кількісний вираз нормативу, і певна шкала можливостей оціночної функції.

У разі використання кількісного виразу, наприклад фізіологічних та раціональних норм споживання окремих продовольчих та непродовольчих товарів, розроблених фахівцями для різних груп населення, можна визначити рівень споживання цих товарів на роки, що передують досягненню зазначеної норми. Такі розрахунки називають інтерполяцією. Інтерполяція - це спосіб обчислення показників, які бракують динамічному ряду явища, на основі встановленого взаємозв'язку. Приймаючи фактичне значення показника і його нормативів за крайні члени динамічного ряду, можна визначити величини значень всередині цього ряду. Тому інтерполяцію вважають за нормативний метод. Раніше наведена формула (4), яка використовується в екстраполяції, може застосовуватися в інтерполяції, де у п буде характеризувати вже не фактичні дані, а норматив показника.

У разі використання в нормативному методі шкали (поля, спектра) можливостей оціночної функції, тобто функції розподілу переваги, вказують приблизно таку градацію: небажано - менш бажано - більш бажано - найбільш бажано - оптимально (норматив).

Нормативний метод прогнозування допомагає виробити рекомендації щодо підвищення рівня об'єктивності, отже, ефективності рішень.

Моделювання, мабуть, найскладніший метод прогнозування Математичне моделювання означає опис економічного явища за допомогою математичних формул, рівнянь та нерівностей. Математичний апарат повинен досить точно відображати прогнозне тло, хоча повністю відобразити всю глибину і складність прогнозованого об'єкта досить важко. Термін "модель" утворений від латинського слова modelus, що означає "захід". Тому моделювання правильніше було вважати не методом прогнозування, а методом вивчення аналогічного явища на моделі.

У широкому значенні моделями називаються заступники об'єкта дослідження, що знаходяться з ним у такій схожості, що дозволяє отримати нове знання про об'єкт. Модель слід розглядати як математичний опис об'єкта. У цьому випадку модель визначається як явище (предмет, установка), яке знаходиться в певній відповідності до об'єкта, що вивчається, і може його замінювати в процесі дослідження, представляючи інформацію про об'єкт.

При більш вузькому розумінні моделі вона розглядається як об'єкт прогнозування, її дослідження дозволяє отримати інформацію про можливі стани об'єкта в майбутньому та шляхи досягнення цих станів. У цьому випадку метою прогнозної моделі є отримання інформації не про об'єкт взагалі, а лише про його майбутні стани. Тоді при побудові моделі буває неможливо провести пряму перевірку її відповідності об'єкту, так як модель є лише його майбутнім станом, а сам об'єкт в даний час може бути відсутнім або мати інше існування.

Моделі можуть бути матеріальними та ідеальними.

В економіці використовуються ідеальні моделі. Найбільш досконалою ідеальною моделлю кількісного опису соціально-економічного (економічного) явища є математична модель, яка використовує числа, формули, рівняння, алгоритми чи графічне уявлення. За допомогою економічних моделей визначають:

    залежність між різними економічними показниками;

    різного роду обмеження, що накладаються на показники;

    критерії, що дозволяють оптимізувати процес.

Змістовне опис об'єктуможе бути представлено у вигляді його формалізованої схеми, яка вказує, які параметри та вихідну інформацію потрібно зібрати, щоб обчислити шукані величини. p align="justify"> Математична модель на відміну від формалізованої схеми містить конкретні числові дані, що характеризують об'єкт Розробка математичної моделі багато в чому залежить від уявлення прогнозиста про сутність модельованого процесу. На основі своїх уявлень він висуває робочу гіпотезу, за допомогою якої створюється аналітичний запис моделі у вигляді формул, рівнянь та нерівностей. Через війну розв'язання системи рівнянь отримують конкретні параметри функції, якими описується зміна змінних величин у часі.

Порядок і послідовність роботи як елемент організації прогнозування визначається залежно від методу прогнозування, що застосовується. Зазвичай ця робота виконується у кілька етапів.

1-й етап - прогнозна ретроспекція, тобто встановлення об'єкта прогнозування та прогнозного фону. Робота на першому етапі виконується в такій послідовності:

    формування опису об'єкта в минулому, що включає передпрогнозний аналіз об'єкта, оцінку його параметрів, їх значущості та взаємних зв'язків,

    визначення та оцінка джерел інформації, порядку та організації роботи з ними, збирання та розміщення ретроспективної інформації;

    постановка завдань дослідження.

Виконуючи завдання прогнозної ретроспекції, прогнозисти досліджують історію розвитку об'єкта та прогнозного фону з метою отримання їх систематизованого опису.

2-й етап - прогнозний діагноз, у ході якого досліджується систематизований опис об'єкта прогнозування та прогнозного фону з метою виявлення тенденцій їх розвитку та вибору моделей та методів прогнозування. Робота виконується у такій послідовності:

    розробка моделі об'єкта прогнозу, у тому числі формалізований опис об'єкта; перевірка ступеня адекватності моделі об'єкту;

    вибір методів прогнозування (основного та допоміжних), розробка алгоритму та робочих програм.

3-й етап - протекція, т. е. процес широкої розробки прогнозу, зокрема: 1) розрахунок прогнозованих параметрів заданий період попередження; 2) синтез окремих складових прогнозу.

4-й етап - оцінка прогнозу, зокрема його верифікація, т. е. визначення ступеня достовірності, точності та обгрунтованості.

У ході проспектії та оцінки на підставі попередніх етапів вирішуються завдання прогнозу та його оцінка.

Зазначена етапність є зразковою і залежить від основного методу прогнозування.

Результати прогнозу оформляються у вигляді довідки, доповіді чи іншого матеріалу та надаються замовнику.

У прогнозуванні може бути зазначена величина відхилення прогнозу від дійсного стану об'єкта, яка називається помилкою прогнозу, яка розраховується за формулою:

;
;
. (9.3)

Джерела помилок у прогнозуванні

Основними джерелами можуть бути:

1. Просте перенесення (екстраполяція) даних із минулого на майбутнє (наприклад, відсутність у фірми інших варіантів прогнозу, крім 10% зростання продажів).

2. Неможливість точно визначити ймовірність події та її впливу на досліджуваний об'єкт.

3. Непередбачені труднощі (руйнівні події), які впливають здійснення плану, наприклад, раптове звільнення начальника відділу збуту.

В цілому точність прогнозування підвищується в міру накопичення досвіду прогнозування та відпрацювання його методів.

Поняття кореляції та регресії безпосередньо пов'язані між собою. У кореляційному та регресійному аналізі багато загальних обчислювальних прийомів. Вони використовуються для виявлення причинно-наслідкових співвідношень між явищами та процесами. Однак, якщо кореляційний аналіз дозволяє оцінити силу та напрямок стохастичного зв'язку, то регресійний аналіз- ще й форму залежності.

Регресія може бути:

а) залежно від кількості явищ (змінних):

Простий (регресія між двома змінними);

Множинною (регресія між залежною змінною (y) і декількома змінними, що її пояснюють (х1, х2...хn);

б) залежно від форми:

Лінійною (відображається лінійною функцією, а між змінними, що вивчаються, існують лінійні співвідношення);

Нелінійний (відображається нелінійною функцією, між досліджуваними змінними зв'язок носить нелінійний характер);

в) характером зв'язку між включеними на розгляд змінними:

Позитивною (збільшення значення пояснюючої змінної призводить до збільшення значення залежної змінної та навпаки);

Негативною (зі збільшенням значення пояснюючої змінної значення пояснюваної змінної зменшується);

г) за типом:

Безпосередній (у разі причина надає прямий вплив на слідство, тобто залежна і пояснює змінні пов'язані безпосередньо друг з одним);

Непрямої (пояснювальна змінна надає опосередковану дію через третю чи низку інших змінних на залежну змінну);

Помилковий (нонсенс регресія) - може виникнути при поверхневому та формальному підході до досліджуваних процесів та явищ. Прикладом безглуздих є регресія, яка встановлює зв'язок між зменшенням кількості споживаного алкоголю нашій країні та зменшенням продажу прального порошку.

Під час проведення регресійного аналізу вирішуються такі основні завдання:

1. Визначення форми залежності.

2. Визначення функції регресії. Для цього використовують математичне рівняння того чи іншого типу, що дозволяє, по-перше, встановити загальну тенденцію зміни залежної змінної, а, по-друге, обчислити вплив пояснюючої змінної (або кількох змінних) на залежну змінну.

3. Оцінка невідомих значень залежною змінною. Отримана математична залежність (рівняння регресії) дозволяє визначати значення залежної змінної як у межах інтервалу заданих значень пояснюючих змінних, і поза ним. В останньому випадку регресійний аналіз виступає як корисний інструмент при прогнозуванні змін соціально-економічних процесів та явищ (за умови збереження існуючих тенденцій та взаємозв'язків). Зазвичай довжина тимчасового відрізка, який здійснюється прогнозування, вибирається трохи більше половини інтервалу часу, у якому проведено спостереження вихідних показників. Можна здійснити як пасивний прогноз, вирішуючи завдання екстраполяції, так і активний, ведучи міркування за відомою схемою "якщо ..., то" і підставляючи різні значення в одну або кілька змінних регресії, що пояснюють.



Для побудови регресіївикористовується спеціальний метод, який отримав назву методу найменших квадратів. Цей метод має переваги перед іншими методами згладжування: порівняно просте математичне визначення шуканих параметрів та хороше теоретичне обґрунтування з імовірнісної точки зору.

При виборі моделі регресії однією з суттєвих вимог до неї є забезпечення максимально можливої ​​простоти, що дозволяє отримати рішення з достатньою точністю. Тому для встановлення статистичних зв'язків спочатку, як правило, розглядають модель із класу лінійних функцій(як найпростішого з усіх можливих класів функцій):

де bi, b2 ... bj - Коефіцієнти, що визначають вплив незалежних змінних хij на величину yi; аi – вільний член; ei - випадкове відхилення, що відбиває вплив неврахованих факторів на залежну змінну; n – число незалежних змінних; N число спостережень, причому має дотримуватися умова (N. n+1).

Лінійна модельможе описувати дуже широкий клас різних завдань. Однак на практиці, зокрема в соціально-економічних системах, іноді важко застосування лінійних моделей через великі помилки апроксимації. Тому нерідко використовуються функції нелінійної множинної регресії, що допускають лінеаризацію. До них, наприклад, належить виробнича функція ( статечна функціяКобба-Дугласа), що знайшла застосування у різних соціально-економічних дослідженнях. Вона має вигляд:

де b 0 – нормувальний множник, b 1 … b j – невідомі коефіцієнти, e i – випадкове відхилення.

Використовуючи натуральні логарифми, можна перетворити це рівняння на лінійну форму:

Отримана модель дозволяє використовувати стандартні процедури лінійної регресії, описані вище. Побудувавши моделі двох видів (адитивні та мультиплікативні), можна вибрати найкращі та провести подальші дослідження з меншими помилками апроксимації.

Існує добре розвинена системапідбору апроксимуючих функцій - методика групового обліку аргументів(МГУА).

Про правильність підібраної моделі можна судити за результатами дослідження залишків, що є різницею між величинами y i, що спостерігаються, і відповідними прогнозованими за допомогою регресійного рівняння величинами y i . В цьому випадку для перевірки адекватності моделірозраховується середня помилкаапроксимації:

Модель вважається адекватною, якщо e знаходиться не більше 15%.

Особливо підкреслимо, що стосовно соціально-економічних систем далеко не завжди виконуються основні умови адекватності класичної регресійної моделі.

Не зупиняючись на всіх причинах неадекватності, назвемо лише мультиколінеарність- найскладнішу проблему ефективного застосуванняпроцедур регресійного аналізу щодо статистичних залежностей. Під мультиколінеарністюрозуміється наявність лінійного зв'язку між пояснювальними змінними.

Це явище:

а) спотворює сенс коефіцієнтів регресії за її змістовної інтерпретації;

б) знижує точність оцінювання (зростає дисперсія оцінок);

в) посилює чутливість оцінок коефіцієнтів до вибіркових даних (збільшення обсягу вибірки може сильно вплинути значення оцінок).

Існують різні прийоми зниження мультиколінеарності. Найбільш доступний спосіб- усунення однієї з двох змінних, якщо коефіцієнт кореляції між ними перевищує значення, що дорівнює абсолютній величині 0,8. Яку зі змінних залишити вирішують, виходячи із змістовних міркувань. Потім знову проводиться розрахунок коефіцієнтів регресії.

Використання алгоритму покрокової регресії дозволяє послідовно включати в модель однієї незалежної змінної і аналізувати значимість коефіцієнтів регресії і мультиколлинеарность змінних. Остаточно в досліджуваній залежності залишаються лише ті змінні, які забезпечують необхідну значущість коефіцієнтів регресії та мінімальний вплив мультиколлінеарності.

У попередніх нотатках предметом аналізу часто ставала окрема числова змінна, наприклад, прибутковість взаємних фондів, час завантаження Web-сторінки або обсяг споживання безалкогольних напоїв. У цій і наступних нотатках ми розглянемо методи передбачення значень числової змінної залежно від значень однієї чи кількох інших числових змінних.

Матеріал буде проілюстрований наскрізним прикладом. Прогнозування обсягу продажу у магазині одягу.Мережа магазинів зниженого в ціні одягу Sunflowers протягом 25 років постійно розширювалася. Проте на даний час компанія не має систематичного підходу до вибору нових торгових точок. Місце, де компанія збирається відкрити новий магазин, визначається з урахуванням суб'єктивних міркувань. Критеріями вибору є вигідні умови оренди або подання менеджера про ідеальне розташування магазину. Уявіть, що ви - керівник відділу спеціальних проектів та планування. Вам доручили розробити стратегічний план для відкриття нових магазинів. Цей план повинен містити прогноз річного обсягу продажів у магазинах, що знову відкриваються. Ви вважаєте, що торгова площа безпосередньо пов'язана з обсягом виручки і хочете врахувати цей факт у процесі прийняття рішення. Як розробити статистичну модель, Що дозволяє прогнозувати річний обсяг продажів на основі розміру нового магазину?

Як правило, для прогнозування значень змінної використовується регресійний аналіз. Його мета - розробити статистичну модель, що дозволяє передбачати значення залежної змінної, або відгуку, за значеннями, Крайній міріоднієї, незалежної, чи пояснюючої, змінної. У цьому замітці ми розглянемо просту лінійну регресію - статистичний метод, що дозволяє передбачати значення залежної змінної Yза значеннями незалежної змінної X. У наступних нотатках буде описана модель множинної регресії, призначена для передбачення значень незалежної змінної Yза значеннями кількох залежних змінних ( Х 1 , Х 2 , …, X k).

Завантажити нотатку у форматі або , приклади у форматі

Види регресійних моделей

де ρ 1 - Коефіцієнт автокореляції; якщо ρ 1 = 0 (немає автокореляції), D≈ 2; якщо ρ 1 ≈ 1 (позитивна автокореляція), D≈ 0; якщо ρ 1 = -1 (негативна автокореляція), D ≈ 4.

На практиці застосування критерію Дурбіна-Уотсона ґрунтується на порівнянні величини Dз критичними теоретичними значеннями d Lі d Uдля заданої кількості спостережень n, числа незалежних змінних моделі k(для простої лінійної регресії k= 1) та рівня значущості α. Якщо D< d L , гіпотеза про незалежність випадкових відхиленьвідкидається (отже, є позитивна автокореляція); якщо D > d U, гіпотеза не відкидається (тобто автокореляція відсутня); якщо d L< D < d U немає достатніх підстав для прийняття рішення. Коли розрахункове значення Dперевищує 2, то з d Lі d Uпорівнюється не сам коефіцієнт D, а вираз (4 – D).

Для обчислення статистики Дурбіна-Уотсона в Excel звернемося до нижньої таблиці на рис. 14 Виведення залишку. Чисельник у виразі (10) обчислюється за допомогою функції СУММКВРАЗН(масив1;масив2), а знаменник СУММКВ(масив) (рис. 16).

Рис. 16. Формули розрахунку статистики Дурбіна-Уотсона

У нашому прикладі D= 0,883. Основне питання полягає в наступному - яке значення статистики Дурбіна-Уотсона слід вважати досить малим, щоб зробити висновок про існування позитивної автокореляції? Необхідно співвіднести значення D з критичними значеннями ( d Lі d U), що залежать від числа спостережень nта рівня значущості α (рис. 17).

Рис. 17. Критичні значення статистики Дурбіна-Уотсона (фрагмент таблиці)

Таким чином, у задачі про обсяг продажу в магазині, що доставляє товари додому, існують одна незалежна змінна ( k= 1), 15 спостережень ( n= 15) та рівень значущості α = 0,05. Отже, d L= 1,08 та dU= 1,36. Оскільки D = 0,883 < d L= 1,08, між залишками існує позитивна автокореляція, метод найменших квадратів застосовувати не можна.

Перевірка гіпотез про нахил та коефіцієнт кореляції

Вище регресія застосовувалась виключно для прогнозування. Для визначення коефіцієнтів регресії та передбачення значення змінної Yпри заданій величині змінної Xвикористовувався метод найменших квадратів. Крім того, ми розглянули середньоквадратичну помилку оцінки та коефіцієнт змішаної кореляції. Якщо аналіз залишків підтверджує, що умови застосування методу найменших квадратів не порушуються, і модель простої лінійної регресії є адекватною, на основі вибіркових даних можна стверджувати, що між змінними в генеральній сукупності існує лінійна залежність.

Застосуванняt -Критерію для нахилу.Перевіряючи, чи дорівнює нахил генеральної сукупності β 1 нулю, можна визначити, чи існує статистично значуща залежність між змінними Xі Y. Якщо ця гіпотеза відхиляється, можна стверджувати, що між змінними Xі YІснує лінійна залежність. Нульова та альтернативна гіпотези формулюються наступним чином: Н 0: β 1 = 0 (немає лінійної залежності), Н1: β 1 ≠ 0 (є лінійна залежність). За визначенням t-статистика дорівнює різниці між вибірковим нахилом та гіпотетичним значенням нахилу генеральної сукупності, поділеної на середньоквадратичну помилку оцінки нахилу:

(11) t = (b 1 β 1 ) / S b 1

де b 1 – нахил прямої регресії за вибірковими даними, β1 – гіпотетичний нахил прямої генеральної сукупності, , а тестова статистика tмає t-розподіл з n – 2ступенями свободи.

Перевіримо, чи існує статистично значуща залежність між розміром магазину та річним обсягом продажу при α = 0,05. t-критерій виводиться поряд з іншими параметрами під час використання Пакет аналізу(опція Регресія). Повністю результати роботи Пакету аналізу наведено на рис. 4 фрагмент, що відноситься до t-статистики - на рис. 18.

Рис. 18. Результати застосування t

Оскільки кількість магазинів n= 14 (див. рис.3), критичне значення t-Статистики при рівні значимості α = 0,05 можна знайти за формулою: t L=СТЬЮДЕНТ.ОБР(0,025;12) = –2,1788, де 0,025 – половина рівня значимості, а 12 = n – 2; t U=СТЬЮДЕНТ.ОБР(0,975;12) = +2,1788.

Оскільки t-статистика = 10,64> t U= 2,1788 (рис. 19), нульова гіпотеза Н 0відхиляється. З іншого боку, р-значення для Х= 10,6411, що обчислюється за формулою =1-СТЬЮДЕНТ.РАСП(D3;12;ІСТИНА), приблизно дорівнює нулю, тому гіпотеза Н 0знову відхиляється. Той факт, що рзначення майже дорівнює нулю, означає, що якби між розмірами магазинів і річним обсягом продажів не існувало реальної лінійної залежності, виявити її за допомогою лінійної регресії було б практично неможливо. Отже, між середнім річним обсягом продажів у магазинах та їх розміром існує статистично значуща лінійна залежність.

Рис. 19. Перевірка гіпотези про нахил генеральної сукупності при рівні значимості, що дорівнює 0,05, та 12 ступенях свободи

ЗастосуванняF -Критерію для нахилу.Альтернативним підходом до перевірки гіпотез про нахил простої лінійної регресії є використання F-Критерія. Нагадаємо, що F-Критерій застосовується для перевірки відносин між двома дисперсіями (докладніше див.). При перевірці гіпотези про нахил мірою випадкових помилок є дисперсія помилки (сума квадратів помилок, поділена на кількість ступенів свободи), тому F-Критерій використовує відношення дисперсії, що пояснюється регресією (тобто величини SSR, поділеної на кількість незалежних змінних k), до дисперсії помилок ( MSE = S YX 2 ).

За визначенням F-статистика дорівнює середньому квадрату відхилень, обумовлених регресією (MSR), поділеному на дисперсію помилки (MSE): F = MSR/ MSE, де MSR =SSR / k, MSE =SSE/(n- k - 1), k– кількість незалежних змінних у регресійній моделі. Тестова статистика Fмає F-розподіл з kі n– k – 1ступенями свободи.

При заданому рівні значення α вирішальне правилоформулюється так: якщо F > FUнульова гіпотеза відхиляється; в іншому випадку вона не відхиляється. Результати, оформлені як зведеної таблиці дисперсійного аналізу, наведено на рис. 20.

Рис. 20. Таблиця дисперсійного аналізу для перевірки гіпотези про статистичної значимостікоефіцієнта регресії

Аналогічно t-критерію F-критерій виводиться в таблицю під час використання Пакет аналізу(опція Регресія). Цілком результати роботи Пакет аналізунаведено на рис. 4, фрагмент, що відноситься до F-Статистиці - на рис. 21.

Рис. 21. Результати застосування F-критерію, отримані за допомогою Пакету аналізу Excel

F-статистика дорівнює 113,23, а р-значення близько до нуля (комірка ЗначимістьF). Якщо рівень значущості α дорівнює 0,05, визначити критичне значення F-розподілу з одним і 12 ступенями свободи можна за формулою F U= F.ОБР (1-0,05; 1; 12) = 4,7472 (рис. 22). Оскільки F = 113,23 > F U= 4,7472, причому р-значення близько до 0< 0,05, нулевая гипотеза Н 0відхиляється, тобто. Обсяг магазину був із його річним обсягом продажів.

Рис. 22. Перевірка гіпотези про нахилі генеральної сукупності при рівні значимості, що дорівнює 0,05, з одним і 12 ступенями свободи

Довірчий інтервал, що містить нахил β 1 .Для перевірки гіпотези про існування лінійної залежності між змінними можна побудувати довірчий інтервал, що містить нахил 1 і переконатися, що гіпотетичне значення 1 = 0 належить цьому інтервалу. Центром довірчого інтервалу, що містить нахил β 1 , є вибірковий нахил b 1 , а його межами - величини b 1 ±t n –2 S b 1

Як показано на рис. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =СТЬЮДЕНТ.ОБР(0,975;12) = 2,1788. Отже, b 1 ±t n –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, або + 1,328 ≤ β 1 ≤ +2,012. Таким чином, нахил генеральної сукупності з ймовірністю 0,95 лежить в інтервалі від +1,328 до +2,012 (тобто від 1328000 до 2012000 дол.). Оскільки ці величини більші за нуль, між річним обсягом продажів і площею магазину існує статистично значуща лінійна залежність. Якби довірчий інтервал містив нуль, між змінними не було б залежності. Крім того, довірчий інтервал означає, що кожне збільшення площі магазину на 1000 кв. футів призводить до збільшення середнього обсягу продажів на величину від 1328000 до 2012000 доларів.

Використанняt -Критерію для коефіцієнта кореляції.було введено коефіцієнт кореляції r, що є мірою залежності між двома числовими змінними. З його допомогою можна встановити, чи існує між двома змінними статистично значущий зв'язок. Позначимо коефіцієнт кореляції між генеральними сукупностями обох змінних символом ρ. Нульова та альтернативна гіпотези формулюються наступним чином: Н 0: ρ = 0 (немає кореляції), Н 1: ρ ≠ 0 (є кореляція). Перевірка існування кореляції:

де r = + , якщо b 1 > 0, r = – , якщо b 1 < 0. Тестовая статистика tмає t-розподіл з n – 2ступенями свободи.

У задачі про мережу магазинів Sunflowers r 2= 0,904, а b 1- +1670 (див. рис. 4). Оскільки b 1> 0, коефіцієнт кореляції між обсягом річних продажів та розміром магазину дорівнює r= +√0,904 = +0,951. Перевіримо нульову гіпотезу, яка стверджує, що між цими змінними немає кореляції, використовуючи t-Статистику:

При рівні значимості α = 0,05 нульову гіпотезу слід відхилити, оскільки t= 10,64> 2,1788. Таким чином, можна стверджувати, що між обсягом річних продажів та розміром магазину існує статистично значущий зв'язок.

Під час обговорення висновків щодо нахилу генеральної сукупності, довірчі інтервалита критерії для перевірки гіпотез є взаємозамінними інструментами. Проте обчислення довірчого інтервалу, що містить коефіцієнт кореляції, виявляється складнішою справою, оскільки вид вибіркового розподілу статистики. rзалежить від справжнього коефіцієнта кореляції.

Оцінка математичного очікування та передбачення індивідуальних значень

У цьому розділі розглядаються методи оцінки математичного очікування відгуку Yта передбачення індивідуальних значень Yпри заданих значеннях змінної X.

Побудова довірчого інтервалу.У прикладі 2 (див. вище розділ Метод найменших квадратів) регресійне рівняннядозволило передбачити значення змінної Y X. У задачі про вибір місця для торгової точки середній річний обсяг продажу магазині площею 4000 кв. футів дорівнював 7,644 млн. дол. Однак ця оцінка математичного очікування генеральної сукупності є точковою. для оцінки математичного очікування генеральної сукупності було запропоновано концепцію довірчого інтервалу. Аналогічно можна запровадити поняття довірчого інтервалу для математичного очікування відгукупри заданому значенні змінної X:

де , = b 0 + b 1 X i- Передбачене значення змінне Yпри X = X i, S YX- Середньоквадратична помилка, n- Обсяг вибірки, Xi- задане значення змінної X, µ Y|X = Xiматематичне очікуваннязмінної Yпри Х = Х i, SSX =

Аналіз формули (13) показує, що ширина довірчого інтервалу залежить від кількох факторів. При заданому рівні значущості зростання амплітуди коливань навколо лінії регресії, виміряне за допомогою середньоквадратичної помилки, призводить до збільшення ширини інтервалу. З іншого боку, як і слід було очікувати, збільшення обсягу вибірки супроводжується звуженням інтервалу. Крім того, ширина інтервалу змінюється в залежності від значень Xi. Якщо значення змінної Yпередбачається для величин Xблизьких до середнього значення , Довірчий інтервал виявляється вже, ніж при прогнозуванні відгуку для значень, далеких від середнього.

Припустимо, що, вибираючи місце для магазину, ми хочемо побудувати 95% довірчий інтервал для середнього річного обсягу продажів у всіх магазинах, площа яких дорівнює 4000 кв. футів:

Отже, середній річний обсяг продажів у всіх магазинах, площа яких дорівнює 4000 кв. футів, з 95%-ною ймовірністю лежить в інтервалі від 6,971 до 8,317 млн. дол.

Обчислення довірчого інтервалу для передбаченого значення.Крім довірчого інтервалу для математичного очікування відгуку при заданому значенні змінної Xчасто необхідно знати довірчий інтервал для передбаченого значення. Незважаючи на те, що формула для обчислення такого довірчого інтервалу дуже схожа на формулу (13), цей інтервал містить передбачене значення, а не оцінку параметра. Інтервал для передбаченого відгуку YX = Xiпри конкретному значенні змінної Xiвизначається за формулою:

Припустимо, що, вибираючи місце для торгової точки, ми хочемо побудувати 95% довірчий інтервал для передбаченого річного обсягу продажів у магазині, площа якого дорівнює 4000 кв. футів:

Отже, передбачений річний обсяг продажів у магазині, площа якого дорівнює 4000 кв. футів, з 95%-ной ймовірністю лежить в інтервалі від 5,433 до 9,854 млн. дол. Як бачимо, довірчий інтервал для передбаченого значення відгуку набагато ширший, ніж довірчий інтервал для його математичного очікування. Це тим, що мінливість при прогнозуванні індивідуальних значень набагато більше, ніж за оцінці математичного очікування.

Підводне каміння та етичні проблеми, пов'язані із застосуванням регресії

Проблеми, пов'язані з регресійним аналізом:

  • Ігнорування умов застосування методу найменших квадратів.
  • Помилкова оцінка умов застосування методу найменших квадратів.
  • Неправильний вибір альтернативних методів у разі порушення умов застосування методу найменших квадратів.
  • Застосування регресійного аналізу без глибоких знань про предмет дослідження.
  • Екстраполяція регресії за межі діапазону зміни змінної, що пояснює.
  • Плутанина між статистичною та причинно-наслідковою залежностями.

Широке поширення електронних таблиць та програмного забезпечення для статистичних розрахунків ліквідувало обчислювальні проблеми, що перешкоджали застосуванню регресійного аналізу. Однак це призвело до того, що регресійний аналіз стали застосовувати користувачі, які не мають достатньої кваліфікації та знань. Звідки користувачам знати про альтернативні методи, якщо багато хто з них взагалі не має жодного поняття про умови застосування методу найменших квадратів і не вміє перевіряти їх виконання?

Дослідник не повинен захоплюватися перемелюванням чисел - обчисленням зсуву, нахилу та коефіцієнта змішаної кореляції. Йому потрібні глибші знання. Проілюструємо це класичним прикладом, взятим із підручників. Анскомб показав, що це чотири набору даних, наведених на рис. 23, мають одні й самі параметри регресії (рис. 24).

Рис. 23. Чотири набори штучних даних

Рис. 24. Регресійний аналіз чотирьох штучних наборів даних; виконаний за допомогою Пакет аналізу(Клікніть на малюнку, щоб збільшити зображення)

Отже, з погляду регресійного аналізу, всі ці набори даних абсолютно ідентичні. Якби аналіз був на цьому закінчений, ми втратили б багато корисної інформації. Про це свідчать діаграми розкиду (рис. 25) та графіки залишків (рис. 26), побудовані для цих наборів даних.

Рис. 25. Діаграми розкиду для чотирьох наборів даних

Діаграми розкиду та графіки залишків свідчать про те, що ці дані відрізняються одна від одної. Єдиний набір, розподілений уздовж прямої лінії, - набір А. Графік залишків, обчислених за набором А, немає закономірності. Цього не можна сказати про набори Б, В та Г. Графік розкиду, побудований за набором Б, демонструє яскраво виражену квадратичну модель. Цей висновок підтверджується графіком залишків, які мають параболічну форму. Діаграма розкиду та графік залишків показують, що набір даних містить викид. У цій ситуації необхідно виключити викид із набору даних та повторити аналіз. Метод, що дозволяє виявляти та виключати викиди зі спостережень, називається аналізом впливу. Після виключення викиду результат повторної оцінки моделі може бути зовсім іншим. Діаграма розкиду, побудована за даними набору Р, ілюструє незвичайну ситуацію, у якій емпірична модель значно залежить від окремого відгуку ( Х 8 = 19, Y 8 = 12,5). Такі регресійні моделі необхідно обчислювати особливо ретельно. Отже, графіки розкиду та залишків є вкрай необхідним інструментомрегресійного аналізу та повинні бути його невід'ємною частиною. Без них регресійний аналіз не заслуговує на довіру.

Рис. 26. Графіки залишків для чотирьох наборів даних

Як уникнути підводного каміння при регресійному аналізі:

  • Аналіз можливого взаємозв'язку між змінними Xі Yзавжди починайте з побудови діаграми розкиду.
  • Перш ніж інтерпретувати результати регресійного аналізу, перевіряйте умови його застосування.
  • Побудуйте графік залежності залишків від незалежної змінної. Це дозволить визначити, наскільки емпірична модель відповідає результатам спостереження, та виявити порушення сталості дисперсії.
  • Для перевірки припущення про нормальному розподіліпомилок використовуйте гістограми, діаграми «ствол та листя», блокові діаграми та графіки нормального розподілу.
  • Якщо умови застосування методу найменших квадратів не виконуються, використовуйте альтернативні методи (наприклад, моделі квадратичної або множинної регресії).
  • Якщо умови застосування методу найменших квадратів виконуються, необхідно перевірити гіпотезу про статистичну значущість коефіцієнтів регресії та побудувати довірчі інтервали, що містять математичне очікування та передбачене значення відгуку.
  • Уникайте передбачати значення залежної змінної за межами діапазону зміни незалежної змінної.
  • Майте на увазі, що статистичні залежності не завжди є причинно-наслідковими. Пам'ятайте, що кореляція між змінними не означає наявності причинно-наслідкової залежності між ними.

РезюмеЯк показано на структурній схемі (рис. 27), у замітці описані модель простої лінійної регресії, умови її застосування та способи перевірки цих умов. Розглянуто t-Критерій для перевірки статистичної значущості нахилу регресії Для передбачення значень залежною змінною використано регресійну модель. Розглянуто приклад, пов'язаний із вибором місця для торгової точки, в якому досліджується залежність річного обсягу продажу від площі магазину. Отримана інформація дозволяє точніше вибрати місце для магазину та передбачити його річний обсяг продажу. У наступних нотатках буде продовжено обговорення регресійного аналізу, а також розглянуто моделі множинної регресії.

Рис. 27. Структурна схема нотатки

Використовуються матеріали книги Левін та ін. Статистика менеджерів. - М.: Вільямс, 2004. - с. 792–872

Якщо залежна змінна є категорійною, необхідно застосовувати логістичну регресію.

Поділіться з друзями або збережіть для себе:

Завантаження...