Статистичний аналіз регресійної моделі. Регресійний аналіз – статистичний метод дослідження залежності випадкової величини від змінних

Характеристика причинних залежностей

Причинно-наслідкові відносини– це зв'язок явищ і процесів, коли зміна однієї з них – причини – веде до зміни іншого – слідства.

Ознаки щодо їх значення для вивчення взаємозв'язку діляться на два класи.

Ознаки, що зумовлюють зміни інших, пов'язаних із ними ознак, називаються факторними (чи факторами).

Ознаки, що змінюються під впливом факторних ознак, є результативними.

Розрізняють наступні формизв'язку: функціональну та стохастичну. Функціональноюназивають таку зв'язок, коли він певному значенню факторного ознаки відповідає одне і лише одне значення результативного ознаки. Функціональна зв'язок проявляється завжди спостереження і кожної конкретної одиниці досліджуваної сукупності.

Функціональний зв'язок можна надати наступним рівнянням:
y i = f (x i),де: y i - результативна ознака; f(x i) - відома функція зв'язку результативної та факторної ознак; x i - факторний ознака.
У природі функціональних зв'язків немає. Вони лише абстракціями, корисними при аналізі явищ, але спрощують реальність.

Стохастична (статистична чи випадкова)зв'язокє зв'язок між величинами, при якому одна з них реагує на зміну іншої величини або інших величин зміною закону розподілу. Іншими словами, при цьому зв'язку різним значеннямоднієї змінної відповідають різні розподіли іншої змінної. Це обумовлюється тим, що залежна змінна, крім незалежних, схильна до впливу низки неврахованих або неконтрольованих випадкових факторів, а також деяких неминучих помилок вимірювання змінних. У зв'язку з тим, що значення залежної змінної схильні до випадкового розкиду, вони не можуть бути передбачені з достатньою точністю, а можуть бути лише зазначені з певною ймовірністю.

З огляду на неоднозначності стохастичної залежності між Y і X, зокрема цікавий усереднена по х схема залежності, тобто. закономірність у зміні середнього значення – умовного математичного очікуванняМх(У) (математичного очікування випадкової змінної У, знайденого за умови, що змінна Х прийняла значення х) залежно від х.

Окремим випадком стохастичного зв'язку є кореляційний зв'язок. Кореляція(Від лат. correlatio- Співвідношення, взаємозв'язок). Пряме токування терміну кореляція - стохастична, ймовірна, можлива зв'язок між двома (парна) чи кількома (множинна) випадковими величинами.

Кореляційної залежністю між двома змінними також називають статистичну взаємозв'язок між цими змінними, коли він кожному значенню однієї змінної відповідає певне середнє значення, тобто. умовне математичне очікування іншого. Кореляційна залежність є окремим випадком стохастичної залежності, при якій зміна значень факторних ознак (х 1 х 2 ..., х n) тягне за собою зміну середнього значення результативної ознаки.



Прийнято розрізняти такі види кореляції:

1. Парна кореляція – зв'язок між двома ознаками (результативним та факторним або двома факторними).

2. Приватна кореляція – залежність між результативним та одним факторним ознаками при фіксованому значенні інших факторних ознак, включених у дослідження.

3. Множинна кореляція– залежність результативної та двох або більше факторних ознак, включених у дослідження.

Призначення регресійного аналізу

Аналітичною формою уявлення причинно-наслідкових відносин є регресійні моделі. Наукова обґрунтованість та популярність регресійного аналізу робить його одним із основних математичних засобів моделювання досліджуваного явища. Цей метод застосовується для згладжування експериментальних даних та отримання кількісних оцінокпорівняльного впливу різних факторівна результативну змінну.

Регресійний аналізполягаєу визначенні аналітичного виразу зв'язку, в якому зміна однієї величини (залежної змінної або результативної ознаки) обумовлена ​​впливом однієї або декількох незалежних величин (факторів або предикторів), а безліч інших факторів, що також впливають на залежну величину, приймається за постійні та середні значення .

Цілі регресійного аналізу:

Оцінка функціональної залежності умовного середнього значення результативної ознаки від факторних (х 1 , х 2 , ..., х n);

Передбачення значення залежної змінної за допомогою незалежної.

Визначення вкладу окремих незалежних змінних у варіацію залежної змінної.

Регресійний аналіз не можна використовувати для визначення наявності зв'язку між змінними, оскільки наявність такого зв'язку є передумовою для застосування аналізу.

У регресійному аналізі заздалегідь мається на увазі наявність причинно-наслідкових зв'язків між результативним (У) та факторними х1, х2…, хn ознаками.

Функція , опзалежність показника від параметрів, що називається, називається рівнянням (функцією) регресії 1 . Рівняння регресії показує очікуване значення залежної змінної при певних значеннях незалежних змінних.
Залежно від кількості включених до моделі факторів Хмоделі діляться на однофакторні (парна модель регресії) та багатофакторні (модель множинної регресії). Залежно від виду функції моделі поділяються на лінійні та нелінійні.

Парна регресійна модель

У силу впливу неврахованих випадкових факторів і причин окремі спостереження у більшою чи меншою мірою відхилятимуться від функції регресії f(х). У цьому випадку рівняння взаємозв'язку двох змінних (парна регресійна модель) може бути подане у вигляді:

Y=f(X) + ɛ,

де - випадкова змінна, що характеризує відхилення від функції регресії. Цю змінну називають обурювальною або обуренням (залишком чи помилкою). Таким чином, у регресійній моделі залежна змінна Yє деяка функція f(X)з точністю до випадкового обурення ɛ.

Розглянемо класичну лінійну модель парної регресії (КЛМПР). Вона має вигляд

у i =β 0 +β 1 х i +? i (i=1,2, …, n),(1)

де у i-Пояснюється (результуюча, залежна, ендогенна змінна); х i- Пояснювальна (предикторна, факторна, екзогенна) змінна; β 0 , β 1- Чисельні коефіцієнти; ɛ i- Випадкова (стохастична) складова або помилка.

Основні умови (передумови, гіпотези) КЛМПР:

1) х i– детермінована (невипадкова) величина, у своїй передбачається, що з значень х i – в повному обсязі однакові.

2) Математичне очікування (середнє значення) обурення ɛ iодно нулю:

М [? i] = 0 (i = 1,2, ..., n).

3) Дисперсія обурення стала для будь-яких значень i (умова гомоскедастичності):

D[ɛ i ]=σ 2 (i=1,2, …, n).

4) Обурення для різних спостережень є некорельованими:

cov[ɛi, ɛj]=M[ɛi, ɛj]=0 при i≠j,

де cov [ɛ i, ɛ j] - Коефіцієнт коваріації (кореляційний момент).

5) Обурення є нормально розподіленими випадковими величинами з нульовим середнім значенням та дисперсією σ 2:

ɛ i ≈ N(0, σ 2).

Для отримання рівняння регресії достатньо перших чотирьох передумов. Вимога виконання п'ятої передумови необхідне оцінки точності рівняння регресії та її параметрів.

Примітка:Увага до лінійних зв'язків пояснюється обмеженою варіацією змінних і тим, що здебільшого нелінійні форми зв'язку до виконання розрахунків перетворять (шляхом логарифмування чи заміни змінних) в лінійну форму.

Традиційний метод найменших квадратів(МНК)

Оцінкою моделі за вибіркою є рівняння

ŷ i = a 0 + a 1 x i(i=1,2, …, n), (2)

де ŷ i – теоретичні (апроксимуючі) значення залежної змінної, отримані за рівнянням регресії; a 0 , a 1 - коефіцієнти (параметри) рівняння регресії (вибіркові оцінки коефіцієнтів 0, 1 відповідно).

Згідно МНК невідомі параметри a 0 a 1 вибирають так, щоб сума квадратів відхилень значень ŷ i від емпіричних значень y i (залишкова сума квадратів) була мінімальною:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

де e i = y i - ŷ i - вибіркова оцінка обурення ɛ i, або залишок регресії.

Завдання зводиться до пошуку таких значень параметрів a 0 і a 1 , у яких функція Q e приймає найменше значення. Зауважимо, що функція Q e = Q e (a 0 , a 1) є функція двох змінних a 0 і a 1 доти, доки ми не знайшли, а потім зафіксували їх «найкращі» (у сенсі методу найменших квадратів) значення, а х i, y i - Постійні числа, знайдені експериментально.

Необхідні умови екстремуму (3) знаходяться шляхом прирівнювання до нуля окремих похідних цієї функції двох змінних. В результаті отримаємо систему двох лінійних рівнянь, яка називається системою нормальних рівнянь:

(4)

Коефіцієнт a 1 - вибірковий коефіцієнт регресії у на х, який показує на скільки одиниць у середньому змінюється змінна у при зміні змінної х на одну одиницю свого виміру, тобто варіацію у, що припадає на одиницю варіації х. Знак a 1вказує напрямок цієї зміни. Коефіцієнт a 0 – зміщення, згідно (2) дорівнює значенню ŷ i при х = 0 і може мати змістовної інтерпретації. За це іноді залежну змінну називають відгуком.

Статистичні властивості оцінок коефіцієнтів регресії:

Оцінки коефіцієнтів a 0 a 1 є незміщеними;

Дисперсії оцінок a 0 a 1 зменшуються (точність оцінок збільшується) при збільшенні обсягу вибірки n;

Дисперсія оцінки кутового коефіцієнта a 1 зменшується при збільшенні і тому бажано вибирати х i так, щоб їх розкид навколо середнього значення був більшим;

При х > 0 (що становить найбільший інтерес) між a 0 і a 1 є негативний статистичний зв'язок (збільшення a 1 призводить до зменшення a 0).

Основна мета регресійного аналізуполягає у визначенні аналітичної форми зв'язку, в якій зміна результативної ознаки обумовлено впливом однієї або декількох факторних ознак, а безліч інших факторів, що також впливають на результативну ознаку, приймається за постійні та середні значення.
Завдання регресійного аналізу:
а) Встановлення форми залежності. Щодо характеру та форми залежності між явищами, розрізняють позитивну лінійну та нелінійну та негативну лінійну та нелінійну регресію.
б) Визначення функції регресії як математичного рівняння тієї чи іншої типу та встановлення впливу пояснюючих змінних на залежну змінну.
в) Оцінка невідомих значень залежною змінною. За допомогою функції регресії можна відтворити значення залежної змінної всередині інтервалу заданих значень пояснюючих змінних (тобто розв'язати задачу інтерполяції) або оцінити перебіг процесу поза заданим інтервалом (тобто розв'язати задачу екстраполяції). Результат є оцінкою значення залежної змінної.

Парна регресія - рівняння зв'язку двох змінних у них: де y - залежна змінна (результативний ознака); x - незалежна, що пояснює змінна (ознака-фактор).

Розрізняють лінійні та нелінійні регресії.
Лінійна регресія: y = a + bx + ε
Нелінійні регресії діляться на два класи: регресії, нелінійні щодо включених в аналіз пояснюючих змінних, але лінійні за параметрами, що оцінюються, і регресії, нелінійні за оцінюваними параметрами.
Регресії, нелінійні за такими, що пояснюють змінним:

Регресії, нелінійні за параметрами, що оцінюються: Побудова рівняння регресії зводиться до оцінки її параметрів. Для оцінки параметрів регресій, лінійних за параметрами, використовують метод найменших квадратів (МНК). МНК дозволяє одержати такі оцінки параметрів, у яких сума квадратів відхилень фактичних значень результативної ознаки від теоретичних мінімальна, тобто.
.
Для лінійних та нелінійних рівнянь, що приводяться до лінійних, вирішується наступна система щодо a і b:

Можна скористатися готовими формулами, що випливають із цієї системи:

Тісноту зв'язку явищ, що вивчаються, оцінює лінійний коефіцієнтпарної кореляції для лінійної регресії:

та індекс кореляції - для нелінійної регресії:

Оцінку якості побудованої моделі дасть коефіцієнт (індекс) детермінації, а також середня помилка апроксимації.
Середня помилка апроксимації - середнє відхилення розрахункових значень від фактичних:
.
Допустима межа значень - не більше 8-10%.
Середній коефіцієнт еластичності показує, на скільки відсотків в середньому за сукупністю зміниться результат від своєї середньої величинипри зміні фактора x на 1% від середнього значення:
.

Завдання дисперсійного аналізуполягає в аналізі дисперсії залежної змінної:
,
де - Загальна сумаквадратів відхилень;
- сума квадратів відхилень, обумовлена ​​регресією («пояснена» чи «факторна»);
- Залишкова сума квадратів відхилень.
Частку дисперсії, що пояснюється регресією, в загальної дисперсіїрезультативної ознаки характеризує коефіцієнт (індекс) детермінації R 2:

Коефіцієнт детермінації – квадрат коефіцієнта чи індексу кореляції.

F-тест - оцінювання якості рівняння регресії - полягає у перевірці гіпотези Але про статистичну незначущість рівняння регресії та показника тісноти зв'язку. Для цього виконується порівняння фактичного F факт та критичного (табличного) F табл значень F-критерію Фішера. F факт визначається із співвідношення значень факторної та залишкової дисперсій, розрахованих однією ступінь свободи:
,
де n – число одиниць сукупності; m – число параметрів при змінних х.
F табл - це максимально можливе значення критерію під впливом випадкових факторів при даних ступенях свободи та рівні значущості a. Рівень значущості a - можливість відкинути правильну гіпотезу за умови, що вона вірна. Зазвичай приймається a дорівнює 0,05 або 0,01.
Якщо F табл< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F факт, то гіпотеза Н не відхиляється і визнається статистична незначимість, ненадійність рівняння регресії.
Для оцінки статистичної значимостікоефіцієнтів регресії та кореляції розраховуються t-критерій Стьюдента та довірчі інтервали кожного з показників. Висувається гіпотеза про випадкову природу показників, тобто. про незначне їх відмінність від нуля. Оцінка значущості коефіцієнтів регресії та кореляції за допомогою t-критерію Стьюдента проводиться шляхом зіставлення їх значень із величиною випадкової помилки:
; ; .
Випадкові помилки параметрів лінійної регресії та коефіцієнта кореляції визначаються за формулами:



Порівнюючи фактичне та критичне (табличне) значення t-статистики – t табл та t факт – приймаємо або відкидаємо гіпотезу Н о.
Зв'язок між F-критерієм Фішера та t-статистикою Стьюдента виражається рівністю

Якщо t табл< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t факт то гіпотеза Н не відхиляється і визнається випадкова природа формування а, b або .
Для розрахунку довірчого інтервалу визначаємо граничну помилку D для кожного показника:
, .
Формули для розрахунку довірчих інтервалівмають такий вигляд:
; ;
; ;
Якщо межі довірчого інтервалу потрапляє нуль, тобто. нижня межа негативна, а верхня позитивна, то оцінюваний параметр приймається нульовим, оскільки він може одночасно приймати і позитивне, і негативне значення.
Прогнозне значення визначається шляхом підстановки рівняння регресії відповідного (прогнозного) значення . Обчислюється середня стандартна помилка прогнозу:
,
де
та будується довірчий інтервал прогнозу:
; ;
де .

Приклад рішення

Завдання №1. По семи територіях Уральського районуЗа 199Х відомі значення двох ознак.
Таблиця 1.
Потрібно: 1. Для характеристики залежності у від х розрахувати параметри наступних функцій:
а) лінійною;
б) статечної (попередньо потрібно провести процедуру лінеаризації змінних, шляхом логарифмування обох частин);
в) показовою;
г) рівносторонньої гіперболи (так само потрібно придумати як заздалегідь лінеаризувати цю модель).
2. Оцінити кожну модель через середню помилкуапроксимації та F-критерій Фішера.

Рішення (Варіант №1)

Для розрахунку параметрів a та b лінійної регресії (розрахунок можна проводити за допомогою калькулятора).
вирішуємо систему нормальних рівнянь щодо аі b:
За вихідними даними розраховуємо :
y x yx x 2 y 2 A і
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Разом 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Порівн. знач. (Разом/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Рівняння регресії: у = 76,88 - 0,35х.Зі збільшенням середньоденної заробітної платина 1 руб. частка витрат на купівлю продовольчих товарів знижується в середньому на 0,35% пункту.
Розрахуємо лінійний коефіцієнт парної кореляції:

Зв'язок помірний, зворотний.
Визначимо коефіцієнт детермінації:

Варіація результату на 12,7% пояснюється варіацією фактора x. Підставляючи в рівняння регресії фактичні значення х,визначимо теоретичні (розрахункові) значення . Знайдемо величину середньої помилки апроксимації:

У середньому, розрахункові значення відхиляються від фактичних на 8,1%.
Розрахуємо F-критерій:

оскільки 1< F < ¥ слід розглянути F -1 .
Отримане значення вказує на необхідність прийняти гіпотезу Але провипадковій природі виявленої залежності та статистичної незначущості параметрів рівняння та показника тісноти зв'язку.
1б.Побудови статечної моделі передує процедура лінеаризації змінних. У прикладі лінеаризація проводиться шляхом логарифмування обох частин рівняння:


деY=lg(y), X=lg(x), C=lg(a).

Для розрахунків використовуємо дані табл. 1.3.

Таблиця 1.3

Y X YX Y 2 X 2 A і
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Разом 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Середнє значення 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Розрахуємо С і b:


Отримаємо лінійне рівняння: .
Виконавши його потенціювання, отримаємо:

Підставляючи на це рівняння фактичні значення х,одержуємо теоретичні значення результату. За ними розрахуємо показники: тісноти зв'язку - індекс кореляції та середню помилку апроксимації

Характеристики статечної моделі вказують, що вона дещо краща за лінійну функцію описує взаємозв'язок.

. Побудови рівняння показовою кривою

передує процедура лінеаризації змінних при логарифмуванні обох частин рівняння:

Для розрахунків використовуємо дані таблиці.

Y x Yx Y 2 x 2 A і
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Разом 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Порівн. зн. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Значення параметрів регресії A та Усклали:


Отримано лінійне рівняння: . Зробимо потенціювання отриманого рівняння та запишемо його у звичайній формі:

Тісноту зв'язку оцінимо через індекс кореляції:

Після того як за допомогою кореляційного аналізувиявлено наявність статистичних зв'язків між змінними та оцінено ступінь їх тісноти, які зазвичай переходять до математичного опису конкретного виду залежностей з використанням регресійного аналізу. З цією метою підбирають клас функцій, що зв'язує результативний показник у і аргументи х 1, х 2, ..., х к відбирають найбільш інформативні аргументи, обчислюють оцінки невідомих значень параметрів рівняння зв'язку та аналізують властивості отриманого рівняння.

Функція f(х 1, х 2, ..., х к) описує залежність середнього значення результативної ознаки від заданих значень аргументів, називається функцією (рівнянням) регресії. Термін «регресія» (лат. -Regression-відступ, повернення до чого-небудь) введений англійським психологом і антропологом Ф.Гальтоном і пов'язаний виключно зі специфікою одного з перших конкретних прикладів, в якому це поняття було використане. Так, обробляючи статистичні дані у зв'язку з аналізом спадковості зростання, Ф. Гальтон виявив, що й батьки відхиляються від середнього зростання всіх батьків на x дюймів, їх сини відхиляються від середнього зростання всіх синів менше, ніж x дюймів. Виявлену тенденцію було названо «регресією до середнього стану». З того часу термін «регресія» широко використовується в статистичній літературі, хоча в багатьох випадках він недостатньо точно характеризує поняття статистичної залежності.

Для точного описурівняння регресії необхідно знати закон розподілу результативного показникау. У статистичній практиці зазвичай доводиться обмежуватися пошуком відповідних апроксимацій для невідомої істинної функції регресії, так як дослідник не має в своєму розпорядженні точного знання умовного закону розподілу ймовірностей аналізованого результатуючого показника при заданих значеннях аргументу х.

Розглянемо взаємини між істинною f(х) = М(у1х), мо дельною регресією? та оцінкою y регресії. Нехай результативний показник пов'язаний з аргументом х співвідношенням:

де - е випадкова величина, що має нормальний законрозподілу, причому Ме = 0 і D е = у 2 . Справжня функція регресії у разі має вигляд: f(х) = М(у/х) = 2х 1.5 .

Припустимо, що точний вид істинного рівняння регресії нам не відомий, але ми маємо дев'ять спостережень над двовимірною випадковою величиною, пов'язаною співвідношенням уi = 2х1,5 + е, і представленої на рис. 1

Малюнок 1 - Взаємне розташуванняістиною f(х) та теоретичною? моделі регресії

Розташування крапок на рис. 1 дозволяє обмежитися класом лінійних залежностей виду? = 0 + 1 x. З допомогою методу найменших квадратів знайдемо оцінку рівняння регресії у = b 0 +b 1 x. Для порівняння на рис. 1 наводяться графіки істинної функції регресії у=2х 1,5 , теоретичної апроксимуючої функції регресії? = 0 + 1 x .

Оскільки ми помилилися у виборі класу функції регресії, це досить часто зустрічається у практиці статистичних досліджень, то наші статистичні висновки та оцінки виявляться помилковими. І як би ми не збільшували обсяг спостережень, наша вибіркова оцінка не буде близька до справжньої функції регресії f (х). Якщо ми правильно вибрали клас функцій регресії, то неточність в описі f(х) за допомогою? пояснювалася б лише обмеженістю вибірки.

З метою найкращого відновлення за вихідними статистичними даними умовного значення результативного показника у(х) та невідомої функції регресії f(х) = М(у/х) найчастіше використовують такі критерії адекватності (функції втрат).

Метод найменших квадратів. Відповідно до нього мінімізується квадрат відхилення значень результативного показника у, (i = 1,2,..., п) від модельних значень,? = f(х i), де, х i - значення вектора аргументів i-му спостереженні: ?(y i - f(х i) 2 > min. Отримувана регресія називається середньоквадратичною.

Метод найменших модулів. Згідно з ним мінімізується сума абсолютних відхилень значень результативного показника від модульних значень. І отримуємо? = f(х i), середньоабсолютну медіанну регресію? |y i - f(x i)| >min.

Регресійним аналізом називається метод статистичного аналізу залежності випадкової величиниу змінних х j = (j=1,2,..., к), що розглядаються в регресійному аналізі як невипадкові величини, незалежно від істинного закону розподілу х j.

Зазвичай передбачається, що випадкова величина має нормальний закон розподілу з умовним математичним очікуванням у, що є функцією від аргументів х/ (/= 1, 2,..., к) і постійною, не залежить від аргументів, дисперсією у 2 .

Загалом лінійна модель регресійного аналізу має вигляд:

Y = У k j=0в jц j(x 1 , x 2 . . .. ,x k)+Е

де ц j - деяка функція його змінних - x1, x2. . .. , x k , Е - випадкова величина з нульовим математичним очікуванням та дисперсією у 2 .

У регресійному аналізі вид рівняння регресії вибирають виходячи з фізичної сутності досліджуваного явища та результатів спостереження.

Оцінки невідомих параметрів рівняння регресії знаходять зазвичай шляхом найменших квадратів. Нижче зупинімося докладніше на цій проблемі.

Двовимірне лінійне рівняння регресії. Нехай на підставі аналізу досліджуваного явища передбачається, що в «середньому» є лінійна функціявід х, тобто є рівняння регресії

у = М (у / х) = в 0 + в 1 х)

де М(у1х) - умовне математичне очікування випадкової величини при заданому х; в 0 та в 1 - невідомі параметри генеральної сукупності, які слід оцінити за результатами вибіркових спостережень.

Припустимо, що з оцінки параметрів 0 і 1 з двомірної генеральної сукупності (х, у) взята вибірка обсягом n, де (х, у,) результат i-го спостереження (i = 1, 2,..., n) . У цьому випадку модель регресійного аналізу має вигляд:

y j = 0 + 1 x+е j .

де е j .- незалежні нормально розподілені випадкові величини з нульовим математичним очікуванням та дисперсією у 2, тобто М е j. = 0;

D е j .= у 2 всім i = 1, 2,..., n.

Відповідно до методу найменших квадратів як оцінки невідомих параметрів в 0 і 1 слід брати такі значення вибіркових характеристик b 0 і b 1 , які мінімізують суму квадратів відхилень значень результативної ознаки у i від умовного математичного очікування? i

Методику визначення впливу показників маркетингу з прибутку підприємства розглянемо з прикладу сімнадцяти типових підприємств, мають середні розміри і показники господарську діяльність.

При розв'язанні задачі враховувалися такі характеристики, виявлені в результаті анкетного опитування як найбільш значущі (важливі):

* інноваційна діяльністьпідприємства;

* планування асортименту виробленої продукції;

* формування цінової політики;

* Взаємини з громадськістю;

* Система збуту;

* Система стимулювання працівників.

На основі системи порівнянь за факторами були побудовані квадратні матриці суміжності, в яких обчислювалися значення відносних пріоритетів за кожним фактором: інноваційна діяльність підприємства, планування асортименту продукції, формування цінової політики, реклама, взаємини з громадськістю, система збуту, система стимулювання працівників.

Оцінки пріоритетів за фактором «відносини з громадськістю» отримані в результаті анкетування фахівців підприємства. Прийнято такі позначення: > (краще), > (краще або однаково), = (однаково),< (хуже или одинаково), <

Далі вирішувалося завдання комплексної оцінки рівня маркетингу підприємства. При розрахунку показника було визначено значимість (вага) розглянутих приватних ознак і вирішувалося завдання лінійного згортання приватних показників. Обробка даних проводилася за спеціально розробленими програмами.

p align="justify"> Далі розраховується комплексна оцінка рівня маркетингу підприємства - коефіцієнт маркетингу, який вноситься в таблиці 1. Крім того, в названу таблицю включені показники, що характеризують підприємство в цілому. Дані таблиці будуть використані щодо регресійного аналізу. Результативною ознакою є прибуток. Як факторні ознаки поряд з коефіцієнтом маркетингу використані такі показники: обсяг валової продукції, вартість основних фондів, чисельність працівників, коефіцієнт спеціалізації.

Таблиця 1 - Вихідні дані для регресійного аналізу


За даними таблиці та на основі факторів з найбільш суттєвими значеннями коефіцієнтів кореляції були побудовані регресійні функції залежності прибутку від факторів.

Рівняння регресії в нашому випадку набуде вигляду:

Про кількісний вплив розглянутих вище чинників на величину прибутку говорять коефіцієнти рівняння регресії. Вони показують, скільки тисяч рублів змінюється її величина за зміни факторного ознаки однією одиницю. Як випливає з рівняння, збільшення коефіцієнта комплексу маркетингу одну одиницю дає приріст прибутку на 1547,7 тис. крб. Це свідчить, що у вдосконаленні маркетингової діяльності криється величезний потенціал поліпшення економічних показників підприємств.

При дослідженні ефективності маркетингу найбільш цікавою і найважливішою факторною ознакою є фактор Х5 - коефіцієнт маркетингу. Відповідно до теорії статистики гідність наявного рівняння множинної регресії є можливість оцінювати ізольований вплив кожного фактора, у тому числі фактора маркетингу.

Результати проведеного регресійного аналізу мають і ширше застосування, ніж розрахунку параметрів рівняння. Критерій віднесення (КЕФ) підприємств до відносно кращих або відносно гірших грунтується на відносному показнику результату:

де Y фактi – фактична величина i-го підприємства, тис. руб.;

Y розчі - величина прибутку i-го підприємства, отримана розрахунковим шляхом за рівнянням регресії

У термінах розв'язуваного завдання величина зветься «коефіцієнт ефективності». Діяльність підприємства можна визнати ефективною у випадках, коли величина коефіцієнта більше одиниці. Це означає, що фактичний прибуток більший за прибуток, усереднений за вибіркою.

Фактичні та розрахункові значення прибутку представлені в табл. 2.

Таблиця 2 - Аналіз результативної ознаки у регресійній моделі

Аналіз таблиці показує, що у нашому випадку діяльність підприємств 3, 5, 7, 9, 12, 14, 15, 17 за період, що розглядається, можна визнати успішною.

Поняття кореляції та регресії безпосередньо пов'язані між собою. У кореляційному та регресійному аналізі багато загальних обчислювальних прийомів. Вони використовуються для виявлення причинно-наслідкових співвідношень між явищами та процесами. Однак, якщо кореляційний аналіздозволяє оцінити силу та напрямок стохастичного зв'язку, то регресійний аналіз- ще й форму залежності.

Регресія може бути:

а) залежно від кількості явищ (змінних):

Простий (регресія між двома змінними);

Множинною (регресія між залежною змінною (y) і декількома змінними, що її пояснюють (х1, х2...хn);

б) залежно від форми:

Лінійною (відображається лінійною функцією, а між змінними, що вивчаються, існують лінійні співвідношення);

Нелінійний (відображається нелінійною функцією, між досліджуваними змінними зв'язок носить нелінійний характер);

в) характером зв'язку між включеними на розгляд змінними:

Позитивною (збільшення значення пояснюючої змінної призводить до збільшення значення залежної змінної та навпаки);

Негативною (зі збільшенням значення пояснюючої змінної значення пояснюваної змінної зменшується);

г) за типом:

Безпосередній (у разі причина надає прямий вплив на слідство, тобто залежна і пояснює змінні пов'язані безпосередньо друг з одним);

Непрямої (пояснювальна змінна надає опосередковану дію через третю чи низку інших змінних на залежну змінну);

Помилковий (нонсенс регресія) - може виникнути при поверхневому та формальному підході до досліджуваних процесів та явищ. Прикладом безглуздих є регресія, яка встановлює зв'язок між зменшенням кількості споживаного алкоголю нашій країні та зменшенням продажу прального порошку.

Під час проведення регресійного аналізу вирішуються такі основні завдання:

1. Визначення форми залежності.

2. Визначення функції регресії. Для цього використовують математичне рівняння того чи іншого типу, що дозволяє, по-перше, встановити загальну тенденцію зміни залежної змінної, а по-друге, обчислити вплив пояснюючої змінної (або кількох змінних) на залежну змінну.

3. Оцінка невідомих значень залежною змінною. Отримана математична залежність (рівняння регресії) дозволяє визначати значення залежної змінної як у межах інтервалу заданих значень пояснюючих змінних, і поза ним. В останньому випадку регресійний аналіз виступає як корисний інструмент при прогнозуванні змін соціально-економічних процесів та явищ (за умови збереження існуючих тенденцій та взаємозв'язків). Зазвичай довжина тимчасового відрізка, який здійснюється прогнозування, вибирається трохи більше половини інтервалу часу, у якому проведено спостереження вихідних показників. Можна здійснити як пасивний прогноз, вирішуючи завдання екстраполяції, так і активний, ведучи міркування за відомою схемою "якщо ..., то" і підставляючи різні значення в одну або кілька змінних регресії, що пояснюють.



Для побудови регресіївикористовується спеціальний метод, який отримав назву методу найменших квадратів. Цей метод має переваги перед іншими методами згладжування: порівняно просте математичне визначення шуканих параметрів та хороше теоретичне обґрунтування з імовірнісної точки зору.

При виборі моделі регресії однією з суттєвих вимог до неї є забезпечення максимально можливої ​​простоти, що дозволяє отримати рішення з достатньою точністю. Тому для встановлення статистичних зв'язків спочатку, як правило, розглядають модель із класу лінійних функцій (як найпростішого з усіх можливих класів функцій):

де bi, b2 ... bj - Коефіцієнти, що визначають вплив незалежних змінних хij на величину yi; аi – вільний член; ei - випадкове відхилення, що відбиває вплив неврахованих факторів на залежну змінну; n – число незалежних змінних; N число спостережень, причому має дотримуватися умова (N. n+1).

Лінійна модельможе описувати дуже широкий клас різних завдань. Однак на практиці, зокрема в соціально-економічних системах, іноді важко застосування лінійних моделей через великі помилки апроксимації. Тому нерідко використовуються функції нелінійної множинної регресії, що допускають лінеаризацію. До них, наприклад, належить виробнича функція (статечна функція Кобба-Дугласа), яка знайшла застосування у різних соціально-економічних дослідженнях. Вона має вигляд:

де b 0 – нормувальний множник, b 1 … b j – невідомі коефіцієнти, e i – випадкове відхилення.

Використовуючи натуральні логарифми, можна перетворити це рівняння на лінійну форму:

Отримана модель дозволяє використовувати стандартні процедури лінійної регресії, описані вище. Побудувавши моделі двох видів (адитивні та мультиплікативні), можна вибрати найкращі та провести подальші дослідження з меншими помилками апроксимації.

Існує добре розвинена система підбору апроксимуючих функцій. методика групового обліку аргументів(МГУА).

Про правильність підібраної моделі можна судити за результатами дослідження залишків, що є різницею між величинами y i, що спостерігаються, і відповідними прогнозованими за допомогою регресійного рівняння величинами y i . В цьому випадку для перевірки адекватності моделірозраховується середня помилка апроксимації:

Модель вважається адекватною, якщо e знаходиться не більше 15%.

Особливо підкреслимо, що стосовно соціально-економічних систем далеко не завжди виконуються основні умови адекватності класичної регресійної моделі.

Не зупиняючись на всіх причинах неадекватності, назвемо лише мультиколінеарність- найскладнішу проблему ефективного застосування процедур регресійного аналізу щодо статистичних залежностей. Під мультиколінеарністюрозуміється наявність лінійного зв'язку між пояснювальними змінними.

Це явище:

а) спотворює сенс коефіцієнтів регресії за її змістовної інтерпретації;

б) знижує точність оцінювання (зростає дисперсія оцінок);

в) посилює чутливість оцінок коефіцієнтів до вибіркових даних (збільшення обсягу вибірки може сильно вплинути значення оцінок).

Існують різні прийоми зниження мультиколінеарності. Найбільш доступний спосіб - усунення однієї з двох змінних, якщо коефіцієнт кореляції між ними перевищує значення, що дорівнює абсолютній величині 0,8. Яку зі змінних залишити вирішують, виходячи із змістовних міркувань. Потім знову проводиться розрахунок коефіцієнтів регресії.

Використання алгоритму покрокової регресії дозволяє послідовно включати в модель однієї незалежної змінної і аналізувати значимість коефіцієнтів регресії і мультиколлинеарность змінних. Остаточно в досліджуваній залежності залишаються лише ті змінні, які забезпечують необхідну значущість коефіцієнтів регресії та мінімальний вплив мультиколлінеарності.

У статистичному моделюванні регресійний аналіз є дослідження, що застосовуються з метою оцінки взаємозв'язку між змінними. Цей математичний метод включає безліч інших методів для моделювання та аналізу декількох змінних, коли основна увага приділяється взаємозв'язку між залежною змінною і однією або декількома незалежними. Говорячи конкретніше, регресійний аналіз допомагає зрозуміти, як змінюється типове значення залежної змінної, якщо одне із незалежних змінних змінюється, тоді як інші незалежні змінні залишаються фіксованими.

У всіх випадках цільова оцінка є функцією незалежних змінних і називається функцією регресії. У регресійному аналізі також цікавить характеристика зміни залежної змінної як функції регресії, яка може бути описана за допомогою розподілу ймовірностей.

Завдання регресійного аналізу

Даний статистичний методдослідження широко використовується для прогнозування, де його використання має істотну перевагу, але іноді це може призводити до ілюзії або хибних відносин, тому рекомендується акуратно його використовувати у зазначеному питанні, оскільки, наприклад, кореляція не означає причинно-наслідкового зв'язку.

Розроблено велику кількість методів для проведення регресійного аналізу, такі як лінійна та звичайна регресії за методом найменших квадратів, які є параметричними. Їх суть у тому, що функція регресії визначається термінами кінцевого числа невідомих параметрів, які оцінюються з даних. Непараметрична регресія дозволяє її функції лежати у певному наборі функцій, які можуть бути нескінченномірними.

Як статистичний метод дослідження, регресійний аналіз практично залежить від форми процесу генерації даних і від цього, як і ставиться до регресійного підходу. Так як справжня форма процесу даних, що генерують, як правило, невідоме число, регресійний аналіз даних часто залежить до певної міри від припущень про цей процес. Ці припущення іноді перевіряються, якщо є достатньо доступних даних. Регресійні моделі часто бувають корисними навіть тоді, коли припущення помірковано порушені, хоча вони не можуть працювати з максимальною ефективністю.

У вужчому сенсі регресія може ставитися безпосередньо до оцінці безперервних змінних відгуку, на відміну дискретних змінних відгуку, що у класифікації. Випадок безперервної вихідний змінної також називають метричною регресією, щоб відрізнити його від пов'язаних із цим проблем.

Історія

Найраніша форма регресії – це всім відомий метод найменших квадратів. Він був опублікований Лежандром в 1805 році і Гауссом в 1809. Лежандр і Гаусс застосували метод завдання визначення з астрономічних спостережень орбіти тіл навколо Сонця (в основному комети, але пізніше і знову відкриті малі планети). Гаус опублікував подальший розвиток теорії найменших квадратів у 1821 році, включаючи варіант теореми Гаусса-Маркова.

Термін «регрес» вигадав Френсіс Гальтон у ХІХ столітті, щоб описати біологічне явище. Суть у тому, що зростання нащадків від зростання предків, зазвичай, регресує вниз до нормального середнього. Для Гальтона регресія мала лише цей біологічний сенс, але пізніше його робота була продовжена Удні Йолей та Карлом Пірсоном і виведена до більш загального статистичного контексту. У роботі Йоля та Пірсона спільний розподіл змінних відгуків та пояснювальних вважається гаусовим. Це припущення було відкинуто Фішером на роботах 1922 і 1925 років. Фішер припустив, що умовний розподіл змінної відгуку є гаусовим, але спільний розподіл не повинен бути таким. У зв'язку з цим припущення Фішера ближче до формулювання Гауса 1821 року. До 1970 року іноді витрачалося до 24 годин, щоб отримати результат регресійного аналізу.

Методи регресійного аналізу продовжують залишатися областю активних досліджень. Останні десятиліття нові методи були розроблені для надійної регресії; регресії за участю корелюючих відгуків; методи регресії, що вміщають різні типи даних, що відсутні; непараметричної регресії; байєсовські методи регресії; регресії, у яких змінні прогнозуючих вимірюються з помилкою; регресії здебільшого предикторов, ніж спостережень, і навіть причинно-наслідкових висновків з регресією.

Регресійні моделі

Моделі регресійного аналізу включають такі змінні:

  • Невідомі параметри, позначені як бета, які можуть бути скаляр або вектор.
  • Незалежні змінні, X.
  • Залежні змінні, Y.

У різних галузях науки, де здійснюється застосування регресійного аналізу, використовуються різні терміни замість залежних та незалежних змінних, але у всіх випадках регресійна модель відносить Y до функцій X та β.

Наближення зазвичай оформляється як E (Y | X) = F (X, β). Для проведення регресійного аналізу має бути визначено вид функції f. Рідше вона заснована на знаннях про взаємозв'язок між Y та X, які не покладаються на дані. Якщо таке знання недоступне, то вибрано гнучку або зручну форму F.

Залежна змінна Y

Припустимо тепер, що вектор невідомих параметрів має довжину k. Для виконання регресійного аналізу користувач повинен надати інформацію про залежну змінну Y:

  • Якщо спостерігаються точки N даних виду (Y, X), де N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Якщо спостерігаються рівно N = K, а функція F є лінійною, то рівняння Y = F (X, β) можна вирішити точно, а чи не приблизно. Це зводиться до рішення набору N-рівнянь з N-невідомими (елементи β), який має єдине рішення доти, доки X лінійно незалежний. Якщо F є нелінійним, рішення може не існувати або може існувати багато рішень.
  • Найбільш поширеною є ситуація, де спостерігається N> точки до даних. У цьому випадку є достатньо інформації в даних, щоб оцінити унікальне значення для β, яке найкращим чиномвідповідає даним, і модель регресії, коли застосування до даних можна розглядати як перевизначену систему β.

У разі регресійний аналіз надає інструменти для:

  • Пошук рішення для невідомих параметрів β, які, наприклад, мінімізувати відстань між виміряним і передбаченим значенням Y.
  • За певних статистичних припущень, регресійний аналіз використовує надлишок інформації для надання статистичної інформації про невідомі параметри β та передбачені значення залежної змінної Y.

Необхідна кількість незалежних вимірів

Розглянемо модель регресії, яка має три невідомі параметри: β 0 , β 1 та β 2 . Припустимо, що експериментатор виконує 10 вимірювань в тому самому значенні незалежної змінної вектора X. У цьому випадку регресійний аналіз не дає унікальний набір значень. Найкраще, що можна зробити, оцінити середнє значення та стандартне відхиленнязалежною змінною Y. Аналогічним чином вимірюючи два різних значеннях X можна отримати достатньо даних для регресії з двома невідомими, але не для трьох і більше невідомих.

Якщо вимірювання експериментатора проводилися за трьох різних значеннях незалежної змінної вектора X, то регресійний аналіз забезпечить унікальний набір оцінок для трьох невідомих параметрів β.

У разі загальної лінійної регресії наведене вище твердження еквівалентне вимогі, що матриця X Т X оборотна.

Статистичні припущення

Коли число вимірювань N більше, ніж число невідомих параметрів k і похибки вимірювань ε i , то, як правило, поширюється надлишок інформації, що міститься в вимірюваннях, і використовується для статистичних прогнозів щодо невідомих параметрів. Цей надлишок інформації називається ступенем свободи регресії.

Основні припущення

Класичні припущення для регресійного аналізу включають:

  • Вибірка є представником прогнозування логічного висновку.
  • Помилка є випадковою величиною із середнім значенням нуля, який є умовним на пояснюючих змінних.
  • Незалежні змінні вимірюються без помилок.
  • Як незалежних змінних (предикторів) вони лінійно незалежні, тобто неможливо висловити будь-який провісник у вигляді лінійної комбінації інших.
  • Помилки є некорельованими, тобто матриця помилок діагоналей і кожен ненульовий елемент є дисперсією помилки.
  • Дисперсія помилки постійна за спостереженнями (гомоскедастичністю). Якщо ні, можна використовувати метод зважених найменших квадратів чи інші методи.

Ці достатні умовидля оцінки найменших квадратів мають необхідні властивості, зокрема ці припущення означають, що оцінки параметрів будуть об'єктивними, послідовними та ефективними, особливо при їх обліку в класі лінійних оцінок. Важливо, що фактичні дані рідко задовольняють умовам. Тобто метод використовується навіть якщо припущення не вірні. Варіація з припущень іноді може бути використана як міра, що показує, наскільки ця модель є корисною. Багато з цих припущень можуть бути пом'якшені у більш розвинених методах. Звіти статистичного аналізу, як правило, включають аналіз тестів за даними вибірки і методології для корисності моделі.

Крім того, змінні в деяких випадках посилаються на значення, які вимірюються в точкових місцях. Там можуть бути просторові тенденції та просторові автокореляції у змінних, що порушують статистичні припущення. Географічна зважена регресія – єдиний метод, який має справу з такими даними.

У лінійній регресії особливістю є те, що залежна змінна, якою є Y i являє собою лінійну комбінацію параметрів. Наприклад, у простій лінійній регресії для моделювання n-точок використовується одна незалежна змінна, x i , і два параметри, β 0 і β 1 .

При множинні лінійної регресії існує кілька незалежних змінних або їх функцій.

При випадковій вибірці з популяції параметри дозволяють отримати зразок моделі лінійної регресії.

В даному аспекті найпопулярнішим є метод найменших квадратів. За допомогою нього одержують оцінки параметрів, які мінімізують суму квадратів залишків. Такі мінімізація (що характерно саме лінійної регресії) цієї функції призводить до набору нормальних рівнянь і набору лінійних рівнянь з параметрами, які вирішуються з отриманням оцінок параметрів.

При подальшому припущенні, що помилка популяції зазвичай поширюється, дослідник може використовувати ці оцінки стандартних помилок для створення довірчих інтервалів та перевірки гіпотез про її параметри.

Нелінійний регресійний аналіз

Приклад, коли функція не є лінійною щодо параметрів, вказує на те, що сума квадратів повинна бути мінімально зведена за допомогою ітераційної процедури. Це вносить багато ускладнень, які визначають різницю між лінійними і нелінійними методами найменших квадратів. Отже, і результати регресійного аналізу під час використання нелінійного методучасом непередбачувані.

Розрахунок потужності та обсягу вибірки

Тут, зазвичай, немає узгоджених методів, які стосуються числа спостережень проти числом незалежних змінних у моделі. Перше правило було запропоновано Доброю і Хардіном і виглядає як N = t^n, де N є розмір вибірки, n - число незалежних змінних, а t є числом спостережень, необхідних досягнення бажаної точності, якщо модель мала тільки одну незалежну змінну. Наприклад, дослідник будує модель лінійної регресії з використанням набору даних, що містить 1000 пацієнтів (N). Якщо дослідник вирішує, що потрібно п'ять спостережень, щоб точно визначити пряму (м), то максимальна кількість незалежних змінних, які модель може підтримувати, дорівнює 4.

Інші методи

Незважаючи на те, що параметри регресійної моделі, як правило, оцінюються з використанням методу найменших квадратів, існують і інші методи, які використовуються набагато рідше. Наприклад, це такі способи:

  • Байєсовські методи (наприклад, метод Байєса лінійної регресії).
  • Процентна регресія, що використовується для ситуацій, коли зниження відсоткових помилок вважається за доцільне.
  • Найменші абсолютні відхилення, що є стійкішим у присутності викидів, що призводять до квантильної регресії.
  • Непараметрична регресія, що вимагає великої кількості спостережень та обчислень.
  • Відстань метрики навчання, яка вивчається у пошуках значної відстані метрики у заданому вхідному просторі.

Програмне забезпечення

Усі основні статистичні пакети програмного забезпечення виконуються за допомогою найменших квадратів регресійного аналізу. Проста лінійна регресіята множинний регресійний аналіз можуть бути використані в деяких додатках електронних таблиць, а також на деяких калькуляторах. Хоча багато статистичних пакетів програмного забезпечення можуть виконувати різні типи непараметричної та надійної регресії, ці методи менш стандартизовані; різні програмні пакети реалізують різні методи. Спеціалізоване регресійне програмне забезпечення було розроблено для використання в таких галузях як аналіз обстеження та нейровізуалізації.

Поділіться з друзями або збережіть для себе:

Завантаження...