Статистически анализ на регресионния модел. Регресионен анализ - статистически метод за изследване на зависимостта на случайна величина от променливи

Характеризиране на причинно-следствените зависимости

причинно-следствена връзка- това е връзката на явления и процеси, когато промяната в едно от тях - причината - води до промяна в другото - следствието.

Знаците според значението им за изследване на връзката се разделят на два класа.

Признаците, които предизвикват промени в други сродни признаци, се наричат фактор (или фактори).

Признаци, които се променят под въздействието на факторни признаци, са продуктивен.

Разграничете следните формивръзки: функционални и стохастични. функционаленте наричат ​​такава връзка, при която една и само една стойност на ефективния атрибут съответства на определена стойност на факторния атрибут. Функционалната връзка се проявява във всички случаи на наблюдение и за всяка конкретна единица от изследваната съвкупност.

Функционалната връзка може да бъде представена със следното уравнение:
y i =f(x i),където: y i - ефективен знак; f(x i) - известната функция на връзката между ефективните и факторните признаци; x i - знак за фактор.
В реалната природа няма функционални връзки. Те са само абстракции, полезни при анализа на явленията, но опростяващи реалността.

Стохастичен (статистически или случаен)Връзкае връзка между количествата, при която една от тях реагира на промяна в друга величина или други величини чрез промяна на закона за разпределение. С други думи, с тази връзка различни стойностиедна променлива съответства на различни разпределения на друга променлива. Това се дължи на факта, че зависимата променлива, в допълнение към считаните за независими, е подложена на влиянието на редица неотчетени или неконтролирани случайни фактори, както и някои неизбежни грешки при измерването на променливите. Поради факта, че стойностите на зависимата променлива са обект на случайно разпространение, те не могат да бъдат предвидени с достатъчна точност, а могат да бъдат посочени само с определена вероятност.

Поради неяснотата на стохастичната зависимост между Y и X по-специално представлява интерес схемата на зависимост, осреднена по x, т.е. закономерност в изменението на средната стойност – условна математическо очакване Mx(Y) (математическото очакване на случайна променлива Y, намерено при условие, че променливата X е приела стойността x) в зависимост от x.

Корелацията е частен случай на стохастична връзка. Корелация(от лат. корелация- отношение, отношение). Директно тълкуване на термина корелация - стохастичен, вероятен, възможен Връзка между две (двойка) или няколко (множество) случайни променливи.

Корелация между две променливи се нарича още статистическа връзка между тези променливи, при която всяка стойност на една променлива съответства на определена средна стойност, т.е. условното очакване е друго. Корелационната зависимост е специален случай на стохастична зависимост, при която промяната в стойностите на факторните знаци (x 1 x 2 ..., x n) води до промяна в средната стойност на ефективния знак.



Обичайно е да се разграничават следните видове корелация:

1. Двойна корелация - връзката между два признака (ефективен и факторен или двуфакторен).

2. Частична корелация - връзката между резултатната и една факторна характеристика с фиксирана стойност на други факторни характеристики, включени в изследването.

3. Множествена корелация- зависимост на ефективния и два или повече факторни признака, включени в изследването.

Цел на регресионния анализ

Регресионните модели са аналитична форма на представяне на причинно-следствени връзки. Научната валидност и популярността на регресионния анализ го прави един от основните математически инструменти за моделиране на изследваното явление. Този метод се използва за изглаждане на експериментални данни и получаване количествени оценкисравнително влияние различни факторикъм променливата резултат.

Регресионен анализев дефиницията на аналитичния израз на връзката, при която промяната в една стойност (зависима променлива или резултантен атрибут) се дължи на влиянието на една или повече независими променливи (фактори или предиктори) и съвкупността от всички други фактори, които също оказват влияние върху зависимата стойност се приемат постоянни и средни стойности.

Цели на регресионния анализ:

Оценка на функционалната зависимост на условната средна стойност на ефективния признак y от факторните (x 1, x 2, ..., x n);

Прогнозиране на стойността на зависимата променлива с помощта на независимата променлива(и).

Определяне на приноса на отделните независими променливи към вариацията на зависимата променлива.

Регресионният анализ не може да се използва, за да се определи дали има връзка между променливите, тъй като наличието на такава връзка е предпоставка за прилагане на анализа.

При регресионния анализ предварително се подразбира наличието на причинно-следствени връзки между ефективните (Y) и факторните характеристики x 1, x 2 ..., x n.

функция , опкойто изследва зависимостта на показателя от параметрите, се нарича регресионно уравнение (функция)един . Уравнението на регресията показва очакваната стойност на зависимата променлива за определени стойности на независимите променливи.
В зависимост от броя на факторите, включени в модела хмоделите се разделят на еднофакторни (модел на сдвоена регресия) и многофакторни (модел множествена регресия). В зависимост от вида на функцията моделите се делят на линейни и нелинейни.

Модел на двойна регресия

Поради въздействието на неотчетени случайни фактори и причини, отделните наблюдения y ще се отклоняват в по-голяма или по-малка степен от регресионната функция f(x). В този случай уравнението на връзката на две променливи (модел на двойна регресия) може да бъде представено като:

Y=f(X) + ɛ,

където ɛ е случайна променлива, характеризираща отклонението от регресионната функция. Тази променлива се нарича смущение или смущение (остатъчно или грешка). Така в регресионния модел зависимата променлива Yима някаква функция f(X)до случайно смущение ɛ.

Помислете за класическия линеен регресионен модел на двойка (CLPR). Тя прилича на

y i \u003d β 0 + β 1 x i + ɛ i (i \u003d 1,2, ..., n),(1)

където аз–обяснена (резултантна, зависима, ендогенна променлива); x i– обяснителна (предикторна, факторна, екзогенна) променлива; β 0 , β 1– числени коефициенти; ɛi– случаен (стохастичен) компонент или грешка.

Основни условия (предпоставки, хипотези) на KLMPR:

1) x i- детерминистична (неслучайна) стойност, предполага се, че сред стойностите на x i - не всички са еднакви.

2) Математическо очакване (средна стойност) на смущението ɛiе равно на нула:

М[ɛ i ]=0 (i=1,2, …, n).

3) Дисперсията на смущението е постоянна за всякакви стойности на i (условие на хомоскедастичност):

D[ɛ i ]=σ 2 (i=1,2, …, n).

4) Смущенията за различни наблюдения не са корелирани:

cov[ɛ i, ɛ j]=M[ɛ i, ɛ j]=0 за i≠j,

където cov[ɛ i, ɛ j] е ковариационният коефициент (момент на корелация).

5) Смущенията са нормално разпределени случайни променливи с нулева средна стойност и дисперсия σ 2:

ɛ i ≈ N(0, σ 2).

За да се получи регресионно уравнение, първите четири предпоставки са достатъчни. Изискването за изпълнение на петата предпоставка е необходимо за оценка на точността на регресионното уравнение и неговите параметри.

коментар:Вниманието към линейните зависимости се обяснява с ограничената вариация на променливите и с факта, че в повечето случаи нелинейните форми на връзки се преобразуват (чрез вземане на логаритми или промяна на променливи) в линейна форма за извършване на изчисления.

традиционен метод най-малки квадрати(MNC)

Примерната оценка на модела е уравнението

ŷ i = a 0 + a 1 x i(i=1,2, …, n), (2)

където ŷ i са теоретичните (приблизителни) стойности на зависимата променлива, получени от регресионното уравнение; a 0 , a 1 - коефициенти (параметри) на регресионното уравнение (селективни оценки съответно на коефициентите β 0 , β 1).

Според най-малките квадрати неизвестните параметри a 0 , a 1 са избрани така, че сумата от квадратите на отклоненията на стойностите на ŷ i от емпиричните стойности на y i (остатъчна сума от квадрати) е минимална:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

където e i = y i - ŷ i е примерната оценка на смущението ɛ i или остатъкът от регресията.

Проблемът се свежда до намиране на такива стойности на параметрите a 0 и a 1, за които функцията Q e приема най-малка стойност. Обърнете внимание, че функцията Q e = Q e (a 0 , a 1) е функция на две променливи a 0 и a 1, докато не намерим и след това фиксираме техните „най-добри“ (в смисъла на метода на най-малките квадрати) стойности, и х i , y i са постоянни числа, намерени експериментално.

Необходимите екстремални условия (3) се намират чрез приравняване на нула на частните производни на тази функция на две променливи. В резултат на това получаваме система от две линейни уравнения, което се нарича система нормални уравнения:

(4)

Коефициент a 1 - примерен регресионен коефициент y за x, който показва колко единици се променя средно променливата y, когато променливата x се промени с една единица от нейното измерване, т.е. промяната на y на единица вариация x. Знак а 1показва посоката на тази промяна. Коефициентът a 0 - shift, съгласно (2) е равен на стойността на ŷ i при x=0 и може да няма смислена интерпретация. За тази цел зависимата променлива понякога се нарича реакция.

Статистически свойства на оценките на регресионните коефициенти:

Оценките на коефициентите a 0 , a 1 са безпристрастни;

Дисперсиите на оценките a 0 , a 1 намаляват (точността на оценките нараства) с увеличаване на размера на извадката n;

Дисперсията на оценката на наклона a 1 намалява с нарастване и затова е желателно да се избере x i така, че разпространението им около средната стойност да е голямо;

За x¯ > 0 (което е от най-голям интерес), има отрицателна статистическа връзка между 0 и 1 (увеличаването на 1 води до намаляване на 0).

Основната цел на регресионния анализсе състои в определяне на аналитичната форма на връзката, при която промяната в резултантния атрибут се дължи на влиянието на един или повече факторни признаци, а съвкупността от всички други фактори, които също влияят на резултантния атрибут, се приема като постоянна и средна стойност .
Задачи на регресионния анализ:
а) Установяване на формата на зависимост. По отношение на характера и формата на връзката между явленията има положителна линейна и нелинейна и отрицателна линейна и нелинейна регресия.
б) Дефиниране на регресионната функция под формата на математическо уравнение от един или друг тип и установяване на влиянието на обяснителните променливи върху зависимата променлива.
в) Оценка на неизвестни стойности на зависимата променлива. Използвайки регресионната функция, можете да възпроизведете стойностите на зависимата променлива в интервала от дадени стойности на обяснителните променливи (т.е. да решите проблема с интерполацията) или да оцените хода на процеса извън определения интервал (т.е. решаване на проблема с екстраполацията). Резултатът е оценка на стойността на зависимата променлива.

Двойна регресия - уравнението на връзката на две променливи y и x: , където y е зависимата променлива (ефективен знак); x - независима, обяснителна променлива (feature-factor).

Има линейни и нелинейни регресии.
Линейна регресия: y = a + bx + ε
Нелинейните регресии се разделят на два класа: регресии, които са нелинейни по отношение на обяснителните променливи, включени в анализа, но линейни по отношение на оценените параметри, и регресии, които са нелинейни по отношение на оценените параметри.
Регресии, които са нелинейни в обяснителните променливи:

Регресии, които са нелинейни по отношение на оценени параметри: Изграждането на регресионно уравнение се свежда до оценяване на неговите параметри. За оценка на параметрите на регресии, които са линейни по параметри, се използва методът на най-малките квадрати (LSM). LSM дава възможност да се получат такива оценки на параметри, при които сумата от квадратните отклонения на действителните стойности на получената характеристика y от теоретичните е минимална, т.е.
.
За линейни и нелинейни уравненияредуцирана до линейна, следната система е решена за a и b:

Можете да използвате готови формули, които следват от тази система:

Тясността на връзката между изследваните явления се оценява от линеен коефициентдвойна корелация за линейна регресия:

и индекс на корелация - за нелинейна регресия:

Оценка за качеството на изградения модел ще бъде дадена чрез коефициента (индекса) на детерминация, както и средната апроксимационна грешка.
Средната апроксимационна грешка е средното отклонение на изчислените стойности от действителните:
.
Допустима граница на стойностите - не повече от 8-10%.
Средният коефициент на еластичност показва с какъв процент средно в съвкупността резултатът y ще се промени от своя среден размеркогато факторът x се промени с 1% от средната си стойност:
.

Задача дисперсионен анализсе състои в анализиране на дисперсията на зависимата променлива:
,
където - обща сумаквадратни отклонения;
- сума на квадратите на отклоненията, дължащи се на регресия („обяснено“ или „факториално“);
- остатъчна сума на квадратите на отклоненията.
Пропорцията на дисперсията, обяснена от регресията, в обща дисперсияна ефективната характеристика y характеризира коефициента (индекс) на определяне R 2:

Коефициентът на детерминация е квадратът на коефициента или корелационния индекс.

F-тест - оценка на качеството на регресионното уравнение - се състои в тестване на хипотезата Но за статистическата незначимост на регресионното уравнение и индикатора за близост на връзката. За тази цел се извършва сравнение на действителния F факт и критичната (таблична) F таблица на стойностите на F-критерия на Fisher. F факт се определя от съотношението на стойностите на фактора и остатъчна дисперсияизчислено за една степен на свобода:
,
където n е броят на единиците от съвкупността; m е броят на параметрите за променливите x.
F таблица е максимално възможната стойност на критерия под влияние на случайни фактори за дадени степени на свобода и ниво на значимост a. Ниво на значимост a - вероятността за отхвърляне на правилната хипотеза, при условие че е вярна. Обикновено a се приема равно на 0,05 или 0,01.
Ако F таблица< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F е факт, тогава хипотезата H относно не се отхвърля и се признава статистическата незначимост, ненадеждността на регресионното уравнение.
За ставка статистическа значимосткоефициентите на регресия и корелация се изчисляват чрез t-тест на Стюдънт и доверителни интервали за всеки от показателите. Излага се хипотеза Н за случайния характер на показателите, т.е. за тяхната незначителна разлика от нула. Оценката на значимостта на коефициентите на регресия и корелация с помощта на t-теста на Student се извършва чрез сравняване на техните стойности с големината на случайната грешка:
; ; .
Случайните грешки на параметрите на линейната регресия и коефициента на корелация се определят по формулите:



Сравнявайки действителните и критичните (таблични) стойности на t-статистиката - t tabl и t fact - ние приемаме или отхвърляме хипотезата H o.
Връзката между F-теста на Фишер и t-статистиката на Стюдънт се изразява чрез равенството

Ако t маса< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t фактът, че хипотезата H относно не се отхвърля и се признава случайният характер на формирането на a, b или.
За да изчислим доверителния интервал, ние определяме пределна грешка D за всеки индикатор:
, .
Формули за изчисление доверителни интервалиимат следната форма:
; ;
; ;
Ако нулата попада в границите на доверителния интервал, т.е. Ако долната граница е отрицателна, а горната граница е положителна, тогава оцененият параметър се приема за нула, тъй като не може едновременно да приема както положителни, така и отрицателни стойности.
Прогнозната стойност се определя чрез заместване на съответната (прогнозна) стойност в регресионното уравнение. Средната стандартна грешка на прогнозата се изчислява:
,
където
и се изгражда доверителният интервал на прогнозата:
; ;
където .

Пример за решение

Задача номер 1. в седем територии Уралски регионЗа 199X са известни стойностите на две характеристики.
Маса 1.
Задължително: 1. За да характеризирате зависимостта на y от x, изчислете параметрите на следните функции:
а) линейни;
б) степенен закон (предварително е необходимо да се извърши процедурата за линеаризиране на променливи чрез вземане на логаритъм на двете части);
в) демонстративни;
г) равностранна хипербола (трябва също така да разберете как предварително да линеаризирате този модел).
2. Оценете всеки модел чрез средна грешкаапроксимации и F-тест на Фишер.

Решение (Вариант №1)

За изчисляване на параметрите a и b на линейна регресия (изчислението може да се направи с помощта на калкулатор).
решаване на системата от нормални уравнения по отношение на аи б:
Въз основа на първоначалните данни изчисляваме :
г х yx x2 y2 A i
л 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Обща сума 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
ср стойност (Общо/n) 57,89 54,90 3166,05 3048,34 3383,68 х х 8,1
с 5,74 5,86 х х х х х х
s2 32,92 34,34 х х х х х х


Регресионно уравнение: y= 76,88 - 0,35Х.С увеличение на среднодневните заплатиза 1 rub. делът на разходите за закупуване на хранителни продукти намалява средно с 0.35% пункта.
Изчислете линейния коефициент на двойна корелация:

Общуването е умерено, обратно.
Нека да определим коефициента на детерминация:

Разликата от 12,7% в резултата се обяснява с промяната в фактора x. Заместване на действителните стойности в регресионното уравнение Х,определят теоретичните (изчислените) стойности . Намерете стойността на средната грешка на приближението:

Средно изчислените стойности се отклоняват от действителните с 8,1%.
Нека изчислим F-критерия:

защото 1< Е < ¥ , трябва да се има предвид Е -1 .
Получената стойност показва необходимостта от приемане на хипотезата но ослучайният характер на разкритата зависимост и статистическата незначимост на параметрите на уравнението и показателя за стегнатост на връзката.
1б.Изграждането на мощностен модел се предшества от процедурата на линеаризация на променливите. В примера линеаризацията се извършва чрез вземане на логаритъм от двете страни на уравнението:


къдетоY=lg(y), X=lg(x), C=lg(a).

За изчисления използваме данните от табл. 1.3.

Таблица 1.3

Y х YX Y2 x2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Обща сума 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Означава 1,7605 1,7370 3,0572 3,1011 3,0194 х х 28,27 8,0
σ 0,0425 0,0484 х х х х х х х
σ2 0,0018 0,0023 х х х х х х х

Изчислете C и b:


Получаваме линейно уравнение: .
Чрез потенцирането му получаваме:

Замествайки в това уравнение действителните стойности Х,получаваме теоретичните стойности на резултата. Въз основа на тях изчисляваме показателите: плътност на връзката - индекс на корелация и средна грешка на приближаване

Характеристиките на степенния модел показват, че той описва връзката малко по-добре от линейната функция.

. Построяване на уравнение на експоненциална крива

предшествано от процедура за линеаризиране на променливи при вземане на логаритъм на двете части на уравнението:

За изчисления използваме данните от таблицата.

Y х Yx Y2 x2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Обща сума 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
ср зн. 1,7605 54,9 96,5711 3,1011 3048,34 х х 28,68 8,0
σ 0,0425 5,86 х х х х х х х
σ2 0,0018 34,339 х х х х х х х

Стойностите на регресионните параметри A и ATвъзлиза на:


Получава се линейно уравнение: . Потенцираме полученото уравнение и го записваме в обичайната форма:

Ние оценяваме близостта на връзката чрез индекса на корелация:

След използване корелационен анализако се установи наличието на статистически връзки между променливите и се оцени степента на тяхната близост, те обикновено преминават към математическо описание на конкретен тип зависимост с помощта на регресионен анализ. За тази цел се избира клас функции, който свързва ефективния индикатор y и аргументите x 1, x 2, ..., x с избраните най-информативни аргументи, оценки на неизвестни стойности на параметрите на връзката уравнение се изчисляват и свойствата на полученото уравнение се анализират.

Функцията f (x 1, x 2, ..., x k), описваща зависимостта на средната стойност на ефективната характеристика y от дадените стойности на аргументите, се нарича регресионна функция (уравнение). Терминът "регресия" (лат. - regression - отстъпление, връщане към нещо) е въведен от английския психолог и антрополог Ф. Галтън и се свързва изключително със спецификата на един от първите конкретни примери, в които е използвано това понятие. И така, обработвайки статистически данни във връзка с анализа на наследствеността на растежа, Ф. Галтън установи, че ако бащите се отклоняват от средната височина на всички бащи с x инча, тогава техните синове се отклоняват от средната височина на всички синове с по-малко от x инча. Разкритата тенденция беше наречена "регресия към средното състояние". Оттогава терминът "регресия" се използва широко в статистическата литература, въпреки че в много случаи той не характеризира точно понятието статистическа зависимост.

За точно описаниерегресионни уравнения трябва да знаете закона за разпределение показател за ефективностг. В статистическата практика човек обикновено трябва да се ограничи до търсенето на подходящи приближения за неизвестната истинска регресионна функция, тъй като изследователят няма точни познания за условния закон на вероятностното разпределение на анализирания резултатен показател y за дадени стойности на аргумента x.

Помислете за връзката между истинската f(x) = M(y1x), регресия на модела? и y резултата на регресията. Нека ефективният индикатор y е свързан с аргумента x чрез отношението:

където е случайна променлива, която има нормален законразпределения, с Me = 0 и D e = y 2 . Истинската регресионна функция в този случай е: f(x) = M(y/x) = 2x 1,5.

Да предположим, че не знаем точната форма на истинското регресионно уравнение, но имаме девет наблюдения върху двуизмерна случайна променлива, свързана със съотношението yi = 2x1,5 + e и показана на фиг. един

Снимка 1 - Взаимна договореностистина f (x) и теоретична? регресионни модели

Разположение на точките на фиг. 1 ви позволява да се ограничите до класа на линейните зависимости на формата? = при 0 + при 1 x. Използвайки метода на най-малките квадрати, намираме оценка на регресионното уравнение y = b 0 +b 1 x. За сравнение, на фиг. 1 показва графики на истинската регресионна функция y \u003d 2x 1,5, теоретичната апроксимираща регресионна функция? = при 0 + при 1 x.

Тъй като направихме грешка при избора на класа на регресионната функция, а това е доста често срещано в практиката статистически изследвания, тогава нашите статистически заключения и оценки ще бъдат грешни. И без значение колко увеличаваме обема на наблюденията, нашата примерна оценка на y няма да бъде близка до истинската регресионна функция f(x). Ако сме избрали правилно класа на регресионните функции, тогава неточността в описанието на f (x), използвайки? може да се обясни само с ограничения размер на извадката.

За да се възстанови най-добре условната стойност на ефективния показател y(x) и неизвестната регресионна функция f(x) = M(y/x) от първоначалните статистически данни, най-често се използват следните критерии за адекватност (функции на загуба) .

Метод на най-малките квадрати. Съгласно него се минимизира квадратичното отклонение на наблюдаваните стойности на ефективния показател y, (i = 1,2,..., n) от моделните стойности. = f(х i), където х i е стойността на аргументния вектор в i-то наблюдение: ?(y i - f(x i) 2 > min. Получената регресия се нарича средноквадратичен корен.

Метод на най-малкото модули. Съгласно него сумата от абсолютните отклонения на наблюдаваните стойности на ефективния показател от модулните стойности е сведена до минимум. И получаваме = f(x i), средна абсолютна средна регресия? |y i - f(х i)| > мин.

Регресионният анализ е метод за анализ на статистически зависимости случайна величина y от променливите x j = (j=1,2,..., k), разглеждани в регресионния анализ като неслучайни променливи, независимо от истинския закон на разпределение x j.

Обикновено се приема, че случайната променлива y има нормален закон на разпределение с условно математическо очакване y, което е функция на аргументите x/ (/ = 1, 2, ..., k) и константа, независима от аргументи, дисперсия y 2 .

Най-общо линейният модел на регресионния анализ има формата:

Y = Y к j=0в й° С й1 , х 2 . . .. к)+E

където c j е някаква функция на своите променливи - x 1 , x 2 . . .. ,x k , E е случайна променлива с нулево математическо очакване и дисперсия y 2 .

При регресионния анализ типът на регресионното уравнение се избира въз основа на физическата природа на изследваното явление и резултатите от наблюдението.

Оценките на неизвестни параметри на регресионното уравнение обикновено се намират по метода на най-малките квадрати. По-долу ще се спрем на този проблем по-подробно.

Двумерно уравнение на линейна регресия. Нека въз основа на анализа на изследваното явление се приеме, че в „средното“ y има линейна функцияот x, т.е. има регресионно уравнение

y \u003d M (y / x) \u003d при 0 + при 1 x)

където M(y1x) е условното математическо очакване на случайна променлива y за дадено x; при 0 и при 1 - неизвестни параметри население, което трябва да се оцени от резултатите от извадковите наблюдения.

Да предположим, че за оценка на параметрите при 0 и при 1 е взета извадка с размер n от двумерна генерална съвкупност (x, y), където (x, y,) е резултатът от i-тото наблюдение (i = 1, 2,..., n) . В този случай моделът на регресионния анализ има формата:

y j = при 0 + при 1 x+e j.

където e j .- независими нормално разпределени случайни променливи с нулево математическо очакване и дисперсия y 2, т.е. M e j . = 0;

D e j .= y 2 за всички i = 1, 2,..., n.

Според метода на най-малките квадрати, като оценки на неизвестните параметри при 0 и при 1, трябва да се вземат такива стойности на характеристиките на извадката b 0 и b 1, които минимизират сумата от квадратните отклонения на стойностите на получените характеристика y i от условното математическо очакване? аз

Ще разгледаме методологията за определяне на влиянието на маркетинговите характеристики върху печалбата на предприятието, като използваме примера на седемнадесет типични предприятия със средни размери и показатели за икономическа дейност.

При решаването на проблема бяха взети предвид следните характеристики, идентифицирани като най-значими (важни) в резултат на анкетно проучване:

* иновативна дейностпредприятия;

* планиране на продуктовата гама;

* формиране на ценова политика;

* връзки с обществеността;

* маркетингова система;

* система за стимулиране на служителите.

Въз основа на система от сравнения по фактори бяха изградени квадратни матрици на съседство, в които бяха изчислени стойностите на относителните приоритети за всеки фактор: иновативна дейност на предприятието, планиране на гамата от продукти, ценова политика, реклама, връзки с обществеността, система за продажби, система за стимулиране на служителите.

Оценките за приоритетите на фактора „връзки с обществеността“ са получени в резултат на проучване на специалисти на компанията. Приемат се следните обозначения: > (по-добро), > (по-добро или същото), = (равно),< (хуже или одинаково), <

След това беше решен проблемът за цялостна оценка на нивото на маркетинг на предприятието. При изчисляването на показателя се определя значимостта (теглото) на разглежданите отделни характеристики и се решава проблема с линейната конволюция на отделните показатели. Обработката на данните се извършва по специално разработени програми.

След това се изчислява цялостна оценка на нивото на маркетинг на предприятието - маркетинговият коефициент, който се въвежда в таблица 1. В допълнение, посочената таблица включва показатели, характеризиращи предприятието като цяло. Данните в таблицата ще се използват за регресионен анализ. Резултатът е печалба. Наред с маркетинговия коефициент като факторни знаци са използвани следните показатели: обем на брутната продукция, стойност на дълготрайните активи, брой на служителите, коефициент на специализация.

Таблица 1 - Изходни данни за регресионен анализ


Въз основа на данните в таблицата и на базата на фактори с най-значими стойности на коефициентите на корелация бяха изградени регресионни функции на зависимостта на печалбата от факторите.

Регресионното уравнение в нашия случай ще приеме формата:

Коефициентите на регресионното уравнение говорят за количественото влияние на разгледаните по-горе фактори върху размера на печалбата. Те показват колко хиляди рубли се променя стойността му, когато знакът на фактора се промени с една единица. Както следва от уравнението, увеличаването на съотношението на маркетинговия микс с една единица води до увеличение на печалбата с 1547,7 хиляди рубли. Това предполага, че има огромен потенциал за подобряване на икономическите резултати на предприятията при подобряване на маркетинговите дейности.

При изследването на ефективността на маркетинга най-интересната и най-важна факторна характеристика е факторът Х5 - маркетинговият коефициент. В съответствие с теорията на статистиката предимството на съществуващото уравнение за множествена регресия е възможността да се оцени изолираното влияние на всеки фактор, включително маркетинговия фактор.

Резултатите от направения регресионен анализ също се използват по-широко, отколкото за изчисляване на параметрите на уравнението. Критерият за класифициране (Kef,) предприятията като относително по-добри или относително по-лоши се основава на относителния показател на резултата:

където Y facti е действителната стойност на i-то предприятие, хиляди рубли;

Y изчислено - стойността на печалбата на i-то предприятие, получена чрез изчисление съгласно уравнението на регресията

По отношение на проблема, който се решава, стойността се нарича "коефициент на ефективност". Дейността на предприятието може да се счита за ефективна в случаите, когато стойността на коефициента е по-голяма от единица. Това означава, че действителната печалба е по-голяма от печалбата, осреднена за извадката.

Действителните и изчислените стойности на печалбата са представени в табл. 2.

Таблица 2 – Анализ на ефективната характеристика в регресионния модел

Анализът на таблицата показва, че в нашия случай дейността на предприятия 3, 5, 7, 9, 12, 14, 15, 17 за разглеждания период може да се счита за успешна.

Понятията корелация и регресия са пряко свързани. Има много общи изчислителни техники в корелационния и регресионния анализ. Те се използват за установяване на причинно-следствени връзки между явления и процеси. Въпреки това, ако корелационен анализтогава ви позволява да оцените силата и посоката на стохастичната връзка регресионен анализТова също е форма на пристрастяване.

Регресията може да бъде:

а) в зависимост от броя на явленията (променливите):

Проста (регресия между две променливи);

Множество (регресия между зависимата променлива (y) и няколко променливи, които я обясняват (x1, x2 ... xn);

б) в зависимост от формата:

Линеен (показва се като линейна функция и има линейни зависимости между изследваните променливи);

Нелинейна (показва се като нелинейна функция, връзката между изследваните променливи е нелинейна);

в) по естеството на връзката между променливите, включени в разглеждането:

Положителна (увеличаването на стойността на обяснителната променлива води до увеличаване на стойността на зависимата променлива и обратно);

Отрицателен (с увеличаване на стойността на обяснителната променлива, стойността на обяснената променлива намалява);

г) по вид:

Незабавно (в този случай причината има пряк ефект върху ефекта, т.е. зависимите и обяснителните променливи са пряко свързани една с друга);

Индиректно (обяснителната променлива има косвен ефект чрез трета или няколко други променливи върху зависимата променлива);

Невярна (безсмислена регресия) - може да възникне при повърхностен и формален подход към изследваните процеси и явления. Пример за глупост е регресия, която установява връзката между намаляването на количеството консумиран алкохол у нас и намаляването на продажбата на прах за пране.

При извършване на регресионен анализ се решават следните основни задачи:

1. Определяне на формата на зависимост.

2. Дефиниция на регресионната функция. За това се използва математическо уравнение от един или друг тип, което позволява, първо, да се установи обща тенденция в промяната на зависимата променлива и, второ, да се изчисли ефектът на обяснителната променлива (или няколко променливи) върху зависимата променлива.

3. Оценка на неизвестни стойности на зависимата променлива. Получената математическа зависимост (регресионно уравнение) ви позволява да определите стойността на зависимата променлива както в диапазона на зададените стойности на обяснителните променливи, така и извън него. В последния случай регресионният анализ действа като полезен инструмент за прогнозиране на промените в социално-икономическите процеси и явления (при условие че се запазят съществуващите тенденции и връзки). Обикновено дължината на интервала от време, за който се извършва прогнозирането, се избира не повече от половината от интервала от време, през който са извършени наблюденията на първоначалните показатели. Възможно е да се извърши както пасивна прогноза, решаваща проблема с екстраполацията, така и активна, разсъждавайки според добре известната схема "ако ... тогава" и замествайки различни стойности в една или повече обяснителни регресионни променливи.



За изграждане на регресияизползва специален метод, наречен метод на най-малките квадрати. Този метод има предимства пред другите методи за изглаждане: сравнително проста математическа дефиниция на необходимите параметри и добра теоретична обосновка от вероятностна гледна точка.

При избора на регресионен модел едно от основните изисквания към него е да се осигури възможно най-голяма простота, която позволява получаване на решение с достатъчна точност. Следователно, за да установите статистически зависимости, първо, като правило, разгледайте модел от класа на линейните функции (като най-простия от всички възможни класове функции):

където bi, b2...bj - коефициенти, които определят влиянието на независимите променливи хij върху стойността yi; ai - свободен член; ei - случайно отклонение, което отразява влиянието на неотчетени фактори върху зависимата променлива; n е броят на независимите променливи; N е броят на наблюденията и условието (N . n+1) трябва да бъде изпълнено.

Линеен моделможе да опише много широк клас различни проблеми. На практика обаче, особено в социално-икономическите системи, понякога е трудно да се използват линейни модели поради големи грешки на приближението. Поради това често се използват нелинейни множествени регресионни функции, които позволяват линеаризация. Сред тях например е производствената функция (властната функция на Коб-Дъглас), намерила приложение в различни социално-икономически изследвания. Изглежда като:

където b 0 - коефициент на нормализиране, b 1 ...b j - неизвестни коефициенти, e i - случайно отклонение.

Използвайки естествени логаритми, можем да преобразуваме това уравнение в линейна форма:

Полученият модел ви позволява да използвате стандартните процедури за линейна регресия, описани по-горе. След като са изградени модели от два типа (адитивен и мултипликативен), човек може да избере най-добрите и да проведе допълнителни изследвания с по-малки грешки на приближението.

Има добре развита система за избор на апроксимиращи функции - метод на групово отчитане на аргументите(MGUA) .

Правилността на избрания модел може да се съди по резултатите от изследването на остатъците, които са разликите между наблюдаваните стойности y i и съответните стойности, предвидени с помощта на регресионното уравнение y i . В такъв случай за проверка на адекватността на моделаизчислено средна грешка на приближението:

Моделът се счита за адекватен, ако e е в рамките на 15% или по-малко.

Специално подчертаваме, че по отношение на социално-икономическите системи основните условия за адекватност на класическия регресионен модел в никакъв случай не са изпълнени.

Без да се спираме на всички причини за възникналата неадекватност, ще назовем само мултиколинеарност- най-трудният проблем за ефективното прилагане на процедурите за регресионен анализ при изследване на статистически зависимости. Под мултиколинеарностразбира се наличието на линейна връзка между обяснителните променливи.

Това явление:

а) изкривява значението на коефициентите на регресия при тяхната смислена интерпретация;

б) намалява точността на оценката (дисперсията на оценките се увеличава);

в) повишава чувствителността на оценките на коефициента към извадкови данни (увеличаването на размера на извадката може значително да повлияе на стойностите на оценките).

Има различни техники за намаляване на мултиколинеарността. Най-достъпният начин е да се елиминира една от двете променливи, ако коефициентът на корелация между тях надвишава стойност, равна по абсолютна стойност на 0,8. Коя от променливите да се запази се решава въз основа на значими съображения. След това регресионните коефициенти се изчисляват отново.

Използването на алгоритъма за поетапна регресия ви позволява последователно да включвате една независима променлива в модела и да анализирате значимостта на регресионните коефициенти и мултиколинеарността на променливите. Накрая в изследваната зависимост остават само тези променливи, които осигуряват необходимата значимост на регресионните коефициенти и минимален ефект на мултиколинеарност.

При статистическото моделиране регресионният анализ е изследване, използвано за оценка на връзката между променливите. Този математически метод включва много други методи за моделиране и анализ на множество променливи, когато фокусът е върху връзката между зависима променлива и една или повече независими променливи. По-конкретно, регресионният анализ ви помага да разберете как се променя типичната стойност на зависимата променлива, ако една от независимите променливи се промени, докато другите независими променливи остават фиксирани.

Във всички случаи целевият резултат е функция на независимите променливи и се нарича регресионна функция. В регресионния анализ също е от интерес да се характеризира промяната в зависимата променлива като функция на регресията, която може да бъде описана с помощта на вероятностно разпределение.

Задачи на регресионния анализ

The статистически методизследването се използва широко за прогнозиране, където използването му има значително предимство, но понякога може да доведе до илюзия или фалшива връзка, така че се препоръчва да се използва внимателно в този въпрос, тъй като например корелацията не означава причинно-следствена връзка .

Разработени са голям брой методи за извършване на регресионен анализ, като линейна и обикновена регресия на най-малките квадрати, които са параметрични. Тяхната същност е, че регресионната функция се дефинира от гледна точка на краен брой неизвестни параметри, които се оценяват от данните. Непараметричната регресия позволява нейната функция да лежи в определен набор от функции, които могат да бъдат безкрайномерни.

Като статистически изследователски метод регресионният анализ на практика зависи от формата на процеса на генериране на данни и от това как той се свързва с регресионния подход. Тъй като истинската форма на генериране на процеса на данни обикновено е неизвестно число, регресионният анализ на данните често зависи до известна степен от предположенията за процеса. Тези предположения понякога могат да бъдат тествани, ако има достатъчно налични данни. Регресионните модели често са полезни дори когато предположенията са умерено нарушени, въпреки че може да не се представят по най-добрия начин.

В по-тесен смисъл регресията може да се отнася конкретно до оценката на променливите на непрекъснатия отговор, за разлика от променливите на дискретния отговор, използвани в класификацията. Случаят на непрекъсната изходна променлива се нарича още метрична регресия, за да се разграничи от свързани проблеми.

История

Най-ранната форма на регресия е добре познатият метод на най-малките квадрати. Публикуван е от Лежандр през 1805 г. и от Гаус през 1809 г. Лежандр и Гаус прилагат метода към проблема за определяне от астрономически наблюдения на орбитите на телата около Слънцето (главно комети, но по-късно и новооткрити малки планети). Гаус публикува по-нататъшно развитие на теорията на най-малките квадрати през 1821 г., включително вариант на теоремата на Гаус-Марков.

Терминът "регресия" е въведен от Франсис Галтън през 19 век, за да опише биологичен феномен. Изводът беше, че растежът на потомците от растежа на предците, като правило, регресира до нормалната средна стойност. За Галтън регресията има само това биологично значение, но по-късно работата му е възприета от Удни Йоли и Карл Пиърсън и е отнесена към по-общ статистически контекст. В работата на Юл и Пиърсън съвместното разпределение на отговора и обяснителните променливи се счита за Гаусово. Това предположение е отхвърлено от Фишер в документите от 1922 и 1925 г. Фишър предположи, че условното разпределение на променливата на отговора е гаусово, но съвместното разпределение не е необходимо да бъде. В това отношение предложението на Фишър е по-близо до формулировката на Гаус от 1821 г. Преди 1970 г. понякога отнемаше до 24 часа, за да се получи резултатът от регресионен анализ.

Методите за регресионен анализ продължават да бъдат област на активно изследване. През последните десетилетия бяха разработени нови методи за стабилна регресия; регресии, включващи корелирани отговори; регресионни методи, които приспособяват различни видове липсващи данни; непараметрична регресия; Байесови регресионни методи; регресии, при които предикторните променливи се измерват с грешка; регресии с повече предиктори, отколкото наблюдения и причинно-следствени изводи с регресия.

Регресионни модели

Моделите за регресионен анализ включват следните променливи:

  • Неизвестни параметри, обозначени като бета, които могат да бъдат скалар или вектор.
  • Независими променливи, X.
  • Зависими променливи, Y.

В различни области на науката, където се прилага регресионен анализ, се използват различни термини вместо зависими и независими променливи, но във всички случаи регресионният модел свързва Y с функция на X и β.

Приближението обикновено се формулира като E (Y | X) = F (X, β). За да се извърши регресионен анализ, трябва да се определи формата на функцията f. По-рядко се основава на знания за връзката между Y и X, които не разчитат на данни. Ако такова знание не е налично, тогава се избира гъвкава или удобна форма F.

Зависима променлива Y

Нека сега приемем, че векторът на неизвестните параметри β има дължина k. За да извърши регресионен анализ, потребителят трябва да предостави информация за зависимата променлива Y:

  • Ако се наблюдават N точки от данни във формата (Y, X), където N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ако се наблюдава точно N = K и функцията F е линейна, тогава уравнението Y = F(X, β) може да бъде решено точно, а не приблизително. Това се свежда до решаване на набор от N-уравнения с N-неизвестни (елементите на β), които имат уникално решение, стига X да е линейно независим. Ако F е нелинейно, решение може да не съществува или може да има много решения.
  • Най-често срещаната ситуация е, когато има N > точки към данните. В този случай в данните има достатъчно информация за оценка на уникална стойност за β, която по най-добрия начинотговаря на данните и регресионният модел, когато се прилага към данните, може да се разглежда като свръхопределена система в β.

В последния случай регресионният анализ предоставя инструменти за:

  • Намиране на решение за неизвестни параметри β, което например ще минимизира разстоянието между измерената и прогнозираната стойност на Y.
  • При определени статистически допускания, регресионният анализ използва излишна информация, за да предостави статистическа информация за неизвестните параметри β и прогнозираните стойности на зависимата променлива Y.

Необходим брой независими измервания

Да разгледаме регресионен модел, който има три неизвестни параметъра: β 0 , β 1 и β 2 . Да приемем, че експериментаторът прави 10 измервания на една и съща стойност на независимата променлива на вектора X. В този случай регресионният анализ не дава уникален набор от стойности. Най-доброто нещо, което трябва да направите, е да оцените средната стойност и стандартно отклонениезависима променлива Y. По същия начин, измерване на две различни стойности X, можете да получите достатъчно данни за регресия с две неизвестни, но не и за три или повече неизвестни.

Ако измерванията на експериментатора бяха направени при три различни стойности на независимата векторна променлива X, тогава регресионният анализ ще предостави уникален набор от оценки за трите неизвестни параметъра в β.

В случай на обща линейна регресия горното твърдение е еквивалентно на изискването матрицата X T X да е обратима.

Статистически предположения

Когато броят на измерванията N е по-голям от броя на неизвестните параметри k и грешките на измерване ε i , тогава, като правило, тогава излишната информация, съдържаща се в измерванията, се разпределя и използва за статистически прогнози по отношение на неизвестни параметри. Този излишък от информация се нарича степен на свобода на регресията.

Основни предположения

Класическите допускания за регресионен анализ включват:

  • Вземането на проби е представително за прогнозиране на изводи.
  • Грешката е случайна променлива със средна стойност нула, която зависи от обяснителните променливи.
  • Независимите променливи се измерват без грешки.
  • Като независими променливи (предиктори), те са линейно независими, т.е. не е възможно да се изрази нито един предиктор като линейна комбинация от останалите.
  • Грешките са некорелирани, т.е. ковариационната матрица на грешката на диагоналите и всеки ненулев елемент е дисперсията на грешката.
  • Дисперсията на грешката е постоянна в наблюденията (хомоскедастичност). Ако не, тогава могат да се използват претеглени най-малки квадрати или други методи.

Тези достатъчни условияза оценка на най-малките квадрати имат необходимите свойства, по-специално тези допускания означават, че оценките на параметрите ще бъдат обективни, последователни и ефективни, особено когато се вземат предвид в класа линейни оценки. Важно е да се отбележи, че действителните данни рядко отговарят на условията. Тоест, методът се използва дори ако предположенията не са верни. Отклонението от предположенията понякога може да се използва като мярка за това колко полезен е моделът. Много от тези предположения могат да бъдат облекчени с по-напреднали методи. Докладите за статистически анализ обикновено включват анализ на тестове спрямо примерни данни и методология за полезността на модела.

В допълнение, променливите в някои случаи се отнасят до стойности, измерени в точки. Възможно е да има пространствени тенденции и пространствени автокорелации в променливи, които нарушават статистическите допускания. Географската претеглена регресия е единственият метод, който се занимава с такива данни.

При линейната регресия характеристиката е, че зависимата променлива, която е Y i , е линейна комбинация от параметри. Например простата линейна регресия използва една независима променлива, x i, и два параметъра, β 0 и β 1, за моделиране на n-точки.

При множествената линейна регресия има няколко независими променливи или техните функции.

При произволна извадка от популация, нейните параметри позволяват да се получи извадка от линеен регресионен модел.

В този аспект най-популярен е методът на най-малките квадрати. Той предоставя оценки на параметри, които минимизират сумата от квадратите на остатъците. Този вид минимизиране (което е типично за линейната регресия) на тази функция води до набор от нормални уравнения и набор от линейни уравнения с параметри, които се решават, за да се получат оценки на параметрите.

Освен това приемайки, че грешката на популацията обикновено се разпространява, изследователят може да използва тези оценки на стандартните грешки, за да създаде доверителни интервали и да извърши тестване на хипотези относно нейните параметри.

Нелинеен регресионен анализ

Пример, при който функцията не е линейна по отношение на параметрите, показва, че сумата от квадрати трябва да бъде минимизирана с итеративна процедура. Това въвежда много усложнения, които определят разликите между линейните и нелинейните методи на най-малките квадрати. Следователно резултатите от регресионния анализ при използване нелинеен методпонякога непредсказуем.

Изчисляване на мощността и размера на извадката

Тук по правило няма последователни методи по отношение на броя на наблюденията спрямо броя на независимите променливи в модела. Първото правило е предложено от Добра и Хардин и изглежда като N = t^n, където N е размерът на извадката, n е броят на обяснителните променливи, а t е броят наблюдения, необходими за постигане на желаната точност, ако моделът имаше само една обяснителна променлива. Например, изследовател изгражда линеен регресионен модел, използвайки набор от данни, който съдържа 1000 пациенти (N). Ако изследователят реши, че са необходими пет наблюдения за точно определяне на линията (m), тогава максималният брой обяснителни променливи, които моделът може да поддържа, е 4.

Други методи

Въпреки че параметрите на регресионния модел обикновено се оценяват с помощта на метода на най-малките квадрати, има други методи, които се използват много по-рядко. Например, това са следните методи:

  • Байесови методи (например байесовият метод на линейна регресия).
  • Процентна регресия, използвана за ситуации, при които намаляването на процентните грешки се счита за по-подходящо.
  • Най-малките абсолютни отклонения, което е по-стабилно при наличие на отклонения, водещи до квантилна регресия.
  • Непараметрична регресия, изискваща голям брой наблюдения и изчисления.
  • Разстоянието на метриката за обучение, което се научава в търсене на смислена метрика на разстоянието в даденото входно пространство.

Софтуер

Всички основни статистически софтуерни пакети се изпълняват чрез регресионен анализ на най-малките квадрати. просто линейна регресияи множественият регресионен анализ може да се използва в някои приложения за електронни таблици, както и в някои калкулатори. Въпреки че много статистически софтуерни пакети могат да извършват различни видове непараметрична и стабилна регресия, тези методи са по-малко стандартизирани; прилагат различни софтуерни пакети различни методи. Специализиран софтуер за регресия е разработен за използване в области като анализ на проучвания и невроизображения.

Споделете с приятели или запазете за себе си:

Зареждане...