Оценка на параметрите на регресионното уравнение. Уравнение на линейна множествена регресия

Най-често използваният метод за оценка на параметрите на регресионното уравнение е най-малки квадрати (MNK).

Метод на най-малките квадрати дава оценки, които имат най-малката вариация в класа от всички линейни оценкиако са изпълнени предположенията на нормален линеен регресионен модел.

LSM минимизира сумата от квадратните отклонения на наблюдаваните стойности от стойностите на модела .

Съгласно принципа на метода на най-малките квадрати, оценките и се намират чрез минимизиране на сумата от квадратите

за всички възможни стойности и за дадени (наблюдавани) стойности
.

В резултат на прилагането на LSM получаваме формули за изчисляване на параметрите на сдвоения регресионен модел.

(3)

Такова решение може да съществува само ако условието

което е еквивалентно на ненулевата детерминанта на системата нормални уравнения. Всъщност тази детерминанта е

Последното условие се нарича условие за идентификациямодели на наблюдение и означава, че не всички стойности
съвпадат един с друг. Ако това условие е нарушено всичкоточки
, лежат на една и съща вертикална линия

Оценките се наричат оценки на най-малките квадрати . Нека обърнем внимание на получения израз за параметъра. Този израз включва сумите на квадратите, които преди това са участвали в определянето на дисперсията на извадката

и примерна ковариация
така че, в тези условия, параметърът може да се получи така:

=
=
=

=

Оценка на качеството на регресионното уравнение

Качеството на регресионния модел се свързва с адекватността на модела спрямо наблюдаваните (емпирични) данни. Проверката на адекватността (или съответствието) на регресионния модел с наблюдаваните данни се извършва на базата на остатъчен анализ.

След като изградим регресионното уравнение, можем да разделим стойността Y във всяко наблюдение на два компонента - и .

остатък представлява отклонението на действителната стойност на зависимата променлива от стойността на тази променлива, получена чрез изчисление:
(
).

На практика, като правило, има известна дисперсия на точките на корелационното поле спрямо теоретичната регресионна линия, т.е. отклонения на емпиричните данни от теоретичните (
). Големината на тези отклонения е в основата на изчисляването на показателите за качество (адекватност) на уравнението.

При анализ на качеството на регресионния модел се използва основната разпоредба на дисперсионния анализ, според която обща сумаквадратни отклонения на зависимата променлива от средната стойност може да се разложи на два компонента - обяснени и необяснени от уравнението на дисперсионната регресия:

(4)

където - стойности г, изчислено от модела
.

Разделяне на дясната и лявата страна на (4) на

,

.

Коефициент на определяне се определя, както следва:

Коефициент на определяне показва съотношението на вариацията на получената черта, която е под влиянието на изследваните фактори, т.е. определя каква част от вариацията на чертата Y се взема предвид в модела и се дължи на влиянието на факторите върху него.

Колкото по-близо
до 1, толкова по-високо е качеството на модела.

За да оцените качеството на регресионните модели, също е препоръчително да използвате коефициент на множествена корелация (индекс на корелация) R

Този коефициент е универсален, тъй като отразява плътността на връзката и точността на модела и може да се използва за всяка форма на връзка между променливите.

При изграждането на еднофакторен модел той е равен на линейния корелационен коефициент
.

Очевидно е, че колкото по-малко е влиянието на неотчетените фактори, толкова по-добре моделът отговаря на действителните данни.

Също така, за да се оцени качеството на регресионните модели, е препоръчително да се използва средната грешка на приближението:


Колкото по-малка е дисперсията на емпиричните точки около теоретичната регресионна линия, толкова по-малка е средната апроксимационна грешка. Приблизителна грешка под 7% показва добро качество на модела.

След построяването на регресионното уравнение се проверява значимостта на построеното уравнение като цяло и на отделни параметри.

Да се ​​оцени значимостта на регресионното уравнение - това означава да се установи дали математическият модел, изразяващ връзката между Y и X, съответства на действителните данни и дали има достатъчно обяснителни променливи X, включени в уравнението, за да се опише зависимата променлива Y

Оценката на значимостта на регресионното уравнение се прави, за да се установи дали регресионното уравнение е подходящо за практическа употреба (например за прогнозиране) или не. В същото време се излага основната хипотеза за незначимостта на уравнението като цяло, което формално се свежда до хипотезата, че параметрите на регресията са равни на нула или, което е същото, че коефициентът на детерминация е равен до нула:
. Алтернативна хипотеза за значимостта на уравнението е хипотезата, че регресионните параметри не са равни на нула.

За тестове за значимост на модела използвана регресия F-тест на Fisher , изчислен като съотношението на дисперсията на оригиналната серия и безпристрастната дисперсия на остатъчния компонент. Ако изчислената стойност с  1 = k и  2 = (n - k - 1) степени на свобода, където k е броят на факторите, включени в модела, е по-голяма от табличната стойност при дадено ниво на значимост, тогава модел се счита за значим.

За сдвоен регресионен модел:

Като мерки за точност приложете безпристрастна оценка на дисперсията на остатъчния компонент, която е съотношението на сумата от квадратите на нивата на остатъчния компонент към стойността (n-k-1), където k е броят на факторите, включени в модела. Корен квадратен от това количество ( ) е наречен стандартна грешка :

д За сдвоен регресионен модел

Линейната регресия се свежда до намиране на уравнение от формата:

(или
) (3)

Първият израз позволява дадени стойности на фактора х изчислете теоретичните стойности на ефективната характеристика, замествайки действителните стойности на фактора в нея х . На графиката теоретичните стойности лежат на права линия, която е регресионна линия.

Сграда линейна регресиясе свежда до оценка на неговите параметри - а и b . Класическият подход за оценка на параметрите на линейната регресия се основава на метод на най-малките квадрати (LSM).

LSM позволява да се получат такива оценки на параметрите а и b , при което сумата от квадратите на отклоненията на действителните стойности при от теоретично минимум:

, или
(4)

За да се намери минимумът, е необходимо да се изчислят частните производни на сумата (4) за всеки от параметрите - а и b - и ги приравнете към нула.

(5)

Трансформираме, получаваме система от нормални уравнения:

(6)

В тази система н - размер на извадката, сумите се изчисляват лесно от оригиналните данни. Решаваме системата по отношение на а и b , получаваме:

(7)

(8)

Израз (7) може да бъде записан в друга форма:

(9)

където коv(x, y) -ковариация на характеристиките, - факторна дисперсия х .

Параметър b Наречен регресионен коефициент.Стойността му показва средната промяна в резултата с промяна на коефициента с една единица. Възможността за ясна икономическа интерпретация на направения регресионен коефициент линейно уравнениеРегресията по двойки е доста често срещана в иконометричните изследвания.

Формално а - значение при при х=0. Ако х няма и не може да има нулева стойност, тогава такова тълкуване на свободния термин а няма смисъл. Параметър а може да няма икономическо съдържание. Опитите за икономическо тълкуване могат да доведат до абсурд, особено когато а< 0 . Може да се интерпретира само знакът на параметъра а . Ако а > 0 , тогава относителната промяна в резултата е по-бавна от промяната във фактора. Нека сравним тези относителни промени:

при.

Понякога се записва регресионно уравнение на линейна двойка за отклонения от средната стойност:

y′ = b x" , (10)

където
,
. В този случай свободният член е равен на нула, което е отразено в израз (10). Този факт следва от геометрични съображения: същата права линия (3) съответства на уравнението на регресията, но когато се оценява регресията в отклонения, началото на координатите се премества в точката с координати
. В този случай в израз (8) и двете суми ще бъдат равни на нула, което ще доведе до равенството на свободния член на нула.

Да разгледаме, като пример, за група предприятия, произвеждащи един вид продукт, регресионната зависимост на разходите от продукцията y= а + bx + ε.

маса 1

Продуктова продукция хиляди единици ( х)

Производствени разходи, милиони рубли ( г)

х 2

г 2

Системата от нормални уравнения ще изглежда така:

Решавайки го, получаваме a = -5,79,b = 36,84.

Уравнението на регресията изглежда така:

Заместване на стойностите в уравнението х , намерете теоретичните стойности г (последната колона на таблицата).

Стойност а няма икономически смисъл. Ако променливите х и при изразено чрез отклонения от средните нива, тогава регресионната линия на графиката ще минава през началото. Оценката на регресионния коефициент няма да се промени:

, където
,

Като друг пример, помислете за функция на потребление на формата:

C \u003d K y + Л

където ОТ- консумация, при- доходи, К, Л- настроики. Това уравнение на линейна регресия обикновено се използва заедно с уравнението на баланса:

y \u003d C + I - r,

където аз- размера на инвестицията, r- спестявания.

За простота нека приемем, че доходите се изразходват за потребление и инвестиции. Така се разглежда следната система от уравнения:

Наличието на балансово равенство налага ограничения върху стойността на регресионния коефициент, който не може да бъде повече от единица, т.е. Да се≤ 1.

Да предположим, че функцията на потребление е:

Коефициентът на регресия характеризира склонността към потребление. Това показва, че от всяка хиляда рубли доход средно 650 рубли се изразходват за потребление, а 350 рубли. инвестирани. Ако изчислим регресията на размера на инвестицията от дохода, т.е.
, тогава регресионното уравнение ще бъде
. Това уравнение не е необходимо да се дефинира, тъй като е получено от функцията на потреблението. Коефициентите на регресия на тези две уравнения са свързани с равенството:

Ако регресионният коефициент е по-голям от единица, тогава при< С + 1, и не само доходите, но и спестяванията се изразходват за потребление.

Коефициентът на регресия във функцията на потреблението се използва за изчисляване на множителя:

.

Тук m≈ 2,86, така че допълнителната инвестиция е 1 хил. Рубли. за дълго време ще доведе, ceteris paribus, до допълнителен доход от 2,86 хиляди рубли.

При линейната регресия коефициентът на линейна корелация действа като индикатор за стегнатостта на връзката r:

(11)

Стойностите му са в диапазона: 0 < r ≤ 1 . Ако b > 0 , тогава 0 ≤ r ≤ 1 , при b < 0, – 1 ≤ r < 0 . Според примера r\u003d 0,991, което означава много тясна зависимост на производствените разходи от обема на продукцията.

За да оценим качеството на избора на линейна функция, изчисляваме коефициент на детерминациякато квадрат на линейния корелационен коефициент r 2 . Той характеризира съотношението на дисперсията на ефективния признак г , обяснено чрез регресия, обща дисперсияефективен знак:

12

Стойност 1 - r 2 характеризира дела на дисперсията y,причинени от влиянието на други фактори, които не са взети предвид в модела.

В примера σ 2 = 0,092. Уравнението на регресията обяснява 98,2% от дисперсията y,и други фактори представляват 1,8%, това е остатъчната вариация.

Какво е регресия?

Разгледайте две непрекъснати променливи x=(x 1, x 2, .., x n), y=(y 1, y 2, ..., y n).

Нека поставим точките върху 2D точкова диаграма и да кажем, че имаме линейна зависимостако данните са апроксимирани с права линия.

Ако приемем, че гзависи от х, и промените в гпричинени от промени в х, можем да дефинираме регресионна линия (регресия гна х), което най-добре описва праволинейната връзка между тези две променливи.

Статистическата употреба на думата "регресия" идва от феномен, известен като регресия към средната стойност, приписван на сър Франсис Галтън (1889).

Той показа, че докато високите бащи са склонни да имат високи синове, средният ръст на синовете е по-нисък от този на техните високи бащи. Средна височинасиновете „регресираха“ и „се върнаха“ към средния ръст на всички бащи в населението. Така средно високите бащи имат по-ниски (но все още високи) синове, а ниските бащи имат по-високи (но все още доста ниски) синове.

регресионна линия

Математическо уравнение, което оценява проста (по двойки) линия на линейна регресия:

хнаречена независима променлива или предиктор.

Yе зависимата или отговорна променлива. Това е стойността, която очакваме г(средно), ако знаем стойността х, т.е. е предвидената стойност г»

  • а- свободен член (пресичане) на линията за оценка; тази стойност Y, кога х=0(Фиг. 1).
  • b- наклон или градиент на прогнозната линия; това е сумата, с която Yсе увеличава средно, ако увеличим хза една единица.
  • аи bсе наричат ​​регресионни коефициенти на оценената линия, въпреки че този термин често се използва само за b.

Линейната регресия по двойки може да бъде разширена, за да включва повече от една независима променлива; в този случай е известен като множествена регресия.

Фиг. 1. Линия на линейна регресия, показваща пресечната точка на a и наклона b (степента на увеличение на Y, когато x се увеличи с една единица)

Метод на най-малките квадрати

Ние изпълняваме регресионен анализ, използвайки извадка от наблюдения, където аи b- извадкови оценки на истинските (общи) параметри, α и β , които определят линията на линейна регресия в популацията (генерална популация).

Повечето прост методопределящи коефициенти аи bе метод на най-малките квадрати(MNK).

Напасването се оценява чрез отчитане на остатъците (вертикалното разстояние на всяка точка от линията, напр. остатък = видимо г- предсказано г, Ориз. 2).

Линията на най-добро прилягане е избрана така, че сумата от квадратите на остатъците да е минимална.

Ориз. 2. Линия на линейна регресия с изобразени остатъци (вертикална пунктирани линии) за всяка точка.

Предположения за линейна регресия

Така че за всяка наблюдавана стойност остатъкът е равен на разликата и съответната прогнозирана.Всеки остатък може да бъде положителен или отрицателен.

Можете да използвате остатъци, за да тествате следните допускания зад линейната регресия:

  • Остатъците обикновено се разпределят с нулева средна стойност;

Ако предположенията за линейност, нормалност и/или постоянна дисперсия са съмнителни, можем да трансформираме или и изчислим нова линиярегресия, за която тези предположения са изпълнени (например използвайте логаритмична трансформация и т.н.).

Ненормални стойности (отклонения) и точки на влияние

„Влиятелно“ наблюдение, ако е пропуснато, променя една или повече оценки на параметрите на модела (т.е. наклон или пресечна точка).

Отклонение (наблюдение, което противоречи на повечето от стойностите в набора от данни) може да бъде „влиятелно“ наблюдение и може да бъде добре открито визуално, когато се гледа 2D диаграма на разсейване или диаграма на остатъци.

Както за отклонения, така и за "влиятелни" наблюдения (точки) се използват модели, както с тяхното включване, така и без тях, обърнете внимание на промяната в оценката (регресионни коефициенти).

Когато правите анализ, не отхвърляйте автоматично отклоненията или точките на влияние, тъй като простото им игнориране може да повлияе на резултатите. Винаги изучавайте причините за тези отклонения и ги анализирайте.

Хипотеза за линейна регресия

При конструиране на линейна регресия се проверява нулевата хипотеза, че общият наклон на линията на регресия β е равен на нула.

Ако наклонът на линията е нула, няма линейна връзка между и: промяната не засяга

За да тествате нулевата хипотеза, че истинският наклон е нула, можете да използвате следния алгоритъм:

Изчислете тестовата статистика, равна на съотношението , което се подчинява на разпределение със степени на свобода, където стандартната грешка на коефициента


,

- оценка на дисперсията на остатъците.

Обикновено, ако достигнатото ниво на значимост е нулевата хипотеза се отхвърля.


където е процентната точка на разпределението със степени на свобода, което дава вероятността за двустранен тест

Това е интервалът, който съдържа общия наклон с вероятност от 95%.

За големи извадки, да кажем, че можем да направим приближение със стойност от 1,96 (т.е. тестовата статистика ще има тенденция да нормална дистрибуция)

Оценка на качеството на линейната регресия: коефициент на детерминация R 2

Поради линейната връзка и ние очакваме това да се променя с промените и ние наричаме това вариацията, която се дължи или се обяснява с регресията. Остатъчната вариация трябва да бъде възможно най-малка.

Ако е така, тогава по-голямата част от вариацията ще се обясни с регресията и точките ще лежат близо до линията на регресия, т.е. линията пасва добре на данните.

Пропорцията на общата дисперсия, която се обяснява с регресията, се нарича коефициент на детерминация, обикновено изразен като процент и означен R2(при сдвоена линейна регресия това е стойността r2, квадрат на корелационния коефициент), ви позволява субективно да оцените качеството на регресионното уравнение.

Разликата е процентът на дисперсията, който не може да се обясни с регресия.

Без официален тест за оценка, ние сме принудени да разчитаме на субективна преценка, за да определим качеството на съответствие на регресионната линия.

Прилагане на регресионна линия към прогноза

Можете да използвате регресионна линия, за да предвидите стойност от стойност в рамките на наблюдавания диапазон (никога не екстраполирайте извън тези граници).

Ние предвиждаме средната стойност за наблюдаеми, които имат определена стойност, като заместваме тази стойност в уравнението на регресионната линия.

Така че, ако прогнозираме като Ние използваме тази прогнозирана стойност и нейната стандартна грешка за оценка доверителен интервалза вярно среден размерв населението.

Повтарянето на тази процедура за различни стойности ви позволява да изградите граници на доверие за този ред. Това е лента или област, която съдържа истинска линия, например, с 95% ниво на сигурност.

Прости планове за регресия

Простите регресионни проекти съдържат един непрекъснат предиктор. Ако има 3 случая с предикторни стойности P, като 7, 4 и 9, и дизайнът включва ефект от първи ред P, тогава проектната матрица X ще бъде

а регресионно уравнениеизползването на P за X1 изглежда така

Y = b0 + b1 P

Ако прост регресионен план съдържа ефекта по-висок редза P, като квадратичен ефект, тогава стойностите в колона X1 в проектната матрица ще бъдат повдигнати на втора степен:

и уравнението ще приеме формата

Y = b0 + b1 P2

Сигма-ограничените и свръхпараметризираните методи за кодиране не се прилагат за прости регресионни дизайни и други дизайни, съдържащи само непрекъснати предиктори (защото просто няма категорични предиктори). Независимо от избрания метод на кодиране, стойностите на непрекъснатите променливи се увеличават с подходящата мощност и се използват като стойности за X променливите. В този случай не се извършва преобразуване. Освен това, когато описвате регресионни планове, можете да пропуснете разглеждането на плановата матрица X и да работите само с регресионното уравнение.

Пример: Прост регресионен анализ

Този пример използва данните, предоставени в таблицата:

Ориз. 3. Таблица с изходни данни.

Данните се основават на сравнение на преброяванията от 1960 г. и 1970 г. в 30 произволно избрани окръга. Имената на окръгите са представени като имена на наблюдения. Информацията за всяка променлива е представена по-долу:

Ориз. 4. Таблица със спецификации на променливи.

Цел на изследването

За този пример ще бъде анализирана връзката между нивото на бедност и силата, която предсказва процента на семействата, които са под прага на бедността. Следователно ще третираме променлива 3 (Pt_Poor ) като зависима променлива.

Може да се изложи една хипотеза: изменението на населението и процента на семействата, които са под прага на бедността, са свързани. Изглежда разумно да се очаква, че бедността води до изтичане на населението, следователно би имало отрицателна корелация между процента на хората под прага на бедността и изменението на населението. Следователно ще третираме променлива 1 (Pop_Chng) като променлива за прогнозиране.

Преглед на резултатите

Коефициенти на регресия

Ориз. 5. Коефициенти на регресия Pt_Poor върху Pop_Chng.

В пресечната точка на реда Pop_Chng и Param. нестандартизираният коефициент за регресията на Pt_Poor върху Pop_Chng е -0,40374. Това означава, че за всяка единица намаление на населението има увеличение на нивото на бедност от 0,40374. Горната и долната (по подразбиране) 95% доверителни граници за това не са стандартизиран коефициентне включват нула, така че коефициентът на регресия е значим на ниво p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Разпределение на променливите

Коефициентите на корелация могат да станат значително надценени или подценени, ако има големи отклонения в данните. Нека разгледаме разпределението на зависимата променлива Pt_Poor по окръг. За да направим това, ще изградим хистограма на променливата Pt_Poor.

Ориз. 6. Хистограма на променливата Pt_Poor.

Както можете да видите, разпределението на тази променлива се различава значително от нормалното разпределение. Въпреки това, въпреки че дори два окръга (двите две колони) имат по-висок процент семейства, които са под прага на бедността, отколкото се очаква при нормално разпределение, те изглеждат „в рамките на диапазона“.

Ориз. 7. Хистограма на променливата Pt_Poor.

Тази преценка е донякъде субективна. Основното правило е, че отклоненията трябва да се вземат предвид, ако едно наблюдение (или наблюдения) не попадат в интервала (средно ± 3 пъти стандартното отклонение). В този случай си струва да повторите анализа със и без извънредни стойности, за да сте сигурни, че те нямат сериозен ефект върху корелацията между членовете на популацията.

Точкова диаграма

Ако една от хипотезите е a priori за връзката между дадените променливи, тогава е полезно да я проверите върху диаграмата на съответната диаграма на разсейване.

Ориз. 8. Точкова диаграма.

Точковата диаграма показва ясна отрицателна корелация (-.65) между двете променливи. Той също така показва 95% доверителен интервал за регресионната линия, т.е. с 95% вероятност регресионната линия минава между двете пунктирани криви.

Критерии за значимост

Ориз. 9. Таблица, съдържаща критериите за значимост.

Тестът за регресионния коефициент Pop_Chng потвърждава, че Pop_Chng е тясно свързан с Pt_Poor, p<.001 .

Резултат

Този пример показа как да се анализира прост регресионен план. Представена е и интерпретация на нестандартизирани и стандартизирани регресионни коефициенти. Обсъжда се значението на изучаването на разпределението на отговора на зависимата променлива и се демонстрира техника за определяне на посоката и силата на връзката между предиктора и зависимата променлива.

100 rбонус за първа поръчка

Изберете вида работа Дипломна работа Курсова работа Реферат Магистърска теза Доклад от практика Статия Доклад Преглед Тестова работа Монография Решаване на проблеми Бизнес план Отговори на въпроси Творческа работа Есе Рисуване Композиции Превод Презентации Въвеждане на текст Друго Повишаване на уникалността на текста Кандидатска теза Лабораторна работа Помощ по- линия

Попитайте за цена

При оценката на параметрите на регресионното уравнение се използва методът на най-малките квадрати (LSM). В този случай се правят определени предпоставки по отношение на случайния компонент e. В модела случайният компонент e е ненаблюдаема величина. След като параметрите на модела са оценени, изчисляването на разликата между действителните и теоретичните стойности на ефективната характеристика y , можем да определим оценки на случайния компонент. Тъй като те не са реални случайни остатъци, те могат да се разглеждат като някаква селективна реализация на неизвестния остатък на даденото уравнение, т.е.

Когато спецификацията на модела се промени, когато към него се добавят нови наблюдения, извадковите оценки на остатъците ei могат да се променят. Следователно задачата на регресионния анализ включва не само изграждането на самия модел, но и изследването на случайни отклонения ei, т.е. остатъчни стойности.

При използване на тестовете на Fisher и Student се правят допускания за поведението на остатъците ei – остатъците са независими случайни променливи и тяхната средна стойност е 0; те имат една и съща (постоянна) дисперсия и следват нормално разпределение.

Статистическите проверки на регресионните параметри, корелационните показатели се основават на непроверими допускания за разпределението на случайния компонент ei. Те са само предварителни. След построяване на регресионното уравнение се прави проверка за наличие на

оценки ei (случайни остатъци) на тези свойства, които са били приети. Това се дължи на факта, че оценките на регресионните параметри трябва да отговарят на определени критерии. Те трябва да бъдат безпристрастни, последователни и ефективни. Тези свойства на оценките на OLS са от изключително важно практическо значение при използването на регресионни и корелационни резултати.

безпристрастен оценки означава, че средната стойност на остатъците е нула. Ако оценките са безпристрастни, тогава те могат да бъдат сравнени в различни проучвания.

Оценките се вземат предвид ефикасенако имат най-малка дисперсия. В практическите изследвания това означава възможността за преминаване от точкова към интервална оценка.

платежоспособност оценките характеризират увеличаването на тяхната точност с увеличаване на размера на извадката. Голям практически интерес представляват тези регресионни резултати, за които доверителният интервал на очакваната стойност на регресионния параметър bi има граница на стойностите на вероятността, равна на единица. С други думи, вероятността да се получи оценка на дадено разстояние от истинската стойност на параметъра е близка до единица.

Посочените критерии за оценка (непристрастност, последователност и ефективност) задължително се вземат предвид при различните методи на оценка. Методът на най-малките квадрати изгражда регресионни оценки въз основа на минимизиране на сумата от квадратите на остатъците. Следователно е много важно да се изследва поведението на регресионните остатъци ei. Условията, необходими за получаване на безпристрастни, последователни и ефективни оценители, са предпоставките за OLS, които са желателни за получаване на надеждни регресионни резултати.

Изследванията на ei остатъци включват проверка за наличието на следното пет помещения на ОЛС:

1. случаен характер на остатъците;

2. нулева средна стойност на остатъците, независимо от xi;

3. хомоскедастичност - дисперсията на всяко отклонение ei е еднаква за всички стойности на x ;

4. липсата на автокорелация на остатъците - стойностите на остатъците ei се разпределят независимо една от друга;

5. остатъците следват нормално разпределение.

Ако разпределението на случайните остатъци ei не съответства на някои от допусканията на LSM, тогава моделът трябва да бъде коригиран.

На първо място се проверява случайният характер на остатъците ei, което е първата предпоставка на най-малките квадрати. За тази цел се начертава графика на зависимостта на остатъците ei от теоретичните стойности на резултантния признак.

Ако на графиката се получи хоризонтална лента, тогава остатъците ei са случайни променливи и LSM е оправдан, теоретичните стойности приближават добре действителните стойности на y.

Следните случаи са възможни, ако ei зависи от тогава:

1) остатъците ei не са произволни

2) остатъците ei нямат постоянна дисперсия

3) остатъците ei са систематични.

В тези случаи е необходимо или да се приложи друга функция, или да се въведе допълнителна информация и да се престрои регресионното уравнение, докато остатъците ei станат случайни променливи.

Второто допускане на OLS по отношение на нулевата средна стойност на остатъците означава това . Това е възможно за линейни модели и модели, които са нелинейни по отношение на включените променливи.

В същото време безпристрастността на оценките на регресионните коефициенти, получени от LSM, зависи от независимостта на случайните остатъци и стойностите на x, което също се изследва в рамките на втората предпоставка на LSM. За тази цел, заедно с горната графика на зависимостта на остатъците ei от теоретичните стойности на резултантния атрибут, се изгражда графика на зависимостта на случайните остатъци ei от факторите, включени в регресията xj.

Ако остатъците на диаграмата са подредени под формата на хоризонтална лента, тогава те не зависят от стойностите на xj. Ако графиката показва зависимостта на ei и xj, тогава моделът е неадекватен. Причините за неадекватността могат да бъдат различни. Възможно е третата предпоставка на най-малките квадрати да е нарушена и дисперсията на остатъците да не е постоянна за всяка стойност на фактора xj. Спецификацията на модела може да е неправилна и трябва да въведете

допълнителни условия от xj, например. Натрупването на точки в определени области на стойностите на фактора xj показва наличието на систематична грешка в модела.

Допускането за нормално разпределение на остатъците позволява тестване на регресионни и корелационни параметри с помощта на F- и t-тестове. В същото време регресионните оценки, получени с помощта на метода на най-малките квадрати, имат добри свойства дори при липса на нормално разпределение на остатъците, т.е. в нарушение на петата предпоставка на най-малките квадрати.

Абсолютно необходимо за получаване на последователни оценки на регресионните параметри от метода на най-малките квадрати е спазването на третата и четвъртата предпоставка.

Третата предпоставка за OLS изисква дисперсията на остатъците да бъде хомоскедастичен. Това означава, че за всяка стойност на фактора xj остатъците ei имат същата дисперсия. Ако това условие за прилагане на LSM не е изпълнено, тогава имаме хетероскедастичност. Наличието на хетероскедастичност може ясно да се види от корелационното поле:

1. Дисперсията на остатъците нараства с нарастване на x.

Тогава имаме следната форма на хетероскедастичност: голяма дисперсия ei за големи стойности

2. Дисперсията на остатъците достига максималната си стойност при средните стойности на x и намалява при минималните и максималните стойности.

Тогава имаме следната форма на хетероскедастичност: голяма дисперсия ei за средни стойности и малка дисперсия ei за малки и големи стойности

3. Максималната дисперсия на остатъците е при малки стойности на x и дисперсията на остатъците е еднаква, когато x нараства.

Тогава имаме следната форма на хетероскедастичност: голяма дисперсия ei за малки стойности на , намаляване на дисперсията на остатъците ei като

При изграждането на регресионни модели е изключително важно да се спазва четвъртата предпоставка на LSM - липсата на автокорелация на остатъците, т.е. стойностите на остатъците ei се разпределят независимо една от друга.

Автокорелация на остатъците означава наличието на корелация между остатъците от текущите и предишни (последващи) наблюдения. Коефициентът на корелация между ei и ej, където ei са остатъците от текущите наблюдения, ej са остатъците от предишни наблюдения (например j=i-1), може да се дефинира като:

т.е. според обичайната формула на линейния корелационен коефициент. Ако този коефициент се окаже значително различен от нула, тогава остатъците са автокорелирани и функцията на плътност на вероятността F(e) зависи от j -та точка на наблюдение и от разпределението на остатъчните стойности в други точки на наблюдение.

Липсата на автокорелация на остатъците осигурява последователност и ефективност на оценките на регресионните коефициенти. Особено важно е да се спазва тази предпоставка на LSM при конструирането на регресионни модели за времеви редове, където поради наличието на тенденция следващите нива на динамичния ред като правило зависят от предишните си нива.

Ако основните предпоставки не са изпълнени, LSM трябва да коригира модела, като промени спецификацията му, добави (изключи) някои фактори, трансформира първоначалните данни, за да получи оценки на регресионните коефициенти, които имат свойството на безпристрастност, имат по-малък остатъчна дисперсия и следователно осигуряват по-ефективен статистически тест за значимостта на регресионните параметри.

Регресионното уравнение винаги се допълва с индикатор за плътността на връзката. Когато се използва линейна регресия, коефициентът на линейна корелация r yt действа като такъв индикатор. Съществуват различни модификации на формулата за коефициента на линейна корелация.

Трябва да се има предвид, че стойността на коефициента на линейна корелация оценява близостта на връзката на разглежданите признаци в неговата линейна форма. Следователно близостта на абсолютната стойност на коефициента на линейна корелация до нула не означава, че няма връзка между характеристиките.

За да се оцени качеството на избора на линейна функция, се изчислява квадратът на коефициента на линейна корелация r yt 2, наречен коефициент на детерминация. Коефициентът на детерминация характеризира съотношението на дисперсията на резултантния признак y t , обяснена чрез регресия, в общата дисперсия на резултантния признак.

Уравнението на нелинейната регресия, както и в линейната връзка, се допълва от корелационен индикатор, а именно индексът на корелация R.

Парабола от втори ред, подобно на полином от по-висок ред, приема формата на уравнение на множествена регресия, когато е линеаризирана. Ако регресионното уравнение, което е нелинейно по отношение на обясняваната променлива, по време на линеаризацията приеме формата на регресионно уравнение на линейна двойка, тогава може да се използва линеен корелационен коефициент за оценка на тясността на връзката, чиято стойност в този случай ще съвпадне с индекса на корелация.

Ситуацията е различна, когато трансформациите на уравнението в линейна форма са свързани със зависимата променлива. В този случай линейният коефициент на корелация за трансформираните стойности на характеристиките дава само приблизителна оценка на плътността на връзката и не съвпада числено с индекса на корелация. И така, за степенна функция

след преминаване към логаритмично линейното уравнение

lny = lna + blnx

линеен коефициент на корелация може да се намери не за действителните стойности на променливите x и y, а за техните логаритми, т.е. r lnylnx . Съответно, квадратът на неговата стойност ще характеризира съотношението на факториалната сума на квадратните отклонения към общата сума, но не за y, а за неговите логаритми:

Междувременно при изчисляване на индекса на корелация се използват сумите на квадратните отклонения на характеристиката y, а не техните логаритми. За тази цел се определят теоретичните стойности на получената характеристика, т.е. като антилогаритъм на стойността, изчислена от уравнението и остатъчната сума на квадратите като.

Знаменателят на изчислението R 2 yx включва общата сума на квадратните отклонения на действителните стойности y от тяхната средна стойност, а r 2 lnxlny участва в изчислението. Съответно числителите и знаменателите на разглежданите показатели се различават:

  • - в индекса на корелация и
  • - в коефициента на корелация.

Поради близостта на резултатите и простотата на изчисленията с помощта на компютърни програми, коефициентът на линейна корелация се използва широко за характеризиране на плътността на връзката по отношение на нелинейните функции.

Въпреки близостта на стойностите на R и r или R и r в нелинейни функции с трансформацията на стойността на атрибута y, трябва да се помни, че ако с линейна зависимост на атрибутите, същият коефициент на корелация характеризира регресията, трябва да се помни, че ако при линейна зависимост на атрибутите един и същ коефициент на корелация характеризира регресията и двете, и тъй като при криволинейна зависимост за функцията y=j(x), той не е равен към x=f(y) за регресията.

Тъй като съотношението на факториела и общата сума на квадратите на отклоненията се използва при изчисляването на корелационния индекс, то има същото значение като коефициента на детерминация. В специални изследвания стойността за нелинейните зависимости се нарича индекс на определяне.

Извършва се оценка на значимостта на индекса на корелация, както и оценка на надеждността на коефициента на корелация.

Индексът на корелация се използва за тестване на значимостта на цялото нелинейно регресионно уравнение чрез F-теста на Фишер.

Стойността m характеризира броя на степените на свобода за факториалната сума на квадратите, а (n - m - 1) - броя на степените на свобода на остатъчната сума на квадратите.

За степенна функция m = 1 и формулата F - критерият ще приеме същата форма, както при линейна зависимост:

За парабола от втора степен

y = a 0 + a 1 x + a 2 x 2 + em = 2

Изчисляването на F-критерия може също да се извърши в таблицата на дисперсионния анализ на резултатите от регресията, както беше показано за линейната функция.

Индексът на определяне може да се сравни с коефициента на определяне, за да се обоснове възможността за използване на линейна функция. Колкото по-голяма е кривата на регресионната линия, толкова по-малка е стойността на коефициента на детерминация от индекса на детерминация. Близостта на тези показатели означава, че не е необходимо да се усложнява формата на регресионното уравнение и може да се използва линейна функция.

На практика, ако разликата между индекса на детерминация и коефициента на детерминация не надвишава 0,1, тогава приемането на линейна форма на зависимост се счита за оправдано.

Ако t fact>t таблица, тогава разликите между разглежданите корелационни показатели са значителни и замяната на нелинейната регресия с уравнението на линейна функция е невъзможна. На практика, ако стойността t< 2, то различия между R yx и r yx несущественны, и, следовательно, возможно применение линейной регрессии, даже если есть предположения о некоторой нелинейности рассматриваемых соотношений признаков фактора и результата.

Споделете с приятели или запазете за себе си:

Зареждане...