Прогнозиране чрез множествен регресионен модел.

При прогнозните изчисления регресионното уравнение определя прогнозираното стойност като точкова прогноза в , т.е. чрез заместване в регресионното уравнение съответстваща стойност Х.Точковата прогноза обаче очевидно не е реалистична. Следователно, той се допълва от изчисляването на стандартната грешка, и съответно интервална оценка на прогнозната стойност (y*)

За да разберете как се изгражда формулата за определяне на стойностите на средната квадратична грешка, Нека се обърнем към уравнението за регресия на линейната двойка:

По известен начин намираме дисперсията на сдвоения модел на линейна регресия:

(3.29)

Като вземем предвид изразите (3.24) и (3.25), първо записваме:

След прости трансформации най-накрая получаваме:

(3.30)

От тук преминаваме към средната квадратична грешка на сдвоения модел на линейна регресия:

Разглежданата формула е средната квадратична грешка на прогнозираната средна стойност г при дадена стойност характеризира грешката на позицията на регресионната линия. Стандартна стойност на грешката , както се вижда от формулата, достига минимум при , и се увеличава, когато се отдалечава от във всяка посока. С други думи, колкото по-голяма е разликата между и х, толкова по-голяма е грешката с която се предвижда средната стойност гзазададена стойност. Можете да очаквате най-добри прогнозни резултати, ако факторът знак хразположен в центъра на зоната за наблюдение хи не може да се очакват добри резултати при прогнозиране при премахване от . Ако стойността е извън наблюдаваните стойности Х,използвани при конструирането на линейна регресия, тогава прогнозните резултати се влошават в зависимост от това колко се отклонява от зоната на наблюдаваните стойности на фактора х.

За нашия пример ще бъде:

За прогнозираната стойност, 95% доверителни интервали за дадено се определят от израза

За 95% вероятност тогава 26.04.

При , прогнозна стойност гще бъде:

което е точкова прогноза.

Прогнозата на регресионната линия в интервала ще бъде:

Въпреки това действителните стойности приварират около средната стойност. Индивидуални ценности приможе да се отклони от от размера на случайната грешка, дисперсията на която се оценява като остатъчна дисперсияедна степен на свобода . Следователно прогнозираната индивидуална стойност г трябва да включва не само стандартна грешка, но и случайна грешка С.

Средна грешка на предвидената индивидуална стойност г ще бъде:

Според дадения пример получаваме:

Доверителни интервали за прогнозиране на индивидуални стойности гс вероятност от 0,95 ще бъде:, или 141,57, това означава, че.

Интервалът е доста широк, най-вече поради малкия обем на наблюденията.

Когато се прогнозира въз основа на регресионното уравнение, трябва да се помни, че величината на прогнозата зависи не само от стандартната грешка на индивидуалната стойност y,но и върху точността на прогнозиране на стойността на фактора Х.Стойността му може да бъде определена въз основа на анализ на други модели, базирани на конкретна ситуация, както и анализ на динамиката на този фактор.

Разгледаната формула за средна грешка на индивидуалната стойност на признака г може да се използва и за оценка на значимостта на разликата в прогнозираната стойност въз основа на регресионния модел и предложената хипотеза за развитието на събитията.

Да предположим, че в нашия пример с функцията на разходите се приема, че през следващата година, поради стабилизирането на икономиката с продукция от 8 хиляди единици. производствените разходи няма да надвишават 250 милиона рубли. Това наистина ли означава промяна в намерения модел или тази стойност на разходите съответства на регресионния модел?

За да отговорим на този въпрос, намираме точкова прогноза за х= 8, т.е.

Прогнозната себестойност, базирана на икономическата ситуация, е 250,0. За да оценим значимостта на разликата между тези стойности, ние определяме средната грешка на прогнозираната индивидуална стойност:

Нека го сравним със стойността на очакваното намаление на производствените разходи, т.е.

Тъй като се оценява значимостта само на намаляването на разходите, се използва едностранен t-тест на Student. С грешка от 5% с пет степени на свобода. Следователно очакваното намаление на разходите е значително различно от предвиденото от модела при 95% ниво на сигурност. Ако обаче вероятността се увеличи до 99%, с грешка от 1%, действителната стойност на критерия се оказва по-ниска от табличната стойност от 3,365 и разглежданата разлика в размера на разходите не е статистически значима.

Прогнозирането според уравнението на регресията е заместване в уравнението на регресията на съответната стойност х . Такава прогноза Наречен точка.Не е точен, поради което се допълва от изчисляването на стандартната грешка ; Оказва се интервална оценкапрогнозна стойност:

Нека трансформираме регресионното уравнение:

грешката зависи от грешката и грешки на регресионния коефициент b , т.е. .

От теорията на вземането на проби е известно, че .

Използваме остатъчната дисперсия за една степен на свобода S 2 като оценка s 2 , получаваме: .

Грешка на регресионния коефициент от формула (15):

По този начин, при x=x k получаваме:

(31)

Както може да се види от формулата, стойността достига минимум при и нараства с разстояние от всяка посока.

За нашия пример тази стойност ще бъде:

в , При x k = 4

За прогнозирана стойност 95% доверителни интервали за даденост x kопределен от израза:

тези. при x k=4 ±2,57-3,34 или ±8,58. При x k=4 прогнозираната стойност ще бъде

на стр\u003d -5,79 + 36,84 4 \u003d 141,57 - това е точкова прогноза.

Прогнозата на регресионната линия е в интервала: 132.99 150,15.

Разгледахме доверителните интервали за средна стойност придадено Х.Въпреки това действителните стойности при варират около средното , те могат да се отклоняват от размера на случайната грешка д , чиято дисперсия се оценява като остатъчната дисперсия за една степен на свобода S2.Следователно, грешката при прогнозиране на една стойност при трябва да включва не само стандартна грешка, но и случайна грешка С . По този начин средната грешка при прогнозиране на индивидуална стойност гще бъде:

(33)

Например:

Доверителен интервалпрогнозиране на индивидуалните стойности припри x k\u003d 4 с точност 0,95 ще бъде:. 141,57 ±2,57 8,01 или 120,98 ≤ y r ≤ 162,16.

Нека примерът с функцията на разходите приеме, че през следващата година, поради стабилизирането на икономиката, разходите за производство на 8 хиляди единици. продукти няма да надвишава 250 милиона рубли. Това променя ли намерения модел или цената съответства на регресионния модел?

Точкова прогноза: = -5.79 + 36.84 8 = 288.93. Прогнозната стойност е 250. Средна грешкапрогнозна индивидуална стойност:

Сравнете го с очакваното намаление на производствените разходи, т.е. 250-288.93= -38.93:

Тъй като се оценява само значимостта на намаляването на разходите, се използва еднопосочен подход. t~Критерий на ученика. С грешка 5% при n-2=5 t маса=2,015, така че очакваното намаление на разходите е значително различно от прогнозираната стойност при 95% ниво на сигурност. Въпреки това, ако увеличим вероятността до 99%, с грешка от 1%, действителната стойност T-критерият е под табличния 3.365, а разликата в разходите не е статистически значима, т.е. разходите са в съответствие с предложения регресионен модел.

Нелинейна регресия

Досега разгледахме само линеенрегресионен модел при от х (3). В същото време много важни връзки в икономиката са нелинейни.Примери от този вид регресионни моделиса производствени функции(връзката между обема на произведените стоки и основните производствени фактори - труд, капитал и др.) и функцията на търсенето (връзката между търсенето на всеки вид стоки или услуги, от една страна, и доходите и цените за тази и други стоки - с друг).

При анализ на нелинейни регресионни зависимостинай-важният въпрос при прилагането на класическите най-малки квадрати е методът на тяхната линеаризация. В случай на линеаризация на нелинейна зависимост, получаваме линейна регресионно уравнениетип (3), чиито параметри се оценяват по обичайния метод на най-малките квадрати, след което може да се запише първоначалната нелинейна връзка.

Донякъде отделен в този смисъл е полиномиалният модел с произволна степен:

към които конвенционалните най-малки квадрати могат да бъдат приложени без предварителна линеаризация.

Разгледайте тази процедура като приложена към парабола от втора степен:

(35)

Такава зависимост е подходяща, ако за определен диапазон от стойности на фактор нарастващата зависимост се промени в намаляваща или обратно. В този случай е възможно да се определи стойността на фактора, при който се постига максималната или минималната стойност на ефективния признак. Ако първоначалните данни не показват промяна в посоката на връзката, параметрите на параболата стават трудни за интерпретиране и е по-добре да замените формата на връзката с други нелинейни модели.

Използването на най-малките квадрати за оценка на параметрите на парабола от втора степен се свежда до диференциране на сумата от квадратите на регресионните остатъци за всеки от оценените параметри и приравняване на получените изрази към нула. Оказва се системата нормални уравнения, чийто брой е равен на броя на оценените параметри, т.е. три:

(36)

Тази система може да бъде решена по всякакъв начин, по-специално чрез метода на детерминантите.

Екстремната стойност на функцията се наблюдава при стойност на фактора, равна на:

Ако b>0, s<0, има максимум, т.е. зависимостта първо се повишава и след това пада. Такива зависимости се наблюдават в икономиката на труда при изучаване на заплащането на физически работници, когато възрастта действа като фактор. При b<0, с>0 параболата има минимум, който обикновено се проявява в производствените разходи за единица продукция в зависимост от обема на продукцията.

При нелинейни зависимости, които не са класически полиноми, задължително се извършва предварителна линеаризация, която се състои в трансформация на променливи или параметри на модела, или комбинация от тези трансформации. Нека разгледаме някои класове такива зависимости.

Зависимостите от хиперболичен тип имат формата:

(37)

Пример за такава зависимост е кривата на Филипс, която показва обратната връзка между процента на нарастване на заплатите и нивото на безработица. В този случай стойността на параметъра b ще бъде по-голямо от нула. Друг пример за зависимост (37) са кривите на Engel, които формулират следния модел: с увеличаване на дохода делът на дохода, изразходван за храна, намалява, а делът на дохода, изразходван за нехранителни стоки, ще се увеличи. В такъв случай b<0 , а получената характеристика в (37) показва дела на разходите за нехранителни продукти.

Линеаризацията на уравнение (37) се свежда до заместването на фактора z=1/x , а регресионното уравнение има формата (3), в което вместо фактора х използвайте фактора z:

Полулогаритмичната крива се свежда до същото линейно уравнение:

(39)

които могат да се използват за описание на криви на Engel. Тук 1p(x) се заменя с z , и се получава уравнение (38).

Доста широк клас икономически показатели се характеризира с приблизително постоянен темп на относителен растеж във времето. Това съответства на зависимости от експоненциален (експоненциален) тип, които се записват като:

или във формата

Възможна е следната зависимост:

При регресии от тип (40) - (42) се използва същият метод на линеаризация - логаритъм. Уравнение (40) се редуцира до формата:

(43)

Променливо заместване Y= в yго редуцира до линейна форма:

(44)

където . Ако дудовлетворява условията на Гаус-Марков, параметрите на уравнение (40) се оценяват чрез най-малките квадрати от уравнение (44). Уравнение (41) се редуцира до формата:

което се различава от (43) само по формата на свободния член, а линейното уравнение изглежда така:

Y=A+bx+E(46)

където А=вътре а. Настроики НОи bсе получават чрез обичайните най-малки квадрати, тогава параметърът а в зависимост (41) се получава като антилогаритъм НО.При вземане на логаритъм (42) получаваме линейна зависимост:

Y=A+Bx+E(47)

където б=вн b, а останалата част от обозначението е същото като по-горе. Тук LSM също се прилага към трансформираните данни и параметъра b за (42) се получава като антилогаритъм на коефициента AT.

Широка често срещанив практиката на социално-икономическите изследвания властови зависимости. Те се използват за конструиране и анализ на производствени функции. Във функциите на изгледа:

особено ценен е фактът, че параметърът b е равен на коефициента на еластичност на резултантния атрибут по фактора х . Преобразувайки (48) чрез логаритъм, получаваме линейна регресия:

Y=A+bX+E (49)

където Y=вътре г,А=вътре a,X=вътре x, E=вътре ε .

Друг вид нелинейност, сведен до линейна форма, е обратната зависимост:

(50)

Извършване на подмяната и=1/г, получаваме:

(51)

И накрая, трябва да се отбележи зависимостта на логистичния тип:

(52)

Графиката на функция (52) е така наречената "крива на насищане", която има две хоризонтални асимптоти y=0и y=1/aи инфлексна точка x=вътре (b/a), y=1/(2a), както и точката на пресичане с оста y y=1/(a+b):

Уравнение (52) се редуцира до линейна форма чрез промяна на променливите u=1/y, z=e - x.

Всяко нелинейно регресионно уравнение, както и линейна връзка, се допълва от корелационен индикатор, който в този случай се нарича корелационен индекс:

(53)

Ето общата дисперсия ефикасензнак при , остатъчна дисперсия, определена от уравнението на нелинейната регресия. Трябва да се отбележи, че разликите в съответните суми и се вземат не в преобразуваните, а в първоначалните стойности на ефективния атрибут. С други думи, когато се изчисляват тези суми, трябва да се използват не трансформираните (линеаризирани) зависимости, а оригиналните нелинейни регресионни уравнения. По друг начин (53) може да се запише по следния начин:

(54)

Стойност Ре в рамките на 0 ≤ R≤ 1, и колкото по-близко е до единица, толкова по-близка е връзката на разглежданите признаци, толкова по-надеждно е намереното регресионно уравнение. В този случай индексът на корелация съвпада с коефициента на линейна корелация в случай, че трансформацията на променливи с цел линеаризиране на регресионното уравнение не се извършва със стойностите на резултантния атрибут. Такъв е случаят с полулогаритмичната и полиномиалната регресия, както и с равностранната хипербола (37). След като определите коефициента на линейна корелация за линеаризирани уравнения, например в пакета на Excel с помощта на функцията LINEST, можете също да го използвате за нелинейна връзка.

Ситуацията е различна в случая, когато трансформацията се извършва и със стойността при , например вземане на реципрочна стойност на стойност или вземане на логаритъм. След това стойността R,изчислени от същата функция LINEST, ще се отнасят за линеаризираното регресионно уравнение, а не за оригиналното нелинейно уравнение, и стойностите на разликите под сумите в (54) ще се отнасят за трансформираните стойности, а не за оригинални, което не е едно и също. В същото време, както бе споменато по-горе, за да се изчисли Ртрябва да се използва израз (54), изчислен от оригиналното нелинейно уравнение.

Тъй като индексът на корелация се изчислява като се използва съотношението на факториела и общото стандартно отклонение, тогава R2има същото значение като коефициента на детерминация. При специални изследвания стойността R2за нелинейни връзки се нарича индекс на определяне.

Оценката на значимостта на индекса на корелация се извършва по същия начин, както оценката на надеждността на коефициента на корелация.

Индексът на определяне се използва за проверка на значимостта на уравнението на нелинейната регресия като цяло чрез Ф-Критерий на Фишер:

(55)

където н - брой наблюдения, м -брой параметри за променливи х . Във всички разглеждани от нас случаи, с изключение на полиномиалната регресия, м=1, за полиноми (34) m=k, т.е. степени на полинома. Стойност T характеризира броя на степените на свобода за факторното стандартно отклонение, и (p-t-1) -брой степени на свобода за остатъчната RMS.

Индекс на определяне R2 може да се сравни с коефициента на детерминация r2 да се обоснове възможността за използване на линейна функция. Колкото по-голяма е кривина на регресионната линия, толкова по-голяма е разликата между R2 и r2 . Близостта на тези показатели означава, че формата на регресионното уравнение не трябва да бъде сложна и може да се използва линейна функция. На практика, ако стойността (R2-r2)не надвишава 0,1, тогава линейната зависимост се счита за оправдана. В противен случай се прави оценка на значимостта на разликата в показателите за определяне, изчислени от едни и същи данни, чрез T-Критерий на ученика:

Тук в знаменателя е грешката на разликата (R 2 -r 2),определя се по формулата:

Ако t >t таблица (α; n-m-1),тогава разликите между корелационните показатели са значителни и замяната на нелинейната регресия с линейна е неуместна.

В заключение представяме формулите за изчисляване на коефициентите на еластичност за най-често срещаните регресионни уравнения.

Една от централните задачи на иконометричното моделиране е прогнозирането (прогнозирането) на стойностите на зависимата променлива за определени стойности на обяснителните променливи за определени стойности на обяснителните променливи. Тук е възможен двоен подход: или прогнозирайте условното очакване на зависимата променлива ( средна прогноза), или за прогнозиране на някаква специфична стойност на зависимата променлива ( прогнозиране на определена стойност).

Коментирайте.Някои автори разграничават понятия като прогнозиране и прогнозиране. Ако стойността на обяснителната променлива хе известно точно, тогава оценката на зависимата променлива YНаречен прогноза. Ако стойността на обяснителната променлива хне се знае точно, тогава казват какво се прави прогнозастойности Y. Тази ситуация е характерна за динамичните редове. В този случай няма да правим разлика между прогноза и прогноза.

Разграничете точкаи интервалпрогнозиране. В първия случай оценката е определено число; във втория случай това е интервалът, съдържащ истинската стойност на зависимата променлива с дадено ниво на значимост.

а) Прогноза за средна стойност. Нека бъде конструирано сдвоеното регресионно уравнение, въз основа на което е необходимо да се предскаже условното математическо очакване . В този случай стойността е точкова оценка . Тогава естествено възниква въпросът доколко стойността на модела, изчислена чрез емпиричното уравнение, може да се отклони от съответното условно математическо очакване. Отговорът на този въпрос се дава на базата на интервални оценки, конструирани с дадено ниво на значимост a за всяка конкретна стойност xpобяснителна променлива.

Записваме емпиричното регресионно уравнение във формата

Тук се разграничават два независими компонента: средно и увеличение. От това следва, че дисперсията ще бъде равна на

От теорията за вземане на проби знаем това

Използвайки като оценка s 2 остатъчната дисперсия С 2, получаваме



Дисперсията на регресионния коефициент, както вече беше показано

Замествайки намерените дисперсии в (5.41), получаваме

. (5.56)

По този начин формулата за изчисление стандартната грешка на регресионно предвидената средна стойност Yима формата

. (5.57)

Стойността на стандартната грешка, както може да се види от формулата, достига минимум при и се увеличава, когато се отдалечавате от във всяка посока. С други думи, колкото по-голяма е разликата между и, толкова по-голяма е грешката, с която се предвижда средната стойност гза зададена стойност xp. Можете да очаквате най-добри прогнозни резултати, ако стойностите xpразположен в центъра на зоната за наблюдение хи човек не може да очаква добри резултати при прогнозиране, докато се отдалечава от .

Случайна стойност

(5.58)

има разпределение на Стюдънт с брой степени на свобода n= н-2 (в рамките на нормален класически модел). Следователно, според таблицата на критичните точки на разпределението на Стюдънт според необходимото ниво на значимост a и броя на степените на свобода n= н–2 е възможно да се определи критичната точка, удовлетворяваща условието

.

Като вземем предвид (5.46), имаме:

.

Следователно, след някои алгебрични трансформации, получаваме, че доверителният интервал за има формата:

, (5.59)

където пределна грешкад стрима формата

. (5.60)

От формули (5.57) и (5.60) се вижда, че стойността (дължината) на доверителния интервал зависи от стойността на обяснителната променлива xp: когато е минимален и когато се отдалечава xpот стойността на доверителния интервал нараства (фиг. 5.4). По този начин прогнозата за стойностите на зависимата променлива Yспоред регресионното уравнение е оправдано, ако стойността xpобяснителна променлива хне излиза извън обхвата на своите стойности в извадката (и по-точно, толкова по-близо xpда се ). С други думи, екстраполация на регресионната крива, т.е. използването му извън изследвания диапазон от стойности на обяснителната променлива(дори ако е оправдано за въпросната променлива, въз основа на смисъла на проблема, който се решава) може да доведе до значителни грешки..

б) Прогнозиране на индивидуални стойности на зависима променлива. На практика понякога е по-важно да се знае дисперсията Yотколкото неговите средни стойности или доверителни интервали за условни математически очаквания. Това е така, защото действителните стойности Yварират около средната стойност. Индивидуални ценности Yможе да се отклонява от размера на случайната грешка e, дисперсията на която се оценява като остатъчната дисперсия за една степен на свобода С 2. Следователно грешката на прогнозираната индивидуална стойност Yтрябва да включва не само стандартна грешка, но и случайна грешка С. Това ви позволява да дефинирате валидни граници за конкретна стойност. Y.

Нека ни интересува някаква възможна стойност г 0 променлива Yна определена стойност xpобяснителна променлива х. Стойността, предвидена от регресионното уравнение Yпри х=xpе yp. Ако вземем предвид стойността г 0 като случайна променлива Y 0 и yp- като случайна променлива Yp, тогава може да се отбележи, че

,

.

случайни променливи Y 0 и Ypса независими, а оттам и случайната променлива U=Y 0 –Ypима нормално разпределение с

И . (5.61)

Използвайки като s 2 остатъчната дисперсия С 2 , получаваме формулата за изчисление стандартната грешка на индивидуалната Y стойност, предвидена от регресионната линия:

. (5.63)

Случайна стойност

(5.64)

има разпределение на Стюдънт с броя на степените на свобода к=н-2. Въз основа на това е възможно да се изгради доверителен интервал за отделните стойности Yp:

, (5.65)

където пределна грешкад uима формата

. (5.66)

Имайте предвид, че този интервал е по-широк от доверителния интервал за условното очакване (вижте Фигура 5.4).

Пример 5.5.Като използвате данните от примери 5.1-5.3, изчислете 95% доверителен интервал за условното математическо очакване и индивидуалната стойност при xp=160.

Решение.В пример 5.1 беше намерено. Използвайки формула (5.48), намираме граничната грешка за условното очакване

Тогава доверителният интервал за средната стойност при ниво на значимост a=0,05 ще изглежда така

С други думи, средното потребление с доход 160 с вероятност 0,95 ще бъде в интервала (149,8; 156,6).

Нека изчислим границите на интервала, в който най-малко 95% от възможните обеми на потребление ще бъдат концентрирани на нивото на дохода xp=160, т.е. доверителен интервал за индивидуална стойност. Намерете пределната грешка за отделна стойност

Тогава интервалът, в който най-малко 95% от обемите на индивидуалното потребление в дохода ще бъде xp=160 има формата

Лесно се вижда, че той включва доверителен интервал за условната средна консумация. а

ПРИМЕРИ

Пример 5.65.За териториите на областта са дадени данни за 199Х (Таблица 1.1).

2. Изградете уравнение за регресия на линейна двойка гна хи да оцени статистическата значимост на регресионните параметри. Направете рисунка.

3. Оценете качеството на регресионното уравнение, като използвате коефициента на детерминация. Проверете качеството на регресионното уравнение с Е- Критерий на Фишер.

4. Изпълнете прогноза за заплатите гс прогнозната стойност на средния жизнен минимум на човек х, което е 107% от средното ниво. Оценете точността на прогнозата, като изчислите грешката на прогнозата и нейния доверителен интервал за ниво на значимост a=0,05. За заключение.

Решение

1. За определяне на степента на близост на връзката обикновено се използва коефициент на корелация:

където , са извадковите дисперсии на променливите хи г. За да изчислим коефициента на корелация, изграждаме изчислителна таблица (Таблица 5.4):

Таблица 5.4

х г xy x2 y2 д 2
148,77 -15,77 248,70
152,45 -4,45 19,82
157,05 -23,05 531,48
149,69 4,31 18,57
158,89 3,11 9,64
174,54 20,46 418,52
138,65 0,35 0,13
157,97 0,03 0,00
144,17 7,83 61,34
157,05 4,95 24,46
146,93 12,07 145,70
182,83 -9,83 96,55
Обща сума 1574,92
Означава 85,58 155,75 13484,00 7492,25 24531,42

Според таблицата намираме:

, , , ,

, , , ,

, .

По този начин, между заплатите (y) и средния жизнен минимум на глава от населението (x) има пряка доста силна връзка .

За ставка статистическа значимост на корелационния коефициентизчисляване на двустранните t-тест на Стюдънт:

който има разпределение на Стюдънт с к=н–2 и ниво на значимост a. В нашия случай

и .

Тъй като , тогава коефициентът на корелация се различава значително от нула.

За значим коефициент може да се конструира доверителен интервал, което с дадена вероятност съдържа неизвестен общ коефициент на корелация. За изграждане на интервална оценка (за малки проби н<30), используют Z-трансформация на Фишер:

Разпределение zвече на малък не приблизително нормално разпределение със средна стойност и дисперсия. Следователно, първо изградете доверителен интервал за M[ z] и след това направете обратното z-преобразуване. Прилагане z-преобразуване за намерения коефициент на корелация, получаваме

Доверителен интервал за M( z) ще изглежда така

,

където T g се намира с помощта на функцията на Лаплас F( T g)=g/2. За g=0,95 имаме T g=1,96. Тогава

или . Обратен z- трансформацията се извършва по формулата

В резултат на това намираме

.

В посочените граници при ниво на значимост 0,05 (с надеждност 0,95) се заключава общият коефициент на корелация r.

2. Така между променливите хи гима значителна корелация. Приемаме, че тази зависимост е линейна. Моделът на сдвоената линейна регресия има формата

,

където г- зависима променлива (резултатен знак), х- независима (обяснителна) променлива, e - случайни отклонения, b 0 и b 1 - регресионни параметри. Въз основа на извадка с ограничен размер може да се състави емпирично регресионно уравнение:

където b 0 и b 1 – емпирични регресионни коефициенти. За да се оценят параметрите на регресията, обикновено се използва метод на най-малките квадрати (MNC). Според OLS, сумата от квадратните отклонения на действителните стойности на зависимата променлива гот теорията беше минимален:

,

където отклонения y iот изчислената регресионна линия. Необходимо условие за съществуването на минимум на функция от две променливи е равенството на нула на нейните частни производни по отношение на неизвестни параметри b 0 и bедин . В резултат на това получаваме система от нормални уравнения:

Решавайки тази система, намираме

, .

Според таблицата намираме

Получено регресионно уравнение:

Параметър b 1 се обади регресионен коефициент. Стойността му показва средната промяна в резултата с промяна на коефициента с една единица. В разглеждания случай, с увеличение на минимума на глава от населението с 1 rub. средната дневна заплата се увеличава средно с 0,92 рубли .

,

където Есе подчинява на разпределението на Фишер с ниво на значимост a и степени на свобода к 1 =1 и к 2 =н-2. В нашия случай

.

Тъй като критичната стойност на критерия е

и , тогава се признава статистическата значимост на конструираното регресионно уравнение. Имайте предвид, че за линейния модел Е- и T-критериите са свързани чрез равенство, което може да се използва за проверка на изчисленията.

4. Получените оценки на регресионното уравнение ни позволяват да го използваме за прогнозиране. Прогнозна стойност ypсе определя чрез заместване на съответната (предсказуема) стойност в регресионното уравнение (1.16) xp

ЛЕКЦИЯ 5 99

§5.2. Анализ на точността на оценките на регресионните коефициенти 99

5.2.1. Оценяване на дисперсията на случайно отклонение 99

5.2.2. Проверка на хипотези относно регресионни коефициенти 100

5.2.3. Интервална оценка на регресионните коефициенти 103

§5.3. Качествени показатели на регресионното уравнение 104

5.3.1. Коефициент на определяне 104

5.3.2. Проверка на общото качество на регресионното уравнение: F-тест 106

5.3.3. Проверка на общото качество на регресионното уравнение: t-тест 108

§5.4. Интервали на регресионна прогноза 108

Приложение на линейната регресия в прогнозирането

Прогнозирането е независим клон на науката, който се използва широко във всички сфери на човешката дейност. Има голямо разнообразие от видове и методи за прогнозиране, разработени, като се вземе предвид естеството на разглежданите задачи, целите на изследването и състоянието на информацията. На тези въпроси са посветени много книги и статии в списания. Използвайки примера на линейната регресия, ще покажем използването на иконометрични модели при прогнозиране на стойностите на икономическите показатели.

В обикновения смисъл прогнозата е прогноза за бъдещото състояние на обект или явление, което ни интересува, въз основа на ретроспективни данни за миналото и настоящето състояние, при условие че има причинно-следствена връзка между миналото и бъдещето. Можем да кажем, че прогнозата е предположение, подкрепено със знания. Тъй като прогнозните оценки по своята същност са приблизителни, може изобщо да има съмнение относно тяхната целесъобразност. Следователно основното изискване за всяка прогноза е да се минимизират грешките в съответните оценки доколкото е възможно. В сравнение със случайните и интуитивни прогнози, научно обоснованите и систематично разработени прогнози несъмнено са по-точни и ефективни. Точно такива са прогнозите, базирани на използването на методи за статистически анализ. Може да се твърди, че от всички методи за прогнозиране те вдъхват най-голямо доверие, първо, защото статистическите данни служат като надеждна основа за вземане на решения за бъдещето, и второ, такива прогнози се разработват и щателно тестват с помощта на фундаменталните методи на математическа статистика.

Оценката на параметрите на линейната регресия е прогнозиране на истинските стойности на тези параметри въз основа на статистически данни. Получените прогнози се оказват доста ефективни, тъй като са безпристрастни оценки на истинските параметри.

Ние прилагаме линейния регресионен модел (8.2.4) с намерените параметри (8.2.8) и (8.2.9), за да определим обяснителната променлива за някакъв набор от ненаблюдавани стойности на обяснителната променлива. По-точно, нека поставим проблема за прогнозиране на средната стойност, съответстваща на някаква стойност на обяснителната променлива, която не съвпада с никоя стойност. В този случай той може да лежи както между примерни наблюдения и извън интервала. Стойността на прогнозата може да бъде точкова или интервална. Ние се ограничаваме до разглеждане на точкова прогноза, т.е. желаната стойност е дефинирана във формата

където са наблюдаваните стойности на случайната променлива и са коефициентите (тегла), които трябва да бъдат избрани така, че да бъде най-доброто линейно безпристрастно предсказание, т.е. да се

От (8.5.1) за наблюдаваните стойности

Тъй като по свойството на математическото очакване ((2.5.4) - (2.5.5))

,

Но тъй като от дясната страна под оператора за очакване има само постоянни числа, тогава

Като се има предвид връзката, сега можем да кажем каква ще бъде безпристрастната линейна прогноза за ако и само ако

Следователно всеки вектор, който удовлетворява условията (8.5.2), прави израз (8.5.1) безпристрастно линейно предсказване на стойността. Следователно е необходимо да се намери конкретен израз за теглата по отношение на известните ни количества. За да направим това, ние решаваме проблема за минимизиране на дисперсията на количеството:

Тъй като има постоянни числа под оператора на дисперсия в първия член от дясната страна на уравнението, тогава

Като се вземат предвид предположения b) и c) и се използват дисперсионните свойства (2.5.4) и (2.5.6), имаме:

където е стандартното отклонение на случайната променлива.

Нека съставим оптимизационния проблем за минимизиране на дисперсията с ограничения (8.5.2):

под ограничения

Тъй като множителят не зависи и не влияе на минималната стойност на целевата функция, ние конструираме функцията на Лагранж (виж (2.3.8)), както следва:

където и са множителите на Лагранж. Необходимите условия за оптималност на точка имат формата (виж (2.3.9)):

(8.5.3)

Сумирайки първото уравнение върху , като вземем предвид второто уравнение, получаваме:

От тук намираме множителя на Лагранж

където е средната стойност на случайната променлива. Отново заместваме получената стойност в първото уравнение на системата (8.5.3) и намираме

Прогнозирането с помощта на модел на множествена линейна регресия включва оценка на очакваните стойности на зависимата променлива, като се имат предвид стойностите на независимите променливи, включени в регресионното уравнение. Има точкови и интервални прогнози.

Точкова прогноза е изчислената стойност на зависимата променлива, получена чрез заместване на прогнозните (посочени от изследователя) стойности на независимите променливи в уравнението на множествената линейна регресия. Ако са дадени стойности, тогава прогнозираната стойност на зависимата променлива (точкова прогноза) ще бъде равна на

Интервална прогноза са минималната и максималната стойност на зависимата променлива между

което пада с дадена вероятност и за дадени стойности на независими променливи.

Интервалната прогноза за линейна функция се изчислява по формулата

където T T е теоретичната стойност на критерия на Стюдънт за df=n- – t– 1 степен на свобода; с y е стандартната грешка на прогнозата, изчислена по формулата

(2.57)

където х– матрица на началните стойности на независими променливи; х pr - матрица-колона от прогнозни стойности на независими променливи на формата

Нека намерим прогнозираните стойности на данъчните постъпления (пример 2.1), при условие че връзката между показателите е описана от уравнението

Нека зададем прогнозни стойности на независими променливи:

  • – брой служители Xj: 500 хиляди души;
  • – обем на пратката в производствените отрасли х 2: 65 000 милиона рубли;
  • – производство на енергия х3:15 000 млн. руб.

Нека намерим точковата и интервалната прогноза за данъчните постъпления.

За дадените стойности на независимите променливи средните данъчни приходи ще бъдат

Векторът на прогнозните стойности на независимите променливи ще изглежда така

Прогнозната грешка, изчислена по формула (2.57), е 5556,7. Таблична стойност на t-критерия с броя на степените на свобода df = 44 и нивото на значимост a = 0,05 е равно на 2,0154. Следователно прогнозираните стойности на данъчните постъпления ще бъдат в рамките на 0,95 с вероятност от:

от 18 013,69 – 2,0154-5556,7=6814,1 милиона рубли;

до 18 013,69 + 2,0154-5556,7=29 212 милиона рубли

Прогнозирането чрез нелинейни модели на множествена регресия може също да се извърши с помощта на формули (2.55)–(2.57), като преди това тези модели са линеаризирани.

Мултиколинеарност на данните

При конструирането на иконометричен модел се приема, че независимите променливи влияят върху зависимите изолирано, т.е. влиянието на една променлива върху резултантния атрибут не е свързано с влиянието на други променливи. В реалната икономическа реалност всички явления са свързани до известна степен, така че е почти невъзможно да се постигне това предположение. Наличието на връзка между независими променливи води до необходимостта от оценка на влиянието й върху резултатите от корелационно-регресионния анализ.

Съществуват функционални и стохастични връзки между обяснителните променливи. В първия случай се говори за грешки в спецификацията на модела, които трябва да бъдат коригирани.

Функционална връзка възниква, ако регресионното уравнение включва по-специално всички променливи, включени в идентичността като обяснителни променливи. Например, можем да кажем, че доходът Y е сумата от потреблението C и инвестициите азт.е. идентичността е валидна. Приемаме, че нивото на лихвените проценти r зависи от дохода, т.е. Общият модел може да бъде представен като

Неопитен изследовател, който желае да подобри модела, може също да включи променливите "потребление" и "инвестиция" в уравнението, което ще доведе до функционална връзка между обяснителните променливи:

Функционална връзка на колоните на матрицата хще доведе до невъзможност за намиране на уникално решение на уравнението

регресия, защото , и намиране на обратното

матрица включва разделяне на алгебричните допълнения на матрица на нейната детерминанта, която е дадена

в противен случай ще бъде равно на нула.

По-често има стохастична връзка между обяснителните променливи, което води до намаляване на

детерминантни стойности на матрицата: колкото по-силна е връзката,

толкова по-малка е детерминантата. Това води до увеличаване не само на оценките на параметрите, получени с помощта на LSM, но и на техните стандартни грешки, които се изчисляват по формула (2.24):

който, както виждаме, също използва матрица. Може да съществува корелация между две обяснителни променливи ( взаимовръзка) и между няколко (мултиколинеарност).

Има няколко признака, които показват наличието на мултиколинеарност. По-специално, тези признаци са:

  • са признаци на регресионни коефициенти, които не отговарят на икономическата теория. Например знаем, че обяснителната променлива хима пряко въздействие върху обяснената променлива y, като в същото време коефициентът на регресия за тази променлива е по-малък от нула;
  • – съществени изменения в параметрите на модела с леко намаляване (увеличаване) на обема на изследваната съвкупност;
  • – незначимостта на регресионните параметри, поради високите стойности на стандартните грешки на параметрите.

Наличието на корелация между независими променливи може да бъде разкрито с помощта на индикатори за корелация между тях, по-специално с помощта на сдвоени корелационни коефициенти r XiX, което може да се запише като матрица

(2.58)

Коефициентът на корелация на променлива със себе си е равен на единица xx = 1), а коефициентът на корелация на променливата *, с променливата *, ■ е равен на коефициента на корелация на променливата XjCпроменлива X, x x =r x x ). Следователно тази матрица е симетрична, така че в нея са посочени само главният диагонал и елементите под него:

Високите стойности на сдвоените коефициенти на линейна корелация показват наличието на интеркорелация, т.е. линейна връзка между две обяснителни променливи. Колкото по-висока е стойността, толкова по-висока е взаимовръзката. Тъй като е практически невъзможно да се избегне липсата на връзки между обяснителните променливи при изграждането на модели, има следната препоръка относно включването на две променливи в модела като обяснителни променливи. И двете променливи могат да бъдат включени в модела, ако отношенията

тези. тясността на връзката между резултантните и обяснителните променливи е по-голяма от тясността на връзката между обяснителните променливи.

Наличието на мултиколинеарност може да се потвърди чрез намиране на детерминантата на матрицата (2.58). Ако връзката между независимите променливи напълно липсва, тогава недиагоналните елементи ще бъдат равни на нула, а детерминантата на матрицата ще бъде равна на единица. Ако връзката между независимите променливи е близка до функционалната (т.е. тя е много близка), тогава детерминантата на матрицата yxr ще бъде близка до нула.

Друг метод за измерване на мултиколинеарността е следствие от анализа на формулата за стандартната грешка на регресионния коефициент (2.28):

Както следва от тази формула, стандартната грешка ще бъде толкова по-голяма, колкото по-малка е стойността, която се нарича фактор на инфлация на дисперсията (илидисперсионен коефициент на издухване ) VIF:

където е коефициентът на детерминация, намерен за уравнението на зависимостта на променливата Xjот други променливи, включени в разглеждания модел на множествена регресия.

Тъй като стойността отразява близостта на връзката между променливата Xjи други обяснителни променливи, то всъщност характеризира мултиколинеарност по отношение на тази променлива Xj.При липса на връзка индикаторът VIF X ще бъде равен на (или близо до) единица, укрепването на връзката води до тенденцията на този индикатор към безкрайност. Те смятат, че ако VIF X >3 за всяка променлива *, тогава има мултиколинеарност.

Мултиколинеарният метър също е т.нар показател (номер) на условност матрици. Той е равен на съотношението на максималните и минималните собствени стойности на тази матрица:

Смята се, че ако редът на това съотношение надвишава 10s–106, тогава се получава силна мултиколинеарност.

Нека проверим наличието на мултиколинеарност в нашия пример 2.1. Матрицата на коефициентите на двойна корелация има формата

Може да се отбележи, че връзките между обяснителните променливи са доста близки, особено между променливите Xj и x2; X] и x3, което показва взаимовръзката на тези променливи. По-слаба връзка се наблюдава между променливите x2 и x3. Нека намерим детерминантата на матрицата r^..

Получената стойност е по-близо до нула, отколкото до единица, което показва наличието на мултиколинеарност в обяснителните променливи.

Нека проверим валидността на включването на трите независими променливи в регресионния модел, като използваме правилото (2.59). Сдвоените коефициенти на линейна корелация на зависимите и независимите променливи са

Те са по-големи от показателите за близостта на връзката между независимите променливи, следователно, правилото (2.59) е изпълнено, и трите променливи могат да бъдат включени в регресионния модел.

Нека измерим степента на мултиколинеарност на променливите, използвайки фактора на инфлация на дисперсията ( VIF). За да направите това, е необходимо да изчислите коефициентите на определяне за регресии:

За да направите това, е необходимо да приложите LSM към всяка регресия, да оцените нейните параметри и да изчислите коефициента на детерминация. За нашия пример резултатите от изчислението са както следва:

Следователно факторът на инфлация на дисперсията за всяка независима променлива ще бъде равен на

Всички изчислени стойности не надвишават критичната стойност, равна на три, следователно при изграждането на модел съществуването на връзки между независими променливи може да бъде пренебрегнато.

За намиране на собствените стойности на матрицата (за целите на изчисляване на индекса на условност η (2.60)) е необходимо да се намери решение на характеристичното уравнение

Матрицата за нашия пример изглежда така

и матрицата, чийто модул на детерминантата трябва да бъде приравнен на нула, ще бъде следната:

Характерният полином в този случай ще има четвърта степен, което затруднява ръчното решаване на проблема. В този случай се препоръчва използването на възможностите на компютърната технология. Например в ПЧП EViewsсе получават следните собствени стойности на матрицата:

Следователно индексът на условност η ще бъде равен на

което показва наличието на силна мултиколинеарност в модела.

Методите за елиминиране на мултиколинеарността са както следва.

  • 1. Анализ на връзките между променливите, включени в регресионния модел като обяснителни (независими), за да се изберат само онези променливи, които са слабо свързани помежду си.
  • 2. Функционални трансформации на тясно свързани променливи. Например, приемаме, че приходите от данъци в градовете зависят от броя на жителите и площта на града. Очевидно тези променливи ще бъдат тясно свързани. Те могат да бъдат заменени с една относителна променлива „гъстота на населението“.
  • 3. Ако по някаква причина списъкът на независимите променливи не подлежи на промяна, тогава можете да използвате специални методи за коригиране на модели, за да елиминирате мултиколинеарността: регресия на билото (регресия на билото), метод на главния компонент.

Приложение ръбова регресиявключва коригиране на елементите на главния диагонал на матрицата с някаква произволно зададена положителна стойност τ. Стойността се препоръчва да се вземе от 0,1 до 0,4. N. Draper, G. Smith в своята работа дават един от методите за "автоматичен" избор на стойността на τ, предложен от Hoerl, Kennard и Beldwin:

(2.61)

където Tе броят на параметрите (с изключение на свободния член) в оригиналния регресионен модел; СС e е остатъчната сума на квадратите, получена от оригиналния регресионен модел без корекция за мултиколинеарност; ае колонен вектор от регресионни коефициенти, трансформирани по формулата

(2.62)

където cij- параметър с променлива y, в оригиналния регресионен модел.

След като изберете стойността на τ, формулата за оценка на регресионните параметри ще изглежда така

(2.63)

където азе матрицата на идентичността; х,- матрица на стойностите на независими променливи: първоначална или трансформирана по формулата (2.64); Υ τ е векторът на стойностите на зависимата променлива: първоначална или трансформирана по формула (2.65).

(2.64)

и получената променлива

В този случай, след оценка на параметрите по формула (2.63), е необходимо да се премине към регресия върху оригиналните променливи, като се използват отношенията

Оценките на регресионните параметри, получени с помощта на формула (2.63), ще бъдат предубедени. Въпреки това, тъй като детерминантата на матрицата е по-голяма от детерминантата на матрицата, дисперсията на оценките на регресионните параметри ще намалее, което ще се отрази положително на прогнозните свойства на модела.

Да разгледаме приложението на регресията на гребен, например 2.1. Нека намерим стойността на τ с помощта на формула (2.61). За да направим това, първо изчисляваме вектора на трансформираните регресионни коефициенти, използвайки формулата (2.62):

Продуктът е 1.737-109. Следователно препоръчителното τ ще бъде

След прилагане на формула (2.63) и трансформации по формула (2.66) получаваме регресионното уравнение

Приложение метод на главния компонент включва прехода от взаимозависими променливи x към взаимно независими променливи ζ, които се наричат основен

компоненти. Всеки главен компонент, z, може да бъде представен като линейна комбинация от центрирани (или стандартизирани) обяснителни променливи T:.Спомнете си, че центрирането на променлива включва изваждане от всяка i-та стойност на дадената j-типроменлива на неговата средна стойност:

и стандартизация (мащабиране) е разделянето на израз (2.67) на стандартното отклонение, изчислено за първоначалните стойности на променливата Xj

Тъй като независимите променливи често имат различни измервателни скали, формула (2.68) се счита за по-предпочитана.

Броят на компонентите може да бъде по-малък или равен на броя на оригиналните независими променливи Р.Номер на компонента да семоже да се напише по следния начин:

(2.69)

Може да се покаже, че оценките във формула (2.69) съответстват на елементите да се-собствен вектор на матрицата , където Tе матрица с размер, съдържаща стандартизирани променливи. Номерирането на основните компоненти не е произволно. Първият главен компонент има максимална дисперсия, той съответства на максималната собствена стойност на матрицата; последното е минималната дисперсия и най-малката собствена стойност.

Дял на дисперсията да се-тия компонент в общата дисперсия на независимите променливи се изчислява по формулата

където х k е собствена стойност, съответстваща на този компонент; знаменателят на формула (2.70) съдържа сумата от всички собствени стойности на матрицата.

След изчисляване на стойностите на z компонентите се изгражда регресия с помощта на метода на най-малките квадрати. Зависимата променлива в регресията върху основните компоненти (2.71) трябва да бъде центрирана (стандартизирана) съгласно формули (2.67) или (2.68).

където T y – стандартизирана (центрирана) зависима променлива; са регресионните коефициенти за основните компоненти; са главни компоненти, подредени в низходящ ред на собствените стойности хда се ; δ е случаен остатък.

След оценяване на регресионните параметри (2.71), може да се премине към регресионното уравнение в оригиналните променливи, като се използват изрази (2.67)–(2.69).

Разгледайте приложението на метода на главните компоненти върху данните от Пример 2.1. Обърнете внимание, че матрицата за стандартизираните променливи е в същото време матрица от сдвоени коефициенти на линейна корелация между независими променливи. Той вече е изчислен и е равен на

Намерете собствените стойности и собствените вектори на тази матрица, като използвате PPP прегледи.Получаваме следните резултати.

Собствени стойности на матрицата:

Пропорцията на дисперсията на независимите променливи, отразена от компонентите, беше

Нека комбинираме собствените вектори на матрицата, като ги запишем като колони на матрицата по-долу Е.Те са подредени по низходящи собствени стойности, т.е. първата колона е собственият вектор на максималната собствена стойност и т.н.:

Следователно трите компонента (съответстващи на трите собствени вектора) могат да бъдат записани като

След стандартизиране на първоначалните променливи съгласно формула (2.68) и изчисляване на стойностите на компонентите (по n стойности на всеки компонент) с помощта на най-малките квадрати, намираме параметрите на уравнение (2.71):

В полученото регресионно уравнение само параметърът при първия компонент е значим. Това е естествен резултат, като се има предвид, че този компонент описва 70,8% от вариацията в независимите променливи. Тъй като компонентите са независими, когато някои компоненти са изключени от модела, параметрите на уравнението за други компоненти не се променят. Така имаме регресионно уравнение с един компонент:

Нека трансформираме получения израз в регресия с оригиналните променливи

Така, използвайки метода на главния компонент, получихме регресионното уравнение

Елиминирането на мултиколинеарността с помощта на ридж регресия и метода на главния компонент доведе до известна промяна в параметрите на първоначалната регресия, която имаше формата

Имайте предвид, че тези промени са сравнително малки, което показва ниска степен на мултиколинеарност.

  • Вижте, например, Вучков И., Бояджиева Л., Солаков Е.Приложен регресионен анализ: Пер. от български М.: Финанси и статистика, 1987. С. 110.
  • Дрейпър Н., Смит Г.Указ. оп. С. 514.
Споделете с приятели или запазете за себе си:

Зареждане...