Спецификация на множествени регресионни модели. Множествен регресионен модел

В предишните раздели беше споменато, че избраната независима променлива е малко вероятно да бъде единственият фактор, който ще повлияе на зависимата променлива. В повечето случаи можем да идентифицираме повече от един фактор, който може да повлияе по някакъв начин на зависимата променлива. Така например, разумно е да се предположи, че разходите за работилницата ще се определят от броя на отработените часове, използваните суровини, броя на произведените продукти. Очевидно трябва да използвате всички фактори, които изброихме, за да предвидите разходите на магазина. Може да събираме данни за разходи, отработени часове, използвани суровини и др. на седмица или на месец Но ние няма да можем да изследваме естеството на връзката между разходите и всички други променливи с помощта на корелационна диаграма. Нека започнем с предположенията за линейна връзка и само ако това предположение е неприемливо, ще се опитаме да използваме нелинеен модел. Линеен модел за множествена регресия:

Вариацията в y се обяснява с вариацията във всички независими променливи, които в идеалния случай трябва да са независими една от друга. Например, ако решим да използваме пет независими променливи, тогава моделът ще бъде както следва:

Както в случая на проста линейна регресия, получаваме оценки за извадката и т.н. най-добрата линияза вземане на проби:

Коефициентът a и регресионните коефициенти се изчисляват, като се използва минималната сума на квадратите на грешките. За да доразвиете регресионния модел, използвайте следните допускания относно грешката на дадена

2. Дисперсията е равна и еднаква за всички x.

3. Грешките са независими една от друга.

Тези предположения са същите като в случая на проста регресия. В случая обаче те водят до много сложни изчисления. За щастие извършването на изчисленията ни позволява да се съсредоточим върху тълкуването и оценката на торовия модел. В следващия раздел ще дефинираме стъпките, които трябва да се предприемат в случай на множествена регресия, но във всеки случай разчитаме на компютъра.

СТЪПКА 1. ПОДГОТОВКА НА ИЗХОДНИ ДАННИ

Първата стъпка обикновено включва мислене за това как зависимата променлива трябва да бъде свързана с всяка от независимите променливи. Индикативните променливи x нямат смисъл, ако не дават обяснение за дисперсията Припомнете си, че нашата задача е да обясним промяната в промяната чрез независимата променлива x. Трябва да изчислим коефициента на корелация за всички двойки променливи при условие, че obblc са независими един от друг. Това ще ни даде възможност да определим дали x е свързано с y линии! Но не, независими ли са един от друг? Това е важно при множество рег. Все още можем да изчислим всеки от коефициентите на корелация: раздел 8.5, за да видим колко различни са техните стойности от нула, трябва да разберем дали има висока корелация между стойностите на независимите променливи. Ако открием висока корелация, например, между x, тогава е малко вероятно и двете от тези променливи да бъдат включени в крайния модел.

СТЪПКА 2. ОПРЕДЕЛЕТЕ ВСИЧКИ СТАТИСТИЧЕСКИ ЗНАЧИМИ МОДЕЛИ

Можем да изследваме линейната зависимост между y и всяка комбинация от променливи. Но моделът е валиден само ако има значителна линейна връзка между y и всички x и ако всеки регресионен коефициент е значително различен от нула.

Можем да оценим значимостта на модела като цяло, като използваме добавяне, трябва да използваме -тест за всеки reg коефициент, за да определим дали е значително различен от нула. Ако коефициентът si не се различава значително от нула, тогава съответната обяснителна променлива не помага при прогнозирането на стойността на y и моделът е невалиден.

Цялостната процедура е да се напасне регресионен модел с множество диапазони за всички комбинации от обяснителни променливи. Нека оценим всеки модел с помощта на F-теста за модела като цяло и -cree за всеки регресионен коефициент. Ако F-критерият или някой от -quad! не са значими, тогава този модел не е валиден и не може да се използва.

моделите са изключени от разглеждане. Този процес отнема много време. Например, ако имаме пет независими променливи, тогава са възможни 31 модела: един модел с всичките пет променливи, пет модела с четири от петте променливи, десет с три променливи, десет с две променливи и пет модела с една.

Възможно е да се получи множествена регресия не чрез изключване на последователно независими променливи, а чрез разширяване на кръга им. В този случай започваме с конструирането прости регресииза всяка от независимите променливи на свой ред. Избираме най-добрата от тези регресии, т.е. с най-високия коефициент на корелация, след това добавете към това най-приемливата стойност на променливата y, втората променлива. Този метод за конструиране на множествена регресия се нарича директен.

Обратният метод започва с изследване на модел, който включва всички независими променливи; в примера по-долу има пет. Променливата, която допринася най-малко за общия модел, се елиминира от разглеждане, оставяйки само четири променливи. За тези четири променливи се дефинира линеен модел. Ако този модел не е правилен, още една променлива с най-малък принос се елиминира, оставяйки три променливи. И този процес се повтаря със следните променливи. Всеки път, когато се премахва нова променлива, трябва да се провери дали значимата променлива не е премахната. Всички тези действия трябва да се извършват с голямо внимание, тъй като можете по невнимание да изключите необходимия, значим модел от разглеждане.

Без значение кой метод се използва, може да има няколко значими модела и всеки от тях може да бъде от голямо значение.

СТЪПКА 3. ИЗБИРАНЕ НА НАЙ-ДОБРИЯ МОДЕЛ ОТ ВСИЧКИ ЗНАЧИТЕЛНИ МОДЕЛИ

Тази процедура може да се види с помощта на пример, в който са идентифицирани три важни модела. Първоначално имаше пет независими променливи, но три от тях са - - изключени от всички модели. Тези променливи не помагат при прогнозирането на y.

Следователно важни модели бяха:

Модел 1: y се предвижда само

Модел 2: y се предвижда само

Модел 3: y се прогнозира заедно.

За да направим избор от тези модели, проверяваме стойностите на коефициента на корелация и стандартно отклонениеОстатъчен коефициент множествена корелация- е съотношението на "обяснената" вариация в y към общата вариация в y и се изчислява по същия начин като коефициента на корелация по двойки за проста регресия с две променливи. Модел, който описва връзка между y и множество x стойности има множествен факторкорелация, която е близка до и стойността е много малка. Коефициентът на детерминация, често предлаган в RFP, описва процента на променливост в y, който се обменя от модела. Моделът има значение, когато е близо до 100%.

В този пример ние просто избираме модел с най-висока стойности най-малката стойностМоделът се оказа предпочитаният модел. Следващата стъпка е да се сравнят модели 1 и 3. Разликата между тези модели е включването на променлива в модел 3. Въпросът е дали y-стойността значително подобрява точността на прогноза или не! Следният критерий ще ни помогне да отговорим на този въпрос - това е частен F-тест. Помислете за пример, илюстриращ цялата процедура за конструиране на множествена регресия.

Пример 8.2. Ръководството на голяма шоколадова фабрика се интересува от изграждането на модел, за да предвиди продажбата на една от техните отдавна установени марки. Бяха събрани следните данни.

Таблица 8.5. Изграждане на модел за прогнозиране на обема на продажбите (виж сканиране)

За да бъде моделът полезен и валиден, трябва да отхвърлим Ho и да приемем, че стойността на F-критерия е съотношението на двете величини, описани по-горе:

Този тест е едностранен (едностранен), тъй като средният квадрат, дължащ се на регресията, трябва да бъде по-голям, за да приемем. В предишните раздели, когато използвахме F-теста, тестовете бяха двустранни, тъй като по-голямата стойност на вариацията, каквато и да е тя, беше на преден план. При регресионния анализ няма избор - най-отгоре (в числителя) винаги е вариацията на y в регресията. Ако е по-малко от вариацията в остатъка, ние приемаме Ho, тъй като моделът не обяснява промяната в y. Тази стойност на F-критерия се сравнява с таблицата:

От стандартните разпределителни таблици на F-теста:

В нашия пример стойността на критерия е:

Поради това получихме резултат с висока надеждност.

Нека проверим всяка от стойностите на регресионните коефициенти. Да приемем, че компютърът е преброил всички необходими критерии. За първия коефициент хипотезите са формулирани по следния начин:

Времето не помага да се обясни промяната в продажбите, при условие че другите променливи присъстват в модела, т.е.

Времето има значителен принос и трябва да бъде включено в модела, т.е.

Нека тестваме хипотезата на -то ниво, като използваме двустранен критерий за:

Гранични стойности на това ниво:

Стойност на критериите:

Изчислените стойности на -критерия трябва да са извън посочените граници, за да можем да отхвърлим хипотезата

Ориз. 8.20. Разпределение на остатъците за модел с две променливи

Има осем грешки с отклонения от 10% или повече от реалните продажби. Най-големият от тях е 27%. Размерът на грешката ще бъде ли приет от компанията при планиране на дейности? Отговорът на този въпрос ще зависи от степента на надеждност на другите методи.

8.7. НЕЛИНЕЙНИ ВРЪЗКИ

Нека се върнем към ситуацията, в която имаме само две променливи, но връзката между тях е нелинейна. На практика много връзки между променливите са криволинейни. Например една връзка може да бъде изразена чрез уравнението:

Ако връзката между променливите е силна, т.е. отклонението от криволинейния модел е сравнително малко, тогава можем да познаем природата на най-добрия модел от диаграмата (корелационно поле). Трудно е обаче да се приложи нелинеен модел рамка за вземане на проби. Би било по-лесно, ако можехме да манипулираме нелинейния модел по линеен начин. В първите два записани модела могат да се задават функции различни имена, и тогава ще се използва множествен моделрегресия. Например, ако моделът е:

най-добре описва връзката между y и x, след което пренаписваме нашия модел, използвайки независими променливи

Тези променливи се третират като обикновени независими променливи, въпреки че знаем, че x не могат да бъдат независими една от друга. Най-добрият модел се избира по същия начин, както в предишния раздел.

Третият и четвъртият модел се третират по различен начин. Тук вече срещаме необходимостта от така наречената линейна трансформация. Например, ако връзката

тогава на графиката ще бъде изобразен с крива линия. всичко необходими действияможе да се представи по следния начин:

Таблица 8.10. Изчисляване

Ориз. 8.21. Нелинейна връзка

Линеен модел, с трансформирана връзка:

Ориз. 8.22. Линейна трансформация на връзката

Като цяло, ако оригиналната диаграма показва, че връзката може да бъде начертана във формата: тогава представянето на y спрямо x, където ще дефинира права линия. Нека използваме проста линейна регресия, за да установим модела: Изчислените стойности на a и - най-добри стойностии (5.

Четвъртият модел по-горе включва трансформиране на y с помощта на натурален логаритъм:

Като вземем логаритмите от двете страни на уравнението, получаваме:

следователно: къде

Ако , тогава - уравнението на линейна връзка между Y и x. Нека е връзката между y и x, тогава трябва да преобразуваме всяка стойност на y, като вземем логаритъм от e. Дефинираме проста линейна регресия върху x, за да намерим стойностите на A, а антилогаритъмът е написан по-долу.

По този начин методът на линейната регресия може да се приложи към нелинейни зависимости. В този случай обаче е необходима алгебрична трансформация при писане на оригиналния модел.

Пример 8.3. Следващата таблица съдържа данни за общото годишно промишлено производство в дадена страна за периода

Двойната регресия се използва при моделиране, ако влиянието на други фактори, засягащи обекта на изследване, може да бъде пренебрегнато.

Например, когато изгражда модел на потребление на конкретен продукт от дохода, изследователят приема, че всяка доходна група има еднакво влияние върху потреблението на фактори като цена на даден продукт, размер на семейството и състав. Въпреки това, няма сигурност във валидността на това твърдение.

Директният начин за решаване на такъв проблем е да се изберат единици от населението с еднакви стойности на всички други фактори, с изключение на дохода. Това води до проектирането на експеримента, метод, който се използва в естествените научни изследвания. Икономистът е лишен от способността да регулира други фактори. Поведението на отделните икономически променливи не може да бъде контролирано; не е възможно да се осигури равенство на други условия за оценка на влиянието на един изследван фактор.

Как да процедираме в този случай? Необходимо е да се идентифицира влиянието на други фактори, като се въведат в модела, т.е. съставете уравнение на множествена регресия.

Този вид уравнение се използва при изследване на потреблението.

Коефициенти b j - частни производни на y по отношение на факторите x i

При условие, че всички други x i = const

Разгледайте съвременната потребителска функция (предложена за първи път от Дж. М. Кейнс през 30-те години на миналия век) като модел на формата С = f(y, P, M, Z)

в- консумация. y - доход

P - цена, индекс на разходите.

М - пари в брой

Z - ликвидни активи

При което

Множествената регресия се използва широко при решаването на проблеми с търсенето, възвращаемостта на акциите, при изследването на функциите на производствените разходи, в макроикономически въпроси и други въпроси на иконометрията.

В момента множествената регресия е един от най-разпространените методи в иконометрията.

Основната цел на множествената регресия- изграждане на модел с Голям бройфактори, като се определя влиянието на всеки от тях поотделно, както и кумулативното въздействие върху моделирания показател.

Конструирането на уравнение на множествена регресия започва с решение относно спецификацията на модела. Той включва две групи въпроси:

1. Избор на фактори;

2. Избор на регресионно уравнение.

Включването на един или друг набор от фактори в уравнението на множествената регресия е свързано с идеята на изследователя за естеството на връзката между моделирания показател и други икономически явления. Изисквания за факторите, включени в множествената регресия:

1. те трябва да бъдат количествено измерими, ако е необходимо да се включи качествен фактор в модела, който няма количествено измерване, тогава трябва да му се даде количествена сигурност (например в модела на добива, качеството на почвата е дадено в форма на точки; в модела на стойността на недвижимите имоти: областите трябва да бъдат класирани).

2. Факторите не трябва да са взаимно корелирани и още повече да са в точна функционална връзка.

Включване в модела на фактори с висока взаимокорелация, когато R y x 1

Ако има висока корелация между факторите, тогава е невъзможно да се определи тяхното изолирано влияние върху показателя за ефективност и параметрите на регресионното уравнение се оказват интерпретируеми.

Уравнението предполага, че факторите x 1 и x 2 са независими един от друг, r x1x2 \u003d 0, тогава параметърът b 1 измерва силата на влиянието на фактора x 1 върху резултата y със стойността на фактора x 2 без промяна. Ако r x1x2 =1, тогава при промяна на фактора x 1 факторът x 2 не може да остане непроменен. Следователно b 1 и b 2 не могат да се тълкуват като индикатори за отделното влияние на x 1 и x 2 и върху y.

Например, разгледайте регресията на разходите за единица y (рубли) от заплатите на служителите x (рубли) и производителността на труда z (единици на час).

y = 22600 - 5x - 10z + e

коефициент b 2 \u003d -10, показва, че с увеличаване на производителността на труда с 1 единица. себестойността на единица продукция се намалява с 10 рубли. при постоянно ниво на заплащане.

В същото време параметърът при x не може да се тълкува като намаляване на себестойността на единица продукция поради увеличение на заплатите. Отрицателната стойност на регресионния коефициент за променливата x се дължи на високата корелация между x и z (r x z = 0,95). Следователно не може да има ръст на заплатите при непроменена производителност на труда (без да се отчита инфлацията).

Факторите, включени в множествената регресия, трябва да обяснят вариацията в независимата променлива. Ако моделът е изграден с набор от p фактори, тогава за него се изчислява индикаторът за определяне R 2, който фиксира дела на обяснената вариация на резултантния атрибут, дължащ се на p факторите, взети предвид в регресията. Влиянието на други фактори, които не са взети предвид в модела, се оценява като 1-R 2 със съответната остатъчна дисперсия S 2 .

С допълнителното включване на фактора p + 1 в регресията коефициентът на детерминация трябва да се увеличи, а остатъчната дисперсия да намалее.

R 2 p +1 ≥ R 2 p и S 2 p +1 ≤ S 2 p .

Ако това не се случи и тези показатели практически се различават малко един от друг, тогава факторът x р+1, включен в анализа, не подобрява модела и е практически допълнителен фактор.

Ако за регресия, включваща 5 фактора R 2 = 0,857, а включените 6 дават R 2 = 0,858, тогава е неподходящо този фактор да се включва в модела.

Насищането на модела с ненужни фактори не само не намалява стойността на остатъчната вариация и не повишава индекса на детерминация, но също така води до статистическа незначимост на регресионните параметри според t-критерия на Стюдънт.

По този начин, въпреки че теоретично регресионният модел ви позволява да вземете предвид произволен брой фактори, на практика това не е необходимо.

Изборът на факторите се извършва на базата на теоретичен и икономически анализ. Въпреки това, често не позволява еднозначен отговор на въпроса за количествената връзка на разглежданите характеристики и целесъобразността на включването на фактора в модела. Следователно изборът на фактори се извършва на два етапа:

на първия етап факторите се избират въз основа на естеството на проблема.

на втория етап, въз основа на матрицата на корелационните показатели, се определят t-статистики за регресионните параметри.

Коефициентите на вътрешна корелация (т.е. корелация между обяснителните променливи) правят възможно елиминирането на дублиращи се фактори от моделите. Приема се, че две променливи са ясно колинеарни, т.е. са линейно свързани помежду си, ако r xixj ≥0,7.

Тъй като едно от условията за построяване на уравнение на множествена регресия е независимостта на действието на факторите, т.е. r x ixj = 0, колинеарността на факторите нарушава това условие. Ако факторите са ясно колинеарни, тогава те се дублират и се препоръчва да се изключи един от тях от регресията. В този случай предпочитание се дава не на фактора, който е по-тясно свързан с резултата, а на фактора, който при достатъчно тясна връзка с резултата има най-малко тясна връзка с други фактори. Това изискване разкрива спецификата на множествената регресия като метод за изследване на комплексното въздействие на факторите в условията на тяхната независимост един от друг.

Помислете за матрицата на двойните корелационни коефициенти, когато изучавате зависимостта y = f(x, z, v)

г х z V
Y
х 0,8
З 0,7 0,8
V 0,6 0,5 0,2

Очевидно факторите x и z се дублират взаимно. Целесъобразно е в анализа да се включи факторът z, а не x, тъй като корелацията на z с y е по-слаба от корелацията на фактора x с y (r y z< r ух), но зато слабее межфакторная корреляция (r zv < r х v)

Следователно в този случай уравнението на множествената регресия включва факторите z и v. Големината на двойните коефициенти на корелация разкрива само ясна колинеарност на факторите. Но най-много трудности възникват при наличието на мултиколинеарност на факторите, когато повече от два фактора са свързани помежду си чрез линейна зависимост, т.е. има кумулативен ефект на факторите един върху друг. Наличието на факторна мултиколинеарност може да означава, че някои фактори винаги ще действат в унисон. В резултат на това вариацията в първоначалните данни вече не е напълно независима и е невъзможно да се оцени въздействието на всеки фактор поотделно. Колкото по-силна е мултиколинеарността на факторите, толкова по-малко надеждна е оценката на разпределението на сумата от обяснената вариация върху отделните фактори, използвайки метода на най-малките квадрати. Ако разглежданата регресия y \u003d a + bx + cx + dv + e, тогава LSM се използва за изчисляване на параметрите:

S y = S факт + S e

или
=
+

обща сума = факториел + остатък

Квадратни отклонения

От своя страна, ако факторите са независими един от друг, е вярно следното равенство:

S = S x + S z + S v

Сумите на квадратите на отклоненията, дължащи се на влиянието на съответните фактори.

Ако факторите са взаимно корелирани, тогава това равенство е нарушено.

Включването на мултиколинеарни фактори в модела е нежелателно поради следното:

· трудно е да се интерпретират параметрите на множествената регресия като характеристики на действието на факторите в "чист" вид, тъй като факторите са корелирани; параметрите на линейната регресия губят своето икономическо значение;

· Оценките на параметрите са ненадеждни, откриват големи стандартни грешки и се променят с промяна в обема на наблюденията (не само по величина, но и по знак), което прави модела неподходящ за анализ и прогнозиране.

За да оценим мултиколинеарните фактори, ще използваме детерминантата на матрицата от сдвоени коефициенти на корелация между факторите. Ако факторите не корелират помежду си, тогава матрицата на сдвоените коефициенти ще бъде единична.

y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + e

Ако има пълна линейна връзка между факторите, тогава:

Колкото по-близо е детерминантата до 0, толкова по-силна е интерколинеарността на факторите и ненадеждните резултати от множествената регресия. Колкото по-близо е до 1, толкова по-малко е мултиколинеарността на факторите.

Оценката на значимостта на мултиколинеарността на факторите може да се извърши чрез тестване на хипотезата 0 за независимостта на променливите H 0:

Доказано е, че стойността
има приблизително разпределение с степени на свобода. Ако действителната стойност надвишава таблицата (критично) тогава хипотезата H 0 се отхвърля. Означава, че , недиагоналните коефициенти показват колинеарност на факторите. Мултиколинеарността се счита за доказана.

Чрез коефициенти множествено определяневъзможно е да се намерят променливите, отговорни за мултиколинеарността на факторите. За да направите това, всеки от факторите се разглежда като зависима променлива. Колкото по-близо е стойността на R 2 до 1, толкова по-изразена е мултиколинеарността. Сравняване на коефициентите на множествена детерминация и т.н.

Възможно е да се отделят променливите, отговорни за мултиколинеарността, следователно да се реши проблемът с подбора на фактори, оставяйки факторите с минимална стойност на коефициента на множествена детерминация в уравненията.

Съществуват редица подходи за преодоляване на силната междуфакторна корелация. Най-лесният начин да елиминирате MC е да изключите един или повече фактори от модела.

Друг подход е свързан с трансформацията на факторите, което намалява корелацията между тях.

Ако y \u003d f (x 1, x 2, x 3), тогава е възможно да се конструира следното комбинирано уравнение:

y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 12 x 1 x 2 + b 13 x 1 x 3 + b 23 x 2 x 3 + e.

Това уравнение включва взаимодействие от първи ред (взаимодействието на два фактора).

В уравнението е възможно да се включат взаимодействия от по-висок порядък, ако се докаже тяхната статистическа значимост според F-критерия

b 123 x 1 x 2 x 3 – взаимодействие от втори ред.

Ако анализът на комбинираното уравнение показа значението само на взаимодействието на факторите x 1 и x 3, тогава уравнението ще изглежда така:

y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 13 x 1 x 3 + e.

Взаимодействието на факторите x 1 и x 3 означава, че на различни нива на фактора x 3 влиянието на фактора x 1 върху y ще бъде различно, т.е. зависи от стойността на фактора x 3 . На фиг. 3.1 взаимодействието на факторите е представено чрез непаралелни комуникационни линии с резултат y. Обратно, паралелни линии на влиянието на фактора x 1 върху y на различни нива на фактора x 3 означават, че няма взаимодействие между факторите x 1 и x 3 .

(x 3 \u003d B 2)
(x 3 \u003d B 1)
(x 3 \u003d B 1)
(x 3 \u003d B 2)
при
при
1
х 1
а
b
при
при
X 1
X 1

Фиг. 3.1. Графична илюстрация на взаимодействието на факторите.

а- x 1 влияе на y и този ефект е еднакъв за x 3 \u003d B 1 и за x 3 \u003d B 2 (същият наклон на регресионните линии), което означава, че няма взаимодействие между факторите x 1 и х 3;

b- с нарастване на x 1, ефективният знак y се увеличава при x 3 \u003d B 1, с растеж на x 1, ефективният знак y намалява при x 3 \u003d B 2. Между x 1 и x 3 има взаимодействие.

Комбинирани регресионни уравнения се изграждат например при изследване на влиянието на различни видове торове (комбинации от азот и фосфор) върху добива.

Решаването на проблема с елиминирането на мултиколинеарността на факторите може да бъде подпомогнато и от прехода към елиминиране на редуцирана форма. За целта разглежданият фактор се замества в регресионното уравнение чрез израза му от друго уравнение.

Нека, например, разгледаме двуфакторна регресия на формата a + b 1 x 1 + b 2 x 2, за които x 1 и x 2 показват висока корелация. Ако изключим един от факторите, тогава ще стигнем до уравнението на сдвоената регресия. Можете обаче да оставите факторите в модела, но да разгледате това двуфакторно регресионно уравнение във връзка с друго уравнение, в което фактор (например x 2) се счита за зависима променлива. Да предположим, че знаем това . Като разделим това уравнение в желаното вместо x 2, получаваме:

Ако , след което разделяме двете страни на равенството на , получаваме уравнение от вида:

,

което е редуцирана форма на уравнението за определяне на резултатния атрибут y. Това уравнение може да бъде представено като:

LSM може да се приложи към него за оценка на параметрите.

Изборът на факторите, включени в регресията, е един от най-важните етапи в практическото използване на регресионните методи. Подходите за избор на фактори въз основа на корелационни показатели могат да бъдат различни. Те ръководят изграждането на уравнението на множествената регресия по различни методи. В зависимост от това кой метод за конструиране на регресионното уравнение се приема, алгоритъмът за решаването му на компютър се променя.

Най-широко използваните са следните методи за конструиране на уравнение на множествена регресия:

Методът на изключване

методът на включване;

поетапен регресионен анализ.

Всеки от тези методи решава проблема с подбора на фактори по свой собствен начин, давайки като цяло сходни резултати - отсяване на фактори от пълната селекция (метод на изключване), допълнително въвеждане на фактор (метод на включване), изключване на предварително въведен фактор (стъпка регресионен анализ).

На пръв поглед може да изглежда, че матрицата на коефициентите на двойна корелация играе основна роля при избора на фактори. В същото време, поради взаимодействието на факторите, сдвоените коефициенти на корелация не могат напълно да разрешат въпроса за целесъобразността на включването на един или друг фактор в модела. Тази роля се изпълнява от показатели за частична корелация, които оценяват в чист вид близостта на връзката между фактора и резултата. Матрицата на частичния коефициент на корелация е най-широко използваната процедура за отпадане на фактора. При избора на фактори се препоръчва да се използва следното правило: броят на включените фактори обикновено е 6-7 пъти по-малък от обема на популацията, върху която се изгражда регресията. Ако това съотношение е нарушено, тогава броят на степените на свобода на остатъчните вариации е много малък. Това води до факта, че параметрите на регресионното уравнение се оказват статистически незначими, а F-тестът е по-малък от табличната стойност.

Класически линеен модел на множествена регресия (CLMMR):

където y е регресанд; xi са регресори; u е случаен компонент.

Моделът на множествена регресия е обобщение на модела на регресия по двойки за многовариантния случай.

Приема се, че независимите променливи (x) са неслучайни (детерминистични) променливи.

Променливата x 1 \u003d x i 1 \u003d 1 се нарича спомагателна променлива за свободния член, а в уравненията също се нарича параметър на изместване.

"y" и "u" в (2) са реализации на случайна променлива.

Нарича се още параметър на смяна.

За статистическа оценка на параметрите на регресионния модел е необходим набор (набор) от данни от наблюдение на независими и зависими променливи. Данните могат да бъдат представени като пространствени данни или времеви серии от наблюдения. За всяко от тези наблюдения, според линейния модел, можем да запишем:

Векторно-матрична нотация на системата (3).

Нека въведем следната нотация:

колонен вектор на независима променлива (регресия)

матричен размер (n 1)

Матрица от наблюдения на независими променливи (регресори):

размер (n×k)

Вектор на колоната на параметъра:

- матрична нотация на системата от уравнения (3). Той е по-прост и по-компактен.

Нека формираме предпоставките, които са необходими при извеждане на уравнението за оценка на параметрите на модела, изследване на техните свойства и тестване на качеството на модела. Тези предпоставки обобщават и допълват предпоставките на класическия сдвоен линеен регресионен модел (условия на Гаус-Марков).

Предпоставка 1.независимите променливи не са случайни и се измерват без грешка. Това означава, че матрицата за наблюдение X е детерминирана.

Помещение 2. (първо условие на Гаус-Марков):Математическото очакване на случайния компонент във всяко наблюдение е нула.

Помещение 3. (второ условие на Гаус-Марков):теоретичната дисперсия на случайния компонент е еднаква за всички наблюдения.

(Това е хомоскедастизъм)

Помещение 4. (Трето условие на Гаус-Марков):случайните компоненти на модела не са корелирани за различни наблюдения. Това означава, че теоретичната ковариация

Предварителни условия (3) и (4) са удобно написани с помощта на векторна нотация:

matrix - симетрична матрица. - матрица на идентичност с размерност n, горен индекс Т – транспониране.

Матрица се нарича теоретична ковариационна матрица (или ковариационна матрица).

Помещение 5. (четвърто условие на Гаус-Марков):случайният компонент и обяснителните променливи не са корелирани (за нормален регресионен модел това условие също означава независимост). Ако приемем, че обяснителните променливи не са случайни, тази предпоставка винаги е изпълнена в класическия регресионен модел.

Помещение 6. регресионните коефициенти са постоянни стойности.

Помещение 7. регресионното уравнение е разпознаваемо. Това означава, че параметрите на уравнението по принцип могат да се изчислят или решението на задачата за оценка на параметъра съществува и е уникално.

Помещение 8. регресорите не са колинеарни. В този случай регресорната матрица за наблюдение трябва да бъде с пълен ранг. (колоните му трябва да са линейно независими). Тази предпоставка е тясно свързана с предишната, тъй като, когато се използва за оценка на коефициентите на LSM, нейното изпълнение гарантира идентифицируемостта на модела (ако броят на наблюденията е по-голям от броя на оценените параметри).

Предпоставка 9.Броят на наблюденията е по-голям от броя на оценените параметри, т.е. n>k.

Всички тези предпоставки 1-9 са еднакво важни и само ако са изпълнени, класическият регресионен модел може да бъде приложен на практика.

Предпоставката за нормалност на случайния компонент. При изграждане доверителни интервализа коефициенти на модела и прогнози на зависими променливи, проверки статистически хипотезипо отношение на коефициентите, разработването на процедури за анализ на адекватността (качеството) на модела като цяло изисква предположение за нормална дистрибуцияслучаен компонент. Като се има предвид тази предпоставка, модел (1) се нарича класически многовариантен линеен регресионен модел.

Ако предпоставките не са изпълнени, тогава е необходимо да се изградят така наречените обобщени линейни регресионни модели. На това колко правилно (правилно) и съзнателно се използват възможностите регресионен анализзависи от успеха на иконометричното моделиране и в крайна сметка от валидността на взетите решения.

За изграждане на уравнение на множествена регресия най-често се използват следните функции

1. линеен: .

2. мощност: .

3. експоненциален: .

4. хипербола:

С оглед ясното тълкуване на параметрите най-широко използвани са линейните и степенните функции. При линейната множествена регресия параметрите при X се наричат ​​"чисти" коефициенти на регресия. Те характеризират средната промяна в резултата с промяна на съответния фактор с единица, докато стойността на други фактори, фиксирани на средно ниво, остава непроменена.

Пример. Да приемем, че зависимостта на разходите за храна от съвкупността от семейства се характеризира със следното уравнение:

където y е месечните разходи на семейството за храна, хиляди рубли;

x 1 - месечен доход на член на семейството, хиляди рубли;

x 2 - размер на семейството, хора.

Анализът на това уравнение ни позволява да направим изводи - с увеличение на дохода на член на семейството с 1 хил. Рубли. разходите за храна ще се увеличат средно с 350 рубли. със същия размер на семейството. С други думи, 35% от допълнителните семейни разходи отиват за храна. Увеличаването на размера на семейството със същия доход предполага допълнително увеличение на разходите за храна със 730 рубли. Параметър а - няма икономическа интерпретация.

Когато се изследват проблемите на потреблението, регресионните коефициенти се разглеждат като характеристики на пределната склонност към потребление. Например, ако функцията на потребление С t има формата:

C t \u003d a + b 0 R t + b 1 R t -1 + e,

тогава потреблението във времеви период t зависи от дохода от същия период R t и от дохода от предходния период R t -1 . Съответно коефициентът b 0 обикновено се нарича краткосрочна пределна склонност към потребление. Общият ефект от увеличение както на текущия, така и на предишния доход ще бъде увеличение на потреблението с b= b 0 + b 1 . Коефициентът b тук се разглежда като дългосрочна склонност към потребление. Тъй като коефициентите b 0 и b 1 >0, дългосрочната склонност към потребление трябва да надвишава краткосрочната b 0 . Например за периода 1905 – 1951г. (с изключение на годините на войната) М. Фридман конструира следната функция на потреблението за САЩ: С t = 53+0,58 R t +0,32 R t -1 с краткосрочна пределна склонност към потребление 0,58 и дългосрочна склонност към потребление 0 ,9.

Функцията на потреблението може да се разглежда и в зависимост от минали потребителски навици, т.е. от предишното ниво на потребление

C t-1: C t \u003d a + b 0 R t + b 1 C t-1 + e,

В това уравнение параметърът b 0 също характеризира краткосрочната пределна склонност към потребление, т.е. въздействието върху потреблението на еднократно увеличение на дохода за същия период R t . Дългосрочната пределна склонност към потребление тук се измерва с израза b 0 /(1- b 1).

Така че, ако регресионното уравнение беше:

C t \u003d 23,4 + 0,46 R t +0,20 C t -1 + e,

тогава краткосрочната склонност към потребление е 0,46, а дългосрочната склонност е 0,575 (0,46/0,8).

AT степенна функция
коефициентите b j са коефициенти на еластичност. Те показват с колко процента средно се променя резултатът при промяна на съответния фактор с 1%, докато действието на други фактори остава непроменено. Този тип регресионно уравнение се използва най-широко в производствените функции, в изследванията на търсенето и потреблението.

Да предположим, че при изследване на търсенето на месо се получава следното уравнение:

където y е заявеното количество месо; x 1 - цената му; x 2 - доход.

Следователно 1% увеличение на цените при същия доход води до намаляване на търсенето на месо средно с 2,63%. Увеличаването на дохода с 1% предизвиква, при постоянни цени, увеличение на търсенето с 1,11%.

В производствените функции на формата:

където P е количеството продукт, произведен с m производствени фактори(F 1 , F 2 , ……F m).

b е параметър, който е еластичността на количеството продукция по отношение на количеството на съответните производствени фактори.

икономически смисълимат не само коефициентите b на всеки фактор, но и тяхната сума, т.е. сума на еластичността: B \u003d b 1 + b 2 + ... ... + b m. Тази стойност фиксира обобщената характеристика на еластичността на производството. производствена функцияима формата

където P - изход; F 1 - цената на осн производствени активи; F 2 - отработени човекодни; F 3 - производствени разходи.

Еластичността на продукцията за отделните производствени фактори е средно 0,3% с увеличение на F 1 с 1%, като нивото на другите фактори остава непроменено; 0,2% - с увеличение на F 2 с 1% също със същите други производствени фактори и 0,5% с увеличение на F 3 с 1% при постоянно ниво на фактори F 1 и F 2. За това уравнение B \u003d b 1 +b 2 +b 3 \u003d 1. Следователно, като цяло, с нарастване на всеки производствен фактор с 1%, коефициентът на еластичност на продукцията е 1%, т.е. производството нараства с 1%, което в микроикономиката съответства на постоянна възвръщаемост от мащаба.

При практически изчисления не винаги е така . Тя може да бъде по-голяма или по-малка от 1. В този случай стойността на B фиксира приблизителна оценка на еластичността на продукцията с увеличение на всеки производствен фактор с 1% при условия на увеличаване (B> 1) или намаляване (B<1) отдачи на масштаб.

Така че, ако
, след това с увеличаване на стойностите на всеки производствен фактор с 1%, продукцията като цяло се увеличава с приблизително 1,2%.

Когато се оценяват параметрите на модела с помощта на LSM, сумата от квадратите на грешките (остатъците) служи като мярка (критерий) за степента на прилягане на емпиричния регресионен модел към наблюдаваната извадка.

Където e = (e1,e2,…..e n) T ;

За уравнението е приложено равенството: .

Скаларна функция;

Системата от нормални уравнения (1) съдържа k линейни уравнения в k неизвестни i = 1,2,3……k

= (2)

Умножавайки (2), получаваме разширена форма на система за писане на нормални уравнения

Оценка на коефициентите

Стандартизирани регресионни коефициенти, тяхната интерпретация. Сдвоени и частични коефициенти на корелация. Множествен коефициент на корелация. Множествен коефициент на корелация и множествен коефициент на детерминация. Оценка на надеждността на корелационните показатели.

Параметрите на уравнението на множествената регресия се оценяват, както при сдвоената регресия, по метода на най-малките квадрати (LSM). Когато се прилага, се изгражда система от нормални уравнения, чието решение позволява да се получат оценки на параметрите на регресията.

И така, за уравнението системата от нормални уравнения ще бъде:

Неговото решение може да се извърши по метода на детерминантите:

, ,…, ,

където D е основната детерминанта на системата;

Da, Db 1 , …, Db p са частични детерминанти.

и Dа, Db 1 , …, Db p се получават чрез заместване на съответната колона от детерминантната матрица на системата с данните от лявата страна на системата.

Възможен е и друг подход при определяне на параметрите на множествената регресия, когато въз основа на матрицата от сдвоени коефициенти на корелация се изгражда регресионно уравнение по стандартизирана скала:

където - стандартизирани променливи , за които средната стойност е нула , а стандартното отклонение е равно на единица: ;

Стандартизирани регресионни коефициенти.

Прилагайки LSM към уравнението на множествената регресия в стандартизирана скала, след подходящи трансформации, получаваме система с нормална форма

Решавайки го по метода на детерминантите, намираме параметрите - стандартизирани коефициенти на регресия (b-коефициенти).

Стандартизираните регресионни коефициенти показват колко сигми ще се промени средно резултатът, ако съответният фактор x i се промени с една сигма, докато средното ниво на другите фактори остава непроменено. Поради факта, че всички променливи са зададени като центрирани и нормализирани, стандартизираните регресионни коефициенти b I са сравними един с друг. Сравнявайки ги помежду си, е възможно да се степенуват факторите според силата на тяхното въздействие. Това е основното предимство на стандартизираните регресионни коефициенти, за разлика от коефициентите на "чистата" регресия, които не са сравними помежду си.

Пример.Нека функцията на производствените разходи y (хиляда рубли) се характеризира с уравнение на формата

където x 1 - основните производствени активи;

x 2 - броят на заетите в производството.

Анализирайки го, виждаме, че при същата заетост допълнително увеличение на цената на дълготрайните производствени активи с 1 хил. Рубли. води до увеличение на разходите средно с 1,2 хиляди рубли, а увеличаването на броя на служителите на човек допринася, при същото техническо оборудване на предприятията, за увеличаване на разходите средно с 1,1 хиляди рубли. Това обаче не означава, че факторът x 1 има по-силен ефект върху производствените разходи в сравнение с фактора x 2. Такова сравнение е възможно, ако се позовем на регресионното уравнение в стандартизирана скала. Да приемем, че изглежда така:

Това означава, че с увеличаване на коефициента х 1 на сигма, при непроменен брой служители, себестойността на продукцията нараства средно с 0,5 сигма. От b 1< b 2 (0,5 < 0,8), то можно заключить, что большее влияние оказывает на производство продукции фактор х 2 , а не х 1 , как кажется из уравнения регрессии в натуральном масштабе.

В връзка по двойки стандартизираният коефициент на регресия не е нищо друго освен коефициентът на линейна корелация r xy . Точно както при двойната зависимост коефициентът на регресия и корелацията са взаимосвързани, така и при множествената регресия коефициентите на „чистата“ регресия b i са свързани със стандартизираните коефициенти на регресия b i , а именно:

(3.1)

Това позволява от регресионното уравнение в стандартизирана скала

(3.2)

преход към регресионното уравнение в естествен мащаб на променливите.

1. Основни определения и формули

Множествена регресия- регресия между променливи и тези. преглед на модела:

където е зависимата променлива (резултатен знак);

- независими обяснителни променливи;

Пертурбация или стохастична променлива, включително влиянието на фактори, които не са взети предвид в модела;

Брой параметри за променливи

Основната цел на множествената регресия- изграждане на модел с голям брой фактори, като същевременно се определя влиянието на всеки от тях поотделно, както и тяхното кумулативно въздействие върху моделирания показател.

Уравнение на множествена линейна регресияв случай на независими променливи има формата, а в случай на две независими променливи - (двуфакторно уравнение).

За да оцените параметрите на уравнението на множествената регресия, приложете метод на най-малките квадрати. Построена е система от нормални уравнения:

Решението на тази система позволява да се получат оценки на регресионните параметри, като се използва методът на детерминантите

където - системен идентификатор;

- частни детерминанти, които се получават чрез замяна на съответната колона от детерминантната матрица на системата с данни от дясната страна на системата.

За двуфакторно уравнение множество коефициенти на линейна регресияможе да се изчисли по формулите:

Частични регресионни уравненияхарактеризират изолираното влияние на даден фактор върху резултата, тъй като други фактори са фиксирани на непроменено ниво. Ефектите от влиянието на други фактори са прикрепени към свободния член на уравнението на множествената регресия. Това позволява на базата на частични регресионни уравнения дефинирам частични коефициенти на еластичност:

Средни коефициенти на еластичностпокажете с колко процента средно ще се промени резултатът, когато съответният фактор се промени с 1%:

Те могат да се сравняват помежду си и съответно факторите да се степенуват според силата на влиянието им върху резултата.

Стегнатостта на съвместното влияние на факторите върху резултата се оценява от коефициентиent (индекс) на множествена корелация:

Стойността на индекса на множествена корелация варира от 0 до 1 и трябва да бъде по-голяма или равна на максималния индекс на корелация на двойки:

Колкото по-близка е стойността на индекса на множествена корелация до 1, толкова по-тясна е връзката на резултатната характеристика с целия набор от фактори, които се изследват.

Сравнявайки индексите на множествена и двойна корелация, можем да заключим, че е целесъобразно (стойността на индекса на множествена корелация се различава значително от индекса на двойна корелация) да включим един или друг фактор в регресионното уравнение.

С линейна връзка, общата сума множествен кофакторРотношениясе определя чрез матрицата от сдвоени корелационни коефициенти:

където - детерминанта на матрицата на сдвоените корелационни коефициенти;

- детерминанта на междуфакторната корелационна матрица.

Частнодкоефициентскорелациихарактеризират плътността на линейната връзка между резултата и съответния фактор, когато се елиминира влиянието на други фактори. Ако се изчисли, например, (коефициент на частична корелация между и с фиксирано влияние), това означава, че се определя количествена мярка на линейната връзка между и, която ще се осъществи, ако се елиминира влиянието върху тези характеристики на фактора

Частичните корелационни коефициенти, които измерват ефекта върху фактор с постоянно ниво на други фактори, могат да бъдат определени като:

или по рекурсивната формула:

За двуфакторно уравнение:

или

Частичните коефициенти на корелация варират от -1 до +1.

Сравнение на стойностите на коефициентите на двойка и частични корелациипоказва посоката на влияние на фиксирания фактор. Ако коефициентът на частична корелация се окаже по-малък от съответния двоен коефициент, тогава връзката на характеристиките и до известна степен се дължи на влиянието на фиксираната променлива върху тях, Обратно, по-голяма стойност на частния коефициент в сравнение с сдвоен коефициент показва, че фиксираната променлива отслабва връзката и

Редът на частичния коефициент на корелация се определя от броя на факторите, чието влияние е изключено. Например, - коефициент на частична корелация от първи ред.

Познавайки коефициентите на частична корелация (последователно от първи, втори и по-висок ред), можем да определим кумулативно съотношениемнотносноженскикорелации:

Общото качество на изградения модел се оценява от коефициент (индекс) на множествена детерминация, който се изчислява като квадрат на индекса на множествена корелация: Индексът на множествена детерминация фиксира съотношението на обяснената вариация на резултантния атрибут поради факторите, взети предвид в регресията. Влиянието на други фактори, които не са взети предвид в модела, се оценява като

Ако броят на параметрите е близо до обема на наблюденията, тогава коефициентът на множествена корелация ще се доближи до единица, дори ако факторите са слабо свързани с резултата. За да се предотврати евентуалното преувеличаване на близостта на връзката, се използва коригиран индекс на множествена корелация, който съдържа корекция за броя на степените на свобода:

Колкото по-голяма е стойността, толкова по-силни са разликите и

Значение на частичните коефициенти на корелациясе проверява подобно на случая на сдвоени корелационни коефициенти. Единствената разлика е броят на степените на свобода, който трябва да се приеме равен на =--2.

Значение на уравнението на множествената регресия като цяло, както и при регресия по двойки, се оценява с помощта на - Критерий на Фишер:

Мярката за оценка на включването на даден фактор в модела е частен-критерий. Най-общо казано, частичният критерий за фактор се определя като

За двуфакторно уравнение частичните -критерии имат формата:

Ако действителната стойност надвишава табличната стойност, тогава допълнителното включване на фактора в модела е статистически оправдано и чистият регресионен коефициент за фактора е статистически значим. Ако действителната стойност е по-малка от табличната стойност, тогава не е препоръчително факторът да се включва в модела и коефициентът на регресия за този фактор в този случай е статистически незначим.

За ставка значение на нетните регресионни коефициентипо критерия на Стюдънт се използва формулата:

където е нетният регресионен коефициент с фактора

- средна квадратична (стандартна) грешка на регресионния коефициенткоето може да се определи по формулата:

С допълнителното включване на нов фактор в регресията, коефициентът на детерминация трябва да се увеличи, а остатъчната дисперсия да намалее. Ако това не е така, тогава новият фактор, включен в анализа, не подобрява модела и на практика е допълнителен фактор. Насищането на модела с ненужни фактори не само не намалява стойността на остатъчната дисперсия и не повишава индекса на детерминация, но и води до статистическа незначимост на регресионните параметри по t-критерия на Стюдънт.

При изграждането на уравнение на множествена регресия може да възникне проблем мултиколинеарностфактори. Приема се, че две променливи са ясно колинеарни, т.е. са в линейна връзка помежду си, ако ако факторите са ясно колинеарни, тогава те се дублират един друг и се препоръчва да се изключи един от тях от регресията. В този случай предпочитание се дава не на фактора, който е по-тясно свързан с резултата, а на фактора, който при достатъчно тясна връзка с резултата има най-малко тясна връзка с други фактори.

За да се оцени мултиколинеарността на факторите, може да се използва дефиниранидматрично колело между факторите. Колкото по-близо до 0 е детерминантата на междуфакторната корелационна матрица, толкова по-силна е мултиколинеарността на факторите и толкова по-ненадеждни са резултатите от множествената регресия. И обратно, колкото по-близо до 1 е детерминантата, толкова по-малка е мултиколинеарността на факторите.

Използването на най-малките квадрати изисква дисперсията на остатъците да бъде хомоскедастична. Това означава, че за всяка стойност на фактора, остатъците имат същата дисперсия. Ако това условие за прилагане на LSM не е изпълнено, тогава имаме хетероскедастичност. Ако се наруши хомоскедастичността, неравенствата

Наличието на хетероскедастичност може ясно да се види от корелационното поле (фиг. 9.22).

Ориз. 9.22 . Примери за хетероскедастичност:

а) дисперсията на остатъците се увеличава като

б) дисперсията на остатъците достига максималната си стойност при средните стойности на променливата и намалява при минималните и максималните стойности

в) максималната дисперсия на остатъците при малки стойности и дисперсията на остатъците е хомогенна, тъй като стойностите се увеличават

За да тествате извадката за хетероскедастичност, можете да използвате метода Goldfeld-Quandt (за малък размер на извадката) или теста на Bartlett (за голям размер на извадката).

Последователност на нанасяне Тест на Голдфелд-Квант:

1) Сортирайте данните в низходящ ред на независимата променлива, по отношение на която има подозрение за хетероскедастичност.

2) Изключете централните наблюдения от разглеждане. При което където е броят на оценените параметри. От експериментални изчисления за случая на еднофакторно регресионно уравнение се препоръчва съответно да се вземе =8 при =30 и =16 при =60.

3) Разделете набора от наблюдения на две групи (съответно с малки и големи стойности на фактора) и определете регресионното уравнение за всяка от групите.

4) Изчислете остатъчната сума на квадратите за първа и втора група и намерете отношението им където Когато нулевата хипотеза за хомоскедастичност е изпълнена, връзката ще задоволи критерия на Фишър със степени на свобода за всяка остатъчна сума от квадрати. Колкото повече превишава стойността, толкова повече се нарушава предпоставката за равенството на дисперсиите на остатъчните стойности.

Ако е необходимо да се включат в модела фактори, които имат две или повече качествени нива (пол, професия, образование, климатични условия, принадлежност към определен регион и т.н.), тогава те трябва да бъдат присвоени цифрови етикети,тези. качествените променливи се преобразуват в количествени. Променливи от този вид се наричат фиктивен (и с изкуствени) променливи .

Да сефиктивна променлива регресионен коефициентсе интерпретира като средната промяна в зависимата променлива при преминаване от една категория в друга, като останалите параметри остават непроменени. Значимостта на влиянието на фиктивна променлива се проверява с помощта на t-теста на Student.

2. Решение на типични проблеми

Пример9. 2. За 15 предприятия от индустрията (Таблица 9.4) се изследва зависимостта на себестойността на продукцията (хил. ден. единици) от обема на произведената продукция (хил. ден. единици) и цената на суровините (хил. ден. единици). Необходимо:

1) Изградете уравнение на множествена линейна регресия.

2) Изчислете и интерпретирайте:

Средни коефициенти на еластичност;

Сдвоени коефициенти на корелация, оценете тяхната значимост на ниво 0,05;

Частични коефициенти на корелация;

Множествен коефициент на корелация, множествен коефициент на детерминация, коригиран коефициент на детерминация.

3) Оценете надеждността на съставеното регресионно уравнение и осъществимостта на включването на фактора след фактора и след

Таблица 9.4

х1

х2

Решение:

1) В Excel ще съставим спомагателна таблица на фиг. 9.23.

Ориз.9.23 . Таблица за изчисление на многомерна регресия.

Използвайки вградените функции, изчисляваме: =345,5; =13838.89; =8515.78; =219.315; =9,37; =6558.08.

След това намираме коефициентите на множествена линейна регресия и чертаем резултата от резултатите, както е показано на Фиг. 9.24.

Ориз.9.24 . Решаване на проблеми вГОСПОЖИЦАпревъзходен

За да изчислим стойността на коефициента, използваме формулите

В клетките се въвеждат формули за изчисляване на параметрите д20 , Е2 1, Е2 2. Така че за изчисляване на параметъра b1 в д20 поставете формулата =(B20*B24-B21*B22)/(B23*B24-B22^2)и вземете 29,83. По същия начин получаваме стойностите \u003d 0,301 и Коефициент \u003d -31,25 (фиг. 9.25.).

Ориз.9.25 . Изчисляване на параметрите на уравнението на множествената регресияTroque формули формула за изчисляванеb2) .

Уравнението на множествената линейна регресия ще приеме формата:

31,25+29,83+0,301

По този начин, с увеличение на обема на произведените продукти с 1 хил. бр. разходите за производство на тези продукти ще се увеличат средно с 29,83 хил. ден. единици, и с увеличение на разходите за суровини с 1 хил. ден. единици разходите ще се увеличат средно с 0,301 хил. ден. единици

2) Да се ​​изчисли средни коефициенти на еластичностНека използваме формулата: Изчислете: =0,884 и =0,184. Тези. увеличение само на обема на произведените продукти (от средната му стойност) или само на разходите за суровини с 1% увеличава средната себестойност на продукцията съответно с 0,884% или 0,184%. По този начин факторът има по-голямо влияние върху резултата от фактора

Да изчисля коефициенти на двойна корелацияНека използваме функцията "CORREL" фиг. 9.26.

Ориз.9.26 . Изчисляване на коефициенти на двойна корелация

Стойностите на сдвоените коефициенти на корелация показват много тясна връзка с и тясна връзка с. моделът трябва да включва или или

Уnachimostbкоефициенти на двойна корелацияоценка с помощта на t-тест на Student. =2,1604 се определя с помощта на вградената статистическа функция STEUDRESPOBRкато се вземе =0,05 и =-2=13.

Действителна стойност - критерий на студента за всеки двойка коефициентдефинирайте по формулите: . Резултатът от изчислението е показан на фиг. 9.27.

Ориз.9.27 . Резултат от изчисляването на действителната стойност- критерииСтудент

Получаваме =12.278; =7,1896; =6,845.

Тъй като действителните стойности на -statistics надвишават табличните стойности, сдвоените коефициенти на корелация не са произволно различни от нула, но са статистически значими.

Получаваме =0,81; =0,34; =0,21. По този начин факторът има по-силно влияние върху резултата от

Когато сравняваме стойностите на коефициентите на двойка и частична корелация, стигаме до извода, че поради силната междуфакторна връзка, коефициентите на двойка и частична корелация се различават значително.

Множествен коефициент на корелация

Следователно зависимостта от и се характеризира като много близка, при която =93% от вариацията в себестойността на продукцията се определя от вариацията на факторите, взети предвид в модела: обемът на производството и цената на суровините . Други фактори, които не са включени в модела, представляват съответно 7% от общата вариация.

Коригиран коефициент на множествена детерминация =0,9182 показва тясна връзка между резултата и характеристиките.

Ориз.9.28 . Резултатите от изчисляването на частични корелационни коефициенти и коефициентиимножествена корелационна точка

3) Оценка цялостната надеждност на регресионното уравнениеизползвайки критерия на Фишер. Изчислете . =3,8853 се определя чрез вземане на =0,05, =2, =15-2-1=12 с помощта на вградената статистическа функция F РАЗПРОСТРАНЕНИЕсъс същите настройки.

Тъй като действителната стойност е по-голяма от табличната стойност, тогава с вероятност от 95% заключаваме, че статистическа значимостуравнения на множествена линейна регресия като цяло.

Нека оценим целесъобразността на включването на фактора след фактора и след използване на конкретния критерий на Фишер по формулите

; .

За да направите това, в клетката B32въведете формулата за изчисление Ех1 « =(B28-H24^2)*(15-3)/(1-B28)“, и в клетката б33 формула за изчисление Ех2 « =(B28-H23^2)*(15-3)/(1-B28)”, резултат от изчислението Ех1 = 22,4127, Ех2 = 1,5958. Табличната стойност на критерия на Фишер се определя с помощта на вградената функция F РАЗПРОСТРАНЕНИЕс параметри =0.05, =1, =12 " =FDISP(0,05;1 ;12) », резултат - =4.747. Тъй като =22,4127>=4,747 и =1,5958<=4,747, то включение фактора в модель статистически оправдано и коэффициент чистой регрессии статистически значим, а дополнительное включение фактора после того, как уже введен фактор нецелесообразно (рис. 9.29).

Ориз.9.29 . Резултатите от изчисляването на критерия на Фишер

Ниска стойност (малко над 1) показва статистическата незначимост на увеличението поради включването на фактор след фактора в модела допълнителен фактор (разходи за суровини).

3. Допълнителна информация за решаване на задачи с помощта на MS Excel

Обобщение на ключови характеристики за един или повече набори от данни може да се получи с помощта на инструмента за анализ на данни Описаниеастатистика на тялото. Процедурата е следната:

1. Трябва да проверите достъпа до Пакет за анализ. За да направите това, изберете раздела "Данни" в лентата, в него секцията "Анализ" (фиг. 9.30.).

Ориз.9.30 . Раздел ДанниДиалогов прозорец за анализ на данни

2. В диалоговия прозорец "Анализ на данни" изберете Описателна статистика и пръчка и щракнете върху бутона "OK", попълнете необходимите полета в диалоговия прозорец, който се появява (фиг. 9.31):

Ориз. 9.31 . Диалогов прозорец за въвеждане на параметри на инструмента
« Описателна статистика »

интервал на въвеждане- обхватът, съдържащ данните за ефективните и обяснителните характеристики;

Групиране- посочете как са подредени данните (в колони или редове);

Етикети- флаг, който показва дали първият ред съдържа имената на колоните или не;

изходен интервал- достатъчно е да посочите горната лява клетка на бъдещия диапазон;

Нов работен лист- можете да зададете произволно име за новия лист, на който ще се показват резултатите.

За информация Крайна статистика, ниво НадеиНовини,най-голямата и най-малката стойносттрябва да изберете съответните квадратчета за отметка в диалоговия прозорец.

Получаваме следната статистика (фиг. 2.10).

1. Въведение………………………………………………………………………….3

1.1. Линеен модел на множествена регресия……………………...5

1.2. Класически метод на най-малките квадрати за модел на множествена регресия……………………………………………..6

2. Обобщен линеен модел на множествена регресия……………...8

3. Списък на използваната литература……………………………………….10

Въведение

Времевият ред е набор от стойности на индикатор за няколко последователни момента (периода) от време. Всяко ниво на динамичния ред се формира под въздействието на голям брой фактори, които условно могат да бъдат разделени на три групи:

Фактори, които оформят тенденцията на сериала;

Фактори, които формират цикличните колебания на реда;

случайни фактори.

При различни комбинации от тези фактори зависимостта на нивата на rad от времето може да приеме различни форми.

Повечето от динамичните редове от икономически индикатори имат тенденция, която характеризира кумулативното дългосрочно въздействие на много фактори върху динамиката на изследвания показател. Очевидно тези фактори, взети поотделно, могат да имат многопосочно въздействие върху изследвания показател. Въпреки това, заедно те формират тенденцията му към нарастване или намаляване.

Също така, изследваният индикатор може да бъде обект на циклични колебания. Тези колебания могат да бъдат сезонни, тъй като икономическата активност на редица отрасли зависи от времето на годината (например цените на селскостопанските продукти са по-високи през лятото, отколкото през зимата; безработицата в курортните градове е по-висока през зимата, отколкото през лятото). При наличието на големи количества данни за дълги периоди от време е възможно да се идентифицират циклични колебания, свързани с общата динамика на пазарната ситуация, както и с фазата на бизнес цикъла, в която се намира икономиката на страната.

Някои времеви редове не съдържат тренд и цикличен компонент и всяко следващо им ниво се формира като сума от средното ниво на рад и някакъв (положителен или отрицателен) случаен компонент.

Очевидно реалните данни не отговарят напълно на нито един от описаните по-горе модели. Най-често те съдържат и трите компонента. Всяко от нивата им се формира под влияние на тенденция, сезонни колебания и случаен компонент.

В повечето случаи действителното ниво на времева серия може да бъде представено като сума или продукт на тенденцията, цикъла и произволните компоненти. Модел, в който динамичен ред е представен като сума от изброените компоненти, се нарича адитивен модел на времеви редове. Модел, в който динамичен ред е представен като продукт на изброените компоненти, се нарича мултипликативен модел на динамичен ред.


1.1. Модел на линейна множествена регресия

Двойната регресия може да даде добър резултат при моделирането, ако може да се пренебрегне влиянието на други фактори, засягащи обекта на изследване. Ако това влияние не може да бъде пренебрегнато, тогава в този случай трябва да се опитате да идентифицирате влиянието на други фактори, като ги въведете в модела, т.е. да изградите уравнение на множествена регресия.

Множествената регресия се използва широко при решаване на проблеми с търсенето, възвращаемостта на акциите, при изследване на функцията на производствените разходи, в макроикономическите изчисления и редица други въпроси на иконометрията. В момента множествената регресия е един от най-разпространените методи в иконометрията.

Основната цел на множествената регресия е да се изгради модел с голям брой фактори, като същевременно се определи влиянието на всеки от тях поотделно, както и тяхното кумулативно въздействие върху моделирания показател.

Общ изглед на линейния модел на множествена регресия:

където n е размерът на извадката, който поне 3 пъти по-голямо от m - броят на независимите променливи;

y i е стойността на получената променлива в наблюдение I;

х i1 ,х i2 , ...,х im - стойности на независими променливи в наблюдение i;

β 0 , β 1 , … β m - параметрите на регресионното уравнение, които трябва да бъдат оценени;

ε - случайна стойност на грешката на модела на множествена регресия в наблюдение I,

При изграждането на модел на множествена линейна регресия се вземат предвид следните пет условия:

1. стойности x i1, x i2, ..., x im - неслучайни и независими променливи;

2. математическо очакване на случайна грешка на регресионното уравнение
равно на нула при всички наблюдения: М (ε) = 0, i= 1,m;

3. дисперсията на случайната грешка на регресионното уравнение е постоянна за всички наблюдения: D(ε) = σ 2 = const;

4. случайните грешки на регресионния модел не корелират една с друга (ковариацията на случайните грешки на всеки две различни наблюдения е нула): сov(ε i ,ε j .) = 0, i≠j;

5. случайна грешка на регресионния модел - случайна величина, подчиняваща се на нормалния закон на разпределение с нулево математическо очакване и дисперсия σ 2 .

Матричен изглед на линеен модел на множествена регресия:

където: - вектор на стойностите на получената променлива с размерност n×1

матрица от стойности на независими променливи с размерност n × (m + 1). Първата колона на тази матрица е единична, тъй като в регресионния модел коефициентът β 0 се умножава по едно;

Векторът на стойностите на получената променлива с размерност (m+1)×1

Вектор от случайни грешки с размерност n×1

1.2. Класически най-малки квадрати за модел на множествена регресия

Неизвестните коефициенти на линейния модел на множествена регресия β 0 , β 1 , … β m се оценяват с помощта на класическия метод на най-малките квадрати, чиято основна идея е да се определи такъв вектор за оценка D, който да минимизира сумата на квадрата отклонения на наблюдаваните стойности на получената променлива y от стойностите на модела (t т.е. изчислени въз основа на конструирания регресионен модел).

Както е известно от курса на математическия анализ, за ​​да се намери екстремумът на функция на няколко променливи, е необходимо да се изчислят частичните производни от първи ред по отношение на всеки от параметрите и да се приравнят към нула.

Означаването на b i със съответните индекси на оценка на коефициентите на модела β i , i=0,m, има функция от m+1 аргумента.

След елементарни трансформации стигаме до система от линейни нормални уравнения за намиране на оценки за параметрите на уравнение на линейна множествена регресия.

Получената система от нормални уравнения е квадратна, т.е. броят на уравненията е равен на броя на неизвестните променливи, така че решението на системата може да бъде намерено с помощта на метода на Крамер или метода на Гаус,

Решението на системата от нормални уравнения в матрична форма ще бъде векторът на оценките.

На базата на линейното уравнение на множествената регресия могат да бъдат намерени конкретни регресионни уравнения, т.е. регресионни уравнения, които свързват ефективната характеристика със съответния фактор x i, докато фиксират останалите фактори на средно ниво.

При заместване на средните стойности на съответните фактори в тези уравнения, те приемат формата на сдвоени уравнения на линейна регресия.

За разлика от сдвоената регресия, уравненията на частичната регресия характеризират изолираното влияние на даден фактор върху резултата, тъй като други фактори са фиксирани на постоянно ниво. Ефектите от влиянието на други фактори са прикрепени към свободния член на уравнението на множествената регресия. Това позволява на базата на частични регресионни уравнения да се определят частичните коефициенти на еластичност:

където b i е регресионният коефициент за фактор x i ; в уравнението на множествената регресия,

y x1 xm е конкретно регресионно уравнение.

Наред с парциалните коефициенти на еластичност могат да се намерят съвкупните средни показатели на еластичност. които показват с колко процента средно ще се промени резултатът, когато съответният фактор се промени с 1%. Средните еластичности могат да се сравняват помежду си и съответно факторите да се степенуват според силата на въздействие върху резултата.

2. Обобщен линеен модел на множествена регресия

Основната разлика между обобщения модел и класическия е само във формата на квадратна ковариационна матрица на вектора на смущението: вместо матрицата Σ ε = σ 2 E n за класическия модел имаме матрицата Σ ε = Ω за обобщеното. Последният има произволни стойности на ковариации и дисперсии. Например ковариационните матрици на класическия и обобщения модел за две наблюдения (n=2) в общия случай ще изглеждат така:

Формално обобщеният линеен модел на множествена регресия (GLMMR) в матрична форма има формата:

Y = Xβ + ε (1)

и се описва със системата от условия:

1. ε е произволен вектор от смущения с размерност n; X - неслучайна матрица от стойности на обяснителни променливи (планова матрица) с размерност nx(p+1); припомнете си, че 1-вата колона на тази матрица се състои от дръжки;

2. M(ε) = 0 n – математическото очакване на вектора на смущението е равно на нулевия вектор;

3. Σ ε = M(εε') = Ω, където Ω е положително определена квадратна матрица; отбележете, че произведението на векторите ε‘ε дава скалар, а произведението на векторите εε’ дава nxn матрица;

4. Рангът на матрицата X е p+1, което е по-малко от n; припомнете си, че p+1 е броят на обяснителните променливи в модела (заедно с фиктивната променлива), n е броят на наблюденията на произтичащите и обяснителните променливи.

Следствие 1. Оценка на параметрите на модела (1) чрез конвенционални най-малки квадрати

b = (X'X) -1 X'Y (2)

е безпристрастен и последователен, но неефективен (не е оптимален в смисъла на теоремата на Гаус-Марков). За да получите ефективна оценка, трябва да използвате обобщения метод на най-малките квадрати.

Множественият регресионен анализ е разширение на сдвоения регресионен анализ. O се използва в случаите, когато поведението на обяснената, зависима променлива трябва да бъде свързано с влиянието на повече от една факторна, независима променлива. Въпреки че определена част от многовариантния анализ е пряко обобщение на понятията на сдвоен регресионен модел, при изпълнението му могат да възникнат редица фундаментално нови задачи.

По този начин, когато се оценява влиянието на всяка независима променлива, е необходимо да можете да разграничите нейното въздействие върху променливата, която се обяснява, от въздействието на други независими променливи. В този случай множественият корелационен анализ се свежда до анализ на сдвоени, частични корелации. На практика те обикновено се ограничават до определяне на техните обобщени числени характеристики, като коефициенти на частична еластичност, коефициенти на частична корелация, стандартизирани коефициенти на множествена регресия.

След това се решават задачите за спецификация на регресионния модел, една от които е да се определи обемът и съставът на множеството от независими променливи, които могат да повлияят на обясняваната променлива. Въпреки че това често се прави от априорни съображения или въз основа на съответната икономическа (качествена) теория, някои променливи може, поради индивидуалните характеристики на изследваните обекти, да не са подходящи за модела. Най-характерните от тях са мултиколинеарностили автокорелацияфакторни променливи.

3.1. Множествен линеен регресионен анализ с

метод на най-малките квадрати (LSM)

Този раздел предполага, че се разглежда регресионен модел, който е правилно определен. Обратното, ако първоначалните предположения се окажат грешни, може да се установи само въз основа на качеството на получения модел. Следователно този етап е отправна точка за провеждане на множествен регресионен анализ дори в най-трудния случай, тъй като само той, или по-скоро неговите резултати, могат да дадат основания за по-нататъшно усъвършенстване на моделните представяния. В този случай се правят необходимите промени и допълнения към спецификацията на модела и анализът се повтаря след усъвършенстване на модела до получаване на задоволителни резултати.

Всеки икономически показател в реални условия обикновено се влияе не от един, а от няколко и не винаги независими фактора. Например, търсенето на определен вид продукт се определя не само от цената на този продукт, но и от цените на заместващите и допълващи стоки, доходите на потребителите и много други фактори. В този случай, вместо сдвоена регресия М(Y/ X = x ) = f(х) разгледайте множествената регресия

М(Y/ X1 = x1, X2 = x2, …, Xp = Xp ) = f(х 1 , Х 2 , …, Х Р ) (2.1)

Задачата за оценка на статистическата връзка на променливите Yи х 1 , х 2 , ..., х Рсе формулира подобно на случая на сдвоена регресия. Уравнението на множествената регресия може да бъде представено като

Y = f(б , х ) + 2

където х - вектор на независими (обяснителни) променливи; AT - вектор на параметрите на уравнението (определя се); - случайна грешка (отклонение); Y - зависима (обяснена) променлива.

Приема се, че за дадена обща съвкупност това е функцията fсвързва изследваната променлива Yс вектор на независими променливи х .

Нека разгледаме най-използвания и най-прост за статистически анализ и икономическа интерпретация модел на множествена линейна регресия. Има поне две съществени причини за това.

Първо, регресионното уравнение е линейно, ако системата от случайни променливи ( х 1 , х 2 , ..., Х Р , Y) има общо нормално разпределение. Предположението за нормално разпределение може да бъде обосновано в редица случаи с помощта на граничните теореми на теорията на вероятностите. Често такова предположение се приема като хипотеза, когато няма очевидни противоречия по време на последващия анализ и интерпретация на неговите резултати.

Втората причина, поради която линейният регресионен модел е предпочитан пред останалите е, че когато се използва за прогнозиране, рискът от значителна грешка е минимален.

Теоретичното уравнение на линейната регресия има формата:

или за индивидуални наблюдения с номер аз:

където аз = 1, 2, ..., П.

Тук AT = (b 0 , b 1 ,bР) - размерен вектор (р+1) на неизвестни параметри b й , й = 0, 1, 2, ..., Р, е наречен й-ти теоретичен регресионен коефициент (частичен регресионен коефициент). Той характеризира чувствителността на количеството Yда се промени х й. С други думи, отразява влиянието върху условното очакване М(Y/ X1 = x1, X2 = x2, …, Xp = х Р ) зависима променлива Yобяснителна променлива х j при условие, че всички други обяснителни променливи на модела остават постоянни. b 0 - свободен член, определящ стойността Yкогато всички обяснителни променливи х йса равни на нула.

След избора на линейна функция като модел на зависимост е необходимо да се оценят параметрите на регресията.

Нека има нвектор на наблюденията на обяснителните променливи х = (1 , х 1 , х 2 , ..., Х Р) и зависима променлива Y:

(1 , х i1 , х i2 , …, х ip аз), i = 1, 2, …, n.

За да се реши еднозначно проблема с намирането на параметрите b 0 , b 1 , … , b P (т.е. намерете някой най-добър вектор AT ), неравенството н > стр + 1 . Ако това неравенство не е изпълнено, тогава има безкрайно много различни параметрични вектори, за които линейната формула за връзката между х и Y ще съответства точно на наличните наблюдения. В същото време, ако н = стр + 1 , след това оценките на коефициентите на вектора AT се изчисляват по уникален начин – чрез решаване на системата стр + 1 линейно уравнение:

където аз = 1, 2, ..., П.

Например, за еднозначно определяне на оценките на параметрите на регресионното уравнение Y = bо + b 1 х 1 + b 2 х 2, достатъчно е да имате извадка от три наблюдения ( 1 , хаз 1, хаз 2, газ), аз= 1, 2, 3. В този случай намерените стойности на параметрите b 0 , b 1 , b 2 определят такава равнина Y = bо + b 1 х 1 + b 2 х 2 в триизмерно пространство, което ще преминава през съществуващите три точки.

От друга страна, добавянето на още едно наблюдение към съществуващите три наблюдения ще доведе до факта, че четвъртата точка ( х 41 , х 42 , х 43 , г 4) почти винаги ще лежи извън построената равнина (и вероятно достатъчно далеч). Това ще изисква известна преоценка на параметрите.

Следователно следният извод е съвсем логичен: ако броят на наблюденията е по-голям от минималната изисквана стойност, т.е. н > стр + 1 , тогава вече не е възможно да се избере линейна форма, която точно да удовлетворява всички наблюдения. Следователно има нужда от оптимизация, т.е. оценка на параметъра b 0 , b 1 , …, b Р, за които регресионната формула дава най-доброто приближение едновременно за всички налични наблюдения.

В този случай числото  = н - стр - 1 се нарича брой степени на свобода. Лесно е да се види, че ако броят на степените на свобода е малък, тогава статистическата надеждност на изчислената формула е ниска. Например, вероятността за надеждно заключение (получаване на най-реалистични оценки) от три наблюдения е значително по-ниска, отколкото от тридесет. Смята се, че когато се оценява множествената линейна регресия, за да се осигури статистическа надеждност, се изисква броят на наблюденията да надвишава броя на оценените параметри поне 3 пъти.

Преди да преминем към описанието на алгоритъма за намиране на оценки на регресионните коефициенти, отбелязваме желателността на осъществимостта на редица LSM предпоставки, които ще ни позволят да оправдаем характерните черти на регресионния анализ в рамките на класическия линеен многофакторен модел .

Споделете с приятели или запазете за себе си:

Зареждане...