Намиране на коефициентите на уравнението на двойната регресия. Регресия на линейна двойка

1. Основни определения и формули

Регресия по двойки- регресия (връзка) между две променливи и др. преглед на модела:

където е зависимата променлива (резултатен знак);

- независима обяснителна променлива (знаков фактор);

Смущение или стохастична променлива, включително влиянието на фактори, които не са взети предвид в модела.

В почти всеки отделен случай стойността се състои от два термина:

където е действителната стойност на ефективния признак;

Теоретичната стойност на получената характеристика, намерена на базата на регресионното уравнение. Знакът "^" означава, че няма строга функционална връзка между променливите и.

Разграничете линеени нелинейнирегресия.

Линейна регресиясе описва с уравнението на права линия

Нелинейни регресииса разделени на два класа:

1) регресии, нелинейни по отношение на обяснителните променливи, но линейни по отношение на оценените параметри, например:

Полиноми от различни степени

Равностранна хипербола

2) регресии, нелинейни в оценените параметри, например:

Мощност

Демонстрация

Експоненциален

За изграждане на сдвоена линейна регресия се изчисляват спомагателни величини ( - брой наблюдения).

Примерни средства: и

Примерна ковариациямежду и

или

ковариация- това е числена характеристикасъвместно разпределение на две случайни променливи.

Примерно отклонение за

или

Примерно отклонение за

или

Дисперсия на извадкатахарактеризира степента на разпространение на стойностите на случайна променлива около средната стойност (променливост, променливост).

Тясността на връзката между изследваните явления се оценява от извадков коефициент на корелациямежду и

Коефициентът на корелация варира от -1 до +1. Колкото по-близо е от модул до 1, толкова по-близка е статистическата връзка между и до линейна функционална.

Ако =0, тогава няма линейна връзка между и;<0,3 - связь слабая; 0,3<0,7 - связь умеренная; 0,7<0,9 - связь сильная; 0,9<0,99 - связь весьма сильная.

Положителна стойност на коефициента показва, че връзката между знаците е пряка (стойността се увеличава с растеж), отрицателна стойност показва обратна връзка (стойността намалява с растеж).

Изграждане на линейна регресиясе свежда до оценяване на неговите параметри и Класическият подход за оценяване на параметрите на линейната регресия се основава на метод най-малки квадрати (MNK). LSM позволява да се получат такива оценки на параметрите, при които сумата от квадратните отклонения на действителните стойности на получената характеристика от теоретичните е минимална, т.е.

За линейна регресия параметрите и се намират от системата от нормални уравнения:

Решавайки системата, намираме вна

и параметър

Коефициентс факторна променлива показва колко ще се промени средно стойността, когато факторът се промени за единица измерване.

Параметърът, когато If не може да бъде равен на 0, тогава няма икономически смисъл. Възможно е да се тълкува само знакът на ако, ако тогава относителната промяна в резултата е по-бавна от промяната на фактора, т.е. дисперсията на резултата е по-малка от дисперсията на фактора и обратно.

За да оцените качеството на изградения регресионен модел, можете да използвате коефициент на детерминацияили средна апроксимационна грешка.

Да секоефициент на детерминация

Или

показва дела на дисперсията, обяснена от регресията, в общата дисперсия на резултантния атрибут.Съответно стойността характеризира дела на дисперсията на индикатора, причинена от влиянието на фактори, които не са взети предвид в модела и други причини.

Колкото по-близо до 1, толкова по-добър е регресионният модел, т.е. изграденият модел добре апроксимира първоначалните данни.

Средна апроксимационна грешкае средното относително отклонение на теоретичните стойности от действителните, т.е.

Построеното регресионно уравнение се счита за задоволително, ако стойността не надвишава 10-12%.

За линейна регресия среден коефициент на еластичностсе намира по формулата:

Среден коефициент на еластичностпоказва колко процента средно в популацията ще се промени резултатът от стойността си, когато факторът се промени с 1% от стойността си.

Степен hnachimostирегресионни уравненияобикновено се дава с помощта на теста на Фишер, който се състои в тестване на хипотезата за статистическа незначимост на регресионното уравнение . За това се прави сравнение действителенднебеи критичен(таблица) стойности - Критерий на Фишер .

се определя от съотношението на стойностите на фактора и остатъчните дисперсии, изчислени за една степен на свобода, т.е.

- максималната възможна стойност на критерия под въздействието на случайни фактори със степени на свобода =1, =-2 и нивото на значимост се намира от таблицата на критериите на Фишер (таблица 1 от приложението).

Ниво на значимост- е вероятността да се отхвърли правилна хипотеза, при положение, че е вярна.

Ако тогава хипотезата за липсата на връзка между изследвания показател и фактора се отхвърля и се прави заключение за значимостта на тази връзка с нивото на значимост (т.е. уравнението на регресията е значимо).

Ако тогава хипотезата се приема и се признава статистическата незначимост и ненадеждност на регресионното уравнение.

За линейна регресия значимострегресионни коефициентиоценени с - Критерий на Стюдънт, според който се излага хипотеза за случайния характер на показателите, т.е. за тяхната незначителна разлика от нула. След това се изчисляват действителните стойности на критерия за всеки от оценените регресионни коефициенти, т.е.

къде и - стандартни грешкипараметрите на линейната регресия се определят по формулите:

- максималната възможна стойност на критерия на Стюдънт под въздействието на случайни фактори за дадена степен на свобода = -2 и нивото на значимост се намира от таблицата на критерия на Стюдънт (Таблица 2 от Приложението).

Ако тогава хипотезата за незначимостта на регресионния коефициент се отхвърля с нивото на значимост, т.е. коефициентът ( или ) не случайно се различава от нула и се формира под въздействието на систематично действащ фактор

Ако тогава хипотезата не се отхвърля и се признава случайният характер на формирането на параметъра.

Значение линеен коефициенткорелациисъщо проверено с - Критерий на ученика, т.е.

Хипотезата за незначимостта на корелационния коефициент се отхвърля с нивото на значимост, ако

Коментирайте.За линейна регресия по двойки, тестването на хипотези за значимостта на коефициента и коефициента на корелация е еквивалентно на тестване на хипотезата за значимостта на регресионното уравнение като цяло, т.е.

За изчисление доверителен интервалопределяне на пределна грешка за всеки показател, т.е.

Доверителни интервализа коефициенти на линейна регресия:

Ако нулата попада в границите на доверителния интервал, т.е. долната граница е отрицателна, а горната граница е положителна, тогава оцененият параметър се приема за нула, тъй като не може да приема както положителни, така и отрицателни стойности едновременно.

Прогнозна стойностсе определя чрез заместване на съответната прогнозна стойност в регресионното уравнение. След това се изчислява средна стандартна грешка на прогнозата

където

и се строи прогнозен доверителен интервал

Интервалът може да бъде доста широк поради малкия обем на наблюденията.

регресии, нелинейни във включените променливи , се редуцират до линейна форма чрез проста промяна на променливи, а по-нататъшното оценяване на параметрите се извършва с помощта на метода на най-малките квадрати.

Жхиперболична регресия:

Р егресии , нелинейни д според прогнозните параметри се делят на два вида: вътрешно нелинейнии т.н. (не се редуцира до линейна форма) и вътрешно линеен(намалена до линейна форма с помощта на подходящите трансформации), например:

Експоненциална регресия:

Линеаризираща трансформация:

Регресия на мощността:

Линеаризираща трансформация:

Индексная регресия:

Линеаризираща трансформация:

логаритмичента регресия:

Линеаризираща трансформация:

2. Решение на типични проблеми

Пример9 .1 . За 15 селскостопански предприятия (Таблица 9.1) са известни: - броят на техниката на единица посевна площ (ед./ха) и - обемът на произведената продукция (хил. ден. единици). Необходимо:

1) определяне на зависимостта от

2) начертайте корелационните полета и начертайте уравнението на линейната регресия

3) направете заключение за качеството на модела и изчислете прогнозираната стойност с прогнозирана стойност от 112% от средното ниво.

Таблица 9.1

Решение:

1) В Excel ще съставим спомагателна таблица 9.2.

Таблица 9.2

Ориз.9 .един. Таблица за изчисляване на междинни стойности

Изчислете броя на измерванията За да направите това, в клетка B19сложи = БРОЙ(A2:A16 ) .

Използване на функцията ∑ (Автосумиране) на лентата с инструменти Стандартен T ная намерете сумата от всички (клетка B17) и (клетка C17).

Ориз. 9.2. Изчисляване на сумата от стойности и средни стойности

За да изчислим средните стойности, използваме вградената функция MS Excel AVERAGE(), диапазонът от стойности за определяне на средната стойност е посочен в скоби. Така средният обем на отгледаната продукция за 15 ферми е 210,833 хил.ден. ед., а средният брой превозни средства е 6 248 бр./ха.

За попълване на колони д, д, Евъведете формулата за изчисляване на продукта: в клетката д2 сложи = B2*C2, след което натиснете ENTER на клавиатурата. Кликнете с левия бутон върху клетката д2 и като хванете долния десен ъгъл на тази клетка (черен плюс), дръпнете надолу към клетката д16 . Диапазонът ще се попълни автоматично. д3 - д16 .

За изчисление в селективено ковариациямежду и използвайте формулата, т.е. в клетка б21 сложи = д18- б18* ° С18 и вземете 418.055 (фиг. 9.3).

Ориз.9 .3. изчисление

СелективенЕхадисперсияЮза намиране по формулата за това в клетка б22 сложи = E18-B18^2 (^- знак, показващ степенуване ) и вземете 11.337. По същия начин определяме \u003d 16745.05556 (фиг. 9.4)

Ориз.9 .четири. изчислениевар(х) ивар (г)

Освен това, използвайки стандартната функция на MS Excel „CORREL“, изчисляваме стойността на коефициента на линейна корелация за нашата задача, функцията ще изглежда като „=CORREL(B2:B16;C2:C16)“, а стойността rxy=0,96 . Получената стойност на корелационния коефициент показва пряка и силна връзка между наличието на оборудване и обема на отглежданата продукция.

Намираме визвадков коефициент на линейна регресия =36,87; параметър = -17.78. И така, уравнението на сдвоената линейна регресия изглежда като = -17,78 + 36,87

Коефициентът показва, че с увеличаване на броя на оборудването с 1 единица / ха, обемът на отглежданите продукти ще се увеличи средно с 36,875 хиляди den. единици (фиг. 9.5)

Ориз.9 .5. Изчисляване на параметрите на регресионното уравнение.

Така регресионното уравнение ще изглежда така: .

Ние заместваме действителните стойности в полученото уравнение х(брой оборудване) намираме теоретичните стойности на обема на отглежданите продукти (фиг. 9.6).

Ориз.9 .6. Изчисляване на теоретичните стойности на обемите на отглежданите продукти

Използвайки Съветник за диаграмиизграждаме корелационни полета (избирайки колони със стойности и ) и уравнение на линейна регресия (избирайки колони със стойности и ). Изберете типа диаграма - T спектакъл В получената диаграма попълнете необходимите параметри (заглавие, надписи за осите, легенда и др.). В резултат на това получаваме графиката, показана на фиг. 9.7.

Ориз.9 .7. Графика на зависимостта на обема на отглежданите продукти от броя на оборудването

За да оценим качеството на изградения регресионен модел, изчисляваме:

. да секоефициент на детерминация\u003d 0,92, което показва, че промяната в производствените разходи е 92% поради промяната в обема на производството, а 8% се падат на дела на факторите, които не са взети предвид в модела, което показва качеството на изградената регресия модел;

. счервеноююгрешкаприприближения. За да направите това, в колоната зизчислете разликата между действителните и теоретичните стойности a в колоната аз- израз . Моля, обърнете внимание, че стандартната функция на MS Excel "ABS" се използва за изчисляване на модулната стойност. При умножаване на средната стойност (клетка аз18 ) при 100% получаваме 18,2%. Следователно, средно теоретичните стойности се отклоняват от действителните с 18,2% (фиг. 1.8).

Използвайки критерия на Фишер, ние оценяваме чnachimostbуравнениярегрестези като цяло: 150,74.

При ниво на значимост 0,05 = 4,67, ние определяме с помощта на вградената статистическа функция F РАЗПРОСТРАНЕНИЕ(фиг. 1.9). В същото време трябва да се помни, че "Степени_на_свобода1" е знаменателят, а "Степени_на_свобода2" е числителят, където е броят на параметрите в регресионното уравнение (имаме 2), н- броят на първоначалните двойки стойности (имаме 15).

защото тогава регресионното уравнение е значимо при =0,05.

Ориз.9 .8. Определяне на коефициента на детерминация исредна грешкаприближения

Ориз. 9 . 9 . Диалогов прозорецфункцииF РАЗПРОСТРАНЕНИЕ

След това дефинираме ссреден коефициент на еластичностспоред формулата. Установеното показва, че при увеличаване на обема на произведените продукти с 1%, разходите за производство на тези продукти ще се увеличат общо с 1,093% средно.

Изчисли прогнозна стойностчрез заместване на предвидената стойност на фактора =1,12=6,248*1,12=6,9978 в регресионното уравнение =-19,559+36,8746. Получаваме =238,48. Следователно, с броя на оборудването в размер на 6,9978 единици / хектар, обемът на продукцията ще бъде 238,48 хиляди den. единици

Намерете остатъчната дисперсия, за това изчисляваме сумата от квадратите на разликата между действителните и теоретичните стойности. =39,166, като поставите следната формула = ROOT(J17/(B19-2))в клетка з2 1 (фиг. 9.10).

Ориз.9 .десет. Определяне на остатъчна дисперсия

ОТчервеноу астандартента грешкапрогноза:

При ниво на значимост =0,05 с помощта на вградената статистическа функция STEUDRESPOBRдефинираме =2.1604 и изчисляваме пределната прогнозна грешка, която в 95% от случаите няма да надвишава .

дпрогнозен доверителен интервал:

Или .

Прогнозата за производствените разходи се оказа надеждна (1-0,05=0,95), но неточна, тъй като обхватът на горната и долната граница на доверителния интервал е пъти. Това се случи поради малкия обем на наблюденията.

Трябва да се отмени, че MS Excel има вградени статистически функции, които могат значително да намалят броя на междинните изчисления, например (фиг. 9.11.):

Да изчисля вселективенхсредно аритметичнохизползвайте функцията AVERAGE(число1:числон) от категория Статистически .

Примерна ковариациямежду и се намира с помощта на функцията COVAR(масивх;масивY) от категория Статистически .

Селективенсдисперсияиопределя се от статистическата функция VARP(число1:числон) .

Ориз.9 .единадесет. Изчисляване nиндексира вградени функцииГОСПОЖИЦАпревъзходен

Ппараметърслинейна регресияв Excel може да се дефинира по няколко начина.

1 начин) С вградена функция LINEST. Процедурата е следната:

1. Изберете област от празни клетки 5x2 (5 реда, 2 колони), за да покажете резултатите регресионна статистикаили площ 1x2 - за да получите само коефициентите на регресия.

2. Използване Помощници за функциимежду статистически изберете функция LINESTи попълнете неговите аргументи (фиг. 9.12):

Ориз. 9 . 12 . Диалогов прозорец за въвеждане на аргумент на функцияLINEST

Известни_стойности_г

Известни_стойности_х

Конст- логическа стойност (1 или 0), която показва наличието или липсата на свободен член в уравнението; сложи 1;

Статистика- булева стойност (1 или 0), която показва дали да се покаже допълнителна информация за регресионния анализ или не; сложи 1.

3. Първото число от таблицата ще се появи в горната лява клетка на избраната област. Натиснете бутона, за да отворите цялата маса. < Е2> , а след това - върху клавишната комбинация < CTRL> + < SHIFT> + < ENTER> .

Допълнителна регресионна статистика ще бъде показана във формуляра (Таблица 9.3):

Таблица 9.3

Стойност на коефициента	Стойност на коефициента
RMS отклонение	RMS отклонение
Коефициент определения	RMS отклонение
Статистика	Брой степени на свобода
Регресионна сума на квадратите	Остатъчен сбор от квадрати

В резултат на прилагане на функцията LINESTполучаваме:

( 2 начин) Използване на инструмент за анализ на данни Регресия можете да получите резултатите от регресионна статистика, дисперсионен анализ, доверителни интервали, остатъци, регресионни графики, остатъчни графики и нормални вероятностни графики. Процедурата е следната:

1. Трябва да проверите достъпа до Пакет за анализ. За да направите това, в главното меню (чрез бутона Microsoft Office за достъп до опциите на MS Excel) в „Опции ГОСПОЖИЦАпревъзходен» изберете командата "Добавки" и изберете добавката вдясно Анализ на пакета а след това щракнете върху бутона "Отиди" (фиг. 9.13). В диалоговия прозорец, който се отваря, поставете отметка в квадратчето до „Пакет за анализ“ и щракнете върху „OK“ (фиг. 9.14).

В раздела „Данни“ в групата „Анализ“ ще имате достъп до инсталираната добавка. (фиг. 9.15).

Ориз.9 .13. Активиране на добавки вГОСПОЖИЦАпревъзходен

Ориз.9 .четиринадесет. Диалогов прозорец за добавки

Ориз.9 .15. Добавка за анализ на данни на лентатаГОСПОЖИЦАпревъзходен 2007 .

2. Изберете "Данни" в групата "Анализ", изберете командата Анализ да н nyh в диалоговия прозорец, който се отваря, изберете инструмента за анализ "Регресия" и щракнете върху "OK" (фиг. 9.16):

Ориз.9 .16. Диалогов прозорец за анализ на данни

В диалоговия прозорец, който се появява (фиг. 9.17), попълнете полетата:

интервал на въвежданеY- диапазонът, съдържащ данните на ефективния атрибут Y;

интервал на въвежданех- диапазонът, съдържащ данните на обяснителния атрибут X;

Етикети- флаг, който показва дали първият ред съдържа имената на колоните или не;

Констмравка нула- флаг, показващ наличието или липсата на свободен член в уравнението;

изходен интервал- достатъчно е да посочите горната лява клетка на бъдещия диапазон;

Нов работен лист- можете да зададете произволно име за новия лист, на който ще се показват резултатите.

Ориз.9 .17. Диалогов прозорец за регресия

За Остатъчна информация, Остатъчни графики, Напасване и Нормална вероятност поставете отметка в съответните квадратчета в диалоговия прозорец.

Ориз. 9 . 18 . Резултати от прилагането на инструментаРегресия

AT ГОСПОЖИЦАпревъзходен тренд линияможе да се добави към стълбовидна диаграма или линейна диаграма. За това:

1. Необходимо е да изберете областта за изграждане на диаграмата и да изберете "Оформление" в лентата и да изберете командата "Линия на тренда" в групата за анализ (фиг. 9.19.). В елемента от падащото меню изберете „Разширени опции за трендови линии“.

Ориз. 1.19.Панделка

2. В диалоговия прозорец, който се показва, изберете действителните стойности, след което ще се отвори диалоговият прозорец "Формат на линията на тренда" (фиг. 9.20.), в който се избира типът на линията на тренда и се задават съответните параметри.

Ориз. 9 . 20 . Диалогов прозорец„Формат на линията на тенденция“

За полиномна тенденция трябва да посочите степента на апроксимиращия полином, за линейно филтриране броя на осредняващите точки.

Избирам Линеенза изграждане на уравнение на линейна регресия.

Като Допълнителна информациямога покажи уравнение на diаграми поставете стойност на диаграмата(фиг.9.21).

Ориз. 9 . 21 . Линеен тренд

Нелинейни регресионни модели са илюстрирани при изчисляване на параметрите на уравнението с помощта на статистическата функция, избрана в Excel ЛGRFPRIBL. Процедурата за изчисление е подобна на използването на функцията LINEST.

Изпратете добрата си работа в базата знания е лесно. Използвайте формата по-долу

Студенти, докторанти, млади учени, които използват базата от знания в обучението и работата си, ще ви бъдат много благодарни.

публикувано на http:// www. всичко най-добро. en/

Министерство на образованието и науката на Руската федерация

федерален държавен бюджет образователна институциявисше образование

Държавен технически университет "Комсомолск на Амур"

Факултет по икономика и управление

Катедра Икономика, финанси и счетоводство

ИЗЧИСЛИТЕЛНО-ГРАФИЧНА ЗАДАЧА

по дисциплина "Иконометрия"

група ученик

А.Ю. Зайченко

Учител

И.И. Антонова

маса 1

Номер на региона	Среден жизнен минимум на глава от населението на ден за едно трудоспособно лице, rub.,	Средна дневна заплата, rub.,

Задължително:

1. Изградете регресионно уравнение на линейна двойка от.

3. Оценете статистическата значимост на параметрите на регресията и корелацията, като използвате t-теста на Fisher и t-теста на Student.

4. Изпълнете прогноза заплатипри прогнозната стойност на средния жизнен минимум на човек от населението, който е 107% от средното равнище.

5. Оценете точността на прогнозата чрез изчисляване на грешката на прогнозата и нейния доверителен интервал.

6. Начертайте изходните данни и теоретичната линия на една графика.

1. За да изчислим параметрите на уравнението на линейната регресия, изграждаме изчислителна таблица 2. линейна корелацияапроксимационна регресия

таблица 2















Означава

Получено регресионно уравнение:

С увеличаване на жизнения минимум на глава от населението с 1 rub. средната дневна заплата се увеличава средно с 0,89 рубли.

2. Стегнатостта на линейната зависимост ще бъде оценена чрез коефициента на корелация:

Това означава, че 51% от вариацията в заплатите () се обяснява с вариацията на фактора - среден жизнен минимум на глава от населението.

Качеството на модела се определя от средната апроксимационна грешка:

Качеството на изработения модел се оценява като добро, тъй като не надвишава 8-10%.

3. Ще оценим значимостта на регресионното уравнение като цяло, използвайки -критерия на Фишер. Действителна стойност - критерии:

Табличната стойност на критерия при пет процента ниво на значимост и степени на свобода е. Тъй като регресионното уравнение се счита за статистически значимо.

Оценка статистическа значимострегресионните параметри ще се извършват с помощта на статистиката на Стюдънт и чрез изчисляване на доверителния интервал за всеки от индикаторите.

Табличната стойност на критерия за броя на степените на свобода и ще бъде.

Нека дефинираме случайните грешки:

Действителните стойности на -statistics надвишават стойността на таблицата:

следователно параметрите и не са произволно различни от нула, а са статистически значими. Нека изчислим доверителните интервали за регресионните параметри и. За да направим това, ние определяме пределната грешка за всеки индикатор:

Доверителни интервали:

Анализът на горната и долната граница на доверителните интервали води до заключението, че с вероятност параметрите и, намирайки се в посочените граници, не приемат нулеви стойности, т.е. не са статистически значими и са значително различни от нула.

4. Получените оценки на регресионното уравнение ни позволяват да го използваме за прогнозиране. Ако прогнозната стойност на екзистенц минимума е:

Тогава прогнозната стойност на заплатите ще бъде:

Грешката в прогнозата ще бъде:

Пределната прогнозна грешка, която в случаите няма да бъде превишена, ще бъде:

Доверителен интервал на прогнозата:

Изпълнената прогноза за средната месечна заплата е надеждна () и е в диапазона от 131,66 рубли. до 190,62 рубли. В заключение ще начертаем първоначалните данни и теоретичната права линия на една и съща графика (Фигура 1)

Снимка 1

Хоствано на Allbest.ru

Подобни документи

Сграда линейно уравнениедвойна регресия, изчисляване на линейния коефициент на двойна корелация и средната апроксимационна грешка. Определяне на коефициенти на корелация и еластичност, индекс на корелация, същност на приложението на критерия на Фишер в иконометрията.

тест, добавен на 05/05/2010

Изчисляване на параметри на сдвоена линейна регресия. Оценка на статистическата значимост на регресионното уравнение и неговите параметри с помощта на тестовете на Fisher и Student. Построяване на матрица от сдвоени коефициенти на корелация. Статистически анализизползвайки PPP MS EXCEL.

тест, добавен на 14.05.2008 г

Изчисляване на линейния коефициент на двойна и частична корелация. Статистическа значимост на регресионните и корелационни параметри. Анализ на корелационното поле с данни. Точност на прогнозата, изчисление на грешки и доверителен интервал. Множествен коефициент на детерминация.

контролна работа, добавена на 11.12.2010 г

Икономическа интерпретация на регресионния коефициент. Намиране на остатъчната сума на квадратите и оценка на дисперсията на остатъците. Проверка на значимостта на параметрите на регресионното уравнение с помощта на t-критерия на Стюдънт. Изчисляване на средната стойност относителна грешкаприближения.

тест, добавен на 23.03.2010 г

Изграждане на доверителен интервал за регресионния коефициент. Определяне на апроксимационна грешка, корелационен индекс и F-тест на Фишер. Оценка на еластичността на промените в материалоемкостта на продуктите. Построяване на уравнение на линейна множествена регресия.

тест, добавен на 04/11/2015

Изчисляване на параметрите на уравнението на линейната регресия, оценка на плътността на връзката с помощта на показателите за корелация и детерминация. Определяне на средната апроксимационна грешка. Статистическа надеждност на моделирането с помощта на F-тест на Фишер и t-тест на Стюдънт.

тест, добавен на 17.10.2009 г

Определяне на количествената зависимост на масата на животно с кожа от възрастта му. Построяване на сдвоено регресионно уравнение, изчисляване на неговите параметри и проверка на адекватността. Оценка на статистическата значимост на регресионните параметри, изчисляване на техния доверителен интервал.

лабораторна работа, добавена на 02.06.2014 г

Изграждане на хипотеза за формата на връзката между паричните доходи на глава от населението и потребителските разходи в Уралския и Западносибирския регион на Руската федерация. Изчисляване на параметрите на двойните регресионни уравнения, оценка на тяхното качество с помощта на средната апроксимационна грешка.

тест, добавен на 05.11.2014 г

Анализ на метода на най-малките квадрати за двойна регресия като метод за оценка на параметрите на линейна регресия. Разглеждане на линейното уравнение на двойната регресия. Изследване на множествена линейна регресия. Изследване на грешките на регресионните коефициенти.

тест, добавен на 28.03.2018 г

Изграждане на корелационното поле. Изчисляване на параметри на сдвоени регресионни уравнения. Зависимостта на средната продължителност на живота от някои фактори. Изследването на "критерия на Фишер". Оценка на плътността на връзката с помощта на индикатори за корелация и детерминация.

Двойно регресионно уравнение.

Въз основа на корелационното поле може да се предположи (за общата популация), че връзката между всички възможни стойности на X и Y е линейна.

Уравнението на линейната регресия е y = bx + a + ε

Система от нормални уравнения.

a n + b∑x = ∑y

a∑x + b∑x 2 = ∑y x

За нашите данни системата от уравнения има формата

12a + 1042 b = 1709

1042 a + 91556 b = 149367

От първото уравнение изразяваме аи заместваме във второто уравнение:

Получаваме емпирични регресионни коефициенти: b = 0,9, a = 64,21

Регресионно уравнение (емпирично регресионно уравнение):

у = 0,9 х + 64,21

Емпирични регресионни коефициенти аи bса само оценки на теоретичните коефициенти β i , а самото уравнение отразява само общата тенденция в поведението на разглежданите променливи.

За да изчислим параметрите на линейната регресия, ще изградим изчислителна таблица (Таблица 1)

1. Параметри на регресионното уравнение.

Примерни средства.

Примерни отклонения:

стандартно отклонение

1.1. Коефициент на корелация

ковариация.

Ние изчисляваме индикатора за близост на комуникацията. Такъв индикатор е селективен линеен коефициент на корелация, който се изчислява по формулата:

1.2. Регресионно уравнение(оценка на регресионното уравнение).

Уравнението на линейната регресия е y = 0,9 x + 64,21

1.3. Коефициент на еластичност.

Коефициентът на еластичност се намира по формулата:

1.4. Грешка в приближението.

Приблизителната грешка в рамките на 5%-7% показва добър избор на регресионното уравнение спрямо оригиналните данни.

1.5. Емпирична корелационна връзка.

Емпиричното съотношение на корелация се изчислява за всички форми на връзка и служи за измерване на близостта на зависимостта. Промени в рамките на.

Индекс на корелация.

За линейна регресия индексът на корелация е равен на коефициента на корелация r xy = 0,79.

За всяка форма на зависимост плътността на връзката се определя с помощта на коефициент на множествена корелация:

1.6. Коефициент на определяне.

Най-често, давайки тълкуване на коефициента на детерминация, той се изразява като процент.

R2 = 0,792 = 0,62

За да оценим качеството на параметрите на линейната регресия, ще изградим изчислителна таблица (Таблица 2)

2. Оценка на параметрите на регресионното уравнение.

2.1. Значение на коефициента на корелация.

За да се тества нулевата хипотеза на ниво на значимост α, че общият коефициент на корелация на нормална двумерна случайна променлива е равен на нула с конкурентна хипотеза H 1 ≠ 0, е необходимо да се изчисли наблюдаваната стойност на критерия

и според таблицата критични точкиРазпределението на Стюдънт, като се има предвид нивото на значимост α и броя на степените на свобода k = n - 2, намерете критичната точка t crit на двустранната критична област. Ако t наб< t крит оснований отвергнуть нулевую гипотезу. Если |t набл | >t crit - нулевата хипотеза се отхвърля.

Според таблицата на Стюдънт с ниво на значимост α=0.05 и степени на свобода k=10 намираме t crit:

където m = 1 е броят на обяснителните променливи.

2.2. Интервална оценка за коефициента на корелация (доверителен интервал).

2.3. Анализ на точността на определяне на оценките на регресионните коефициенти.

Безпристрастната оценка на дисперсията на смущенията е стойността:

S 2 y = 53.63 - необяснима дисперсия (мярка за дисперсията на зависимата променлива около регресионната линия).

S y = 7.32 - стандартна грешка на оценката (стандартна грешка на регресията).

са- стандартно отклонениеслучайна променлива a.

S b - стандартно отклонение на случайната величина b.

2.4. Доверителни интервали за зависимата променлива.

(a + bx p ± ε)

Нека изчислим границите на интервала, в който 95% от възможните стойности на Y ще бъдат концентрирани с неограничен брой наблюдения и X p = 107

Индивидуални доверителни интервали за Y при дадена стойност на X.

(a + bx i ± ε)

t crit (n-m-1;α/2) = (10;0,025) = 2,228

2.5. Проверка на хипотези относно коефициентите на уравнението на линейната регресия.

1) t-статистика. Критерий на ученика.

t crit (n-m-1;α/2) = (10;0,025) = 2,228

Доверителен интервал за коефициентите на регресионното уравнение.

(b - t критичен S b; b + t критичен S b)

(a - t критичен S a; a + t критичен S a)

2) F-статистика. Критерий на Фишер.

Таблична стойност на критерия със степени на свобода k 1 \u003d 1 и k 2 \u003d 10, F таблица \u003d 4,96

Сдвоена линейна регресия

РАБОТИЛНИЦА

парна баня линейна регресия: Работилница. -

Изучаването на иконометрия включва студентите да придобият опит в изграждането на иконометрични модели, вземане на решения относно спецификацията и идентифицирането на модел, избор на метод за оценка на параметрите на модела, оценка на неговото качество, тълкуване на резултатите, получаване на прогнозни оценки и др. Семинарът ще помогне на студентите придобиват практически умения по тези въпроси.

Одобрено от редакционно-издателския съвет

Съставител: М.Б. Перова, доктор по икономика, професор

Общи положения

Иконометричните изследвания започват с теория, която установява връзки между явленията. От целия набор от фактори, влияещи върху ефективния признак, се разграничават най-значимите фактори. След като се установи наличието на връзка между изследваните характеристики, чрез регресионен анализ се определя точната форма на тази връзка.

Регресионен анализсе състои в дефинирането на аналитичен израз (в дефиницията на функция), в който промяната на една стойност (резултантния атрибут) се дължи на влиянието на независима стойност (факториален атрибут). Тази връзка може да бъде количествено определена чрез конструиране на регресионно уравнение или регресионна функция.

Основният регресионен модел е сдвоен (еднофакторен) регресионен модел. Регресия по двойки– уравнението на връзката на две променливи прии х:

където - зависима променлива (резултатен знак);

– независима, обяснителна променлива (факториален атрибут).

В зависимост от характера на промяната прис промяна хправи разлика между линейни и нелинейни регресии.

Линейна регресия

Тази регресионна функция се нарича полином от първа степен и се използва за описание на процеси, развиващи се равномерно във времето.

Наличие на случаен член (регресионни грешки) е свързано с въздействието върху зависимата променлива на други фактори, които не са взети предвид в уравнението, с възможната нелинейност на модела, грешки в измерването, следователно външния вид уравнение на случайна грешкарегресията може да се дължи на следната цел причини:

1) непредставителност на извадката. Сдвоеният регресионен модел включва фактор, който не е в състояние да обясни напълно вариацията в променливата на резултата, която може да бъде повлияна от много други фактори (липсващи променливи) в много по-голяма степен. Заетостта, заплатите могат да зависят освен от квалификацията и от нивото на образование, трудов стаж, пол и др.;

2) има възможност променливите, включени в модела, да бъдат измерени погрешно. Например данните за семейните разходи за храна се събират от записите на участниците в проучването, от които се очаква внимателно да записват ежедневните си разходи. Разбира се, това може да доведе до грешки.

Въз основа на наблюдението на извадката се оценява регресионното уравнение на извадката ( регресионна линия):

където
– оценки на параметрите на регресионното уравнение (
).

Аналитична форма на зависимостмежду изследваната двойка характеристики (регресионна функция) се определя, като се използва следното методи:

Въз основа на теоретичен и логически анализприродата на изучаваните явления, тяхната социално-икономическа същност. Например, ако се изследва връзката между доходите на населението и размера на депозитите на населението в банките, тогава е очевидно, че връзката е пряка.

Графичен методкогато естеството на връзката се оценява визуално.

Тази зависимост може да се види ясно, ако изградите графика, като нанесете стойността на атрибута върху оста x х, а по оста y - стойностите на характеристиката при. Поставяне на графиката на точките, съответстващи на стойностите хи при, получаваме корелационно поле:

а) ако точките са произволно разпръснати в полето, това показва липсата на връзка между тези характеристики;

б) ако точките са концентрирани около ос, простираща се от долния ляв ъгъл до горния десен, тогава има пряка връзка между знаците;

в) ако точките са концентрирани около ос, минаваща от горния ляв ъгъл към долния десен, тогава обратна зависимостмежду знаци.

Ако свържем точките на корелационното поле с прави сегменти, тогава получаваме начупена линия с определен възходящ тренд. Това ще бъде емпирична връзка или емпирична регресионна линия. По външния му вид може да се прецени не само наличието, но и формата на връзката между изследваните характеристики.

Изграждане на двойно регресионно уравнение

Конструкцията на регресионното уравнение се свежда до оценка на неговите параметри. Тези оценки на параметрите могат да бъдат намерени по различни начини. Един от тях е методът на най-малките квадрати (LSM). Същността на метода е следната. Всяка стойност съответства на емпиричната (наблюдаваната) стойност . Чрез конструиране на регресионно уравнение, например уравнение на права линия, всяка стойност ще съответства на теоретичната (изчислената) стойност . Наблюдавани стойности не лежат точно на линията на регресия, т.е. не съвпадат с . Разликата между действителните и изчислените стойности на зависимата променлива се нарича остатък:

LSM ви позволява да получите такива оценки на параметрите, в които сумата от квадратните отклонения на действителните стойности на ефективната характеристика приот теоретично , т.е. сума от квадратите на остатъците, минимум:

За линейни уравнения и нелинейни уравнения, сводими до линейни, следната система се решава по отношение на аи b:

където н– размер на извадката.

Решавайки системата от уравнения, получаваме стойностите аи b, което ни позволява да пишем регресионно уравнение(регресионно уравнение):

където е обяснителната (независима) променлива;

–обяснена (зависима) променлива;

Регресионната линия минава през точката ( ,) и равенствата са изпълнени:

Можете да използвате готови формули, които следват от тази система от уравнения:

където - средната стойност на зависимия признак;

е средната стойност на независим признак;

е средноаритметичното на произведението на зависимите и независимите признаци;

е дисперсията на независим признак;

е ковариацията между зависимите и независимите характеристики.

Примерна ковариациядве променливи х, приНаречен средна стойностпроизведението на отклоненията на тези променливи от техните средни стойности

Параметър bпри хима голямо практическо значение и се нарича коефициент на регресия. Коефициент на регресияпоказва колко единици се променя средно стойността при х 1 мерна единица.

Знак за параметър bв уравнението на двойната регресия показва посоката на връзката:

ако
, то връзката между изследваните показатели е пряка, т.е. с нарастване на факторния знак хрезултантният знак нараства при, и обратно;

ако
, то връзката между изследваните показатели е обратна, т.е. с нарастване на факторния знак хефективен знак принамалява и обратно.

Стойност на параметъра ав уравнението на двойната регресия в някои случаи може да се интерпретира като начална стойност на ефективния признак при. Тази интерпретация на параметъра авъзможно само ако стойността
има значението.

След построяване на регресионното уравнение наблюдаваните стойности гможе да си представим като:

останки , както и грешки , са случайни променливи, но те, за разлика от грешките , наблюдавано. Остатъкът е тази част от зависимата променлива г, което не може да се обясни с регресионното уравнение.

Въз основа на регресионното уравнение може да се изчисли теоретични стойности хза всякакви стойности х.

В икономическия анализ често се използва понятието еластичност на функция. Функционална еластичност
изчислено като относителна промяна гдо относителна промяна х. Еластичността показва колко се променя функцията
когато независимата променлива се промени с 1%.

Тъй като еластичността на линейна функция
не е константа, а зависи от х, тогава коефициентът на еластичност обикновено се изчислява като среден индекс на еластичност.

Коефициент на еластичностпоказва с колко процента стойността на ефективния атрибут ще се промени средно в съвкупността припри смяна на знака на фактора х 1% от средната му стойност:

където
– средни стойности на променливите хи прив пробата.

Оценка на качеството на изградения регресионен модел

Качество на регресионния модел– адекватност на изградения модел спрямо изходните (наблюдавани) данни.

За измерване на плътността на връзката, т.е. за да измерите колко близо е до функционалното, трябва да определите дисперсията, която измерва отклоненията приот при хи характеризиране на остатъчната вариация, дължаща се на други фактори. Те са в основата на показателите, характеризиращи качеството на регресионния модел.

Качеството на двойната регресия се определя с помощта на характеризиращи коефициенти

1) плътността на връзката - индексът на корелация, сдвоеният коефициент на линейна корелация;

2) апроксимационна грешка;

3) качеството на регресионното уравнение и неговите отделни параметри - средните квадратични грешки на регресионното уравнение като цяло и неговите отделни параметри.

За регресионни уравнения от всякакъв вид се дефинират корелационен индекс, което характеризира само стегнатостта на корелационната зависимост, т.е. степента на неговото доближаване до функционална връзка:

където – факторна (теоретична) дисперсия;

е общата дисперсия.

Индексът на корелация приема стойности
, при което,

ако

ако
е връзката между характеристиките хи прие функционален, толкова по-близо до 1, толкова по-тясна е връзката между изследваните признаци. Ако
, тогава връзката може да се счита за близка

Изчисляват се отклоненията, необходими за изчисляване на показателите за плътност на връзката:

Обща дисперсия, който измерва общата вариация, дължаща се на действието на всички фактори:

Факторна (теоретична) дисперсия,измерване на вариацията на получената черта припоради действието на факторен знак х:

Остатъчна дисперсия, което характеризира вариацията на признака припоради всички фактори с изключение на х(т.е. с изключените х):

След това, съгласно правилото за добавяне на отклонения:

Качество на парната баня линеенрегресията може да се дефинира и с помощта на сдвоен линеен коефициент на корелация:

където
– ковариация на променливите хи при;

– стандартно отклонение на независим признак;

е стандартното отклонение на зависимия признак.

Коефициентът на линейна корелация характеризира плътността и посоката на връзката между изследваните признаци. Измерва се в рамките на [-1; +1]:

ако
- тогава връзката между знаците е пряка;

ако
- тогава връзката между знаците е обратна;

ако
– тогава няма връзка между знаците;

ако
или
- тогава връзката между признаците е функционална, т.е. характеризиращ се с перфектно съвпадение между хи при. Колкото по-близо до 1, толкова по-тясна е връзката между изследваните признаци.

Ако индексът на корелация (сдвоен линеен коефициент на корелация) е на квадрат, тогава получаваме коефициента на определяне.

Коефициент на определяне- представлява дела на факторната вариация в общата сума и показва колко процента е вариацията на резултантния атрибут приобяснява се с вариацията на факторния признак х:

Не обхваща всички вариации. приот факторна черта х, а само тази част от него, която съответства на уравнението на линейната регресия, т.е. показва специфичното тегло на вариацията на резултантния признак, линейно свързана с вариацията на факторния признак.

Стойност
- пропорцията на вариацията на резултантния атрибут, която регресионният модел не може да вземе предвид.

Разсейването на точките в корелационното поле може да бъде много голямо и изчисленото регресионно уравнение може да даде голяма грешка при оценката на анализирания показател.

Средна апроксимационна грешкапоказва средното отклонение на изчислените стойности от действителните:

Максимално допустимата стойност е 12–15%.

Стандартната грешка се използва като мярка за разпространението на зависимата променлива около регресионната линия.За целия набор от наблюдавани стойности, стандарт (rms) грешка на регресионното уравнение, което е стандартното отклонение на действителните стойности приспрямо теоретичните стойности, изчислени чрез регресионното уравнение при х .

където
е броят на степените на свобода;

ме броят на параметрите на регресионното уравнение (за уравнението на правата линия м=2).

Оценете стойността на средната стойност квадратична грешкаможете да го сравните

а) със средната стойност на ефективния признак при;

б) със стандартното отклонение на характеристиката при:

ако
, тогава използването на това регресионно уравнение е подходящо.

Оценява се отделно стандартен (rms) грешки на параметрите на уравнението и индекса на корелация:

;
;
.

 х- стандартно отклонение х.

Проверка на значимостта на регресионното уравнение и показателите за плътността на връзката

За да може конструираният модел да се използва за по-нататъшни икономически изчисления, не е достатъчно да се провери качеството на конструирания модел. Необходимо е също така да се провери значимостта (важността) на оценките на регресионното уравнение и показателя за близост на връзката, получени чрез метода на най-малките квадрати, т.е. е необходимо да ги проверите за съответствие с истинските параметри на връзката.

Това се дължи на факта, че показателите, изчислени за ограничена популация, запазват елемента на случайност, присъщ на индивидуалните стойности на атрибута. Следователно те са само оценки на определена статистическа закономерност. Необходимо е да се оцени степента на точност и значимост (надеждност, същественост) на регресионните параметри. Под важностразбиране на вероятността стойността на проверявания параметър да не е равна на нула не включва стойности с противоположни знаци.

Тест за значимост– проверка на предположението, че параметрите са различни от нула.

Оценяване на значимостта на сдвоеното регресионно уравнениесе свежда до проверка на хипотези за значимостта на регресионното уравнение като цяло и неговите отделни параметри ( а, b), двоен коефициент на детерминация или индекс на корелация.

В този случай може да се посочи следното основни хипотезиз 0 :

1)
– коефициентите на регресия са незначими и уравнението на регресията също е незначимо;

2)
– двойният коефициент на детерминация е незначим и уравнението на регресията също е незначимо.

Алтернативни (или обратни) са следните хипотези:

1)
– регресионните коефициенти са значително различни от нула, а построеното регресионно уравнение е значимо;

2)
– двойният коефициент на детерминация е значително различен от нула и построеното регресионно уравнение е значимо.

Тестване на хипотезата за значимостта на сдвоеното регресионно уравнение

За да проверим хипотезата за статистическа незначимост на уравнението на регресията като цяло и коефициента на детерминация, използваме Е-критерий(Критерий на Фишер):

или

където к 1 = м–1 ; к 2 = н– м е броят на степените на свобода;

не броят на единиците съвкупност;

ме броят на параметрите на регресионното уравнение;

– факторна дисперсия;

е остатъчната дисперсия.

Хипотезата се тества, както следва:

1) ако действителната (наблюдаваната) стойност Е-критерият е по-голям от критичната (таблична) стойност на този критерий
, тогава с вероятност
основната хипотеза за незначимостта на регресионното уравнение или двойния коефициент на детерминация се отхвърля и регресионното уравнение се признава за значимо;

2) ако действителната (наблюдаваната) стойност на F-критерия е по-малка от критичната стойност на този критерий
, тогава с вероятност (
) приема се основната хипотеза за незначимостта на регресионното уравнение или двойния коефициент на детерминация и изграденото регресионно уравнение се признава за незначително.

критична стойност Е- критерият се намира по съответните таблици в зависимост от нивото на значимост и брой степени на свобода
.

Брой степени на свобода– показател, който се определя като разлика между размера на извадката ( н) и броя на оценените параметри за тази извадка ( м). За сдвоен регресионен модел броят на степените на свобода се изчислява като
, тъй като два параметъра се оценяват от извадката (
).

Ниво на значимост - определената стойност
,

където е доверителната вероятност, че оцененият параметър попада в доверителния интервал. Обикновено се взема 0,95. По този начин е вероятността оцененият параметър да не попадне в доверителния интервал, равен на 0,05 (5%).

След това, в случай на оценка на значимостта на сдвоеното регресионно уравнение, критичната стойност на F-критерия се изчислява като
:

Тестване на хипотезата за значимостта на параметрите на уравнението на двойната регресия и индекса на корелация

При проверка на значимостта на параметрите на уравнението (предположението, че параметрите са различни от нула), се излага основната хипотеза за незначимостта на получените оценки (
. Като алтернативна (обратна) хипотеза се излага за значимостта на параметрите на уравнението (
).

За да проверим предложените хипотези, използваме T -критерий (T-статистика) Студент. Наблюдавана стойност T-критерият се сравнява със стойността T-критерий, определен от таблицата за разпределение на Стюдънт (критична стойност). критична стойност T- критерии
зависи от два параметъра: ниво на значимост и брой степени на свобода
.

Предложените хипотези се тестват, както следва:

1) ако модулът на наблюдаваната стойност T-критерият е по-голям от критичната стойност T-критерии, т.е.
, тогава с вероятност
отхвърля се основната хипотеза за незначимостта на регресионните параметри, т.е. регресионните параметри не са равни на 0;

2) ако модулът на наблюдаваната стойност T- критерият е по-малък или равен на критичната стойност T-критерии, т.е.
, тогава с вероятност
се приема основната хипотеза за незначимостта на регресионните параметри, т.е. регресионните параметри почти не се различават от 0 или са равни на 0.

Оценката на значимостта на регресионните коефициенти с помощта на теста на Стюдънт се извършва чрез сравняване на техните оценки със стойността на стандартната грешка:

;

За оценка на статистическата значимост на индекса (линейния коефициент) на корелацията се използва и T-Критерий на ученика.

Сдвоена линейна регресия

предварителни изчисления:

;
;
;
;
;

;
.

Изграждане на таблица за изглед



Означава

Формули за изчисляване на параметрите:

,
.

линеен

Оценка на плътността на комуникацията:

а) коефициент на корелация
, или
;

За компютърен избор използвайте вградената функция корел

б) коефициент на еластичност
;

в) коефициент на детерминация .

Оценка на значимостта на регресионното уравнение като цяло:

Предварителни изчисления с изграждане на таблица на формата

а) Е - Критерий на Фишерс броя на степените на свобода
и
и ниво на значимост 0,05, вижте таблицата. Прогнозна стойност на критерия:

Ако изчислената стойност на F-критерия е по-голяма от табличната, нулевата хипотеза за липсата на значима връзка на характеристиките хи г се отхвърля, като се прави извод за значимостта на това отношение.

б) Средна апроксимационна грешка

Оценка на значимостта на регресионните параметри:

а) Стандартна грешка на параметъра а изчислено по формулата

, където
.

б) Стандартна грешка на регресионния коефициент bизчислено по формулата

в) Стандартна грешка на корелационния коефициент изчислено по формулата

T-Критерий на Стюдънт с броя на степените на свобода
и ниво на значимост 0,05, вижте таблицата.

Действителни стойности T- статистика:

,
,
.

Ако действителната стойност надвишава табличната стойност по абсолютна стойност, хипотезата за незначимостта на регресионния параметър може да бъде отхвърлена, параметърът се признава за значим.

Връзка междуЕ - Критерий на Фишер и T -Критерий на ученикасе изразява с равенството

Изчисляване на доверителни интервали за регресионни параметри:

Доверителен интервал за параметър а определен като
;

доверителен интервал за коефициента на регресия определен като
.

Използвайте в Excel за компютърен анализ Услуга/Анализ на данни/Регресия.

Интервална прогноза въз основа на уравнение на линейна регресия:

Позволявам – прогнозна стойност на факторния атрибут;
– точкова прогноза на ефективния признак. Тогава

а) средна прогнозна грешка :

;

б) прогнозен доверителен интервал

с помощта на редактор на електронни таблициГОСПОЖИЦА превъзходен

Активиране на добавкаПакет за анализ

За да активирате добавка Пакет за анализтрябва да направите следното:

1. Изберете екип Услуга/Добавки.

2. В диалоговия прозорец, който се появява, поставете отметка в квадратчето Пакет за анализ.

В съответствие с опцията за задание, използвайки статистически материал, необходимо:

2. Оценете близостта на връзката между зависимата променлива (резултатен фактор) и обяснителната променлива, като използвате индикатори за корелация и детерминация.

3. Оценете с Е- Критерий на Фишер статистическа надеждност на моделирането.

4. Оценете статистическата значимост на регресионните и корелационните параметри.

5. Определете средната апроксимационна грешка.

6. Използвайки коефициента на еластичност, определете количествено влиянието на обясняващия фактор върху резултата.

7. Извършете точкова и интервална прогноза на резултантен признак с увеличение на обяснителния признак с 25% от средната му стойност (95% надеждност на прогнозата).

8. Покажете корелационното поле на изходните данни и регресионната линия на една диаграма.

Пример

Налични са данни за годишната цена на магистърската програма по бизнес администрация и броя на студентите в учебно заведение.

I. Въвеждане на изходните данни в документа превъзходен.

II. Извикваме добавката Анализ на даннив менюто Обслужване.

III. Избор на инструмент Регресия.

IV. Попълнете съответните позиции на прозореца Регресия.

V. След натискане на OK, получаваме протокол за решаване на проблема.

VI. Анализираме получения протокол.

1) Коефициент на регресия;

Свободен член на регресионното уравнение
.

Забележка. Ако е необходимо, резултатите се закръглят до желаната точност. Изискването за закръгляване може да бъде направено първоначално чрез задаване на броя на десетичните знаци в менюто Формат на клетка.

Сдвоеното уравнение на линейна регресия има формата: .

2) Коефициент на корелация
, което показва тясна връзка между чертите ги х. Коефициент на определяне
. Полученото регресионно уравнение обяснява 53% от вариацията на характеристиките г, останалите 47% от променливостта на този признак се дължат на влиянието на фактори, които не са взети предвид в модела.

3) Оценете статистическата значимост (надеждността на симулацията) на уравнението като цяло. Изчислената стойност на критерия на Фишер е посочена в протокола,
. Критичната стойност на този критерий може да се намери с помощта на статистическата функция ЕРАЗПРОСТРАНЕНИЕредактор на електронни таблици дxcel.

Входните параметри на тази функция са:

- ниво на значимост (вероятност), което означава вероятността грешка да отхвърли правилната хипотеза за статистическата незначимост на съставеното регресионно уравнение. По правило се избира ниво на значимост 0,05 или 0,01;

– брой степени на свобода 1 – съвпада с броя на параметрите на променливата в уравнението на регресията, за сдвоена линейна регресия
това число е равно на едно;

– броят на степените на свобода 2 е равен на за сдвоена линейна регресия
, където н– обем на изходните статистически данни.

Извършване на действия Вмъкване/функция, изберете този, който искате.

Тъй като изчислената стойност на F-критерия е по-голяма от табличната, равна на 4,84, нулевата хипотеза за липсата на значима връзка между признаците x и y се отхвърля и се прави заключение за значимостта на тази връзка.

4) Оценете статистическата значимост на параметрите аи bв регресионното уравнение с помощта T- Критерий на ученика.

Приблизителни стойности на статистиката на Студент
,
. Съответната стойност на таблицата може да се определи с помощта на статистическата функция СТУДРАСПОБР, броят на степените на свобода е
.

Тъй като действителните стойности в абсолютна стойност надвишават табличната стойност, равна на 2,2, хипотезата за незначимостта на регресионните параметри може да бъде отхвърлена.

5) Определете средната грешка на приближението,
. Ще трябва да извършите спомагателни изчисления, съставени под формата на таблица.

По този начин средната апроксимационна грешка за това регресионно уравнение е 12,66%, сдвоеният линеен регресионен модел може да се счита за задоволителен и подходящ за прогнозиране.

6) Извършете количествена оценка на влиянието на фактора хна фактор гс помощта на коефициента на еластичност. За двойна линейна регресия може да се намери по формулата
. Ние имаме

Следователно при увеличение на броя на слушателите с 1% годишната цена ще намалее с 0,4%.

7) Да изчислим прогнозата гс нарастващ фактор х 25% от средното.

Прогнозна стойност.

Предвиждане на характеристиките г: .

Средната прогнозна грешка е,

където
е остатъчната дисперсия,
е дисперсията на фактора х.

Числената стойност на сумата
в протокола е означен като остатъчен SS.

Тогава
,
.

Най-бързият начин за получаване на статистика за помощни програми – средната стойност на фактора хи - дисперсия, възползвайте се от инструмента Описателна статистикав опаковката Анализ на данни.

Изходният протокол за резултат изглежда така

Доверителен интервал на прогнозата: , където - съответната таблична стойност на критерия на Стюдънт (намерена по-рано от функцията СТУДРАСПОБР,
).

Следователно,

тези. можете да бъдете 95% сигурни, че цената на годишен курс с 35 студента ще варира в рамките на посочените граници (с прогноза за точкова цена от 3,65825 хиляди долара).

8) За да изградите диаграма, направете следното:

Етап 1 Вмъкване/Диаграма/Графика

Стъпка 3Ред/Добавяне/Стойности/Маркирайте колона със стойности на регресионен фактор − .

Стъпка 4Етикети на оситех/ Маркирайте колоната със стойности х.

Стъпка 4Задайте име на всяка от сериите, подпишете координатните оси и името на диаграмата.

Забележка.

За да начертаете стойността на фактор хтрябва да бъдат сортирани във възходящ ред, като се запази съответната стойност г. Може да се направи така Данни/Сортиране/Изберете колоната, в която искате да сортирате. Например,

Задачи за самостоятелна работа

Опция 1

Вариант 2

х– съотношение мощност/тегло на 10 предприятия, kW;

г- производителност на труда, хиляди рубли.

Вариант 3

х– качество на земята, точки;

г– производителност, ц/ха.

Вариант 4

х– качество на земята, точки;

г– производителност, ц/ха.

Вариант 5

х- оборот;

г- разходи за дистрибуция спрямо оборота.

Вариант 6

х- електрическа мощност на работник;

г- освобождаване на готова продукция на работник.

Вариант 7

х– ниво на семейния доход;

г- разходи за храна (на 100 рубли доход).