Регресия в Excel: уравнение, примери. Линейна регресия

Регресионният анализ е статистически метод за изследване, който ви позволява да покажете зависимостта на параметър от една или повече независими променливи. В предкомпютърната ера използването му е било доста трудно, особено когато става въпрос за големи количества данни. Днес, след като научихте как да изградите регресия в Excel, можете да решите сложно статистически проблемибуквално след няколко минути. По-долу са конкретни примери от областта на икономиката.

Видове регресия

Самата концепция е въведена в математиката през 1886 г. Регресията се случва:

  • линеен;
  • параболичен;
  • мощност;
  • експоненциален;
  • хиперболичен;
  • демонстративен;
  • логаритмичен.

Пример 1

Разгледайте проблема за определяне на зависимостта на броя на пенсионираните членове на екипа от средна работна заплатав 6 промишлени предприятия.

Задача. Шест предприятия са анализирали средномесечно заплатии броя на напусналите служители собствена воля. В табличен вид имаме:

Броят на напусналите хора

Заплата

30 000 рубли

35 000 рубли

40 000 рубли

45 000 рубли

50 000 рубли

55 000 рубли

60 000 рубли

За задачата за определяне на зависимостта на броя на пенсионираните работници от средната работна заплата в 6 предприятия регресионният модел има формата на уравнението Y = a 0 + a 1 x 1 +…+a k x k , където x i са влияещите променливи , a i са регресионните коефициенти, a k е броят на факторите.

За тази задача Y е индикаторът за напуснали служители, а влияещият фактор е заплатата, която означаваме с X.

Използване на възможностите на електронната таблица "Excel"

Регресионният анализ в Excel трябва да бъде предшестван от прилагане на вградени функции към наличните таблични данни. За тези цели обаче е по-добре да използвате много полезната добавка „Analysis Toolkit“. За да го активирате трябва:

  • от раздела "Файл" отидете в секцията "Опции";
  • в прозореца, който се отваря, изберете реда „Добавки“;
  • кликнете върху бутона "Отиди", разположен в долната част, вдясно от реда "Управление";
  • поставете отметка в квадратчето до името „Пакет за анализ“ и потвърдете действията си, като щракнете върху „OK“.

Ако всичко е направено правилно, желаният бутон ще се появи от дясната страна на раздела Данни, разположен над работния лист на Excel.

в Excel

Сега, когато имаме под ръка всички необходими виртуални инструменти за извършване на иконометрични изчисления, можем да започнем да решаваме нашия проблем. За това:

  • кликнете върху бутона "Анализ на данни";
  • в прозореца, който се отваря, кликнете върху бутона "Регресия";
  • в раздела, който се появява, въведете диапазона от стойности за Y (броят служители, които са напуснали) и за X (техните заплати);
  • Потвърждаваме действията си с натискане на бутона "Ok".

В резултат на това програмата автоматично ще попълни нов лист от електронната таблица с данни от регресионен анализ. Забележка! Excel има възможност ръчно да зададе местоположението, което предпочитате за тази цел. Например, може да е един и същ лист, където са стойностите Y и X, или дори нова книга, специално предназначени за съхранение на такива данни.

Анализ на резултатите от регресия за R-квадрат

В Excel данните, получени по време на обработката на данните от разглеждания пример, изглеждат така:

На първо място, трябва да обърнете внимание на стойността на R-квадрата. Това е коефициентът на детерминация. В този пример R-квадрат = 0,755 (75,5%), т.е. изчислените параметри на модела обясняват връзката между разглежданите параметри със 75,5%. Колкото по-висока е стойността на коефициента на детерминация, толкова по-приложим е избраният модел за конкретна задача. Смята се, че той правилно описва реалната ситуация със стойност на R-квадрат над 0,8. Ако R-квадрат<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Анализ на съотношението

Числото 64.1428 показва каква ще бъде стойността на Y, ако всички променливи xi в модела, който разглеждаме, са настроени на нула. С други думи, може да се твърди, че стойността на анализирания параметър се влияе и от други фактори, които не са описани в конкретен модел.

Следващият коефициент -0.16285, разположен в клетка B18, показва тежестта на влиянието на променливата X върху Y. Това означава, че средната месечна заплата на служителите в рамките на разглеждания модел влияе върху броя на напусналите с тежест -0.16285, т.е. степента на неговото влияние изобщо е малка. Знакът "-" показва, че коефициентът е с отрицателна стойност. Това е очевидно, тъй като всеки знае, че колкото по-висока е заплатата в предприятието, толкова по-малко хора изразяват желание да прекратят трудовия договор или да напуснат.

Множествена регресия

Този термин се отнася до уравнение на връзка с няколко независими променливи от формата:

y \u003d f (x 1 + x 2 + ... x m) + ε, където y е ефективната характеристика (зависима променлива), а x 1, x 2, ... x m са факторните фактори (независими променливи).

Оценка на параметъра

За множествена регресия (MR) се извършва по метода най-малки квадрати(MNK). За линейни уравнения от вида Y = a + b 1 x 1 +…+b m x m + ε изграждаме системата нормални уравнения(виж отдолу)

За да разберете принципа на метода, разгледайте двуфакторния случай. Тогава имаме ситуация, описана с формулата

От тук получаваме:

където σ е дисперсията на съответния признак, отразен в индекса.

LSM е приложим към уравнението MP в стандартизирана скала. В този случай получаваме уравнението:

където t y , t x 1, … t xm са стандартизирани променливи, за които средните стойности са 0; β i са стандартизираните регресионни коефициенти, а стандартното отклонение е 1.

Моля, имайте предвид, че всички β i в този случай са зададени като нормализирани и централизирани, така че тяхното сравнение помежду си се счита за правилно и допустимо. Освен това е обичайно да се филтрират фактори, като се изхвърлят тези с най-малки стойности на βi.

Проблем с използване на уравнение на линейна регресия

Да предположим, че има таблица с динамиката на цените на определен продукт N през последните 8 месеца. Необходимо е да се вземе решение за целесъобразността на закупуването на неговата партида на цена от 1850 рубли/т.

номер на месеца

име на месеца

цена на артикул N

1750 рубли на тон

1755 рубли на тон

1767 рубли на тон

1760 рубли на тон

1770 рубли на тон

1790 рубли на тон

1810 рубли на тон

1840 рубли на тон

За да разрешите този проблем в електронната таблица на Excel, трябва да използвате инструмента за анализ на данни, който вече е известен от горния пример. След това изберете секцията "Регресия" и задайте параметрите. Трябва да се помни, че в полето "Интервал на въвеждане Y" трябва да се въведе диапазон от стойности за зависимата променлива (в случая цената на даден продукт в определени месеци от годината), а в полето "Въвеждане интервал X" - за независимата променлива (номер на месец). Потвърдете действието, като щракнете върху „Ok“. На нов лист (ако е посочено така) получаваме данни за регресия.

Въз основа на тях изграждаме линейно уравнение от вида y=ax+b, където параметрите a и b са коефициентите на линията с името на номера на месеца и коефициентите и линията „Y-пресечка“ от лист с резултатите регресионен анализ. Така уравнението на линейната регресия (LE) за проблем 3 е написано като:

Цена на продукта N = 11.714* номер на месеца + 1727.54.

или в алгебрична нотация

y = 11,714 x + 1727,54

Анализ на резултатите

За да се реши дали полученото уравнение на линейна регресия е адекватно, се използват коефициенти на множествена корелация (MCC) и коефициенти на определяне, както и тест на Fisher и тест на Student. В таблицата на Excel с регресионни резултати те се показват съответно под имената на множество R, R-квадрат, F-статистика и t-статистика.

KMC R дава възможност да се оцени плътността на вероятностната връзка между независимите и зависимите променливи. Високата му стойност показва доста силна връзка между променливите "Номер на месеца" и "Цена на стоки N в рубли за 1 тон". Естеството на тази връзка обаче остава неизвестно.

Квадратът на коефициента на детерминация R 2 (RI) е числена характеристика на дела на общото разсейване и показва разсейването на коя част от експерименталните данни, т.е. стойностите на зависимата променлива съответстват на уравнението на линейната регресия. В разглежданата задача тази стойност е равна на 84,8%, т.е. статистическите данни се описват с висока степен на точност от полученото SD.

F-статистиката, наричана още тест на Фишер, се използва за оценка на значимостта на линейна връзка, опровергавайки или потвърждавайки хипотезата за нейното съществуване.

(Критерий на Стюдънт) помага да се оцени значимостта на коефициента с неизвестен или свободен член на линейна връзка. Ако стойността на t-критерия > t cr, тогава хипотезата за незначимостта на свободния член линейно уравнениеотхвърлени.

В разглежданата задача за свободния член с помощта на инструментите на Excel се получи, че t = 169.20903, и p = 2.89E-12, т.е. имаме нулева вероятност правилната хипотеза за незначителността на свободния член да бъде отхвърлени. За коефициента при неизвестно t=5,79405 и p=0,001158. С други думи, вероятността правилната хипотеза за незначимостта на коефициента за неизвестното да бъде отхвърлена е 0,12%.

По този начин може да се твърди, че полученото уравнение на линейна регресия е адекватно.

Проблемът за целесъобразността от закупуване на пакет от акции

Множествената регресия в Excel се извършва с помощта на същия инструмент за анализ на данни. Помислете за конкретен приложен проблем.

Ръководството на NNN трябва да вземе решение относно целесъобразността на закупуването на 20% дял в MMM SA. Цената на пакета (JV) е 70 милиона щатски долара. Специалистите на NNN събраха данни за подобни транзакции. Беше решено да се оцени стойността на пакета акции според такива параметри, изразени в милиони щатски долари, като:

  • дължими сметки (VK);
  • годишен оборот (VO);
  • вземания (VD);
  • себестойност на дълготрайните активи (SOF).

Освен това се използва параметърът просрочени задължения на предприятието (V3 P) в хиляди щатски долари.

Решение с помощта на електронна таблица на Excel

На първо място, трябва да създадете таблица с първоначални данни. Изглежда така:

  • извикайте прозореца "Анализ на данни";
  • изберете секцията "Регресия";
  • в полето "Интервал на въвеждане Y" въведете диапазона от стойности на зависимите променливи от колона G;
  • кликнете върху иконата с червена стрелка вдясно от полето "Input interval X" и изберете в листа диапазон от всички стойности от колони B,C, Д, Е.

Изберете „Нов работен лист“ и щракнете върху „Ok“.

Вземете регресионния анализ за дадения проблем.

Разглеждане на резултатите и заключения

„Ние събираме“ от закръглените данни, представени по-горе в електронната таблица на Excel, регресионното уравнение:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265.844.

В по-позната математическа форма може да се запише като:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Данните за АД "МММ" са представени в таблицата:

Замествайки ги в регресионното уравнение, те получават цифра от 64,72 милиона щатски долара. Това означава, че акциите на АД МММ не трябва да се купуват, тъй като тяхната стойност от 70 милиона щатски долара е доста завишена.

Както можете да видите, използването на електронната таблица на Excel и регресионното уравнение направи възможно вземането на информирано решение относно осъществимостта на много специфична транзакция.

Сега знаете какво е регресия. Обсъдените по-горе примери в Excel ще ви помогнат да решите. практически задачиот областта на иконометрията.

Сервизно задание. С помощта на този онлайн калкулатор можете да намерите параметрите на уравнение на нелинейна регресия (експоненциално, експоненциално, равностранна хипербола, логаритмично, експоненциално) (вижте примера).

Инструкция. Посочете количеството изходни данни. Полученото решение се записва във файл на Word. Шаблон за решение също се генерира автоматично в Excel.

Брой линии (първоначални данни)
Дадени са крайните стойности на количествата (∑x, ∑x 2 , ∑xy, ∑y, ∑y 2)
",0);">
Забележка: ако трябва да определите параметрите на параболичната зависимост (y = ax 2 + bx + c), тогава можете да използвате услугата за аналитично подравняване.
Възможно е да се ограничи хомогенен набор от единици чрез елиминиране на аномални обекти на наблюдение чрез метода на Irwin или чрез правилото на трите сигми (елиминиране на тези единици, за които стойността на обяснителния фактор се отклонява от средната с повече от три пъти стандарта отклонение).

Видове нелинейна регресия

Тук ε е случайна грешка (отклонение, смущение), отразяваща влиянието на всички неотчетени фактори.

Регресионно уравнение от първи реде уравнение на двойна линейна регресия.

Регресионно уравнение от втори редтова е полиномно регресионно уравнение от втори ред: y = a + bx + cx 2 .

Регресионно уравнение от трети редсъответно уравнението на полиномна регресия от трети ред: y = a + bx + cx 2 + dx 3 .

За да приведете нелинейни зависимости към линейни, се използват методи за линеаризация (вижте метода за подравняване):

  1. Промяна на променливите.
  2. Логаритъм от двете страни на уравнението.
  3. Комбиниран.
y = f(x)трансформацияМетод на линеаризация
y = b x aY = log(y); X = log(x)Логаритъм
y = b e axY = log(y); X=xКомбиниран
y = 1/(ax+b)Y = 1/y; X=xПромяна на променливите
y = x/(ax+b)Y=x/y; X=xПромяна на променливите. Пример
y = aln(x)+bY=y; X = log(x)Комбиниран
y = a + bx + cx2x 1 = x; х2 = х2Промяна на променливите
y = a + bx + cx2 + dx3x 1 = x; x 2 \u003d x 2; x 3 = x 3Промяна на променливите
y = a + b/xx 1 = 1/xПромяна на променливите
y = a + sqrt(x)bx 1 = sqrt(x)Промяна на променливите
Пример. Според данните, взети от съответната таблица, направете следното:
  1. Изградете корелационно поле и формулирайте хипотеза за формата на връзката.
  2. Изчислете параметрите на уравненията на линейна, степенна, експоненциална, полулогаритмична, обратна, хиперболична двойна регресия.
  3. Оценете тясността на връзката, като използвате индикатори за корелация и определяне.
  4. Използвайте средния (общ) коефициент на еластичност, за да дадете сравнителна оценка на силата на връзката между фактора и резултата.
  5. Оценете с средна грешкаапроксимационно качество на уравненията.
  6. Оценете статистическата надеждност на резултатите от регресионното моделиране, като използвате F-теста на Fisher. Според стойностите на характеристиките, изчислени в параграфи. 4, 5 и този параграф, изберете най-доброто регресионно уравнение и дайте неговата обосновка.
  7. Изчислете прогнозната стойност на резултата, ако прогнозираната стойност на фактора се увеличи с 15% от средното му ниво. Дефинирайте доверителен интервалпрогноза за ниво на значимост α=0.05 .
  8. Оценете получените резултати, направете изводи в аналитична бележка.
годинаДействително крайно потребление на домакинствата (по текущи цени), милиарди рубли (1995 г. - трилион рубли), гСреден паричен доход на глава от населението (на месец), рубли. (1995 г. - хиляди рубли), х
1995 872 515,9
2000 3813 2281,1
2001 5014 3062
2002 6400 3947,2
2003 7708 5170,4
2004 9848 6410,3
2005 12455 8111,9
2006 15284 10196
2007 18928 12602,7
2008 23695 14940,6
2009 25151 16856,9

Решение. В калкулатора изберете видове нелинейна регресия. Получаваме следната таблица.
Уравнението на експоненциалната регресия е y = a e bx
След линеаризацията получаваме: ln(y) = ln(a) + bx
Получаваме емпирични регресионни коефициенти: b = 0,000162, a = 7,8132
Регресионно уравнение: y = e 7,81321500 e 0,000162x = 2473,06858e 0,000162x

Уравнението на степенна регресия има формата y = a x b
След линеаризацията получаваме: ln(y) = ln(a) + b ln(x)
Емпирични регресионни коефициенти: b = 0,9626, a = 0,7714
Регресионно уравнение: y = e 0,77143204 x 0,9626 = 2,16286 x 0,9626

Уравнението на хиперболичната регресия е y = b/x + a + ε
След линеаризация получаваме: y=bx + a
Емпирични регресионни коефициенти: b = 21089190.1984, a = 4585.5706
Емпирично регресионно уравнение: y = 21089190.1984 / x + 4585.5706

Уравнението на логаритмичната регресия има формата y = b ln(x) + a + ε
Емпирични регресионни коефициенти: b = 7142.4505, a = -49694.9535
Регресионно уравнение: y = 7142,4505 ln(x) - 49694,9535

Уравнението на експоненциалната регресия има формата y = a b x + ε
След линеаризацията получаваме: ln(y) = ln(a) + x ln(b)
Емпирични регресионни коефициенти: b = 0,000162, a = 7,8132
y = e 7,8132 *e 0,000162x = 2473,06858*1,00016x

хг1/xlog(x)лог(y)
515.9 872 0.00194 6.25 6.77
2281.1 3813 0.000438 7.73 8.25
3062 5014 0.000327 8.03 8.52
3947.2 6400 0.000253 8.28 8.76
5170.4 7708 0.000193 8.55 8.95
6410.3 9848 0.000156 8.77 9.2
8111.9 12455 0.000123 9 9.43
10196 15284 9.8E-59.23 9.63
12602.7 18928 7.9E-59.44 9.85
14940.6 23695 6.7E-59.61 10.07
16856.9 25151 5.9E-59.73 10.13

Регресионно уравнение

Регресионното уравнение е математическа формула, която определя каква ще бъде средната стойност на y за определена стойност на x, ако не се вземат предвид всички други фактори, влияещи върху y, т.е. абстрахирайте се от тях.

Намирането във всеки конкретен случай на типа функция, която може най-точно да отрази връзката между x и y, е първата задача на регресионния анализ. Видове уравнения:

1) линейна зависимост;

2) парабола ;

3) хипербола;

4) експоненциална функция ;

5) степенна функцияи т.н.

Основната основа за избор на типа функция трябва да бъде смислен анализ на природата на изследваното явление. Полезно е зависимостта да се покаже графично.

Метод на най-малките квадрати

След това трябва да дефинирате параметрите на регресионното уравнение а 0и а 1, (също и за парабола а 2). За целта се използва методът на най-малките квадрати. Тя се основава на идеята за минимизиране на сумата от квадратните отклонения на действителните стойности y от техните изравнени (теоретични) стойности, т.е.

където аз- действителните стойности на ефективната характеристика;

y i (x i)са стойностите на y, намерени от регресионното уравнение.

Ако регресията е линейна, тогава

Разглеждане на сумата като функция на параметрите а 0и а 1, определете частните производни по отношение на а 0и а 1и ги приравняваме към нула, тъй като в екстремната точка производната на функцията е равна на нула:

Система от уравнения за различни видовезависимости между характеристиките

Ако връзката между признаците е линейна, тогава системата от уравнения за намиране на параметрите на регресионното уравнение ще приеме формата:

След решаване на системата за а 1и а 1съставете регресионното уравнение.

Ако връзката между знаците, които имат, се описва с уравнението на параболата , тогава системата от нормални уравнения приема формата:


икономически смисълпараметри на уравнението на линейната регресия

В уравнението на линейната регресия параметърът а 0определя средната стойност гкоято се влияе от всички фактори с изключение на х.



Параметър а 1наречен коефициент на регресия, той определя колко ще се промени средната стойност прикогато знакът на фактора се промени с единица. как повече стойност а 1, толкова по-значимо е влиянието на този факторен атрибут върху моделирания ефективен. Знакът на регресионния коефициент показва естеството на влиянието на фактора върху резултантния атрибут.

Коефициентът на еластичност показва колко процента ще се промени ефективният атрибут, когато факторният атрибут се промени с 1%. Общата формула за изчисляване на коефициента на еластичност е следната:

,

където y"(x)- първа производна на регресионното уравнение y(x)На х.

При различни стойностизнак за фактор хкоефициентът на еластичност приема различни стойности.

За уравнение на линейна регресия коефициентът на еластичност ще приеме формата:

За параболична връзка коефициентът на еластичност е:

.

За хиперболична връзка коефициентът на еластичност е:

3. Корелационен анализ. Индикатори за плътността на връзката между характеристиките

В случай на линейна връзка между знаците, за да оцените близостта на връзката, приложете коефициент на линейна корелация:

Коефициентът на линейна корелация варира от -1 до +1. Ако |r|<0,3, то связь слабая. Если 0,3 <|r| < 0,7, то связь средняя. Если 0,7 < |r| < 0,9, тогава връзката е над средната или близка. Ако |r| > 0,9, тогава връзката е силна или много тясна. Ако , то това дава основание да се говори за липса на линейна зависимост между хи г.

Многовариантният регресионен анализ дава възможност да се разграничи влиянието на факторните характеристики. Регресионен параметър за всяка факторна характеристика дава оценка за влиянието му върху стойността на ефективния признак
в случай на промяна на единица, като всички други фактори се поддържат постоянни.

Прогноза въз основа на получения моделизвършва се подобно на прогнозите за двойна линейна регресия.

Точкова прогнозаполучени чрез заместване на прогнозни стойности на факторни характеристики в регресионното уравнение. Получена стойност е точкова прогноза за ефективната характеристика
.

Интервална прогнозапоказва долната и горната граница на интервала, в който се намира истинската стойност на прогнозирания индикатор
. Доверителният интервал се дава от

тези. истинската стойност на прогнозирания индикатор
с вероятност 1 - принадлежи на доверителния интервал.

Пример 3.9.Съгласно таблица 3.17 запишете регресионното уравнение и анализирайте получения модел.

Решение.Тъй като инструментът за регресия може да извършва само линеен регресионен анализ, завършваме със следното многовариантно уравнение на линейна регресия

Таблица 3.17. Резултати от инструмента Регресия

Нека анализираме получения регресионен модел:


Следователно регресионният модел е подходящ за вземане на някои решения, но не и за прогнозиране.

Нека анализираме наличието на сдвоена корелация между факторните характеристики, включени в регресионния модел, според корелационната матрица (фиг. 3.8):



Фиг.3.8. Корелационна матрица

Нотация за корелационната матрица: - производителност на труда (средна годишна продукция на служител), хиляди гривни;
- сложността на единица продукция;
- делът на работниците в състава на индустриалния и производствения персонал;
- коефициент на изменение на оборудването; - бонуси и възнаграждения на един служител, %;
- непроизводствени разходи, %.

Следователно, въз основа на изследваната многовариантна извадка може да се заключи, че от разглежданите факторни характеристики производителността на труда се влияе от трудоемкостта на единица продукция и бонусите. Тези факторни характеристики трябва да бъдат включени в многовариантния нелинеен регресионен модел.

Тъй като коефициентът на детерминация е сравнително малък, при разработването на регресионен модел трябва да се вземат предвид допълнителни неотчетени факторни признаци.

Таблица 3.18 показва резултатите от инструмента "Регресия" за регресионен модел без факторен атрибут
Извършете анализ на този регресионен модел.

И корелация

1.1. Концепцията за регресия

Двойната регресия е уравнението на връзката на две променливи y и x

мил г= f(х),

където y е зависима променлива (резултатен знак); х е независима, обяснителна променлива (фактор на знак).

Има линейни и нелинейни регресии.

Линейна регресиясе описва с уравнението: г= а+ b× х+e .

Нелинейните регресии се разделят на два класа: регресии, които са нелинейни по отношение на обяснителните променливи, включени в анализа, но линейни по отношение на оценените параметри, и регресии, които са нелинейни по отношение на оценените параметри.

Примери за регресии, които са нелинейни в обяснителните променливи , но е-

линейни по отношение на оценените параметри:

полиноми от различни степени

равностранна хипербола:

Примери за регресии, които са нелинейни по отношение на оценените параметри:

мощност

демонстрация

експоненциален

Най-често използваните регресионни модели са:

- прав

– хиперболи

– параболи

– експоненциална функция

- мощностна функция

1.2. Изграждане на регресионно уравнение

Формулиране на проблема.Според съобщенията нстава

промяна на два параметъра хи г{(xi,yi), i=1,2,...,n) е необходимо да се определи

аналитична зависимост ŷ =f(x)който най-добре описва данните от наблюденията.

Изграждането на регресионното уравнение се извършва на два етапа (включва решаването на два проблема):

– спецификация на модела (определяне на вида на аналитичната зависимост

ŷ =f(x));

– оценка на параметрите на избрания модел.

1.2.1. Спецификация на модела

Регресия по двойки се прилага, ако има доминиращ фактор, който се използва като обяснителна променлива.

Има три основни метода за избор на типа аналитична зависимост:

– графичен (въз основа на анализа на полето на корелациите);

- аналитичен, т.е. въз основа на теорията на изследваната връзка;

– експериментално, т.е. чрез сравняване на стойността на остатъчната дисперсия достатъчна или средна грешка на приближението изчислени за различни

регресионни модели (метод на изброяване).

1.2.2. Оценяване на параметрите на модела

За оценка на регресионните параметри, които са линейни в тези параметри, се използва методът на най-малките квадрати (LSM). . LSM дава възможност да се получат такива оценки на параметрите, при които сумата от квадратните отклонения на действителните стойности на резултантната характеристика y от теоретичните стойности ŷ хс еднакви стойности на фактора хминимален, т.е.

В случай на линейна регресия, параметрите a и bса от следните

системи от нормални уравнения на метода LSM:

(1.1)

Можете да използвате готови формули, които следват от това

(1.2)

За нелинейни регресионни уравнения, намалени до линейни с помощта на трансформацията ( х, г) → (х', да), системата от нормални уравнения има

форма (1.1) в трансформираните променливи х', да.

Коефициент bс факторна променлива хима следната интерпретация: показва колко ще се промени средно стойността гкогато факторът се промени хза 1 мерна единица.

Хиперболична регресия:

x' = 1/x; y' = y.

Уравнения (1.1) и формули (1.2) приемат формата

Експоненциална регресия:

Линеаризираща трансформация: х' = х; y' = lny.

Променен изложител: , (0 < а 1 < 1).

Линеаризираща трансформация: х' = х; y' = lnд-К│.

Гранична стойност на растежа Кпредварително избрани въз основа на анализ

корелационни полета или по качествени причини. Параметър а 0 се взема от

Знак "+" ако гх > Ки със знак "-" в противен случай.

Функция мощност:

Линеаризираща трансформация: x' = log x; y' = log y.

Експоненциална функция:

Линеаризираща трансформация: х' = х; y' = lny.

https://pandia.ru/text/78/146/images/image026_7.jpg" width="459" height="64 src=">

Парабола от втори ред:

Параболата от втори ред има 3 параметъра а 0, а 1, а 2, които се определят от системата от три уравнения

1.3. Оценка на плътността на връзката

Тясността на връзката между изследваните явления се оценява с линейния коефициент

двойна корелация rxy за линейна регресия (–1 ≤ rxy≤ 1)

и индекс на корелация ρ xy за нелинейна регресия

Има връзка

Процент на дисперсия, обяснен с регресия, в обща дисперсияна ефективния признак y характеризира коефициента на детерминация r2xy (за линейна регресия) или индекс на определяне (за нелинейна регресия).

Коефициент на определянее квадратът на коефициента или корелационния индекс.

За да оцените качеството на изградения регресионен модел, можете да използвате

показател (коефициент, индекс) на детерминация Р 2 или средната грешка на приближението.

Колкото по-висок е индексът на определяне или колкото по-малка е средната грешка на приближението, толкова по-добре моделът описва първоначалните данни.

Средна грешка при приближаване - Средно относително отклонение

изчислени стойности от действителните

Построеното регресионно уравнение се счита за задоволително, ако

значение не надвишава 10-12%.

1.4. Оценка на значимостта на регресионното уравнение, неговите коефициенти,

коефициент на детерминация

Оценката на значимостта на цялото регресионно уравнение като цяло се извършва с

помогне Е- Критерий на Фишер.

Ф- Критерият на Фишер е да провери хипотезата Но върху статистическата незначимост на регресионното уравнение . За това се прави сравнение

действителен Ефакт и критичен (табличен) Етаблица със стойности Ф-критерии

Фишър .

Е фактът се определя от съотношението на стойностите на факториела и остатъка

дисперсии, изчислени за степен на свобода

където не броят на единиците съвкупност; ме броят на параметрите за променливите.

За линейна регресия м= 1 .

За нелинейна регресия, вместо r 2 xyизползвани Р 2.

Е таблица - максимално възможната стойност на критерия под влияние на случайни фактори със степени на свобода k1 = m, k2 = n – m– 1 (за линейна регресия м= 1) и ниво на значимост α.

Ниво на значимост α вероятност за отхвърляне на правилна хипотеза

при условие, че е правилно. Обикновено стойността на α се приема равна на 0,05 или

Ако Емаса< Ефакт, тогава 0 - хипотезата за случайния характер на оценените характеристики се отхвърля и признава за тяхна статистическа значимости надеждност. Ако Емаса факт, хипотезата Но не се отхвърля и се признава статистическата незначимост, ненадеждността на регресионното уравнение.

Да се ​​оцени статистическата значимост на коефициентите на линейна регресияи линеен коефициентдвойна корелация приложено

T- Тест на студент и доверителните интервали за всеки

от показатели.

Според T-критерий, хипотезата H 0 за случайния характер на показателите, тоест за тяхната незначителна разлика от нула. След това се изчисляват действителните стойности на критерия Tфакт за изчислените коефициенти на регресия и коефициент на корелация чрез сравняване на техните стойности със стойността на стандартната грешка

Стандартни грешки на параметрите и коефициента на линейна регресия

корелациите се определят от формулите

Сравняване на действителни и критични (таблични) стойности T-статистика

Tмаса и Tфакт приемат или отхвърлят хипотезата Но.

T маса- максимално възможната стойност на критерия под въздействието на случайни фактори за дадена степен на свобода k = n– 2 и ниво на значимост α.

Връзка между Ф-Критерий на Фишер (кога к 1 = 1; м=1) и T-Критерият на Стюден се изразява чрез равенството

Ако Tмаса< Tфакт, то Но се отклонява, т.е. а, би неслучайно са различни

от нула и се формира под въздействието на систематично действащ фактор x . Ако Tмаса > Tфакт, хипотезата Но не се отхвърля и случайният характер на формирането на a или https://pandia.ru/text/78/146/images/image041_2.jpg" width="574" height="59">

Ераздел се определя от таблицата със степени на свобода к 1 = 1, к 2 = н–2 и при

дадено ниво на значимост α. Ако Емаса< Евсъщност се признава статистическата значимост на коефициента на детерминация. Във формула (1.6), количеството мозначава броя на параметрите за променливи в съответното регресионно уравнение.

1.5. Изчисляване на доверителни интервали

Изчислените стойности на показателите (коеф а, b, ) са

приблизителни, получени въз основа на налични извадкови данни.

За да прецените как точни стойностииндикаторите могат да се различават от изчислените, се извършва изграждането на доверителни интервали.

Доверителните интервали определят границите, в които се намират точните стойности на определените показатели с дадена степен на увереност, съответстваща на дадено ниво на значимост α.

За изчисляване на доверителни интервали за параметри аи bуравнения на линейна регресия определяне на пределна грешка Δ за всеки индикатор:

Стойност T tabl е таблична стойност T-Критерий на Стюдънт под влияние на случайни фактори със степен на свобода к= н–2 и дадено ниво на значимост α.

Формулите за изчисляване на доверителните интервали са както следва:

https://pandia.ru/text/78/146/images/image045_3.jpg" width="188" height="62">

където Tγ - стойност случайна величина, спазвайки стандарта нормална дистрибуция, съответстваща на вероятността γ = 1 – α/2 (α е нивото на значимост);

z' = Z(rxy)- значение Z-Разпределение на Фишер, съответстващо на получената стойност на линейния корелационен коефициент rxy.

Гранични стойности на доверителния интервал ( r–, r+) за rxyсе получават

от граничните стойности на доверителния интервал ( z–, z+) за zкато се използва

функция, обратна Z-Разпределение на Фишер

1.6. Точкова и интервална прогноза по линейното уравнение

регресия

Точковата прогноза се състои в получаване на прогнозната стойност y стр, което се определя чрез заместване в регресионното уравнение

съответстваща (прогноза
) стойности хстр

Интервалната прогноза се състои в конструирането на доверителен интервал на прогнозата, т.е. долната и горната граница на y pmin,при pмаксинтервал, съдържащ точната стойност за прогнозната стойност https://pandia.ru/text/78/146/images/image050_2.jpg" width="37" height="44 src=">

и след това изградете прогнозен доверителен интервал, т.е. по-ниската и горната граница на прогнозния интервал

Тестови въпроси:

1. Какво се има предвид под регресия по двойки?

2. Какви задачи се решават при построяването на регресионно уравнение?

3. Какви методи се използват за избор на типа регресионен модел?

4. Какви функции най-често се използват за изграждане на сдвоено регресионно уравнение?

5. Каква е формата на системата от нормални уравнения на метода на най-малките квадрати в случай на линейна регресия?

6. Каква е формата на системата от нормални уравнения на метода на най-малките квадрати в случай на хиперболична, експоненциална регресия?

7. Каква формула се използва за изчисляване на линейния коефициент на двойна корелация rxy?

8. Как се изгражда доверителен интервал за корелационен коефициент на линейна двойка?

9. Как се изчислява корелационният индекс?

10. Как се изчислява индексът на детерминация и какво показва?

11. Как се проверява значимостта на регресионното уравнение и индивидуалните коефициенти?

12. Как се конструира доверителният интервал на прогнозата в случай на линейна регресия?

Лаборатория №1

Задача.1 Въз основа на данните от табл. P1 за съответната опция (Таблица 1.1):

1. Изчислете коефициента на корелация на линейната двойка.

2. Проверете значимостта на коефициента на корелация на двойката.

3. Конструирайте доверителен интервал за корелационния коефициент на линейната двойка.

Упражнение. 2 Въз основа на данните в табл. P1 за съответната опция (Таблица 1.1):

1. Съставете предложените регресионни уравнения, включително линейна регресия.

2. Изчислете двойните корелационни индекси за всяко уравнение.

3. Проверете значимостта на регресионните уравнения и отделните коефициенти на линейното уравнение.

4. Определете най-доброто регресионно уравнение въз основа на средната грешка на приближението.

5. Изградете интервална прогноза за стойността х= хмакс. за линеен

регресионни уравнения.

Изисквания за представяне на резултатите

Лабораторният доклад трябва да съдържа следните раздели:

1. Описание на задачата;

2. Описание на решението на лабораторната работа (по етапи);

3. Представяне на получените резултати.

Таблица P1

Първоначални данни към лабораторна работа1, 2

Наличност на стоки за дълготрайна употреба в домакинствата по региони Руска федерация(Европейската част на територията без републики Северен Кавказ) (въз основа на извадково изследване на домакинските бюджети; на 100 домакинства; артикули)

Споделете с приятели или запазете за себе си:

Зареждане...