Определяне на коефициента на значимост на факторите от регресионното уравнение. Оценка на нивата на значимост на коефициентите на регресионното уравнение

ТЕМА 4. СТАТИСТИЧЕСКИ МЕТОДИ ЗА ИЗУЧАВАНЕ НА ВРЪЗКИ

Регресионно уравнение -това е аналитично представяне на корелационната зависимост. Уравнението на регресията описва хипотетична функционална връзка между условната средна стойност на ефективния признак и стойността на признака - фактор (фактори), т.е. основната тенденция на пристрастяване.

Двойната корелационна зависимост се описва от уравнението на двойната регресия, множествената корелационна зависимост се описва от уравнението множествена регресия.

Характеристиката-резултат в регресионното уравнение е зависимата променлива (отговор, обяснителна променлива), а характеристиката-фактор е независимата променлива (аргумент, обяснителна променлива).

Най-простият тип регресионно уравнение е уравнението на сдвоена линейна връзка:

където y е зависимата променлива (знак-резултат); x е независима променлива (коефициент на знак); и са параметрите на регресионното уравнение; - Грешка в оценката.

Различни математически функции могат да се използват като регресионно уравнение. Често срещан практическа употребанамерете уравнения на линейна зависимост, парабола, хипербола, степна функция и др.

По правило анализът започва с линейна връзка, тъй като резултатите са лесни за смислено интерпретиране. Изборът на вида на ограничителното уравнение е доста важна стъпка в анализа. В "предкомпютърната" ера тази процедура беше свързана с определени трудности и изискваше анализаторът да познава свойствата на математическите функции. Понастоящем, въз основа на специализирани програми, е възможно бързо да се конструира набор от комуникационни уравнения и въз основа на формални критерии да се избере най-добрият модел (обаче математическата грамотност на анализатора не е загубила своята релевантност).

Въз основа на резултатите от конструирането на корелационното поле може да се изложи хипотеза за вида на корелационната зависимост (виж лекция 6). Въз основа на естеството на местоположението на точките на графиката (координатите на точките съответстват на стойностите на зависимите и независимите променливи) се разкрива тенденцията на връзката между знаците (индикаторите). Ако регресионната линия минава през всички точки на корелационното поле, това показва функционална връзка. В практиката на социално-икономическите изследвания такава картина не може да се наблюдава, тъй като има статистическа (корелационна) зависимост. В условията на корелационна зависимост при изчертаване на регресионна линия върху точкова диаграма се наблюдава отклонение на точките на корелационното поле от регресионната линия, което демонстрира т. нар. остатъци или грешки в оценката (виж Фигура 7.1).

Наличието на грешка в уравнението се дължи на факта, че:

§ не всички фактори, влияещи върху резултата, са взети предвид в уравнението на регресията;

§ формата на връзката може да е неправилно избрана - регресионното уравнение;

§ Не всички фактори са включени в уравнението.

Да се ​​състави регресионно уравнение означава да се изчислят стойностите на неговите параметри. Регресионното уравнение се изгражда въз основа на действителните стойности на анализираните характеристики. Изчисляването на параметрите обикновено се извършва с помощта на метод най-малки квадрати(MNK).

Същността на МНКе, че е възможно да се получат такива стойности на параметрите на уравнението, при които сумата от квадратите на отклоненията на теоретичните стойности на атрибута-резултат (изчислен на базата на регресионното уравнение) от действителното му стойностите са сведени до минимум:

,

където е действителната стойност на характеристиката-резултат y i-та единицаинертни материали; - стойността на знака-резултат на i-тата единица от съвкупността, получена от регресионното уравнение ().

По този начин проблемът се решава за екстремум, т.е. необходимо е да се намери при какви стойности на параметрите функцията S достига минимум.

Извършване на диференциране, приравняване на частните производни на нула:



, (7.3)

, (7.4)

където е средното произведение на стойностите на фактора и резултата; - средната стойност на знака - фактор; - средната стойност на знака-резултат; - дисперсия на знак-фактора.

Параметърът в регресионното уравнение характеризира наклона на регресионната линия на графиката. Тази опция се нарича регресионен коефициенти стойността му характеризира с колко мерни единици ще се промени знакът-резултат, когато факторът на знака се промени с единицата на неговото измерване. Знакът на регресионния коефициент отразява посоката на зависимостта (пряка или обратна) и съвпада със знака на корелационния коефициент (при условия на сдвоена зависимост).

Като част от разглеждания пример, програмата STATISTICA изчислява параметрите на регресионното уравнение, което описва връзката между нивото на средния паричен доход на глава от населението и стойността на брутния регионален продукт на глава от населението в регионите на Русия, виж таблица 7.1.

Таблица 7.1 - Изчисляване и оценка на параметрите на уравнението, описващо връзката между нивото на средния паричен доход на глава от населението и стойността на брутния регионален продукт на глава от населението в регионите на Русия, 2013 г.

Колона "B" на таблицата съдържа стойностите на параметрите на уравнението на двойната регресия, следователно можете да напишете: = 13406,89 + 22,82 x. Това уравнение описва тенденцията на връзката между анализираните характеристики. Параметърът е коефициентът на регресия. В този случай той е равен на 22,82 и характеризира следното: с увеличение на БВП на глава от населението с 1 хил. Рубли средните парични доходи на глава от населението се увеличават средно (както е посочено със знака "+") с 22,28 рубли.

Параметърът на регресионното уравнение в социално-икономическите изследвания, като правило, не се интерпретира смислено. Формално той отразява стойността на знака - резултат, при условие че знакът - фактор е равен на нула. Параметърът характеризира местоположението на регресионната линия на графиката, вижте Фигура 7.1.

Фигура 7.1 - Корелационно поле и регресионна линия, отразяваща зависимостта на нивото на средния паричен доход на глава от населението в регионите на Русия и стойността на GRP на глава от населението

Стойността на параметъра съответства на точката на пресичане на регресионната линия с оста Y, при X=0.

Построяването на регресионното уравнение е придружено от оценка статистическа значимостуравнението като цяло и неговите параметри. Необходимостта от подобни процедури е свързана с ограничено количество данни, което може да попречи на действието на закона големи числаи следователно разкриване на истинската тенденция във връзката на анализираните показатели. В допълнение, всяка изследвана популация може да се разглежда като извадка от населениеи характеристиките, получени по време на анализа, като оценка на общите параметри.

Оценката на статистическата значимост на параметрите и уравнението като цяло е обосновката на възможността за използване на изградения комуникационен модел за вземане на управленски решения и прогнозиране (моделиране).

Статистическа значимост на регресионното уравнениекато цяло се оценява с помощта на F-тест на Fisher, което е отношението на факторните и остатъчните дисперсии, изчислени за една степен на свобода:

Където - факторна дисперсия на признака - резултат; k е броят на степените на свобода на факторната дисперсия (броят на факторите в регресионното уравнение); - средната стойност на зависимата променлива; - теоретична (получена чрез регресионното уравнение) стойност на зависимата променлива за i-тата единица от съвкупността; - остатъчна дисперсиязнак - резултат; n е обемът на населението; n-k-1 е броят на степените на свобода на остатъчната дисперсия.

Стойността на F-теста на Фишер, съгласно формулата, характеризира съотношението между фактора и остатъчните дисперсии на зависимата променлива, като по същество показва колко пъти стойността на обяснената част от вариацията надвишава необяснената.

F-тестът на Fisher е представен в таблица, входът към таблицата е броят на степените на свобода на факторните и остатъчните дисперсии. Сравнението на изчислената стойност на критерия с табличната (критична) позволява да се отговори на въпроса: тази част от вариацията на признака-резултат, която може да се обясни с факторите, включени в уравнението от този тип, е статистически значима? Ако , тогава регресионното уравнение се признава за статистически значимо и съответно коефициентът на детерминация също е статистически значим. В противен случай ( ), уравнението е статистически незначимо, т.е. вариацията на факторите, взети предвид в уравнението, не обяснява статистически значимата част от вариацията на черта-резултат или уравнението на връзката не е избрано правилно.

Оценка на статистическата значимост на параметрите на уравнениетоизвършено на осн t-статистика, което се изчислява като съотношението на абсолютната стойност на параметрите на регресионното уравнение към техните стандартни грешки ( ):

, Където ; (7.6)

, Където ; (7.7)

Където - стандартни отклонениязнак - фактор и знак - резултат; - коефициент на детерминация.

В специализираните статистически програми изчисляването на параметрите винаги се придружава от изчисляване на техните стандартни (средноквадратични) грешки и t-статистики (виж таблица 7.1). Изчислената стойност на t-статистиката се сравнява с табличната, ако обемът на изследваната популация е по-малък от 30 единици (определено малка извадка), трябва да се направи справка с t-разпределителната таблица на Student, ако обемът на популацията е голям, трябва да се използва таблицата за нормално разпределение (вероятностния интеграл на Лаплас). Параметърът на уравнението се счита за статистически значим, ако.

Оценката на параметри, базирана на t-статистика, по същество е проверка на нулевата хипотеза за равенството на общите параметри на нула (H 0: =0; H 0: =0;), тоест за статистически незначим стойност на параметрите на регресионното уравнение. Нивото на значимост на хипотезата, като правило, се приема: = 0,05. Ако изчисленото ниво на значимост е по-малко от 0,05, тогава нулевата хипотеза се отхвърля и се приема алтернативната - за статистическата значимост на параметъра.

Да продължим с примера. Таблица 7.1 в колона "B" показва стойностите на параметрите, в колоната Std.Err.ofB - стойностите на стандартните грешки на параметрите ( ), в колоната t (77 - броят на степените на свобода) стойностите на t - статистиката се изчисляват, като се вземе предвид броят на степените на свобода. За да се оцени статистическата значимост на параметрите, изчислените стойности на t-статистиката трябва да се сравнят със стойността на таблицата. Даденото ниво на значимост (0,05) в таблицата за нормално разпределение съответства на t = 1,96. От 18.02, 10.84, т.е. , трябва да се признае статистическата значимост на получените стойности на параметрите, т.е. тези стойности се формират под въздействието на неслучайни фактори и отразяват тенденцията на връзката между анализираните показатели.

За да оценим статистическата значимост на уравнението като цяло, се обръщаме към стойността на F-теста на Фишер (вижте таблица 7.1). Изчислената стойност на F-критерия = 117.51, табличната стойност на критерия, базирана на съответния брой степени на свобода (за факторна дисперсия d.f. =1, за остатъчна дисперсия d.f. =77), е 4.00 (вижте Приложение .. .. .). По този начин, , следователно уравнението на регресията като цяло е статистически значимо. В такава ситуация може да се говори и за статистическа значимост на стойността на коефициента на детерминация, т.е. 60-процентната разлика в средните доходи на глава от населението в регионите на Русия може да се обясни с промяната в обема на брутния регионален продукт на глава от населението.

Чрез оценка на статистическата значимост на регресионното уравнение и неговите параметри можем да получим различна комбинация от резултати.

· Уравнението чрез F-тест е статистически значимо и всички параметри на уравнението чрез t-статистиката също са статистически значими. Това уравнение може да се използва както за вземане на управленски решения (кои фактори трябва да бъдат повлияни, за да се получи желаният резултат), така и за прогнозиране на поведението на резултатния атрибут за определени стойности на факторите.

· Според F-критерия уравнението е статистически значимо, но параметрите (параметър) на уравнението са незначими. Уравнението може да се използва за вземане на управленски решения (относно тези фактори, за които е потвърдена статистическата значимост на тяхното влияние), но уравнението не може да се използва за прогнозиране.

· Уравнението на F-теста не е статистически значимо. Уравнението не може да се използва. Трябва да продължи търсенето на значими признаци-фактори или аналитична форма на връзката между аргумента и отговора.

Ако статистическата значимост на уравнението и неговите параметри се потвърди, тогава може да се приложи така наречената точкова прогноза, т.е. беше получена оценка на стойността на атрибута-резултат (y) за определени стойности на фактора (x).

Съвсем очевидно е, че прогнозираната стойност на зависимата променлива, изчислена на базата на релационното уравнение, няма да съвпадне с нейната действителна стойност ( Графично тази ситуация се потвърждава от факта, че не всички точки на корелационното поле лежат на линията на регресия, само с функционална връзка линията на регресия ще премине през всички точки на диаграмата на разсейване. Наличието на несъответствия между действителните и теоретичните стойности на зависимата променлива се дължи преди всичко на самата същност на корелационната зависимост: в същото време много фактори влияят върху резултата, от които само част могат да бъдат взети предвид в конкретно уравнение на връзката. В допълнение, формата на връзката между резултата и фактора (вида на регресионното уравнение) може да бъде неправилно избрана. В тази връзка възниква въпросът доколко е информативно построеното уравнение на ограничение. На този въпрос отговарят два показателя: коефициентът на детерминация (вече беше обсъден по-горе) и стандартната грешка на оценката.

Разликата между действителните и теоретичните стойности на зависимата променлива се нарича отклонения или грешки, или остатъци. Въз основа на тези стойности се изчислява остатъчната дисперсия. Корен квадратенот остатъчната дисперсия и е средноквадратична (стандартна) грешка при оценка:

= (7.8)

Стандартната грешка на уравнението се измерва в същите единици като прогнозираната скорост. Ако грешките на уравнението следват нормално разпределение (с големи количества данни), тогава 95 процента от стойностите трябва да са от регресионната линия на разстояние, което не надвишава 2S (въз основа на свойството на нормално разпределение - правилото от три сигма). Стойността на стандартната грешка на оценката се използва при изчисляването на доверителните интервали, когато се прогнозира стойността на знак - резултатът за конкретна единица от съвкупността.

В практическите изследвания често става необходимо да се предскаже средната стойност на признак - резултат за определена стойност на признак - фактор. В този случай при изчисляването на доверителния интервал за средната стойност на зависимата променлива()

стойността се взема предвид средна грешка:

(7.9)

Използването на различни стойности на грешката се обяснява с факта, че променливостта на нивата на показателите за конкретни единици от съвкупността е много по-висока от променливостта на средната стойност, следователно грешката на прогнозата на средната стойност е по-малка.

Доверителен интервалпрогноза за средната стойност на зависимата променлива:

, (7.10)

Където - пределна грешкаоценки (вижте теория на извадката); t е коефициентът на доверие, чиято стойност е в съответната таблица, въз основа на нивото на вероятност, прието от изследователя (брой степени на свобода) (вижте теорията на вземането на проби).

Доверителният интервал за прогнозираната стойност на атрибута резултат може също да бъде изчислен, като се вземе предвид корекцията за отместването (отместването) на регресионната линия. Стойността на корекционния коефициент се определя от:

(7.11)

където е стойността на атрибута-фактор, въз основа на която се прогнозира стойността на атрибута-резултат.

От това следва, че колкото повече стойността се различава от средната стойност на атрибута-фактор, толкова повече стойносткоригиращ фактор, толкова по-голяма е грешката в прогнозата. Като се има предвид този коефициент, ще се изчисли доверителният интервал на прогнозата:

Точността на прогнозата въз основа на регресионното уравнение може да бъде повлияна от различни причини. На първо място, трябва да се има предвид, че оценката на качеството на уравнението и неговите параметри се основава на предположението за нормално разпределение на случайните остатъци. Нарушаването на това предположение може да се дължи на наличието на рязко различни стойности в данните, с неравномерна вариация, с наличие на нелинейна връзка. В този случай качеството на прогнозата се намалява. Второто нещо, което трябва да имате предвид е, че стойностите на факторите, взети предвид при прогнозиране на резултата, не трябва да надхвърлят диапазона на вариация на данните, на които се основава уравнението.

©2015-2019 сайт
Всички права принадлежат на техните автори. Този сайт не претендира за авторство, но предоставя безплатно използване.
Дата на създаване на страницата: 2018-01-08

След намиране на уравнението линейна регресия, се оценява значимостта както на уравнението като цяло, така и на неговите отделни параметри.

Проверете значението на регресионното уравнение - означава да се определи дали математически модел, изразяваща връзката между променливи, експериментални данни и дали има достатъчно обяснителни променливи (една или повече), включени в уравнението, за да се опише зависимата променлива.

Тестът за значимост се основава на дисперсионен анализ.

Според идеята за дисперсионен анализ общата сума на квадратните отклонения (RMS) на y от средната стойност се разлага на две части - обяснена и необяснима:

или съответно:

Тук има два екстремни случая: когато общото стандартно отклонение е точно равно на остатъка и когато общото стандартно отклонение е равно на факториела.

В първия случай факторът x не влияе на резултата, цялата дисперсия на y се дължи на влиянието на други фактори, регресионната линия е успоредна на оста Ox и уравнението трябва да изглежда така.

Във втория случай други фактори не влияят на резултата, y е свързано с x функционално и остатъчното стандартно отклонение е нула.

На практика обаче и двата термина присъстват от дясната страна. Пригодността на регресионната линия за прогнозиране зависи от това каква част от общата дисперсия в y се отчита от обяснената дисперсия. Ако обясненото RMSD е по-голямо от остатъчното RMSD, тогава регресионното уравнение е статистически значимо и факторът x има значителен ефект върху резултата y. Това е еквивалентно на факта, че коефициентът на детерминация ще се доближи до единица.

Броят на степените на свобода (df-степени на свобода) е броят на независимо променливите стойности на характеристиките.

Общото стандартно отклонение изисква (n-1) независими отклонения,

Факториалното стандартно отклонение има една степен на свобода и

Така можем да напишем:

От този баланс определяме, че = n-2.

Като разделим всяко стандартно отклонение на неговия брой степени на свобода, получаваме средния квадрат на отклоненията или дисперсията за една степен на свобода: - обща дисперсия, - факториел, - остатък.

Анализ на статистическата значимост на коефициентите на линейна регресия

Въпреки че теоретичните стойности на коефициентите на уравнението на линейната зависимост се приемат за постоянни, оценките на a и b на тези коефициенти, получени в процеса на конструиране на уравнението от произволни данни за извадка, са случайни променливи. Ако регресионните грешки имат нормална дистрибуция, тогава оценките на коефициентите също са нормално разпределени и могат да се характеризират с техните средни стойности и дисперсия. Следователно анализът на коефициентите започва с изчисляването на тези характеристики.

Дисперсиите на коефициента се изчисляват по формулите:

Дисперсия на регресионния коефициент:

където е остатъчната дисперсия за една степен на свобода.

Дисперсия на параметрите:

Следователно стандартната грешка на регресионния коефициент се определя по формулата:

Стандартната грешка на параметъра се определя по формулата:

Те служат за тестване на нулеви хипотези, че истинската стойност на регресионния коефициент b или пресечната точка a е нула: .

Алтернативната хипотеза има формата: .

t-статистиките имат t-разпределение на Стюдънт със степени на свобода. Според таблиците за разпределение на Стюдънт при определено ниво на значимост b и степени на свобода се намира критична стойност.

Ако тогава нулевата хипотеза трябва да бъде отхвърлена, коефициентите се считат за статистически значими.

Ако, тогава нулевата хипотеза не може да бъде отхвърлена. (Ако коефициентът b е статистически незначим, уравнението трябва да изглежда така и това означава, че няма връзка между характеристиките. Ако коефициентът a е статистически незначим, се препоръчва да се оцени новото уравнение във формуляра).

Оценки на интервалния коефициент линейно уравнениерегресии:

Доверителен интервал за A: .

Доверителен интервал заб:

Това означава, че при дадена надеждност (където е нивото на значимост), истинските стойности на a, b са в посочените интервали.

Коефициентът на регресия има ясна икономическа интерпретация, така че доверителните граници на интервала не трябва да съдържат противоречиви резултати, например Те не трябва да включват нула.

Анализ на статистическата значимост на уравнението като цяло.

Разпределение на Фишер в регресионния анализ

Оценката на значимостта на регресионното уравнение като цяло се дава с помощта на F-теста на Фишер. В този случай се излага нулевата хипотеза, че всички коефициенти на регресия, с изключение на свободния член a, са равни на нула и следователно факторът x не влияе на резултата y (или).

Стойността на F - критерия е свързана с коефициента на детерминация. Кога множествена регресия:

където m е броят на независимите променливи.

Кога регресия по двойкиформула F - статистиката приема формата:

При намиране на табличната стойност на F-критерия се задава ниво на значимост (обикновено 0,05 или 0,01) и две степени на свобода: - в случай на множествена регресия, - за сдвоена регресия.

Ако, тогава се отхвърля и се прави заключение за значимостта на статистическата връзка между y и x.

Ако, тогава вероятността регресионното уравнение да се счита за статистически незначимо не се отхвърля.

Коментирайте. При двойна линейна регресия. Също така, следователно. По този начин, тестването на хипотези за значимостта на коефициентите на регресия и корелация е еквивалентно на тестване на хипотезата за значимостта на уравнението на линейната регресия.

Разпределението на Фишър може да се използва не само за тестване на хипотезата, че всички коефициенти на линейна регресия са едновременно равни на нула, но и на хипотезата, че някои от тези коефициенти са равни на нула. Това е важно при разработването на линейна регресионен модел, тъй като позволява да се оцени валидността на изключването на отделни променливи или техните групи от броя на обяснителните променливи или, обратно, включването им в този брой.

Нека, например, първоначално е оценена множествена линейна регресия за n наблюдения с m обяснителни променливи и коефициентът на детерминация е равен, след това последните k променливи се изключват от списъка с обяснителни променливи и уравнението, за което коефициентът на определяне е (, тъй като (всяка допълнителна променлива обяснява част, колкото и малка да е, от вариацията в зависимата променлива).

За да се провери хипотезата за едновременното равенство на нула на всички коефициенти с изключени променливи, се изчислява стойността

който има разпределение на Фишер със степени на свобода.

Според таблиците за разпределение на Фишер, при дадено ниво на значимост те намират. И ако, тогава нулевата хипотеза се отхвърля. В този случай е неправилно да се изключат всички k променливи от уравнението.

Подобни разсъждения могат да бъдат проведени относно валидността на включването на една или повече k нови обяснителни променливи в регресионното уравнение.

В този случай се изчислява F - статистика

имащи разпределение. И ако надхвърли критично ниво, тогава включването на нови променливи обяснява значителна част от необяснената преди това вариация на зависимата променлива (т.е. включването на нови обяснителни променливи е оправдано).

Забележки. 1. Препоръчително е да включвате нови променливи една по една.

2. За да се изчисли F - статистика, когато се обмисля включването на обяснителни променливи в уравнението, е желателно да се вземе предвид коефициентът на детерминация, коригиран за броя на степените на свобода.

F - статистиката на Фишер се използва и за проверка на хипотезата за съвпадението на регресионните уравнения за отделни групи наблюдения.

Нека има 2 проби, съдържащи съответно наблюдения. За всяка от тези проби беше оценено регресионното уравнение на вида. Нека стандартното отклонение от регресионната линия (т.е.) е равно за тях, съответно, .

Тества се нулевата хипотеза: че всички съответни коефициенти на тези уравнения са равни един на друг, т.е. регресионното уравнение за тези проби е същото.

Нека регресионното уравнение от същия тип бъде оценено за всички наблюдения наведнъж и RMS.

След това се изчислява F - статистика по формулата:

Има разпределение на Фишер със степени на свобода. F - статистиката ще бъде близка до нула, ако уравнението за двете проби е едно и също, т.к в такъв случай. Тези. ако, тогава нулевата хипотеза се приема.

Ако, тогава нулевата хипотеза се отхвърля и не може да бъде конструирано едно регресионно уравнение.

След като се намери уравнението на линейната регресия, се оценява значимостта както на уравнението като цяло, така и на отделните му параметри.

Оценката на значимостта на регресионното уравнение като цяло се дава с помощта на F-теста на Фишер. В този случай се излага нулевата хипотеза, коефициентът на регресия е нула, т.е. b = 0 и следователно факторът x не влияе на резултата y. Директното изчисляване на F-критерия се предшества от анализ на дисперсията. Централно местоположениеизисква разлагане обща сумаквадратни отклонения на променливата y от средната стойност на y на две части - "обяснени" и "необяснени" (Приложение 2).

Общата сума на квадратните отклонения на отделните стойности на резултантния атрибут y от средната стойност y се дължи на влиянието на много причини. Условно целият набор от причини може да бъде разделен на две групи:

  • изследвания фактор x
  • други фактори

Ако факторът не влияе на резултата, тогава регресионната линия на графиката е успоредна на оста x y = y. Тогава цялата дисперсия на резултантния атрибут се дължи на влиянието на други фактори и общата сума на квадратите на отклоненията съвпада с остатъка. Ако други фактори не влияят на резултата, тогава y е функционално свързано с x и остатъчната сума на квадратите е нула. В този случай сумата от квадратните отклонения, обяснена от регресията, е същата като общата сума от квадратите.

Тъй като не всички точки от корелационното поле лежат на линията на регресия, винаги има разсейване както поради влиянието на фактора x, тоест регресията на y върху x, така и причинено от действието на други величини (необяснима вариация ). Пригодността на регресионната линия за прогнозиране зависи от това каква част от общата вариация на признака y се дължи на обяснената вариация. Очевидно е, че ако сумата на квадратите на отклоненията, дължащи се на регресията, е по-голяма от остатъчната сума на квадратите, тогава уравнението на регресията е статистически значимо и факторът x има значително влияние върху резултата y. Това е еквивалентно на факта, че коефициентът на определяне r 2 xy ще се доближи до единица.

Всяка сума от квадратни отклонения се свързва с броя на степените на свобода (df - степени на свобода), т.е. с броя на свободата на независимо изменение на характеристиката. Броят на степените на свобода е свързан с броя на единиците от съвкупността n и броя на константите, определени от него. Във връзка с разглеждания проблем, броят на степените на свобода трябва да показва колко независими отклонения от n възможни [(y 1 -y), (y 2 -y), ..., (y n -y)] са необходими за образуване на даден сбор от квадрати. И така, общата сума на квадратите? (y-y) 2 изисква (n-1) независими отклонения.

При изчисляване на обяснената или факторна сума от квадрати? (y x -y) 2 се използват теоретичните (изчислени) стойности на ефективната характеристика y x, намиращи се по линията на регресия: y x ​​\u003d a + b * х.

При линейна регресия сумата от квадратните отклонения, дължащи се на линейна регресия, ще бъде: ?(y x -y) 2 =b 2 *?(x -x) 2 .

Тъй като за даден брой наблюдения в x и y факторната сума от квадрати при линейна регресия зависи само от една константа на регресионния коефициент b, тогава тази сума от квадрати има една степен на свобода. Ще стигнем до същото заключение, ако разгледаме съдържателната страна на изчислената стойност на атрибута y, тоест y x . Стойността на y x се определя от уравнението на линейната регресия: y x ​​​​=a+b*x. Параметърът a може да се дефинира като: a=y-b*x. Замествайки израза за параметъра a в линейния модел, получаваме:

y x \u003d y-b * x + b * x \u003d y-b * (x-x).

Това показва, че за даден набор от променливи y и x, изчислената стойност y x при линейна регресия е функция само на един параметър - коефициента на регресия. Съответно факторната сума на квадратните отклонения има брой степени на свобода, равен на 1.

Съществува равенство между броя на степените на свобода на общите, факторните и остатъчните суми от квадрати. Броят на степените на свобода на остатъчната сума на квадратите при линейна регресия е n-2. Броят на степените на свобода за общата сума на квадратите се определя от броя на единиците и тъй като се използва средната стойност, изчислена от примерните данни, губим една степен на свобода, тоест df total = n-1.

Така че има две равенства:

? (y-y) 2 \u003d? (y x -y) 2 +? (y- y x) 2,

Разделяйки всяка сума от квадрати на броя на съответстващите й степени на свобода, получаваме средния квадрат на отклоненията или, еквивалентно, дисперсията за една степен на свобода D.

D общо \u003d? (y-y) 2 / (n-1);

D факт \u003d? (y x -y) 2/1;

D почивка \u003d? (y- y x) 2 / (n-1).

Определянето на дисперсията за една степен на свобода води дисперсиите до сравнима форма. Сравнявайки факторните и остатъчните дисперсии за една степен на свобода, получаваме стойността на F-отношението (F-критерий):

F= D факт / D почивка, където

F - критерий за проверка на нулевата хипотеза H 0: D факт =D почивка.

Ако нулевата хипотеза е вярна, тогава факторните и остатъчните дисперсии не се различават една от друга. За H 0 е необходимо опровержение, така че факторната вариация да надвишава остатъчната няколко пъти.

Английският статистик Snedecor разработи таблици на критичните стойности на F-съотношенията за различни нивазначението на нулевата хипотеза и различим брой степени на свобода.

Табличната стойност на F-критерия е максималната стойност на съотношението на дисперсии, което може да възникне, ако те се разминават произволно за дадено нивовероятността да има нулева хипотеза.

Изчислената стойност на F-отношението се признава за надеждна (различна от единица), ако е по-голяма от табличната.

В този случай нулевата хипотеза за липсата на връзка между знаци се отхвърля и се прави заключение за значимостта на тази връзка: F факт> F раздел. H 0 се отхвърля.

Ако стойността е по-малка от табличния F факт

Качеството на модела се оценява чрез коефициента на детерминация. Коефициент на определяне ( Р 2) е квадратът на коефициента на множествена корелация.

Той показва каква част от дисперсията на резултантния атрибут се обяснява с влиянието на независими променливи.

Формулата за изчисляване на коефициента на детерминация:

г аз-- примерни данни и f аз-- съответстващи стойности на модела.

Това също е квадратът на корелацията на Пиърсън между двете променливи. Той изразява количеството дисперсия, споделена между две променливи.

Коефициентът приема стойности от интервала. Колкото по-близо е стойността до 1, толкова по-близо е моделът до емпиричните наблюдения.

В случай на сдвоен линеен регресионен модел, коефициентът на определяне е равен на квадрата на корелационния коефициент, т.е. Р 2 = r 2 .

Понякога показателите за близост на връзката могат да получат качествена оценка (скала на Chaddock) (Приложение 3).

Функционална връзка възниква при стойност, равна на 1, а липсата на връзка е 0. При стойности на показателите за плътност на връзката по-малки от 0,7, стойността на коефициента на определяне винаги ще бъде под 50 %. Това означава, че делът на вариацията във факторните характеристики представлява по-малка част в сравнение с други фактори, които не са взети предвид в модела, които влияят върху промяната на ефективния показател. Конструираните при такива условия регресионни модели са с ниска практическа стойност.

Регресия по двойкие регресия между две променливи

-y и x, т.е.преглед на модела + E

Където при- ефективен знак, т.е. зависима променлива; х- знаков фактор.

Линейната регресия се свежда до намиране на уравнение от формата или

Уравнение на формата позволява дадените стойности на фактора x да имат теоретичните стойности на ефективната характеристика, замествайки действителните стойности на фактора x в него.

Конструкцията на линейна регресия се свежда до оценка на нейните параметри a и b.

Оценките на параметрите на линейната регресия могат да бъдат намерени по различни методи.

1.

2.

Параметър bНаречен регресионен коефициент. Стойността му показва

средната промяна в резултата с промяна на фактора с една единица.

Формално А- значение припри х = 0. Ако знак-факторът

няма и не може да има нулева стойност, тогава горното

безплатно тълкуване на термини, Аняма смисъл. Параметър, АМоже би

нямат икономическо съдържание. Опитва икономически

интерпретирайте параметъра, Аможе да доведе до абсурд, особено когато А < 0.

Може да се интерпретира само знакът на параметъра А.Ако А > 0,

тогава относителната промяна в резултата е по-бавна от промяната

проверка на качеството на намерените параметри и на целия модел като цяло:

-Оценка на значимостта на коефициента на регресия (b) и коефициента на корелация

-Оценка на значимостта на цялото регресионно уравнение. Коефициент на определяне

Регресионното уравнение винаги се допълва с индикатор за плътността на връзката. При

използване на линейна регресия като такъв индикатор

коефициент на линейна корелация r xy . Има различни

модификации на формулата за коефициента на линейна корелация.

Линеен коефициенткорелацията е в границите: -1≤ .rxy

≤ 1. Освен това, колкото по-близо rдо 0, толкова по-слаба е корелацията и обратно

колкото по-близо е r до 1 или -1, толкова по-силна е корелацията, т.е. зависимостта на x и y е близка до

линеен. Ако rточно =1 или -1 всички точки лежат на една и съща права линия.

Ако коефициентът регресия b>0 след това 0 ≤. rxy≤ 1 и

обратното за b<0 -1≤.rxy≤0. Коеф.

корелацията отразява степента на линейна зависимост на стойностите на m / y в присъствието на

изразена зависимост от друг вид.

За да се оцени качеството на избора на линейна функция, квадратът на линейната

коефициент на корелация

Наречен коефициент на детерминация.Коефициент на определяне

характеризира съотношението на дисперсията на резултантния признак y, обяснено от

регресия. Съответна стойност

характеризира дела на дисперсията y,причинени от влиянието на други неотчетени

във факторния модел.

OLS позволявавземете такива оценки на параметрите АИ б,който

сумата от квадратните отклонения на действителните стойности на получения атрибут

(y)от изчислено (теоретично)

минимум:

С други думи, от

от целия набор от линии, регресионната линия на диаграмата е избрана така, че сумата

квадрати на вертикалното разстояние между точките и тази линия ще бъдат

минимум.

Системата от нормални уравнения е решена

ОЦЕНКА НА ЗНАЧИМОСТТА НА ПАРАМЕТРИ НА ЛИНЕЙНА РЕГРЕСИЯ.

Оценката на значимостта на регресионното уравнение като цяло се дава с помощта на F-критерия

Фишър. В този случай се излага нулевата хипотеза, че регресионният коефициент е равен на

нула, т.е. b= 0, а оттам и факторът хне предоставя

влияние върху резултата г.

Директното изчисляване на F-критерия се предшества от анализ на дисперсията.

Централно за него е разширяването на общата сума на квадратите на отклоненията

променлива приот средната стойност прина две части -

"обяснено" и "необяснено":

Обща сума на квадратите на отклоненията

Сбор на квадрати

отклонения, обяснени с регресия

Остатъчна сума на квадратите на отклонението.

Всеки сбор от квадратни отклонения е свързан с броя на степените на свобода , T.

д. с броя на свободата на независимо изменение на признака. Броят на степените на свобода е свързан с броя на единиците от съвкупността n и броя на константите, определени от него. По отношение на разглеждания проблем броят на степените на свобода трябва да покаже колко независими отклонения от Пвъзможно изисква за

образуването на даден сбор от квадрати.

Дисперсия по степен на свобода Д.

F-съотношения (F-критерий):

Ако нулевата хипотеза е вярна, тогава факторът и остатъчните дисперсии не са

се различават един от друг. За H 0 е необходимо опровержение, така че

факторната дисперсия надвишава остатъчната с няколко пъти. Английски

статистикът Snedecor разработи таблици с критични стойности на F-съотношенията

при различни нива на значимост на нулевата хипотеза и различен брой степени

свобода. Табличната стойност на F-теста е максималната стойност на съотношението

дисперсии, които могат да възникнат при тяхното случайно разминаване за даденост

нивото на вероятност за наличие на нулевата хипотеза. Изчислена стойност на F-отношението

се признава за надежден, ако o е по-голямо от табличната стойност. В този случай нула

отхвърля се хипотезата за липсата на връзка на знаците и се прави заключение за

значението на тази връзка: F факт > F таблица H 0

се отхвърля.

Ако стойността е по-малка от табличния F факт ‹, F маса

Тогава вероятността за нулевата хипотеза е над дадено ниво и не може да бъде

отхвърлен без сериозен риск от подвеждане на връзката. IN

В този случай регресионното уравнение се счита за статистически незначимо. Но

не се отхвърля.


Подобна информация.


Споделете с приятели или запазете за себе си:

Зареждане...