Тестова работа на уравнението на множествената регресия. Пример за решаване на проблем с множествена регресия с Python

Щраквайки върху бутона "Изтегляне на архив", вие ще изтеглите безплатно необходимия ви файл.
Преди да изтеглите този файл, запомнете онези добри есета, контролни, курсови работи, дипломни работи, статии и други документи, които не са заявени на вашия компютър. Това е ваша работа, тя трябва да участва в развитието на обществото и да носи полза на хората. Намерете тези произведения и ги изпратете в базата знания.
Ние и всички студенти, докторанти, млади учени, които използват базата от знания в обучението и работата си, ще ви бъдем много благодарни.

За да изтеглите архив с документ, въведете петцифрен номер в полето по-долу и щракнете върху бутона "Изтегляне на архив"

###### ## ## ###### ######
## ### ### ## ##
## #### ## ##### ##
## ## ## ## ## ##
## ## ###### ## ## ## ## ##
#### ## ###### #### ####

Въведете номера, показан по-горе:

Подобни документи

    Основи на изграждането и тестването на адекватността на икономическите модели на множествена регресия, проблемът с тяхната спецификация и последствията от грешки. Методическа и информационна подкрепа на множествената регресия. Числен пример за модел на множествена регресия.

    курсова работа, добавена на 10.02.2014 г

    Концепцията за модел на множествена регресия. Същност на метода най-малки квадрати, който се използва за определяне на параметрите на уравнението на множествената линейна регресия. Оценка на качеството на сглобката регресионно уравнениекъм данните. Коефициент на определяне.

    курсова работа, добавена на 22.01.2015 г

    Изграждане на модел на множествена линейна регресия по зададени параметри. Оценка на качеството на модела чрез коефициентите на детерминация и множествена корелация. Определяне на значимостта на регресионното уравнение на базата на F-тест на Фишер и t-тест на Стюдънт.

    тест, добавен на 12/01/2013

    Построяване на уравнение на множествена регресия в линейна форма с пълен набор от фактори, избор на информативни фактори. Проверка на значимостта на регресионното уравнение по критерия на Фишер и статистическа значимострегресионни параметри чрез t-критерия на Стюдънт.

    лабораторна работа, добавена на 17.10.2009 г

    Описание на класическия линеен модел на множествена регресия. Анализ на матрицата от сдвоени корелационни коефициенти за наличие на мултиколинеарност. Оценка на сдвоения регресионен модел с най-значимия фактор. Графично изграждане на прогнозния интервал.

    курсова работа, добавена на 17.01.2016 г

    Фактори, които формират цената на апартаментите в къщи в строеж в Санкт Петербург. Съставяне на матрица от сдвоени коефициенти на корелация на изходните променливи. Тестване на грешките на уравнението на множествената регресия за хетероскедастичност. Тест на Гелфелд-Квант.

    тест, добавен на 14.05.2015 г

    Оценка на разпределението на променливата X1. Моделиране на връзката между променливите Y и X1 с помощта на линейна функцияи множествена линейна регресия. Сравнение на качеството на конструираните модели. Съставяне на точкова прогноза за зададени стойности.

    курсова работа, добавена на 24.06.2015 г

Имам голяма лавица, включваща много книги, разделени на много разновидности. На горния рафт има религиозни книги като книги за фикх, книги за таухид, книги за тасавуф, книги за нахву и т.н. Те са подредени спретнато в много редове и някои от тях са подредени спретнато според писателите. На второ ниво са моите учебни книги като граматика, книги за писане, книги за TOEFL и т.н. Те са подредени въз основа на размерите. На следващия рафт има много видове научни и познати книги; например философии, политика, истории и др. За тях има три нива. В крайна сметка в дъното на моята лавица има речници, те са арабски речници и английски речници, както и индонезийски речници. Наистина има шест нива в моята голяма лавица и на y са подредени в много редици. Първото ниво включва религиозни книги, второто ниво включва моите учебни книги, нивото с три нива включва много видове научни и познати книги и последното ниво включва речници. Накратко, обичам моята лавица.

Конкретен към общ ред

Уменията, необходими за писане, варират от правене на подходящи графични маркировки, през използване на ресурсите на избрания език, до предвиждане на реакциите на предвидените читатели. Първата област на умения включва придобиване на писмена система, която може да бъде азбучна (както в европейските езици) или неазбучна (както в много азиатски езици). Втората област на умения изисква избор на подходяща граматика и речник, за да се образуват приемливи изречения и след това да се подредят в абзаци. Трето, писането включва мислене за целта на текста, който трябва да бъде съставен, и за възможните му ефекти върху целевата читателска аудитория. Важен аспект на тази последна функция е изборът на подходящ стил. За разлика от говоренето, писането е сложен социокогнитивен процес, който трябва да бъде придобит чрез години на обучение или обучение. (Swales and Feak, 1994, стр. 34)

Ред от общо към конкретно

„Работата на непълен работен ден като касиер в Piggly Wiggly ми даде чудесна възможност да наблюдавам човешкото поведение. Понякога си представям купувачите като бели плъхове в лабораторен експеримент, а пътеките като лабиринт, проектиран от психолог. Повечето от плъховете - клиентите, имам предвид - следват рутинен модел, разхождат се нагоре и надолу по пътеките, проверяват през моя улей и след това бягат през изходния люк Ненормален клиент: страдащият от амнезия, супер купувачът и безделникът. ."

Има много фактори, които допринасят за успеха на студентите в колежа. Първият фактор е да имате предвид цел, преди да създадете курс на обучение. Целта може да бъде толкова обща, колкото желанието да се образовате по-добре за бъдещето. По-специфична цел би била да спечелите акредитация за преподаване. Втори фактор, свързан с успеха на учениците, е самомотивацията и ангажираността. Студент, който иска да успее и работи за постигането на това желание, ще намери успех лесно като студент. Трети фактор, свързан с успеха на студентите, е използването на услугите на колежа. Повечето начинаещи студенти не успяват да осъзнаят колко важно може да бъде посещението на консултант или консултация с библиотекар или служител по финансова помощ.

Има три причини, поради които Канада е една от най-добрите страни в Светът. Първо, Канада има отлично здравеопазване. Всички канадци имат достъп до медицински услуги на разумна цена. Второ, Канада има висок стандарт на образование. Студентите се учат да бъдат добре обучени учители и се насърчават да продължат да учат в университета. И накрая, градовете в Канада са чисти и добре организирани. Канадските градове имат много паркове и много пространство за живеене на хората. В резултат на това Канада е желано място за живеене.

Йорк беше атакуван от шестима немски войници, които се нахвърлиха срещу него с фиксирани щикове. Начерта мънисто на шестия човек, стреля, а след това и на петия. Той си проправи път надолу по линията и преди да се усети, първият човек беше съвсем сам. Йорк го уби с един изстрел.

Докато оглеждаше кампуса, който почти не се беше променил, той облекчи онези моменти, които беше прекарал с Нанси. Спомни си как двамата седяха край езерото, говореха безкрайно, докато хранеха рибите, а също и как се разхождаха заедно, изгубени в собствения си свят. Да, Нанси беше една от малкото приятелки, които някога е имал. … Той внезапно беше изпълнен с носталгия, когато си спомни онзи следобед, когато се сбогува с Нанси. Той подсмърча шумно, когато очите му се напълниха със сълзи.

Примери за решаване на задачи с множествена регресия

Пример 1Регресионното уравнение, изградено на базата на 17 наблюдения, има формата:

Подредете липсващите стойности, както и изградете доверителен интервалза б 2с вероятност 0,99.

Решение.Липсващите стойности се определят с помощта на формулите:

Така регресионното уравнение със статистически характеристики изглежда така:

Доверителен интервал за б 2изградете по съответната формула. Тук нивото на значимост е 0,01, а броят на степените на свобода е нстр– 1 = 17 – 3 – 1 = 13, където н= 17 – размер на извадката, стр= 3 е броят на факторите в регресионното уравнение. Оттук

или . Този доверителен интервал покрива истинската стойност на параметъра с вероятност 0,99.

Пример 2Регресионното уравнение в стандартизирани променливи изглежда така:

В този случай вариациите на всички променливи са равни на следните стойности:

Сравнете факторите според степента на влияние върху получената характеристика и определете стойностите на частичните коефициенти на еластичност.

Решение.Стандартизираните регресионни уравнения ви позволяват да сравнявате факторите по силата на тяхното влияние върху резултата. В същото време, колкото по-голяма е абсолютната стойност на коефициента на стандартизираната променлива, толкова по-силно този фактор влияе върху получената черта. В разглежданото уравнение факторът, който има най-силно влияние върху резултата, е х 1, който е с коефициент 0,82, най-слаб е факторът х 3с коефициент - 0,43.

В линеен модел на множествена регресия, обобщеният (среден) коефициент на частична еластичност се определя от израз, който включва средните стойности на променливите и коефициента при съответния фактор на регресионното уравнение на естествения мащаб. В условията на задачата тези количества не са посочени. Затова използваме изразите за вариация по отношение на променливите:

Коефициенти b jсвързани със стандартизирани коефициенти β jсъответното съотношение, което заместваме във формулата за средния коефициент на еластичност:

.

В този случай знакът на коефициента на еластичност ще съвпадне със знака β j:

Пример 3Въз основа на 32 наблюдения са получени следните данни:

Определете стойностите на коригирания коефициент на определяне, частични коефициенти на еластичност и параметър а.

Решение.Стойността на коригирания коефициент на детерминация се определя по една от формулите за неговото изчисляване:

Частичните коефициенти на еластичност (средно спрямо съвкупността) се изчисляват по подходящите формули:

Тъй като линейното уравнение на множествената регресия се извършва чрез заместване на средните стойности на всички променливи в него, ние определяме параметъра а:

Пример 4За някои променливи са налични следните статистически данни:

Изградете регресионно уравнение в стандартизирани и естествени скали.

Решение.Тъй като двойните корелационни коефициенти между променливите са първоначално известни, трябва да се започне с конструиране на регресионно уравнение в стандартизирана скала. За целта е необходимо да се реши съответната система от нормални уравнения, която в случай на два фактора има формата:

или след заместване на първоначалните данни:

Решаваме тази система по всякакъв начин, получаваме: β1 = 0,3076, β2 = 0,62.

Нека напишем регресионното уравнение в стандартизирана скала:

Сега нека преминем към регресионното уравнение в естествен мащаб, за което използваме формулите за изчисляване на регресионните коефициенти чрез бета коефициенти и свойството за справедливост на регресионното уравнение за средни променливи:

Регресионното уравнение в естествен мащаб е:

Пример 5При изграждане на линейна множествена регресия за 48 измервания коефициентът на детерминация е 0,578. След елиминиране на факторите х 3, х 7и x 8коефициентът на детерминация намалява до 0,495. Оправдано ли беше решението за промяна на състава на влияещите променливи при нива на значимост от 0,1, 0,05 и 0,01?

Решение.Нека - коефициентът на детерминация на регресионното уравнение с първоначалния набор от фактори, - коефициентът на детерминация след изключване на три фактора. Излагаме хипотези:

;

Основната хипотеза предполага, че намалението на величината не е значително и решението да се изключи група фактори е правилно. Алтернативната хипотеза показва правилността на решението за изключване.

За да тестваме нулевата хипотеза, използваме следните статистически данни:

,

където н = 48, стр= 10 - начален брой фактори, к= 3 - броят на изключените фактори. Тогава

Нека сравним получената стойност с критичната Е(α ; 3; 39) при нива 0,1; 0,05 и 0,01:

Е(0,1; 3; 37) = 2,238;

Е(0,05; 3; 37) = 2,86;

Е(0,01; 3; 37) = 4,36.

На ниво α = 0,1 Ф обл > F кр, нула - хипотезата е отхвърлена, изключването на тази група фактори не е оправдано, при нива 0,05 0,01 нула - хипотезата не може да бъде отхвърлена и изключването на фактори може да се счита за оправдано.

Пример 6. Въз основа на тримесечни данни от 2000 г. до 2004 г. е получено уравнение. В същото време ESS=110.3, RSS=21.4 (ESS – обяснено RMSE, RSS – остатъчно RMSD). Към уравнението бяха добавени три фиктивни променливи, съответстващи на първите три тримесечия на годината, и стойността на ESS се увеличи до 120,2. Има ли сезонност в това уравнение?

Решение. Това е задача за проверка на валидността на включването на група фактори в уравнението на множествената регресия. Три променливи бяха добавени към първоначалното трифакторно уравнение, за да представят първите три тримесечия на годината.

Нека определим коефициентите на детерминация на уравненията. Общото стандартно отклонение се определя като сбор от факторните и остатъчните стандартни отклонения:

TSS = ESS 1 + RSS 1 = 110,3 + 21,4 = 131,7

Тестваме хипотези. За да проверим нулевата хипотеза, използваме статистика

Тук н= 20 (20 тримесечия за пет години - от 2000 г. до 2004 г.), стр= 6 (общ брой фактори в регресионното уравнение след включване на нови фактори), к= 3 (брой включени фактори). По този начин:

Нека определим критичните стойности на статистиката на Фишър на различни нива на значимост:

При нива на значимост 0,1 и 0,05 Ф обл> F кр, нула - хипотезата се отхвърля в полза на алтернативната, а сезонността в регресията е оправдана (добавянето на три нови фактора е оправдано), а на ниво 0,01 Ф обл< F кр, и нула – хипотезата не може да бъде отхвърлена; добавянето на нови фактори не е оправдано, сезонността в регресията не е значима.

Пример 7При анализиране на данни за хетероскедастичност, цялата проба беше разделена на три подпроби след подреждане по един от факторите. След това въз основа на резултатите от тристранен регресионен анализ беше установено, че остатъчното SD в първата подпроба е 180, а в третата - 63. Потвърждава ли се наличието на хетероскедастичност, ако обемът на данните във всяка подпроба е 20 ?

Решение. Изчислете статистиката, за да тествате нулевата хипотеза за хомоскедастичност, като използвате теста на Голдфелд-Квант:

.

Намерете критичните стойности на статистиката на Фишер:

Следователно, при нива на значимост от 0,1 и 0,05 Ф обл> F кр, и има хетероскедастичност и на ниво 0,01 Ф обл< F кри хипотезата за хомоскедастичност не може да бъде отхвърлена.

Пример 8. Въз основа на тримесечни данни беше получено уравнение на множествена регресия, за което ESS = 120,32 и RSS = 41,4. За същия модел регресиите бяха извършени отделно въз основа на следните данни: 1991 тримесечие 1 - 1995 тримесечие 1 и 1995 тримесечие 2 - 1996 тримесечие 4. В тези регресии остатъчната RMSE, съответно, беше 22,25 и 12,32. Тествайте хипотезата за наличие на структурни промени в извадката.

Решение. Проблемът с наличието на структурни промени в пробата се решава с помощта на теста Chow.

Хипотезите имат формата: , където s0, s 1и s2са остатъчни стандартни отклонения за единичното уравнение за цялата проба и съответно регресионните уравнения за две подпроби от общата проба. Основната хипотеза отрича наличието на структурни промени в извадката. За да се провери нулевата хипотеза, се изчисляват статистически данни ( н = 24; стр = 3):

Тъй като F е статистика, по-малка от единица, нула означава, че хипотезата не може да бъде отхвърлена за каквото и да е ниво на значимост. Например за ниво на значимост 0,05.

Въпроси:

4. Оценка на параметрите на линейния модел на множествена регресия.

5. Оценка на качеството на множествената линейна регресия.

6. Анализ и прогнозиране на базата на многофакторни модели.

Множествената регресия е обобщение на регресията по двойки. Използва се за описание на връзката между обяснената (зависима) променлива Y и обяснителните (независими) променливи X 1 ,X 2 ,…,X k . Множествената регресия може да бъде линейна или нелинейна, но линейната множествена регресия е най-широко използваната в икономиката.

Теоретичният линеен модел на множествената регресия има формата:

съответната примерна регресия се обозначава с:

Както при двойната регресия, произволният член ε трябва да отговаря на основните допускания на регресионния анализ. След това с помощта на LSM се получават най-добрите безпристрастни и ефективни оценки на параметрите на теоретичната регресия. Освен това променливите Х 1 ,Х 2 ,…,Х k трябва да са некорелирани (линейно независими) една с друга. За да напишем формулите за оценка на регресионните коефициенти (2), получени на базата на LSM, въвеждаме следната нотация:

Тогава можем да пишем във векторно-матрична форма теоретичен модел:

и селективна регресия

OLS води до следната формула за оценка на вектора на регресионните коефициенти на извадката:

(3)

За оценка на множество коефициенти на линейна регресия с две независими променливи , можем да решим системата от уравнения:

(4)

Както при сдвоената линейна регресия, за множествената регресия се изчислява регресионната стандартна грешка S:

(5)

и стандартни грешки на регресионните коефициенти:

(6)

значимостта на коефициентите се проверява с помощта на t-теста.

с разпределение на Стюдънт с броя на степените на свобода v= n-k-1.

За да се оцени качеството на регресията, се използва коефициентът (индексът) на детерминация:

, (8)

колкото по-близо е до 1, толкова по-високо е качеството на регресията.

За да се провери значимостта на коефициента на детерминация, се използва критерият на Фишер или F-статистиката.



(9)

с v1=k, v2=n-k-1 степени на свобода.

При многовариантна регресия добавянето на допълнителни обяснителни променливи увеличава коефициента на детерминация. За да се компенсира такова увеличение, се въвежда коригиран (или нормализиран) коефициент на определяне:

(10)

Ако увеличението на дела на регресията, обяснено чрез добавяне на нова променлива, е малко, то може да намалее. Така че добавянето на нова променлива е неподходящо.

Пример 4:

Нека се вземе предвид зависимостта на печалбата на предприятието от цената на ново оборудване и машини и от разходите за повишаване на квалификацията на служителите. Събрани са статистически данни за 6 предприятия от същия тип. Данни в милиони den. единици са дадени в таблица 1.

маса 1

Начертайте двупосочна линейна регресия и да оценим значението му. Нека въведем обозначението:

Транспонираме матрицата X:

Инверсия на тази матрица:

по този начин зависимостта на печалбата от разходите за ново оборудване и машини и от разходите за подобряване на уменията на служителите може да се опише чрез следната регресия:

Използвайки формула (5), където k=2, изчисляваме стандартната грешка на регресията S=0,636.

Изчисляваме стандартните грешки на регресионните коефициенти, използвайки формула (6):

По същия начин:

Нека проверим значимостта на регресионните коефициенти a 1 , a 2 . изчислете t calc.

Ние избираме нивото на значимост, броя на степените на свобода

означава коеф а 1значително.

Нека оценим значимостта на коефициента a 2:

Коефициент а 2незначителен.

Нека изчислим коефициента на детерминация по формулата (7) . Печалбата на предприятието с 96% зависи от цената на ново оборудване и машини и повишаване на квалификацията с 4% от други и случайни фактори. Нека проверим значението на коефициента на детерминация. Изчислете F изчисление:

тогава. коефициентът на детерминация е значим, регресионното уравнение е значимо.

Голямо значениев анализа на базата на многовариантна регресия има сравнение на влиянието на факторите върху зависимия показател y. Регресионните коефициенти не се използват за тази цел, поради разликите в мерните единици и различни степенифлуктуации. От тези недостатъци коефициентите на свободна еластичност са:

Еластичността показва колко процента се променя средно зависимият показател y, когато променливата се промени с 1%, при условие че стойностите на другите променливи остават непроменени. Колкото по-голямо е, толкова по-голямо е влиянието на съответната променлива. Както при сдвоената регресия, за множествената регресия се прави разлика между точкова прогноза и интервална прогноза. Точкова прогноза (число) се получава чрез заместване на прогнозираните стойности на независимите променливи в уравнението на множествената регресия. Означава се с:

(12)

вектор на прогнозни стойности на независими променливи, след това точкова прогноза

Стандартната грешка на прогнозиране в случай на множествена регресия се определя, както следва:

(15)

Избираме нивото на значимост α според таблицата за разпределение на Стюдънт. За нивото на значимост α и броя на степените на свобода ν = n-k-1 намираме t cr. Тогава истинската стойност на y p с вероятност 1- α попада в интервала:


Тема 5:

Времеви редове.

Въпроси:

4. Основни понятия за динамичните редове.

5. Основната тенденция на развитие е тенденция.

6. Изграждане на адитивен модел.

Времеви редовепредставляват набор от стойности на всеки индикатор за няколко последователни момента или периода от време.

Моментът (или периодът) от време се означава с t, а стойността на индикатора в момента се означава с y (t) и се нарича ниво на реда .

Всяко ниво на динамичния ред се формира под въздействието на голям брой фактори, които могат да бъдат разделени на 3 групи:

Дългосрочни, постоянни фактори, които оказват решаващо влияние върху изследваното явление и формират основната тенденция на редицата - тенденцията T(t).

Краткосрочни периодични фактори, които формират сезонни колебания на серията S(t).

Случайни фактори, които формират случайни промени в нивата на реда ε(t).

Адитивен моделвремевият ред е модел, в който всяко ниво на реда е представено от сумата от тенденцията, сезонните и произволните компоненти:

Мултипликативен моделе модел, в който всяко ниво от серията е продукт на изброените компоненти:

Изборът на един от моделите се основава на анализа на структурата на сезонните колебания. Ако амплитудата на трептене е приблизително постоянна, тогава се изгражда адитивен модел. Ако амплитудата се увеличи, тогава мултипликативният модел.

Основната задача иконометричен анализе да се идентифицира всеки от изброените компоненти.

Основната тенденция на развитие (тенденция)наречена плавна и стабилна промяна в нивата на серията във времето, без случайни и сезонни колебания.

Задачата за идентифициране на основните тенденции на развитие се нарича подравняване на времеви редове .

Методите за подравняване на времеви редове включват:

1) методът за увеличаване на интервалите,

2) метод на пълзяща средна,

3) аналитично подравняване.

1) Увеличават се периодите от време, за които се отнасят нивата на серията. След това нивата на серията се сумират върху увеличените интервали. Колебанията в нивата, дължащи се на случайни причини, взаимно се компенсират. Общата тенденция се разкрива по-ясно.

2) За да се определи броят на първите нива на серията, се изчислява средната стойност. След това средната стойност се изчислява от същия брой нива в серията, като се започне от второто ниво и т.н. средната стойност се плъзга по поредицата от динамика, напредвайки с 1 период (точка във времето). Броят нива на серията, за които се изчислява средната стойност, може да бъде четен или нечетен. За нечетна пълзяща средна се обърнете към средата на плъзгащия се период. За четен период намирането на средната стойност не се сравнява с дефиницията на t, а се прилага процедура на центриране, т.е. изчислете средната стойност на две последователни подвижни средни.

3) Изграждане на аналитична функция, която характеризира зависимостта на нивото на реда от времето. Следните функции се използват за изграждане на тенденции:

Параметрите на тенденцията се определят чрез метода на най-малките квадрати. Изборът на най-добрата функция се извършва на базата на коефициента R 2 .

Ще изградим адитивен модел, използвайки пример.

Пример 7:

Има тримесечни данни за обема на потреблението на електроенергия в определен район за 4 години. Данни в милиони kW в таблица 1.

маса 1

Изградете модел на времеви редове.

В този пример разглеждаме тримесечието като независима променлива, а тримесечното потребление на електроенергия като зависима променлива y(t).

От диаграмата на разсейване можете да видите, че тенденцията (тенденцията) е линейна. Можете също така да видите наличието на сезонни колебания (период = 4) със същата амплитуда, така че ще изградим адитивен модел.

Изграждането на модел включва следните стъпки:

1. Ще подравним оригиналната серия, като използваме подвижната средна за 4 тримесечия и ще извършим центрирането:

1.1. Нека сумираме нивата на серията последователно за всеки 4 тримесечия с изместване от 1 точка във времето.

1.2. Като разделим получените суми на 4, намираме подвижните средни.

1.3. Ние привеждаме тези стойности в съответствие с действителните точки във времето, за които намираме средната стойност на две последователни пълзящи средни - центрирани пълзящи средни.

2. Изчислете сезонните колебания. Сезонна вариация (t) = y(t) - центрирана пълзяща средна. Нека изградим таблица 2.

таблица 2

Чрез блок номер t Консумация на електроенергия Y(t) Пълзяща средна за 4 тримесечия Центрирана подвижна средна Оценка на сезонните колебания
6,0 - - -
4,4 6,1 - -
5,0 6,4 6,25 -1,25
9,0 6,5 6,45 2,55
7,2 6,75 6,625 0,575
: : : : :
6,6 8,35 8,375 -1,775
7,0 - - -
10,8 - - -

3. Въз основа на сезонните колебания в таблица 3 се изчислява сезонният компонент.

Индикатори година Номер на тримесечие в година I II III IV
- - -1,250 2,550
0,575 -2,075 -1,100 2,700
0,550 -2,025 -1,475 2,875
0,675 -1,775 - -
Обща сума 1,8 -5,875 -3,825 8,125 Сума
Средно аритметично 0,6 -1,958 -1,275 2,708 0,075
Сезонен компонент 0,581 -1,977 -1,294 2,690

4. Елиминирайте сезонния компонент от първоначалните нива на серията:

Заключение:

Адитивният модел обяснява 98,4% от общата вариация в нивата на оригиналния времеви ред.

Материалът ще бъде илюстриран с пример: прогнозиране на продажбите за OmniPower.Представете си, че сте маркетинг мениджър на голяма национална верига за хранителни стоки. През последните години на пазара се появиха хранителни блокчета, съдържащи голямо количество мазнини, въглехидрати и калории. Те ви позволяват бързо да възстановите енергийните резерви, изразходвани от бегачи, катерачи и други спортисти в изтощителни тренировки и състезания. През последните години продажбите на хранителни барове се увеличиха и ръководството на OmniPower стигна до заключението, че този пазарен сегмент е много обещаващ. Преди да представи нов тип барове на националния пазар, компанията би искала да оцени въздействието на разходите и разходите за реклама върху продажбите. 34 магазина бяха избрани за маркетингово проучване. Трябва да създадете регресионен модел, който ви позволява да анализирате данните, получени по време на изследването. Възможно ли е да се използва простият модел на линейна регресия, обсъден в предишната бележка за това? Как трябва да се промени?

Множествен регресионен модел

За проучване на пазара OmniPower създаде извадка от 34 магазина с приблизително еднакъв обем на продажбите. Помислете за две независими променливи - цената на бар OmniPower в центове ( X 1) и месечен бюджет за реклама в магазина в долари ( X 2). Този бюджет включва разходите за табели и витрини, както и разпространението на купони и безплатни мостри. Зависима променлива Yпредставлява броя на баровете OmniPower, продадени на месец (Фигура 1).

Ориз. 1. Месечен обем на продажбите на барове OmniPower, тяхната цена и рекламни разходи

Изтеглете бележка в или формат, примери във формат

Интерпретация на регресионни коефициенти.Ако в даден проблем се изследват множество обяснителни променливи, простият модел на линейна регресия може да бъде разширен, като се приеме, че има линейна връзка между отговора и всяка от обяснителните променливи. Например, ако има кобяснителни променливи, моделът на множествената линейна регресия приема формата:

(1) Y i = β 0 + β 1 X 1i + β 2 X 2i + … + β k X ki + ε i

където β 0 - смяна, β 1 - прав наклон Y, в зависимост от променливата X 1ако променливите X 2 , X 3 , … , X kса константи β 2 - прав наклон Y, в зависимост от променливата X 2ако променливите X 1 , X 3 , … , X kса константи β к- прав наклон Y, в зависимост от променливата X kако променливите X 1 , X 2 , … , X k-1са константи ε аз Yв аз m наблюдение.

По-конкретно, модел на множествена регресия с две обяснителни променливи:

(2) Y i = β 0 + β 1 х 1 аз + β 2 х 2 аз + ε i

където β 0 - смяна, β 1 - прав наклон Y, в зависимост от променливата X 1ако променливата X 2е константа, β 2 - прав наклон Y, в зависимост от променливата X 2ако променливата X 1е константа, ε аз- грешка на случайната променлива Yв аз m наблюдение.

Нека сравним този модел на множествена линейна регресия и прост модел на линейна регресия: Y i = β 0 + β 1 X i + ε i. В прост линеен регресионен модел, наклонът β 1 Yкогато стойността на променливата X се променя с единица и не отчита влиянието на други фактори. В модел на множествена регресия с две независими променливи (2), наклонът β 1 представлява промяната в средната стойност на променливата Yпри промяна на стойността на променлива x1за единица, като се вземе предвид влиянието на променливата X 2. Тази стойност се нарича коефициент на чиста регресия (или частична регресия).

Както в обикновен линеен регресионен модел, примерните регресионни коефициенти b 0 , b 1 , и b 2 са оценки на параметрите на съответната генерална съвкупност β 0 , β 1 и β 2 .

Уравнение на множествена регресия с две независими променливи:

(3) = b 0 + b 1 х 1 аз + b 2 х 2 аз

Методът на най-малките квадрати се използва за изчисляване на регресионните коефициенти. В Excel можете да използвате Пакет за анализ, опция Регресия. За разлика от изграждането на линейна регресия, просто задайте като Интервал на въвеждане Xплощ, включваща всички независими променливи (фиг. 2). В нашия пример това е $C$1:$D$35.

Ориз. 2. Регресионен прозорец на Excel Analysis ToolPack

Резултатите от пакета за анализ са показани на фиг. 3. Както виждаме, b 0 = 5 837,52, b 1 = -53,217 и b 2 = 3,163. Следователно, = 5 837,52 –53,217 х 1 аз + 3,163 х 2 аз, където Ŷ аз- прогнозирани продажби на хранителни барове OmniPower в аз-m магазин (парчета), X 1аз- цена на бар (в центове) в аз-м магазин, X 2i- месечни разходи за реклама азмагазин (в долари).

Ориз. 3. Множествено регресионно изследване на обема на продажбите на OmniPower bar

Селективен наклон b 0 е 5837,52 и е приблизителна оценка на средния брой OmniPower Bars, продадени на месец на нулева цена и без рекламни разходи. Тъй като тези условия са безсмислени, в тази ситуация стойността на наклона b 0няма разумно тълкуване.

Селективен наклон b 1 е -53.217. Това означава, че за даден месечен размер на разходите за реклама, увеличение от един цент в цената на блокче би довело до намаляване на очакваните продажби с 53 217 единици. По същия начин, наклонът на вземане на проби b 2 3,613 означава, че при фиксирана цена увеличение с 1 долар на месечните разходи за реклама е придружено от увеличение на очакваните продажби на лента от 3613. Тези оценки осигуряват по-добро разбиране на въздействието на цената и рекламата върху продажбите. Например, при фиксирана сума на разходите за реклама, намаление с 10 цента в цената на блокче ще увеличи продажбите с 532 173 единици, а при фиксирана цена на блокче, увеличение от $100 на разходите за реклама ще увеличи продажбите с 361,31 единици .

Интерпретация на наклоните в модел на множествена регресия.Коефициентите в модел на множествена регресия се наричат ​​чисти регресионни коефициенти. Те оценяват средната промяна в реакцията Yпри промяна на стойността хза единица, ако всички други обяснителни променливи са "замразени". Например, в проблема с барчето OmniPower, магазин с фиксирана сума на рекламни разходи на месец ще продаде 53 217 блокчета по-малко, ако увеличат цената си с един цент. Възможна е друга интерпретация на тези коефициенти. Представете си едни и същи магазини със същия размер на разходите за реклама. Ако цената на едно кюлче намалее с един цент, продажбите в тези магазини ще се увеличат с 53 217 кюлчета. Помислете сега за два магазина, където баровете струват еднакво, но разходите за реклама са различни. Ако тези разходи се увеличат с един долар, обемът на продажбите в тези магазини ще се увеличи с 3613 единици. Както виждаме, разумно тълкуване на наклоните е възможно само при определени ограничения, наложени на обяснителните променливи.

Прогнозиране на стойностите на зависимата променлива Y.След като установим, че натрупаните данни ни позволяват да използваме модел на множествена регресия, можем да прогнозираме месечните продажби на OmniPower Bars и да изградим доверителни интервали за средните и прогнозираните продажби. За да прогнозирате средните месечни продажби на 79 цента OmniPower Bars в магазин, който харчи $400 на месец за реклама, използвайте уравнението на множествената регресия: Y = 5837,53 – 53,2173*79 + 3,6131*400 = 3079. Следователно очакваният обем на продажбите за магазините продажба на блокчета OmniPower на цена от 79 цента и харчене на $400 на месец за реклама е 3079.

Изчисляване на стойността Yи чрез оценяване на остатъците могат да се конструират доверителни интервали, съдържащи очакваната стойност и прогнозираната стойност на отговора. разгледахме тази процедура в рамките на прост линеен регресионен модел. Въпреки това, конструирането на подобни оценки за модела на множествена регресия е свързано с големи изчислителни трудности и не е представено тук.

Множествен смесен коефициент на корелация.Спомнете си, че регресионният модел ви позволява да изчислите коефициента на смесена корелация r2. Тъй като има поне две обяснителни променливи в модел на множествена регресия, коефициентът на множествена смесена корелация е част от дисперсията на променливата Y, обяснено от даден набор от обяснителни променливи:

където ССРе сумата от квадратите на регресията, SSTе общият сбор на квадратите.

Например в проблема с продажбата на бар OmniPower ССР = 39 472 731, SST= 52 093 677 и k = 2. Така,

Това означава, че 75,8% от вариациите в обемите на продажбите се дължат на промени в цените и колебания в разходите за реклама.

Остатъчен анализ за модел на множествена регресия

Остатъчният анализ ви позволява да определите дали може да се приложи модел на множествена регресия с две (или повече) обяснителни променливи. По правило се извършват следните видове анализ на остатъци:

Първата графика (фиг. 4а) ни позволява да анализираме разпределението на остатъците в зависимост от прогнозираните стойности на . Ако стойността на остатъците не зависи от прогнозираните стойности и приема както положителни, така и отрицателни стойности (както в нашия пример), условието за линейна зависимост на променливата Yи за двете обяснителни променливи е удовлетворено. За съжаление, в Пакет за анализПо някаква причина тази графика не се създава. Може да е на прозореца Регресия(вижте фиг. 2) включете останки. Това ще ви позволи да покажете таблица с остатъците и след това да изградите диаграма на разсейване върху нея (фиг. 4).

Ориз. 4. Зависимост на остатъците от прогнозната стойност

Втората и третата графика показват зависимостта на остатъците от обяснителните променливи. Тези диаграми могат да разкрият квадратичен ефект. В тази ситуация е необходимо да се добави квадратна обяснителна променлива към модела на множествена регресия. Тези диаграми се показват от пакета за анализ (вижте Фиг. 2), ако активирате опцията Остатъчна графика (Фиг. 5).

Ориз. 5. Зависимост на остатъците от цената и разходите за реклама

Тестване на значимостта на модел на множествена регресия.

След потвърждаване, използвайки остатъчен анализ, че моделът на линейна множествена регресия е адекватен, може да се определи дали има статистически значима връзка между зависимата променлива и набора от обяснителни променливи. Тъй като моделът включва няколко обяснителни променливи, нулевата и алтернативната хипотеза са формулирани както следва: H 0: β 1 = β 2 = ... = β k = 0 (няма линейна връзка между отговора и обяснителните променливи), H 1: има поне една стойност β j ≠ 0 (има линейна зависимост между отговора и поне една обяснителна променлива).

За да тестваме нулевата хипотеза, използваме Е-критерий – тест Е-статистиката е равна на регресионния среден квадрат (MSR), разделен на дисперсията на грешката (MSE):

където Е Е- разпределение със ки n–k–1степени на свобода к-брой независими променливи в регресионен модел.

Правилото за вземане на решение изглежда така: при ниво на значимост α, нулевата хипотеза H 0отхвърлен ако F > F U(k,n – k – 1), в противен случай хипотезата H 0 не се отхвърля (фиг. 6).

Ориз. 6. Обобщена таблица на дисперсионния анализ за проверка на хипотезата за статистическата значимост на коефициентите на множествена регресия

ANOVA обобщена таблица, завършена с помощта на Пакет за анализ Excel при решаване на проблема с продажбата на барове OmniPower е показан на фиг. 3 (вижте област A10:F14). Ако нивото на значимост е 0,05, критичната стойност Е-разпределения с две и 31 степени на свобода FU(2,31)\u003d F. OBR (1-0,05; 2; 31) \u003d равно на 3,305 (фиг. 7).

Ориз. 7. Проверка на хипотезата за значимостта на регресионните коефициенти при ниво на значимост α = 0,05, с 2 и 31 степени на свобода

Както е показано на фиг. 3, F-статистиката е 48,477 > FU(2,31)= 3,305 и стр-стойност близка до 0.000< 0,05. Следовательно, нулевая гипотеза Н 0 отклоняется, и объем продаж линейно связан хотя бы с одной из объясняющих переменных (ценой и/или затратами на рекламу).

Статистически изводи за съвкупността от регресионни коефициенти

За идентифициране на статистически значима връзка между променливите хи Yв прост линеен регресионен модел беше извършен тест за хипотеза на наклона. Освен това беше конструиран доверителен интервал за оценка на наклона на популацията (вижте).

Тестване на хипотези.За да се тества хипотезата, че наклонът на съвкупността β 1 в прост линеен регресионен модел е нула, се използва формулата t = (b 1 – β 1)/S b 1. Може да се разшири до модел на множествена регресия:

където Tе тестова статистика, която има T- разпределение със n–k–1степени на свобода b j- наклонът на променливата хйпо отношение на променливата Yако всички други обяснителни променливи са константи, Sbjе средната квадратична грешка на регресионния коефициент b j, к- броят на обяснителните променливи в регресионното уравнение, β j - хипотетичният наклон на съвкупността от отговори й-та по отношение на променлива, когато всички други променливи са фиксирани.

На фиг. 3 (долната таблица) показва резултатите от кандидатстването T-критерии (получени с помощта на Пакет за анализ) за всяка от независимите променливи, включени в регресионния модел. По този начин, ако е необходимо да се определи дали дадена променлива има X 2(разходи за реклама) значително влияние върху продажбите при фиксирана цена на бар OmniPower, формулирани са нулевата и алтернативната хипотеза: H 0: β2 = 0, H 1: β2 ≠ 0. В съответствие с формула (6) получаваме :

Ако нивото на значимост е 0,05, критичните стойности T-разпределенията с 31 степени на свобода са t L = STUDENT.OBR(0.025;31) = –2.0395 и t U = STUDENT.OBR(0.975;31) = 2.0395 (фиг. 8). Р-стойност =1-STUDENT.DIST(5.27;31;TRUE) и е близо до 0,0000. Въз основа на едно от неравенствата T= 5,27 > 2,0395 или Р = 0,0000 < 0,05 нулевая гипотеза H 0се отхвърля. Следователно, при фиксирана цена на бар между променливата X 2(разходи за реклама) и обем на продажбите, има статистически значима връзка. По този начин има изключително ниска вероятност за отхвърляне на нулевата хипотеза, ако няма линейна връзка между разходите за реклама и обема на продажбите.

Ориз. 8. Тестване на хипотезата за значимостта на регресионните коефициенти при ниво на значимост α = 0,05, с 31 степени на свобода

Тестването на значимостта на конкретни регресионни коефициенти всъщност е тестване на хипотезата за значимостта на определена променлива, включена в регресионния модел заедно с други. Следователно, T-критерий за проверка на хипотезата за значимостта на регресионния коефициент е еквивалентен на проверка на хипотезата за влиянието на всяка от обясняващите променливи.

Доверителни интервали.Вместо да тествате хипотезата за наклона на съвкупността, можете да оцените стойността на този наклон. В модел на множествена регресия следната формула се използва за изграждане на доверителен интервал:

(7) b j ± t nк –1 Sbj

Използваме тази формула, за да конструираме 95% доверителен интервал, съдържащ наклона на съвкупността β 1 (ефектът на цената x1върху обема на продажбите Yс фиксиран размер на разходите за реклама X 2). По формула (7) получаваме: b 1 ± t nк –1 сб 1 . Тъй като b 1 = –53.2173 (виж Фиг. 3), сб 1 = 6,8522, критична стойност T-статистика при 95% ниво на сигурност и 31 степени на свобода t nк –1 \u003d STUDENT.OBR (0,975; 31) \u003d 2,0395, получаваме:

–53.2173 ± 2.0395*6.8522

–53.2173 ± 13.9752

–67,1925 ≤ β 1 ≤ –39,2421

По този начин, като се вземе предвид ефектът от разходите за реклама, може да се твърди, че с увеличаване на цената на бар с един цент, обемът на продажбите намалява със сума, която варира от 39,2 до 67,2 единици. Има 95% шанс този интервал да оцени правилно връзката между двете променливи. Тъй като този доверителен интервал не съдържа нула, може да се твърди, че регресионният коефициент β 1 има статистически значително влияниевърху обема на продажбите.

Оценяване на значимостта на обяснителните променливи в модел на множествена регресия

Един модел на множествена регресия трябва да включва само тези обяснителни променливи, които точно предсказват стойността на зависимата променлива. Ако някоя от обяснителните променливи не отговаря на това изискване, тя трябва да бъде премахната от модела. Като алтернативен метод за оценка на приноса на обяснителната променлива, като правило, частна Е-критерий. Състои се в оценка на промяната в сумата от квадратите на регресията след включването на следващата променлива в модела. Нова променлива се включва в модела само когато води до значително повишаване на точността на прогнозата.

За да се приложи частичен F-тест към проблема с продажбите на OmniPower bar, е необходимо да се оцени приносът на променливата X 2(разходи за реклама) след включване на променливата в модела x1(цена на бар). Ако моделът включва множество обяснителни променливи, приносът на обяснителната променлива хйможе да се определи, като се изключи от модела и се оцени регресионната сума на квадратите (SSR), изчислена върху останалите променливи. Ако моделът включва две променливи, приносът на всяка от тях се определя по формулите:

Оценяване на приноса на променлива X 1 X 2:

(8a) SSR(X 1 |X 2) = SSR(X 1 и X 2) – SSR(X 2)

Оценяване на приноса на променлива X 2при условие, че променливата е включена в модела X 1:

(8b) SSR(X 2 |X 1) = SSR(X 1 и X 2) – SSR(X 1)

Количества SSR(X2)и SSR(X 1) са съответно суми от квадрати на регресията, изчислена само за една от обяснените променливи (фиг. 9).

Ориз. 9. Коефициентите на прост линеен регресионен модел, като се вземат предвид: (а) обемът на продажбите и цената на лентата - SSR(X 1); б) обем на продажбите и разходи за реклама - SSR(X2)(получен с помощта на Excel Analysis ToolPack)

Нулеви и алтернативни хипотези за приноса на променливата X 1се формулират по следния начин: H 0- активиране на променлива X 1не води до значително повишаване на точността на модела, който отчита променливата X 2; H 1- активиране на променлива X 1води до значително повишаване на точността на модела, който отчита променливата X 2. Статистиката, лежаща в основата на коефициента Е-критерий за две променливи, изчислен по формулата:

където MSEе дисперсията на грешката (остатък) за два фактора едновременно. По дефиниция Е- статистиката има Е-разпределение от един и н-k-1степени на свобода.

Така, SSR(X2)= 14 915 814 (фиг. 9), SSR (X 1 и X 2)= 39 472 731 (фиг. 3, клетка C12). Следователно, съгласно формула (8а), получаваме: SSR (X 1 | X 2) \u003d SSR (X 1 и X 2) - SSR (X 2) \u003d 39 472 731 - 14 915 814 = 24 556 917. И така, за SSR(X 1 | X 2) = 24 556 917 и MSE (х 1 и X 2) = 407 127 (фиг. 3, клетка D13), използвайки формула (9), получаваме: Е= 24 556 917 / 407 127 = 60,32. Ако нивото на значимост е 0,05, тогава критичната стойност Е-разпределения с една и 31 степени на свобода = F. OBR (0,95; 1; 31) = 4,16 (фиг. 10).

Ориз. 10. Тестване на хипотезата за значимостта на регресионните коефициенти при ниво на значимост 0,05, с една и 31 степени на свобода

Тъй като изчислената стойност Е-статистика повече от критична (60.32 > 4.17), хипотеза H 0се отхвърля, следователно се отчита променливата X 1(цени) значително подобрява регресионен модел, който вече включва променливата X 2(разходи за реклама).

По подобен начин може да се оцени влиянието на променливата X 2(разходи за реклама) за модел, който вече включва променливата X 1(цена). Направете изчисленията сами. Условието за вземане на решение причинява 27,8 > 4,17 и следователно включването на променливата X 2също води до значително повишаване на точността на модела, който отчита променливата X 1 . Така че включването на всяка от променливите подобрява точността на модела. Следователно и двете променливи трябва да бъдат включени в модела на множествената регресия: цена и рекламни разходи.

Любопитно е, че стойността T-статистика, изчислена по формула (6), и стойността на частния Е-статистиките, дадени с формула (9), са уникално взаимосвързани:

където ае броят на степените на свобода.

Регресионни модели на фиктивни променливи и ефекти на взаимодействие

Когато обсъждахме модели на множествена регресия, ние приехме, че всяка независима променлива е число. Въпреки това, в много ситуации е необходимо да се включат категорични променливи в модела. Например, в проблема с продажбите на OmniPower bar, цената и разходите за реклама бяха използвани за прогнозиране на средните месечни продажби. В допълнение към тези числови променливи можете да опитате да вземете предвид в модела местоположението на стоките вътре в магазина (например на витрината или не). За да се отчетат категоричните променливи в регресионния модел, в него трябва да бъдат включени фиктивни променливи. Например, ако една категорична обяснителна променлива има две категории, една фиктивна променлива е достатъчна, за да ги представи хд: X d= 0, ако наблюдението принадлежи към първата категория, X d= 1, ако наблюдението принадлежи към втората категория.

За да илюстрирате фиктивните променливи, помислете за модел за прогнозиране на средната оценена стойност на недвижими имоти въз основа на извадка от 15 къщи. Като обяснителни променливи избираме жилищната площ на къщата (хиляда квадратни фута) и наличието на камина (фиг. 11). Фиктивна променлива X 2(наличие на камина) се определя както следва: X 2= 0, ако в къщата няма камина, X 2= 1 ако къщата има камина.

Ориз. 11. Прогнозна стойност според жилищната площ и наличието на камина

Да приемем, че наклонът на прогнозната стойност в зависимост от жилищната площ е еднакъв за къщи с и без камина. Тогава моделът на множествената регресия изглежда така:

Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i

където Y i- оценена стойност аз-та къща, измерена в хиляди долари, β 0 - промяна на реакцията, x1аз,- жилищно пространство аз-go къща, измерена в хиляди квадратни метра. крака, β 1 - наклонът на прогнозната стойност, в зависимост от жилищната площ на къщата с постоянна стойност на фиктивната променлива, x1аз, е фиктивна променлива, показваща наличието или отсъствието на камина, β 1 - наклонът на прогнозната стойност, в зависимост от жилищната площ на къщата с постоянна стойност на фиктивната променлива β 2 - ефектът от увеличаване на прогнозната стойност на къщата, в зависимост от наличието на камина с постоянно количество жилищна площ, ε аз– случайна грешка в прогнозната стойност азта къща. Резултатите от изчисляването на регресионния модел са показани на фиг. 12.

Ориз. 12. Резултати от изчисляване на регресионния модел за прогнозната стойност на къщите; получен с Пакет за анализв Excel; за изчислението е използвана таблица, подобна на фиг. 1. 11, с единствената промяна: "Да" се заменят с единици, а "Не" с нули

В този модел регресионните коефициенти се интерпретират, както следва:

  1. Ако фиктивната променлива е постоянна, увеличението на жилищното пространство на 1000 кв. фута води до $16,2k увеличение на прогнозираната средна оценена стойност.
  2. Ако жилищното пространство е постоянно, наличието на камина увеличава средната стойност на дома с $3900.

Обърнете внимание (фиг. 12), T-статистиката, съответстваща на жилищна площ, е 6,29, и Р- стойността е почти нулева. В същото време T-статистиката, съответстваща на фиктивната променлива, е 3.1 и стр-стойност - 0,009. Следователно всяка от тези две променливи допринася значително за модела, ако нивото на значимост е 0,01. В допълнение, коефициентът на множествена смесена корелация означава, че 81,1% от вариацията в оценената стойност се дължи на променливостта на жилищното пространство на дома и наличието на камина.

Ефект на взаимодействие.Във всички регресионни модели, обсъдени по-горе, ефектът на отговора върху обяснителната променлива се счита за статистически независим от ефекта на отговора върху други обяснителни променливи. Ако това условие не е изпълнено, има взаимодействие между зависимите променливи. Например, вероятно е рекламата да има голямо влияние върху продажбите на продукти на ниски цени. Въпреки това, ако цената на даден продукт е твърде висока, увеличаването на разходите за реклама не може значително да увеличи продажбите. В този случай има взаимодействие между цената на продукта и разходите за неговата реклама. С други думи, не могат да се правят общи твърдения за зависимостта на продажбите от разходите за реклама. Влиянието на рекламните разходи върху продажбите зависи от цената. Това влияние се взема предвид в модела на множествена регресия, използвайки ефекта на взаимодействие. За да илюстрираме тази концепция, нека се върнем към проблема с цената на къщите.

В регресионния модел, който разработихме, беше прието, че ефектът от размера на къщата върху нейната стойност не зависи от това дали къщата има камина. С други думи, смята се, че наклонът на прогнозната стойност, в зависимост от жилищната площ на къщата, е еднакъв за къщи с и без камина. Ако тези склонове се различават един от друг, има взаимодействие между размера на къщата и наличието на камина.

Тестването на хипотезата за равни наклони се свежда до оценка на приноса, който произведението на обяснителната променлива прави към регресионния модел x1и фиктивна променлива X 2. Ако този принос е статистически значим, оригиналният регресионен модел не може да бъде приложен. Резултати от регресионен анализ, включващ променливи X 1, X 2и X 3 \u003d X 1 * X 2показано на фиг. 13.

Ориз. 13. Резултати, получени с Пакет за анализ Excel за регресионен модел, който отчита жилищната площ, наличието на камина и тяхното взаимодействие

За да се тества нулевата хипотеза H 0: β 3 = 0 и алтернативната хипотеза H 1: β 3 ≠ 0, като се използват резултатите, показани на фиг. 13, имайте предвид, че T-статистиката, съответстваща на ефекта от взаимодействието на променливите, е равна на 1,48. Тъй като Р-стойността е 0,166 > 0,05, нулевата хипотеза не се отхвърля. Следователно взаимодействието на променливите няма значим ефект върху регресионния модел, който отчита жилищното пространство и наличието на камина.

Резюме. Тази бележка показва как един маркетинг мениджър може да използва множество линейни анализи, за да прогнозира обема на продажбите въз основа на цената и разходите за реклама. Разглеждат се различни модели на множествена регресия, включително квадратични модели, модели с фиктивни променливи и модели с ефекти на взаимодействие (фиг. 14).

Ориз. 14. Блокова схема на нот

Използвани са материали от книгата Левин и др.Статистика за мениджъри. - М.: Уилямс, 2004. - стр. 873–936

Добър ден, скъпи читатели.
В минали статии, практически примери, показах как се решават проблеми с класификацията (проблем с кредитния рейтинг) и основите на анализа на текстова информация (проблем с паспорта). Днес бих искал да засегна друг клас проблеми, а именно възстановяването чрез регресия. Задачите от този клас обикновено се използват при прогнозиране.
За пример за решаване на проблем с прогнозиране взех набора от данни за енергийна ефективност от най-голямото хранилище на UCI. Традиционно ще използваме Python с pandas и scikit-learn аналитични пакети като инструменти.

Описание на набора от данни и изявление на проблема

Даден е набор от данни, който описва следните атрибути на помещението:

Той съдържа характеристиките на помещението, въз основа на които ще се извърши анализът, и - стойностите на натоварването, които трябва да бъдат предвидени.

Предварителен анализ на данните

Първо, нека заредим нашите данни и да ги разгледаме:

От pandas импортирайте read_csv, DataFrame от sklearn.neighbors импортирайте KNeighborsRegressor от sklearn.linear_model импортирайте LinearRegression, LogisticRegression от sklearn.svm импортирайте SVR от sklearn.ensemble импортирайте RandomForestRegressor от sklearn.metrics импортирайте r2_score от sklearn.cross_validation импортирайте train_test_split dataset =(readEci_splitEcgyvi /ENB2012_data.csv",";") dataset.head()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

Сега нека видим дали има свързани атрибути. Това може да стане чрез изчисляване на коефициентите на корелация за всички колони. Как да направите това беше описано в предишна статия:

dataset.corr()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1.000000e+00 -9.919015e-01 -2.037817e-01 -8.688234e-01 8.277473e-01 0.000000 1.283986e-17 1.764620e-17 0.622272 0.634339
X2 -9.919015e-01 1.000000e+00 1.955016e-01 8.807195e-01 -8.581477e-01 0.000000 1.318356e-16 -3.558613e-16 -0.658120 -0.672999
X3 -2.037817e-01 1.955016e-01 1.000000e+00 -2.923165e-01 2.809757e-01 0.000000 -7.969726e-19 0.000000e+00 0.455671 0.427117
X4 -8.688234e-01 8.807195e-01 -2.923165e-01 1.000000e+00 -9.725122e-01 0.000000 -1.381805e-16 -1.079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8.581477e-01 2.809757e-01 -9.725122e-01 1.000000e+00 0.000000 1.861418e-18 0.000000e+00 0.889431 0.895785
X6 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 1.000000 0.000000e+00 0.000000e+00 -0.002587 0.014290
X7 1.283986e-17 1.318356e-16 -7.969726e-19 -1.381805e-16 1.861418e-18 0.000000 1.000000e+00 2.129642e-01 0.269841 0.207505
X8 1.764620e-17 -3.558613e-16 0.000000e+00 -1.079129e-16 0.000000e+00 0.000000 2.129642e-01 1.000000e+00 0.087368 0.050525
Y1 6.222722e-01 -6.581202e-01 4.556712e-01 -8.618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6.729989e-01 4.271170e-01 -8.625466e-01 8.957852e-01 0.014290 2.075050e-01 5.052512e-02 0.975862 1.000000

Както можете да видите от нашата матрица, следните колони корелират една с друга (стойността на коефициента на корелация е по-голяма от 95%):
  • y1 --> y2
  • x1 --> x2
  • x4 --> x5
Сега нека изберем кои колони от нашите двойки можем да премахнем от нашия избор. За да направим това, във всяка двойка избираме колоните, които имат по-голямо влияние върху прогнозираните стойности Y1и Y2и ги оставете, а останалите изтрийте.
Както можете да видите, матрици с корелационни коефициенти на y1 ,y2 по-важно X2 и X5 отколкото X1 и X4, така че можем да премахнем последните колони, които можем.

Dataset = dataset.drop(["X1","X4"], axis=1) dataset.head()
Освен това се вижда, че нив Y1 и Y2 много тясно корелират помежду си. Но тъй като трябва да предвидим и двете стойности, ние ги оставяме „както са“.

Избор на модел

Отделете прогнозните стойности от нашата извадка:

Trg = набор от данни[["Y1","Y2"]] trn = набор от данни.drop(["Y1","Y2"], ос=1)
След обработката на данните можете да продължите към изграждането на модела. За да изградим модела, ще използваме следните методи:

Теорията за тези методи може да бъде прочетена в курса на лекциите на К. В. Воронцов за машинно обучение.
Ще оценим с помощта на коефициента на определяне ( R-квадрат). Този коефициент се определя, както следва:

Къде е условната дисперсия на зависимата променлива припо фактор х.
Коефициентът приема стойност на интервала и колкото по-близо е до 1, толкова по-силна е зависимостта.
Е, сега можете да преминете директно към изграждането на модел и избора на модел. Нека поставим всички наши модели в един списък за удобство на по-нататъшен анализ:

Модели=
Така че моделите са готови, сега ще разделим нашите оригинални данни на 2 подизвадки: тести образователен. Тези, които са чели предишните ми статии, знаят, че това може да се направи с помощта на функцията train_test_split() от пакета scikit-learn:

Xtrn, Xtest, Ytrn, Ytest = train_test_split(trn, trg, test_size=0,4)
Сега, тъй като трябва да предвидим 2 параметъра, трябва да изградим регресия за всеки от тях. Освен това, за допълнителен анализ, можете да запишете получените резултати във временен DataFrame. Можете да го направите така:

#създайте временни структури TestModels = DataFrame() tmp = () #за всеки модел от списъка за модел в модели: #вземете името на модела m = str(model) tmp["Model"] = m[:m.index( "( ")] #за всяка колона от набора с резултати за i в xrange(Ytrn.shape): #обучаване на модела model.fit(Xtrn, Ytrn[:,i]) #изчисляване на коефициента на определяне tmp["R2_Y %s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #запис на данни и окончателни DataFrame TestModels = TestModels.append() #make индекс по име на модел TestModels.set_index ("Модел", inplace= true)
Както можете да видите от кода по-горе, функцията r2_score() се използва за изчисляване на коефициента.
И така, данните за анализ са получени. Нека сега изградим графики и да видим кой модел показа най-добър резултат:

Фигура, оси = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=оси, kind="bar", title="(!LANG:R2_Y1") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Анализ на резултатите и изводи

От графиките по-горе можем да заключим, че методът се справи със задачата по-добре от другите. Случайна гора(произволна гора). Неговите коефициенти на определяне са по-високи от останалите и в двете променливи:
За допълнителен анализ, нека преквалифицираме нашия модел:

Модел = modelsmodel.fit(Xtrn, Ytrn)
При по-внимателно разглеждане може да възникне въпросът защо зависимата проба е била разделена последния път Ytrnкъм променливи (по колони), а сега не правим това.
Факт е, че някои методи, като напр RandomForestRegressor, може да работи с няколко предсказващи променливи, докато други (напр SVR) може да работи само с една променлива. Затова в предишното обучение използвахме разделяне по колони, за да избегнем грешки в процеса на изграждане на някои модели.
Изборът на модел, разбира се, е добър, но също така би било хубаво да имате информация за това как всеки фактор ще повлияе на прогнозираната стойност. За да направи това, моделът има свойство характеристики_важности_.
С него можете да видите теглото на всеки фактор в крайните модели:

Model.feature_importances_
масив ([ 0.40717901, 0.11394948, 0.34984766, 0.00751686, 0.09158358,
0.02992342])

В нашия случай се вижда, че общата височина и площ влияят най-много върху натоварването при отопление и охлаждане. Общият им принос към прогнозния модел е около 72%.
Трябва също да се отбележи, че според горната схема можете да видите влиянието на всеки фактор поотделно върху отоплението и отделно върху охлаждането, но тъй като тези фактори са много тясно свързани помежду си (), направихме общо заключение и за двата тях, което беше написано по-горе.

Заключение

В статията се опитах да покажа основните стъпки в регресионния анализ на данни с помощта на Python и аналитични пакети. пандии scikit-learn.
Трябва да се отбележи, че наборът от данни е специално избран по такъв начин, че да бъде максимално формализиран и първичната обработка на входните данни да бъде минимална. Според мен статията ще бъде полезна за тези, които тепърва започват своето пътуване в анализа на данни, както и за тези, които имат добра теоретична база, но избират инструменти за работа.
Споделете с приятели или запазете за себе си:

Зареждане...