Коефициенти на корелация. Софтуерният пакет на Microsoft като ефективен инструмент за иконометричен анализ

Коефициентът на множествена корелация на три променливи е индикатор за близостта на линейна връзка между един от признаците (индексна буква преди тирето) и комбинация от два други признака (индексни букви след тирето):

; (12.7)

(12.8)

Тези формули улесняват изчисляването на множество корелационни коефициенти за известни стойностидвойни коефициенти на корелация r xy, r xz и r yz.

Коефициент Рне е отрицателна и винаги е между 0 и 1. При приближаване Рдо единство се увеличава степента на линейна връзка на трите признака. Между съотношение множествена корелация, например R y-xzи две двойки корелационни коефициенти r yxи r yzима следната връзка: всеки от коефициентите на двойката не може да надвишава по абсолютна стойност R y-xz.

Квадратът на коефициента на множествена корелация R2се нарича коефициент множествено определяне. Той показва съотношението на вариация в зависимата променлива под влиянието на изследваните фактори.

Значимостта на множествената корелация се оценява от
Е– критерий:

, (12.9)

не размерът на извадката,

к– брой знаци; в нашия случай к = 3.

теоретична стойност Е– критериите са взети от таблицата за кандидатстване за ν 1 = k-1 и ν 2 \u003d n–kстепените на свобода и приетото ниво на значимост. Нулева хипотеза за равенството на коефициента на множествена корелация в популацията на нула ( H0:R= 0) се приема, ако F факт.< F табл . и отхвърлен, ако F факт. ≥ F таблица.

Край на работата -

Тази тема принадлежи на:

Математическа статистика

Учебно заведение.. Гомел Държавен университет.. кръстен на Франциск Скарина Ю М Жученко ..

Ако се нуждаеш допълнителен материалпо тази тема или не сте намерили това, което търсите, препоръчваме да използвате търсенето в нашата база данни с произведения:

Какво ще правим с получения материал:

Ако този материал се оказа полезен за вас, можете да го запазите на страницата си в социалните мрежи:

Всички теми в този раздел:

Урок
за студенти, обучаващи се по специалността 1-31 01 01 "Биология" Гомел 2010 г.

Предмет и метод на математическата статистика
Предметът на математическата статистика е изучаването на свойствата на масовите явления в биологията, икономиката, технологиите и други области. Тези явления обикновено са сложни, поради разнообразието (вариация

Концепцията за случайно събитие
Статистическа индукция или статистическо заключение като основно компонентметод за изучаване на масови явления, имат свои собствени отличителни черти. Статистическите заключения са направени с числени

Вероятност за случайно събитие
Числена характеристикаслучайно събитие, което има свойството, че за всяка достатъчно голяма серия от тестове, честотата на събитието се различава само малко от тази характеристика, се нарича

Изчисляване на вероятности
Често има нужда от едновременно добавяне и умножаване на вероятности. Например, искате да определите вероятността да получите 5 точки, когато хвърлите 2 зара едновременно. Необходимата сума е вероятно

Концепцията за случайна променлива
След като дефинирахме понятието вероятност и изяснихме основните му свойства, нека преминем към разглеждането на едно от най-важните понятия на теорията на вероятностите - понятието за случайна променлива. Нека приемем, че като резултат

Дискретни случайни променливи
Случайната променлива е дискретна, ако наборът от нейните възможни стойности е краен, или според поне, е изброимо. Да приемем, че случайна променлива X може да приеме стойностите x1

Непрекъснати случайни променливи
За разлика от дискретните случайни променливи, обсъдени в предишния подраздел, наборът от възможни стойности за непрекъсната случайна променлива не само не е краен, но и

Математическо очакване и дисперсия
Често има нужда да се характеризира разпределението на случайна променлива с помощта на един или два числови показателя, които изразяват най-значимите свойства на това разпределение. На такива

Моменти
От голямо значение в математическата статистика са така наречените моменти на разпределение на случайна величина. AT математическо очакванеголеми стойности на случайна променлива се вземат предвид недостатъчно.

Биномиално разпределение и измерване на вероятности
В тази тема ще разгледаме основните видове разпределение на дискретни случайни променливи. Нека приемем, че вероятността за възникване на някакво случайно събитие А в едно изпитание е равна на

Правоъгълно (равномерно) разпределение
Правоъгълно (равномерно) разпределение - най-простият тип непрекъснати разпределения. Ако случайна променлива X може да приеме всяка реална стойност в интервала (a, b), където a и b са реални

Нормална дистрибуция
Нормалното разпределение играе важна роля в математическата статистика. Това съвсем не е случайно: в обективната реалност много често се срещат различни признаци.

лог-нормално разпределение
Случайната променлива Y има логаритмично нормална дистрибуцияс параметри μ и σ, ако случайната променлива X = lnY има нормално разпределение със същите параметри μ и &

Средни стойности
От всички групови свойства най-голямо теоретично и практическо значение има средното ниво, измерено чрез средната стойност на признака. Средната стойност на характеристика е много дълбока концепция,

Общи свойства на средните
За правилното използване на средните стойности е необходимо да се познават свойствата на тези показатели: медианното местоположение, абстрактността и единството на общото действие. По числената си стойност

Средноаритметично
Средно аритметично, като общи имотисредни стойности, има свои собствени характеристики, които могат да бъдат изразени със следните формули:

Среден ранг (средно непараметрично)
Средният ранг се определя за такива характеристики, за които все още не са намерени методи за количествено измерване. Според степента на проявление на такива характеристики обектите могат да бъдат класирани, т.е. локализирани

Среднопретеглена аритметична
Обикновено, за да изчислите средната аритметична стойност, добавете всички стойности на характеристикитеи получената сума се разделя на броя на опциите. В този случай всяка стойност, влизаща в сумата, я увеличава докрай

корен квадратен
Средноквадратичният корен се изчислява по формулата: , (6.5) Равен е на корен квадратен от сумата

Медиана
Медианата е такава стойност на характеристиката, която разделя цялата група на две равни части: едната част има стойност на характеристиката, по-малка от медианата, а другата има по-голяма стойност. Например, ако имам

Средна геометрична
За да получите средната геометрична стойност за група с n данни, трябва да умножите всички опции и да извлечете от получения продукт n-ти коренстепени:

Средно хармонично
Средната хармонична стойност се изчислява по формулата. (6.14) За пет опции: 1, 4, 5, 5 средно

Брой степени на свобода
Броят на степените на свобода е равен на броя на свободните многообразни елементи в групата. Той е равен на броя на всички налични учебни елементи без броя на ограниченията на разнообразието. Например за изследване

Коефициентът на вариация
Стандартно отклонение- наименована стойност, изразена в същите мерни единици като средноаритметичното. Следователно, за да сравните различни характеристики, изразени в различни единици от

Граници и обхват
За бърза и приблизителна оценка на степента на разнообразие често се използват най-простите показатели: lim = (min ¸ max) - граници, т.е. най-голяма стойностфункция, p =

Нормализирано отклонение
Обикновено степента на развитие на даден признак се определя чрез измерването му и се изразява с определено наименувано число: 3 кг тегло, 15 см дължина, 20 кукички на крилото на пчелите, 4% масленост на млякото, 15 кг. изрязване

Средна стойност и сигма на сумарната група
Понякога е необходимо да се определи средната стойност и сигма за сумарно разпределение, съставено от няколко разпределения. В този случай не са известни самите разпределения, а само техните средни стойности и сигми.

Наклон (асимметричност) и стръмност (ексцет) на кривата на разпределение
За големи проби (n > 100) се изчисляват още две статистики. Изкривяването на кривата се нарича асиметрия:

Вариационни серии
С увеличаването на размера на изследваните групи все повече се проявява закономерността в разнообразието, което в малките групи беше скрито от случайната форма на проявление.

Хистограма и вариационна крива
Хистограмата е вариационна серия, представен под формата на диаграма, в която различна стойност на честотата е изобразена с различна височина на лентата. Хистограмата на разпределението на данните е показана на стр

Значение на разликите в разпределението
Статистическата хипотеза е конкретно предположение за вероятностното разпределение, което е в основата на наблюдаваната извадка от данни. Преглед статистическа хипотезае процес на приемане

Критерии за изкривяване и ексцес
Някои признаци на растения, животни и микроорганизми, когато обектите се комбинират в групи, дават разпределения, които се различават значително от нормалното. В случаите, когато има

Генерална съвкупност и извадка
Целият набор от индивиди от определена категория се нарича генерална съвкупност. Сила на звука населениеопределени от целите на изследването. Ако се изследва някакъв вид диви животни

Представителност
Директното изследване на група избрани обекти дава, на първо място, първичен материали характеристики на самата проба. Всички примерни данни и обобщени цифри са уместни като

Грешки в представителността и други грешки в изследването
Оценката на общите параметри въз основа на селективни показатели има свои собствени характеристики. Една част никога не може напълно да характеризира цялото, следователно характеристиката на общата съвкупност

Граници на доверието
Необходимо е да се определи стойността на грешките на представителност, за да се използват примерни показатели и за намиране на възможни стойности на общи параметри. Този процес се нарича o

Процедура за обща оценка
Три стойности, необходими за оценка на общия параметър - примерен индикатор (), критерий за надеждност

Оценка на средноаритметичната стойност
Степен среден размерима за цел да установи стойността на общата авария за изследваната категория обекти. Грешката на представителност, необходима за тази цел, се определя по формулата:

Оценка на средната разлика
В някои проучвания разликата между две измервания се приема като първична информация. Това може да е случаят, когато всеки индивид от пробата се изследва в две състояния - или в различни възрасти, или стр

Ненадеждна и надеждна оценка на средната разлика
Такива резултати от селективни изследвания, според които е невъзможно да се получи определена оценка на общия параметър (или той да е по-голям от нула, или по-малък или равен на нула), се наричат ​​ненадеждни.

Оценка на разликата на общите средни
При биологичните изследвания разликата между две количества е от особено значение. По разлика се сравняват различни популации, раси, породи, сортове, линии, семейства, експериментални и контролни групи (метод gr

Критерий за надеждност на разликата
По същото време голямо значение, което има за изследователите получаването на надеждни разлики, има нужда от овладяване на методи за определяне дали полученото е надеждно, реалистично

Представителност при изследване на качествени признаци
Качествените черти обикновено не могат да имат градации на проявление: те или съществуват, или не съществуват във всеки от индивидите, например пол, пол, наличие или отсъствие на някакви характеристики, грозота

Достоверност на разликата в дяловете
Надеждността на разликата в извадковите дялове се определя по същия начин, както за разликата в средните: (10.34)

Коефициент на корелация
В много изследвания се изисква да се изследват няколко признака във взаимната им връзка. Ако проведем такова изследване по отношение на две черти, тогава можем да видим, че променливостта на една черта не е

Грешка на коефициента на корелация
Както всяка стойност на извадката, коефициентът на корелация има собствена грешка на представителност, изчислена за големи извадки по формулата:

Доверие на коефициента на корелация на извадката
Критерият за извадковия коефициент на корелация се определя по формулата: (11.9) където:

Доверителни граници на корелационния коефициент
Намерени са доверителните граници на общата стойност на корелационния коефициент по общ начинпо формулата:

Достоверност на разликата между два корелационни коефициента
Надеждността на разликата в коефициентите на корелация се определя по същия начин, както надеждността на разликата в средните стойности, съгласно обичайната формула

Регресионно уравнение на права линия
Праволинейната корелация е различна по това, че при тази форма на връзка всяка една и съща промяна в първия атрибут съответства на добре дефинирана и също същата средна промяна в другия pr

Грешки на елементите на уравнението на праволинейната регресия
В уравнението проста права линейна регресия: y = a + bx има три грешки в представителността. 1 Грешка на регресионния коефициент:

Частичен коефициент на корелация
Коефициентът на частична корелация е показател, който измерва степента на конюгиране на два признака, когато постоянна стойносттрети. Математическата статистика ви позволява да установите корелация

Уравнение на линейна множествена регресия
Математическото уравнение за връзка по права линия между три променливи се нарича множествено линейно уравнение на регресионната равнина. Има следната обща форма:

корелационна връзка
Ако връзката между изследваните явления значително се отклонява от линейната, която лесно се установява от графиката, тогава коефициентът на корелация е неподходящ като мярка за връзката. Може да показва липсата

Свойства на корелационна връзка
Коефициентът на корелация измерва степента на корелация във всяка от нейните форми. В допълнение, съотношението на корелация има редица други свойства, които са от голям интерес в статистиката

Грешка в представителността на коефициента на корелация
Все още не е разработена точна формула за грешката на представителността. корелационна връзка. Формулата, която обикновено се дава в учебниците, има недостатъци, които не винаги могат да бъдат пренебрегнати. Тази формула не го прави

Критерий за корелационна линейност
За да се определи степента на сближаване на криволинейна зависимост с праволинейна, се използва критерият F, изчислен по формулата:

Дисперсионен комплекс
Дисперсионният комплекс е набор от градации с данните, включени за изследването и средната стойност на данните за всяка градация (частни средни стойности) и за целия комплекс (обща средна стойност).

Статистически влияния
Статистическото влияние е отражение в разнообразието на получената характеристика на разнообразието на фактора (неговите градации), което е организирано в изследването. За оценка на влиянието на нео

Факторно влияние
Факторното влияние е просто или комбинирано статистическо влияние на изследваните фактори. При еднофакторните комплекси се изучава простото влияние на един фактор на определени организационни нива.

Еднофакторен дисперсионен комплекс
Дисперсионният анализ е разработен и въведен в практиката на селскостопанските и биологичните изследвания от английския учен Р. А. Фишер, който открива закона за разпределение на съотношението на средните квадрати

Многофакторен дисперсионен комплекс
ясна представа за математически модел дисперсионен анализулеснява разбирането на необходимите изчислителни операции, особено при обработка на данни от многовариантни експерименти, в които има повече

Трансформации
Правилното използване на дисперсионния анализ за обработка на експериментален материал предполага хомогенност на дисперсиите за варианти (извадки), нормално или близко до него разпределение в

Индикатори за силата на въздействията
Определянето на силата на влиянията по техните резултати се изисква в биологията, селско стопанство, медицина за избор на най-ефективни средства за въздействие, за дозиране на физични и химични агенти - чл.

Грешката на представителност на основния показател за силата на влияние
Точната формула за грешката на основния показател за силата на влияние все още не е намерена. В еднофакторни комплекси, когато грешката на представителност се определя само за един факторен показател

Гранични стойности на показателите за сила на влияние
Основният показател за силата на влияние е равен на дела на един термин от общата сума на термините. Освен това този показател е равно на квадратакорелационна връзка. Поради тези две причини индикаторът за мощност

Надеждност на въздействията
Основният показател за силата на въздействие, получен при селективно изследване, характеризира на първо място степента на влияние, която наистина се е проявила в групата от изследвани обекти.

Дискриминантен анализ
Дискриминантният анализ е един от многовариантните методи Статистически анализ. Целта на дискриминантния анализ е въз основа на измерването на различни характеристики (характеристики, двойки

Постановка на проблема, методи за решаване, ограничения
Да предположим, че има n обекта с m характеристики. В резултат на измерванията всеки обект се характеризира с вектора x1 ... xm, m>1. Задачата е това

Предпоставки и ограничения
Дискриминантният анализ "работи" при редица предположения. Предположението, че наблюдаваните величини - измерените характеристики на обекта - имат нормално разпределение. то

Алгоритъм за дискриминантен анализ
Решаването на проблемите с дискриминацията (дискриминантен анализ) се състои в разделянето на цялото пространство на извадката (наборът от реализации на всички разглеждани многомерни случайни променливи) на определен брой

клъстерен анализ
Клъстерният анализ съчетава различни процедури, използвани за извършване на класификация. В резултат на прилагането на тези процедури първоначалният набор от обекти се разделя на клъстери или групи

Методи за клъстерен анализ
На практика обикновено се прилагат агломеративни клъстерни методи. Обикновено, преди да започне класификацията, данните се стандартизират (средната се изважда и квадратният корен се разделя).

Алгоритъм за клъстерен анализ
Клъстерният анализ е набор от методи за класифициране на многоизмерни наблюдения или обекти въз основа на дефиницията на концепцията за разстояние между обекти, последвано от избор на групи от тях, &

Регресионният анализ е статистически метод за изследване, който ви позволява да покажете зависимостта на параметър от една или повече независими променливи. В предкомпютърната ера използването му е било доста трудно, особено когато става въпрос за големи количества данни. Днес, след като научихте как да изградите регресия в Excel, можете да решите сложно статистически проблемибуквално след няколко минути. По-долу са конкретни примери от областта на икономиката.

Видове регресия

Самата концепция е въведена в математиката през 1886 г. Регресията се случва:

  • линеен;
  • параболичен;
  • мощност;
  • експоненциален;
  • хиперболичен;
  • демонстративен;
  • логаритмичен.

Пример 1

Разгледайте проблема за определяне на зависимостта на броя на пенсионираните членове на екипа от средна работна заплатав 6 промишлени предприятия.

Задача. Шест предприятия са анализирали средномесечно заплатии броя на напусналите служители собствена воля. В табличен вид имаме:

Броят на напусналите хора

Заплата

30 000 рубли

35 000 рубли

40 000 рубли

45 000 рубли

50 000 рубли

55 000 рубли

60 000 рубли

За задачата за определяне на зависимостта на броя на пенсионираните работници от средната работна заплата в 6 предприятия регресионният модел има формата на уравнението Y = a 0 + a 1 x 1 +…+a k x k , където x i са влияещите променливи , a i са регресионните коефициенти, a k е броят на факторите.

За тази задача Y е индикаторът за напуснали служители, а влияещият фактор е заплатата, която означаваме с X.

Използване на възможностите на електронната таблица "Excel"

Регресионният анализ в Excel трябва да бъде предшестван от прилагане на вградени функции към наличните таблични данни. За тези цели обаче е по-добре да използвате много полезната добавка „Analysis Toolkit“. За да го активирате трябва:

  • от раздела "Файл" отидете в секцията "Опции";
  • в прозореца, който се отваря, изберете реда „Добавки“;
  • кликнете върху бутона "Отиди", разположен в долната част, вдясно от реда "Управление";
  • поставете отметка в квадратчето до името „Пакет за анализ“ и потвърдете действията си, като щракнете върху „OK“.

Ако всичко е направено правилно, желаният бутон ще се появи от дясната страна на раздела Данни, разположен над работния лист на Excel.

в Excel

Сега, когато имаме под ръка всички необходими виртуални инструменти за извършване на иконометрични изчисления, можем да започнем да решаваме нашия проблем. За това:

  • кликнете върху бутона "Анализ на данни";
  • в прозореца, който се отваря, кликнете върху бутона "Регресия";
  • в раздела, който се появява, въведете диапазона от стойности за Y (броят служители, които са напуснали) и за X (техните заплати);
  • Потвърждаваме действията си с натискане на бутона "Ok".

В резултат на това програмата автоматично ще попълни нов лист от електронната таблица с данни от регресионен анализ. Забележка! Excel има възможност ръчно да зададе местоположението, което предпочитате за тази цел. Например, може да е един и същ лист, където са стойностите Y и X, или дори нова книга, специално предназначени за съхранение на такива данни.

Анализ на резултатите от регресия за R-квадрат

В Excel данните, получени по време на обработката на данните от разглеждания пример, изглеждат така:

На първо място, трябва да обърнете внимание на стойността на R-квадрата. Това е коефициентът на детерминация. В този пример R-квадрат = 0,755 (75,5%), т.е. изчислените параметри на модела обясняват връзката между разглежданите параметри със 75,5%. Колкото по-висока е стойността на коефициента на детерминация, толкова по-приложим е избраният модел за конкретна задача. Смята се, че той правилно описва реалната ситуация със стойност на R-квадрат над 0,8. Ако R-квадрат<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Анализ на съотношението

Числото 64.1428 показва каква ще бъде стойността на Y, ако всички променливи xi в модела, който разглеждаме, са настроени на нула. С други думи, може да се твърди, че стойността на анализирания параметър се влияе и от други фактори, които не са описани в конкретен модел.

Следващият коефициент -0.16285, разположен в клетка B18, показва тежестта на влиянието на променливата X върху Y. Това означава, че средната месечна заплата на служителите в рамките на разглеждания модел влияе върху броя на напусналите с тежест -0.16285, т.е. степента на неговото влияние изобщо е малка. Знакът "-" показва, че коефициентът е с отрицателна стойност. Това е очевидно, тъй като всеки знае, че колкото по-висока е заплатата в предприятието, толкова по-малко хора изразяват желание да прекратят трудовия договор или да напуснат.

Множествена регресия

Този термин се отнася до уравнение на връзка с няколко независими променливи от формата:

y \u003d f (x 1 + x 2 + ... x m) + ε, където y е ефективната характеристика (зависима променлива), а x 1, x 2, ... x m са факторните фактори (независими променливи).

Оценка на параметъра

За множествена регресия(MR) се извършва по метода най-малки квадрати(MNK). За линейни уравнения от формата Y = a + b 1 x 1 +…+b m x m + ε, ние конструираме система от нормални уравнения (вижте по-долу)

За да разберете принципа на метода, разгледайте двуфакторния случай. Тогава имаме ситуация, описана с формулата

От тук получаваме:

където σ е дисперсията на съответния признак, отразен в индекса.

LSM е приложим към уравнението MP в стандартизирана скала. В този случай получаваме уравнението:

където t y , t x 1, … t xm са стандартизирани променливи, за които средните стойности са 0; β i са стандартизираните регресионни коефициенти, а стандартното отклонение е 1.

Моля, имайте предвид, че всички β i в този случай са зададени като нормализирани и централизирани, така че тяхното сравнение помежду си се счита за правилно и допустимо. Освен това е обичайно да се филтрират фактори, като се изхвърлят тези с най-малки стойности на βi.

Проблем с използване на уравнение на линейна регресия

Да предположим, че има таблица с динамиката на цените на определен продукт N през последните 8 месеца. Необходимо е да се вземе решение за целесъобразността на закупуването на неговата партида на цена от 1850 рубли/т.

номер на месеца

име на месеца

цена на артикул N

1750 рубли на тон

1755 рубли на тон

1767 рубли на тон

1760 рубли на тон

1770 рубли на тон

1790 рубли на тон

1810 рубли на тон

1840 рубли на тон

За да разрешите този проблем в електронната таблица на Excel, трябва да използвате инструмента за анализ на данни, който вече е известен от горния пример. След това изберете секцията "Регресия" и задайте параметрите. Трябва да се помни, че в полето "Интервал на въвеждане Y" трябва да се въведе диапазон от стойности за зависимата променлива (в случая цената на даден продукт в определени месеци от годината), а в полето "Въвеждане интервал X" - за независимата променлива (номер на месец). Потвърдете действието, като щракнете върху „Ok“. На нов лист (ако е посочено така) получаваме данни за регресия.

Въз основа на тях изграждаме линейно уравнение от вида y=ax+b, където параметрите a и b са коефициентите на реда с името на номера на месеца и коефициентите и реда „Y-пресечна“ от лист с резултатите от регресионния анализ. Така уравнението на линейната регресия (LE) за проблем 3 е написано като:

Цена на продукта N = 11.714* номер на месеца + 1727.54.

или в алгебрична нотация

y = 11,714 x + 1727,54

Анализ на резултатите

За да се реши дали полученото уравнение на линейна регресия е адекватно, се използват коефициенти на множествена корелация (MCC) и коефициенти на детерминация, както и тест на Fisher и тест на Student. В таблицата на Excel с регресионни резултати те се показват съответно под имената на множество R, R-квадрат, F-статистика и t-статистика.

KMC R дава възможност да се оцени плътността на вероятностната връзка между независимите и зависимите променливи. Високата му стойност показва доста силна връзка между променливите "Номер на месеца" и "Цена на стоки N в рубли за 1 тон". Естеството на тази връзка обаче остава неизвестно.

Квадратът на коефициента на детерминация R 2 (RI) е числена характеристика на дела на общото разсейване и показва разсейването на коя част от експерименталните данни, т.е. стойностите на зависимата променлива съответстват на уравнението на линейната регресия. В разглежданата задача тази стойност е равна на 84,8%, т.е. статистическите данни се описват с висока степен на точност от полученото SD.

F-статистиката, наричана още тест на Фишер, се използва за оценка на значимостта на линейна връзка, опровергавайки или потвърждавайки хипотезата за нейното съществуване.

(Критерий на Стюдънт) помага да се оцени значимостта на коефициента с неизвестен или свободен член на линейна връзка. Ако стойността на t-критерия > t cr, тогава хипотезата за незначимостта на свободния член линейно уравнениеотхвърлени.

В разглежданата задача за свободния член с помощта на инструментите на Excel се получи, че t = 169.20903 и p = 2.89E-12, т.е. имаме нулева вероятност правилната хипотеза за незначимостта на свободния член да бъде отхвърлен. За коефициента при неизвестно t=5,79405 и p=0,001158. С други думи, вероятността правилната хипотеза за незначимостта на коефициента за неизвестното да бъде отхвърлена е 0,12%.

По този начин може да се твърди, че полученото уравнение на линейна регресия е адекватно.

Проблемът за целесъобразността от закупуване на пакет от акции

Множествената регресия в Excel се извършва с помощта на същия инструмент за анализ на данни. Помислете за конкретен приложен проблем.

Ръководството на NNN трябва да вземе решение относно целесъобразността на закупуването на 20% дял в MMM SA. Цената на пакета (JV) е 70 милиона щатски долара. Специалистите на NNN събраха данни за подобни транзакции. Беше решено да се оцени стойността на пакета акции според такива параметри, изразени в милиони щатски долари, като:

  • дължими сметки (VK);
  • годишен оборот (VO);
  • вземания (VD);
  • себестойност на дълготрайните активи (SOF).

Освен това се използва параметърът просрочени задължения на предприятието (V3 P) в хиляди щатски долари.

Решение с помощта на електронна таблица на Excel

На първо място, трябва да създадете таблица с първоначални данни. Изглежда така:

  • извикайте прозореца "Анализ на данни";
  • изберете секцията "Регресия";
  • в полето "Интервал на въвеждане Y" въведете диапазона от стойности на зависимите променливи от колона G;
  • кликнете върху иконата с червена стрелка вдясно от полето "Input interval X" и изберете в листа диапазон от всички стойности от колони B,C, Д, Е.

Изберете „Нов работен лист“ и щракнете върху „Ok“.

Вземете регресионния анализ за дадения проблем.

Разглеждане на резултатите и заключения

„Ние събираме“ от закръглените данни, представени по-горе в електронната таблица на Excel, регресионното уравнение:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265.844.

В по-позната математическа форма може да се запише като:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Данните за АД "МММ" са представени в таблицата:

Замествайки ги в регресионното уравнение, те получават цифра от 64,72 милиона щатски долара. Това означава, че акциите на АД МММ не трябва да се купуват, тъй като тяхната стойност от 70 милиона щатски долара е доста завишена.

Както можете да видите, използването на електронната таблица на Excel и регресионното уравнение направи възможно вземането на информирано решение относно осъществимостта на много специфична транзакция.

Сега знаете какво е регресия. Обсъдените по-горе примери в Excel ще ви помогнат да решите. практически задачиот областта на иконометрията.

Изграждането на линейна регресия, оценката на нейните параметри и тяхната значимост може да се извърши много по-бързо при използване на пакета Анализ на Excel(Регресия). Нека разгледаме интерпретацията на получените резултати в общ случай (кобяснителни променливи) съгласно Пример 3.6.

Таблица регресионна статистика дадени са стойности:

Многократни Р – коефициент на множествена корелация;

Р- квадрат– коефициент на детерминация Р 2 ;

Нормализирано Р - квадрат- коригирани Р 2 коригирани за броя на степените на свобода;

стандартна грешкае стандартната грешка на регресията С;

Наблюдения -брой наблюдения н.

Таблица Дисперсионен анализдадено:

1. Колона df - броят на степените на свобода, равен на

за низ Регресия df = к;

за низ остатъкdf = нк – 1;

за низ Обща сумаdf = н– 1.

2. Колона SS-сума на квадратите на отклоненията, равна на

за низ Регресия ;

за низ остатък ;

за низ Обща сума .

3. Колона ГОСПОЖИЦАотклонения, определени по формулата ГОСПОЖИЦА = СС/df:

за низ Регресия– факторна дисперсия;

за низ остатъке остатъчната дисперсия.

4. Колона Е - изчислена стойност Е-критерии, изчислени по формулата

Е = ГОСПОЖИЦА(регресия)/ ГОСПОЖИЦА(остатък).

5. Колона Значение Е е стойността на нивото на значимост, съответстваща на изчисленото Е-статистика .

Значение Е= FRIST( Ф-статистика, df(регресия), df(остатък)).

Ако значението Е < стандартного уровня значимости, то Р 2 е статистически значимо.

Коефициенти стандартна грешка t-статистика p-стойност дъно 95% Топ 95%
Y 65,92 11,74 5,61 0,00080 38,16 93,68
х 0,107 0,014 7,32 0,00016 0,0728 0,142

Тази таблица показва:

1. Коефициенти– стойности на коеф а, b.

2. Стандартна грешкаса стандартните грешки на регресионните коефициенти S a, сб.



3. T-статистика– изчислени стойности T -критерии, изчислени по формулата:

t-статистика = Коефициенти / Стандартна грешка.

4.Р- стойност (значимост T) е стойността на нивото на значимост, съответстващо на изчисленото T-статистика.

Р-стойност = STUDRASP(T-статистика, df(остатък)).

Ако Р-смисъл< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. Долни 95% и Горни 95%– долна и горна граница от 95% доверителни интервализа коефициентите на теоретичното уравнение на линейна регресия.

ОСТАТЪЧНО ТЕГЛЕНЕ
Наблюдение Предсказано y Остава e
72,70 -29,70
82,91 -20,91
94,53 -4,53
105,72 5,27
117,56 12,44
129,70 19,29
144,22 20,77
166,49 24,50
268,13 -27,13

Таблица ОСТАТЪЧНО ТЕГЛЕНЕпосочено:

в колона Наблюдение– номер на наблюдение;

в колона предвидено г са изчислените стойности на зависимата променлива;

в колона останки д е разликата между наблюдаваните и изчислените стойности на зависимата променлива.

Пример 3.6.Налични данни (арб. единици) за разходите за храна ги доход на глава от населението хза девет групи семейства:

х
г

Използвайки резултатите от пакета за анализ на Excel (Regression), анализираме зависимостта на разходите за храна от стойността на дохода на глава от населението.

Резултатите от регресионния анализ обикновено се записват като:

където в скоби са стандартните грешки на регресионните коефициенти.

Коефициенти на регресия а = 65,92 и б= 0,107. Комуникационна посока между ги хопределя знака на регресионния коефициент b= 0,107, т.е. връзката е пряка и положителна. Коефициент b= 0,107 показва, че при нарастване на дохода на глава от населението с 1 арб. единици разходите за храна нарастват с 0,107 конв. единици

Нека оценим значимостта на коефициентите на получения модел. Значението на коефициентите ( а, б) се проверява срещу T- тест:

p-стойност ( а) = 0,00080 < 0,01 < 0,05

p-стойност ( b) = 0,00016 < 0,01 < 0,05,

следователно коефициентите ( а, б) са значими на ниво от 1% и още повече на ниво на значимост от 5%. По този начин регресионните коефициенти са значими и моделът е адекватен на оригиналните данни.

Резултатите от регресионната оценка са съвместими не само с получените стойности на коефициентите на регресия, но и с някои от техния набор (доверителен интервал). С вероятност от 95% доверителните интервали за коефициентите са (38.16 - 93.68) за аи (0,0728 - 0,142) за b.

Качеството на модела се оценява чрез коефициента на детерминация Р 2 .

Стойност Р 2 = 0,884 означава, че факторът доход на глава от населението може да обясни 88,4% от вариацията (разсейването) в разходите за храна.

Значение Р 2 проверени от Ф-тест: значимост Е = 0,00016 < 0,01 < 0,05, следовательно, Р 2 е значимо на ниво 1% и още повече на ниво на значимост 5%.

В случай на двойна линейна регресия коефициентът на корелация може да се определи като . Получената стойност на корелационния коефициент показва, че връзката между разходите за храна и дохода на глава от населението е много тясна.

Множествен коефициент на корелацияхарактеризира плътността на линейната връзка между една променлива и набор от други променливи, които се разглеждат.
От особено значение е изчисляването на коефициента на множествена корелация резултатна характеристика y с фактор x 1 , x 2 ,…, x m ,формулата за определяне кое в общия случай има вида

където ∆ r е детерминантата на корелационната матрица; ∆ 11 е алгебричното допълнение на елемента r yy от корелационната матрица.
Ако се вземат предвид само два факторни знака, тогава може да се използва следната формула за изчисляване на коефициента на множествена корелация:

Изграждането на коефициент на множествена корелация е препоръчително само в случай, че частичните коефициенти на корелация се оказаха значими и връзката между получената характеристика и факторите, включени в модела, наистина съществува.

Коефициент на определяне

Обща формула: R 2 = RSS/TSS=1-ESS/TSS
където RSS е обяснената сума от квадратни отклонения, ESS е необяснената (остатъчна) сума от квадратни отклонения, TSS е обща сумаквадратни отклонения (TSS=RSS+ESS)

,
където r ij - двойки корелационни коефициенти между регресори x i и x j , a r i 0 - двойки корелационни коефициенти между регресори x i и y ;
- коригиран (нормализиран) коефициент на детерминация.

Квадратът на коефициента на множествена корелация Наречен множествен коефициентопределения; показва каква част от дисперсията на резултантния атрибут гсе обяснява с влиянието на факторните знаци x 1 , x 2 , …, x m . Обърнете внимание, че формулата за изчисляване на коефициента на детерминация чрез отношението на остатъка и обща дисперсиярезултатната функция ще даде същия резултат.
Коефициентът на множествена корелация и коефициентът на детерминация варират от 0 до 1. Колкото по-близо до 1, толкова по-силна е връзката и съответно толкова по-точно построеното по-долу регресионно уравнение ще опише зависимостта гот x 1 , x 2 , …,x m . Ако стойността на коефициента на множествена корелация е малка (по-малка от 0,3), това означава, че избраният набор от факторни характеристики не описва адекватно вариацията на резултантната характеристика или връзката между факторните и резултатните променливи е нелинейна.

Коефициентът на множествена корелация се изчислява с помощта на калкулатор. Значението на коефициента на множествена корелация и коефициента на детерминацияпроверени с помощта на теста на Фишер.

Кое от следните числа може да бъде стойността на коефициента на множествена детерминация:
а) 0,4;
б) -1;
в) -2,7;
г) 2.7.

Многократни линеен коефициенткорелацията е 0,75. Какъв процент от вариацията на зависимата променлива y се взема предвид в модела и се дължи на влиянието на факторите x 1 и x 2.
а) 56.2 (R2 =0.75 2 =0.5625);

Министерство на образованието и науката на Руската федерация

автономна федерална държава образователна институциявисше професионално образование

Далекоизточен федерален университет

Училище по икономика и мениджмънт

Катедра „Бизнес информатика и икономико-математически методи”.

ЛАБОРАТОРНА РАБОТА

по дисциплина "Симулация"

Специалност 080801.65 "Приложна информатика (в икономиката)"

РЕГРЕСИОНЕН АНАЛИЗ

Рудакова

Уляна Анатолиевна

Владивосток

ДОКЛАД

Задача: разгледайте процедура за регресионен анализ въз основа на данни (продажна цена и жилищна площ) за 23 имота.

В режим на работа "Регресия" се изчисляват параметрите на уравнението на линейната регресия и се проверява неговата адекватност за изследвания процес.

За да решите проблема с регресионния анализ в MS Excel, изберете от менюто Обслужванекоманда Анализ на даннии инструмент за анализ" Регресия".

В появилия се диалогов прозорец задайте следните параметри:

1. Интервал на въвеждане Y- това е диапазонът от данни за ефективния атрибут. Трябва да е една колона.

2. Интервал на въвеждане Xе диапазон от клетки, съдържащи стойностите на факторите (независими променливи). Броят на въведените диапазони (колони) не трябва да надвишава 16.

.Квадратче за отметка Етикети, се задава, ако първият ред от диапазона съдържа заглавие.

5. Нулева константа.Това квадратче за отметка трябва да бъде зададено, ако линията на регресия трябва да минава през началото (и 0=0).

6. Изходен интервал/ Нов работен лист/ Нова работна книга -посочете адреса на горната лява клетка на изходния диапазон.

.Квадратчета за отметка в група останкисе задават, ако искате да включите съответните колони или графики в изходния диапазон.

.Графиката на нормалната вероятност трябва да бъде активирана, ако искате да покажете точкова диаграма на наблюдаваните Y стойности спрямо автоматично генерираните персентилни интервали на листа.

След натискане на бутона OK в изходния диапазон получаваме отчет.

Използвайки набор от инструменти за анализ на данни, ние ще извършим регресионен анализ на оригиналните данни.

Инструментът за регресионен анализ се използва за напасване на параметрите на регресионното уравнение с помощта на метода на най-малките квадрати. Регресията се използва за анализиране на ефекта върху една зависима променлива от стойностите на една или повече независими променливи.

ТАБЛИЦА РЕГРЕСИОННА СТАТИСТИКА

Стойност множествено число Rе коренът на коефициента на детерминация (R-квадрат). Нарича се също индекс на корелация или коефициент на множествена корелация. Изразява степента на зависимост на независимите променливи (X1, X2) и зависимата променлива (Y) и е равно на корен квадратенот коефициента на определяне, тази стойност приема стойности в диапазона от нула до едно. В нашия случай той е равен на 0,7, което показва значима връзка между променливите.

Стойност R-квадрат (коефициент на определяне), наричана още мярка за сигурност, характеризира качеството на получената регресионна линия. Това качество се изразява чрез степента на съответствие между оригиналните данни и регресионния модел (изчислените данни). Мярката за сигурност е винаги в интервала.

В нашия случай стойността на R-квадрат е 0,48, т.е. почти 50%, което показва слабо съответствие на регресионната линия с оригиналните данни. намерена стойност R-квадрат = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

Нормализиран R-квадрате същият коефициент на определяне, но коригиран за размера на извадката.

Норма R-квадрат=1-(1-R-квадрат)*((n-1)/(n-k)),

регресионен анализ линейно уравнение

където n е броят на наблюденията; k - брой параметри. За предпочитане е да се използва нормализираният R-квадрат в случай на добавяне на нови регресори (фактори), т.к. увеличаването им също ще увеличи стойността на R-квадрат, но това няма да означава подобрение в модела. Тъй като в нашия случай получената стойност е 0,43 (което се различава от R-квадрат само с 0,05), можем да говорим за висока достоверност на коефициента R-квадрат.

стандартна грешкапоказва качеството на сближаване (приближаване) на резултатите от наблюденията. В нашия случай грешката е 5.1. Изчислете като процент: 5,1/(57,4-40,1)=0,294 ≈ 29% (Моделът се счита за по-добър, когато стандартната грешка е<30%)

Наблюдения- показва броя на наблюдаваните стойности (23).

ТАБЛИЧЕН АНАЛИЗ НА ANOVA

За да се получи регресионното уравнение, се определя -статистика - характеристика на точността на регресионното уравнение, което е съотношението на тази част от дисперсията на зависимата променлива, която се обяснява от регресионното уравнение към необяснената (остатъчна) част от дисперсията.

В колона df- даден е броят на степените на свобода k.

За остатъка това е стойност, равна на n-(m + 1), т.е. броят на началните точки (23) минус броя на коефициентите (2) и минус свободния член (1).

В колоната SS- суми на квадратите на отклоненията от средната стойност на резултантния признак. Той представя:

Регресионна сума на квадратните отклонения от средната стойност на резултантната характеристика на теоретичните стойности, изчислени чрез регресионното уравнение.

Остатъчна сума на отклоненията на първоначалните стойности от теоретичните стойности.

Общата сума на квадратните отклонения на първоначалните стойности от резултантната характеристика.

Колкото по-голяма е регресионната сума на квадратните отклонения (или колкото по-малка е остатъчната сума), толкова по-добре регресионното уравнение приближава облака от точки източник. В нашия случай остатъчното количество е около 50%. Следователно регресионното уравнение приближава много слабо облака от точки на източника.

В колоната MS- безпристрастни дисперсии на извадката, регресия и остатък.

В колона Fстойността на статистиката на критерия беше изчислена, за да се тества значимостта на регресионното уравнение.

За да се извърши статистически тест за значимостта на регресионното уравнение, се формулира нулева хипотеза за липсата на връзка между променливите (всички коефициенти за променливите са равни на нула) и се избира ниво на значимост.

Нивото на значимост е приемливата вероятност за допускане на грешка от тип I - отхвърляне на правилната нулева хипотеза в резултат на тестване. В този случай да се допусне грешка от тип I означава да се разпознае от извадката наличието на връзка между променливите в генералната съвкупност, когато всъщност такава няма. Нивото на значимост обикновено се приема за 5%. Сравнявайки получената стойност = 9,4 с табличната стойност = 3,5 (броят на степените на свобода е съответно 2 и 20), можем да кажем, че регресионното уравнение е значимо (F>Fcr).

В колоната значението на Fизчислява се вероятността на получената стойност на статистиката на критерия. Тъй като в нашия случай тази стойност е = 0,00123, което е по-малко от 0,05, можем да кажем, че регресионното уравнение (зависимостта) е значимо с вероятност от 95%.

Двата стълба, описани по-горе, показват надеждността на модела като цяло.

Следната таблица съдържа коефициентите за регресорите и техните оценки.

Y-пресечната линия не е свързана с никакъв регресор, тя е свободен коефициент.

В колона коефициентистойностите на коефициентите на регресионното уравнение се записват. Така се оказа уравнението:

Y=25.6+0.009X1+0.346X2

Регресионното уравнение трябва да минава през центъра на първоначалния облак от точки: 13.02≤M(b)≤38.26

След това сравняваме стойностите на колоните по двойки Коефициенти и стандартна грешка.Вижда се, че в нашия случай всички абсолютни стойности на коефициентите надвишават стойностите на стандартните грешки. Това може да показва значимостта на регресорите, но това е груб анализ. Колоната t-статистика съдържа по-точна оценка на значимостта на коефициентите.

В колоната t-статистикасъдържа стойности на t-теста, изчислени по формулата:

t=(Коефициент)/(Стандартна грешка)


n-(k+1)=23-(2+1)=20

Според таблицата на Студент намираме стойността ttable = 2.086. Сравняване

t с ttable получаваме, че регресорният коефициент X2 е незначителен.

Колона p-стойностпредставлява вероятността критичната стойност на статистиката на използвания тест (статистика на ученика) да надвиши стойността, изчислена от извадката. В този случай сравняваме p-стойностис избраното ниво на значимост (0,05). Вижда се, че само коефициентът на регресора X2=0,08>0,05 може да се счита за незначителен

Долните 95% и горните 95% колони показват границите за доверителни интервали с 95% увереност. Всеки коефициент има свои лимити: Коефициентttable*Стандартна грешка

Доверителните интервали се изграждат само за статистически значими стойности.

ОСТАТЪЦИ ОТ ТЕГЛЕНЕ НА ТАБЛИЦА

остатък е отклонението на отделна точка (наблюдение) от регресионната линия (предвидена стойност).

Предположение за нормалност остатъципредполага, че разпределението на разликата между прогнозираните и наблюдаваните стойности е нормално. За визуална дефиницияестеството на разпределението, включваме функцията диаграма на остатъците.

Графиките на остатъците показват разликите между първоначалните Y стойности и тези, изчислени от регресионната функция за всяка стойност на компонента на променливите X1 и X2. Използва се за определяне дали използваната подходяща права линия е приемлива.

Графиката на напасване може да се използва за визуализиране на регресионната линия.

Стандартни остатъци - нормализирани остатъци за оценка на тяхното стандартно отклонение.

Споделете с приятели или запазете за себе си:

Зареждане...