Прогнозирование по модели множественной регрессии.

В прогнозных расчетах по уравнению регрессии определяется предсказываемое значение как точечный прогноз при , т. е. путем подстановки в уравнение регрессии соответствующего значения х. Однако точечный прогноз явно не реален. Поэтому он дополняется расчетом стандартной ошибки , т. е , и соответственно интервальной оценкой прогнозно­го значения (у*)

Чтобы понять, как строится формула для определения вели­чин среднеквадратической ошибки , обратимся к уравнению линейной парной регрессии:

Известным образом найдем дисперсию модели парной линейной регрессии:

(3.29)

С учетом выражении (3.24) и (3.25) предварительно запишем:

После несложных преобразовании окончательно получим:

(3.30)

Отсюда перейдем среднеквадратической ошибке модели парной линейной регрессии:

Рассмотренная формула среднеквадратическая ошибки предсказывае­мого среднего значения y при заданном значении характеризу­ет ошибку положения линии регрессии. Величина стандартной ошибки , как видно из формулы, достигает минимума при , и возрастает по мере того, как «удаляется» от в любом направлении. Иными словами, чем больше разность между и x , тем больше ошибка с которой предсказывается среднее зна­чение y для заданного значения . Можно ожидать наилучшие результаты прогноза, если признак-фактор х находится в центре области наблюдений х и нельзя ожидать хороших результатов прогноза при удалении от . Если же значение оказывается за пределами наблюдаемых значений х, используемых при пост­роении линейной регрессии, то результаты прогноза ухудшаются в зависимости от того, насколько отклоняется от области наб­людаемых значений фактора x .

Для нашего примера составит:

Для прогнозируемого значения 95%-ные довери­тельные интервалы при заданном определяются выражением

Для вероятности 95% тогда26,04.

При , прогнозное значениеy составит:

которое представляет собой точечный прогноз.

Прогноз линии регрессии в интервале составит:

Однако фактические значения у варьируют около среднего значения . Индивидуальные значенияу могут отклоняться от на величину случайной ошибки , дисперсия которой оценивается как остаточная дисперсия на одну степень свободы. Поэтому предсказываемого индивидуального значения y должна включать не только стандартную ошибку, но и случайную ошибкуS .

Средняя ошибка прогнозируемого индивидуального значе­ния y составит:

По данным рассматриваемого примера получим:

Доверительные интервалы прогноза индивидуальных значений y при с вероятностью 0,95 составят:, или 141,57, это означает, что.

Интервал достаточно широк, прежде всего, за счет малого объ­ема наблюдений.

При прогнозировании на основе уравнения регрессии следу­ет помнить, что величина прогноза зависит не только от стандарт­ной ошибки индивидуального значения у, но и от точности прогноза значения фактора х. Его величина может задаваться на основе анализа других моделей исходя из конкретной ситуации, а также из анализа динамики данного фактора.

Рассмотренная формула средней ошибки индивидуального значения признака y может быть использована также для оценки существенности различия предсказываемого значения исходя из регрессионной модели и выдвинутой гипотезы разви­тия событий.

Предположим, что в нашем примере с функцией издержек выдвигается предположение, что в предстоящем году в связи со стабилизацией экономики при выпуске продукции в 8 тыс. ед. затраты на производство не превысят 250 млн руб. Означает ли это действительно изменение найденной закономерности или же данная величина затрат соответствует регрессионной модели?

Чтобы ответить на этот вопрос, найдем точечный прогноз при х = 8, т. е.

Предполагаемое же значение затрат, исходя из экономичес­кой ситуации, - 250,0. Для оценки существенности различия этих величин определим среднюю ошибку прогнозируемого ин­дивидуального значения:

Сравним ее с величиной предполагаемого снижения издер­жек производства, т. е. :

Поскольку оценивается значимость только уменьшения зат­рат, то используется односторонний критерий Стьюдента. При ошибке в 5 % с пятью степенями свободы. Следова­тельно, предполагаемое уменьшение затрат значимо отличается от прогнозируемого по модели при 95 %-ном уровне доверия. Однако если увеличить вероятность до 99 %, при ошибке в 1 % фак­тическое значение критерия оказывается ниже табличного 3,365, и рассматриваемое различие в величине затрат статисти­чески не значимо.

Прогнозирование по уравнению регрессии представляет собой подстановку в уравнение регрессии соответственного значения х . Такой прогноз называетсяточечным. Он не является точным, поэтому дополняется расчетом стандартной ошибки ; получаетсяинтервальная оценка прогнозного значения :

Преобразуем уравнение регрессии:

ошибка зависит от ошибки и ошибки коэффициента регрессии b , т.е. .

Из теории выборки известно, что .

Используем в качестве оценки s 2 остаточную дисперсию на одну степень свободы S 2 , получаем: .

Ошибка коэффициента регрессии из формулы (15):

Таким образом, при х=х k получаем:

(31)

Как видно из формулы, величина достигает минимума при и возрастает по мере удаления от в любом направлении.

Для нашего примера эта величина составит:

При , При х k = 4

Для прогнозируемого значения 95% - ные доверительные интервалы при заданном х k определены выражением:

т.е. при х k =4 ±2,57-3,34 или ±8,58. При х к =4 прогнозное значение составит

у p =-5,79+36,84·4=141,57 - это точечный прогноз.

Прогноз линии регрессии лежит в интервале: 132,99 150,15.

Мы рассмотрели доверительные интервалы длясреднего значения у при заданном х. Однако фактические значения у варьируются около среднего значения , они могут отклоняться на величину случайной ошибки e , дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S 2 . Поэтому ошибка прогноза отдельного значения у должна включать не только стандартную ошибку но и случайную ошибку S . Таким образом, средняя ошибка прогноза индивидуального значения y составит:

(33)

Для примера:

Доверительный интервал прогноза индивидуальных значений у при х к =4 с верностью 0,95 составит:. 141,57 ±2,57·8,01, или 120,98 ≤ у р ≤ 162,16.

Пусть в примере с функцией издержек выдвигается предположение, что в предстоящем году в связи со стабилизацией экономики затраты на производство 8 тыс. ед. продукции не превысят 250 млн. руб. Означает ли это изменение найденной закономерности или затраты соответствуют регрессионной модели?

Точечный прогноз: = -5,79 + 36,84 8 = 288,93. Предполагаемое значение - 250. Средняя ошибка прогнозного индивидуального значения:

Сравним ее с предполагаемым снижением издержек производства, т.е. 250-288,93= -38,93:

Поскольку оценивается только значимость уменьшения затрат, то используется односторонний t~ критерий Стьюдента. При ошибке в 5 % с n-2=5 t табл =2,015, поэтому предполагаемое уменьшение затрат значимо отличается от прогнозируемого значения при 95 % - ном уровне доверия. Однако, если увеличить вероятность до 99%, при ошибке 1 % фактическое значение t -критерия оказывается ниже табличного 3,365, и различие в затратах статистически не значимо, т.е. затраты соответствуют предложенной регрессионной модели.

Нелинейная регрессия

До сих пор мы рассматривали лишьлинейную модель регрессионной зависимости у от х (3). В то же время многие важные связи в экономике являютсянелинейными. Примерами такого рода регрессионных моделей являются производственные функции (зависимости между объемом произведенной продукции и основными факторами производства - трудом, капиталом и т.п.) и функции спроса (зависимости между спросом на какой-либо вид товаров или услуг, с одной стороны, и доходом и ценами на этот и другие товары - с другой).

При анализе нелинейных регрессионных зависимостей наиболее важным вопросом применения классического МНК является способ их линеаризации. В случае линеаризации нелинейной зависимости получаем линейное регрессионное уравнение типа (3), параметры которого оцениваются обычным МНК, после чего можно записать исходное нелинейное соотношение.

Несколько особняком в этом смысле стоит полиномиальная модель произвольной степени:

к которой обычный МНК можно применять без всякой предварительной линеаризации.

Рассмотрим указанную процедуру применительно к параболе второй степени:

(35)

Такая зависимость целесообразна в случае, если для некоторого интервала значений фактора возрастающая зависимость меняется на убывающую или наоборот. В этом случае можно определить значение фактора, при котором достигается максимальное или минимальное значение результативного признака. Если исходные данные не обнаруживают изменение направленности связи, параметры параболы становятся трудно интерпретируемыми, и форму связи лучше заменить другими нелинейными моделями.

Применение МНК для оценки параметров параболы второй степени сводится к дифференцированию суммы квадратов остатков регрессии по каждому из оцениваемых параметров и приравниванию полученных выражений нулю. Получается система нормальных уравнений, число которых равно числу оцениваемых параметров, т.е. трем:

(36)

Решать эту систему можно любым способом, в частности, методом определителей.

Экстремальное значение функции наблюдается при значении фактора, равном:

Если b>0, с<0, имеет место максимум, т.е. зависимость сначала растет, а затем падает. Такого рода зависимости наблюдаются в экономике труда при изучении заработной платы работников физического труда, когда в роли фактора выступает возраст. При b<0, с>0 парабола имеет минимум, что обычно проявляется в удельных затратах на производство в зависимости от объема выпускаемой продукции.

В нелинейных зависимостях, не являющихся классическими полиномами, обязательно проводится предварительная линеаризация, которая заключается в преобразовании или переменных, или параметров модели, или в комбинации этих преобразований. Рассмотрим некоторые классы таких зависимостей.

Зависимости гиперболического типа имеют вид:

(37)

Примером такой зависимости является кривая Филлипса, констатирующая обратную зависимость процента прироста заработной платы от уровня безработицы. В этом случае значение параметра b будет больше нуля. Другим примером зависимости (37) являются кривые Энгеля, формулирующие следующую закономерность: с ростом дохода доля доходов, расходуемых на продовольствие, уменьшается, а доля доходов, расходуемых на непродовольственные товары, будет возрастать. В этом случае b <0 , а результативный признак в (37) показывает долю расходов на непродовольственные товары.

Линеаризация уравнения (37) сводится к замене фактора z=1/х , и уравнение регрессии имеет вид (3), в котором вместо фактора х используем фактор z :

К такому же линейному уравнению сводится полулогарифмическая кривая:

(39)

которая может быть использована для описания кривых Энгеля. Здесь 1п(х) заменяется на z , и получается уравнение (38).

Достаточно широкий класс экономических показателей характеризуется приблизительно постоянным темпом относительного прироста во времени. Этому соответствуют зависимости показательного (экспоненциального) типа, которые записываются в виде:

или в виде

Возможна такая зависимость:

В регрессиях типа (40) - (42) применяется один и тот же способ линеаризации - логарифмирование. Уравнение (40) приводится к виду:

(43)

Замена переменной Y = ln у сводит его к линейному виду:

(44)

где . Если Е удовлетворяет условиям Гаусса-Маркова, параметры уравнения (40) оцениваются по МНК из уравнения (44). Уравнение (41) приводится к виду:

который отличается от (43) только видом свободного члена, и линейное уравнение выглядит так:

Y=A+bx+E (46)

где A= lna . Параметры А и b получаются обычным МНК, затем параметр а в зависимости (41) получается как антилогарифм А. При логарифмировании (42) получаем линейную зависимость:

Y=A+Bx+E (47)

где B =lnb , а остальные обозначения те же, что и выше. Здесь также применяется МНК к преобразованным данным, а параметр b для (42) получается как антилогарифм коэффициента В.

Широко распространены в практике социально-экономических исследований степенные зависимости. Они используются для построения и анализа производственных функций. В функциях вида:

особенно ценным является то обстоятельство, что параметр b равен коэффициенту эластичности результативного признака по фактору х . Преобразуя (48) путем логарифмирования, получаем линейную регрессию:

Y=A+bX+E (49)

где Y= lny , A= lna, X= lnx, E= lnε .

Еще одним видом нелинейности, приводимым к линейному виду, является обратная зависимость:

(50)

Проводя замену и =1/у , получим:

(51)

Наконец, следует отметить зависимость логистического типа:

(52)

Графиком функции (52) является так называемая «кривая насыщения», которая имеет две горизонтальные асимптоты у=0 и у=1/а и точку перегиба x= ln(b/a), у=1/(2а) , а также точку пересечения с осью ординат у=1/(а+b) :

Уравнение (52) приводится к линейному виду заменами переменных и=1/у, z=e - x .

Любое уравнение нелинейной регрессии, как и линейной зависимости, дополняется показателем корреляции, который в данном случае называется индексом корреляции:

(53)

Здесь - общая дисперсия результативного признака у , остаточная дисперсия, определяемая по уравнению нелинейной регрессии . Следует обратить внимание на то, что разности в соответствующих суммах и берутся не в преобразованных, а в исходных значениях результативного признака. Иначе говоря, при вычислении этих сумм следует использовать не преобразованные (линеаризованные) зависимости, а именно исходные нелинейные уравнения регрессии. По-другому (53) можно записать так:

(54)

Величина R находится в границах 0 ≤ R ≤ 1, и чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии. При этом индекс корреляции совпадает с линейным коэффициентом корреляции в случае, когда преобразование переменных с целью линеаризации уравнения регрессии не проводится с величинами результативного признака. Так обстоит дело с полулогарифмической и полиномиальной регрессией, а также с равносторонней гиперболой (37). Определив линейный коэффициент корреляции для линеаризованных уравнений, например, н пакете Excel с помощью функции ЛИНЕЙН, можно использовать его и для нелинейной зависимости.

Иначе обстоит дело в случае, когда преобразование проводится также с величиной у , например, взятие обратной величины или логарифмирование. Тогда значение R, вычисленное той же функцией ЛИНЕЙН, будет относиться к линеаризованному уравнению регрессии, а не к исходному нелинейному уравнению, и величины разностей под суммами в (54) будут относиться к преобразованным величинам, а не к исходным, что не одно и то же. При этом, как было сказано выше, для расчета R следует воспользоваться выражением (54), вычисленным по исходному нелинейному уравнению.

Поскольку в расчете индекса корреляции используется соотношение факторной и общей СКО, то R 2 имеет тот же смысл, что и коэффициент детерминации. В специальных исследованиях величину R 2 для нелинейных связей называют индексом детерминации.

Оценка существенности индекса корреляции проводится так же, как и оценка надежности коэффициента корреляции.

Индекс детерминации используется для проверки существенности в целом уравнения нелинейной регрессии по F- критерию Фишера:

(55)

где n -число наблюдений, m -число параметров при переменных х . Во всех рассмотренных нами случаях, кроме полиномиальной регрессии, m =1, для полиномов (34) m=k , т.е. степени полинома. Величина т характеризует число степеней свободы для факторной СКО, а (п-т-1) - число степеней свободы для остаточной СКО.

Индекс детерминации R 2 можно сравнивать с коэффициентом детерминации r 2 для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем больше разница между R 2 и r 2 . Близость этих показателей означает, что усложнять форму уравнения регрессии не следует и можно использовать линейную функцию. Практически, если величина (R 2 -r 2) не превышает 0,1, то линейная зависимость считается оправданной. В противном случае проводится оценка существенности различия показателей детерминации, вычисленных по одним и тем же данным, через t -критерий Стьюдента:

Здесь в знаменателе находится ошибка разности (R 2 -r 2), определяемая по формуле:

Если t >t табл (α;n-m-1), то различия между показателями корреляции существенны и замена нелинейной регрессии линейной нецелесообразна.

В заключение приведем формулы расчета коэффициентов эластичности для наиболее распространенных уравнений регрессии.

Одной из центральных задач эконометрического моделирования является предсказание (прогнозирование) значений зависимой переменной при определенных значениях объясняющих переменных при определенных значениях объясняющих переменных. Здесь возможен двоякий подход: либо предсказать условное математическое ожидание зависимой переменной (предсказание среднего значения ), либо прогнозировать некоторое конкретное значение зависимой переменной (предсказание конкретного значения ).

Замечание. Некоторые авторы различают такие понятия, как прогнозирование и предсказание. Если значение объясняющей переменной X известно точно, то оценивание зависимой переменной Y называется предсказанием . Если же значение объясняющей переменной X неизвестно точно, то говорят, что делается прогноз значения Y . Такая ситуация характерна для временных рядов. В данном случае мы не будем различать предсказание и прогноз.

Различают точечное и интервальное прогнозирование. В первом случае оценка – некоторое число, во втором – интервал, в котором находится истинное значение зависимой переменной с заданным уровнем значимости.

а) Предсказание среднего значения . Пусть построено уравнение парной регрессии , на основе которого необходимо предсказать условное математическое ожидание . В данном случае значение является точечной оценкой . Тогда естественно возникает вопрос, как сильно может отклониться модельное значение , рассчитанное по эмпирическому уравнению, от соответствующего условного математического ожидания. Ответ на этот вопрос даётся на основе интервальных оценок, построенных с заданным уровнем значимости a при любом конкретном значении x p объясняющей переменной.

Запишем эмпирическое уравнение регрессии в виде

Здесь выделены две независимые составляющие: средняя и приращение . Отсюда вытекает, что дисперсия будет равна

Из теории выборки известно, что

Используя в качестве оценки s 2 остаточную дисперсию S 2 , получим



Дисперсия коэффициента регрессии, как уже было показано

Подставляя найденные дисперсии в (5.41), получим

. (5.56)

Таким образом, формула расчета стандартной ошибки предсказываемого по линии регрессии среднего значения Y имеет вид

. (5.57)

Величина стандартной ошибки , как видно из формулы, достигает минимума при , и возрастает по мере удаления от в любом направлении. Иными словами, больше разность между и , тем больше ошибка с которой предсказывается среднее значение y для заданного значения x p . Можно ожидать наилучшие результаты прогноза, если значения x p находятся в центре области наблюдений X и нельзя ожидать хороших результатов прогноза по мере удаления от .

Случайная величина

(5.58)

имеет распределение Стьюдента с числом степеней свободы n=n –2 (в рамках нормальной классической модели ). Следовательно, по таблице критических точек распределения Стьюдента по требуемому уровню значимости a и числу степеней свободы n=n –2 можно определить критическую точку , удовлетворяющую условию

.

С учетом (5.46) имеем:

.

Отсюда, после некоторых алгебраических преобразований, получим, что доверительный интервал для имеет вид:

, (5.59)

где предельная ошибка D p имеет вид

. (5.60)

Из формул (5.57) и (5.60) видно, что величина (длина) доверительного интервала зависит от значения объясняющей переменной x p : при она минимальна, а по мере удаления x p от величина доверительного интервала увеличивается (рис. 5.4). Таким образом, прогноз значений зависимой переменной Y по уравнению регрессии оправдан, если значение x p объясняющей переменной X не выходит за диапазон ее значений по выборке (причем более точный, чем ближе x p к ). Другими словами, экстраполяция кривой регрессии, т.е. её использование вне пределов обследованного диапазона значений объясняющей переменной (даже если она оправдана для рассматриваемой переменной исходя из смысла решаемой задачи) может привести к значительным погрешностям .

б) Предсказание индивидуальных значений зависимой переменной . На практике иногда более важно знать дисперсию Y , чем ее средние значения или доверительные интервалы для условных математических ожиданий. Это связано с тем, что фактические значения Y варьируют около среднего значения . Индивидуальные значения Y могут отклоняться от на величину случайной ошибки e, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S 2 . Поэтому ошибка предсказываемого индивидуального значения Y должны включать не только стандартную ошибку , но и случайную ошибку S . Это позволяет определять допустимые границы для конкретного значения Y .

Пусть нас интересует некоторое возможное значение y 0 переменной Y при определенном значении x p объясняющей переменной X . Предсказанное по уравнению регрессии значение Y при X =x p составляет y p . Если рассматривать значение y 0 как случайную величину Y 0 , а y p – как случайную величину Y p , то можно отметить, что

,

.

Случайные величины Y 0 и Y p являются независимыми, а следовательно, случайная величина U = Y 0 –Y p имеет нормальное распределение с

И . (5.61)

Используя в качестве s 2 остаточную дисперсию S 2 , получим формулу расчета стандартной ошибки предсказываемого по линии регрессии индивидуального значения Y :

. (5.63)

Случайная величина

(5.64)

имеет распределение Стьюдента с числом степеней свободы k =n –2. На основании этого можно построить доверительный интервал для индивидуальных значений Y p :

, (5.65)

где предельная ошибка D u имеет вид

. (5.66)

Заметим, что данный интервал шире доверительного интервала для условного математического ожидания (см. рис. 5.4).

Пример 5.5. По данным примеров 5.1-5.3 рассчитать 95%-ый доверительный интервал для условного математического ожидания и индивидуального значения при x p =160.

Решение. В примере 5.1 было найдено . Воспользовавшись формулой (5.48), найдем предельную ошибку для условного математического ожидания

Тогда доверительный интервал для среднего значения на уровне значимости a=0,05 будет иметь вид

Другими словами, среднее потребление при доходе 160 с вероятностью 0,95 будет находиться в интервале (149,8; 156,6).

Рассчитаем границы интервала, в котором будет сосредоточено не менее 95% возможных объёмов потребления при уровне дохода x p =160, т.е. доверительный интервал для индивидуального значения . Найдем предельную ошибку для индивидуального значения

Тогда интервал, в котором будут находиться, по крайней мере, 95% индивидуальных объёмов потребления при доходе x p =160, имеет вид

Нетрудно заметить, что он включает в себя доверительный интервал для условного среднего потребления. â

ПРИМЕРЫ

Пример 5.65. По территориям региона приводятся данные за 199X г. (таб. 1.1).

2. Построить линейное уравнение парной регрессии y на x и оценить статистическую значимость параметров регрессии. Сделать рисунок.

3. Оценить качество уравнения регрессии при помощи коэффициента детерминации. Проверить качество уравнения регрессии при помощи F -критерия Фишера.

4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x , составляющем 107% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал для уровня значимости a=0,05. Сделать выводы.

Решение

1. Для определения степени тесноты связи обычно используют коэффициент корреляции :

где , – выборочные дисперсии переменных x и y . Для расчета коэффициента корреляции строим расчетную таблицу (табл. 5.4):

Таблица 5.4

x y xy x 2 y 2 e 2
148,77 -15,77 248,70
152,45 -4,45 19,82
157,05 -23,05 531,48
149,69 4,31 18,57
158,89 3,11 9,64
174,54 20,46 418,52
138,65 0,35 0,13
157,97 0,03 0,00
144,17 7,83 61,34
157,05 4,95 24,46
146,93 12,07 145,70
182,83 -9,83 96,55
Итого 1574,92
Среднее значение 85,58 155,75 13484,00 7492,25 24531,42

По данным таблицы находим:

, , , ,

, , , ,

, .

Таким образом, между заработной платой (y) и среднедушевым прожиточным минимумом (x) существует прямая достаточно сильная корреляционная зависимость .

Для оценки статистической значимости коэффициента корреляции рассчитаем двухсторонний t-критерий Стьюдента :

который имеет распределение Стьюдента с k =n –2 и уровнем значимости a. В нашем случае

и .

Поскольку , то коэффициент корреляции существенно отличается от нуля.

Для значимого коэффициента можно построить доверительный интервал , который с заданной вероятностью содержит неизвестный генеральный коэффициент корреляции. Для построения интервальной оценки (для малых выборок n <30), используют z-преобразование Фишера :

Распределение z уже при небольших n является приближенным нормальным распределением с математическим ожиданием и дисперсией . Поэтому вначале строят доверительный интервал для M[z ], а затем делают обратное z -преобразование. Применяя z -преобразование для найденного коэффициента корреляции, получим

Доверительный интервал для M(z ) будет иметь вид

,

где t g находится с помощью функции Лапласа F(t g)=g/2. Для g=0,95 имеем t g =1,96. Тогда

или . Обратное z -преобразование осуществляется по формуле

В результате находим

.

В указанных границах на уровне значимости 0,05 (с надежностью 0,95) заключен генеральный коэффициент корреляции r.

2. Таким образом, между переменными x и y имеет существенная корреляционная зависимость. Будем считать, что эта зависимость является линейной. Модель парной линейной регрессии имеет вид

,

где y – зависимая переменная (результативный признак), x – независимая (объясняющая) переменная, e – случайные отклонения, b 0 и b 1 – параметры регрессии. По выборке ограниченного объема можно построить эмпирическое уравнение регрессии:

где b 0 и b 1 – эмпирические коэффициенты регрессии. Для оценки параметров регрессии обычно используют метод наименьших квадратов (МНК ). В соответствие с МНК, сумма квадратов отклонений фактических значений зависимой переменной y от теоретических была минимальной:

,

где отклонения y i от оцененной линии регрессии. Необходимым условием существования минимума функции двух переменных является равенство нулю ее частных производных по неизвестным параметрам b 0 и b 1 . В результате получаем систему нормальных уравнений:

Решая эту систему, найдем

, .

По данным таблицы находим

Получено уравнение регрессии:

Параметр b 1 называется коэффициентом регрессии . Его величина показывает среднее изменение результата с изменением фактора на одну единицу. В рассматриваемом случае, с увеличением среднедушевого минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб .

,

где F подчиняется распределению Фишера с уровнем значимости a и степенями свободы k 1 =1 и k 2 =n –2. В нашем случае

.

Поскольку критическое значение критерия равно

и , то признается статистическая значимость построенного уравнения регрессии. Отметим, что для линейной модели F - и t -критерии связаны равенством , что можно использовать для проверки расчётов.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Прогнозное значение y p определяется путем подстановки в уравнение регрессии (1.16) соответствующего (прогнозного) значения x p

ЛЕКЦИЯ 5 99

§5.2. Анализ точности оценок коэффициентов регрессии 99

5.2.1. Оценка дисперсии случайного отклонения 99

5.2.2. Проверка гипотез относительно коэффициентов регрессии 100

5.2.3. Интервальные оценка коэффициентов регрессии 103

§5.3. Показатели качества уравнения регрессии 104

5.3.1. Коэффициент детерминации 104

5.3.2. Проверка общего качества уравнения регрессии: F-тест 106

5.3.3. Проверка общего качества уравнения регрессии: t-тест 108

§5.4. Интервалы прогноза по уравнению регрессии 108

Применение линейной регрессии в прогнозировании

Прогнозирование - это самостоятельная отрасль науки, которая находит широкое применение во всех сферах человеческой деятельности. Существует большое разнообразие видов и способов прогнозирования, разработанных с учетом характера рассматриваемых задач, целей исследования, состояния информации. Этим вопросам посвящено много книг и журнальных статей. Покажем на примере линейной регрессии применение эконометрических моделей в прогнозировании значений экономических показателей.

В обыденном понимании прогнозирование - это предсказание будущего состояния интересующего нас объекта или явления на основе ретроспективных данных о прошлом и настоящем состояниях при условии наличия причинно-следственной связи между прошлым и будущим. Можно сказать, что прогноз - это догадка, подкрепленная знанием. Поскольку прогностические оценки по сути своей являются приближенными, может возникнуть сомнение относительно его целесообразности вообще. Поэтому основное требование, предъявляемое к любому прогнозу, заключается в том, чтобы в пределах возможного минимизировать погрешности в соответствующих оценках. По сравнению со случайными и интуитивными прогнозами, научно обоснованные и планомерно разрабатываемые прогнозы без сомнения являются более точными и эффективными. Как раз такими являются прогнозы, основанные на использовании методов статистического анализа. Можно утверждать, что из всех способов прогнозирования именно они внушают наибольшее доверие, во-первых, потому что статистические данные служат надежной основой для принятия решений относительно будущего, во-вторых, такие прогнозы вырабатываются и подвергаются тщательной проверке с помощью фундаментальных методов математической статистики.

Оценка параметров линейной регрессии представляет собой прогноз истинных значений этих параметров, выполненный на основе статистических данных. Полученные прогнозы, оказываются достаточно эффективными, так как они являются несмещенными оценками истинных параметров.

Применим модель линейной регрессии (8.2.4) с найденными параметрами (8.2.8) и (8.2.9) для определения объясняемой переменной на некоторое множество ненаблюдаемых значений объясняющей переменной . Точнее говоря, поставим задачу прогнозирования среднего значения , соответствующего некоторому значению объясняющей переменной , которое не совпадает ни с одним значением . При этом может лежать как между выборочными наблюдениями так и вне интервала . Прогноз значения может быть точечным или интервальным. Ограничимся рассмотрением точечного прогноза, т.е. искомое значение определим в виде

где - наблюдаемые значения случайной величины , а - коэффициенты (веса), которые должны быть выбраны так, чтобы был наилучшим линейным несмещенным прогнозом, т.е. чтобы

Из (8.5.1) для наблюдаемых значений

Так как по свойству математического ожидания ((2.5.4) - (2.5.5))

,

Но так как в правой части под оператором математического ожидания стоят только постоянные числа, то

Учитывая соотношение можем сказать теперь, что будет несмещенным линейным прогнозом для тогда и только тогда, когда

Следовательно, всякий вектор удовлетворяющий условиям (8.5.2), делает выражение (8.5.1) несмещенным линейным прогнозом величины . Поэтому надо найти конкретное выражение весов через известные нам величины. Для этого решим задачу минимизации дисперсии величины :

Так как под оператором дисперсии в первом слагаемом правой части уравнения стоят постоянные числа, то

С учетом предположений b) и c) и пользуясь свойствами дисперсии (2.5.4) и (2.5.6), имеем:

где - среднеквадратическое отклонение случайной величины .

Составим оптимизационную задачу минимизации дисперсии с ограничениями (8.5.2):

при ограничениях

Так как множитель не зависит от и не влияет на минимальное значение целевой функции, то функцию Лагранжа (см. (2.3.8)) сконструируем следующим образом:

где и - множители Лагранжа. Необходимые условия оптимальности точки имеют вид (см. (2.3.9)):

(8.5.3)

Просуммировав первое уравнение по , с учетом второго уравнения получим:

Отсюда находим множитель Лагранжа

где - среднее значение случайной величины . Полученное значение вновь подставим в первое уравнение системы (8.5.3) и найдем

Прогнозирование по модели множественной линейной регрессии предполагает оценку ожидаемых значений зависимой переменной при заданных значениях независимых переменных, входящих в уравнение регрессии. Различают точечный и интервальный прогнозы.

Точечный прогноз – это расчетное значение зависимой переменной, полученное подстановкой в уравнение множественной линейной регрессии прогнозных (заданных исследователем) значений независимых переменных. Если заданы значения , то прогнозное значение зависимой переменной (точечный прогноз) будет равно

Интервальный прогноз – это минимальное и максимальное значения зависимой переменной, в промежуток между

которыми она попадает с заданной долей вероятности и при заданных значениях независимых переменных.

Интервальный прогноз для линейной функции вычисляется по формуле

где t T – теоретическое значение критерия Стьюдента при df=n- – т – 1 степенях свободы; s y – стандартная ошибка прогноза, вычисляемая по формуле

(2.57)

где Х – матрица исходных значений независимых переменных; Х пр – матрица-столбец прогнозных значений независимых переменных вида

Найдем прогнозные значения поступления налогов (пример 2.1), при условии, что связь между показателями описывается уравнением

Зададим прогнозные значения независимых переменных:

  • – количество занятых Xj: 500 тыс. человек;
  • – объем отгрузки в обрабатывающих производствах х 2: 65 000 млн руб.;
  • – производство энергии х3:15 000 млн руб.

Найдем точечный и интервальный прогноз поступления налогов.

При заданных значения независимых переменных поступление налогов в среднем составит

Вектор прогнозных значений независимых переменных будет иметь вид

Ошибка прогноза, рассчитанная по формуле (2.57), составила 5556,7. Табличное значение t-критерия при числе степеней свободы df = 44 и уровне значимости а = 0,05 равно 2,0154. Следовательно, прогнозные значения поступления налогов будут с вероятностью 0,95 находиться в границах:

от 18 013,69 – 2,0154-5556,7=6814,1 млн руб.;

до 18 013,69 + 2,0154-5556,7=29 212 млн руб.

Прогнозирование по нелинейным моделям множественной регрессии также можно осуществлять по формулам (2.55)–(2.57), предварительно линеаризовав указанные модели.

Мультиколлинеарность данных

При построении эконометрической модели предполагается, что независимые переменные воздействуют на зависимую изолированно, т. е. влияние отдельной переменной на результативный признак не связано с влиянием других переменных. В реальной экономической действительности все явления в той или иной мере связаны, поэтому добиться выполнения этого предположения практически невозможно. Наличие связи между независимыми переменными приводит к необходимости оценки ее влияния на результаты корреляционно-регрессионного анализа.

Различают функциональные и стохастические связи между объясняющими переменными. В первом случае говорят об ошибках спецификации модели, которые должны быть исправлены.

Функциональная связь возникает, если в уравнение регрессии в качестве объясняющих переменных включают, в частности, все переменные, входящие в тождество. Например, можно сказать, что доход У складывается из потребления С и инвестиций I, т. е. имеет место тождество. Мы предполагаем, что уровень процентных ставок г зависит от дохода, т.е. модель в общем виде может быть представлена в виде

Неопытный исследователь, желая улучшить модель, может включить в уравнение также переменные "потребление" и "инвестиции", что приведет к функциональной связи между объясняющими переменными:

Функциональная взаимосвязь столбцов матрицы X приведет к невозможности найти единственное решение уравнения

регрессии, так как, а нахождение обратной

матрицыпредполагает деление алгебраических дополнений матрицына ее определитель, который в дан

ном случае будет равен нулю.

Более часто между объясняющими переменными наблюдается стохастическая связь, что приводит к уменьшению

величины определителя матрицы: чем сильнее связь,

тем меньше будет определитель. Это приводит к росту не только оценок параметров, полученных с использованием МНК, но и их стандартных ошибок, которые вычисляются по формуле (2.24):

в которой, как мы видим, также используется матрица Корреляционная связь может существовать как между двумя объясняющими переменными (интеркорреляция ), так и между несколькими (мультиколлинеарность).

Существует несколько признаков, указывающих на наличие мультиколлинеарности. В частности, такими признаками являются:

  • – не соответствующие экономической теории знаки коэффициентов регрессии. Например, нам известно, что объясняющая переменная х оказывает прямое воздействие на объясняемую переменную у, в то же время коэффициент регрессии при этой переменной меньше нуля;
  • – значительные изменения параметров модели при небольшом сокращении (увеличении) объема исследуемой совокупности;
  • – незначимость параметров регрессии, обусловленная высокими значениями стандартных ошибок параметров.

Существование корреляционной связи между независимыми переменными может быть выявлено с помощью показателей корреляции между ними, в частности с помощью парных коэффициентов корреляции r XiX, которые можно записать в виде матрицы

(2.58)

Коэффициент корреляции переменной с самой собой равен единице хх = 1), а коэффициент корреляции переменной*, с переменной *,■ равен коэффициенту корреляции переменной XjC переменной X, х х х х ). Следовательно, данная матрица является симметрической, поэтому в ней указывают только главную диагональ и элементы под ней:

Высокие значения парных линейных коэффициентов корреляции указывают на наличие интеркорреляции, т.е. линейной связи между двумя объясняющими переменными. Чем выше величина , тем выше интеркорреляция. Так как при построении моделей избежать отсутствия связей между объясняющими переменными практически невозможно, существует следующая рекомендация относительно включения двух переменных в модель в качестве объясняющих. Обе переменные можно включить в модель, если выполняются соотношения

т.е. теснота связи результирующей и объясняющей переменных больше, чем теснота связи между объясняющими переменными.

Наличие мультиколлинеарности можно подтвердить, найдя определитель матрицы (2.58). Если связь между независимыми переменными полностью отсутствует, то недиагональные элементы будут равны нулю, а определитель матрицы – единице. Если связь между независимыми переменными близка к функциональной (т.е. является очень тесной), то определитель матрицы гхг будет близок к нулю.

Еще один метод измерения мультиколлинеарности является следствием анализа формулы стандартной ошибки коэффициента регрессии (2.28):

Как следует из данной формулы, стандартная ошибка будет тем больше, чем меньше будет величина, которую называют фактор инфляции дисперсии (или фактор вздутия дисперсии ) VIF:

где – коэффициент детерминации, найденный для уравнения зависимости переменной Xj от других переменных , входящих в рассматриваемую модель множественной регрессии.

Так как величина отражает тесноту связи между переменной Xj и прочими объясняющими переменными, то она, по сути, характеризует мультиколлинеарность применительно К данной переменной Xj. При отсутствии связи показатель VIF X будет равен (или близок) единице, усиление связи ведет к стремлению этого показателя к бесконечности. Считают, что если VIF X >3 для каждой переменной *, то имеет место мультиколлинеарность.

Измерителем мультиколлинеарности является также так называемый показатель (число) обусловленности матрицы . Он равен отношению максимального и минимального собственных чисел этой матрицы:

Считается, что если порядок этого соотношения превышает 10s–106, то имеет место сильная мультиколлинеарность .

Проверим наличие мультиколлинеарности в рассматриваемом нами примере 2.1. Матрица парных коэффициентов корреляции имеет вид

Можно отметить, что связи между объясняющими переменными достаточно тесные, особенно между переменными.Xj и х2; X] и х3, что указывает на интеркорреляцию этих переменных. Более слабая связь наблюдается между переменными х2 и х3. Найдем определитель матрицы г^..

Полученное значение ближе к нулю, чем к единице, что указывает на наличие мультиколлинеарности объясняющих переменных.

Проверим обоснованность включения всех трех независимых переменных в модель регрессии, используя правило (2.59). Парные линейные коэффициенты корреляции зависимой и независимых переменных равны

Они больше, чем показатели тесноты связи между независимыми переменными, следовательно, правило (2.59) выполняется, все три переменные можно включить в модель регрессии.

Измерим степень мультиколлинеарности переменных с помощью фактора инфляции дисперсии (VIF ). Для этого необходимо рассчитать коэффициенты детерминации для регрессий:

Для этого к каждой регрессии необходимо применить МНК, оценить ее параметры и рассчитать коэффициент детерминации. Для нашего примера результаты расчетов следующие:

Следовательно, фактор инфляции дисперсии для каждой независимой переменной будет равен

Все рассчитанные величины не превысили критического значения, равного трем, следовательно, при построении модели можно пренебречь существованием связей между независимыми переменными.

Для нахождения собственных чисел матрицы (с целью расчета показателя обусловленности η (2.60)) необходи мо найти решение характеристического уравнения

Матрица для нашего примера имеет вид

а матрица, модуль определителя которой нужно приравнять нулю, получится следующей:

Характеристический многочлен в данном случае будет иметь четвертую степень, что затрудняет решение задачи вручную. В данном случае рекомендуется воспользоваться возможностями вычислительной техники. Например, в ППП EViews получены следующие собственные числа матрицы :

Следовательно, показатель обусловленности η будет равен

что свидетельствует о наличии в модели сильной мультиколлинеарности.

Методами устранения мультиколлинеарности являются следующие.

  • 1. Анализ связей между переменными, включаемыми в модель регрессии в качестве объясняющих (независимых), с целью отбора только тех переменных, которые слабо связаны друг с другом.
  • 2. Функциональные преобразования тесно связанных между собой переменных. Например, мы предполагаем, что поступление налогов в городах зависит от количества жителей и площади города. Очевидно, что эти переменные будут тесно связаны. Их можно заменить одной относительной переменной "плотность населения".
  • 3. Если по каким-то причинам перечень независимых переменных не подлежит изменению, то можно воспользоваться специальными методами корректировки моделей с целью исключения мультиколинеарности: ридж-регрессией (гребневой регрессией), методом главных компонент.

Применение ридж-регрессии предполагает корректировку элементов главной диагонали матрицы на некую произвольно задаваемую положительную величину τ. Значение рекомендуется брать от 0,1 до 0,4. Н. Дрейпер, Г. Смит в своей работе приводят один из способов "автоматического" выбора величины τ, предложенный Хоэрлом, Кеннардом и Белдвином :

(2.61)

где т – количество параметров (без учета свободного члена) в исходной модели регрессии; SS e – остаточная сумма квадратов, полученная по исходной модели регрессии без корректировки на мультиколлинеарность; а – вектор-столбец коэффициентов регрессии, преобразованных по формуле

(2.62)

где cij – параметр при переменной у, в исходной модели регрессии.

После выбора величины τ формула для оценки параметров регрессии будет иметь вид

(2.63)

где I – единичная матрица; X, – матрица значений независимых переменных: исходных или преобразованных по формуле (2.64); Υ τ – вектор значений зависимой переменной: исходных или преобразованных по формуле (2.65).

(2.64)

и результативную переменную

В этом случае после оценки параметров по формуле (2.63) необходимо перейти к регрессии по исходным переменным, используя соотношения

Оценки параметров регрессии, полученные с помощью формулы (2.63), будут смещенными. Однако, так как определитель матрицы больше определителя матрицы , дисперсия оценок параметров регрессии уменьшится, что положительно повлияет на прогнозные свойства модели.

Рассмотрим применение ридж-регрессии для примера 2.1. Найдем величину τ с помощью формулы (2.61). Для этого сначала рассчитаем вектор преобразованных коэффициентов регрессии по формуле (2.62):

Произведение равно 1,737-109. Следовательно, рекомендуемое τ составит

После применения формулы (2.63) и преобразований по фор муле (2.66) получим уравнение регрессии

Применение метода главных компонент предполагает переход от взаимозависимых переменных х к независимым друг от друга переменным ζ, которые называют главными

компонентами . Каждая главная компонента z, может быть представлена как линейная комбинация центрированных (или стандартизованных) объясняющих переменных t:. Напомним, что центрирование переменной предполагает вычитание из каждого і-го значения данной j-й переменной ее среднего значения:

а стандартизация (масштабирование) –деление выражения (2.67) на среднее квадратическое отклонение, рассчитанное для исходных значений переменной Xj

Так как независимые переменные часто имеют разный масштаб измерения, формула (2.68) считается более предпочтительной.

Количество компонент может быть меньше или равно количеству исходных независимых переменных р. Компоненту с номером к можно записать следующим образом:

(2.69)

Можно показать, что оценки в формуле (2.69) соответствуют элементам к- го собственного вектора матрицы , где Т – матрица размером , содержащая стандартизованные переменные. Нумерация главных компонент не является произвольной. Первая главная компонента имеет максимальную дисперсию, ей соответствует максимальное собственное число матрицы ; последняя – минимальную дисперсию и наименьшее собственное число.

Доля дисперсии к- й компоненты в общей дисперсии независимых переменных рассчитывается по формуле

где Х к – собственное число, соответствующее данной компоненте; в знаменателе формулы (2.70) приведена сумма всех собственных чисел матрицы .

После расчета значений компонент z, строят регрессию, используя МНК. Зависимую переменную в регрессии по главным компонентам (2.71) целесообразно центрировать (стандартизовать) по формулам (2.67) или (2.68).

где t y – стандартизованная (центрированная) зависимая переменная; – коэффициенты регрессии по главным компонентам; – главные компоненты, упорядоченные по убыванию собственных чисел Х к; δ – случайный остаток.

После оценки параметров регрессии (2.71) можно перейти к уравнению регрессии в исходных переменных, используя выражения (2.67)–(2.69).

Рассмотрим применение метода главных компонент на данных примера 2.1. Отметим, что матрица для стандартизованных переменных является в то же время матрицей парных линейных коэффициентов корреляции между независимыми переменными. Она уже была рассчитана и равна

Найдем собственные числа и собственные векторы этой матрицы, используя ППП Eviews. Получим следующие результаты.

Собственные числа матрицы :

Доля дисперсии независимых переменных, отражаемой компонентами, составила

Объединим собственные векторы матрицы , записав их как столбцы приведенной ниже матрицы F. Они упорядочены по убыванию собственных чисел, т.е. первый столбец является собственным вектором максимального собственного числа и т.д.:

Следовательно, три компоненты (соответствующие трем собственным векторам) можно записать в виде

После стандартизации исходных переменных по формуле (2.68) и расчета значений компонент (по n значений каждой компоненты) с помощью МНК найдем параметры уравнения (2.71):

В полученном уравнении регрессии значим только параметр при первой компоненте. Это закономерный результат с учетом того, что данная компонента описывает 70,8% вариации независимых переменных. Так как компоненты независимы, при исключении из модели одних компонент параметры уравнения при других компонентах не меняются. Таким образом, имеем уравнение регрессии с одной компонентой:

Преобразуем полученное выражение в регрессию с исходными переменными

Таким образом, используя метод главных компонент, мы получили уравнение регрессии

Устранение мультиколлинеарности с помощью ридж-регрессии и метода главных компонент привело к определенному изменению параметров исходной регрессии, которая имела вид

Отметим, что эти изменения были относительно невелики, что указывает на невысокую степень мультиколлинеарности.

  • См., например, Вучков И., Бояджиева Л., Солаков Е. Прикладной регрессионный анализ: пер. с болг. M.: Финансы и статистика, 1987. С. 110.
  • Дрейпер Н., Смит Г. Указ. соч. С. 514.
Поделитесь с друзьями или сохраните для себя:

Загрузка...