پیش بینی با مدل رگرسیون چندگانه.

در محاسبات پیش بینی شده، معادله رگرسیون پیش بینی شده را تعیین می کند ارزش به عنوان پیش بینی نقطه در یعنی با جایگزینی در معادله رگرسیون مقدار مربوطه ایکس.با این حال، پیش بینی نقطه ای به وضوح واقع بینانه نیست. بنابراین، با محاسبه خطای استاندارد تکمیل می شود. به عنوان مثال، و بر این اساس، یک برآورد فاصله ای از ارزش پیش بینی شده است (y*)

برای درک چگونگی ساخت فرمول برای تعیین مقادیر میانگین مربعات خطا، اجازه دهید به معادله رگرسیون جفت خطی بپردازیم:

به روشی شناخته شده، واریانس مدل رگرسیون خطی زوجی را پیدا می کنیم:

(3.29)

با در نظر گرفتن عبارات (3.24) و (3.25)، ابتدا می نویسیم:

پس از تبدیل های ساده، در نهایت به دست می آوریم:

(3.30)

از اینجا به سراغ میانگین مربعات خطای مدل رگرسیون خطی زوجی می رویم:

فرمول در نظر گرفته شده ریشه میانگین مربعات خطای میانگین پیش بینی شده است y در یک مقدار معین خطای موقعیت خط رگرسیون را مشخص می کند. مقدار خطای استاندارد , همانطور که از فرمول مشخص است، به حداقل می رسد , و با دور شدن از آن افزایش می یابد در هر جهت به عبارت دیگر، تفاوت بین آنها بیشتر است و ایکس، خطا بزرگتر است که با آن مقدار میانگین پیش بینی می شود yبرایمقدار تنظیم اگر فاکتور علامت باشد، می توانید انتظار بهترین نتایج پیش بینی را داشته باشید ایکسواقع در مرکز منطقه رصد ایکسو هنگام حذف نمی توان انتظار نتایج خوب پیش بینی داشت از جانب . اگر ارزش خارج از مقادیر مشاهده شده است ایکس،در ساخت یک رگرسیون خطی استفاده می شود، سپس نتایج پیش بینی بسته به مقدار بدتر می شود از ناحیه مقادیر مشاهده شده فاکتور منحرف می شود ایکس.

برای مثال ما این خواهد بود:

برای مقدار پیش بینی شده، 95% فواصل اطمینان برای یک معین با عبارت تعریف می شوند

با احتمال 95% پس از آن 26.04.

در , مقدار پیش بینی شده yخواهد بود:

که یک پیش بینی نقطه ای است.

پیش بینی خط رگرسیون در بازه به صورت زیر خواهد بود:

با این حال، مقادیر واقعی دردر اطراف میانگین متفاوت است. ارزش های فردی درممکن است منحرف شود با مقدار خطای تصادفی که واریانس آن به صورت تخمین زده می شود پراکندگی باقی ماندهیک درجه آزادی . بنابراین، ارزش فردی پیش بینی شده است y باید نه تنها شامل خطای استاندارد، بلکه خطای تصادفی نیز باشد اس.

میانگین خطای مقدار فردی پیش بینی شده y خواهد بود:

با توجه به مثال داده شده، دریافت می کنیم:

فواصل اطمینان برای پیش بینی ارزش های فردی yبا احتمال 0.95 خواهد بود:، یا 141.57، این بدان معنی است که.

این فاصله بسیار گسترده است، در درجه اول به دلیل حجم کم مشاهدات.

هنگام پیش‌بینی بر اساس معادله رگرسیون، باید به خاطر داشت که بزرگی پیش‌بینی نه تنها به خطای استاندارد مقدار فردی بستگی دارد. بلکه در مورد دقت پیش بینی مقدار عامل ایکس.مقدار آن را می توان بر اساس تجزیه و تحلیل مدل های دیگر بر اساس یک موقعیت خاص، و همچنین تجزیه و تحلیل پویایی این عامل تعیین کرد.

فرمول در نظر گرفته شده برای میانگین خطای مقدار فردی ویژگی y همچنین می تواند برای ارزیابی اهمیت تفاوت در مقدار پیش بینی شده بر اساس مدل رگرسیون و فرضیه مطرح شده توسعه رویدادها مورد استفاده قرار گیرد.

فرض کنید در مثال ما با تابع هزینه، فرض بر این است که در سال آینده به دلیل تثبیت اقتصاد با خروجی 8 هزار واحد. هزینه تولید بیش از 250 میلیون روبل نخواهد بود. آیا این واقعاً به معنای تغییر در الگوی یافت شده است یا این ارزش هزینه با مدل رگرسیونی مطابقت دارد؟

برای پاسخ به این سوال، یک پیش‌بینی نقطه‌ای برای آن پیدا می‌کنیم ایکس= 8، یعنی

ارزش هزینه برآورد شده بر اساس وضعیت اقتصادی 250.0 می باشد. برای ارزیابی اهمیت تفاوت بین این مقادیر، میانگین خطای مقدار فردی پیش بینی شده را تعیین می کنیم:

بیایید آن را با ارزش کاهش مورد انتظار در هزینه های تولید مقایسه کنیم، به عنوان مثال:

از آنجایی که اهمیت تنها کاهش هزینه ها ارزیابی می شود، از آزمون t دانشجوی یک طرفه استفاده می شود. با خطای 5 درصد با پنج درجه آزادی. بنابراین، کاهش هزینه برآورد شده به طور قابل توجهی با آنچه که توسط مدل در سطح اطمینان 95% پیش بینی شده است متفاوت است. اما اگر احتمال با خطای 1% به 99% افزایش یابد، مقدار واقعی معیار کمتر از مقدار جدول 3.365 است و تفاوت در نظر گرفته شده در مقدار هزینه ها از نظر آماری معنی دار نیست.

پیش بینی بر اساس معادله رگرسیون جایگزینی معادله رگرسیون مقدار مربوطه است. ایکس . چنین پیش بینی تماس گرفت نقطه.دقیق نیست، بنابراین با محاسبه خطای استاندارد تکمیل می شود ; معلوم می شود تخمین فاصلهارزش پیش بینی شده:

بیایید معادله رگرسیون را تبدیل کنیم:

خطا بستگی به خطا دارد و خطاهای ضریب رگرسیون ب ، یعنی .

از تئوری نمونه گیری مشخص شده است که .

ما از واریانس باقیمانده به ازای یک درجه آزادی S 2 به عنوان تخمین s 2 استفاده می کنیم، به دست می آوریم: .

خطای ضریب رگرسیون از فرمول (15):

بنابراین، در x=x k ما گرفتیم:

(31)

همانطور که از فرمول مشاهده می شود، مقدار به حداقل می رسد و با فاصله از هر جهت افزایش می یابد.

برای مثال ما، این مقدار خواهد بود:

در در x k = 4

برای ارزش پیش بینی شده 95% فواصل اطمینان برای یک معین x kتعریف شده توسط عبارت:

آن ها در x k=4 ± 2.57-3.34 یا ± 8.58. در x k=4 مقدار پیش بینی شده خواهد بود

در ص\u003d -5.79 + 36.84 4 \u003d 141.57 - این یک پیش بینی نقطه است.

پیش بینی خط رگرسیون در بازه: 132.99 نهفته است 150,15.

ما فواصل اطمینان را برای مقدار میانگین درداده شده ایکس.با این حال، مقادیر واقعی در در حدود میانگین متفاوت است , آنها می توانند با مقدار خطای تصادفی منحرف شوند ه که واریانس آن به عنوان واریانس باقیمانده در یک درجه آزادی تخمین زده می شود S2.بنابراین، خطای پیش‌بینی یک مقدار واحد در باید نه تنها خطای استاندارد بلکه خطای تصادفی را نیز شامل شود اس . بنابراین، میانگین خطای پیش‌بینی یک مقدار فردی yخواهد بود:

(33)

مثلا:

فاصله اطمینانپیش بینی ارزش های فردی دردر x k\u003d 4 با وفاداری 0.95 خواهد بود:. 141.57 ± 2.57 8.01 یا 120.98 ≤ y r ≤ 162,16.

در مثال با تابع هزینه فرض کنید که در سال آینده با توجه به ثبات اقتصاد، هزینه تولید 8 هزار دستگاه خواهد بود. محصولات از 250 میلیون روبل تجاوز نمی کنند. آیا این الگوی پیدا شده را تغییر می دهد یا هزینه با مدل رگرسیون مطابقت دارد؟

پیش بینی نقطه: = -5.79 + 36.84 8 = 288.93. مقدار تخمینی 250 است. میانگین خطاارزش فردی پیش بینی کننده:

آن را با کاهش مورد انتظار در هزینه های تولید مقایسه کنید. 250-288.93 = -38.93:

از آنجایی که فقط اهمیت کاهش هزینه ها ارزیابی می شود، از رویکرد یک طرفه استفاده می شود. t~معیار دانش آموز. با خطای 5 درصد با n-2=5 جدول تی 015/2 =، بنابراین کاهش هزینه برآورد شده به طور قابل توجهی با مقدار پیش بینی شده در سطح اطمینان 95 درصد متفاوت است. با این حال، اگر احتمال را به 99٪ افزایش دهیم، با خطای 1٪، مقدار واقعی تی- معیار زیر جدول 3.365 است و تفاوت در هزینه ها از نظر آماری معنی دار نیست، یعنی. هزینه ها با مدل رگرسیون پیشنهادی سازگار است.

رگرسیون غیر خطی

تا اینجا فقط در نظر گرفته ایم خطیمدل رگرسیون در از جانب ایکس (3). در عین حال، بسیاری از حلقه های مهم در اقتصاد هستند غیر خطینمونه هایی از این دست مدل های رگرسیونهستند توابع تولید(رابطه بین حجم کالاهای تولید شده و عوامل اصلی تولید - نیروی کار، سرمایه و ...) و تابع تقاضا (رابطه بین تقاضا برای هر نوع کالا یا خدمات از یک سو با درآمد و قیمت ها) برای این و سایر کالاها - با دیگری).

هنگام تجزیه و تحلیل غیرخطی وابستگی های رگرسیونمهمترین مسئله در کاربرد حداقل مربعات کلاسیک، روش خطی سازی آنهاست. در مورد خطی شدن یک وابستگی غیرخطی، یک خطی به دست می آوریم معادله رگرسیوننوع (3) که پارامترهای آن با روش حداقل مربعات معمول تخمین زده می شود و پس از آن می توان رابطه غیرخطی اولیه را نوشت.

در این معنا تا حدودی متفاوت است مدل چند جمله ای درجه دلخواه:

که حداقل مربعات معمولی را می توان بدون هیچ خطی سازی قبلی اعمال کرد.

این رویه را برای یک سهمی درجه دوم در نظر بگیرید:

(35)

چنین وابستگی زمانی مناسب است که، برای محدوده معینی از مقادیر عامل، یک وابستگی فزاینده به کاهش یا بالعکس تغییر کند. در این حالت، می توان مقدار عاملی را تعیین کرد که در آن مقدار حداکثر یا حداقل ویژگی مؤثر حاصل می شود. اگر داده های اولیه تغییری در جهت اتصال نشان ندهند، تفسیر پارامترهای سهمی دشوار می شود و بهتر است فرم اتصال را با مدل های غیر خطی دیگر جایگزین کنید.

استفاده از حداقل مربعات برای تخمین پارامترهای یک سهمی درجه دوم به افتراق مجموع مجذورهای باقیمانده رگرسیون برای هر یک از پارامترهای برآورد شده و معادل سازی عبارات حاصل با صفر کاهش می یابد. معلوم می شود سیستم معادلات عادی، که تعداد آنها برابر است با تعداد پارامترهای تخمین زده شده، i.e. سه:

(36)

این سیستم را می توان به هر طریقی، به ویژه با روش تعیین کننده ها حل کرد.

مقدار نهایی تابع در مقدار ضریب برابر با:

اگر یک b>0، s<0, حداکثر وجود دارد، یعنی وابستگی ابتدا افزایش می یابد و سپس کاهش می یابد. چنین وابستگی هایی در اقتصاد کار هنگام مطالعه دستمزد کارگران یدی مشاهده می شود، زمانی که سن به عنوان یک عامل عمل می کند. در ب<0, с>0 سهمی دارای حداقل است که معمولاً بسته به حجم خروجی در هزینه های تولید واحد ظاهر می شود.

در وابستگی‌های غیرخطی که چند جمله‌ای کلاسیک نیستند، لزوماً یک خطی‌سازی اولیه انجام می‌شود که شامل تبدیل متغیرها یا پارامترهای مدل یا ترکیبی از این تبدیل‌ها است. بیایید چند کلاس از این وابستگی ها را در نظر بگیریم.

وابستگی های نوع هذلولی به شکل زیر است:

(37)

نمونه ای از چنین وابستگی منحنی فیلیپس است که رابطه معکوس بین درصد رشد دستمزد و نرخ بیکاری را بیان می کند. در این مورد، مقدار پارامتر ب بزرگتر از صفر خواهد بود. نمونه دیگری از وابستگی (37) منحنی های انگل است که الگوی زیر را فرموله می کند: با افزایش درآمد، سهم درآمد صرف شده برای مواد غذایی کاهش می یابد و سهم درآمد صرف شده برای اقلام غیرخوراکی افزایش می یابد. در این مورد ب<0 و ویژگی حاصل در (37) سهم مخارج محصولات غیرخوراکی را نشان می دهد.

خطی سازی معادله (37) به جایگزینی عامل کاهش می یابد z=1/x ، و معادله رگرسیون دارای شکل (3) است که در آن به جای عامل ایکس از فاکتور استفاده کنید z:

منحنی نیمه لگاریتمی به همان معادله خطی کاهش می یابد:

(39)

که می تواند برای توصیف منحنی های انگل استفاده شود. اینجا 1p(x) جایگزین می شود z ، و معادله (38) به دست می آید.

طبقه نسبتاً گسترده ای از شاخص های اقتصادی با نرخ تقریباً ثابت رشد نسبی در طول زمان مشخص می شود. این مربوط به وابستگی هایی از نوع نمایی (نمایی) است که به صورت زیر نوشته می شود:

یا در فرم

وابستگی زیر ممکن است:

در رگرسیون های نوع (40) - (42) از همان روش خطی سازی - لگاریتمی استفاده می شود. معادله (40) به شکل زیر کاهش می یابد:

(43)

جایگزینی متغیر Y= در سالآن را به شکل خطی کاهش می دهد:

(44)

جایی که . اگر یک Eشرایط گاوس مارکوف را برآورده می کند، پارامترهای معادله (40) با حداقل مربعات معادله (44) تخمین زده می شود. معادله (41) به شکل زیر کاهش می یابد:

که با (43) فقط در قالب عبارت آزاد تفاوت دارد و معادله خطی به این صورت است:

Y=A+bx+E(46)

جایی که A=لوگاریتم آ. گزینه ها ولیو ببا حداقل مربعات معمول و سپس پارامتر به دست می آیند آ در وابستگی (41) به عنوان یک آنتی لگاریتم به دست می آید ولی.هنگام گرفتن لگاریتم (42)، یک وابستگی خطی به دست می آوریم:

Y=A+Bx+E(47)

جایی که ب=ln ب، و بقیه نمادها مانند بالا است. در اینجا، LSM به داده های تبدیل شده و پارامتر نیز اعمال می شود ب برای (42) به عنوان آنتی لگاریتم ضریب به دست می آید AT.

وسیع مشترکدر عمل تحقیقات اجتماعی-اقتصادی، وابستگی به قدرت. آنها برای ساخت و تجزیه و تحلیل توابع تولید استفاده می شوند. در توابع مشاهده:

به ویژه ارزشمند این واقعیت است که پارامتر ب برابر است با ضریب کشش صفت حاصل توسط عامل ایکس . با تبدیل (48) با گرفتن لگاریتم، یک رگرسیون خطی به دست می آوریم:

Y=A+bX+E (49)

جایی که Y=لوگاریتم y,A=لوگاریتم a، X=لوگاریتم x، E=لوگاریتم ε .

نوع دیگری از غیرخطی بودن که به شکل خطی کاهش می یابد، رابطه معکوس است:

(50)

انجام تعویض و=1/سال، ما گرفتیم:

(51)

در نهایت باید به وابستگی نوع لجستیک اشاره کرد:

(52)

نمودار تابع (52) به اصطلاح "منحنی اشباع" است که دارای دو مجانب افقی است. y=0و y=1/aو نقطه عطف x=لوگاریتم (b/a)، y=1/(2a)و همچنین نقطه تقاطع با محور y y=1/(a+b):

معادله (52) با تغییر متغیرها به شکل خطی کاهش می یابد u=1/y، z=e - x.

هر معادله رگرسیون غیر خطی و همچنین یک رابطه خطی با یک شاخص همبستگی تکمیل می شود که در این مورد شاخص همبستگی نامیده می شود:

(53)

در اینجا کل واریانس است کارآمدامضاء کردن در , واریانس باقیمانده، تعیین شده توسط معادله رگرسیون غیر خطی. لازم به ذکر است که تفاوت در مقادیر مربوطه و نه در مقادیر تبدیل شده، بلکه در مقادیر اصلی ویژگی موثر گرفته می شود. به عبارت دیگر، هنگام محاسبه این مبالغ، نباید از وابستگی های تبدیل شده (خطی شده)، بلکه از معادلات رگرسیون غیرخطی اصلی استفاده کرد. به گونه ای دیگر، (53) را می توان به صورت زیر نوشت:

(54)

ارزش آردر محدوده 0 ≤ است R≤ 1، و هر چه به یک نزدیکتر باشد، رابطه ویژگی های مورد نظر نزدیکتر است، معادله رگرسیون یافت شده قابل اعتمادتر است. در این حالت، شاخص همبستگی با ضریب همبستگی خطی منطبق است در صورتی که تبدیل متغیرها به منظور خطی کردن معادله رگرسیون با مقادیر ویژگی حاصل انجام نشود. این مورد در مورد رگرسیون نیمه لگاریتمی و چند جمله ای و همچنین هذلولی متساوی الاضلاع است (37). با تعیین ضریب همبستگی خطی برای معادلات خطی شده، به عنوان مثال، در بسته اکسل با استفاده از تابع LINEST، می توانید از آن برای یک رابطه غیر خطی نیز استفاده کنید.

در موردی که تبدیل نیز با ارزش انجام می شود، وضعیت متفاوت است در , به عنوان مثال، گرفتن متقابل یک مقدار یا گرفتن یک لگاریتم. سپس مقدار محاسبه شده توسط همان تابع LINEST به معادله رگرسیون خطی شده اشاره خواهد کرد، نه به معادله غیرخطی اصلی، و مقادیر اختلافات زیر مجموع در (54) به مقادیر تبدیل شده اشاره خواهد کرد، نه به معادله غیرخطی. اصلی که یکی نیست. در عین حال، همانطور که در بالا ذکر شد، به منظور محاسبه آرعبارت (54) محاسبه شده از معادله غیرخطی اصلی باید استفاده شود.

از آنجایی که شاخص همبستگی با استفاده از نسبت انحراف معیار فاکتوریل و کل محاسبه می شود، پس R2همان معنای ضریب تعیین را دارد. در مطالعات خاص، ارزش R2برای اتصالات غیر خطی شاخص تعیین نامیده می شود.

ارزیابی اهمیت شاخص همبستگی به همان شیوه ارزیابی پایایی ضریب همبستگی انجام می شود.

شاخص تعیین برای بررسی اهمیت معادله رگرسیون غیر خطی به طور کلی با استفاده از F-معیار فیشر:

(55)

جایی که n -تعداد مشاهدات متر -تعداد پارامترها برای متغیرها ایکس . در تمام موارد در نظر گرفته شده توسط ما، به جز رگرسیون چند جمله ای، متر=1، برای چند جمله ای ها (34) m=k، یعنی درجات چند جمله ای ارزش تی تعداد درجات آزادی را برای انحراف معیار فاکتوریل مشخص می کند و (p-t-1) -تعداد درجات آزادی برای RMS باقیمانده.

شاخص تعیین R2 را می توان با ضریب تعیین مقایسه کرد r2 برای توجیه امکان استفاده از تابع خطی. هرچه انحنای خط رگرسیون بیشتر باشد، تفاوت بین آنها بیشتر است R2 و r2 . مجاورت این شاخص ها به این معنی است که شکل معادله رگرسیون نباید پیچیده باشد و می توان از یک تابع خطی استفاده کرد. در عمل، اگر ارزش (R2-r2)از 0.1 تجاوز نمی کند، سپس وابستگی خطی موجه در نظر گرفته می شود. در غیر این صورت، یک ارزیابی از اهمیت تفاوت در شاخص های تعیین، محاسبه شده از همان داده ها، از طریق انجام می شود. تی-معیار دانش آموزی:

در اینجا در مخرج خطای تفاوت است (R 2 -r 2)،با فرمول تعیین می شود:

اگر یک t>t جدول (α؛ n-m-1)،پس تفاوت بین شاخص های همبستگی معنی دار بوده و جایگزینی رگرسیون غیرخطی با رگرسیون خطی نامناسب است.

در نتیجه، فرمول‌هایی را برای محاسبه ضرایب کشش برای رایج‌ترین معادلات رگرسیون ارائه می‌کنیم.

یکی از وظایف اصلی مدل‌سازی اقتصادسنجی، پیش‌بینی (پیش‌بینی) مقادیر متغیر وابسته برای مقادیر معینی از متغیرهای توضیحی برای مقادیر معینی از متغیرهای توضیحی است. در اینجا، یک رویکرد دوگانه امکان پذیر است: یا پیش بینی انتظار شرطی متغیر وابسته ( پیش بینی میانگین، یا برای پیش بینی مقدار خاصی از متغیر وابسته ( پیش بینی یک مقدار خاص).

اظهار نظر.برخی از نویسندگان بین مفاهیمی مانند پیش بینی و پیش بینی تمایز قائل می شوند. اگر مقدار متغیر توضیحی ایکسدقیقاً مشخص است، سپس تخمین متغیر وابسته Yتماس گرفت پیش بینی. اگر مقدار متغیر توضیحی ایکسدقیقا معلوم نیست بعد می گویند چه کار می شود پیش بینیارزش های Y. این وضعیت برای سری های زمانی معمول است. در این صورت ما بین پیش بینی و پیش بینی تمایز قائل نخواهیم شد.

تمیز دادن نقطهو فاصلهپیش بینی در حالت اول، امتیاز یک عدد معین است، در حالت دوم، بازه‌ای است که حاوی مقدار واقعی متغیر وابسته با سطح معنی‌داری معین است.

آ) پیش بینی مقدار میانگین. اجازه دهید معادله رگرسیون زوجی ساخته شود، که بر اساس آن لازم است انتظارات ریاضی شرطی پیش‌بینی شود. . در این مورد، ارزش تخمین نقطه ای است . سپس این سوال به طور طبیعی مطرح می شود که مقدار مدل محاسبه شده توسط معادله تجربی چقدر می تواند از انتظارات ریاضی مشروط مربوطه منحرف شود. پاسخ به این سوال بر اساس برآوردهای بازه ای ساخته شده با سطح معینی از اهمیت a برای هر مقدار خاص داده شده است. xpمتغیر توضیحی.

معادله رگرسیون تجربی را به شکل می نویسیم

دو جزء مستقل در اینجا متمایز می شوند: میانگین و افزایش. از این نتیجه می شود که واریانس برابر خواهد بود

از تئوری نمونه گیری، این را می دانیم

با استفاده از تخمین s 2 واریانس باقیمانده اس 2، دریافت می کنیم



واریانس ضریب رگرسیون، همانطور که قبلا نشان داده شده است

با جایگزینی واریانس های یافت شده در (5.41)، به دست می آوریم

. (5.56)

بنابراین، فرمول محاسبه خطای استاندارد میانگین Y پیش بینی شده با رگرسیونفرم را دارد

. (5.57)

مقدار خطای استاندارد، همانطور که از فرمول مشخص است، به حداقل می رسد و با دور شدن از هر جهتی افزایش می یابد. به عبارت دیگر، هر چه اختلاف بین و بیشتر باشد، خطای پیش بینی مقدار میانگین بیشتر است. yبرای مقدار تنظیم شده xp. در صورت وجود مقادیر، می توانید انتظار بهترین نتایج پیش بینی را داشته باشید xpواقع در مرکز منطقه رصد ایکسو با دور شدن از .

مقدار تصادفی

(5.58)

دارای توزیع Student با تعداد درجات آزادی n= n-2 (در مدل کلاسیک معمولی). بنابراین با توجه به جدول نقاط بحرانی توزیع دانشجو با توجه به سطح معنی داری مورد نیاز a و تعداد درجات آزادی n= n-2 می توان نقطه بحرانی را که شرایط را برآورده می کند تعیین کرد

.

با در نظر گرفتن (5.46) داریم:

.

از این رو، پس از برخی تبدیل های جبری، به این نتیجه می رسیم که فاصله اطمینان برای به شکل زیر است:

, (5.59)

جایی که خطای حاشیه ای D پفرم را دارد

. (5.60)

از فرمول های (5.57) و (5.60) می توان دریافت که مقدار (طول) فاصله اطمینان به مقدار متغیر توضیحی بستگی دارد. xp: زمانی که حداقل باشد و با دور شدن xpاز مقدار فاصله اطمینان افزایش می یابد (شکل 5.4). بنابراین، پیش بینی مقادیر متغیر وابسته Yبا توجه به معادله رگرسیون توجیه می شود اگر مقدار xpمتغیر توضیحی ایکساز محدوده مقادیر خود در نمونه فراتر نمی رود (و دقیق تر، نزدیک تر است xpبه ). به عبارت دیگر، برون یابی منحنی رگرسیون، یعنی. استفاده از آن در خارج از محدوده بررسی شده از مقادیر متغیر توضیحی(حتی اگر برای متغیر مورد نظر، بر اساس معنای مسئله در حال حل، موجه باشد) می تواند منجر به خطاهای قابل توجهی شود..

ب) پیش بینی مقادیر فردی یک متغیر وابسته. در عمل، گاهی اوقات دانستن واریانس مهمتر است Yاز میانگین یا فواصل اطمینان آن برای انتظارات ریاضی مشروط. این به این دلیل است که مقادیر واقعی Yدر اطراف میانگین متفاوت است. ارزش های فردی Yمی تواند با مقدار خطای تصادفی e منحرف شود، واریانس آن به عنوان واریانس باقیمانده به ازای یک درجه آزادی تخمین زده می شود. اس 2. بنابراین، خطای مقدار فردی پیش بینی شده است Yباید نه تنها شامل خطای استاندارد، بلکه خطای تصادفی نیز باشد اس. این به شما اجازه می دهد تا محدودیت های معتبری را برای یک مقدار خاص تعریف کنید. Y.

اجازه دهید به برخی از ارزش های ممکن علاقه مند شویم y 0 متغیر Yدر یک مقدار مشخص xpمتغیر توضیحی ایکس. مقدار پیش بینی شده توسط معادله رگرسیون Yدر ایکس=xpاست yp. اگر ارزش را در نظر بگیریم y 0 به عنوان یک متغیر تصادفی Y 0، و yp- به عنوان یک متغیر تصادفی بله، سپس می توان به این نکته اشاره کرد که

,

.

متغیرهای تصادفی Y 0 و بلهمستقل هستند و از این رو متغیر تصادفی هستند U=Y 0 –بلهدارای توزیع نرمال با

و . (5.61)

با استفاده از s 2 واریانس باقیمانده اس 2، فرمول محاسبه را دریافت می کنیم خطای استاندارد مقدار Y فردی پیش بینی شده توسط خط رگرسیون:

. (5.63)

مقدار تصادفی

(5.64)

دارای توزیع دانشجویی با تعداد درجات آزادی است ک=n-2. بر این اساس، می توان یک فاصله اطمینان برای ارزش های فردی ایجاد کرد بله:

, (5.65)

جایی که خطای حاشیه ای D توفرم را دارد

. (5.66)

توجه داشته باشید که این فاصله بیشتر از فاصله اطمینان برای انتظار شرطی است (شکل 5.4 را ببینید).

مثال 5.5.با استفاده از داده های مثال های 5.1-5.3، فاصله اطمینان 95% را برای انتظارات ریاضی شرطی و مقدار فردی در xp=160.

راه حل.در مثال 5.1 پیدا شد. با استفاده از فرمول (5.48)، خطای حدی را برای انتظار شرطی پیدا می کنیم

سپس فاصله اطمینان برای مقدار میانگین در سطح معناداری 0.05 = a به نظر می رسد

به عبارت دیگر، میانگین مصرف با درآمد 160 با احتمال 0.95 در بازه (149.8؛ 156.6) خواهد بود.

اجازه دهید مرزهای فاصله ای را محاسبه کنیم که در آن حداقل 95٪ از حجم مصرف ممکن در سطح درآمد متمرکز شود. xp= 160، یعنی فاصله اطمینان برای ارزش فردی خطای حاشیه ای را برای یک مقدار فردی پیدا کنید

سپس فاصله ای که حداقل 95 درصد از حجم مصرف فردی در درآمد خواهد بود xp=160 فرم دارد

به راحتی می توان دریافت که شامل یک فاصله اطمینان برای میانگین مصرف مشروط است. آ

مثال ها

مثال 5.65.داده های مربوط به 199X برای سرزمین های منطقه ارائه شده است (جدول 1.1).

2. معادله رگرسیون جفت خطی بسازید yبر روی ایکسو اهمیت آماری پارامترهای رگرسیون را ارزیابی کنید. یک نقاشی بکشید.

3. کیفیت معادله رگرسیون را با استفاده از ضریب تعیین ارزیابی کنید. کیفیت معادله رگرسیون را با اف- معیار فیشر.

4. اجرای پیش بینی حقوق yبا مقدار پیش بینی شده میانگین سرانه حداقل معیشت ایکسکه 107% سطح متوسط ​​است. دقت پیش‌بینی را با محاسبه خطای پیش‌بینی و فاصله اطمینان آن برای سطح معناداری a=0.05 ارزیابی کنید. نتیجه گیری.

راه حل

1. برای تعیین میزان نزدیکی رابطه معمولاً استفاده می شود ضریب همبستگی:

که در آن، واریانس های نمونه متغیرها هستند ایکسو y. برای محاسبه ضریب همبستگی، یک جدول محاسبه می سازیم (جدول 5.4):

جدول 5.4

ایکس y xy x2 y2 e 2
148,77 -15,77 248,70
152,45 -4,45 19,82
157,05 -23,05 531,48
149,69 4,31 18,57
158,89 3,11 9,64
174,54 20,46 418,52
138,65 0,35 0,13
157,97 0,03 0,00
144,17 7,83 61,34
157,05 4,95 24,46
146,93 12,07 145,70
182,83 -9,83 96,55
جمع 1574,92
منظور داشتن 85,58 155,75 13484,00 7492,25 24531,42

با توجه به جدول متوجه می شویم:

, , , ,

, , , ,

, .

به این ترتیب، بین دستمزد (y) و میانگین سرانه حداقل معیشت (x) یک همبستگی مستقیم نسبتا قوی وجود دارد. .

برای نرخ اهمیت آماری ضریب همبستگیدو طرفه را محاسبه کنید آزمون تی دانشجویی:

که دارای توزیع دانشجویی با ک=n-2 و سطح معناداری a. در مورد ما

و .

از آنجایی که ضریب همبستگی به طور قابل توجهی با صفر متفاوت است.

برای یک ضریب معنی دار می توان ساخت فاصله اطمینان، که با یک احتمال داده شده حاوی یک ضریب همبستگی عمومی ناشناخته است. برای ایجاد یک تخمین فاصله (برای نمونه های کوچک n<30), используют فیشر z-transform:

توزیع zدر حال حاضر در کوچک nیک توزیع نرمال تقریبی با میانگین و واریانس است. بنابراین، ابتدا یک فاصله اطمینان برای M[ z] و سپس برعکس عمل کنید z-تبدیل. اعمال کردن z-تغییر برای ضریب همبستگی پیدا شده، دریافت می کنیم

فاصله اطمینان برای M( z) شبیه خواهد بود

,

جایی که تی g با استفاده از تابع لاپلاس F ( تی g)=g/2. برای g=0.95 داریم تی g=1.96. سپس

یا . معکوس z- تبدیل طبق فرمول انجام می شود

در نتیجه، ما پیدا می کنیم

.

در محدوده های مشخص شده در سطح معنی داری 05/0 (با پایایی 95/0)، ضریب همبستگی عمومی r نتیجه گیری می شود.

2. بنابراین، بین متغیرها ایکسو yهمبستگی معناداری دارد. ما فرض می کنیم که این وابستگی خطی است. مدل رگرسیون خطی زوجی دارای فرم است

,

جایی که y- متغیر وابسته (علامت حاصل)، ایکس- متغیر مستقل (تبیینی)، e - انحرافات تصادفی، b 0 و b 1 - پارامترهای رگرسیون. بر اساس یک نمونه با اندازه محدود، یک معادله رگرسیون تجربی می توان ساخت:

جایی که ب 0 و ب 1- ضرایب رگرسیون تجربی. معمولاً برای تخمین پارامترهای رگرسیون استفاده می شود روش حداقل مربع (MNC). بر اساس OLS، مجموع مجذور انحرافات مقادیر واقعی متغیر وابسته yاز نظر تئوری حداقل بود:

,

جایی که انحرافات y iاز خط رگرسیون برآورد شده شرط لازم برای وجود حداقل یک تابع از دو متغیر، برابری صفر مشتقات جزئی آن نسبت به پارامترهای مجهول است. ب 0 و بیکی . در نتیجه می گیریم سیستم معادلات عادی:

حل این سیستم، پیدا می کنیم

, .

با توجه به جدول، پیدا می کنیم

معادله رگرسیون به دست آمد:

پارامتر ب 1 تماس گرفت ضریب رگرسیون. مقدار آن میانگین تغییر در نتیجه را با تغییر ضریب یک واحد نشان می دهد. در مورد مورد بررسی، با افزایش سرانه حداقل 1 روبل. متوسط ​​دستمزد روزانه به طور متوسط ​​0.92 روبل افزایش می یابد .

,

جایی که افاز توزیع فیشر با سطح اهمیت a و درجات آزادی تبعیت می کند ک 1 = 1 و ک 2 =n-2. در مورد ما

.

از آنجایی که ارزش بحرانی معیار است

و سپس اهمیت آماری معادله رگرسیون ساخته شده تشخیص داده می شود. توجه داشته باشید که برای مدل خطی اف- و تیمعیارها با برابری مرتبط هستند که می توان از آن برای بررسی محاسبات استفاده کرد.

4. تخمین های بدست آمده از معادله رگرسیون به ما امکان می دهد از آن برای پیش بینی استفاده کنیم. ارزش پیش بینی شده ypبا جایگزین کردن مقدار (پیش‌بینی) متناظر با معادله رگرسیون (1.16) تعیین می‌شود. xp

سخنرانی 5 99

§5.2. تحلیل صحت برآورد ضرایب رگرسیون 99

5.2.1. تخمین واریانس یک انحراف تصادفی 99

5.2.2. آزمون فرضیه در خصوص ضرایب رگرسیون 100

5.2.3. تخمین بازه ای ضرایب رگرسیون 103

§5.3. شاخص های کیفی معادله رگرسیون 104

5.3.1. ضریب تعیین 104

5.3.2. بررسی کیفیت کلی معادله رگرسیون: F-test 106

5.3.3. بررسی کیفیت کلی معادله رگرسیون: t-test 108

§5.4. فواصل پیش بینی رگرسیون 108

کاربرد رگرسیون خطی در پیش بینی

پیش بینی شاخه ای مستقل از علم است که به طور گسترده در تمام زمینه های فعالیت های انسانی استفاده می شود. انواع مختلفی از انواع و روش‌های پیش‌بینی وجود دارد که با در نظر گرفتن ماهیت وظایف مورد بررسی، اهداف مطالعه و وضعیت اطلاعات توسعه یافته‌اند. کتاب ها و مقالات زیادی در مجلات به این موضوعات اختصاص یافته است. با استفاده از مثال رگرسیون خطی، استفاده از مدل های اقتصادسنجی در پیش بینی مقادیر شاخص های اقتصادی را نشان خواهیم داد.

در مفهوم معمولی، پیش‌بینی پیش‌بینی وضعیت آینده یک شی یا پدیده مورد علاقه ما بر اساس داده‌های گذشته‌نگر در حالات گذشته و حال است، مشروط بر اینکه یک رابطه علی بین گذشته و آینده وجود داشته باشد. می توان گفت که پیش بینی یک حدس است که پشتوانه آن دانش است. از آنجایی که تخمین های پیش بینی ذاتاً تقریبی هستند، ممکن است اصلاً در مورد مناسب بودن آن تردید وجود داشته باشد. بنابراین، لازمه اصلی هر پیش‌بینی، به حداقل رساندن اشتباهات در برآوردهای مربوطه تا حد امکان است. در مقایسه با پیش‌بینی‌های تصادفی و شهودی، پیش‌بینی‌های مبتنی بر علمی و سیستماتیک توسعه‌یافته بدون شک دقیق‌تر و مؤثرتر هستند. دقیقاً چنین پیش بینی هایی مبتنی بر استفاده از روش های تجزیه و تحلیل آماری است. می توان ادعا کرد که از بین تمام روش های پیش بینی، آنها بیشترین اطمینان را القا می کنند، اولاً به این دلیل که داده های آماری به عنوان مبنایی قابل اعتماد برای تصمیم گیری در مورد آینده عمل می کنند و ثانیاً، چنین پیش بینی هایی با استفاده از روش های اساسی توسعه یافته و به طور کامل آزمایش می شوند. آمار ریاضی

برآورد پارامترهای رگرسیون خطی، پیش‌بینی مقادیر واقعی این پارامترها بر اساس داده‌های آماری است. پیش‌بینی‌های به‌دست‌آمده کاملاً مؤثر هستند، زیرا آنها تخمین‌های بی‌طرفانه پارامترهای واقعی هستند.

مدل رگرسیون خطی (8.2.4) را با پارامترهای یافت شده (8.2.8) و (8.2.9) برای تعیین متغیر توضیحی برای مجموعه ای از مقادیر مشاهده نشده متغیر توضیحی اعمال می کنیم. به طور دقیق تر، بیایید مشکل پیش بینی مقدار متوسط ​​مربوط به مقداری از متغیر توضیحی را تعیین کنیم که با هیچ مقداری مطابقت ندارد. در این مورد، می تواند هر دو بین مشاهدات نمونه قرار گیرد و خارج از فاصله مقدار پیش بینی می تواند نقطه ای یا بازه ای باشد. ما خود را به در نظر گرفتن یک پیش‌بینی نقطه محدود می‌کنیم، یعنی. مقدار مورد نظر در فرم تعریف شده است

مقادیر مشاهده‌شده متغیر تصادفی کجا هستند و ضرایب (وزن‌ها) هستند که باید طوری انتخاب شوند که بهترین پیش‌بینی بی‌طرف خطی باشد، یعنی. به

از (8.5.1) برای مقادیر مشاهده شده

از آنجا که، با خاصیت انتظار ریاضی ((2.5.4) - (2.5.5))

,

اما از آنجایی که در سمت راست تحت عملگر انتظار فقط اعداد ثابت وجود دارد، پس

با توجه به رابطه، اکنون می توانیم بگوییم که پیش بینی خطی بی طرفانه برای اگر و فقط اگر چه خواهد بود

بنابراین، هر برداری که شرایط (8.5.2) را برآورده کند، بیان (8.5.1) را یک پیش‌بینی خطی بی‌طرفانه از مقدار می‌کند. بنابراین، لازم است برای اوزان از نظر کمیت های شناخته شده بیان خاصی پیدا کنیم. برای انجام این کار، مشکل به حداقل رساندن واریانس کمیت را حل می کنیم:

از آنجایی که اعداد ثابتی تحت عملگر پراکندگی در جمله اول در سمت راست معادله وجود دارد، پس

با در نظر گرفتن مفروضات ب) و ج) و با استفاده از خواص پراکندگی (2.5.4) و (2.5.6)، داریم:

انحراف معیار متغیر تصادفی کجاست.

اجازه دهید مسئله بهینه سازی کمینه سازی واریانس با محدودیت ها را بسازیم (8.5.2):

تحت محدودیت

از آنجایی که ضریب به حداقل مقدار تابع هدف بستگی ندارد و بر آن تأثیر نمی گذارد، تابع لاگرانژ را به صورت زیر می سازیم (به (2.3.8) مراجعه کنید:

ضریب های لاگرانژ کجا و هستند. شرایط لازم برای بهینه بودن یک نقطه به این شکل است (نگاه کنید به (2.3.9)):

(8.5.3)

با جمع کردن معادله اول با در نظر گرفتن معادله دوم، به دست می آید:

از اینجا ضریب لاگرانژ را پیدا می کنیم

مقدار میانگین متغیر تصادفی کجاست. مجدداً مقدار بدست آمده را جایگزین اولین معادله سیستم (8.5.3) می کنیم و پیدا می کنیم

پیش‌بینی با استفاده از مدل رگرسیون خطی چندگانه شامل تخمین مقادیر مورد انتظار متغیر وابسته با توجه به مقادیر متغیرهای مستقل موجود در معادله رگرسیون است. پیش بینی های نقطه ای و فاصله ای وجود دارد.

پیش بینی نقطه ای مقدار محاسبه‌شده متغیر وابسته است که با جایگزین کردن مقادیر پیش‌بینی‌کننده (مشخص شده توسط محقق) متغیرهای مستقل در معادله رگرسیون خطی چندگانه به دست می‌آید. اگر مقادیر داده شوند، مقدار پیش‌بینی‌شده متغیر وابسته (پیش‌بینی نقطه‌ای) برابر است با

پیش بینی فاصله زمانی مقادیر حداقل و حداکثر متغیر وابسته بین

که با یک احتمال معین و برای مقادیر معین متغیرهای مستقل می افتد.

پیش بینی فاصله برای یک تابع خطی با فرمول محاسبه می شود

جایی که تی T مقدار نظری معیار Student برای است df=n- – t– 1 درجه آزادی؛ س y خطای استاندارد پیش بینی است که با فرمول محاسبه می شود

(2.57)

جایی که ایکس- ماتریس مقادیر اولیه متغیرهای مستقل؛ ایکس pr - ماتریس-ستون مقادیر پیش بینی متغیرهای مستقل فرم

اجازه دهید مقادیر پیش‌بینی‌شده دریافت‌های مالیاتی را بیابیم (مثال 2.1)، مشروط بر اینکه رابطه بین شاخص‌ها توسط معادله توصیف شود.

بیایید مقادیر پیش بینی متغیرهای مستقل را تنظیم کنیم:

  • - تعداد کارکنان Xj: 500 هزار نفر؛
  • - حجم حمل و نقل در صنایع تولیدی ایکس 2: 65000 میلیون روبل؛
  • - تولید انرژی x3: 15000 میلیون روبل.

بیایید پیش بینی نقطه و فاصله دریافت های مالیاتی را پیدا کنیم.

برای مقادیر داده شده متغیرهای مستقل، میانگین درآمد مالیاتی خواهد بود

بردار مقادیر پیش بینی کننده متغیرهای مستقل به این صورت خواهد بود

خطای پیش بینی محاسبه شده با فرمول (2.57) 5556.7 بود. مقدار جدولی معیار t با تعداد درجات آزادی df = 44 و سطح معناداری a = 0.05 برابر با 2.0154 است. در نتیجه، مقادیر پیش‌بینی‌شده دریافت‌های مالیاتی در محدوده 0.95 با احتمال زیر خواهد بود:

از 18013.69 - 2.0154-5556.7 = 6814.1 میلیون روبل.

تا 18013.69 + 2.0154-5556.7=29212 میلیون روبل

پیش‌بینی توسط مدل‌های رگرسیون چندگانه غیرخطی نیز می‌تواند با استفاده از فرمول‌های (2.55) - (2.57) انجام شود، که قبلاً این مدل‌ها را خطی کرده‌اند.

چند خطی بودن داده ها

هنگام ساخت یک مدل اقتصاد سنجی، فرض می شود که متغیرهای مستقل به صورت مجزا بر متغیر وابسته تأثیر می گذارند، یعنی تأثیر یک متغیر منفرد بر ویژگی حاصل با تأثیر سایر متغیرها مرتبط نیست. در واقعیت واقعی اقتصادی، همه پدیده ها تا حدی به هم مرتبط هستند، بنابراین دستیابی به این فرض تقریباً غیرممکن است. وجود رابطه بین متغیرهای مستقل منجر به نیاز به ارزیابی تأثیر آن بر نتایج تحلیل همبستگی-رگرسیون می شود.

بین متغیرهای توضیحی روابط عملکردی و تصادفی وجود دارد. در مورد اول، از اشتباهات در مشخصات مدل صحبت می شود که باید اصلاح شود.

اگر معادله رگرسیون شامل تمام متغیرهای موجود در هویت به عنوان متغیرهای توضیحی باشد، یک ارتباط عملکردی به وجود می آید. برای مثال می توان گفت که درآمد Y حاصل جمع مصرف C و سرمایه گذاری است منیعنی هویت پابرجاست. ما فرض می کنیم که سطح نرخ بهره r به درآمد بستگی دارد، یعنی. مدل کلی را می توان به صورت نمایش داد

یک محقق بی تجربه که مایل به بهبود مدل است، می‌تواند متغیرهای «مصرف» و «سرمایه‌گذاری» را نیز در معادله بگنجاند که منجر به یک رابطه عملکردی بین متغیرهای توضیحی می‌شود:

رابطه عملکردی ستون های ماتریس ایکسمنجر به عدم امکان یافتن یک راه حل منحصر به فرد برای معادله خواهد شد

پسرفت زیرا ، و معکوس را پیدا کنید

ماتریس شامل تقسیم مکمل های جبری یک ماتریس بر تعیین کننده آن است که داده می شود

در غیر این صورت برابر با صفر خواهد بود.

بیشتر اوقات، یک رابطه تصادفی بین متغیرهای توضیحی وجود دارد که منجر به کاهش می شود

مقادیر تعیین کننده ماتریس: هر چه اتصال قوی تر باشد،

تعیین کننده کوچکتر است این منجر به افزایش نه تنها در برآورد پارامترهای بدست آمده با استفاده از LSM، بلکه همچنین در خطاهای استاندارد آنها می شود که با فرمول (2.24) محاسبه می شوند:

همانطور که می بینیم از یک ماتریس نیز استفاده می کند. یک همبستگی می تواند بین دو متغیر توضیحی وجود داشته باشد ( همبستگی) و بین چندین (چند خطی).

چندین نشانه وجود دارد که نشان دهنده وجود چند خطی است. به طور خاص، این علائم عبارتند از:

  • نشانه هایی از ضرایب رگرسیون هستند که با نظریه اقتصادی مطابقت ندارند. برای مثال می دانیم که متغیر توضیحی ایکستأثیر مستقیمی بر متغیر توضیح داده شده y دارد، در عین حال ضریب رگرسیون برای این متغیر کمتر از صفر است.
  • - تغییرات قابل توجه در پارامترهای مدل با کاهش (افزایش) جزئی در حجم جمعیت مورد مطالعه؛
  • - بی اهمیت بودن پارامترهای رگرسیون، به دلیل مقادیر بالای خطاهای استاندارد پارامترها.

وجود همبستگی بین متغیرهای مستقل را می توان با استفاده از شاخص های همبستگی بین آنها به ویژه با استفاده از ضرایب همبستگی زوجی آشکار کرد. r XiX که می تواند به صورت ماتریس نوشته شود

(2.58)

ضریب همبستگی یک متغیر با خودش برابر است با یک (G xx = 1) و ضریب همبستگی متغیر *، با متغیر *، ■ برابر با ضریب همبستگی متغیر است. XjCمتغیر X (G x x =r x x ). بنابراین، این ماتریس متقارن است، بنابراین فقط مورب اصلی و عناصر زیر آن در آن نشان داده شده است:

مقادیر بالای ضرایب همبستگی خطی جفتی نشان دهنده وجود همبستگی است، به عنوان مثال. رابطه خطی بین دو متغیر توضیحی هر چه مقدار بالاتر باشد، همبستگی بیشتر است. از آنجایی که اجتناب از عدم وجود روابط بین متغیرهای توضیحی در ساخت مدل‌ها عملاً غیرممکن است، توصیه زیر در رابطه با گنجاندن دو متغیر در مدل به عنوان متغیرهای توضیحی وجود دارد. در صورت وجود روابط، هر دو متغیر می توانند در مدل گنجانده شوند

آن ها تنگی رابطه بین متغیرهای حاصل و توضیحی بیشتر از تنگی رابطه بین متغیرهای توضیحی است.

وجود چند خطی را می توان با یافتن عامل تعیین کننده ماتریس (2.58) تأیید کرد. اگر رابطه بین متغیرهای مستقل به طور کامل وجود نداشته باشد، عناصر خارج از مورب برابر با صفر و تعیین کننده ماتریس برابر با یک خواهد بود. اگر رابطه بین متغیرهای مستقل نزدیک به تابعی باشد (یعنی بسیار نزدیک باشد)، آنگاه تعیین کننده ماتریس yxr نزدیک به صفر خواهد بود.

روش دیگر برای اندازه گیری چند خطی نتیجه تجزیه و تحلیل فرمول خطای استاندارد ضریب رگرسیون (2.28) است:

همانطور که از این فرمول نشان می دهد، خطای استاندارد بزرگتر خواهد بود، مقدار کوچکتر، که نامیده می شود عامل تورم واریانس (یافاکتور دمیدن پراکندگی ) VIF:

ضریب تعیین معادله وابستگی متغیر کجاست Xjاز سایر متغیرهای موجود در مدل در نظر گرفته شده رگرسیون چندگانه.

از آنجایی که مقدار نزدیک بودن رابطه بین متغیر را نشان می دهد Xjو سایر متغیرهای توضیحی، سپس در واقع چند خطی بودن را در رابطه با این متغیر مشخص می کند. Xj.در صورت عدم وجود اتصال، نشانگر VIF X برابر (یا نزدیک) یک خواهد بود، تقویت اتصال منجر به تمایل این شاخص به بی نهایت می شود. آنها فکر می کنند که اگر VIF X > 3 برای هر متغیر *، سپس چند خطی رخ می دهد.

متر چند خطی نیز به اصطلاح است شاخص (تعداد) مشروط بودن ماتریس ها برابر است با نسبت حداکثر و حداقل مقادیر ویژه این ماتریس:

اعتقاد بر این است که اگر ترتیب این نسبت از 10s-106 تجاوز کند، چند خطی قوی رخ می دهد.

بیایید وجود چند خطی را در مثال 2.1 بررسی کنیم. ماتریس ضرایب همبستگی زوجی شکل دارد

می توان اشاره کرد که پیوندهای بین متغیرهای توضیحی کاملاً نزدیک است، به خصوص بین متغیرهای Xj و x2. X] و x3 که نشان دهنده همبستگی متقابل این متغیرها است. رابطه ضعیف تری بین متغیرهای x2 و x3 مشاهده می شود. اجازه دهید تعیین کننده ماتریس r^.. را پیدا کنیم.

مقدار حاصل به صفر نزدیکتر از یک است که نشان دهنده وجود چند خطی در متغیرهای توضیحی است.

بیایید اعتبار گنجاندن هر سه متغیر مستقل در مدل رگرسیون را با استفاده از قانون (2.59) بررسی کنیم. ضرایب همبستگی خطی زوجی متغیرهای وابسته و مستقل هستند

آنها بیشتر از شاخص های نزدیکی رابطه بین متغیرهای مستقل هستند، بنابراین با رعایت قاعده (2.59) می توان هر سه متغیر را در مدل رگرسیون گنجاند.

اجازه دهید درجه چند خطی متغیرها را با استفاده از عامل تورم واریانس اندازه گیری کنیم ( VIF). برای انجام این کار، محاسبه ضرایب تعیین برای رگرسیون ضروری است:

برای انجام این کار، لازم است LSM را برای هر رگرسیون اعمال کرد، پارامترهای آن را ارزیابی کرد و ضریب تعیین را محاسبه کرد. برای مثال ما، نتایج محاسبات به شرح زیر است:

بنابراین ضریب تورم واریانس برای هر متغیر مستقل برابر خواهد بود

تمام مقادیر محاسبه شده از مقدار بحرانی برابر با سه تجاوز نکردند، بنابراین، هنگام ساخت یک مدل، می توان از وجود روابط بین متغیرهای مستقل غفلت کرد.

برای یافتن مقادیر ویژه ماتریس (به منظور محاسبه شاخص شرطی η (2.60)) لازم است راه حلی برای معادله مشخصه پیدا شود.

ماتریس برای مثال ما به نظر می رسد

و ماتریسی که مدول دترمینان آن باید برابر با صفر باشد به صورت زیر خواهد بود:

چند جمله ای مشخصه در این حالت دارای درجه چهارم خواهد بود که حل مسئله را به صورت دستی دشوار می کند. در این صورت استفاده از قابلیت های فناوری کامپیوتر توصیه می شود. به عنوان مثال، در PPP EViewsمقادیر ویژه ماتریس زیر به دست می آید:

بنابراین شاخص شرطی η برابر خواهد بود

که نشان دهنده وجود چند خطی قوی در مدل است.

روش های حذف چند خطی به شرح زیر است.

  • 1. تجزیه و تحلیل روابط بین متغیرهای موجود در مدل رگرسیون به صورت توضیحی (مستقل)، به منظور انتخاب تنها آن دسته از متغیرهایی که ارتباط ضعیفی با یکدیگر دارند.
  • 2. تبدیلات تابعی متغیرهای نزدیک به هم. به عنوان مثال، فرض می کنیم که درآمد مالیات در شهرها به تعداد ساکنان و مساحت شهر بستگی دارد. بدیهی است که این متغیرها ارتباط نزدیکی با هم دارند. آنها را می توان با یک متغیر نسبی "تراکم جمعیت" جایگزین کرد.
  • 3. اگر به دلایلی لیست متغیرهای مستقل تغییر نمی کند، می توانید از روش های خاصی برای تنظیم مدل ها به منظور حذف چند خطی استفاده کنید: رگرسیون رج (رگرسیون پشته)، روش مؤلفه اصلی.

کاربرد رگرسیون خط الراسشامل تنظیم عناصر مورب اصلی ماتریس با مقداری مثبت دلخواه τ می باشد. مقدار توصیه می شود از 0.1 تا 0.4 گرفته شود. N. Draper، G. Smith در کار خود یکی از روش‌های انتخاب «خودکار» مقدار τ را ارائه می‌دهند که توسط Hoerl، Kennard و Beldwin ارائه شده است:

(2.61)

جایی که تیتعداد پارامترها (به استثنای عبارت آزاد) در مدل رگرسیون اصلی است. اس اس e مجموع مربعات باقی مانده از مدل رگرسیون اصلی بدون تنظیم چند خطی است. آبردار ستونی از ضرایب رگرسیون است که با فرمول تبدیل شده است

(2.62)

جایی که cij- پارامتر با متغیر y، در مدل رگرسیون اصلی.

پس از انتخاب مقدار τ، فرمول تخمین پارامترهای رگرسیون به نظر می رسد

(2.63)

جایی که منماتریس هویت است. ایکس،- ماتریس مقادیر متغیرهای مستقل: اولیه یا تبدیل شده طبق فرمول (2.64)؛ Υ τ بردار مقادیر متغیر وابسته است: اولیه یا تبدیل شده با فرمول (2.65).

(2.64)

و متغیر حاصل

در این صورت، پس از تخمین پارامترها طبق فرمول (2.63)، باید با استفاده از روابط به رگرسیون روی متغیرهای اصلی اقدام کرد.

برآورد پارامترهای رگرسیون به دست آمده با استفاده از فرمول (2.63) بایاس خواهد بود. با این حال، از آنجایی که تعیین‌کننده ماتریس بزرگ‌تر از تعیین‌کننده ماتریس است، واریانس تخمین‌های پارامترهای رگرسیون کاهش می‌یابد که تأثیر مثبتی بر ویژگی‌های پیش‌بینی مدل خواهد داشت.

کاربرد رگرسیون پشته را برای مثال 2.1 در نظر بگیرید. اجازه دهید مقدار τ را با استفاده از فرمول (2.61) پیدا کنیم. برای انجام این کار، ابتدا بردار ضرایب رگرسیون تبدیل شده را با استفاده از فرمول (2.62) محاسبه می کنیم:

محصول 1.737-109 است. بنابراین، τ توصیه شده خواهد بود

پس از اعمال فرمول (2.63) و تبدیل طبق فرمول (2.66)، معادله رگرسیون به دست می آید.

کاربرد روش جزء اصلی شامل انتقال از متغیرهای وابسته به هم x به متغیرهای متقابل مستقل ζ است که نامیده می شوند اصلی

اجزاء. هر جزء اصلی، z، را می توان به صورت ترکیبی خطی از متغیرهای توضیحی متمرکز (یا استاندارد شده) نشان داد. t:.به یاد داشته باشید که مرکزیت یک متغیر شامل تفریق از هر i-امین مقدار داده شده است j-thمتغیر مقدار میانگین آن:

و استانداردسازی (مقیاس بندی) تقسیم بیان (2.67) بر انحراف استاندارد محاسبه شده برای مقادیر اولیه متغیر Xj است.

از آنجایی که متغیرهای مستقل اغلب مقیاس های اندازه گیری متفاوتی دارند، فرمول (68/2) ارجح تر در نظر گرفته می شود.

تعداد مولفه ها می تواند کمتر یا مساوی تعداد متغیرهای مستقل اصلی باشد آر.شماره جزء بهرا می توان به صورت زیر نوشت:

(2.69)

می توان نشان داد که برآوردهای فرمول (2.69) با عناصر مطابقت دارد به-بردار ویژه ماتریس، که در آن تییک ماتریس اندازه حاوی متغیرهای استاندارد است. شماره گذاری اجزای اصلی دلخواه نیست. اولین مؤلفه اصلی دارای حداکثر واریانس است، که با حداکثر مقدار ویژه ماتریس مطابقت دارد. آخرین مورد حداقل واریانس و کوچکترین مقدار ویژه است.

سهم واریانس به-مولفه ام در واریانس کل متغیرهای مستقل با فرمول محاسبه می شود

جایی که ایکس k یک مقدار ویژه مربوط به این جزء است. مخرج فرمول (2.70) شامل مجموع تمام مقادیر ویژه ماتریس است.

پس از محاسبه مقادیر مولفه های z، یک رگرسیون با استفاده از روش حداقل مربعات ساخته می شود. متغیر وابسته در رگرسیون بر روی اجزای اصلی (2.71) باید بر اساس فرمول (2.67) یا (2.68) در مرکز (استاندارد) قرار گیرد.

جایی که تی y - متغیر وابسته استاندارد شده (مرکز)؛ ضرایب رگرسیون برای اجزای اصلی هستند. اجزای اصلی هستند که به ترتیب نزولی مقادیر ویژه مرتب شده اند ایکسبه ; δ یک باقیمانده تصادفی است.

پس از تخمین پارامترهای رگرسیون (2.71)، می توان با استفاده از عبارات (2.67)–(2.69) به معادله رگرسیون در متغیرهای اصلی پرداخت.

کاربرد روش اجزای اصلی را روی داده های مثال 2.1 در نظر بگیرید. توجه داشته باشید که ماتریس برای متغیرهای استاندارد در عین حال ماتریسی از ضرایب همبستگی خطی زوجی بین متغیرهای مستقل است. قبلا محاسبه شده و برابر است

مقادیر ویژه و بردارهای ویژه این ماتریس را با استفاده از PPP پیدا کنید بررسی هاما نتایج زیر را دریافت می کنیم.

مقادیر ویژه ماتریس:

نسبت واریانس متغیرهای مستقل منعکس شده توسط مؤلفه ها بود

بیایید بردارهای ویژه ماتریس را با نوشتن آنها به عنوان ستون های ماتریس زیر ترکیب کنیم. اف.آنها با مقادیر ویژه نزولی مرتب می شوند. ستون اول بردار ویژه حداکثر مقدار ویژه است و به همین ترتیب:

بنابراین، سه جزء (مرتبط با سه بردار ویژه) را می توان به صورت نوشتاری نوشت

پس از استانداردسازی متغیرهای اولیه طبق فرمول (2.68) و محاسبه مقادیر مولفه ها (براساس n مقدار هر جزء) با استفاده از حداقل مربعات، پارامترهای معادله (2.71) را پیدا می کنیم:

در معادله رگرسیون حاصل، تنها پارامتر در مولفه اول معنادار است. این یک نتیجه طبیعی است، با توجه به اینکه این مؤلفه 70.8 درصد از تغییرات متغیرهای مستقل را توصیف می کند. از آنجایی که مؤلفه ها مستقل هستند، هنگامی که برخی از مؤلفه ها از مدل حذف می شوند، پارامترهای معادله برای سایر مؤلفه ها تغییر نمی کند. بنابراین، ما یک معادله رگرسیون با یک جزء داریم:

بیایید عبارت حاصل را به یک رگرسیون با متغیرهای اصلی تبدیل کنیم

بنابراین با استفاده از روش مولفه اصلی معادله رگرسیون را به دست آوردیم

حذف چند خطی با استفاده از رگرسیون پشته و روش مؤلفه اصلی منجر به تغییر خاصی در پارامترهای رگرسیون اولیه شد که به شکل

توجه داشته باشید که این تغییرات نسبتاً کوچک بودند که نشان‌دهنده درجه کم چند خطی بودن است.

  • برای مثال ببینید ووچکوف آی.، بویاجیوا ال.، سولاکوف ای.تحلیل رگرسیون کاربردی: Per. از بلغاری م.: امور مالی و آمار، 1366. ص 110.
  • دراپر ان.، اسمیت جی.فرمان. op. S. 514.
با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...