مشخصات مدل های رگرسیون چندگانه. مدل رگرسیون چندگانه

در قسمت‌های قبل ذکر شد که متغیر مستقل انتخاب شده بعید است تنها عاملی باشد که بر متغیر وابسته تأثیر بگذارد. در بیشتر موارد، می‌توانیم بیش از یک عامل را شناسایی کنیم که می‌تواند به نوعی بر متغیر وابسته تأثیر بگذارد. بنابراین، برای مثال، منطقی است که فرض کنیم هزینه های کارگاه بر اساس تعداد ساعات کار، مواد اولیه مصرفی، تعداد محصولات تولید شده تعیین می شود. ظاهراً برای پیش بینی هزینه های فروشگاه باید از تمام فاکتورهایی که درج کردیم استفاده کنید. ما ممکن است داده هایی را در مورد هزینه ها، ساعات کار، مواد خام استفاده شده و غیره جمع آوری کنیم. در هر هفته یا هر ماه، اما ما نمی توانیم ماهیت رابطه بین هزینه ها و سایر متغیرها را با استفاده از نمودار همبستگی کشف کنیم. بیایید با فرضیات یک رابطه خطی شروع کنیم و تنها در صورتی که این فرض غیرقابل قبول باشد، سعی می کنیم از یک مدل غیر خطی استفاده کنیم. مدل خطی برای رگرسیون چندگانه:

تغییر در y با تغییر در همه متغیرهای مستقل توضیح داده می شود که در حالت ایده آل باید مستقل از یکدیگر باشند. به عنوان مثال، اگر تصمیم بگیریم از پنج متغیر مستقل استفاده کنیم، مدل به صورت زیر خواهد بود:

همانطور که در مورد رگرسیون خطی ساده، ما تخمین هایی را برای نمونه بدست می آوریم و غیره. بهترین خطبرای نمونه برداری:

ضریب a و ضرایب رگرسیون با استفاده از حداقل مجموع مربعات خطاها محاسبه می شوند.

2. واریانس برای همه x برابر و یکسان است.

3. خطاها مستقل از یکدیگر هستند.

این مفروضات مانند رگرسیون ساده است. با این حال، در مورد آنها منجر به محاسبات بسیار پیچیده می شود. خوشبختانه، انجام محاسبات به ما اجازه می دهد تا بر تفسیر و ارزیابی مدل توروس تمرکز کنیم. در قسمت بعدی مراحلی که باید در صورت رگرسیون چندگانه انجام شود را تعریف می کنیم، اما در هر صورت به کامپیوتر متکی هستیم.

مرحله 1. آماده سازی داده های اولیه

گام اول معمولاً شامل تفکر در مورد چگونگی ارتباط متغیر وابسته با هر یک از متغیرهای مستقل است. متغیرهای نشانگر x اگر توضیحی برای واریانس ارائه نکنند معنی ندارند. به یاد بیاورید که وظیفه ما توضیح تغییر در تغییر توسط متغیر مستقل x است. ما باید ضریب همبستگی را برای همه جفت متغیرها در شرایطی محاسبه کنیم که obblcها مستقل از یکدیگر باشند. این به ما این فرصت را می دهد تا تعیین کنیم آیا x به خطوط y مربوط است یا خیر! اما نه، آیا آنها مستقل از یکدیگر هستند؟ این در چندین رگ مهم است ما می توانیم هر یک از ضرایب همبستگی را هنوز محاسبه کنیم: بخش 8.5، برای اینکه ببینیم مقادیر آنها چقدر از صفر متفاوت است، باید بفهمیم که آیا همبستگی بالایی بین مقادیر وجود دارد یا خیر. متغیرهای مستقل اگر همبستگی بالایی مثلاً بین x پیدا کنیم، بعید است که هر دوی این متغیرها در مدل نهایی گنجانده شوند.

مرحله 2. تعیین همه مدل های آماری مهم

ما می توانیم رابطه خطی بین y و هر ترکیبی از متغیرها را بررسی کنیم. اما مدل تنها زمانی معتبر است که بین y و همه x رابطه خطی معنی‌داری وجود داشته باشد و هر ضریب رگرسیون به طور معنی‌داری با صفر متفاوت باشد.

ما می توانیم اهمیت مدل را به عنوان یک کل با استفاده از جمع ارزیابی کنیم، باید برای هر ضریب reg از یک -تست استفاده کنیم تا مشخص کنیم که آیا تفاوت معنی داری با صفر دارد یا خیر. اگر ضریب si تفاوت معنی‌داری با صفر نداشته باشد، متغیر توضیحی مربوطه به پیش‌بینی مقدار y کمکی نمی‌کند و مدل نامعتبر است.

روش کلی برازش یک مدل رگرسیون چند دامنه ای برای همه ترکیبات متغیرهای توضیحی است. بیایید هر مدل را با استفاده از آزمون F برای مدل به عنوان یک کل و کری برای هر ضریب رگرسیون ارزیابی کنیم. اگر F-معیار یا هر یک از -quad! قابل توجه نیستند، پس این مدل معتبر نیست و قابل استفاده نیست.

مدل ها از بررسی مستثنی هستند. این پروسه زمان بسیار زیادی می برد. به عنوان مثال، اگر پنج متغیر مستقل داشته باشیم، 31 مدل امکان پذیر است: یک مدل با هر پنج متغیر، پنج مدل با چهار متغیر از پنج متغیر، ده با سه متغیر، ده با دو متغیر و پنج مدل با یک متغیر.

به دست آوردن رگرسیون چندگانه نه با حذف متغیرهای مستقل متوالی، بلکه با گسترش دامنه آنها امکان پذیر است. در این مورد، ما با ساخت شروع می کنیم رگرسیون های سادهبرای هر یک از متغیرهای مستقل به نوبه خود. ما بهترین را از بین این رگرسیون ها انتخاب می کنیم، یعنی. با بالاترین ضریب همبستگی، سپس قابل قبول ترین مقدار متغیر y، متغیر دوم را به این اضافه کنید. این روش ساخت رگرسیون چندگانه مستقیم نامیده می شود.

روش معکوس با بررسی مدلی که شامل همه متغیرهای مستقل است شروع می شود. در مثال زیر، پنج مورد وجود دارد. متغیری که کمترین سهم را در مدل کلی دارد از بررسی حذف می شود و تنها چهار متغیر باقی می ماند. برای این چهار متغیر یک مدل خطی تعریف شده است. اگر این مدل درست نباشد، یک متغیر دیگر که کمترین سهم را دارد حذف می شود و سه متغیر باقی می ماند. و این فرآیند با متغیرهای زیر تکرار می شود. هر بار که یک متغیر جدید حذف می شود، باید بررسی شود که متغیر مهم حذف نشده باشد. همه این اقدامات باید با دقت زیادی انجام شوند، زیرا می توانید ناخواسته مدل ضروری و قابل توجه را از بررسی حذف کنید.

مهم نیست که از کدام روش استفاده می شود، ممکن است چندین مدل قابل توجه وجود داشته باشد و هر یک از آنها می تواند اهمیت زیادی داشته باشد.

مرحله 3. انتخاب بهترین مدل از بین همه مدل های مهم

این رویه را می توان با کمک مثالی مشاهده کرد که در آن سه مدل مهم شناسایی شده است. در ابتدا پنج متغیر مستقل وجود داشت اما سه مورد از آنها - - از همه مدل‌ها حذف شدند. این متغیرها در پیش بینی y کمکی نمی کنند.

بنابراین، مدل های قابل توجه عبارت بودند از:

مدل 1: y فقط پیش بینی می شود

مدل 2: y فقط پیش بینی می شود

مدل 3: y با هم پیش بینی می شود.

برای انتخاب از بین این مدل ها، مقادیر ضریب همبستگی و انحراف معیارضریب باقیمانده همبستگی چندگانه- نسبت تغییرات "توضیح داده شده" در y به کل تغییرات در y است و به همان روشی که ضریب همبستگی زوجی برای یک رگرسیون دو متغیره ساده محاسبه می شود. مدلی که رابطه بین y و مقادیر x متعدد را توصیف می کند چند عاملیهمبستگی که نزدیک به و مقدار بسیار کوچک است. ضریب تعیین که اغلب در RFP ارائه می شود، درصد تغییرپذیری در y را که توسط مدل مبادله می شود، توصیف می کند. مدل زمانی اهمیت دارد که نزدیک به 100٪ باشد.

در این مثال، ما به سادگی یک مدل با انتخاب می کنیم بالاترین ارزشو کوچکترین مقداراین مدل مدل ترجیحی است. مرحله بعدی مقایسه مدل های 1 و 3 است. تفاوت بین این مدل ها گنجاندن یک متغیر در مدل 3 است. سؤال این است که آیا مقدار y به طور قابل توجهی دقت را بهبود می بخشد. پیش بینی یا نه! معیار زیر به ما کمک می کند به این سوال پاسخ دهیم - این است آزمون اف خصوصی. مثالی را در نظر بگیرید که کل فرآیند ساخت رگرسیون چندگانه را نشان می دهد.

مثال 8.2. مدیریت یک کارخانه بزرگ شکلات سازی علاقه مند به ساخت مدلی برای پیش بینی فروش یکی از برندهای قدیمی خود است. داده های زیر جمع آوری شد.

جدول 8.5. ساخت مدلی برای پیش بینی حجم فروش (به اسکن مراجعه کنید)

برای اینکه مدل مفید و معتبر باشد، باید Ho را رد کنیم و فرض کنیم که مقدار معیار F نسبت دو کمیت شرح داده شده در بالا است:

این تست یک دم (یک دم) است زیرا میانگین مربع به دلیل رگرسیون باید بزرگتر باشد تا بتوانیم آن را بپذیریم. در بخش‌های قبلی، زمانی که از آزمون F استفاده می‌کردیم، آزمون‌ها دو طرفه بودند، زیرا مقدار بیشتر تنوع، هر چه که بود، در خط مقدم بود. در تجزیه و تحلیل رگرسیون، هیچ انتخابی وجود ندارد - در بالا (در صورت حساب) همیشه تغییر y در رگرسیون وجود دارد. اگر کمتر از تغییر در باقیمانده باشد، Ho را می پذیریم، زیرا مدل تغییر در y را توضیح نمی دهد. این مقدار معیار F با جدول مقایسه می شود:

از جداول توزیع استاندارد F-test:

در مثال ما، مقدار معیار این است:

بنابراین نتیجه ای با قابلیت اطمینان بالا به دست آوردیم.

بیایید هر یک از مقادیر ضرایب رگرسیون را بررسی کنیم. فرض کنید که کامپیوتر تمام معیارهای لازم را شمارش کرده است. برای ضریب اول، فرضیه ها به صورت زیر فرموله می شوند:

زمان به توضیح تغییر در فروش کمکی نمی کند، مشروط بر اینکه سایر متغیرها در مدل وجود داشته باشند، به عنوان مثال.

زمان سهم قابل توجهی دارد و باید در مدل گنجانده شود.

اجازه دهید فرضیه را در سطح -ام با استفاده از یک معیار دو طرفه برای:

مقادیر حد در این سطح:

ارزش معیار:

مقادیر محاسبه شده معیار - باید خارج از حدود مشخص شده باشد تا بتوانیم فرضیه را رد کنیم.

برنج. 8.20. توزیع باقیمانده برای یک مدل دو متغیره

هشت خطا با انحراف 10٪ یا بیشتر از فروش واقعی وجود داشت. بزرگترین آنها 27٪ است. آیا اندازه خطا هنگام برنامه ریزی فعالیت ها توسط شرکت پذیرفته می شود؟ پاسخ به این سوال به میزان قابلیت اطمینان سایر روش ها بستگی دارد.

8.7. اتصالات غیر خطی

بیایید به وضعیتی برگردیم که فقط دو متغیر داریم، اما رابطه بین آنها غیر خطی است. در عمل، بسیاری از روابط بین متغیرها منحنی هستند. به عنوان مثال، یک رابطه را می توان با معادله بیان کرد:

اگر رابطه بین متغیرها قوی باشد، به عنوان مثال. انحراف از مدل منحنی نسبتاً کم است، سپس می‌توانیم ماهیت بهترین مدل را از نمودار (میدان همبستگی) حدس بزنیم. با این حال، اعمال یک مدل غیرخطی برای آن دشوار است چارچوب نمونه. اگر بتوانیم مدل غیرخطی را به صورت خطی دستکاری کنیم، راحت تر خواهد بود. در دو مدل اول ثبت شده، توابع قابل تخصیص هستند نام های مختلف، و سپس استفاده خواهد شد مدل چندگانهپسرفت. به عنوان مثال، اگر مدل این است:

رابطه بین y و x را به بهترین نحو توصیف می کند، سپس مدل خود را با استفاده از متغیرهای مستقل بازنویسی می کنیم

این متغیرها به عنوان متغیرهای مستقل معمولی در نظر گرفته می شوند، حتی اگر می دانیم که x نمی توانند مستقل از یکدیگر باشند. بهترین مدل مانند قسمت قبل انتخاب می شود.

با مدل سوم و چهارم متفاوت رفتار می شود. در اینجا ما قبلاً نیاز به به اصطلاح تبدیل خطی را برآورده می کنیم. به عنوان مثال، اگر اتصال

سپس روی نمودار با یک خط منحنی نشان داده می شود. همه اقدامات لازمرا می توان به صورت زیر نشان داد:

جدول 8.10. محاسبه

برنج. 8.21. اتصال غیر خطی

مدل خطی، با اتصال تبدیل شده:

برنج. 8.22. تبدیل لینک خطی

به طور کلی، اگر نمودار اصلی نشان دهد که رابطه را می توان به شکل زیر ترسیم کرد: پس نمایش y در برابر x، جایی که یک خط مستقیم را مشخص می کند. بیایید از یک رگرسیون خطی ساده برای ایجاد مدل استفاده کنیم: مقادیر محاسبه شده a و - بهترین ارزش هاو (5.

مدل چهارم بالا شامل تبدیل y با استفاده از لگاریتم طبیعی است:

با گرفتن لگاریتم های دو طرف معادله، به دست می آوریم:

بنابراین: کجا

اگر ، پس - معادله یک رابطه خطی بین Y و x. بگذارید رابطه بین y و x باشد، سپس باید هر مقدار y را با گرفتن لگاریتم e تبدیل کنیم. یک رگرسیون خطی ساده روی x تعریف می کنیم تا مقادیر A را پیدا کنیم و پاد لگاریتم در زیر نوشته شده است.

بنابراین، روش رگرسیون خطی را می توان برای روابط غیر خطی اعمال کرد. با این حال، در این مورد، یک تبدیل جبری هنگام نوشتن مدل اصلی لازم است.

مثال 8.3. جدول زیر حاوی داده هایی در مورد کل تولید صنعتی سالانه در یک کشور معین برای دوره مذکور است

اگر بتوان از تأثیر سایر عوامل مؤثر بر موضوع مطالعه چشم پوشی کرد، از رگرسیون زوجی در مدل سازی استفاده می شود.

به عنوان مثال، هنگام ساخت یک مدل مصرف از یک محصول خاص از درآمد، محقق فرض می‌کند که هر گروه درآمدی تأثیر یکسانی بر مصرف عواملی مانند قیمت یک محصول، اندازه خانواده و ترکیب دارد. با این حال، هیچ قطعیتی در صحت این گفته وجود ندارد.

راه مستقیم برای حل چنین مشکلی انتخاب واحدهای جمعیتی با مقادیر یکسان سایر عوامل به جز درآمد است. این منجر به طراحی آزمایش می شود، روشی که در تحقیقات علوم طبیعی استفاده می شود. اقتصاددان از توانایی تنظیم سایر عوامل محروم است. رفتار تک تک متغیرهای اقتصادی قابل کنترل نیست. اطمینان از برابری سایر شرایط برای ارزیابی تأثیر یک عامل مورد مطالعه امکان پذیر نیست.

در این مورد چگونه باید اقدام کرد؟ لازم است تأثیر عوامل دیگر را با وارد کردن آنها به مدل شناسایی کرد. یک معادله رگرسیون چندگانه بسازید.

از این نوع معادله در بررسی مصرف استفاده می شود.

ضرایب b j - مشتقات جزئی y با توجه به عوامل x i

مشروط بر اینکه همه x i = const باشد

تابع مصرف کننده مدرن (برای اولین بار توسط جی. ام. کینز در دهه 1930 پیشنهاد شد) به عنوان مدلی به شکل С = f(y، P، M، Z) در نظر بگیرید.

ج- مصرف y - درآمد

P - قیمت، شاخص هزینه.

م - پول نقد

ز - دارایی های نقدی

که در آن

رگرسیون چندگانه به طور گسترده در حل مشکلات تقاضا، بازده سهام، در مطالعه توابع هزینه تولید، در مسائل کلان اقتصاد و سایر مسائل اقتصاد سنجی استفاده می شود.

در حال حاضر رگرسیون چندگانه یکی از رایج ترین روش ها در اقتصاد سنجی است.

هدف اصلی رگرسیون چندگانه- ساخت مدل با تعداد زیادیعوامل، ضمن تعیین تأثیر هر یک از آنها به صورت جداگانه، و همچنین تأثیر تجمعی بر شاخص مدل شده.

ساخت یک معادله رگرسیون چندگانه با تصمیم گیری در مورد مشخصات مدل آغاز می شود. این شامل دو مجموعه سوال است:

1. انتخاب عوامل;

2. انتخاب معادله رگرسیون.

گنجاندن مجموعه ای از عوامل در معادله رگرسیون چندگانه با ایده محقق از ماهیت رابطه بین شاخص مدل شده و سایر پدیده های اقتصادی مرتبط است. الزامات عوامل موجود در رگرسیون چندگانه:

1. باید از نظر کمی قابل اندازه گیری باشند، اگر لازم است یک عامل کیفی در مدل گنجانده شود که اندازه گیری کمی ندارد، باید به آن اطمینان کمی داد (مثلاً در مدل عملکرد، کیفیت خاک در مدل داده شده است. شکل امتیاز؛ در مدل ارزش املاک: مناطق باید رتبه بندی شوند.

2. عوامل نباید به هم مرتبط باشند و حتی بیشتر در یک رابطه عملکردی دقیق باشند.

گنجاندن در مدل عوامل با همبستگی بالا در زمانی که R y x 1

اگر همبستگی بالایی بین عوامل وجود داشته باشد، تعیین تأثیر جدا شده آنها بر شاخص عملکرد غیرممکن است و پارامترهای معادله رگرسیون قابل تفسیر هستند.

معادله فرض می‌کند که عوامل x 1 و x 2 مستقل از یکدیگر هستند، r x1x2 \u003d 0، سپس پارامتر b 1 قدرت تأثیر عامل x 1 را بر نتیجه y با مقدار ضریب x اندازه‌گیری می‌کند. 2 بدون تغییر اگر r x1x2 =1، با تغییر در ضریب x 1، ضریب x 2 نمی تواند بدون تغییر باقی بماند. از این رو b 1 و b 2 را نمی توان به عنوان شاخص های تأثیر جداگانه x 1 و x 2 و بر y تفسیر کرد.

برای مثال، رگرسیون هزینه واحد y (روبل) از دستمزد کارکنان x (روبل) و بهره وری نیروی کار z (واحد در ساعت) را در نظر بگیرید.

y = 22600 - 5x - 10z + e

ضریب b 2 \u003d -10 نشان می دهد که با افزایش بهره وری نیروی کار 1 واحد. هزینه واحد تولید 10 روبل کاهش می یابد. در سطح ثابت پرداخت

در عین حال، پارامتر x را نمی توان به عنوان کاهش هزینه یک واحد تولید به دلیل افزایش دستمزد تفسیر کرد. مقدار منفی ضریب رگرسیون برای متغیر x به دلیل همبستگی زیاد بین x و z است (r x z = 0.95). بنابراین، رشد دستمزد با بهره وری نیروی کار بدون تغییر (بدون در نظر گرفتن تورم) ممکن نیست.

عوامل موجود در رگرسیون چندگانه باید تغییرات متغیر مستقل را توضیح دهند. اگر مدلی با مجموعه‌ای از عوامل p ساخته شود، شاخص تعیین R2 برای آن محاسبه می‌شود، که سهم تغییرات توضیح داده شده صفت حاصل را به دلیل عوامل p در نظر گرفته شده در رگرسیون ثابت می‌کند. تأثیر سایر عواملی که در مدل در نظر گرفته نشده اند به صورت 1-R2 با واریانس باقیمانده مربوطه S2 برآورد می شود.

با گنجاندن اضافی عامل p + 1 در رگرسیون، ضریب تعیین باید افزایش یابد و واریانس باقیمانده باید کاهش یابد.

R 2 p + 1 ≥ R 2 p و S 2 p + 1 ≤ S 2 p .

اگر این اتفاق نیفتد و این شاخص ها عملاً کمی با یکدیگر تفاوت داشته باشند، فاکتور x р+1 که در تحلیل گنجانده شده است، مدل را بهبود نمی بخشد و عملا یک عامل اضافی است.

اگر برای یک رگرسیون شامل 5 عامل R2 = 0.857، و 6 شامل R2 = 0.858 باشد، در این صورت گنجاندن این عامل در مدل نامناسب است.

اشباع مدل با عوامل غیرضروری نه تنها ارزش واریانس باقیمانده را کاهش نمی دهد و شاخص تعیین را افزایش نمی دهد، بلکه منجر به بی اهمیت بودن آماری پارامترهای رگرسیون بر اساس آزمون t-Student می شود.

بنابراین، اگرچه از نظر تئوری مدل رگرسیون به شما امکان می دهد تا هر تعداد از عوامل را در نظر بگیرید، در عمل این امر ضروری نیست.

انتخاب عوامل بر اساس تحلیل نظری و اقتصادی صورت می گیرد. با این حال، اغلب اجازه نمی دهد که پاسخ روشنی به سؤال مربوط به رابطه کمی ویژگی های مورد بررسی و مصلحت گنجاندن عامل در مدل ارائه شود. بنابراین، انتخاب عوامل در دو مرحله انجام می شود:

در مرحله اول، عوامل بر اساس ماهیت مشکل انتخاب می شوند.

در مرحله دوم، بر اساس ماتریس شاخص‌های همبستگی، آمار t برای پارامترهای رگرسیون تعیین می‌شود.

ضرایب همبستگی (یعنی همبستگی بین متغیرهای توضیحی) حذف عوامل تکراری از مدل‌ها را ممکن می‌سازد. فرض بر این است که دو متغیر به وضوح هم خط هستند، یعنی. اگر r xixj ≥0.7 باشد به صورت خطی با یکدیگر مرتبط هستند.

از آنجایی که یکی از شرایط ساخت یک معادله رگرسیون چندگانه، استقلال عمل عوامل، یعنی. r x ixj = 0، خطی بودن فاکتورها این شرط را نقض می کند. اگر فاکتورها مشخصاً هم خط باشند، آن‌ها همدیگر را کپی می‌کنند و توصیه می‌شود یکی از آنها را از رگرسیون حذف کنید. در این مورد، نه به عاملی که ارتباط نزدیک تری با نتیجه دارد، بلکه به عاملی که با ارتباط به اندازه کافی نزدیک با نتیجه، کمترین ارتباط تنگاتنگ را با عوامل دیگر داشته باشد، ترجیح داده می شود. این الزام، ویژگی رگرسیون چندگانه را به عنوان روشی برای مطالعه تأثیر پیچیده عوامل در شرایط استقلال آنها از یکدیگر آشکار می کند.

هنگام مطالعه وابستگی y = f(x, z, v) ماتریس ضرایب همبستگی جفت را در نظر بگیرید.

y ایکس z V
Y
ایکس 0,8
ز 0,7 0,8
V 0,6 0,5 0,2

بدیهی است که عوامل x و z همدیگر را تکرار می کنند. مصلحت است که عامل z و نه x را در تحلیل لحاظ کنیم، زیرا همبستگی z با y ضعیف تر از همبستگی عامل x با y است (r y z< r ух), но зато слабее межфакторная корреляция (r zv < r х v)

بنابراین، در این مورد، معادله رگرسیون چندگانه شامل عوامل z و v است. بزرگی ضرایب همبستگی جفتی فقط یک خطی واضح از عوامل را نشان می دهد. اما بیشترین مشکلات در حضور چند خطی بودن عوامل ایجاد می شود، زمانی که بیش از دو عامل با یک رابطه خطی به هم مرتبط هستند، یعنی. اثر تجمعی عوامل بر یکدیگر وجود دارد. وجود چند خطی عامل ممکن است به این معنی باشد که برخی از عوامل همیشه هماهنگ عمل می کنند. در نتیجه، تغییر در داده های اصلی دیگر کاملاً مستقل نیست و ارزیابی تأثیر هر عامل به طور جداگانه غیرممکن است. هر چه چند خطی بودن عوامل قوی تر باشد، تخمین توزیع مجموع تغییرات توضیح داده شده بر روی عوامل فردی با استفاده از روش حداقل مربعات قابل اعتماد کمتر است. اگر رگرسیون در نظر گرفته شده y \u003d a + bx + cx + dv + e، از LSM برای محاسبه پارامترها استفاده می شود:

S y = S واقعیت + S e

یا
=
+

مجموع کل = فاکتوریل + باقیمانده

انحرافات مربعی

به نوبه خود، اگر عوامل مستقل از یکدیگر باشند، برابری زیر صادق است:

S = S x + S z + S v

مجموع مجذور انحرافات ناشی از تأثیر عوامل مربوطه.

اگر عوامل با هم مرتبط باشند، این برابری نقض می شود.

گنجاندن عوامل چند خطی در مدل به دلیل موارد زیر نامطلوب است:

تفسیر پارامترهای رگرسیون چندگانه به عنوان ویژگی‌های عملکرد عوامل به شکل «خالص» دشوار است، زیرا عوامل همبستگی دارند. پارامترهای رگرسیون خطی معنای اقتصادی خود را از دست می دهند.

· تخمین پارامترها غیرقابل اعتماد هستند، آنها خطاهای استاندارد بزرگ را تشخیص می دهند و با تغییر در حجم مشاهدات (نه تنها در اندازه، بلکه در علامت) تغییر می کنند، که باعث می شود مدل برای تجزیه و تحلیل و پیش بینی نامناسب باشد.

برای ارزیابی عوامل چند خطی، از تعیین کننده ماتریس ضرایب همبستگی زوجی بین عوامل استفاده خواهیم کرد. اگر فاکتورها با یکدیگر همبستگی نداشتند، ماتریس ضرایب زوجی تک خواهد بود.

y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + e

اگر یک رابطه خطی کامل بین عوامل وجود داشته باشد، آنگاه:

هر چه تعیین کننده به 0 نزدیکتر باشد، همخطی عوامل قوی تر و نتایج غیرقابل اعتماد رگرسیون چندگانه است. هر چه به 1 نزدیکتر باشد، چند خطی بودن عوامل کمتر است.

ارزیابی اهمیت چند خطی بودن عوامل را می توان با آزمون فرضیه 0 استقلال متغیرهای H 0 انجام داد:

ثابت شده است که ارزش
دارای توزیع تقریبی با درجه آزادی. اگر مقدار واقعی از جدول بیشتر شود (بحرانی) سپس فرضیه H 0 رد می شود. معنیش اینه که ضرایب خارج از مورب نشان دهنده هم خطی بودن عوامل است. چند خطی بودن اثبات شده در نظر گرفته می شود.

از طریق ضرایب تعیین چندگانهمی توان متغیرهای مسئول چند خطی بودن عوامل را یافت. برای این کار هر یک از عوامل به عنوان متغیر وابسته در نظر گرفته می شود. هرچه مقدار R2 به 1 نزدیکتر باشد، چند خطی بودن بیشتر است. مقایسه ضرایب تعیین چندگانه و غیره.

می توان متغیرهای مسئول چند خطی را جدا کرد، بنابراین، برای حل مشکل انتخاب عوامل، عوامل با حداقل مقدار ضریب تعیین چندگانه در معادلات باقی می ماند.

تعدادی رویکرد برای غلبه بر همبستگی بین عاملی قوی وجود دارد. ساده ترین راه برای حذف MC حذف یک یا چند عامل از مدل است.

رویکرد دیگر با تغییر عوامل مرتبط است که همبستگی بین آنها را کاهش می دهد.

اگر y \u003d f (x 1، x 2، x 3)، می توان معادله ترکیبی زیر را ساخت:

y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 12 x 1 x 2 + b 13 x 1 x 3 + b 23 x 2 x 3 + e.

این معادله شامل یک برهمکنش مرتبه اول (تقابل دو عامل) است.

اگر اهمیت آماری آنها طبق معیار F ثابت شود، می توان برهمکنش های مرتبه بالاتر را در معادله گنجاند.

b 123 x 1 x 2 x 3 – تعامل مرتبه دوم.

اگر تجزیه و تحلیل معادله ترکیبی معنی‌دار بودن تنها اثر متقابل عوامل x 1 و x 3 را نشان داد، معادله به شکل زیر خواهد بود:

y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 13 x 1 x 3 + e.

اثر متقابل عوامل x 1 و x 3 به این معنی است که در سطوح مختلف عامل x 3 تأثیر عامل x 1 بر y متفاوت خواهد بود، به عنوان مثال. بستگی به مقدار ضریب x 3 دارد. روی انجیر 3.1 تعامل عوامل با خطوط ارتباطی غیر موازی با نتیجه y نشان داده می شود. برعکس، خطوط موازی تأثیر عامل x 1 بر y در سطوح مختلف عامل x 3 به این معنی است که هیچ تعاملی بین عوامل x 1 و x 3 وجود ندارد.

(x 3 \u003d B 2)
(x 3 \u003d B 1)
(x 3 \u003d B 1)
(x 3 \u003d B 2)
در
در
1
x 1
آ
ب
در
در
X 1
X 1

شکل 3.1. تصویر گرافیکی از تعامل عوامل.

آ- x 1 بر y تأثیر می گذارد و این تأثیر برای x 3 \u003d B 1 و برای x 3 \u003d B 2 (همان شیب خطوط رگرسیون) یکسان است، به این معنی که هیچ تعاملی بین عوامل x 1 وجود ندارد. و x 3;

ب- با رشد x 1، علامت موثر y در x 3 \u003d B 1 افزایش می یابد، با رشد x 1، علامت موثر y در x 3 \u003d B 2 کاهش می یابد. بین x 1 و x 3 یک تعامل وجود دارد.

معادلات رگرسیون ترکیبی، به عنوان مثال، هنگام مطالعه اثر انواع مختلف کودها (ترکیب نیتروژن و فسفر) بر عملکرد ساخته می شوند.

راه حل مشکل حذف چند خطی عوامل نیز می تواند با انتقال به حذف شکل کاهش یافته کمک کند. برای این منظور عامل در نظر گرفته شده از طریق بیان آن از معادله دیگر به معادله رگرسیون جایگزین می شود.

به عنوان مثال، یک رگرسیون دو عاملی از فرم را در نظر بگیرید a + b 1 x 1 + b 2 x 2 که x 1 و x 2 همبستگی بالایی را نشان می دهند. اگر یکی از عوامل را حذف کنیم، به معادله رگرسیون زوجی می رسیم. با این حال، می توانید عوامل را در مدل رها کنید، اما این معادله رگرسیون دو عاملی را در رابطه با معادله دیگری بررسی کنید که در آن یک عامل (مثلا x 2) به عنوان متغیر وابسته در نظر گرفته می شود. فرض کنید ما این را می دانیم . با حل این معادله به جای x 2 به معادله مورد نظر، به دست می آید:

اگر یک ، سپس هر دو طرف تساوی را بر تقسیم کنید ، معادله ای به شکل زیر بدست می آوریم:

,

که شکل کاهش یافته معادله برای تعیین صفت حاصل y است. این معادله را می توان به صورت زیر نشان داد:

LSM را می توان برای تخمین پارامترها به آن اعمال کرد.

انتخاب عوامل موجود در رگرسیون یکی از مهمترین مراحل در استفاده عملی از روش های رگرسیون است. رویکردهای انتخاب عوامل بر اساس شاخص های همبستگی می تواند متفاوت باشد. آنها ساخت معادله رگرسیون چندگانه را با توجه به روش‌های مختلف هدایت می‌کنند. بسته به اینکه کدام روش برای ساخت معادله رگرسیون اتخاذ می شود، الگوریتم حل آن در رایانه تغییر می کند.

پرکاربردترین آنها موارد زیر است روش های ساخت معادله رگرسیون چندگانه:

روش حذف

روش گنجاندن؛

تحلیل رگرسیون گام به گام

هر یک از این روش ها مشکل انتخاب عوامل را به روش خود حل می کند و نتایج به طور کلی مشابه را ارائه می دهد - غربالگری عوامل از انتخاب کامل آن (روش حذف)، معرفی اضافی یک عامل (روش ورود)، حذف یک عامل قبلاً معرفی شده (مرحله). تجزیه و تحلیل رگرسیون).

در نگاه اول ممکن است به نظر برسد که ماتریس ضرایب همبستگی زوجی نقش عمده ای در انتخاب عوامل دارد. در عین حال، به دلیل تأثیر متقابل عوامل، ضرایب همبستگی زوجی نمی توانند موضوع مصلحت گنجاندن یک یا آن عامل در مدل را به طور کامل حل کنند. این نقش توسط شاخص های همبستگی جزئی انجام می شود که در شکل خالص خود نزدیکی رابطه بین عامل و نتیجه را ارزیابی می کند. ماتریس ضریب همبستگی جزئی پرکاربردترین روش حذف فاکتور است. هنگام انتخاب عوامل، توصیه می شود از قانون زیر استفاده کنید: تعداد عوامل شامل معمولاً 6-7 برابر کمتر از حجم جمعیتی است که رگرسیون بر روی آن ساخته شده است. اگر این نسبت نقض شود، تعداد درجات آزادی تغییرات باقیمانده بسیار کم است. این منجر به این واقعیت می شود که پارامترهای معادله رگرسیون از نظر آماری ناچیز است و آزمون F کمتر از مقدار جدولی است.

مدل رگرسیون چندگانه خطی کلاسیک (CLMMR):

جایی که y مقدار پسرفت است. xi واپسگرا هستند. u یک جزء تصادفی است.

مدل رگرسیون چندگانه تعمیم مدل رگرسیون زوجی برای حالت چند متغیره است.

متغیرهای مستقل (x) متغیرهای غیر تصادفی (قطعی) فرض می شوند.

متغیر x 1 \u003d x i 1 \u003d 1 متغیر کمکی برای عبارت آزاد نامیده می شود و در معادلات به آن پارامتر شیفت نیز می گویند.

"y" و "u" در (2) تحقق یک متغیر تصادفی هستند.

پارامتر شیفت نیز نامیده می شود.

برای ارزیابی آماری پارامترهای مدل رگرسیون، مجموعه (مجموعه) داده های مشاهده ای از متغیرهای مستقل و وابسته مورد نیاز است. داده ها را می توان به صورت داده های مکانی یا سری های زمانی مشاهدات ارائه کرد. برای هر یک از این مشاهدات، با توجه به مدل خطی، می توانیم بنویسیم:

نماد برداری ماتریسی سیستم (3).

اجازه دهید نماد زیر را معرفی کنیم:

بردار ستونی متغیر مستقل (رگرسیون)

بعد ماتریس (n 1)

ماتریس مشاهدات متغیرهای مستقل (رگرسیور):

اندازه (n×k)

بردار ستون پارامتر:

- نماد ماتریسی سیستم معادلات (3). ساده تر و فشرده تر است.

اجازه دهید پیش نیازهایی را تشکیل دهیم که هنگام استخراج معادله برای تخمین پارامترهای مدل، مطالعه خواص آنها و آزمایش کیفیت مدل لازم است. این پیش نیازها، پیش نیازهای مدل رگرسیون خطی زوجی کلاسیک (شرایط گاوس-مارکوف) را تعمیم و تکمیل می کنند.

پیش نیاز 1.متغیرهای مستقل تصادفی نیستند و بدون خطا اندازه گیری می شوند. این بدان معنی است که ماتریس مشاهده X قطعی است.

فرض 2. (اولین شرط گاوس مارکوف):انتظار ریاضی مولفه تصادفی در هر مشاهده صفر است.

فرض 3. (شرط دوم گاوس مارکوف):پراکندگی نظری مولفه تصادفی برای همه مشاهدات یکسان است.

(این همجنسگرایی است)

فرض 4. (شرط سوم گاوس مارکوف):اجزای تصادفی مدل برای مشاهدات مختلف همبستگی ندارند. این بدان معنی است که کوواریانس نظری

پیش نیازهای (3) و (4) به راحتی با استفاده از نماد برداری نوشته می شوند:

ماتریس - ماتریس متقارن. - ماتریس هویت بعد n، رونوشت Т - جابجایی.

ماتریس ماتریس کوواریانس نظری (یا ماتریس کوواریانس) نامیده می شود.

فرض 5. (شرط چهارم گاوس مارکوف):مؤلفه تصادفی و متغیرهای توضیحی همبستگی ندارند (برای یک مدل رگرسیون نرمال، این شرط نیز به معنای استقلال است). با فرض تصادفی نبودن متغیرهای توضیحی، این فرض همیشه در مدل رگرسیون کلاسیک برآورده می شود.

فرض 6. ضرایب رگرسیون مقادیر ثابتی هستند.

فرض 7. معادله رگرسیون قابل شناسایی است. این بدان معناست که پارامترهای معادله اصولاً قابل تخمین هستند یا حل مسئله تخمین پارامتر وجود دارد و منحصر به فرد است.

فرض 8. رگرسیورها خطی نیستند. در این مورد، ماتریس مشاهده رگرسیون باید از رتبه کامل باشد. (ستون های آن باید به صورت خطی مستقل باشند). این فرض ارتباط نزدیکی با فرضیه قبلی دارد، زیرا، هنگامی که برای تخمین ضرایب LSM استفاده می شود، تحقق آن قابلیت شناسایی مدل را تضمین می کند (اگر تعداد مشاهدات بیشتر از تعداد پارامترهای برآورد شده باشد).

پیش نیاز 9.تعداد مشاهدات بیشتر از تعداد پارامترهای تخمینی است، یعنی. n>k.

همه این پیش نیازهای 1-9 به یک اندازه مهم هستند و تنها در صورت تحقق آنها می توان مدل رگرسیون کلاسیک را در عمل اعمال کرد.

فرض نرمال بودن مولفه تصادفی. هنگام ساخت فاصله اطمینانبرای ضرایب مدل و پیش بینی متغیرهای وابسته، بررسی می شود فرضیه های آماریدر مورد ضرایب، توسعه رویه هایی برای تجزیه و تحلیل کفایت (کیفیت) مدل به عنوان یک کل مستلزم یک فرضیه در مورد توزیع نرمالجزء تصادفی با توجه به این فرض، مدل (1) مدل رگرسیون خطی چند متغیره کلاسیک نامیده می شود.

اگر پیش نیازها برآورده نشد، لازم است مدل های به اصطلاح رگرسیون خطی تعمیم یافته ساخته شوند. در مورد چگونگی استفاده صحیح (درست) و آگاهانه از فرصت ها تجزیه و تحلیل رگرسیونبه موفقیت مدلسازی اقتصادسنجی و در نهایت اعتبار تصمیمات اتخاذ شده بستگی دارد.

برای ساخت یک معادله رگرسیون چندگانه، اغلب از توابع زیر استفاده می شود

1. خطی: .

2. قدرت: .

3. نمایی: .

4-هذلولی:

با توجه به تفسیر واضح پارامترها، بیشترین استفاده از توابع خطی و توانی است. در رگرسیون چندگانه خطی، پارامترهای X را ضرایب رگرسیون «خالص» می نامند. آنها میانگین تغییر در نتیجه را با یک تغییر در عامل مربوطه مشخص می کنند، در حالی که ارزش سایر عوامل ثابت در سطح متوسط ​​بدون تغییر باقی می ماند.

مثال. فرض کنید وابستگی مخارج غذا به جمعیتی از خانواده ها با معادله زیر مشخص می شود:

جایی که y مخارج ماهانه خانواده برای غذا، هزار روبل است.

x 1 - درآمد ماهانه برای هر عضو خانواده، هزار روبل؛

x 2 - اندازه خانواده، افراد.

تجزیه و تحلیل این معادله به ما امکان می دهد نتیجه گیری کنیم - با افزایش درآمد هر عضو خانواده 1000 روبل. هزینه های غذا به طور متوسط ​​350 روبل افزایش می یابد. با همان اندازه خانواده به عبارت دیگر 35 درصد از هزینه های اضافی خانواده صرف غذا می شود. افزایش اندازه خانواده با همان درآمد به معنای افزایش اضافی در هزینه های غذا به میزان 730 روبل است. پارامتر a - تفسیر اقتصادی ندارد.

هنگام مطالعه مسائل مصرف، ضرایب رگرسیون به عنوان ویژگی های تمایل نهایی به مصرف در نظر گرفته می شود. برای مثال، اگر تابع مصرف С t به شکل زیر باشد:

C t \u003d a + b 0 R t + b 1 R t -1 + e،

سپس مصرف در دوره زمانی t به درآمد همان دوره Rt و به درآمد دوره قبلی R t -1 بستگی دارد. بر این اساس، ضریب b 0 را معمولاً تمایل حاشیه ای کوتاه مدت به مصرف می نامند. اثر کلی افزایش در درآمد جاری و قبلی، افزایش مصرف به میزان b=b 0 + b 1 خواهد بود. ضریب b در اینجا به عنوان یک تمایل طولانی مدت به مصرف در نظر گرفته می شود. از آنجایی که ضرایب b 0 و b 1 > 0، تمایل طولانی مدت به مصرف باید از کوتاه مدت b 0 بیشتر شود. به عنوان مثال، برای دوره 1905 - 1951. (به استثنای سال های جنگ) ام. فریدمن تابع مصرف زیر را برای ایالات متحده ایجاد کرد: С t = 53+0.58 Rt + 0.32 Rt -1 با تمایل حاشیه ای کوتاه مدت به مصرف 0.58 و بلندمدت تمایل به مصرف 0,9.

تابع مصرف را نیز می توان بسته به عادات مصرف گذشته در نظر گرفت. از سطح مصرف قبلی

C t-1: C t \u003d a + b 0 R t + b 1 C t-1 + e،

در این معادله، پارامتر b 0 نیز تمایل حاشیه ای کوتاه مدت به مصرف را مشخص می کند. تأثیر یک افزایش واحد درآمد در همان دوره R t بر مصرف. گرایش حاشیه ای طولانی مدت به مصرف در اینجا با عبارت b 0 /(1-b1) اندازه گیری می شود.

بنابراین، اگر معادله رگرسیون بود:

C t \u003d 23.4 + 0.46 R t + 0.20 C t -1 + e،

سپس گرایش کوتاه مدت به مصرف 0.46 و تمایل بلند مدت 0.575 (0.46/0.8) است.

AT تابع توان
ضرایب b j ضرایب کشش هستند. آنها نشان می دهند که با تغییر 1 درصد در عامل مربوطه، نتیجه به طور متوسط ​​چند درصد تغییر می کند در حالی که عملکرد سایر عوامل بدون تغییر باقی می ماند. این نوع معادله رگرسیون بیشترین کاربرد را در توابع تولید، در مطالعات تقاضا و مصرف دارد.

فرض کنید در بررسی تقاضای گوشت معادله زیر به دست می آید:

که در آن y مقدار گوشت درخواستی است. x 1 - قیمت آن؛ x 2 - درآمد.

بنابراین افزایش 1 درصدی قیمت برای همین درآمد باعث کاهش تقاضای گوشت به طور متوسط ​​2.63 درصد می شود. افزایش 1 درصدی درآمد باعث افزایش تقاضا در قیمت های ثابت به میزان 11/1 درصد می شود.

در توابع تولید به شکل:

که در آن P مقدار محصول تولید شده با m است عوامل تولید(F 1 , F 2 , ……F m).

b پارامتری است که کشش کمیت تولید با توجه به کمیت عوامل تولید مربوطه است.

حس اقتصادینه تنها ضرایب b هر عامل، بلکه مجموع آنها، یعنی. مجموع کشش ها: B \u003d b 1 + b 2 + ... ... + b m. این مقدار مشخصه تعمیم یافته کشش تولید را ثابت می کند. تابع تولیدفرم را دارد

جایی که P - خروجی؛ F 1 - هزینه اصلی دارایی های تولیدی; F 2 - انسان روز کار. F 3 - هزینه های تولید.

کشش خروجی برای عوامل جداگانه تولید به طور متوسط ​​0.3٪ با افزایش F 1 به میزان 1٪ است و سطح سایر عوامل بدون تغییر باقی می ماند. 0.2% - با افزایش F 2 به میزان 1% همچنین با همان سایر عوامل تولید و 0.5% با افزایش F 3 به میزان 1% با سطح ثابت عوامل F 1 و F 2. برای این معادله B \u003d b 1 +b 2 +b 3 \u003d 1. بنابراین، به طور کلی، با رشد هر عامل تولید 1٪، ضریب کشش خروجی 1٪ است، یعنی. تولید 1 درصد افزایش می یابد که در اقتصاد خرد با بازده ثابت مقیاس مطابقت دارد.

در محاسبات عملی، همیشه اینطور نیست . می‌تواند بزرگ‌تر یا کمتر از 1 باشد. در این حالت، مقدار B تخمین تقریبی کشش خروجی را با افزایش 1% در هر عامل تولید در شرایط افزایش (B> 1) یا کاهش (B) ثابت می‌کند.<1) отдачи на масштаб.

بنابراین اگر
، سپس با افزایش 1% در مقادیر هر عامل تولید ، تولید به طور کلی تقریباً 1.2% افزایش می یابد.

هنگام تخمین پارامترهای مدل با استفاده از LSM، مجموع مربعات خطاها (باقیمانده ها) به عنوان معیار (معیار) میزان برازش مدل رگرسیون تجربی به نمونه مشاهده شده عمل می کند.

جایی که e = (e1,e2,…..e n) T ;

برای معادله، برابری اعمال شد: .

تابع اسکالر؛

سیستم معادلات عادی (1) شامل k معادلات خطی در k مجهولات i = 1،2،3……k

= (2)

با ضرب (2) شکل بسط یافته ای از سیستم های نوشتاری معادلات عادی به دست می آوریم

تخمین شانس

ضرایب رگرسیون استاندارد، تفسیر آنها. ضرایب همبستگی جفتی و جزئی. ضریب همبستگی چندگانه. ضریب همبستگی چندگانه و ضریب تعیین چندگانه. ارزیابی پایایی شاخص های همبستگی.

پارامترهای معادله رگرسیون چندگانه، مانند رگرسیون زوجی، با روش حداقل مربعات (LSM) برآورد می‌شوند. هنگامی که اعمال می شود، سیستمی از معادلات عادی ساخته می شود که حل آن تخمین پارامترهای رگرسیون را ممکن می سازد.

بنابراین، برای معادله، سیستم معادلات نرمال به صورت زیر خواهد بود:

حل آن را می توان با روش تعیین کننده ها انجام داد:

, ,…, ,

جایی که D تعیین کننده اصلی سیستم است.

Da، Db 1، …، Db p تعیین کننده جزئی هستند.

و Dа, Db 1 , …, Db p با جایگزینی ستون مربوطه از ماتریس تعیین کننده سیستم با داده های سمت چپ سیستم به دست می آیند.

رویکرد دیگری نیز در تعیین پارامترهای رگرسیون چندگانه ممکن است، زمانی که بر اساس ماتریس ضرایب همبستگی زوجی، معادله رگرسیون در مقیاس استاندارد ساخته شود:

جایی که - متغیرهای استاندارد شده ، که مقدار میانگین آن صفر است و انحراف معیار برابر با یک است: ;

ضرایب رگرسیون استاندارد.

با اعمال LSM به معادله رگرسیون چندگانه در مقیاس استاندارد، پس از تبدیل مناسب، سیستمی با فرم نرمال بدست می آوریم.

با حل آن با روش تعیین کننده ها، پارامترها - ضرایب رگرسیون استاندارد شده (ضرایب b) را پیدا می کنیم.

ضرایب رگرسیون استاندارد نشان می دهد که اگر ضریب x i یک سیگما تغییر کند، نتیجه به طور میانگین چند سیگما تغییر می کند، در حالی که سطح متوسط ​​سایر عوامل بدون تغییر باقی می ماند. با توجه به اینکه همه متغیرها به صورت متمرکز و نرمال شده تنظیم می شوند، ضرایب رگرسیون استاندارد شده b I قابل مقایسه با یکدیگر هستند. با مقایسه آنها با یکدیگر، می توان عوامل را با توجه به قدرت تأثیر آنها رتبه بندی کرد. این مزیت اصلی ضرایب رگرسیون استاندارد شده است، در مقابل ضرایب رگرسیون "خالص" که با یکدیگر قابل مقایسه نیستند.

مثال.اجازه دهید تابع هزینه های تولید y (هزار روبل) با یک معادله شکل مشخص شود

جایی که x 1 - دارایی های اصلی تولید؛

x 2 - تعداد افراد شاغل در تولید.

با تجزیه و تحلیل آن، می بینیم که با همان اشتغال، هزینه دارایی های تولید ثابت 1 هزار روبل افزایش می یابد. مستلزم افزایش هزینه ها به طور متوسط ​​1.2 هزار روبل است و افزایش تعداد کارمندان به ازای هر نفر با همان تجهیزات فنی شرکت ها به افزایش هزینه ها به طور متوسط ​​1.1 هزار روبل کمک می کند. با این حال، این بدان معنا نیست که عامل x 1 در مقایسه با عامل x 2 تأثیر قوی تری بر هزینه های تولید دارد. چنین مقایسه ای در صورتی امکان پذیر است که به معادله رگرسیون در مقیاس استاندارد مراجعه کنیم. بیایید فرض کنیم که شبیه به این است:

این بدان معنی است که با افزایش ضریب x 1 در هر سیگما، با تغییر تعداد کارکنان، هزینه تولید به طور متوسط ​​0.5 سیگما افزایش می یابد. از آنجایی که b 1< b 2 (0,5 < 0,8), то можно заключить, что большее влияние оказывает на производство продукции фактор х 2 , а не х 1 , как кажется из уравнения регрессии в натуральном масштабе.

در یک رابطه زوجی، ضریب رگرسیون استاندارد شده چیزی نیست جز ضریب همبستگی خطی r xy. همانطور که در وابستگی زوجی، ضریب رگرسیون و همبستگی به هم پیوسته هستند، در رگرسیون چندگانه، ضرایب رگرسیون "خالص" b i با ضرایب رگرسیون استاندارد شده b i مرتبط است، یعنی:

(3.1)

این اجازه می دهد تا از معادله رگرسیون در مقیاس استاندارد

(3.2)

انتقال به معادله رگرسیون در مقیاس طبیعی متغیرها.

1. تعاریف و فرمول های اساسی

رگرسیون چندگانه- رگرسیون بین متغیرها و آن ها مشاهده مدل:

متغیر وابسته کجاست (علامت حاصل)؛

- متغیرهای توضیحی مستقل؛

اغتشاش یا متغیر تصادفی، از جمله تأثیر عواملی که در مدل در نظر گرفته نشده اند.

تعداد پارامترها برای متغیرها

هدف اصلی رگرسیون چندگانه- ساخت یک مدل با تعداد زیادی از عوامل، در حالی که تعیین تاثیر هر یک از آنها به صورت جداگانه، و همچنین تاثیر تجمعی آنها بر شاخص مدل سازی شده است.

معادله رگرسیون خطی چندگانهدر مورد متغیرهای مستقل شکل و در مورد دو متغیر مستقل - (معادله دو عاملی).

برای تخمین پارامترهای معادله رگرسیون چندگانه، اعمال شود روش حداقل مربع. سیستمی از معادلات عادی ساخته می شود:

حل این سیستم امکان به دست آوردن تخمین پارامترهای رگرسیون را با استفاده از روش تعیین کننده ها فراهم می کند.

جایی که - شناسه سیستم؛

- تعیین کننده های خصوصی که با جایگزینی ستون مربوطه از ماتریس تعیین کننده سیستم با داده های سمت راست سیستم به دست می آیند.

برای یک معادله دو عاملی ضرایب رگرسیون خطی چندگانهبا استفاده از فرمول ها قابل محاسبه است:

معادلات رگرسیون جزئیتأثیر جداگانه یک عامل بر نتیجه را مشخص کنید، زیرا سایر عوامل در سطح بدون تغییر ثابت هستند. اثرات تأثیر عوامل دیگر به عبارت آزاد معادله رگرسیون چندگانه متصل است. این اجازه می دهد تا بر اساس معادلات رگرسیون جزئی تعیین کنید ضرایب کشسانی جزئی:

میانگین ضرایب کششنشان دهید که با تغییر ضریب مربوطه به میزان 1 درصد، نتیجه به طور میانگین چند درصد تغییر می کند:

می توان آنها را با یکدیگر مقایسه کرد و بر این اساس، عوامل را با توجه به قدرت تأثیر آنها در نتیجه رتبه بندی کرد.

تنگی تأثیر مشترک عوامل بر نتیجه توسط تخمین زده می شود ضریبوent (شاخص) همبستگی چندگانه:

مقدار شاخص همبستگی چندگانه از 0 تا 1 متغیر است و باید بزرگتر یا مساوی با حداکثر شاخص همبستگی جفت باشد:

هر چه مقدار شاخص همبستگی چندگانه به 1 نزدیکتر باشد، رابطه ویژگی حاصل با کل مجموعه عوامل مورد مطالعه نزدیکتر است.

با مقایسه شاخص های همبستگی چندگانه و زوجی، می توان نتیجه گرفت که مصلحت است (مقدار شاخص همبستگی چندگانه به طور قابل توجهی با شاخص همبستگی جفتی متفاوت است) گنجاندن یک یا آن عامل در معادله رگرسیون.

با یک رابطه خطی، کل چند عاملیآرروابطاز طریق ماتریس ضرایب همبستگی زوجی تعیین می شود:

جایی که - تعیین کننده ماتریس ضرایب همبستگی زوجی.

- تعیین کننده ماتریس همبستگی بین عاملی.

خصوصیهضریبسهمبستگی هاتنگی رابطه خطی بین نتیجه و عامل مربوطه را هنگامی که تأثیر عوامل دیگر حذف می شود مشخص کنید. اگر مثلاً محاسبه شود (ضریب همبستگی جزئی بین و با تأثیر ثابت) به این معنی است که یک معیار کمی از رابطه خطی بین و تعیین می شود که در صورت حذف تأثیر بر این ویژگی های عامل انجام می شود.

ضرایب همبستگی جزئی که تأثیر روی یک عامل را با سطح ثابتی از عوامل دیگر اندازه گیری می کنند، می توانند به صورت زیر تعریف شوند:

یا با فرمول بازگشتی:

برای یک معادله دو عاملی:

یا

ضرایب همبستگی جزئی از 1- تا 1+ متغیر است.

مقایسه مقادیر ضرایب همبستگی جفت و جزئیجهت تأثیر عامل ثابت را نشان می دهد. اگر ضریب همبستگی جزئی کمتر از ضریب زوج مربوطه باشد، رابطه ویژگی ها و تا حدودی ناشی از تأثیر متغیر ثابت بر آنهاست.برعکس، مقدار بزرگتر ضریب خصوصی در مقایسه با ضریب جفت نشان می دهد که متغیر ثابت اتصال را ضعیف می کند و

ترتیب ضریب همبستگی جزئی با تعداد عواملی که تأثیر آنها حذف شده است تعیین می شود. به عنوان مثال، - ضریب همبستگی جزئی از مرتبه اول.

با دانستن ضرایب همبستگی جزئی (به ترتیب مرتبه اول، دوم و بالاتر)، می‌توانیم تعیین کنیم. نسبت تجمعیplدر بارهزنانههمبستگی ها:

کیفیت کلی مدل ساخته شده توسط ارزیابی می شود ضریب (شاخص) تعیین چندگانه، که به عنوان مربع شاخص همبستگی چندگانه محاسبه می شود: شاخص تعیین چندگانه نسبت تغییرات توضیح داده شده صفت حاصل را به دلیل عوامل در نظر گرفته شده در رگرسیون ثابت می کند. تأثیر سایر عواملی که در مدل در نظر گرفته نشده اند به صورت تخمین زده می شود

اگر تعداد پارامترهای در نزدیک به حجم مشاهدات باشد، ضریب همبستگی چندگانه به وحدت نزدیک می‌شود، حتی اگر عوامل ضعیف با نتیجه مرتبط باشند. به منظور جلوگیری از اغراق احتمالی نزدیکی اتصال از آن استفاده می شود شاخص همبستگی چندگانه تنظیم شده، که شامل تصحیح برای تعداد درجات آزادی است:

هر چه مقدار بزرگتر باشد، تفاوت ها قوی تر است و

اهمیت ضرایب همبستگی جزئیبه طور مشابه در مورد ضرایب همبستگی زوجی تأیید می شود. تنها تفاوت در تعداد درجات آزادی است که باید برابر با 2-- باشد.

اهمیت معادله رگرسیون چندگانه به طور کلیو همچنین در رگرسیون زوجی، با استفاده از تخمین زده می شود - معیار فیشر:

معیار برای ارزیابی گنجاندن یک عامل در مدل است خصوصی-معیار. به طور کلی، برای یک عامل، معیار جزئی به این صورت تعریف می شود

برای یک معادله دو عاملی، معیارهای جزئی به شکل زیر هستند:

اگر مقدار واقعی از مقدار جدول بیشتر شود، اضافه شدن عامل در مدل از نظر آماری توجیه می شود و ضریب رگرسیون خالص برای عامل از نظر آماری معنی دار است. اگر مقدار واقعی کمتر از مقدار جدول باشد، گنجاندن عامل در مدل توصیه نمی شود و ضریب رگرسیون برای این عامل در این مورد از نظر آماری ناچیز است.

برای نرخ اهمیت ضرایب رگرسیون خالصبا توجه به معیار Student از فرمول استفاده می شود:

ضریب رگرسیون خالص با عامل کجاست

- میانگین مربعات (استاندارد) خطای ضریب رگرسیونکه با فرمول قابل تعیین است:

با افزودن یک عامل جدید در رگرسیون، ضریب تعیین باید افزایش یابد و واریانس باقیمانده باید کاهش یابد. اگر اینطور نباشد، فاکتور جدیدی که در تحلیل گنجانده شده است، مدل را بهبود نمی بخشد و عملا یک عامل اضافی است. اشباع مدل با عوامل غیرضروری نه تنها ارزش واریانس باقیمانده را کاهش نمی‌دهد و شاخص تعیین را افزایش نمی‌دهد، بلکه منجر به بی‌اهمیت آماری پارامترهای رگرسیون بر اساس آزمون t Student می‌شود.

هنگام ساخت یک معادله رگرسیون چندگانه، ممکن است مشکلی ایجاد شود چند خطی بودنعوامل. فرض بر این است که دو متغیر به وضوح هم خط هستند، یعنی. در یک رابطه خطی با یکدیگر قرار دارند، اگر عوامل به وضوح همخط باشند، آن‌ها همدیگر را کپی می‌کنند و توصیه می‌شود یکی از آن‌ها از رگرسیون خارج شود. در این مورد، نه به عاملی که ارتباط نزدیک تری با نتیجه دارد، بلکه به عاملی که با ارتباط به اندازه کافی نزدیک با نتیجه، کمترین ارتباط تنگاتنگ را با عوامل دیگر داشته باشد، ترجیح داده می شود.

برای ارزیابی چند خطی بودن عوامل می توان از تعریف شده استهماتریس کاستور بین عوامل. هر چه تعیین کننده ماتریس همبستگی بین عاملی به صفر نزدیکتر باشد، چند خطی بودن عوامل قوی تر و نتایج رگرسیون چندگانه غیرقابل اعتمادتر است. و بالعکس، هر چه تعیین کننده به 1 نزدیکتر باشد، چند خطی بودن عوامل کمتر است.

استفاده از حداقل مربعات مستلزم آن است که واریانس باقیمانده ها همسان باشد. این بدان معنی است که برای هر مقدار از عامل، باقیمانده پراکندگی یکسانی دارند. اگر این شرط برای اعمال LSM برآورده نشد، پس داریم دگرگونی. اگر همجنسگرایی نقض شود، نابرابری ها

وجود هتروسکداستیسیته را می توان به وضوح از میدان همبستگی مشاهده کرد (شکل 9.22).

برنج. 9.22 . نمونه هایی از ناهمسانی:

الف) واریانس باقیمانده ها افزایش می یابد

ب) واریانس باقیمانده در مقادیر متوسط ​​متغیر به حداکثر مقدار خود می رسد و در مقادیر حداقل و حداکثر کاهش می یابد.

ج) حداکثر واریانس باقیمانده ها در مقادیر کوچک و واریانس باقیمانده ها با افزایش مقادیر همگن است.

برای آزمایش ناهمگونی نمونه، می‌توانید از روش گلدفلد-کوانت (برای حجم نمونه کوچک) یا آزمون بارتلت (برای حجم نمونه بزرگ) استفاده کنید.

دنباله برنامه تست گلدفلد کوانت:

1) داده ها را به ترتیب نزولی متغیر مستقلی که با توجه به آن مشکوک به ناهمسانی وجود دارد مرتب کنید.

2) مشاهدات مرکزی را از بررسی حذف کنید. که در آن تعداد پارامترهای تخمینی کجاست. از محاسبات تجربی برای مورد معادله رگرسیون یک عاملی، توصیه می شود که به ترتیب 8 = در 30 = و 16 = در 60 = در نظر گرفته شود.

3) مجموعه مشاهدات را به دو گروه (به ترتیب با مقادیر کوچک و بزرگ ضریب) تقسیم کرده و معادله رگرسیون را برای هر یک از گروه ها تعیین کنید.

4) جمع باقیمانده مجذورات گروه اول و دوم را محاسبه کنید و نسبت آنها را بیابید. هنگامی که فرضیه صفر همسویی محقق شود، این رابطه معیار فیشر را با درجات آزادی برآورده می کند. برای هر مجموع مربع باقی مانده هر چه مقدار بیشتر شود، پیش فرض برابری پراکندگی مقادیر باقیمانده بیشتر نقض می شود.

اگر لازم باشد عواملی که دارای دو یا چند سطح کیفی (جنسیت، حرفه، تحصیلات، شرایط اقلیمی، تعلق به یک منطقه خاص و غیره) هستند، در مدل گنجانده شوند، باید آنها را تخصیص داد. برچسب های دیجیتال،آن ها متغیرهای کیفی به متغیرهای کمی تبدیل می شوند. متغیرهایی از این نوع نامیده می شوند ساختگی (و با مصنوعی) متغیرها .

بهضریب رگرسیون متغیر ساختگیبه عنوان میانگین تغییر در متغیر وابسته هنگام انتقال از یک دسته به دسته دیگر، با پارامترهای باقیمانده بدون تغییر تفسیر می شود. اهمیت تأثیر یک متغیر ساختگی با استفاده از آزمون t Student بررسی می شود.

2. حل مشکلات معمولی

مثال9. 2. برای 15 بنگاه صنعتی (جدول 9.4)، وابستگی هزینه خروجی (هزار واحد) به حجم محصولات تولیدی (هزار واحد) و بهای تمام شده مواد اولیه (هزار واحد) در حال بررسی است. لازم:

1) یک معادله رگرسیون خطی چندگانه بسازید.

2) محاسبه و تفسیر:

میانگین ضرایب کشش;

ضرایب همبستگی زوجی، اهمیت آنها را در سطح 05/0 ارزیابی می کند.

ضرایب همبستگی جزئی;

ضریب همبستگی چندگانه، ضریب تعیین چندگانه، ضریب تعیین تعدیل شده.

3) پایایی معادله رگرسیون ساخته شده و امکان گنجاندن عامل بعد از عامل و بعد از آن را ارزیابی کنید.

جدول 9.4

ایکس1

ایکس2

راه حل:

1) در اکسل، یک جدول کمکی را در شکل کامپایل می کنیم. 9.23.

برنج.9.23 . جدول محاسبه رگرسیون چند متغیره

با استفاده از توابع داخلی، ما محاسبه می کنیم: =345.5; =13838.89; =8515.78; =219.315; =9.37; =6558.08.

سپس ضرایب رگرسیون خطی چندگانه را پیدا کرده و خروجی نتایج را مطابق شکل ترسیم می کنیم. 9.24.

برنج.9.24 . حل مشکل درام‌اسبرتری داشتن

برای محاسبه مقدار ضریب از فرمول ها استفاده می کنیم

فرمول های محاسبه پارامترها در سلول ها وارد می شوند E20 ، ای2 1، E2 2. بنابراین برای محاسبه پارامتر ب1 که در E20 فرمول را قرار دهید =(B20*B24-B21*B22)/(B23*B24-B22^2)و 29.83 بگیرید. به طور مشابه، مقادیر \u003d 0.301 و ضریب \u003d -31.25 را به دست می آوریم (شکل 9.25.).

برنج.9.25 . محاسبه پارامترهای معادله رگرسیون چندگانه(باتیفرمول روک برای محاسبهب2) .

معادله رگرسیون خطی چندگانه به شکل زیر خواهد بود:

31,25+29,83+0,301

بدین ترتیب با افزایش 1 هزار دستگاهی حجم محصولات تولیدی. هزینه تولید این محصولات به طور متوسط ​​29.83 هزار تومان افزایش می یابد. واحد، و با افزایش قیمت تمام شده مواد اولیه 1000 den. واحدها هزینه ها به طور متوسط ​​0.301 هزار den افزایش می یابد. واحدها

2) محاسبه کردن میانگین ضرایب کششبیایید از فرمول استفاده کنیم: محاسبه: 0.884 = و 0.184 =. آن ها افزایش تنها در حجم محصولات تولیدی (از مقدار متوسط ​​آن) یا فقط بهای تمام شده مواد خام به میزان 1%، میانگین هزینه تولید را به ترتیب 0.884% یا 0.184% افزایش می دهد. بنابراین، عامل تأثیر بیشتری بر نتیجه نسبت به عامل دارد

برای محاسبه ضرایب همبستگی زوجیبیایید از تابع "CORREL" شکل استفاده کنیم. 9.26.

برنج.9.26 . محاسبه ضرایب همبستگی زوجی

مقادیر ضرایب همبستگی زوجی نشان دهنده رابطه بسیار نزدیک با و رابطه نزدیک با. مدل باید شامل یک یا باشد

دبلیوناچیموستبضرایب همبستگی زوجیتخمین با استفاده از آزمون t استیودنت. 2.1604 = با استفاده از تابع آماری داخلی تعیین می شود استودرسپوبرگرفتن =0.05 و =-2=13.

ارزش واقعی - معیار دانش آموز برای هر کدام ضریب جفتبا فرمول ها تعریف کنید: . نتیجه محاسبه در شکل نشان داده شده است. 9.27.

برنج.9.27 . نتیجه محاسبه ارزش واقعی- شاخصدانشجو

ما =12.278 را دریافت می کنیم. =7.1896; =6.845.

از آنجایی که مقادیر واقعی آمار - از مقادیر جدول بیشتر است، ضرایب همبستگی زوجی به طور تصادفی با صفر متفاوت نیستند، اما از نظر آماری معنی دار هستند.

ما =0.81 دریافت می کنیم. =0.34; =0.21. بنابراین، عامل تأثیر قوی تری بر نتیجه دارد

هنگام مقایسه مقادیر ضرایب جفت و همبستگی جزئی، به این نتیجه می رسیم که به دلیل رابطه بین عاملی قوی، ضرایب همبستگی جفت و جزئی کاملاً قابل توجه است.

ضریب همبستگی چندگانه

در نتیجه، وابستگی به و به عنوان بسیار نزدیک مشخص می شود، که در آن = 93٪ از تغییرات در هزینه خروجی با تغییر عوامل در نظر گرفته شده در مدل تعیین می شود: حجم تولید و هزینه مواد خام. . سایر عواملی که در مدل لحاظ نشده اند به ترتیب 7 درصد از کل تغییرات را تشکیل می دهند.

ضریب تعیین چندگانه تعدیل شده 0.9182 = رابطه نزدیک بین نتیجه و ویژگی ها را نشان می دهد.

برنج.9.28 . نتایج حاصل از محاسبه ضرایب همبستگی جزئی و ضرایبونقطه همبستگی چندگانه

3) برآورد قابلیت اطمینان کلی معادله رگرسیونبا استفاده از معیار فیشر. محاسبه کنید . 3.8853 = با گرفتن = 0.05، =2، =15-2-1=12 با استفاده از تابع آماری داخلی تعیین می شود. F توزیعبا همین تنظیمات

از آنجایی که مقدار واقعی بزرگتر از مقدار جدولی است، پس با احتمال 95 درصد نتیجه می گیریم که اهمیت آماریمعادلات رگرسیون خطی چندگانه به طور کلی.

اجازه دهید مصلحت گنجاندن عامل بعد از فاکتور و پس از استفاده از معیار فیشر خاص را طبق فرمول ها ارزیابی کنیم.

; .

برای انجام این کار، در سلول B32فرمول محاسبه را وارد کنید افایکس1 « =(B28-H24^2)*(15-3)/(1-B28)"، و در سلول ب33 فرمول برای محاسبه افایکس2 « =(B28-H23^2)*(15-3)/(1-B28)” نتیجه محاسبه افایکس1 = 22,4127, افایکس2 = 1.5958. مقدار جدولی معیار فیشر با استفاده از تابع داخلی تعیین می شود F توزیعبا پارامترهای =0.05، =1، =12 " =FDISP(0.05;1 ;12) », نتیجه - = 4.747. از آنجایی که =22.4127>=4.747 و =1.5958<=4,747, то включение фактора в модель статистически оправдано и коэффициент чистой регрессии статистически значим, а дополнительное включение фактора после того, как уже введен фактор нецелесообразно (рис. 9.29).

برنج.9.29 . نتایج محاسبه معیار فیشر

مقدار کم (کمی بیشتر از 1) نشان دهنده بی اهمیت بودن آماری افزایش به دلیل درج یک عامل بعد از عامل در مدل است.عامل اضافی (هزینه مواد اولیه).

3. اطلاعات اضافی برای حل مسائل با استفاده از MS Excel

خلاصه ای از ویژگی های کلیدی برای یک یا چند مجموعه داده را می توان با استفاده از ابزار تجزیه و تحلیل داده ها به دست آورد شرحآآمار بدن. روند کار به صورت زیر است:

1. باید دسترسی به را بررسی کنید بسته تحلیلی. برای انجام این کار، تب "داده" را در نوار، در آن بخش "تحلیل" را انتخاب کنید (شکل 9.30.).

برنج.9.30 . برگه دادهکادر محاوره ای تجزیه و تحلیل داده ها

2. در کادر محاوره ای "تجزیه و تحلیل داده ها"، را انتخاب کنید آمار توصیفی و چوب و روی دکمه "OK" کلیک کنید، فیلدهای مورد نیاز را در کادر محاوره ای که ظاهر می شود پر کنید (شکل 9.31):

برنج. 9.31 . کادر گفتگو برای وارد کردن پارامترهای ابزار
« آمار توصیفی »

فاصله ورودی- محدوده حاوی داده های ویژگی های موثر و توضیحی؛

گروه بندی- نحوه چیدمان داده ها (در ستون یا ردیف) را نشان دهید.

برچسب ها- پرچمی که نشان می دهد خط اول شامل نام ستون ها است یا خیر.

فاصله خروجی- کافی است سلول سمت چپ بالای محدوده آینده را نشان دهید.

کاربرگ جدید- می توانید یک نام دلخواه برای برگه جدیدی که نتایج در آن نمایش داده می شود تعیین کنید.

برای اطلاعات آمار نهایی، سطح نادواخبار،بزرگترین و کوچکترین مقادیرشما باید چک باکس های مناسب را در کادر محاوره ای انتخاب کنید.

ما آمار زیر را دریافت می کنیم (شکل 2.10).

1. مقدمه…………………………………………………………………………………………………………………………………….

1.1. مدل خطی رگرسیون چندگانه……………………….5

1.2. روش حداقل مربعات کلاسیک برای مدل رگرسیون چندگانه……………………………………………………..6

2. مدل خطی تعمیم یافته رگرسیون چندگانه…………………8

3. فهرست ادبیات استفاده شده………………………………………….10

مقدمه

سری زمانی مجموعه ای از مقادیر یک شاخص برای چند لحظه (دوره) زمانی متوالی است. هر سطح از سری های زمانی تحت تأثیر تعداد زیادی از عوامل تشکیل می شود که به طور مشروط می توان آنها را به سه گروه تقسیم کرد:

عواملی که روند سریال را شکل می دهند;

عواملی که نوسانات چرخه ای سری را تشکیل می دهند.

عوامل تصادفی

با ترکیب های مختلف این عوامل، وابستگی سطوح راد به زمان می تواند اشکال مختلفی داشته باشد.

بیشتر سری‌های زمانی شاخص‌های اقتصادی روندی دارند که تأثیر تجمعی بلندمدت بسیاری از عوامل بر پویایی شاخص مورد مطالعه را مشخص می‌کند. ظاهراً این عوامل به صورت جداگانه می توانند تأثیر چند جهتی بر شاخص مورد مطالعه داشته باشند. با این حال، آنها با هم روند افزایش یا کاهش آن را تشکیل می دهند.

همچنین، شاخص مورد مطالعه ممکن است در معرض نوسانات دوره ای باشد. این نوسانات ممکن است فصلی باشد، زیرا فعالیت اقتصادی تعدادی از صنایع به زمان سال بستگی دارد (به عنوان مثال، قیمت محصولات کشاورزی در تابستان بیشتر از زمستان است؛ بیکاری در شهرهای تفریحی در زمستان بیشتر از تابستان است). در حضور مقادیر زیاد داده در دوره های زمانی طولانی، می توان نوسانات دوره ای مرتبط با پویایی کلی وضعیت بازار و همچنین با فاز چرخه تجاری که اقتصاد کشور در آن قرار دارد شناسایی کرد.

برخی از سری های زمانی شامل روند و مولفه چرخه ای نیستند و هر یک از سطوح بعدی آنها از مجموع سطح متوسط ​​راد و برخی (مثبت یا منفی) مولفه تصادفی تشکیل می شود.

بدیهی است که داده های واقعی به طور کامل با هیچ یک از مدل های توضیح داده شده در بالا مطابقت ندارند. اغلب آنها شامل هر سه جزء هستند. هر یک از سطوح آنها تحت تأثیر یک روند، نوسانات فصلی و یک جزء تصادفی شکل می گیرد.

در بیشتر موارد، سطح واقعی یک سری زمانی را می توان به صورت مجموع یا حاصل ضرب روند، چرخه و اجزای تصادفی نشان داد. مدلی که در آن یک سری زمانی به عنوان مجموع اجزای فهرست شده ارائه می شود، مدل سری زمانی افزایشی نامیده می شود. مدلی که در آن یک سری زمانی به عنوان حاصلضرب اجزای فهرست شده ارائه می شود، مدل سری زمانی ضربی نامیده می شود.


1.1. مدل رگرسیون چندگانه خطی

رگرسیون زوجی می تواند نتیجه خوبی در مدل سازی به همراه داشته باشد اگر بتوان از تأثیر سایر عوامل مؤثر بر موضوع مطالعه چشم پوشی کرد. اگر نمی توان از این تأثیر چشم پوشی کرد، در این صورت باید سعی کرد با وارد کردن آنها به مدل تأثیر عوامل دیگر را شناسایی کرد، یعنی معادله رگرسیون چندگانه ساخت.

رگرسیون چندگانه به طور گسترده در حل مشکلات تقاضا، بازده سهام، در مطالعه تابع هزینه های تولید، در محاسبات کلان اقتصاد و تعدادی دیگر از مسائل اقتصاد سنجی استفاده می شود. در حال حاضر رگرسیون چندگانه یکی از رایج ترین روش ها در اقتصاد سنجی است.

هدف اصلی رگرسیون چندگانه، ساختن مدلی با تعداد زیادی از عوامل، در عین تعیین تأثیر هر یک از آنها به صورت جداگانه و همچنین تأثیر تجمعی آنها بر شاخص مدل شده است.

نمای کلی مدل خطی رگرسیون چندگانه:

که در آن n حجم نمونه است که حداقل 3 برابر بیشتر از m - تعداد متغیرهای مستقل.

y i مقدار متغیر حاصل در مشاهده I است.

х i1 ,х i2 , ...,х im - مقادیر متغیرهای مستقل در مشاهده i;

β 0 , β 1 , … β m - پارامترهای معادله رگرسیونی که باید ارزیابی شوند.

ε - مقدار خطای تصادفی مدل رگرسیون چندگانه در مشاهده I،

هنگام ساخت یک مدل رگرسیون خطی چندگانه، پنج شرط زیر در نظر گرفته می شود:

1. مقادیر x i1، x i2، ...، x im - متغیرهای غیر تصادفی و مستقل.

2. انتظار ریاضی خطای تصادفی معادله رگرسیون
در تمام مشاهدات برابر با صفر است: М (ε) = 0، i= 1،m;

3. واریانس خطای تصادفی معادله رگرسیون برای همه مشاهدات ثابت است: D(ε) = σ 2 = const;

4. خطاهای تصادفی مدل رگرسیون با یکدیگر همبستگی ندارند (کوواریانس خطاهای تصادفی هر دو مشاهدات مختلف صفر است): сov(ε i ,ε j .) = 0, i≠j;

5. خطای تصادفی مدل رگرسیون - یک متغیر تصادفی پیروی از قانون توزیع نرمال با انتظار ریاضی صفر و واریانس σ2.

نمای ماتریسی یک مدل رگرسیون چندگانه خطی:

جایی که: - بردار مقادیر متغیر حاصل از بعد n×1

ماتریس مقادیر متغیرهای مستقل بعد n× (m + 1). ستون اول این ماتریس تک است، زیرا در مدل رگرسیون ضریب β 0 در یک ضرب می شود.

بردار مقادیر متغیر حاصل از بعد (m+1)×1

بردار خطاهای تصادفی بعد n×1

1.2. حداقل مربعات کلاسیک برای مدل رگرسیون چندگانه

ضرایب مجهول مدل رگرسیون چندگانه خطی β 0 , β 1 , … β m با استفاده از روش حداقل مربعات کلاسیک تخمین زده می شود که ایده اصلی آن تعیین چنین بردار ارزیابی D است که مجموع مجذور را به حداقل برساند. انحراف مقادیر مشاهده شده متغیر حاصل y از مقادیر مدل (t یعنی محاسبه شده بر اساس مدل رگرسیون ساخته شده).

همانطور که از درس تحلیل ریاضی مشخص است، برای یافتن حد فاصل تابعی از چندین متغیر، لازم است مشتقات جزئی مرتبه اول را نسبت به هر یک از پارامترها محاسبه کرده و آنها را با صفر برابر کنیم.

نشان دادن b i با شاخص های مربوط به تخمین ضرایب مدل β i , i=0,m تابعی از آرگومان های m+1 دارد.

پس از تبدیل‌های ابتدایی، به سیستمی از معادلات نرمال خطی برای یافتن تخمین‌هایی برای پارامترهای یک معادله رگرسیون چندگانه خطی می‌رسیم.

سیستم حاصل از معادلات عادی درجه دوم است، یعنی تعداد معادلات برابر با تعداد متغیرهای مجهول است، بنابراین راه حل سیستم را می توان با استفاده از روش کرامر یا روش گاوس پیدا کرد.

حل سیستم معادلات نرمال به صورت ماتریسی بردار برآوردها خواهد بود.

بر اساس معادله خطی رگرسیون چندگانه، معادلات رگرسیون خاصی را می توان یافت، به عنوان مثال، معادلات رگرسیونی که ویژگی موثر را با عامل مربوطه x i مرتبط می کند در حالی که عوامل باقی مانده را در سطح متوسط ​​ثابت می کند.

هنگام جایگزینی مقادیر متوسط ​​عوامل مربوطه به این معادلات، آنها به شکل معادلات رگرسیون خطی جفتی به خود می گیرند.

بر خلاف رگرسیون زوجی، معادلات رگرسیون جزئی تأثیر مجزای یک عامل بر نتیجه را مشخص می کند، زیرا سایر عوامل در یک سطح ثابت ثابت هستند. اثرات تأثیر عوامل دیگر به عبارت آزاد معادله رگرسیون چندگانه متصل است. این اجازه می دهد تا بر اساس معادلات رگرسیون جزئی، ضرایب کشش جزئی را تعیین کنیم:

جایی که b i ضریب رگرسیون برای عامل x i است. در معادله رگرسیون چندگانه،

y x1 xm یک معادله رگرسیونی خاص است.

همراه با ضرایب کشش جزئی، میانگین کل شاخص های کشش را می توان یافت. که نشان می دهد با تغییر ضریب مربوطه به میزان 1 درصد، نتیجه به طور میانگین چند درصد تغییر می کند. می توان کشش های متوسط ​​را با یکدیگر مقایسه کرد و بر این اساس، عوامل را با توجه به قدرت تأثیر بر نتیجه رتبه بندی کرد.

2. مدل رگرسیون چندگانه خطی تعمیم یافته

تفاوت اساسی بین مدل تعمیم یافته و کلاسیک فقط در قالب یک ماتریس کوواریانس مربع بردار اغتشاش است: به جای ماتریس Σ ε = σ 2 E n برای مدل کلاسیک، ماتریس Σ ε = Ω داریم. برای تعمیم یافته دومی دارای مقادیر دلخواه کوواریانس و واریانس است. برای مثال، ماتریس‌های کوواریانس مدل‌های کلاسیک و تعمیم‌یافته برای دو مشاهده (n=2) در حالت کلی به‌صورت زیر خواهد بود:

به طور رسمی، مدل رگرسیون چندگانه خطی تعمیم یافته (GLMMR) در فرم ماتریسی به شکل زیر است:

Y = Xβ + ε (1)

و توسط سیستم شرایط توصیف می شود:

1. ε بردار تصادفی اغتشاشات با بعد n است. X - ماتریس غیر تصادفی مقادیر متغیرهای توضیحی (ماتریس پلان) با ابعاد nx(p+1). به یاد بیاورید که ستون 1 این ماتریس از پدیسل ها تشکیل شده است.

2. M(ε) = 0 n - انتظار ریاضی بردار اغتشاش برابر با بردار صفر است.

3. Σ ε = M(εε') = Ω، که در آن Ω یک ماتریس مربع معین مثبت است. توجه داشته باشید که حاصل ضرب بردارها ε‘ε یک اسکالر و حاصل ضرب بردارها εε یک ماتریس nxn می دهد.

4. رتبه ماتریس X p+1 است که کمتر از n است. به یاد بیاورید که p+1 تعداد متغیرهای توضیحی در مدل (همراه با متغیر ساختگی) است، n تعداد مشاهدات متغیرهای حاصل و توضیحی است.

نتیجه 1. برآورد پارامترهای مدل (1) توسط حداقل مربعات معمولی

b = (X'X) -1 X'Y (2)

بی طرف و سازگار، اما ناکارآمد (غیر بهینه به معنای قضیه گاوس-مارکف). برای به دست آوردن یک برآورد کارآمد، باید از روش حداقل مربعات تعمیم یافته استفاده کنید.

تحلیل رگرسیون چندگانه، بسط تحلیل رگرسیون زوجی است. O در مواردی استفاده می شود که رفتار متغیر وابسته توضیح داده شده باید با تأثیر بیش از یک متغیر مستقل فاکتوریل همراه باشد. اگرچه بخش خاصی از تجزیه و تحلیل چند متغیره تعمیم مستقیم مفاهیم یک مدل رگرسیون زوجی است، در هنگام اجرای آن، ممکن است تعدادی کار اساساً جدید ایجاد شود.

بنابراین، هنگام ارزیابی تأثیر هر متغیر مستقل، لازم است بتوان تأثیر آن را بر متغیر مورد توضیح از تأثیر سایر متغیرهای مستقل تشخیص داد. در این مورد، تحلیل همبستگی چندگانه به تجزیه و تحلیل همبستگی های جفتی و جزئی کاهش می یابد. در عمل، آنها معمولاً محدود به تعیین ویژگی های عددی تعمیم یافته خود هستند، مانند ضرایب کشش جزئی، ضرایب همبستگی جزئی، ضرایب رگرسیون چندگانه استاندارد شده.

سپس تکالیف تعیین مدل رگرسیونی حل می شود که یکی از آنها تعیین حجم و ترکیب مجموعه متغیرهای مستقلی است که می تواند بر متغیر مورد توضیح تأثیر بگذارد. اگرچه این اغلب از ملاحظات پیشینی یا بر اساس تئوری اقتصادی (کیفی) مربوطه انجام می شود، برخی از متغیرها ممکن است به دلیل ویژگی های فردی اشیاء مورد مطالعه، برای مدل مناسب نباشند. معمولی ترین آنها هستند چند خطی بودنیا خود همبستگیمتغیرهای عاملی

3.1. تحلیل رگرسیون خطی چندگانه با

روش حداقل مربعات (LSM)

این بخش فرض می کند که یک مدل رگرسیونی در نظر گرفته شده است که به درستی مشخص شده است. برعکس، اگر مفروضات اولیه اشتباه باشد، تنها بر اساس کیفیت مدل حاصل می توان ایجاد کرد. بنابراین، این مرحله نقطه شروعی برای انجام تحلیل رگرسیون چندگانه حتی در سخت‌ترین حالت است، زیرا تنها آن، یا بهتر است بگوییم نتایج آن، می‌تواند زمینه را برای اصلاح بیشتر نمایش‌های مدل فراهم کند. در این صورت تغییرات و اضافات لازم در مشخصات مدل انجام می شود و پس از اصلاح مدل تا حصول نتایج رضایت بخش، آنالیز تکرار می شود.

هر شاخص اقتصادی در شرایط واقعی معمولاً تحت تأثیر نه یک، بلکه چندین عامل و نه همیشه مستقل است. به عنوان مثال، تقاضا برای نوع خاصی از محصول نه تنها با قیمت این محصول، بلکه با قیمت کالاهای جایگزین و مکمل، درآمد مصرف کنندگان و بسیاری از عوامل دیگر تعیین می شود. در این حالت به جای رگرسیون زوجی م(Y/ X = x ) = f(ایکس) رگرسیون چندگانه را در نظر بگیرید

م(Y/ X1 = x1، X2 = x2، ...، Xp = Xp ) = f(ایکس 1 ، ایکس 2 ، …، ایکس آر ) (2.1)

وظیفه ارزیابی رابطه آماری متغیرها Yو ایکس 1 , ایکس 2 , ..., ایکس آربه طور مشابه با حالت رگرسیون زوجی فرموله شده است. معادله رگرسیون چندگانه را می توان به صورت

Y = f(ب , ایکس ) + 2

جایی که ایکس - بردار متغیرهای مستقل (تبیینی)؛ AT - بردار پارامترهای معادله (که باید تعیین شود). - خطای تصادفی (انحراف)؛ Y - متغیر وابسته (توضیح داده شده).

فرض بر این است که برای یک جمعیت عمومی معین، تابع است fمتغیر مورد مطالعه را متصل می کند Yبا بردار متغیرهای مستقل ایکس .

بیایید پرکاربردترین و ساده ترین مدل برای تحلیل آماری و تفسیر اقتصادی رگرسیون خطی چندگانه را در نظر بگیریم. حداقل دو دلیل قابل توجه برای این وجود دارد.

ابتدا، معادله رگرسیون خطی است اگر سیستم متغیرهای تصادفی ( ایکس 1 , ایکس 2 ، ...، ایکس آر , Y) دارای توزیع نرمال مشترک است. فرض توزیع نرمال را می توان در تعدادی از موارد با استفاده از قضایای حدی نظریه احتمال اثبات کرد. اغلب چنین فرضی به عنوان یک فرضیه پذیرفته می شود، زمانی که هیچ تناقض آشکاری در طول تجزیه و تحلیل بعدی و تفسیر نتایج آن وجود نداشته باشد.

دلیل دوم اینکه چرا یک مدل رگرسیون خطی بر مدل های دیگر ترجیح داده می شود این است که وقتی از آن برای پیش بینی استفاده می شود، خطر خطای قابل توجه حداقل است.

معادله رگرسیون خطی نظری به شکل زیر است:

یا برای مشاهدات فردی با شماره من:

جایی که من = 1, 2, ..., پ.

اینجا AT = (ب 0 , ب 1 ,بР) - بردار بعد (р+1) پارامترهای ناشناخته ب j , j = 0, 1, 2, ..., آر، نامیده میشود j- ضریب رگرسیون نظری (ضریب رگرسیون جزئی). این حساسیت کمیت را مشخص می کند Yعوض شدن ایکس j. به عبارت دیگر، تأثیر آن بر انتظار مشروط را منعکس می کند م(Y/ X1 = x1، X2 = x2، ...، Xp = ایکس آر ) متغیر وابسته Yمتغیر توضیحی ایکس j مشروط بر اینکه سایر متغیرهای توضیحی مدل ثابت بمانند. ب 0 - عضو رایگان که مقدار را تعریف می کند Yوقتی همه متغیرهای توضیحی ایکس jبرابر با صفر هستند.

پس از انتخاب یک تابع خطی به عنوان مدل وابستگی، برآورد پارامترهای رگرسیون ضروری است.

بذار باشه nبردار مشاهدات متغیرهای توضیحی ایکس = (1 , ایکس 1 , ایکس 2 ، ...، ایکس آر) و متغیر وابسته Y:

(1 , ایکس i1 , ایکس i2 ، …، ایکس آی پی ، y من), i = 1، 2، …، n.

به منظور حل منحصر به فرد مشکل یافتن پارامترها ب 0 , ب 1 , … , ب P (یعنی بهترین بردار را پیدا کنید AT ) نابرابری n > پ + 1 . اگر این نابرابری ارضا نشود، بی نهایت بردارهای پارامتر مختلف وجود دارد که فرمول خطی رابطه بین ایکس و Y دقیقاً با مشاهدات موجود مطابقت دارد. در عین حال، اگر n = پ + 1 ، سپس تخمین ضرایب بردار AT به روشی منحصر به فرد - با حل سیستم محاسبه می شوند پ + 1 معادله خطی:

جایی که من = 1, 2, ..., پ.

به عنوان مثال، برای تعیین منحصر به فرد برآورد پارامترهای معادله رگرسیون Y = ب o + ب 1 ایکس 1 + ب 2 ایکس 2، داشتن یک نمونه از سه مشاهده کافی است ( 1 , ایکسمن 1، ایکسمن 2، yمن)، من= 1، 2، 3. در این مورد، مقادیر یافت شده از پارامترها ب 0 , ب 1 , ب 2 چنین سطحی را Y = تعریف کنید ب o + ب 1 ایکس 1 + ب 2 ایکس 2 در فضای سه بعدی که از سه نقطه موجود عبور خواهد کرد.

از سوی دیگر، افزودن یک مشاهده دیگر به سه مشاهدات موجود منجر به این واقعیت می شود که نکته چهارم ( ایکس 41 , ایکس 42 , ایکس 43 , y 4) تقریباً همیشه خارج از صفحه ساخته شده (و احتمالاً به اندازه کافی دور) قرار می گیرد. این نیاز به ارزیابی مجدد پارامترها دارد.

بنابراین، نتیجه گیری زیر کاملاً منطقی است: اگر تعداد مشاهدات از حداقل مقدار مورد نیاز بیشتر باشد، یعنی. n > پ + 1 ، دیگر نمی توان یک فرم خطی را انتخاب کرد که دقیقاً همه مشاهدات را برآورده کند. بنابراین، نیاز به بهینه سازی وجود دارد، یعنی. تخمین پارامتر ب 0 , ب 1 , …, ب آر، که فرمول رگرسیون بهترین تقریب را به طور همزمان برای همه مشاهدات موجود می دهد.

در این حالت عدد  = n - پ - 1 تعداد درجات آزادی نامیده می شود. به راحتی می توان فهمید که اگر تعداد درجات آزادی کم باشد، پایایی آماری فرمول برآورد شده پایین است. به عنوان مثال، احتمال یک نتیجه گیری قابل اعتماد (به دست آوردن واقعی ترین تخمین ها) از سه مشاهده به طور قابل توجهی کمتر از سی مشاهده است. اعتقاد بر این است که هنگام ارزیابی رگرسیون خطی چندگانه، برای اطمینان از پایایی آماری، لازم است تعداد مشاهدات حداقل 3 برابر از تعداد پارامترهای برآورد شده بیشتر شود.

قبل از توضیح الگوریتم برای یافتن تخمین ضرایب رگرسیون، ما به مطلوب بودن امکان سنجی تعدادی از پیش نیازهای LSM توجه می کنیم که به ما امکان می دهد ویژگی های مشخصه تحلیل رگرسیون را در چارچوب مدل چند عاملی خطی کلاسیک توجیه کنیم. .

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...