معنی پارامترهای یک معادله رگرسیون چندگانه چیست؟ معادله رگرسیون چندگانه خطی

هدف: یادگیری تعیین پارامترهای معادله چندگانه رگرسیون خطیروش کمترین مربعاتو تجزیه و تحلیل معادله ساخته شده.

رهنمودها

مطلقاً همه چیز در این فصل مهم است. قبل از مطالعه، لازم است مطالب زیر از تحلیل ماتریس تکرار شود: ضرب ماتریس، ماتریس معکوس، حل یک سیستم معادلات خطی به روش ماتریس معکوس. این فصل همه چیز مربوط به رگرسیون خطی زوجی را به مدل خطی چندگانه تعمیم می دهد. فصل اول توابع برنامه مایکروسافت آفیس اکسل را توضیح می دهد که به شما امکان می دهد عملیات با ماتریس ها را انجام دهید. توجه داشته باشید که در مقایسه با فصل قبل، برای تعیین معنای اجتماعی-اقتصادی ضرایب بر روی متغیرهای توضیحی، مهم است که بین این متغیرها چند خطی (رابطه خطی قوی) وجود نداشته باشد. به یاد داشته باشید که فرمول محاسبه ضرایب معادله نیز از اعمال روش حداقل مربعات حاصل می شود. شما باید مثال زیر را مطالعه کنید. به رابطه بین مدل در متغیرهای اصلی و استاندارد توجه کنید.

§ 1. تعیین پارامترهای معادله رگرسیون

برای هرچی شاخص اقتصادیاغلب، نه یک، بلکه چندین عامل تأثیر می گذارد. در این مورد، به جای جفت reg-

M(Y x) = f(x) در حال بررسی استرگرسیون چندگانه:

	x1,x2,...,xm ) = f(x1,x2,...,xm).

مسئله برآورد روابط آماری		متغیرها
Y و X = (X 1، X 2، ...، X m) به طور مشابه فرموله شده است		مورد زوج ها

بدون پسرفت معادله رگرسیون چندگانه را می توان به صورت زیر نشان داد:

Y = f(β،X) +ε،

که در آن Y و X = (X 1، X 2، ...، X m) - بردار متغیرهای مستقل (تبیینی)؛ β = (β 0، β 1، β 2،...، β m) - بردار متغیرهای مستقل مولفه های

(تعیین می شود)؛ ε - خطای تصادفی (انحراف)؛ Y - متغیر وابسته (توضیح داده شده). فرض بر این است که برای یک معین جمعیتتابع f است که متغیر مورد مطالعه Y را با بردار متغیرهای مستقل مرتبط می کند

Y و X= (X1، X2، ...، Xm).

بیایید پرکاربردترین و ساده ترین مدل های رگرسیون چندگانه - مدل رگرسیون خطی چندگانه را در نظر بگیریم.

معادله رگرسیون خطی نظری به صورت زیر است:

در اینجا β = (β 0، β 1، β 2،...، β m) بردار بعد (m +1) پارامترهای مجهول است. β j، j = (1، 2، ...، m) از لحاظ نظری j - m نامیده می شود

ضریب رگرسیون چینی (ضریب رگرسیون جزئی). این حساسیت مقدار Y را نسبت به تغییرات X j مشخص می کند. به عبارت دیگر، تأثیر بر ریاضیات مشروط را منعکس می کند

انتظار M (Y x 1 , x 2 ,..., x m ) از متغیر وابسته Y توضیح می دهد

متغیر Xj به شرطی که سایر متغیرهای توضیحی مدل ثابت بمانند، β 0 یک جمله آزاد است،

تعیین مقدار Y در حالتی که تمام متغیرهای توضیحی X j برابر با صفر باشند.

پس از انتخاب تابع خطیبه عنوان یک مدل وابستگی، برآورد پارامترهای رگرسیون ضروری است.

اجازه دهید n مشاهده از بردار متغیرهای توضیحی X = (X 1، X 2، ...، X m) و متغیر وابسته Y وجود داشته باشد:

( xi 1 , xi 2 , ..., xim , yi ) , i= 1 ,2 , ..., n.

برای حل منحصر به فرد مسئله یافتن پارامترهای β 0، β 1، β 2،...، β m، نابرابری باید برآورده شود.

n ≥ m + 1. Ifn = m + 1، سپس ضرایب بردار β را برآورد می کند

به روشی منحصر به فرد محاسبه می شوند.

اگر تعداد مشاهدات بیشتر از حداقل مورد نیاز باشد: n > m + 1، پس نیاز به بهینه سازی، ارزیابی وجود دارد.

پارامترهای β 0، β 1، β 2،...، β m، که فرمول بهترین را برای آنها ارائه می دهد.

تقریب برای مشاهدات موجود

در این حالت عدد ν= n − m − 1 نامیده می شود تعداد درجات آزادی. رایج ترین روش برای تخمین پارامترهای یک معادله رگرسیون خطی چندگانه است روش حداقل مربع(MNC). به یاد بیاوریم که ماهیت آن به حداقل رساندن مجموع انحرافات مجذور مقادیر مشاهده شده است.

متغیر وابسته Y به مقادیر Y که از معادله رگرسیون به دست می آید.

توجه داشته باشید که مقدمات قبلاً بیان شده OLS اجازه می دهد تا تجزیه و تحلیل در چارچوب یک مدل رگرسیون خطی کلاسیک انجام شود.

همانطور که در مورد رگرسیون زوجی، بدست آوردن مقادیر واقعی پارامترهای β j از نمونه غیرممکن است. در این مورد، به جای

معادله رگرسیون نظری (3.3) به اصطلاح تخمین زده می شود

معادله رگرسیون تجربی در حال توسعه به شرح زیر است:

	Y = b0 + b1 X1 + b2 X2 + ...+ bm Xm + e.
	b 0 , b 1 , ..., b m - برآوردهای نظری	ارزش های
β 0، β 1، ...، β m	ضرایب رگرسیون (ضرایب تجربی)

عناصر رگرسیون، e -مقطع تحصیلی انحراف تصادفیε). برای مشاهدات فردی ما داریم:

yi = b0 + b1 xi 1 + b2 xi 2 + ...+ bm xim + ei ,(i= 1 ,2 , ..., n) (3.6)

معادله برآورد شده ابتدا باید روند کلی (جهت) تغییر در متغیر وابسته Y را توصیف کند. در این صورت لازم است بتوان انحرافات را از روند مشخص شده محاسبه کرد.

بر اساس حجم نمونه n:(xi 1 , xi 2 , ..., xim , yi ) , i= 1 ,2 , ..., n

لازم است مقادیر پارامترهای β j بردار β را تخمین بزنیم، به عنوان مثال، مدل انتخاب شده را پارامتر کنیم (herex ij، j = 1، 2، ...، m

مقدار متغیر X j در مشاهده i).

هنگامی که مفروضات OLS در مورد انحرافات تصادفی εi برآورده شد، تخمین b 0، b 1، ...، b m پارامترهای β 0، β 1، ...، β m ضرب می شوند.

رگرسیون های OLS خطی طبیعی بی طرفانه، کارآمد و سازگار هستند.

بر اساس (3.6)، انحراف e i مقدار y i متغیر وابسته از مقدار مدل ˆy i مربوط به معادله رگرسیون و i-مشاهده i = 1, 2, ..., n با استفاده از فرمول محاسبه می شود:

ei = yi − ˆyi = yi − b0 − b1 xi 1 − b2 xi 2 − ...− bm xim . (3.7)

§ 2. محاسبه ضرایب رگرسیون خطی چندگانه

اجازه دهید داده های مشاهده و ضرایب مربوطه را به صورت ماتریسی ارائه کنیم.






				xn 1
				xn 1

xn 2

X1 متر

X2 متر

در اینجا Y یک بردار ستونی n بعدی از مشاهدات متغیر وابسته Y است؛ X ماتریسی با بعد n × (m + 1) است که در آن ردیف i-ام i = 1, 2, ..., n نشان دهنده مشاهده i-امین بردار مقادیر متغیرهای مستقل X 1 , X 2 , ..., X m , واحد مربوط به متغیر با عبارت آزاد b 0 ؛ B اندازه بردار ستونی است-

تعداد (m + 1) پارامترهای معادله رگرسیون (3.5)؛ e - ستون برداری ابعاد n انحراف مقادیر نمونه (واقعی) y i متغیر وابسته از مقادیر ˆy i به دست آمده از

معادله رگرسیون:

i=1

جایی که e T = (e 1, e 2, ..., e n) یعنی T به معنای trans-

ماتریس جلا داده شده

اگر ستون برداری ضرایب B با استفاده از فرمول پیدا شود، می توان نشان داد که شرط (3.10) برآورده می شود:

B = (XT X) - 1 XT Y.

در اینجا X T ماتریسی است که به ماتریس X منتقل شده است،

(X T X ) - 1 ماتریس معکوس (X T X) است. رابطه (3.11)

برای معادلات رگرسیون با تعداد دلخواه m متغیرهای توضیحی معتبر است.

مثال 3.1. اجازه دهید حجم عرضه برخی از کالاهای Y شرکت به صورت خطی به قیمت X 1 و دستمزد X 2 کارکنان تولید کننده این کالا بستگی داشته باشد (جدول 3.1). بیایید ضرایب معادله رگرسیون خطی را تعیین کنیم. (در اینجا دانش جبر ماتریسی فرض شده است).

جدول 3.1

داده های رگرسیون خطی چندگانه

ماتریس ها به شکل زیر هستند:

X T X = 318

7, 310816

− 0, 10049

− 0, 53537

−1

0, 001593

, (XT X)

= − 0, 10049

− 0, 006644,

− 0, 53537

− 0, 006644

0, 043213

X T Y = 23818،

هدف از رگرسیون خطی چندگانه ایجاد یک مدل خطی از رابطه بین مجموعه ای از پیش بینی کننده های پیوسته و یک متغیر وابسته پیوسته است. معمولاً از معادله رگرسیون زیر استفاده می شود:

اینجا و من - ضرایب رگرسیون, b 0- عضو رایگان (در صورت استفاده)، ه- اصطلاحی حاوی خطا - مفروضات مختلفی در مورد آن وجود دارد که با این حال، اغلب به نرمال بودن توزیع با یک تشت بردار صفر می رسد. انتظارات و ماتریس همبستگی

این مدل خطی بسیاری از مسائل را در زمینه های موضوعی مختلف به خوبی توصیف می کند، به عنوان مثال، اقتصاد، صنعت، پزشکی. این به این دلیل است که برخی از مشکلات ماهیت خطی دارند.

بیایید یک مثال ساده بزنیم. فرض کنید باید هزینه ساخت جاده را بر اساس پارامترهای شناخته شده آن پیش بینی کنید. در عین حال، ما داده‌هایی در مورد جاده‌هایی داریم که قبلاً گذاشته شده‌اند که نشان‌دهنده طول، عمق روسازی، مقدار مواد کار، تعداد کارگران و غیره است.

معلوم است که هزینه راه در نهایت خواهد شد برابر با مقدارهزینه های همه این عوامل به طور جداگانه. شما به مقدار مشخصی مثلاً سنگ خرد شده با هزینه مشخص در هر تن و مقدار مشخصی آسفالت نیز با هزینه مشخص نیاز خواهید داشت.

ممکن است برای نصب نیاز به قطع جنگل ها باشد که هزینه های اضافی را نیز به دنبال خواهد داشت. همه اینها با هم هزینه ایجاد جاده را خواهد داد.

در این حالت، مدل شامل یک عضو رایگان خواهد بود که به عنوان مثال، مسئول هزینه های سازمانی خواهد بود (که تقریباً برای تمام کارهای ساخت و ساز و نصب یکسان است. این سطح) یا کسر مالیات.

خطا شامل عواملی خواهد بود که ما هنگام ساخت مدل در نظر نگرفتیم (مثلاً آب و هوا در حین ساخت - اصلاً نمی توان آن را در نظر گرفت).

مثال: تحلیل رگرسیون چندگانه

برای این مثال، چندین همبستگی احتمالی نرخ فقر و درجه ای که درصد خانواده های زیر خط فقر را پیش بینی می کند، تحلیل می شود. بنابراین، متغیر مشخص کننده درصد خانواده های زیر خط فقر را متغیر وابسته و بقیه متغیرها را پیش بینی کننده های پیوسته در نظر می گیریم.

ضرایب رگرسیون

برای اینکه بفهمیم کدام یک از متغیرهای مستقل نقش بیشتری در پیش‌بینی سطوح فقر دارد، به بررسی می‌پردازیم ضرایب استاندارد شدهرگرسیون (یا بتا).

برنج. 1. برآورد پارامترهای ضرایب رگرسیون.

ضرایب بتا ضرایبی هستند که اگر همه متغیرها را به میانگین 0 و انحراف استاندارد 1 نرمال کنید، به دست می آورید. بنابراین، بزرگی این ضرایب بتا به شما امکان می دهد سهم نسبی هر متغیر مستقل را با متغیر وابسته مقایسه کنید. همانطور که از جدول نشان داده شده در بالا مشاهده می شود، متغیرها عبارتند از تغییرات جمعیت از سال 1960 (POP_ CHING)، درصد جمعیت ساکن در یک روستا (PT_RURAL) و تعداد افراد شاغل در کشاورزی(N_Empld) مهمترین پیش بینی کننده سطوح فقر هستند، زیرا فقط آنها از نظر آماری معنی دار هستند (فاصله اطمینان 95٪ آنها 0 را شامل نمی شود). ضریب رگرسیون تغییر جمعیت از سال 1960 (Pop_Chng) منفی است، بنابراین هر چه رشد جمعیت کمتر باشد، خانواده های بیشتری زیر خط فقر در شهرستان مربوطه زندگی می کنند. ضریب رگرسیون برای جمعیت (%) ساکن در یک روستا (Pt_Rural) مثبت است، یعنی هر چه درصد ساکنان روستایی بیشتر باشد، سطح فقر بالاتر است.

اهمیت اثرات پیش بینی کننده

بیایید به جدول با معیارهای اهمیت نگاه کنیم.

برنج. 2. نتایج همزمان برای هر متغیر معین.

همانطور که این جدول نشان می دهد، تنها اثرات 2 متغیر از نظر آماری معنی دار است: تغییر جمعیت از سال 1960 (Pop_Chng) و درصد جمعیت ساکن در یک روستا (Pt_Rural)، p.< .05.

تجزیه و تحلیل باقیمانده پس از برازش یک معادله رگرسیون، تقریباً همیشه باید مقادیر و باقیمانده های پیش بینی شده را بررسی کنید. به عنوان مثال، مقادیر پرت بزرگ می تواند نتایج را تا حد زیادی مخدوش کند و منجر به نتیجه گیری های اشتباه شود.

نمودار انتشار خط به خط

معمولاً لازم است باقیمانده های اصلی یا استاندارد شده را از نظر نقاط پرت بزرگ بررسی کنید.

برنج. 3. اعداد مشاهده و باقیمانده.

مقیاس محور عمودی این نمودار با توجه به مقدار سیگما ترسیم می شود، یعنی: انحراف معیارباقی مانده اگر یک یا چند مشاهدات در بازه 3 ± سیگما قرار نگیرند، ممکن است ارزش آن را داشته باشد که آن مشاهدات را حذف کنیم (این کار را می توان به راحتی از طریق شرایط انتخاب مشاهده انجام داد) و تجزیه و تحلیل را دوباره اجرا کرد تا اطمینان حاصل شود که نتایج تحت تأثیر این موارد قرار نمی گیرند. موارد پرت

فواصل ماهالانوبیس

اکثر کتاب های درسی آمار زمان زیادی را صرف مقادیر پرت و باقی مانده نسبت به متغیر وابسته می کنند. با این حال، نقش پرت در پیش بینی ها اغلب ناشناخته باقی می ماند. در سمت متغیر پیش بینی، لیستی از متغیرها وجود دارد که با وزن های مختلف (ضرایب رگرسیون) در پیش بینی متغیر وابسته شرکت می کنند. شما می توانید متغیرهای مستقل را به عنوان یک فضای چند بعدی در نظر بگیرید که در آن هر مشاهده ای را می توان ترسیم کرد. به عنوان مثال، اگر دو متغیر مستقل با ضرایب رگرسیون مساوی داشته باشید، می توانید یک نمودار پراکنده از دو متغیر ترسیم کنید و هر مشاهده را روی آن نمودار قرار دهید. سپس می توانید مقدار میانگین را روی این نمودار علامت بزنید و فواصل هر مشاهده تا این میانگین (به اصطلاح مرکز ثقل) را در فضای دو بعدی محاسبه کنید. این ایده اصلی در پس محاسبه فاصله Mahalanobis است. حال بیایید به هیستوگرام متغیر تغییر جمعیت از سال 1960 نگاه کنیم.

برنج. 4. هیستوگرام توزیع فاصله ماهالانوبیس.

از نمودار بر می آید که در فواصل ماهالانوبیس یک نقطه پرت وجود دارد.

برنج. 5. مقادیر مشاهده شده، پیش بینی شده و باقیمانده.

توجه داشته باشید که شهرستان شلبی (در ردیف اول) از بقیه شهرستان ها متمایز است. اگر به داده های خام نگاه کنید، متوجه می شوید که شهرستان شلبی در واقع بیشترین تعداد را دارد عدد بزرگافراد شاغل در کشاورزی (متغیر N_Empld). شاید عاقلانه باشد که آن را به صورت درصد بیان کنیم تا به صورت درصد. اعداد مطلق، در این صورت فاصله ماهالانوبیس شهرستان شلبی در مقایسه با سایر شهرستان ها احتمالاً زیاد نخواهد بود. واضح است که شهرستان شلبی یک منطقه پرت است.

بقایای حذف شده

آمار بسیار مهم دیگری که به ارزیابی شدت مشکل انتشار کمک می کند، باقی مانده های حذف شده است. اینها باقیمانده های استاندارد شده برای مشاهدات مربوطه هستند که با حذف آن مشاهدات از تجزیه و تحلیل به دست می آیند. به یاد داشته باشید که روش رگرسیون چندگانه با سطح رگرسیون متناسب است تا رابطه بین متغیر وابسته و متغیر پیش بینی را نشان دهد. اگر یکی از مشاهدات پرت باشد (مانند شهرستان شلبی)، در این صورت تمایل سطح رگرسیون به سمت آن نقطه پرت وجود دارد. در نتیجه، اگر مشاهده مربوطه حذف شود، سطح متفاوتی (و ضرایب بتا) به دست می آید. بنابراین، اگر باقیمانده‌های حذف شده بسیار متفاوت از باقیمانده‌های استاندارد شده باشند، دلیلی برای این باور خواهید داشت که تحلیل رگرسیون به طور جدی توسط مشاهدات مربوطه سوگیری دارد. در این مثال، باقیمانده‌های حذف‌شده برای شهرستان شلبی نشان می‌دهد که این یک حالت پرت است، که به‌طور جدی تحلیل را سوگیری می‌کند. نمودار پراکندگی به وضوح یک نقطه پرت را نشان می دهد.

برنج. 6. باقیمانده های اولیه و باقیمانده های حذف شده متغیری که نشان دهنده درصد خانواده هایی است که زیر سطح معیشتی زندگی می کنند.

اکثر آنها تفسیرهای کم و بیش روشنی دارند، با این حال، اجازه دهید به نمودارهای احتمال عادی بپردازیم.

همانطور که قبلا ذکر شد، رگرسیون چندگانه فرض می کند که یک رابطه خطی بین متغیرهای معادله وجود دارد و باقیمانده ها به طور معمول توزیع می شوند. اگر این مفروضات نقض شوند، نتیجه گیری ممکن است نادرست باشد. نمودار احتمال عادی باقیمانده ها به شما می گوید که آیا نقض جدی این مفروضات وجود دارد یا خیر.

برنج. 7. نمودار احتمال عادی; مانده های اولیه

این نمودار به صورت زیر ساخته شده است. ابتدا، باقیمانده های استاندارد شده به ترتیب رتبه بندی می شوند. از این رتبه‌ها، امتیازهای z (یعنی مقادیر استاندارد توزیع نرمال) را می‌توان بر اساس این فرض که داده‌ها رعایت می‌کنند محاسبه کرد. توزیع نرمال. این مقادیر z بر روی محور y در نمودار رسم می شوند.

اگر باقیمانده های مشاهده شده (نمودار روی محور x) به طور معمول توزیع شوند، آنگاه همه مقادیر روی یک خط مستقیم روی نمودار قرار می گیرند. در نمودار ما، همه نقاط بسیار نزدیک به منحنی قرار دارند. اگر باقیمانده ها به طور معمول توزیع نشده باشند، از این خط منحرف می شوند. نقاط پرت نیز در این نمودار قابل توجه است.

اگر تناسب از دست برود و به نظر می رسد که داده ها یک منحنی واضح (مثلاً یک شکل S) در مورد خط تشکیل می دهند، آنگاه متغیر وابسته را می توان به نحوی تبدیل کرد (مثلاً یک تبدیل لگاریتمی برای "کوچک کردن" دنباله خط توزیع و غیره). بحث در مورد این روش فراتر از محدوده این مثال است (Neter, Wasserman, and Kutner, 1985, pp. 134-141, ارائه بحثی در مورد تبدیل هایی که غیر عادی بودن و غیرخطی بودن داده ها را حذف می کند). با این حال، محققان اغلب به سادگی تحلیل‌ها را بدون آزمایش مفروضات اساسی انجام می‌دهند که منجر به نتیجه‌گیری‌های اشتباه می‌شود.

پدیده های اقتصادی معمولا تعریف می شوند تعداد زیادیعوامل موثر همزمان و تجمعی در این راستا، اغلب وظیفه مطالعه وابستگی یک متغیر مطرح می شود دراز چندین متغیر توضیحی ( x 1، x 2,…, x k)که با استفاده از آن قابل حل است تحلیل همبستگی چندگانه و رگرسیون

هنگام مطالعه وابستگی با استفاده از روش‌های رگرسیون چندگانه، مشکل به همان روشی که هنگام استفاده از رگرسیون زوجی شکل می‌گیرد، یعنی. لازم است بیان تحلیلی شکل ارتباط بین مشخصه حاصل را تعیین کنید درو ویژگی های عامل x، x 2،..., xk،تابع را پیدا کنید که k تعداد مشخصه های عامل است

رگرسیون چندگانه به طور گسترده در حل مشکلات تقاضا، بازده سهام، در مطالعه تابع هزینه تولید، در محاسبات کلان اقتصاد و تعدادی دیگر از مسائل اقتصاد سنجی استفاده می شود. در حال حاضر رگرسیون چندگانه یکی از رایج ترین روش ها در اقتصاد سنجی است. هدف اصلی رگرسیون چندگانه ساختن مدلی با تعداد زیادی فاکتور است، در حالی که تأثیر هر یک از آنها به طور جداگانه و همچنین تأثیر ترکیبی آنها بر شاخص مدل شده تعیین می شود.

با توجه به ویژگی‌های روش حداقل مربعات در رگرسیون چندگانه، مانند رگرسیون زوجی، تنها از معادلات خطی و معادلات تبدیل شده به شکل خطی با تبدیل متغیرها استفاده می‌شود. رایج ترین معادله ای که استفاده می شود یک معادله خطی است که می توان آن را به صورت زیر نوشت:

a 0 , a 1, …, a k – پارامترهای مدل (ضرایب رگرسیون).

ε j – مقدار تصادفی(مقدار باقی مانده).

ضریب رگرسیون آ j نشان می دهد که مشخصه موثر به طور متوسط با چه مقدار تغییر می کند y،اگر یک متغیر ایکس j افزایش واحد اندازه گیری در مقدار ثابت (ثابت) سایر عوامل موجود در معادله رگرسیون. پارامترها در ایکسنامیده می شوند ضرایب رگرسیون "خالص". .

مثال.

فرض کنید وابستگی هزینه های غذا برای مجموعه ای از خانواده ها با معادله زیر مشخص می شود:

y- هزینه های خانواده برای یک ماه غذا، هزار روبل.

ایکس 1 - درآمد ماهانه برای هر عضو خانواده، هزار روبل.

ایکس 2 - اندازه خانواده، افراد.

تجزیه و تحلیل این معادله به ما امکان می دهد نتیجه گیری کنیم - با افزایش درآمد هر عضو خانواده 1000 روبل. هزینه های غذا به طور متوسط 350 روبل افزایش می یابد. با همان اندازه متوسط خانواده. به عبارت دیگر 35 درصد از هزینه های اضافی خانواده صرف غذا می شود. افزایش اندازه خانواده با همان درآمد به معنای افزایش اضافی در هزینه های غذا به میزان 730 روبل است. پارامتر اول مشمول تفسیر اقتصادی نیست.

پایایی هر یک از پارامترهای مدل با استفاده از آزمون t-student ارزیابی می شود. برای هر یک از پارامترهای مدل a j، مقدار معیار t با استفاده از فرمول محاسبه می شود ، جایی که

S ε – استاندارد (میانگین مربع) انحراف معادله رگرسیون)

با فرمول تعیین می شود

اگر مقدار محاسبه شده باشد، ضریب رگرسیون a j به اندازه کافی قابل اعتماد در نظر گرفته می شود t-معیار با ( n - k - 1) درجه آزادی از مقدار جدول بیشتر است، یعنی. t calc > t آ jn - k -1 . اگر پایایی ضریب رگرسیون تأیید نشود، باید؛ نتیجه گیری در مورد بی اهمیت بودن در مدل عاملی jمشخصه و نیاز به حذف آن از مدل یا جایگزینی آن با مشخصه فاکتوریل دیگری.

نقش مهمی در ارزیابی تأثیر عوامل توسط ضرایب مدل رگرسیون ایفا می کند. با این حال، به طور مستقیم با کمک آنها، مقایسه ویژگی های عامل با توجه به میزان تأثیر آنها بر متغیر وابسته به دلیل تفاوت در واحدهای اندازه گیری و درجات مختلف متغیر غیرممکن است. برای از بین بردن چنین تفاوت هایی، استفاده کنید ضرایب کشش جزئی E j و ضرایب بتا β j.

فرمول محاسبه ضریب کشش

جایی که

a j – ضریب رگرسیون عاملی j,

میانگین مقدار مشخصه مؤثر

میانگین مقدار مشخصه j

ضریب کشش نشان می دهد که متغیر وابسته چند درصد تغییر می کند دروقتی عامل تغییر می کند j 1 درصد

فرمول تعیین ضریب بتا.

، جایی که

S xj - انحراف معیار ضریب j;

S y - انحراف معیار عامل y

β - ضریب نشان می دهد که چه بخشی از انحراف استاندارد است S yمتغیر وابسته تغییر خواهد کرد دربا تغییر در متغیر مستقل مربوطه ایکس j با مقدار انحراف استاندارد آن با مقدار ثابتی از متغیرهای مستقل باقیمانده.

سهم تأثیر یک عامل خاص در تأثیر کل همه عوامل را می توان با مقدار تخمین زد ضرایب دلتا Δ j.

این ضرایب به شما این امکان را می دهد که عوامل را بر اساس میزان تأثیر عوامل بر متغیر وابسته رتبه بندی کنید.

فرمول تعیین ضریب دلتا.

r yj – ضریب همبستگی زوجی بین عامل j و متغیر وابسته.

R 2 - ضریب چندگانهعزم

ضریب تعیین چندگانهاستفاده برای ارزیابی های کیفیتچندگانه مدل های رگرسیون.

فرمول تعیین ضریب تعیین چندگانه.

ضریب تعیین، نسبت تغییرات در مشخصه حاصل را نشان می دهد که تحت تأثیر ویژگی های عامل است، به عنوان مثال. تعیین می کند که چه نسبتی از تغییرات در یک صفت است دردر مدل لحاظ شده و به دلیل تأثیر عوامل موجود در مدل بر آن است. نزدیکتر R 2به یک، کیفیت مدل بالاتر است

هنگام اضافه کردن متغیرهای مستقل، مقدار R 2افزایش می یابد، بنابراین ضریب R 2باید برای تعداد متغیرهای مستقل با استفاده از فرمول تنظیم شود

برای تست اهمیت مدلبرای رگرسیون از آزمون F فیشر استفاده می شود. با فرمول مشخص می شود

اگر مقدار محاسبه شده ملاک با γ 1, = کو γ 2 = (n - k- 1)درجات آزادی بیشتر از جدول در سطح معنی‌داری معین، پس مدل معنادار در نظر گرفته می‌شود.

به عنوان اندازه گیری دقت مدل، از خطای استاندارد استفاده می شود که نسبت مجموع مربعات سطوح جزء باقی مانده به مقدار (n - k -1) است:

رویکرد کلاسیک برای تخمین پارامترهای یک مدل خطی مبتنی است روش حداقل مربعات (LSM). سیستم معادلات عادیدارای فرم:

حل سیستم را می توان طبق یکی از آنها انجام داد روش های شناخته شده: روش گاوس، روش کرامر و غیره.

مثال 15.

برای چهار شرکت در منطقه (جدول 41)، وابستگی خروجی محصول به ازای هر کارمند بررسی شده است y(هزار روبل) از راه اندازی دارایی های ثابت جدید (٪ از ارزش دارایی ها در پایان سال) و از سهم کارگران بسیار ماهر در تعداد کل کارگران (٪). شما باید یک معادله رگرسیون چندگانه بنویسید.

جدول 41 - وابستگی خروجی محصول به ازای هر کارمند

هدف اصلی رگرسیون چندگانه- ساخت یک مدل با تعداد زیادی از عوامل، تعیین تأثیر هر یک از آنها به طور جداگانه، و همچنین تأثیر ترکیبی آنها بر شاخص مدل شده.

هدف از خدمات. با استفاده از ماشین حساب آنلاین می توانید شاخص های زیر را پیدا کنید:

معادله رگرسیون چندگانه، ماتریس ضرایب همبستگی جفت، ضرایب کشش متوسط برای رگرسیون خطی.
ضریب تعیین چندگانه، فاصله اطمینانبرای مقدار فردی و متوسط مشخصه حاصل؛

علاوه بر این، انجام می شود بررسی همبستگی خودکار باقیمانده هاو دگرگونی.

دستورالعمل ها. مقدار داده (تعداد ردیف)، تعداد متغیرها را مشخص کنید x روی Next کلیک کنید. راه حل به دست آمده در یک فایل Word ذخیره می شود (نمونه ای از یافتن یک معادله رگرسیون و همبستگی چندگانه را ببینید). اگر داده های زیادی وجود دارد، می توانید آن را از MS Excel وارد کنید. برای انجام این کار، تعداد متغیرهای x را مشخص کنید، روی Insert from Excel () کلیک کنید.

هنگام محاسبه پارامترهای معادله رگرسیون چندگانه، از آن استفاده می کنیم روش ماتریسی . برای رگرسیون چندگانه با دو متغیر (m = 2) می توانید از روش حل یک سیستم معادلات استفاده کنید.

ساخت یک معادله رگرسیون چندگانهبا حل مسئله مشخصات مدل شروع می شود که به نوبه خود شامل 2 مجموعه سؤال است: انتخاب عواملو انتخاب معادله رگرسیون.

انتخاب عوامل معمولاً در دو مرحله انجام می شود:

تجزیه و تحلیل نظری رابطه بین نتیجه و طیف عواملی که تأثیر قابل توجهی بر آن دارند.
ارزیابی کمی رابطه بین عوامل و نتایج. اگر رابطه بین ویژگی ها خطی باشد، این مرحله به تجزیه و تحلیل ماتریس همبستگی (ماتریس ضرایب همبستگی خطی زوجی) کاهش می یابد. راه حل های مبتنی بر علمی برای مسائل از این نوع نیز با استفاده از انجام می شود تحلیل واریانس- تک عاملی، در صورتی که اهمیت تأثیر یک عامل خاص بر ویژگی مورد نظر بررسی شود، یا چند عاملی، در مورد مطالعه تأثیر ترکیبی از عوامل بر آن.

عوامل موجود در رگرسیون چندگانه باید شرایط زیر را برآورده کنند:

آنها باید کمیت پذیر باشند. اگر لازم باشد یک عامل کیفی در مدل گنجانده شود که اندازه گیری کمی ندارد، باید به آن اطمینان کمی داد.
هر عامل باید نسبتاً نزدیک به نتیجه باشد (یعنی ضریب همبستگی خطی زوجی بین عامل و نتیجه باید معنی دار باشد).
عوامل نباید به شدت با یکدیگر همبستگی داشته باشند، حتی کمتر در یک رابطه عملکردی دقیق (یعنی نباید با هم مرتبط باشند). یک نوع عوامل همبسته چند خطی است - یک رابطه خطی نزدیک بین عوامل.

مثال. یک مدل رگرسیون با 2 متغیر توضیحی بسازید (رگرسیون چندگانه). معادله رگرسیون چندگانه نظری را تعیین کنید. کفایت مدل ساخته شده را ارزیابی کنید.
راه حل.
یک ستون واحد به ماتریس X اصلی اضافه می کنیم و یک ماتریس X جدید به دست می آوریم

ما پیدا می کنیم ماتریس معکوس(X T X) -1

13.99	0.64	-1.3
0.64	0.1	-0.0988
-1.3	-0.0988	0.14

بردار برآورد ضریب رگرسیون برابر است با

(X T X) -1 X T Y = y(x) =

13,99	0,64	-1,3
0,64	0,1	-0,0988
-1,3	-0,0988	0,14

563

1032,5

34,66

1,97

-2,45

ما تخمینی را برای معادله رگرسیون به دست آوردیم: Y = 34.66 + 1.97X 1 -2.45X 2
ارزیابی اهمیت یک معادله رگرسیون چندگانهبا آزمون این فرضیه انجام می شود که ضریب تعیین محاسبه شده از داده های جمعیت عمومی برابر با صفر است. برای بررسی آن استفاده کنید

ماهیت تحلیل رگرسیون: ساخت و ساز مدل ریاضیو تعیین پایایی آماری آن.

نوع مدل تحلیل رگرسیون خطی چندگانه: Y = b 0 + b 1 x i1 + ... + b j x ij + ... + b k x ik + e i که در آن من- خطاهای مشاهده تصادفی مستقل از یکدیگر دارای میانگین و واریانس صفر هستند س.

هدف از رگرسیون چندگانه: تجزیه و تحلیل رابطه بین چند متغیر مستقل و یک متغیر وابسته.

معنای اقتصادی پارامترهای رگرسیون چندگانه
ضریب رگرسیون چندگانه b jنشان می دهد که مشخصه موثر به طور متوسط چقدر تغییر می کند Y، اگر متغیر Xjافزایش یک واحد اندازه گیری، یعنی یک ضریب استاندارد است.

نمادگذاری ماتریسی مدل تحلیل رگرسیون خطی چندگانه: Y = Xb + e که در آن Y (n x 1)مقادیر مشاهده شده مشخصه حاصل ( y 1، y 2،...، y n);
ایکس- ماتریس ابعاد [ n x (k+1)] مقادیر آرگومان مشاهده شده.
ب- بردار - بعد ستون [ (k+1) x 1] پارامترهای ناشناخته (ضرایب رگرسیون) مدلی که باید تخمین زده شود.
ه- بردار تصادفی - ستون ابعاد (n x 1)خطاهای مشاهده (باقی مانده).

مشکلات تحلیل رگرسیون
وظیفه اصلی تحلیل رگرسیون یافتن از حجم نمونه است nبرآورد ضرایب رگرسیون ناشناخته b 0 , b 1 ,..., b k. اهداف تحلیل رگرسیون استفاده از داده های آماری موجود برای متغیرها می باشد X iو Y:

به دست آوردن بهترین تخمین از پارامترهای ناشناخته b 0 , b 1 ,..., b k;
بررسی فرضیه های آماریدر مورد پارامترهای مدل؛
بررسی کنید که آیا مدل به اندازه کافی با داده های آماری مطابقت دارد (کفایت مدل با داده های مشاهده ای).

ساخت مدل های رگرسیون چندگانه شامل مراحل زیر است:

انتخاب شکل اتصال (معادلات رگرسیون)؛
تعیین پارامترهای معادله انتخاب شده؛
تجزیه و تحلیل کیفیت معادله و تأیید کفایت معادله با داده های تجربی، بهبود معادله.

رگرسیون چندگانه با یک متغیر
رگرسیون چندگانه با سه متغیر

دستورالعمل ها. مقدار داده (تعداد ردیف)، تعداد متغیرها را مشخص کنید x روی Next کلیک کنید.

نمونه ای از یافتن مدل رگرسیون چندگانه

رگرسیون چندگانه با دو متغیر

مدل رگرسیون چندگانهاز شکل Y = b 0 + b 1 X 1 + b 2 X 2 ;
1) می توانیم مجهولات b 0 , b 1 , b 2 را پیدا کنیم، بیایید یک سیستم معادلات سه خطی را با سه مجهول b 0 , b 1 , b 2 حل کنیم:

برای حل سیستم می توانید استفاده کنید
2) یا با استفاده از فرمول ها

برای انجام این کار، جدولی مانند:

Y	x 1	x 2	(میانگین y-y) 2	(x 1 -x 1sr) 2	(x 2 -x 2sr) 2	(میانگین y-y) (x 1 -x 1 میانگین)	(میانگین y-y) (x 2 -x 2 میانگین)	(x 1 -x 1sr) (x 2 -x 2sr)

واریانس نمونه ضرایب رگرسیون چندگانه تجربی را می توان به صورت زیر تعیین کرد:

در اینجا z" jj عنصر مورب j ماتریس Z -1 =(X T X) -1 است.

که در آن:

که m تعداد متغیرهای توضیحی مدل است.
به طور خاص، برای معادله رگرسیون چندگانه Y = b 0 + b 1 X 1 + b 2 X 2 با دو متغیر توضیحی، از فرمول های زیر استفاده می شود:

یا

یا
,,.
در اینجا r 12 ضریب همبستگی نمونه بین متغیرهای توضیحی X 1 و X 2 است. Sb j - خطای استاندارد ضریب رگرسیون. S - خطای استاندارد رگرسیون چندگانه (تخمین بی طرفانه).
با قیاس با رگرسیون زوجی، پس از تعیین تخمین نقطه‌ایbj از ضرایب β j (j=1,2,...,m) معادلات رگرسیون چندگانه نظری قابل محاسبه است. تخمین های فاصله ایضرایب مشخص شده

فاصله اطمینان پوشش با قابلیت اطمینان (1-α) مقدار مجهول پارامتر β j به صورت تعریف شده است.

رگرسیون چندگانه در اکسل

برای یافتن پارامترهای رگرسیون چندگانه با استفاده از اکسل، از تابع LINEST(Y;X;0;1) استفاده می شود،
که در آن Y آرایه ای برای مقادیر Y است
که در آن X یک آرایه برای مقادیر X است (به عنوان یک آرایه واحد برای همه مقادیر X i نشان داده شده است)

بررسی اهمیت آماری ضرایب معادله رگرسیون چندگانه

همانند رگرسیون چندگانه، اهمیت آماری ضرایب رگرسیون چندگانه با متغیرهای توضیحی m با استفاده از آماره t آزمایش می‌شود:

که در این حالت دارای توزیع Student با تعداد درجات آزادی v = n- m-1 است. در سطح معنی‌داری لازم، مقدار مشاهده‌شده آماره t با مقدار دقیق بحرانی توزیع t دانش‌آموز مقایسه می‌شود.
اگر، آنگاه معناداری آماری ضریب رگرسیون چندگانه مربوطه تایید می شود. این بدان معنی است که عامل Xj به صورت خطی با متغیر وابسته Y مرتبط است. اگر این واقعیت که ضریب b j ناچیز است ثابت شود، توصیه می شود متغیر Xj را از معادله حذف کنید. این منجر به کاهش قابل توجه کیفیت مدل نمی شود، اما آن را خاص تر می کند.

برای این منظور، مانند رگرسیون چندگانه، از ضریب تعیین R2 استفاده می شود:

نسبت منصفانه 0<=R2<=1. Чем ближе этот коэффициент к единице, тем больше уравнение множественной регрессии объясняет поведение Y.
برای رگرسیون چندگانهضریب تعیین تابعی غیر کاهشی از تعداد متغیرهای توضیحی است. افزودن یک متغیر توضیحی جدید هرگز مقدار R2 را کاهش نمی دهد، زیرا هر متغیر بعدی فقط می تواند اطلاعاتی را که رفتار متغیر وابسته را توضیح می دهد، اضافه کند، اما کاهش نمی دهد.

رابطه را می توان به صورت زیر نشان داد:

برای m>1. با افزایش مقدار m

اندیکاتورهای F و R2 همزمان برابر یا مساوی صفر هستند. اگر F=0، آنگاه R 2 = 0، بنابراین، مقدار Y به صورت خطی به X1، X2،...، Xm بستگی ندارد. مقدار محاسبه شده F با مقدار بحرانی Fcr مقایسه می شود. Fcr بر اساس سطح اهمیت مورد نیاز α و اعداد درجات آزادی v1 = m و v2 = n - m - 1، بر اساس توزیع فیشر تعیین می شود. اگر F>Fcr، R2 از نظر آماری معنی دار است.

بررسی امکان سنجی مفروضات رگرسیون چندگانه OLS. آمار دوربین واتسون برای رگرسیون چندگانه

اهمیت آماری ضرایب رگرسیون چندگانه و مقدار ضریب تعیین R2 نزدیک به وحدت تضمین نمی کند. کیفیت بالامعادلات رگرسیون چندگانه بنابراین، گام بعدی در بررسی کیفیت معادله رگرسیون چندگانه، بررسی امکان‌سنجی مفروضات OLS است. دلایل و پیامدهای عدم امکان این مقدمات، روش های تنظیم مدل های رگرسیون در فصل های بعدی مورد بحث قرار خواهد گرفت. در این بخش، آمار دوربین واتسون را که در تحلیل رگرسیون محبوب است، در نظر خواهیم گرفت.
هنگام تجزیه و تحلیل آماری معادله رگرسیون برای مرحله اولیهاغلب امکان سنجی یک پیش نیاز را بررسی می کنند: شرایط استقلال آماری انحرافات بین خود.

در این مورد، عدم همبستگی مقادیر همسایه بررسی می شود من,i=1,2,…n..
برای تجزیه و تحلیل همبستگی انحرافات، از آمار دوربین واتسون استفاده می شود:

ارزش های بحرانی د 1و د 2بر اساس جداول ویژه برای سطح اهمیت مورد نیاز تعیین می شود α ، تعداد مشاهدات nو تعداد متغیرهای توضیحی متر.

ضرایب همبستگی جزئی برای رگرسیون چندگانه

ضرایب (یا شاخص‌های) همبستگی جزئی که تأثیر روی y عامل x i را در سطح ثابتی از عوامل دیگر اندازه‌گیری می‌کنند با فرمول استاندارد تعیین می‌شوند. ضریب خطیهمبستگی ها، یعنی جفت های yx 1 , yx 2 ,... , x 1 x 2 , x 1 x 3 و غیره به ترتیب گرفته شده و ضریب همبستگی برای هر جفت بدست می آید
محاسبات در MS Excel. ماتریس ضرایب همبستگی زوجی متغیرها را می توان با استفاده از ابزار تحلیل داده های همبستگی محاسبه کرد. برای این:
1) دستور را اجرا کنید خدمات / تجزیه و تحلیل داده ها / همبستگی.
2) محدوده داده را مشخص کنید.

بررسی کیفیت کلی یک معادله رگرسیون چندگانه

برای این منظور مانند رگرسیون چندگانه از ضریب تعیین استفاده می شود R 2:

نسبت منصفانه 0 < =R 2 < = 1 . هر چه این ضریب به یک نزدیکتر باشد، معادله رگرسیون چندگانه رفتار را بیشتر توضیح می دهد Y.
برای رگرسیون چندگانهضریب تعیین تابعی غیر کاهشی از تعداد متغیرهای توضیحی است. افزودن یک متغیر توضیحی جدید هرگز مقدار را کاهش نمی دهد R 2، از آنجایی که هر متغیر بعدی فقط می تواند اطلاعات توضیح دهنده رفتار متغیر وابسته را تکمیل کند، اما کاهش نمی دهد.
گاهی اوقات، هنگام محاسبه ضریب تعیین، برای به دست آوردن تخمین های بی طرفانه در صورت و مخرج کسر کسر شده از واحد، تنظیمی برای تعداد درجات آزادی انجام می شود، یعنی. به اصطلاح ضریب تعیین تعدیل شده (تصحیح) معرفی شده است:

رابطه را می توان به صورت زیر نشان داد:

برای m>1. با افزایش مقدار m ضریب تعیین تعدیل شدهآهسته تر از حد معمول رشد می کند مقادیر منفی.
ثابت شده است که زمانی که یک متغیر توضیحی جدید اضافه می‌شود، افزایش می‌یابد اگر و تنها در صورتی که آماره t برای این متغیر از یک مقدار مطلق بیشتر باشد. بنابراین تا زمانی که ضریب تعیین تعدیل شده افزایش یابد، متغیرهای توضیحی جدیدی به مدل اضافه می شوند.
پیشنهاد می شود پس از بررسی کیفیت کلی معادله رگرسیون، آن را تحلیل کنید اهمیت آماری. برای این کار از آماره F استفاده می شود:
شاخص ها افو R 2در یک زمان مساوی یا مساوی صفر هستند. اگر F=0، سپس R 2 = 0، بنابراین، مقدار Yبه صورت خطی بستگی ندارد X 1، X 2،…، X m.مقدار محاسبه شده افدر مقایسه با انتقادی Fcr. Fcr، بر اساس سطح اهمیت مورد نیاز α و تعداد درجات آزادی v 1 = mو v 2 = n - m - 1، بر اساس توزیع فیشر تعیین می شود. اگر F > Fcr، آن R 2از نظر آماری معنی دار است.