ارزیابی اهمیت معادله رگرسیون و پارامترهای آن. برآورد اهمیت آماری پارامترهای معادله رگرسیون

پس از اینکه معادله رگرسیون ساخته شد و دقت آن با استفاده از ضریب تعیین ارزیابی شد، باقی می ماند. سوال بازچگونه این دقت به دست آمده است و بر این اساس آیا می توان به این معادله اعتماد کرد. واقعیت این است که معادله رگرسیون بر اساس آن ساخته نشده است جمعیت، که ناشناخته است، اما بر اساس نمونه ای از آن است. امتیازات از جمعیت عمومی به طور تصادفی در نمونه قرار می گیرند، بنابراین، مطابق با تئوری احتمال، در میان موارد دیگر، ممکن است نمونه ای از یک جمعیت عمومی "گسترده" "محدود" باشد (شکل 15). .

برنج. 15. نوع احتمالیامتیازهایی که در نمونه ای از جمعیت عمومی قرار می گیرند.

در این مورد:

الف) معادله رگرسیون ساخته شده برای نمونه ممکن است به طور قابل توجهی با معادله رگرسیون برای جمعیت عمومی متفاوت باشد، که منجر به خطاهای پیش بینی می شود.

ب) ضریب تعیین و سایر مشخصه های دقت به طور غیر منطقی بالا بوده و در مورد کیفیت های پیش بینی معادله گمراه می شود.

در حالت محدود، زمانی که از یک جمعیت عمومی که یک ابر با محور اصلی موازی با محور افقی است (هیچ رابطه ای بین متغیرها وجود ندارد)، به دلیل انتخاب تصادفی، نمونه ای به دست می آید، نمی تواند حذف شود. که محور اصلی آن به محور متمایل خواهد شد. بنابراین، تلاش برای پیش‌بینی مقادیر بعدی جمعیت عمومی بر اساس داده‌های یک نمونه از آن، نه تنها مملو از خطا در ارزیابی قدرت و جهت رابطه بین متغیرهای وابسته و مستقل است، بلکه با خطر یافتن ارتباط بین متغیرها در جایی که در واقع هیچ کدام وجود ندارد.

در صورت عدم وجود اطلاعات در مورد تمام نقاط جامعه، تنها راه کاهش خطاها در حالت اول استفاده از روشی در تخمین ضرایب معادله رگرسیون است که از بی طرفی و کارایی آنها اطمینان حاصل کند. و احتمال وقوع مورد دوم را می توان به میزان قابل توجهی کاهش داد زیرا یک ویژگی از یک جمعیت عمومی با دو متغیر مستقل از یکدیگر به طور پیشینی شناخته شده است - دقیقاً این ارتباط است که در آن وجود ندارد. این کاهش با بررسی حاصل می شود اهمیت آماریمعادله رگرسیون حاصل

یکی از متداول ترین گزینه های تایید به شرح زیر است. برای معادله رگرسیون حاصل، یک -آمار تعیین می شود - مشخصه ای از دقت معادله رگرسیون، که نسبت آن قسمت از واریانس متغیر وابسته است که با معادله رگرسیون توضیح داده می شود به قسمت غیر قابل توضیح (باقیمانده) از واریانس معادله تعیین آمار - در مورد رگرسیون چند متغیره به شکل زیر است:

که در آن: - واریانس توضیح داده شده - بخشی از واریانس متغیر وابسته Y که با معادله رگرسیون توضیح داده می شود.

واریانس باقیمانده بخشی از واریانس متغیر وابسته Y است که با معادله رگرسیون توضیح داده نمی شود، حضور آن نتیجه عمل مولفه تصادفی است.

تعداد امتیازات نمونه؛

تعداد متغیرها در معادله رگرسیون.

همانطور که از فرمول بالا مشاهده می شود، واریانس ها به عنوان ضریب تقسیم مجموع مربع های مربوطه بر تعداد درجات آزادی تعیین می شوند. تعداد درجات آزادی حداقل تعداد مورد نیاز متغیر وابسته است که برای به دست آوردن ویژگی مورد نظر نمونه کافی است و می تواند آزادانه تغییر کند، با در نظر گرفتن این واقعیت که برای این نمونه تمام مقادیر دیگر وجود دارد. مورد استفاده برای محاسبه مشخصه مورد نظر شناخته شده است.

برای به دست آوردن واریانس باقیمانده، ضرایب معادله رگرسیون مورد نیاز است. در مورد رگرسیون خطی زوجی، دو ضریب وجود دارد، بنابراین مطابق با فرمول (گرفتن) تعداد درجات آزادی برابر است. به این معنی که برای تعیین واریانس باقیمانده کافی است ضرایب معادله رگرسیون و فقط مقادیر متغیر وابسته را از نمونه بدانیم. دو مقدار باقیمانده را می توان بر اساس این داده ها محاسبه کرد و بنابراین آزادانه متغیر نیستند.

برای محاسبه واریانس توضیح داده شده مقادیر متغیر وابسته، اصلاً نیازی نیست، زیرا با دانستن ضرایب رگرسیون برای متغیرهای مستقل و واریانس متغیر مستقل می توان آن را محاسبه کرد. برای تأیید این موضوع، کافی است عبارت قبلی را یادآوری کنید . بنابراین، تعداد درجات آزادی برای واریانس باقیمانده برابر است با تعداد متغیرهای مستقل در معادله رگرسیون (برای رگرسیون خطی زوجی).

در نتیجه، معیار - برای معادله رگرسیون خطی زوجی با فرمول تعیین می شود:

.

در تئوری احتمال، ثابت شده است که معیار معادله رگرسیون به دست آمده برای نمونه ای از یک جامعه عمومی که در آن هیچ رابطه ای بین متغیرهای وابسته و مستقل وجود ندارد، دارای توزیع فیشر است که به خوبی مطالعه شده است. با تشکر از این، برای هر مقدار از معیار، می توان احتمال وقوع آن را محاسبه کرد و برعکس، مقدار معیاری را که با یک احتمال معین نمی تواند از آن فراتر رود، تعیین کرد.

برای پیاده سازی تست آماریبا اهمیت معادله رگرسیون، فرضیه صفر مبنی بر عدم وجود رابطه بین متغیرها (همه ضرایب برای متغیرها برابر با صفر هستند) فرموله شده و سطح معناداری انتخاب می شود.

سطح معنی داری احتمال قابل قبولی برای ایجاد خطای نوع I است - رد فرضیه صفر صحیح در نتیجه آزمایش. در این مورد، ایجاد یک خطای نوع I به معنای تشخیص در یک نمونه است که بین متغیرهای جامعه رابطه وجود دارد در حالی که در واقع هیچ رابطه ای وجود ندارد.

به طور معمول سطح معنی داری 5% یا 1% در نظر گرفته می شود. هرچه سطح معنی داری بالاتر باشد (کمتر)، سطح پایایی آزمون بالاتر است، برابر با، یعنی. شانس اجتناب از خطای تشخیص وجود یک ارتباط در جمعیت عمومی متغیرهای واقعی غیرمرتبط در نمونه بیشتر است. اما با افزایش سطح اهمیت، خطر ارتکاب خطای نوع دوم افزایش می‌یابد - رد فرضیه صفر صحیح، یعنی. در نمونه متوجه ارتباط واقعی بین متغیرها در جامعه عمومی نشود. بنابراین، بسته به اینکه کدام خطا بزرگ است پیامدهای منفی، یک یا سطح دیگری از اهمیت را انتخاب کنید.

برای سطح معنی‌داری انتخاب‌شده، توزیع فیشر مقدار جدول احتمال فراتر رفتن را تعیین می‌کند که در یک نمونه توان به‌دست‌آمده از جمعیت عمومی بدون رابطه بین متغیرها، از سطح معنی‌داری تجاوز نمی‌کند. با مقدار واقعی معیار مقایسه می شود معادله رگرسیون.

اگر شرط برآورده شود، تشخیص اشتباه یک ارتباط با مقدار معیار - مساوی یا بیشتر در نمونه ای از یک جمعیت عمومی با متغیرهای نامرتبط با احتمال کمتر از سطح معنی داری رخ می دهد. مطابق با قاعده "رویدادهای بسیار نادری وجود ندارد" به این نتیجه می رسیم که رابطه بین متغیرهای ایجاد شده در نمونه در جامعه عمومی که از آن به دست آمده است نیز وجود دارد.

اگر معلوم شد که معادله رگرسیون از نظر آماری معنادار نیست. به عبارت دیگر وجود دارد احتمال واقعیکه نمونه ارتباطی بین متغیرها برقرار کرده است که در واقعیت وجود ندارد. معادله ای که در آزمون معنی دار بودن آماری ناموفق باشد، مانند داروی تاریخ مصرف گذشته رفتار می شود.

Ti - چنین داروهایی لزوماً فاسد نیستند، اما از آنجایی که به کیفیت آنها اطمینانی وجود ندارد، ترجیح می دهند از آنها استفاده نکنند. این قانون در برابر همه اشتباهات محافظت نمی کند، اما به شما امکان می دهد از جدی ترین آنها اجتناب کنید، که این نیز بسیار مهم است.

گزینه تأیید دوم که هنگام استفاده از صفحات گسترده راحت تر است، مقایسه احتمال وقوع مقدار معیار حاصل با سطح اهمیت است. اگر این احتمال کمتر از سطح معنی داری باشد، معادله از نظر آماری معنادار است، در غیر این صورت اینطور نیست.

پس از بررسی معناداری آماری معادله رگرسیون به عنوان یک کل، به طور کلی، به ویژه برای وابستگی های چند متغیره، بررسی اهمیت آماری ضرایب رگرسیون به دست آمده مفید است. ایدئولوژی راستی آزمایی مانند زمانی است که معادله را به طور کلی بررسی می کنیم، اما آزمون t Student به عنوان یک معیار استفاده می شود که با فرمول های زیر تعیین می شود:

و

جایی که: , - مقادیر معیار دانشجو برای ضرایب و به ترتیب؛

- واریانس باقیمانده معادله رگرسیون.

تعداد امتیازات نمونه؛

تعداد متغیرها در نمونه، برای رگرسیون خطی زوجی.

مقادیر واقعی بدست آمده از آزمون دانشجو با مقادیر جدول مقایسه می شود ، به دست آمده از توزیع Student. اگر معلوم شد که ضریب مربوطه از نظر آماری معنادار است، در غیر این صورت خیر. گزینه دوم برای بررسی معناداری آماری ضرایب، تعیین احتمال وقوع آزمون دانشجو و مقایسه آن با سطح معناداری است.

برای متغیرهایی که ضرایب آنها از نظر آماری ناچیز است، احتمال زیادی وجود دارد که تأثیر آنها بر متغیر وابسته در جامعه کاملاً وجود نداشته باشد. بنابراین یا باید تعداد امتیازهای نمونه را افزایش داد، آنگاه شاید ضریب از نظر آماری معنی‌دار شود و در عین حال مقدار آن مشخص شود، یا سایرین به‌عنوان متغیرهای مستقل یافت شوند که ارتباط نزدیک‌تری با ضریب وابسته دارند. متغیر. در این صورت دقت پیش بینی در هر دو حالت افزایش می یابد.

به عنوان یک روش بیان برای ارزیابی اهمیت ضرایب معادله رگرسیون، می توانید استفاده کنید قانون بعدی- اگر آزمون t Student بزرگتر از 3 باشد، چنین ضریبی، به عنوان یک قاعده، از نظر آماری معنادار است. به طور کلی، اعتقاد بر این است که برای به دست آوردن معادلات رگرسیونی از نظر آماری معنی دار، لازم است که شرط وجود داشته باشد.

خطای پیش‌بینی استاندارد از معادله رگرسیون حاصل از یک مقدار مجهول با مقدار شناخته شده با استفاده از فرمول برآورد می‌شود:

بنابراین، یک پیش‌بینی با احتمال اطمینان 68 درصد را می‌توان به صورت زیر ارائه کرد:

اگر دیگری مورد نیاز است احتمال اطمینان، سپس برای سطح معناداری لازم است که آزمون دانشجو و فاصله اطمینانبرای پیش بینی با سطح قابلیت اطمینان برابر خواهد بود .

پیش‌بینی وابستگی‌های چند بعدی و غیرخطی

اگر مقدار پیش بینی شده به چندین متغیر مستقل بستگی داشته باشد، در این حالت یک رگرسیون چند متغیره از فرم وجود دارد:

که در آن: - ضرایب رگرسیون که تأثیر متغیرها را بر مقدار پیش بینی شده توصیف می کند.

روش برای تعیین ضرایب رگرسیون هیچ تفاوتی با رگرسیون خطی زوجی ندارد، به خصوص در هنگام استفاده از صفحه گسترده، زیرا از یک تابع برای رگرسیون خطی دوتایی و چند متغیره استفاده می کند. در این حالت، مطلوب است که هیچ رابطه ای بین متغیرهای مستقل وجود نداشته باشد. تغییر یک متغیر بر مقادیر سایر متغیرها تأثیری ندارد. اما این الزام اجباری نیست، مهم این است که هیچ وابستگی خطی عملکردی بین متغیرها وجود نداشته باشد. رویه هایی که در بالا برای بررسی اهمیت آماری معادله رگرسیون حاصل و ضرایب فردی آن توضیح داده شد، ارزیابی دقت پیش بینی همانند مورد رگرسیون خطی زوجی باقی می ماند. در عین حال، استفاده از رگرسیون های چند متغیره به جای رگرسیون های زوجی، معمولاً با انتخاب مناسب متغیرها، به طور قابل توجهی باعث افزایش دقت در توصیف رفتار متغیر وابسته و در نتیجه دقت پیش بینی می شود.

علاوه بر این، معادلات رگرسیون خطی چند متغیره، توصیف وابستگی غیرخطی مقدار پیش‌بینی‌شده به متغیرهای مستقل را ممکن می‌سازد. روش ریخته گری نه معادله خطیبه شکل خطی خطی شدن نامیده می شود. به طور خاص، اگر این وابستگی با یک چند جمله‌ای درجه متفاوت از 1 توصیف شود، با جایگزینی متغیرهایی با درجه‌های متفاوت از وحدت با متغیرهای جدید درجه اول، به جای یک مسئله غیرخطی، یک مسئله رگرسیون خطی چند متغیره به دست می‌آوریم. بنابراین، برای مثال، اگر تأثیر متغیر مستقل با سهمی شکل توصیف شود

سپس جایگزینی به ما اجازه می دهد تا مسئله غیرخطی را به یک شکل خطی چند بعدی تبدیل کنیم

مسائل غیرخطی که در آنها غیرخطی بودن به دلیل اینکه مقدار پیش بینی شده به حاصلضرب متغیرهای مستقل بستگی دارد نیز به راحتی قابل تبدیل هستند. برای در نظر گرفتن چنین تأثیری، لازم است متغیر جدیدی معادل این محصول معرفی شود.

در مواردی که غیرخطی بودن با وابستگی های پیچیده تر توصیف می شود، خطی سازی به دلیل تبدیل مختصات امکان پذیر است. برای این منظور مقادیر محاسبه می شود و نمودارهایی از وابستگی نقاط اولیه در ترکیبات مختلف متغیرهای تبدیل شده ساخته شده است. ترکیبی از مختصات تبدیل شده یا مختصات تبدیل شده و غیر تبدیل شده که در آن وابستگی به یک خط مستقیم نزدیک است، باعث تغییر متغیرها می شود که منجر به تبدیل یک وابستگی غیرخطی به یک فرم خطی می شود. به عنوان مثال، وابستگی غیرخطی فرم

به شکل خطی تبدیل می شود

ضرایب رگرسیون حاصل برای معادله تبدیل شده بی طرف و کارآمد باقی می مانند، اما آزمایش اهمیت آماری معادله و ضرایب ممکن نیست.

بررسی اعتبار روش کمترین مربعات

استفاده از روش حداقل مربعات، کارایی و تخمین های بی طرفانه ضرایب معادله رگرسیون را تحت شرایط زیر تضمین می کند (شرایط گاوس-مارکوف):

3. ارزش ها به یکدیگر بستگی ندارند

4. مقادیر به متغیرهای مستقل بستگی ندارند

ساده ترین راه برای بررسی اینکه آیا این شرایط برآورده شده اند یا خیر، رسم باقیمانده ها به عنوان تابعی از و سپس به عنوان تابعی از متغیر(های) مستقل است. اگر نقاط این نمودارها در راهرویی قرار گرفته باشند که به صورت متقارن نسبت به محور x قرار دارد و هیچ الگوی در محل نقاط قابل مشاهده نباشد، در این صورت شرایط گاوس-مارکوف برقرار است و فرصتی برای بهبود دقت رگرسیون وجود ندارد. معادله اگر اینطور نباشد، می توان دقت معادله را به میزان قابل توجهی بهبود بخشید و برای این کار باید به ادبیات تخصصی روی آورد.

موضوع 4. روش های آماری برای مطالعه روابط

معادله رگرسیون -این یک نمایش تحلیلی از وابستگی همبستگی است. معادله رگرسیون رابطه عملکردی فرضی بین مقدار میانگین شرطی ویژگی حاصل و مقدار ویژگی - عامل (عوامل) را توصیف می کند. روند اصلی اعتیاد

یک وابستگی همبستگی جفت با یک معادله رگرسیون زوجی و یک وابستگی همبستگی چندگانه با یک معادله رگرسیون چندگانه توصیف می‌شود.

صفت نتیجه در معادله رگرسیون، متغیر وابسته (پاسخ، متغیر توضیح داده شده) و ویژگی عامل، متغیر مستقل (استدلال، متغیر توضیحی) است.

ساده ترین نوع معادله رگرسیون، معادله وابستگی خطی زوج است:

که در آن y متغیر وابسته (ویژگی-نتیجه) است. x – متغیر مستقل (عامل صفت). و - پارامترهای معادله رگرسیون. - خطای تخمین

توابع مختلف ریاضی را می توان به عنوان یک معادله رگرسیون استفاده کرد. زود زود استفاده عملیمعادلات وابستگی خطی، سهمی، هذلولی، تابع استپ و غیره را بیابید.

به عنوان یک قاعده، تجزیه و تحلیل با ارزیابی رابطه خطی آغاز می شود، زیرا نتایج به راحتی قابل تفسیر هستند. انتخاب نوع معادله جفت مرحله نسبتاً مهمی از تجزیه و تحلیل است. در عصر "پیش کامپیوتر"، این روش با مشکلات خاصی همراه بود و تحلیلگر را ملزم به دانستن خواص توابع ریاضی می کرد. در حال حاضر، بر اساس برنامه های تخصصی، می توان به سرعت بسیاری از معادلات ارتباطی را ساخت و بر اساس معیارهای رسمی، بهترین مدل را انتخاب کرد (البته سواد ریاضی تحلیلگر ارتباط خود را از دست نداده است).

یک فرضیه در مورد نوع وابستگی همبستگی را می توان بر اساس نتایج ساخت میدان همبستگی مطرح کرد (به سخنرانی 6 مراجعه کنید). بر اساس ماهیت مکان نقاط روی نمودار (مختصات نقاط مطابق با مقادیر متغیرهای وابسته و مستقل است)، تمایل به رابطه بین ویژگی ها (شاخص ها) آشکار می شود. اگر خط رگرسیون از تمام نقاط میدان همبستگی عبور کند، این نشان دهنده یک ارتباط عملکردی است. در عمل تحقیقات اجتماعی و اقتصادی، چنین تصویری را نمی توان مشاهده کرد، زیرا یک وابستگی آماری (همبستگی) وجود دارد. در شرایط وابستگی همبستگی، هنگام ترسیم یک خط رگرسیون بر روی نمودار پراکندگی، انحراف نقاط میدان همبستگی از خط رگرسیون مشاهده می شود که به اصطلاح باقیمانده ها یا خطاهای تخمینی را نشان می دهد (شکل 7.1 را ببینید).

وجود خطا در معادله به این دلیل است که:

§ همه عوامل مؤثر بر نتیجه در معادله رگرسیون در نظر گرفته نمی شوند.

§ شکل اتصال ممکن است اشتباه انتخاب شود - معادله رگرسیون.

§ همه عوامل در معادله گنجانده نشده است.

ساخت معادله رگرسیون به معنای محاسبه مقادیر پارامترهای آن است. معادله رگرسیون بر اساس مقادیر واقعی ویژگی های تحلیل شده ساخته شده است. محاسبه پارامترها معمولا با استفاده از روش حداقل مربعات (LSM).

ماهیت MNCاین است که می توان مقادیری از پارامترهای معادله را به دست آورد که مجموع انحرافات مجذور مقادیر نظری ویژگی نتیجه (محاسبه شده بر اساس معادله رگرسیون) را از مقادیر واقعی آن به حداقل برساند:

,

مقدار واقعی مشخصه نتیجه کجاست واحد iسنگدانه ها - مقدار مشخصه نتیجه برای i-امین واحد جمعیت، به دست آمده از معادله رگرسیون ().

بنابراین، مشکل اکستریم در حال حل است، یعنی باید دریابید که تابع S در چه مقادیری از پارامترها به حداقل می رسد.

انجام تمایز، معادل سازی مشتقات جزئی با صفر:



, (7.3)

, (7.4)

حاصلضرب میانگین فاکتور و مقادیر نتیجه کجاست. - مقدار متوسط ​​ویژگی - عامل؛ - مقدار متوسط ​​مشخصه نتیجه؛ - واریانس صفت عاملی

پارامتر در معادله رگرسیون شیب خط رگرسیون را در نمودار مشخص می کند. این پارامتر نامیده می شود ضریب رگرسیونو مقدار آن مشخص می‌کند که وقتی صفت عامل با یک واحد اندازه‌گیری تغییر می‌کند، ویژگی نتیجه چند واحد از اندازه‌گیری آن تغییر می‌کند. علامت ضریب رگرسیون نشان دهنده جهت وابستگی (مستقیم یا معکوس) و منطبق با علامت ضریب همبستگی (در شرایط وابستگی زوجی) است.

در زمینه مثال مورد بررسی، برنامه STATISTICA پارامترهای معادله رگرسیون را محاسبه کرد که رابطه بین سطح درآمد سرانه پولی جمعیت و ارزش تولید ناخالص منطقه ای سرانه در مناطق روسیه را توصیف می کند. جدول 7.1.

جدول 7.1 - محاسبه و ارزیابی پارامترهای معادله توصیف رابطه بین سطح متوسط ​​درآمد سرانه پولی جمعیت و ارزش سرانه تولید ناخالص منطقه ای در مناطق روسیه، 2013

ستون "B" جدول حاوی مقادیر پارامترهای معادله رگرسیون زوجی است، بنابراین می توانیم بنویسیم: = 13406.89 + 22.82 x. این معادله تمایل رابطه بین ویژگی های تجزیه و تحلیل شده را توصیف می کند. پارامتر ضریب رگرسیون است. در این مورد، برابر 22.82 است و موارد زیر را مشخص می کند: با افزایش GRP سرانه 1000 روبل، متوسط ​​درآمد نقدی سرانه به طور متوسط ​​(همانطور که با علامت "+" نشان داده شده است) 22.28 روبل افزایش می یابد.

پارامتر معادله رگرسیون در مطالعات اجتماعی-اقتصادی، به عنوان یک قاعده، معنادار تفسیر نمی شود. به طور رسمی، مقدار ویژگی - نتیجه را منعکس می کند، مشروط بر اینکه عامل ویژگی - برابر با صفر باشد. این پارامتر مکان خط رگرسیون را در نمودار مشخص می کند، به شکل 7.1 مراجعه کنید.

شکل 7.1 - میدان همبستگی و خط رگرسیون که منعکس کننده وابستگی سطح درآمد پولی سرانه جمعیت در مناطق روسیه و ارزش GRP سرانه است.

مقدار پارامتر مربوط به نقطه تقاطع خط رگرسیون با محور Y، در X=0 است.

ساخت یک معادله رگرسیون با ارزیابی اهمیت آماری معادله به عنوان یک کل و پارامترهای آن همراه است. نیاز به چنین رویه هایی به دلیل حجم محدود داده است که ممکن است مانع از عملکرد قانون شود اعداد بزرگو در نتیجه، شناسایی روند واقعی در رابطه بین شاخص های تحلیل شده. علاوه بر این، هر جمعیت مورد مطالعه را می توان به عنوان نمونه ای از جامعه عمومی در نظر گرفت و ویژگی های به دست آمده در طول تجزیه و تحلیل را به عنوان ارزیابی پارامترهای کلی در نظر گرفت.

ارزیابی اهمیت آماری پارامترها و معادله به عنوان یک کل، دلیلی بر امکان استفاده از مدل ارتباطی ساخته شده برای تصمیم گیری مدیریت و پیش بینی (مدل سازی) است.

اهمیت آماری معادله رگرسیونبه طور کلی با استفاده از تست F فیشر، که نسبت فاکتور و واریانس باقیمانده محاسبه شده به ازای درجه آزادی است:

جایی که - پراکندگی عاملی ویژگی - نتیجه؛ k - تعداد درجات آزادی پراکندگی عامل (تعداد عوامل در معادله رگرسیون). - مقدار متوسط ​​متغیر وابسته؛ - مقدار نظری (به دست آمده از معادله رگرسیون) متغیر وابسته برای واحد i-امین جمعیت. - واریانس باقیماندهعلامت - نتیجه; n حجم جمعیت است. n-k-1 - تعداد درجات آزادی پراکندگی باقیمانده.

مقدار آزمون F فیشر، طبق فرمول، رابطه بین عامل و واریانس‌های باقی‌مانده متغیر وابسته را مشخص می‌کند و در اصل نشان می‌دهد که مقدار بخش توضیح‌داده‌شده تغییرات چند برابر بیشتر از قسمت غیرقابل توضیح است.

آزمون F فیشر جدول بندی شده است؛ ورودی جدول، تعداد درجات آزادی عامل و واریانس های باقیمانده است. مقایسه مقدار محاسبه شده معیار با معیار جدول بندی شده (بحرانی) به ما امکان می دهد به این سوال پاسخ دهیم: آیا آن بخشی از تغییرات در نتیجه-ویژگی که می تواند با عوامل موجود در معادله این نوع توضیح داده شود، از نظر آماری معنادار است؟ اگر ، سپس معادله رگرسیون از نظر آماری معنی دار در نظر گرفته شده و بر این اساس ضریب تعیین از نظر آماری معنادار است. در غیر این صورت ( )، معادله از نظر آماری ناچیز است، یعنی. تغییرات عوامل در نظر گرفته شده در معادله بخش قابل توجهی از تغییرات در ویژگی نتیجه را توضیح نمی دهد یا معادله رابطه به درستی انتخاب نشده است.

برآورد اهمیت آماری پارامترهای معادلهبر اساس انجام شد آمار tکه به عنوان نسبت مدول پارامترهای معادله رگرسیون به خطاهای استاندارد آنها محاسبه می شود ( ):

، جایی که ; (7.6)

، جایی که ; (7.7)

جایی که - انحراف معیارعلامت - عامل و علامت - نتیجه; - ضریب تعیین.

در برنامه های آماری تخصصی، محاسبه پارامترها همیشه با محاسبه مقادیر خطاهای استاندارد (میانگین مربع) آنها و آمار t همراه است (جدول 7.1 را ببینید). مقدار آماره t محاسبه شده با جدول یک مقایسه می شود؛ اگر حجم جامعه مورد مطالعه کمتر از 30 واحد باشد (مسلماً نمونه کوچکی است) باید به جدول توزیع t Student مراجعه کنید؛ اگر حجم جامعه بزرگ است. ، باید از جدول توزیع نرمال (انتگرال احتمال لاپلاس) استفاده کنید. یک پارامتر معادله از نظر آماری معنی دار در نظر گرفته می شود اگر.

تخمین پارامترها بر اساس آمار t اساساً آزمون فرضیه صفر است که پارامترهای کلی برابر با صفر هستند (H 0: = 0؛ H 0: = 0;)، یعنی پارامترهای معادله رگرسیون برابر است. از نظر آماری ناچیز است. سطح معنی داری فرضیه معمولاً پذیرفته می شود: 05/0 =. اگر سطح معنی داری محاسبه شده کمتر از 0.05 باشد، فرضیه صفر رد می شود و فرضیه جایگزین پذیرفته می شود - در مورد اهمیت آماری پارامتر.

بیایید با مثال ادامه دهیم. در جدول 7.1، ستون "B" مقادیر پارامترها را نشان می دهد و ستون Std.Err.ofB مقادیر خطاهای استاندارد پارامترها را نشان می دهد. ، در ستون t (77 - تعداد درجات آزادی) مقادیر t - آمار با در نظر گرفتن تعداد درجات آزادی محاسبه می شود. برای ارزیابی اهمیت آماری پارامترها، مقادیر محاسبه شده آمار t باید با مقدار جدول مقایسه شود. سطح معناداری مشخص شده (0.05) در جدول توزیع نرمال با t = 1.96 مطابقت دارد. از 18.02، 10.84، یعنی. ، اهمیت آماری مقادیر پارامتر به دست آمده باید تشخیص داده شود، یعنی. این مقادیر تحت تأثیر عوامل غیرتصادفی شکل می گیرند و گرایش رابطه بین شاخص های تحلیل شده را منعکس می کنند.

برای ارزیابی اهمیت آماری معادله به عنوان یک کل، اجازه دهید به ارزش آزمون F فیشر بپردازیم (جدول 7.1 را ببینید). مقدار محاسبه شده معیار F = 117.51، مقدار جدول بندی شده معیار، بر اساس تعداد درجات آزادی متناظر (برای پراکندگی عامل d.f. = 1، برای پراکندگی باقیمانده d.f. = 77)، برابر با 4.00 است (پیوست را ببینید. .... .). بدین ترتیب، بنابراین، معادله رگرسیون به عنوان یک کل از نظر آماری معنادار است. در چنین شرایطی می توان در مورد اهمیت آماری مقدار ضریب تعیین صحبت کرد. 60 درصد از تغییرات درآمد سرانه جمعیت در مناطق روسیه را می توان با تغییر در حجم تولید ناخالص سرانه منطقه توضیح داد.

با ارزیابی اهمیت آماری معادله رگرسیون و پارامترهای آن، می‌توان ترکیب متفاوتی از نتایج را به دست آورد.

· معادله مطابق با آزمون F از نظر آماری معنی دار بوده و تمامی پارامترهای معادله بر اساس آماره t نیز از نظر آماری معنادار هستند. از این معادله می توان هم برای تصمیم گیری های مدیریتی (برای حصول نتیجه مطلوب بر کدام عوامل تأثیر گذاشت) و هم برای پیش بینی رفتار صفت نتیجه در مقادیر معینی از عوامل استفاده کرد.

· طبق آزمون F معادله از نظر آماری معنادار است، اما پارامترهای (پارامتر) معادله ناچیز است. معادله را می توان برای تصمیم گیری مدیریت (مربوط به آن دسته از عواملی که تأیید اهمیت آماری تأثیر آنها به دست آمده است) استفاده کرد، اما از معادله نمی توان برای پیش بینی استفاده کرد.

· معادله F-test از نظر آماری ناچیز است. معادله قابل استفاده نیست. جستجو برای نشانه ها-عوامل مهم یا شکل تحلیلی ارتباط بین استدلال و پاسخ باید ادامه یابد.

اگر اهمیت آماری معادله و پارامترهای آن تأیید شود، به اصطلاح پیش‌بینی نقطه‌ای می‌تواند محقق شود، یعنی. تخمینی از مقدار مشخصه نتیجه (y) برای مقادیر معینی از عامل (x) به دست آمد.

کاملاً بدیهی است که مقدار پیش‌بینی‌شده متغیر وابسته که بر اساس معادله رابطه محاسبه می‌شود، با مقدار واقعی آن منطبق نخواهد شد. ) از نظر گرافیکی، این وضعیت با این واقعیت تأیید می شود که همه نقاط میدان همبستگی روی خط رگرسیون قرار ندارند، تنها با یک اتصال عملکردی، خط رگرسیون از تمام نقاط نمودار پراکندگی عبور می کند. وجود اختلاف بین مقادیر واقعی و نظری متغیر وابسته، اول از همه، با ماهیت وابستگی همبستگی مرتبط است: در عین حال، نتیجه تحت تأثیر عوامل بسیاری قرار می گیرد که تنها بخشی از آنهاست. را می توان در یک معادله ارتباطی خاص در نظر گرفت. علاوه بر این، شکل ارتباط بین نتیجه و عامل (نوع معادله رگرسیون) ممکن است اشتباه انتخاب شود. در این راستا، این سوال مطرح می شود که معادله جفت ساخته شده چقدر آموزنده است. دو شاخص به این سؤال پاسخ می دهند: ضریب تعیین (که قبلاً در بالا مورد بحث قرار گرفت) و خطای استاندارد برآورد.

تفاوت بین مقادیر واقعی و نظری متغیر وابسته نامیده می شود انحرافات یا خطاها یا باقیمانده ها. بر اساس این مقادیر، واریانس باقیمانده محاسبه می شود. ریشه دوماز واریانس باقیمانده و است خطای تخمین ریشه میانگین مربع (استاندارد):

= (7.8)

خطای استاندارد معادله با همان واحدهای مقدار پیش بینی شده اندازه گیری می شود. اگر خطاهای معادله از توزیع نرمال پیروی کنند (برای مقادیر زیاد داده)، 95 درصد از مقادیر باید در 2S خط رگرسیون باشد (بر اساس ویژگی توزیع نرمال - قانون سه سیگما) . مقدار خطای استاندارد برآورد هنگام محاسبه فواصل اطمینان هنگام پیش‌بینی مقدار یک مشخصه - نتیجه برای یک واحد خاص از جمعیت - استفاده می‌شود.

در تحقیقات عملی، اغلب نیاز به پیش‌بینی مقدار متوسط ​​یک مشخصه - نتیجه یک مقدار خاص از ویژگی - عامل وجود دارد. در این حالت، در محاسبه فاصله اطمینان برای مقدار میانگین متغیر وابسته ()

ارزش در نظر گرفته شده است خطای متوسط:

(7.9)

استفاده از مقادیر مختلف خطا با این واقعیت توضیح داده می شود که تنوع سطوح شاخص در واحدهای خاص جامعه بسیار بیشتر از تغییرپذیری مقدار متوسط ​​است، بنابراین خطا در پیش بینی مقدار متوسط ​​کمتر است.

فاصله اطمینان برای پیش بینی مقدار میانگین متغیر وابسته:

, (7.10)

جایی که - خطای حاشیه ایتخمین ها (به نظریه نمونه گیری مراجعه کنید). t – ضریب اطمینان که مقدار آن در جدول مربوطه بر اساس سطح احتمال (تعداد درجات آزادی) مورد قبول محقق است (به نظریه نمونه‌گیری مراجعه کنید).

فاصله اطمینان برای مقدار پیش‌بینی‌شده مشخصه نتیجه نیز می‌تواند با در نظر گرفتن تصحیح برای بایاس (تغییر) خط رگرسیون محاسبه شود. مقدار ضریب تصحیح تعیین می شود:

(7.11)

مقدار مشخصه عامل کجاست که بر اساس آن مقدار مشخصه نتیجه پیش بینی می شود.

نتیجه این است که هر چه مقدار با میانگین مقدار صفت عامل متفاوت باشد، ارزش بزرگترضریب تصحیح، خطای پیش‌بینی بیشتر است. با در نظر گرفتن این ضریب، فاصله اطمینان پیش بینی محاسبه می شود:

دقت پیش‌بینی بر اساس معادله رگرسیون ممکن است تحت تأثیر قرار گیرد دلایل مختلف. اول از همه، باید در نظر داشت که ارزیابی کیفیت معادله و پارامترهای آن بر اساس این فرض انجام می شود که توزیع نرمالباقی مانده های تصادفی نقض این فرض ممکن است به دلیل وجود مقادیر بسیار متفاوت در داده ها، تغییرات ناهموار یا وجود یک رابطه غیر خطی باشد. در این صورت کیفیت پیش بینی کاهش می یابد. نکته دومی که باید به خاطر بسپارید این است که مقادیر فاکتورهایی که هنگام پیش‌بینی نتیجه در نظر گرفته می‌شوند نباید فراتر از دامنه تغییرات در داده‌هایی باشد که معادله بر اساس آن است.

©2015-2019 سایت
تمامی حقوق متعلق به نویسندگان آنها می باشد. این سایت ادعای نویسندگی ندارد، اما استفاده رایگان را فراهم می کند.
تاریخ ایجاد صفحه: 2018-01-08

پس از ارزیابی پارامترها آو ب، یک معادله رگرسیونی به دست آورده ایم که با آن می توانیم مقادیر را تخمین بزنیم yبا توجه به مقادیر داده شده ایکس. طبیعی است که باور کنیم که مقادیر محاسبه شده متغیر وابسته با مقادیر واقعی منطبق نخواهد شد، زیرا خط رگرسیون فقط به طور کلی رابطه را به طور متوسط ​​توصیف می کند. معانی فردی در اطراف آن پراکنده است. بنابراین، قابلیت اطمینان مقادیر محاسبه شده به دست آمده از معادله رگرسیون تا حد زیادی با پراکندگی مقادیر مشاهده شده در اطراف خط رگرسیون تعیین می شود. در عمل، به عنوان یک قاعده، واریانس خطا ناشناخته است و از مشاهدات به طور همزمان با پارامترهای رگرسیون تخمین زده می شود. آو ب. کاملاً منطقی است که فرض کنیم برآورد مربوط به مجموع مجذورهای باقیمانده رگرسیون است. کمیت یک تخمین نمونه از پراکندگی اختلالات موجود در آن است مدل نظری . می توان نشان داد که برای مدل رگرسیون زوجی

انحراف مقدار واقعی متغیر وابسته از مقدار محاسبه شده آن کجاست.

اگر سپس برای همه مشاهدات، مقادیر واقعی متغیر وابسته با مقادیر محاسبه شده (نظری) منطبق است. . از نظر گرافیکی، این بدان معنی است که خط رگرسیون نظری (خطی که با استفاده از تابع ساخته شده است) از تمام نقاط میدان همبستگی عبور می کند که تنها با یک اتصال کاملاً عملکردی امکان پذیر است. بنابراین، نشانه موثر درکاملاً ناشی از تأثیر عامل است ایکس.

معمولاً در عمل مقداری پراکندگی نقاط میدان همبستگی نسبت به خط رگرسیون نظری وجود دارد، یعنی انحرافات داده های تجربی از داده های نظری. این پراکندگی هر دو به دلیل تأثیر عامل است ایکس، یعنی پسرفت yتوسط ایکس، (چنین واریانسی توضیح داده شده نامیده می شود، زیرا با معادله رگرسیون توضیح داده می شود) و با عمل دلایل دیگر (تغییرات غیرقابل توضیح، تصادفی). بزرگی این انحرافات مبنای محاسبه شاخص های کیفی معادله است.

بر اساس اصل اساسی تحلیل واریانس، مجموع مجذور انحرافات متغیر وابسته yاز مقدار متوسط ​​را می توان به دو جزء تجزیه کرد: با معادله رگرسیون توضیح داده شده و غیر قابل توضیح:

,

ارزش ها کجا هستند y، با توجه به معادله محاسبه می شود.

اجازه دهید نسبت مجموع مجذور انحرافات توضیح داده شده با معادله رگرسیون را به مجموع مجموع مجذورها پیدا کنیم:

، جایی که

. (7.6)

نسبت بخش واریانس توضیح داده شده توسط معادله رگرسیون به واریانس کلمشخصه موثر را ضریب تعیین می نامند. مقدار نمی تواند از واحد تجاوز کند و این مقدار حداکثر فقط در، یعنی به دست می آید. هنگامی که هر انحراف صفر است و بنابراین تمام نقاط در نمودار پراکندگی دقیقاً روی یک خط مستقیم قرار می گیرند.

ضریب تعیین، سهم واریانس توضیح داده شده با رگرسیون در کل واریانس متغیر وابسته را مشخص می کند. . بر این اساس، مقدار سهم تغییرات (پراکندگی) را مشخص می کند. توسط معادله رگرسیون توضیح داده نشده است، و بنابراین ناشی از تأثیر عوامل دیگری است که در مدل در نظر گرفته نشده اند. هرچه به وحدت نزدیکتر باشد، کیفیت مدل بالاتر است.



در رگرسیون خطی زوجی، ضریب تعیین برابر مربعدو برابر می شود ضریب خطیهمبستگی ها: .

ریشه این ضریب تعیین ضریب (شاخص) است. همبستگی چندگانه، یا نظری رابطه همبستگی.

برای اینکه بفهمیم آیا مقدار ضریب تعیین به دست آمده هنگام تخمین رگرسیون واقعاً منعکس کننده رابطه واقعی بین yو ایکساهمیت معادله ساخته شده را به عنوان یک کل و پارامترهای جداگانه بررسی کنید. آزمایش اهمیت معادله رگرسیون به شما امکان می دهد بدانید که آیا معادله رگرسیون برای استفاده عملی مانند پیش بینی مناسب است یا خیر.

در عین حال، فرضیه اصلی در مورد بی اهمیت بودن معادله به عنوان یک کل مطرح می شود که به طور رسمی به این فرضیه کاهش می یابد که پارامترهای رگرسیون برابر با صفر هستند، یا همان چیزی است که ضریب تعیین برابر است. به صفر: . یک فرضیه جایگزین در مورد اهمیت معادله، این فرضیه است که پارامترهای رگرسیون برابر با صفر نیستند یا ضریب تعیین برابر با صفر نیست: .

برای آزمون اهمیت مدل رگرسیون، استفاده کنید F-معیار فیشر، که به عنوان نسبت مجموع مربع ها (به ازای هر یک متغیر مستقل) به مجموع باقیمانده مربع ها (به ازای یک درجه آزادی) محاسبه می شود:

, (7.7)

جایی که ک- تعداد متغیرهای مستقل

پس از تقسیم صورت و مخرج رابطه (7.7) بر مبلغ کلمربع انحراف متغیر وابسته، F-این معیار را می توان به طور معادل بر اساس ضریب بیان کرد:

.

اگر فرضیه صفر درست باشد، واریانس توضیح داده شده توسط معادله رگرسیون و واریانس غیر قابل توضیح (باقیمانده) با یکدیگر تفاوتی ندارند.

ارزش تخمینی F-این معیار با مقدار بحرانی مقایسه می شود که به تعداد متغیرهای مستقل بستگی دارد کو بر تعداد درجات آزادی (n-k-1). مقدار جدول (بحرانی). F-معیار حداکثر مقدار نسبت واریانس است که می تواند در صورت واگرایی تصادفی برای سطح معینی از احتمال فرضیه صفر رخ دهد. اگر مقدار محاسبه شده F-معیار بزرگتر از جدول در سطح معینی از اهمیت باشد، سپس فرضیه صفر در مورد عدم وجود رابطه رد شده و در مورد اهمیت این رابطه نتیجه گیری می شود، یعنی. مدل قابل توجه در نظر گرفته می شود.

برای یک مدل رگرسیون زوجی

.

در رگرسیون خطی، اهمیت نه تنها معادله به عنوان یک کل، بلکه ضرایب فردی آن نیز معمولاً ارزیابی می شود. برای انجام این کار، خطای استاندارد هر پارامتر تعیین می شود. خطاهای استاندارد ضرایب رگرسیون پارامترها با فرمول تعیین می شود:

, (7.8)

(7.9)

خطاهای استاندارد ضرایب رگرسیون یا انحرافات استاندارد محاسبه شده با استفاده از فرمول های (7.8،7.9)، به عنوان یک قاعده، در نتایج محاسبه مدل رگرسیون در بسته های آماری آورده شده است.

بر اساس ریشه میانگین مربعات خطاهای ضرایب رگرسیون، اهمیت این ضرایب با استفاده از طرح معمول برای آزمون فرضیه های آماری بررسی می شود.

فرضیه اصلی این است که ضریب رگرسیون "درست" به طور ناچیز با صفر متفاوت است. یک فرضیه جایگزین در این مورد، فرضیه مخالف است، یعنی اینکه پارامتر رگرسیون "درست" برابر با صفر نیست. این فرضیه با استفاده از t-آماری که دارند تی-توزیع دانش آموزی:

سپس مقادیر محاسبه شده t-آمار با مقادیر بحرانی مقایسه می شود t-آمار تعیین شده از جداول توزیع دانش آموز. مقدار بحرانی بسته به سطح اهمیت تعیین می شود α و تعداد درجات آزادی که برابر است با (n-k-1)، n -تعداد مشاهدات، ک- تعداد متغیرهای مستقل در مورد رگرسیون زوجی خطی، تعداد درجات آزادی برابر است (پ- 2). مقدار بحرانی را می توان با استفاده از تابع داخلی STUDARCOVER در بسته اکسل نیز در رایانه محاسبه کرد.

اگر مقدار محاسبه شده t-آمار بیش از حد بحرانی است، سپس فرضیه اصلی رد شده و اعتقاد بر این است که با احتمال (1-α)ضریب رگرسیون "واقعی" به طور قابل توجهی با صفر متفاوت است، که تاییدی آماری از وجود وابستگی خطی متغیرهای مربوطه است.

اگر مقدار محاسبه شده t-آمار کمتر از بحرانی است، پس هیچ دلیلی برای رد فرضیه اصلی وجود ندارد، یعنی ضریب رگرسیون "درست" تفاوت معنی داری با صفر در سطح معنی داری ندارد. α . در این صورت عامل مربوط به این ضریب باید از مدل حذف شود.

اهمیت ضریب رگرسیون را می توان با ایجاد فاصله اطمینان تعیین کرد. فاصله اطمینان برای پارامترهای رگرسیون آو ببه صورت زیر تعریف شده است:

,

,

جایی که از جدول توزیع دانشجو برای سطح معنی داری تعیین می شود α و تعداد درجات آزادی (پ- 2) برای رگرسیون زوجی.

از آنجایی که ضرایب رگرسیون در مطالعات اقتصادسنجی تفسیر اقتصادی روشنی دارد، فواصل اطمینان نباید حاوی صفر باشد. مقدار واقعی یک ضریب رگرسیون نمی تواند به طور همزمان حاوی مقادیر مثبت و منفی از جمله صفر باشد، در غیر این صورت هنگام تفسیر اقتصادی ضرایب به نتایج متناقضی می رسیم که نمی تواند چنین باشد. بنابراین، اگر فاصله اطمینان حاصله صفر را پوشش ندهد، ضریب قابل توجه است.

مثال 7.4.طبق مثال 7.1:

الف) یک مدل رگرسیون خطی زوجی از وابستگی سود فروش به قیمت فروش با استفاده از نرم افزار پردازش داده بسازید.

ب) اهمیت معادله رگرسیون را به عنوان یک کل با استفاده از آن ارزیابی کنید F-معیار فیشر در α=0.05.

ج) اهمیت ضرایب مدل رگرسیون را با استفاده از آن ارزیابی کنید تی-آزمون دانش آموز در α=0.05و α=0.1.

برای تجزیه و تحلیل رگرسیونما از دفتر استاندارد استفاده می کنیم برنامه EXCEL. ما یک مدل رگرسیون با استفاده از ابزار REGRESSION تنظیمات ANALYSIS PACKAGE (شکل 7.5) خواهیم ساخت که به صورت زیر راه اندازی می شود:

ServiceData AnalysisREGRESSIONOK.

شکل 7.5. با استفاده از ابزار REGRESSION

در کادر محاوره‌ای REGRESSION، در قسمت Input interval Y، باید آدرس محدوده سلول‌های حاوی متغیر وابسته را وارد کنید. در قسمت Input interval X، باید آدرس یک یا چند محدوده حاوی مقادیر متغیرهای مستقل را وارد کنید، چک باکس Labels در خط اول در صورتی فعال است که سرصفحه ستون ها نیز انتخاب شده باشد. در شکل 7.6. فرم صفحه را برای محاسبه مدل رگرسیون با استفاده از ابزار REGRESSION نشان می دهد.

برنج. 7.6. ساخت مدل رگرسیون زوجی با استفاده از

ابزار رگرسیون

در نتیجه ابزار REGRESSION، پروتکل تحلیل رگرسیون زیر تولید می شود (شکل 7.7).

برنج. 7.7. پروتکل تحلیل رگرسیون

معادله وابستگی سود حاصل از فروش به قیمت فروش به شکل زیر است:

ما اهمیت معادله رگرسیون را با استفاده از آن ارزیابی خواهیم کرد F-تست فیشر معنی F-ما معیار فیشر را از جدول می گیریم. تحلیل واریانس» پروتکل EXCEL (شکل 7.7.). ارزش تخمینی F-معیار 53.372. مقدار جدول F-معیار در سطح معناداری α=0.05و تعداد درجات آزادی 4.964 است. زیرا ، سپس معادله معنی دار در نظر گرفته می شود.

مقادیر محاسبه شده تیآزمون های t دانشجویی برای ضرایب معادله رگرسیون در جدول نتیجه نشان داده شده است (شکل 7.7). مقدار جدول تی-آزمون تی دانشجویی در سطح معناداری α=0.05و 10 درجه آزادی 2.228 است. برای ضریب رگرسیون آ، بنابراین ضریب آقابل توجه نیست برای ضریب رگرسیون ببنابراین، ضریب بقابل توجه

برآورد اهمیت پارامترهای معادله رگرسیون

اهمیت پارامترهای معادله رگرسیون خطی با استفاده از آزمون دانشجو ارزیابی می شود:

اگر تیکالک > تی cr، سپس فرضیه اصلی پذیرفته می شود ( H o) که نشان دهنده اهمیت آماری پارامترهای رگرسیون است.

اگر تیکالک< تی cr، سپس فرضیه جایگزین پذیرفته می شود ( H 1) که بیانگر بی اهمیت بودن آماری پارامترهای رگرسیون است.

جایی که m a , MB- خطاهای استاندارد پارامترها آو ب:

(2.19)

(2.20)

مقدار بحرانی (جدولی) معیار با استفاده از جداول آماری توزیع دانشجو (پیوست B) یا با استفاده از جداول بدست می آید. برتری داشتن(بخش جادوگر تابع "آماری"):

تی cr = STUDARSOBR( α=1-P; k=n-2), (2.21)

جایی که k=n-2همچنین نشان دهنده تعداد درجات آزادی است .

ارزیابی اهمیت آماری را می توان برای ضریب همبستگی خطی نیز اعمال کرد

جایی که آقای- خطای استاندارد در تعیین مقادیر ضریب همبستگی r yx

(2.23)

در زیر گزینه هایی برای وظایف عملی و کار آزمایشگاهیدر مورد موضوعات بخش دوم

سوالات خودآزمایی بخش 2

1. اجزای اصلی مدل اقتصادسنجی و ماهیت آنها را مشخص کنید.

2. محتوای اصلی مراحل تحقیق اقتصادسنجی.

3. ماهیت رویکردها برای تعیین پارامترهای رگرسیون خطی.

4. ماهیت و ویژگی استفاده از روش حداقل مربعات در تعیین پارامترهای معادله رگرسیون.

5. برای ارزیابی نزدیکی رابطه بین عوامل مورد مطالعه از چه شاخص هایی استفاده می شود؟

6. ماهیت ضریب همبستگی خطی.

7. ماهیت ضریب تعیین.

8. ماهیت و ویژگی های اصلی رویه های ارزیابی کفایت (معنی دار بودن آماری) مدل های رگرسیون.

9. ارزیابی کفایت مدل های رگرسیون خطی با ضریب تقریب.

10. جوهر رویکرد برای ارزیابی کفایت مدل های رگرسیون با استفاده از معیار فیشر. تعیین مقادیر معیار تجربی و انتقادی.

11. ماهیت مفهوم «تحلیل واریانس» در رابطه با تحقیقات اقتصادسنجی.

12. ماهیت و ویژگی های اصلی روش برای ارزیابی اهمیت پارامترهای یک معادله رگرسیون خطی.

13. ویژگی های استفاده از توزیع Student هنگام ارزیابی اهمیت پارامترهای یک معادله رگرسیون خطی.

14- تکلیف پیش‌بینی ارزش‌های تک پدیده اجتماعی-اقتصادی مورد مطالعه چیست؟

1. یک میدان همبستگی بسازید و یک فرض در مورد شکل معادله برای رابطه عوامل مورد مطالعه فرموله کنید.

2. معادلات اساسی روش حداقل مربعات را بنویسید، تبدیل های لازم را انجام دهید، جدولی برای محاسبات میانی تهیه کنید و پارامترهای معادله رگرسیون خطی را تعیین کنید.

3. صحت محاسبات را با استفاده از رویه ها و توابع استاندارد صفحات گسترده Excel بررسی کنید.

4. تجزیه و تحلیل نتایج، تدوین نتیجه گیری و توصیه ها.

1. محاسبه مقدار ضریب همبستگی خطی.

2. ساخت جدول تحلیل واریانس.

3. برآورد ضریب تعیین;

4. صحت محاسبات را با استفاده از رویه ها و توابع استاندارد صفحات گسترده Excel بررسی کنید.

5. نتایج را تجزیه و تحلیل کنید، نتیجه گیری و توصیه ها را تدوین کنید.

4. رفتار ارزیابی کلیکفایت معادله رگرسیون انتخابی؛

1. ارزیابی کفایت معادله بر اساس مقادیر ضریب تقریب.

2. ارزیابی کفایت معادله بر اساس مقادیر ضریب تعیین.

3. ارزیابی کفایت معادله با استفاده از معیار فیشر.

4. یک ارزیابی کلی از کفایت پارامترهای معادله رگرسیون انجام دهید.

5. صحت محاسبات را با استفاده از رویه ها و توابع استاندارد صفحات گسترده Excel بررسی کنید.

6. نتایج را تجزیه و تحلیل کنید، نتیجه گیری و توصیه ها را تدوین کنید.

1. استفاده از رویه های استاندارد جادوگر توابع صفحه گسترده اکسل (از بخش های "ریاضی" و "آماری").

2. آماده سازی داده ها و ویژگی های استفاده از تابع LINEST.

3. آماده سازی داده ها و ویژگی های استفاده از تابع "PREDICTION".

1. استفاده از روش های استاندارد بسته تجزیه و تحلیل داده های صفحه گسترده اکسل.

2. آماده سازی داده ها و ویژگی های به کارگیری روش "رگرسیون".

3. تفسیر و ترکیب داده های جدول تحلیل رگرسیون.

4. تفسیر و ترکیب داده ها از جدول تحلیل واریانس.

5. تفسیر و تعمیم داده ها از جدول برای ارزیابی اهمیت پارامترهای معادله رگرسیون.

هنگام انجام کارهای آزمایشگاهی بر اساس یکی از گزینه ها، باید وظایف خاص زیر را انجام دهید:

1. شکل معادله را برای رابطه عوامل مورد مطالعه انتخاب کنید.

2. پارامترهای معادله رگرسیون را تعیین کنید.

3. ارزیابی رابطه نزدیک عوامل مورد مطالعه.

4. کفایت معادله رگرسیون انتخابی را ارزیابی کنید.

5. اهمیت آماری پارامترهای معادله رگرسیون را ارزیابی کنید.

6. صحت محاسبات را با استفاده از رویه ها و توابع استاندارد صفحات گسترده Excel بررسی کنید.

7. نتایج را تجزیه و تحلیل کنید، نتیجه گیری و توصیه ها را تدوین کنید.

تکالیف برای کارهای عملی و آزمایشگاهی با موضوع "اتاق بخار" رگرسیون خطیو همبستگی در تحقیقات اقتصادسنجی.

انتخاب 1 گزینه 2 گزینه 3 گزینه 4 گزینه 5
ایکس y ایکس y ایکس y ایکس y ایکس y
گزینه 6 گزینه 7 گزینه 8 گزینه 9 گزینه 10
ایکس y ایکس y ایکس y ایکس y ایکس y

برای سنجش معنی داری و معناداری ضریب همبستگی از آزمون t استیودنت استفاده می شود.

میانگین خطای ضریب همبستگی با استفاده از فرمول به دست می آید:

ن
و بر اساس خطا، معیار t محاسبه می شود:

مقدار آزمون t محاسبه شده با مقدار جدول بندی شده موجود در جدول توزیع Student در سطح معنی داری 0.05 یا 0.01 و تعداد درجات آزادی n-1 مقایسه می شود. اگر مقدار محاسبه شده آزمون t بیشتر از مقدار جدول باشد، ضریب همبستگی معنی دار در نظر گرفته می شود.

در مورد رابطه منحنی، از آزمون F برای ارزیابی اهمیت رابطه همبستگی و معادله رگرسیون استفاده می شود. با فرمول محاسبه می شود:

یا

که در آن η نسبت همبستگی است. n - تعداد مشاهدات؛ m - تعداد پارامترها در معادله رگرسیون.

مقدار F محاسبه‌شده برای سطح معناداری پذیرفته‌شده α (0.05 یا 0.01) و اعداد درجات آزادی k1 =m-1 و k2 =n-m مقایسه می‌شود. اگر مقدار F محاسبه شده از جدول یک بیشتر شود، رابطه معنی دار در نظر گرفته می شود.

اهمیت ضریب رگرسیون با استفاده از آزمون t-student که با استفاده از فرمول محاسبه می شود، تعیین می شود:

که σ 2 و i واریانس ضریب رگرسیون است.

با فرمول محاسبه می شود:

که در آن k تعداد مشخصه های عامل در معادله رگرسیون است.

ضریب رگرسیون اگر t a 1≥t cr باشد، معنی دار در نظر گرفته می شود. t cr در جدول نقاط بحرانی توزیع Student در سطح معناداری پذیرفته شده و تعداد درجات آزادی k=n-1 یافت می شود.

4.3. تحلیل همبستگی و رگرسیون در اکسل

بیایید یک تجزیه و تحلیل همبستگی-رگرسیون از رابطه بین عملکرد و هزینه های نیروی کار در هر 1 کوینتال دانه انجام دهیم. برای انجام این کار، یک برگه اکسل را باز کنید و مقادیر مشخصه فاکتور را در سلول های A1:A30 وارد کنید. بازده محصولات غلات، در سلول های B1:B30، ارزش مشخصه حاصل هزینه کار به ازای هر 1 کوینتال دانه است. در منوی Tools گزینه Data Analysis را انتخاب کنید. با کلیک چپ روی این مورد، ابزار Regression را باز می کنیم. روی دکمه OK کلیک کنید و کادر محاوره ای Regression روی صفحه ظاهر می شود. در قسمت Input interval Y مقادیر مشخصه حاصل را وارد کنید (برجستگی سلول های B1:B30) و در قسمت Input interval X مقادیر مشخصه عامل را وارد کنید (سلول های A1:A30 برجسته کنید). سطح احتمال 95% را علامت بزنید و برگه جدید را انتخاب کنید. بر روی دکمه OK کلیک کنید. جدول "نتیجه گیری نتایج" روی کاربرگ ظاهر می شود که نتایج محاسبه پارامترهای معادله رگرسیون، ضریب همبستگی و سایر شاخص هایی را نشان می دهد که به شما امکان می دهد اهمیت ضریب همبستگی و پارامترهای معادله رگرسیون را تعیین کنید.

نتیجه گیری از نتایج

آمار رگرسیون

جمع R

R-square

R-squared نرمال شده

خطای استاندارد

مشاهدات

تحلیل واریانس

اهمیت F

پسرفت

شانس

خطای استاندارد

آمار t

P-Value

95% پایین

95% برتر

95.0% پایین

95.0% برتر

تقاطع Y

متغیر X 1

در این جدول، "R چندگانه" ضریب همبستگی، "R-squared" ضریب تعیین است. "ضرایب: تقاطع Y" - ترم آزاد معادله رگرسیون 2.836242. "متغیر X1" - ضریب رگرسیون -0.06654. همچنین مقادیری از آزمون F فیشر 74.9876، آزمون t Student 14.18042، "خطای استاندارد 0.112121" وجود دارد که برای ارزیابی اهمیت ضریب همبستگی، پارامترهای معادله رگرسیون و کل معادله ضروری است.

بر اساس داده های جدول، یک معادله رگرسیونی می سازیم: y x ​​= 2.836-0.067x. ضریب رگرسیون a 1 = -0.067 به این معنی است که با افزایش عملکرد دانه به میزان 1 سانتی‌گراد در هکتار، هزینه‌های نیروی کار در هر 1 سانتی‌گراد دانه به میزان 0.067 نفر در ساعت کاهش می‌یابد.

ضریب همبستگی r=0.85>0.7 است، بنابراین رابطه بین ویژگی های مورد مطالعه در این جامعه نزدیک است. ضریب تعیین r 2 = 0.73 نشان می دهد که 73 درصد از تغییرات در صفت مؤثر (هزینه نیروی کار به ازای هر 1 قنت دانه) ناشی از عمل صفت عامل (عملکرد دانه) است.

در جدول نقاط بحرانیتوزیع Fisher - Snedekor مقدار بحرانی آزمون F را در سطح معنی داری 05/0 و تعداد درجات آزادی را 1 =m-1=2-1=1 و k2 =n-m=30-2= می یابیم. 28 برابر است با 4.21. از آنجایی که مقدار محاسبه شده معیار بزرگتر از جدول جدول است (F=74.9896>4.21)، معادله رگرسیون معنی دار در نظر گرفته می شود.

برای ارزیابی معنی‌داری ضریب همبستگی، آزمون t Student را محاسبه می‌کنیم:

که در
در جدول نقاط بحرانی توزیع Student مقدار بحرانی آزمون t را در سطح معناداری 05/0 و تعداد درجات آزادی n-1=30-1=29 برابر با 0452/2 است. از آنجایی که مقدار محاسبه شده بیشتر از مقدار جدول است، ضریب همبستگی معنادار است.

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...