اهمیت معادله رگرسیون به عنوان یک کل. ارزیابی اهمیت معادله رگرسیون به عنوان یک کل و پارامترهای آن


ارزیابی اهمیت آماری پارامترها و معادله به عنوان یک کل یک روش اجباری است که به شما امکان می دهد در مورد امکان استفاده از معادله ارتباطی ساخته شده برای تصمیم گیری و پیش بینی مدیریت، ورودی ایجاد کنید.

ارزیابی اهمیت آماری معادله رگرسیون با استفاده از آزمون F فیشر انجام می‌شود که نسبت عامل و واریانس‌های باقی‌مانده محاسبه‌شده به ازای درجه آزادی است.

پراکندگی عامل بخشی توضیح داده شده از تغییرات در نتیجه-ویژگی است، یعنی به دلیل تنوع عواملی که در تجزیه و تحلیل (در معادله) گنجانده شده اند:

که در آن k تعداد عوامل در معادله رگرسیون (تعداد درجات آزادی پراکندگی عامل) است. - مقدار متوسط ​​متغیر وابسته؛ - مقدار نظری (محاسبه شده با استفاده از معادله رگرسیون) متغیر وابسته برای i-امین واحد جامعه.

واریانس باقیمانده بخشی غیرقابل توضیح از تغییرات در مشخصه نتیجه است، یعنی به دلیل تغییرات سایر عواملی است که در تجزیه و تحلیل لحاظ نشده است.

= , (71)

مقدار واقعی متغیر وابسته برای واحد i-امین جمعیت کجاست. n-k-1 - تعداد درجات آزادی پراکندگی باقیمانده؛ n حجم جمعیت است.

مجموع واریانس عامل و باقیمانده، همانطور که در بالا ذکر شد، برابر است واریانس کلعلامت نتیجه

آزمون F فیشر با استفاده از فرمول زیر محاسبه می شود:

آزمون F فیشر مقداری است که نسبت واریانس های توضیح داده شده و غیرقابل توضیح را منعکس می کند و به ما امکان می دهد به این سؤال پاسخ دهیم: آیا عوامل موجود در تجزیه و تحلیل، بخش معنی داری از تغییرات در صفت نتیجه را توضیح می دهند. آزمون F فیشر جدول بندی شده است (ورودی جدول تعداد درجات آزادی عامل و واریانس های باقیمانده است). اگر ، سپس معادله رگرسیون از نظر آماری معنی دار در نظر گرفته شده و بر این اساس ضریب تعیین از نظر آماری معنادار است. در غیر این صورت، معادله از نظر آماری معنی دار نیست، یعنی. بخش قابل توجهی از تغییرات در صفت نتیجه را توضیح نمی دهد.

ارزیابی اهمیت آماری پارامترهای معادله بر اساس آماره t انجام می شود که به عنوان نسبت مدول پارامترهای معادله رگرسیون به خطاهای استاندارد آنها محاسبه می شود. ):

، جایی که ; (73)

، جایی که . (74)

در هر برنامه آماری، محاسبه پارامترها همیشه با محاسبه مقادیر خطاهای استاندارد (میانگین مربع) آنها و آمار t همراه است. اگر مقدار آماره t واقعی بیشتر از مقدار جدول بندی شده باشد، یک پارامتر از نظر آماری معنی دار در نظر گرفته می شود.

تخمین پارامترها بر اساس آمار t اساساً آزمون فرضیه صفر است که پارامترهای کلی برابر با صفر هستند (H 0: = 0؛ H 0: = 0;)، یعنی پارامترهای معادله رگرسیون برابر است. قابل توجه نیست سطح معنی داری برای پذیرش فرضیه های صفر = 1-0.95 = 0.05 (0.95 سطح احتمالی است که معمولاً در محاسبات اقتصادی تعیین می شود). اگر سطح معنی داری محاسبه شده کمتر از 0.05 باشد، فرضیه صفر رد می شود و فرضیه جایگزین پذیرفته می شود - در مورد اهمیت آماری پارامتر.

با ارزیابی اهمیت آماری معادله رگرسیون و پارامترهای آن، می‌توان ترکیب‌های مختلفی از نتایج را به دست آورد.

· معادله مطابق با آزمون F از نظر آماری معنی دار بوده و تمامی پارامترهای معادله بر اساس آماره t نیز از نظر آماری معنادار هستند. از این معادله می توان هم برای تصمیم گیری های مدیریتی (برای حصول نتیجه مطلوب بر کدام عوامل تأثیر گذاشت) و هم برای پیش بینی رفتار صفت نتیجه در مقادیر معینی از عوامل استفاده کرد.

· طبق آزمون F معادله از نظر آماری معنی دار است، اما پارامترهای فردی معادله ناچیز هستند. معادله را می توان برای تصمیم گیری مدیریت (مربوط به آن دسته از عواملی که تأیید اهمیت آماری تأثیر آنها به دست آمده است) استفاده کرد، اما از معادله نمی توان برای پیش بینی استفاده کرد.

· معادله F-test از نظر آماری ناچیز است. معادله قابل استفاده نیست. جستجو برای نشانه ها-عوامل مهم یا شکل تحلیلی ارتباط بین استدلال ها و پاسخ باید ادامه یابد.

در صورت تایید اهمیت آماریمعادله و پارامترهای آن، سپس به اصطلاح پیش بینی نقطه ای را می توان تحقق بخشید، یعنی. مقدار احتمالی مشخصه نتیجه (y) برای مقادیر معینی از عوامل (x) محاسبه می شود. کاملاً بدیهی است که مقدار پیش بینی شده متغیر وابسته با مقدار واقعی آن مطابقت نخواهد داشت. این، اول از همه، به دلیل ماهیت وابستگی همبستگی است. در عین حال، نتیجه تحت تأثیر عوامل زیادی قرار می گیرد که تنها بخشی از آنها را می توان در معادله ارتباط در نظر گرفت. علاوه بر این، شکل ارتباط بین نتیجه و عوامل (نوع معادله رگرسیون) ممکن است اشتباه انتخاب شود. همیشه بین مقادیر واقعی ویژگی نتیجه و مقادیر نظری (پیش بینی شده) آن تفاوت وجود دارد ( ). از نظر گرافیکی، این وضعیت در این واقعیت بیان می شود که همه نقاط میدان همبستگی روی خط رگرسیون قرار ندارند. تنها با یک اتصال عملکردی، خط رگرسیون از تمام نقاط میدان همبستگی عبور می کند. تفاوت بین مقادیر واقعی و نظری مشخصه حاصل را انحراف یا خطا یا باقیمانده می نامند. بر اساس این مقادیر، واریانس باقیمانده محاسبه می شود که تخمینی از ریشه میانگین مربعات خطای معادله رگرسیون است. برای محاسبه از مقدار خطای استاندارد استفاده می شود فاصله اطمینانارزش پیش بینی مشخصه نتیجه (Y).

بعد از اینکه معادله پیدا شد رگرسیون خطی، اهمیت معادله به عنوان یک کل و پارامترهای فردی آن ارزیابی می شود.

اهمیت معادله رگرسیون به عنوان یک کل با استفاده از آزمون F فیشر ارزیابی می شود. در این حالت، یک فرضیه صفر مطرح می شود، ضریب رگرسیون برابر با صفر است، یعنی b = 0، و بنابراین، عامل x بر نتیجه y تأثیر نمی گذارد. محاسبه فوری آزمون F با تحلیل واریانس انجام می شود. موقعیت مرکزیحاوی تجزیه است مبلغ کلمجذور انحراف متغیر y از مقدار متوسط ​​y به دو بخش - "توضیح" و "غیر قابل توضیح" (پیوست 2).

مجموع مجذور انحرافات مقادیر فردی مشخصه مؤثر y از مقدار متوسط ​​y تحت تأثیر دلایل بسیاری ایجاد می شود. به طور متعارف، کل مجموعه دلایل را می توان به دو گروه تقسیم کرد:

  • · فاکتور x را مطالعه کرد
  • · سایر عوامل

اگر این عامل بر نتیجه تأثیری نداشته باشد، خط رگرسیون در نمودار موازی با محور xy y = y است. سپس کل واریانس مشخصه حاصل به دلیل تأثیر عوامل دیگر است و مجموع مجذور انحرافات با باقیمانده مطابقت دارد. اگر عوامل دیگر بر نتیجه تأثیر نگذارند، y از نظر عملکردی با x مرتبط است و مجموع مجذورهای باقیمانده صفر است. در این حالت، مجموع انحرافات مجذور تبیین شده توسط رگرسیون با مجموع مجذورات یکسان است.

از آنجایی که همه نقاط میدان همبستگی روی خط رگرسیون قرار ندارند، پراکندگی آنها همیشه رخ می دهد، هم به دلیل تأثیر عامل x، یعنی رگرسیون y روی x، و هم ناشی از تأثیر کمیت های دیگر (تغییر غیرقابل توضیح). مناسب بودن یک خط رگرسیون برای پیش‌بینی بستگی به این دارد که چه مقدار از کل تغییرات در صفت y توسط تغییرات توضیح‌داده‌شده در نظر گرفته می‌شود. بدیهی است که اگر مجموع مجذور انحرافات ناشی از رگرسیون از مجموع مجذور باقیمانده مجذورات بیشتر باشد، معادله رگرسیون از نظر آماری معنادار بوده و عامل x بر نتیجه y تأثیر معناداری دارد. این معادل این واقعیت است که ضریب تعیین r 2 xy به وحدت نزدیک می شود.

هر مجموع انحرافات مجذور با تعداد درجات آزادی (df - درجه آزادی)، یعنی با تعداد آزادی تغییرات مستقل یک مشخصه مرتبط است. تعداد درجات آزادی مربوط به تعداد واحدهای جمعیت n و تعداد ثابت های تعیین شده از آن است. در رابطه با مسئله مورد مطالعه، تعداد درجات آزادی باید نشان دهد که چند انحراف مستقل از n ممکن است [(y 1 -y)، (y 2 -y)،...، (y n -y)] برای تشکیل مجموع مربعات مورد نیاز است. بنابراین، برای مجموع مجموع مربعات؟(y-y) 2، (n-1) انحرافات مستقل مورد نیاز است.

هنگام محاسبه مجموع مربعات توضیح داده شده یا عاملی؟(y x -y) 2، از مقادیر نظری (محاسبه شده) مشخصه حاصل y x استفاده می شود که در امتداد خط رگرسیون یافت می شود: y x ​​=a+b*x.

در رگرسیون خطی، مجموع مجذور انحرافات ناشی از رگرسیون خطی خواهد بود: ?(y x -y) 2 =b 2 *?(x -x) 2.

از آنجایی که، برای حجم معینی از مشاهدات در x و y، مجموع عامل مجذورات در رگرسیون خطی تنها به یک ثابت ضریب رگرسیون b بستگی دارد، پس این مجموع مربع ها یک درجه آزادی دارد. اگر قسمت محتوایی مقدار محاسبه شده صفت y یعنی y x را در نظر بگیریم به همین نتیجه می رسیم. مقدار y x با معادله رگرسیون خطی تعیین می شود: y x ​​=a+b*x. پارامتر a را می توان به صورت: a=y-b*x تعریف کرد. با جایگزینی عبارت برای پارامتر a در مدل خطی، دریافت می کنیم:

y x = y-b*x+b*x= y-b*(x-x).

این نشان می دهد که برای یک مجموعه معین از متغیرهای y و x، مقدار محاسبه شده y x در رگرسیون خطی تابعی از تنها یک پارامتر - ضریب رگرسیون است. بر این اساس مجموع عامل مجذور انحرافات دارای تعدادی درجه آزادی برابر با 1 است.

بین تعداد درجات آزادی مجموع مجموع، عامل و مجموع باقیمانده مربع ها برابری وجود دارد. تعداد درجات آزادی مجموع مربعات باقیمانده در رگرسیون خطی n-2 است. تعداد درجات آزادی برای مجموع مجذورات با تعداد واحدها تعیین می شود و از آنجایی که میانگین محاسبه شده از داده های نمونه استفاده می شود، یک درجه آزادی را از دست می دهیم، یعنی df total = n-1.

بنابراین، دو برابری وجود دارد:

?(y-y) 2 =?(y x -y) 2 +?(y-y x) 2،

با تقسیم هر مجموع مربع بر تعداد درجات آزادی متناظر، میانگین مجذور انحرافات یا همان پراکندگی در یک درجه آزادی D را بدست می آوریم.

D کل =?(y-y) 2 /(n-1);

D واقعیت =?(y x -y) 2 /1;

D استراحت =?(y- y x) 2 /(n-1).

تعریف واریانس با یک درجه آزادی، واریانس ها را به شکل قابل مقایسه ای می رساند. با مقایسه ضریب و واریانس های باقیمانده در هر درجه آزادی، مقدار نسبت F (معیار F) را به دست می آوریم:

F= D واقعیت / D استراحت، که در آن

F - معیار آزمون فرض صفر H 0: D واقعیت = D استراحت.

اگر فرضیه صفر درست باشد، فاکتوریل و واریانس باقیماندهتفاوتی با یکدیگر ندارند برای H 0، ابطال لازم است به طوری که پراکندگی عامل چندین بار از پراکندگی باقیمانده بیشتر شود.

آماردان انگلیسی Snedecor جداول مقادیر بحرانی نسبت های F را در آن تهیه کرد سطوح مختلفاهمیت فرضیه صفر و تعداد قابل تشخیص درجات آزادی.

مقدار جدولی آزمون F حداکثر مقدار نسبت واریانسی است که در صورت واگرایی تصادفی برای این سطحاحتمال وجود یک فرضیه صفر

مقدار نسبت F محاسبه شده در صورتی قابل اعتماد (غیر از یک) در نظر گرفته می شود که از مقدار جدول بندی شده بیشتر باشد.

در این حالت، فرضیه صفر در مورد عدم وجود ارتباط بین ویژگی ها رد شده و در مورد اهمیت این ارتباط نتیجه گیری می شود: F fact > F جدول. H 0 رد می شود.

اگر مقدار کمتر از واقعیت جدول F باشد

ضریب تعیین ارزیابی کیفیت مدل را می دهد. ضریب تعیین ( آر 2) مربع ضریب همبستگی چندگانه است.

نشان می دهد که چه نسبتی از واریانس مشخصه حاصل با تأثیر متغیرهای مستقل توضیح داده می شود.

فرمول محاسبه ضریب تعیین:

y من-- داده های نمونه و f من- مقادیر مدل مربوطه

همچنین همبستگی پیرسون مجذور بین دو متغیر است. مقدار واریانس مشترک بین دو متغیر را بیان می کند.

ضریب مقادیر را از بازه می گیرد. هر چه مقدار به 1 نزدیکتر باشد، مدل به مشاهدات تجربی نزدیکتر است.

در مورد مدل رگرسیون خطی زوجی، ضریب تعیین برابر است با مجذور ضریب همبستگی، یعنی آر 2 = r 2 .

گاهی اوقات می توان شاخص های نزدیکی ارتباطات را ارزیابی کیفی کرد (مقیاس چادوک) (پیوست 3).

یک اتصال عملکردی زمانی اتفاق می افتد که مقدار 1 باشد و عدم وجود اتصال 0 باشد. برای مقادیر نزدیکی اتصال کمتر از 0.7، مقدار ضریب تعیین همیشه زیر 50٪ خواهد بود. این بدان معنی است که تغییر در ویژگی های عامل، بخش کوچک تری را در مقایسه با سایر عواملی که در مدل در نظر گرفته نشده اند، تشکیل می دهد که بر تغییر در شاخص عملکرد تأثیر می گذارد. مدل های رگرسیونی ساخته شده در چنین شرایطی از اهمیت عملی پایینی برخوردار هستند.

پس از اینکه معادله رگرسیون ساخته شد و دقت آن با استفاده از ضریب تعیین ارزیابی شد، این سوال باز می ماند که چگونه این دقت به دست آمده است و بر این اساس، آیا می توان به این معادله اعتماد کرد؟ واقعیت این است که معادله رگرسیون نه بر اساس جمعیت عمومی که ناشناخته است، بلکه بر اساس نمونه ای از آن ساخته شده است. امتیازات از جمعیت عمومی به طور تصادفی در نمونه قرار می گیرند، بنابراین، مطابق با تئوری احتمال، در میان موارد دیگر، ممکن است نمونه ای از یک جمعیت عمومی "گسترده" "محدود" باشد (شکل 15). .

برنج. 15. گزینه ممکن برای درج امتیاز در نمونه از جمعیت عمومی.

در این مورد:

الف) معادله رگرسیون ساخته شده برای نمونه ممکن است به طور قابل توجهی با معادله رگرسیون برای جمعیت عمومی متفاوت باشد، که منجر به خطاهای پیش بینی می شود.

ب) ضریب تعیین و سایر مشخصه های دقت به طور غیر منطقی بالا بوده و در مورد کیفیت های پیش بینی معادله گمراه می شود.

در حالت محدود، زمانی که از یک جمعیت عمومی که یک ابر با محور اصلی موازی با محور افقی است (هیچ رابطه ای بین متغیرها وجود ندارد)، به دلیل انتخاب تصادفی، نمونه ای به دست می آید، نمی تواند حذف شود. که محور اصلی آن به محور متمایل خواهد شد. بنابراین، تلاش برای پیش‌بینی مقادیر بعدی جمعیت عمومی بر اساس داده‌های یک نمونه از آن، نه تنها مملو از خطا در ارزیابی قدرت و جهت رابطه بین متغیرهای وابسته و مستقل است، بلکه با خطر یافتن ارتباط بین متغیرها در جایی که در واقع هیچ کدام وجود ندارد.

در صورت عدم وجود اطلاعات در مورد تمام نقاط جامعه، تنها راه کاهش خطاها در حالت اول استفاده از روشی در تخمین ضرایب معادله رگرسیون است که از بی طرفی و کارایی آنها اطمینان حاصل کند. و احتمال وقوع مورد دوم را می توان به میزان قابل توجهی کاهش داد زیرا یک ویژگی از یک جمعیت عمومی با دو متغیر مستقل از یکدیگر به طور پیشینی شناخته شده است - دقیقاً این ارتباط است که در آن وجود ندارد. این کاهش با بررسی حاصل می شود اهمیت آماریمعادله رگرسیون حاصل

یکی از متداول ترین گزینه های تایید به شرح زیر است. برای معادله رگرسیون حاصل، تعیین می شود
-آمار
- مشخصه ای از دقت معادله رگرسیون، که نسبت آن قسمت از واریانس متغیر وابسته است که توسط معادله رگرسیون توضیح داده می شود به قسمت غیر قابل توضیح (باقیمانده) واریانس. معادله برای تعیین
-آمار در مورد رگرسیون چند متغیره به شکل زیر است:

جایی که:
- واریانس توضیح داده شده - بخشی از واریانس متغیر وابسته Y که با معادله رگرسیون توضیح داده می شود.

-واریانس باقیمانده- بخشی از واریانس متغیر وابسته Y که با معادله رگرسیون توضیح داده نمی شود، وجود آن نتیجه عمل مولفه تصادفی است.

- تعداد امتیاز در نمونه؛

- تعداد متغیرها در معادله رگرسیون.

همانطور که از فرمول بالا مشاهده می شود، واریانس ها به عنوان ضریب تقسیم مجموع مربع های مربوطه بر تعداد درجات آزادی تعیین می شوند. تعداد درجات آزادیاین حداقل تعداد مورد نیاز متغیر وابسته است که برای به دست آوردن ویژگی مورد نظر نمونه کافی است و می تواند آزادانه تغییر کند، با در نظر گرفتن این واقعیت که برای این نمونه تمام مقادیر دیگر برای محاسبه مطلوب مورد استفاده قرار می گیرد. مشخصه شناخته شده است.

برای به دست آوردن واریانس باقیمانده، ضرایب معادله رگرسیون مورد نیاز است. در مورد رگرسیون خطی زوجی دو ضریب وجود دارد، بنابراین مطابق با فرمول (در نظر گرفتن
) تعداد درجات آزادی برابر است با
. این بدان معناست که برای تعیین واریانس باقیمانده کافی است ضرایب معادله رگرسیون را بدانیم و فقط
مقادیر متغیر وابسته از نمونه دو مقدار باقیمانده را می توان بر اساس این داده ها محاسبه کرد و بنابراین آزادانه متغیر نیستند.

برای محاسبه واریانس توضیح داده شده مقادیر متغیر وابسته، اصلاً نیازی نیست، زیرا با دانستن ضرایب رگرسیون برای متغیرهای مستقل و واریانس متغیر مستقل می توان آن را محاسبه کرد. برای تأیید این موضوع، کافی است عبارت قبلی را یادآوری کنید
. بنابراین، تعداد درجات آزادی برای واریانس باقیمانده برابر است با تعداد متغیرهای مستقل در معادله رگرسیون (برای رگرسیون خطی زوجی)
).

در نتیجه
معیار معادله رگرسیون خطی زوجی با فرمول تعیین می شود:

.

در نظریه احتمال ثابت شده است که
- معیار معادله رگرسیون به دست آمده برای نمونه ای از جامعه عمومی که در آن بین متغیرهای وابسته و مستقل رابطه وجود ندارد، دارای توزیع فیشر است که نسبتاً به خوبی مطالعه شده است. با تشکر از این، برای هر ارزش
-معیار، می توانید احتمال وقوع آن را محاسبه کنید و بالعکس، آن مقدار را تعیین کنید
- معیاری که با احتمال معین نمی تواند از آن تجاوز کند.

برای انجام یک آزمون آماری معناداری، معادله رگرسیون فرموله شده است فرضیه صفردر مورد عدم وجود رابطه بین متغیرها (همه ضرایب برای متغیرها برابر با صفر هستند) و سطح معنی داری انتخاب شده است. .

سطح اهمیتاحتمال قابل قبول ارتکاب است خطای نوع I- فرضیه صفر صحیح را در نتیجه آزمایش رد کنید. در این مورد، ایجاد یک خطای نوع I به معنای تشخیص در یک نمونه است که بین متغیرهای جامعه رابطه وجود دارد در حالی که در واقع هیچ رابطه ای وجود ندارد.

به طور معمول سطح معنی داری 5% یا 1% در نظر گرفته می شود. هر چه سطح معنی داری بالاتر باشد (کمتر
)، بالاتر سطح قابلیت اطمینانتست برابر با
، یعنی شانس اجتناب از خطای تشخیص وجود یک ارتباط در جمعیت عمومی متغیرهای واقعی غیرمرتبط در نمونه بیشتر است. اما با افزایش سطح اهمیت، خطر ارتکاب خطاهای نوع دوم- فرضیه صفر واقعی را رد کنید، یعنی. در نمونه متوجه ارتباط واقعی بین متغیرها در جامعه عمومی نشود. بنابراین، بسته به اینکه کدام خطا پیامدهای منفی بزرگی دارد، یک سطح از اهمیت انتخاب می شود.

برای سطح معناداری انتخاب شده، یک مقدار جدول با استفاده از توزیع فیشر تعیین می شود
احتمال فراتر رفتن از آن در نمونه با توان به دست آمده از جامعه عمومی بدون رابطه بین متغیرها از سطح معنی داری فراتر نمی رود.
با مقدار معیار واقعی معادله رگرسیون مقایسه می شود .

در صورت تحقق شرط
، سپس تشخیص اشتباه یک ارتباط با مقدار
-معیارهای برابر یا بیشتر در نمونه ای از یک جامعه با متغیرهای نامرتبط با احتمال کمتر از سطح معنی داری رخ خواهد داد. مطابق با قاعده "رویدادهای بسیار نادری وجود ندارد" به این نتیجه می رسیم که رابطه بین متغیرهای ایجاد شده در نمونه در جامعه عمومی که از آن به دست آمده است نیز وجود دارد.

اگر معلوم شود
، پس معادله رگرسیون از نظر آماری معنی دار نیست. به عبارت دیگر، احتمال واقعی وجود دارد که نمونه رابطه ای بین متغیرهایی برقرار کرده باشد که در واقعیت وجود ندارد. معادله ای که آزمون معناداری آماری را پشت سر نمی گذارد، مانند دارویی است که تاریخ مصرف آن منقضی شده است - چنین داروهایی لزوماً خراب نمی شوند، اما از آنجایی که اطمینانی در کیفیت آنها وجود ندارد، ترجیح داده می شود که استفاده نشود. این قانون در برابر همه اشتباهات محافظت نمی کند، اما به شما امکان می دهد از جدی ترین آنها اجتناب کنید، که این نیز بسیار مهم است.

گزینه تأیید دوم که هنگام استفاده از صفحات گسترده راحت تر است، مقایسه احتمال وقوع مقدار حاصل است.
-معیارهایی با سطح معناداری اگر این احتمال کمتر از سطح معنی داری باشد
، پس معادله از نظر آماری معنی دار است وگرنه اینطور نیست.

پس از بررسی معناداری آماری معادله رگرسیون به عنوان یک کل، به طور کلی، به ویژه برای وابستگی های چند متغیره، بررسی اهمیت آماری ضرایب رگرسیون به دست آمده مفید است. ایدئولوژی چک کردن مانند هنگام بررسی معادله به عنوان یک کل است، اما به عنوان یک معیار استفاده می شود. -تست دانشجویی، با فرمول های زیر تعیین می شود:

و

جایی که: , - مقادیر معیار دانشجویی برای ضرایب و به ترتیب؛

- واریانس باقیمانده معادله رگرسیون.

- تعداد امتیاز در نمونه؛

- تعداد متغیرها در نمونه، برای رگرسیون خطی زوجی
.

مقادیر واقعی بدست آمده از آزمون دانشجو با مقادیر جدول مقایسه می شود
، به دست آمده از توزیع Student. اگر معلوم شود که
، پس ضریب مربوطه از نظر آماری معنی دار است وگرنه خیر. گزینه دوم برای بررسی اهمیت آماری ضرایب، تعیین احتمال وقوع آزمون دانشجویی است.
و با سطح معناداری مقایسه کنید
.

برای متغیرهایی که ضرایب آنها از نظر آماری ناچیز است، احتمال زیادی وجود دارد که تأثیر آنها بر متغیر وابسته در جامعه کاملاً وجود نداشته باشد. بنابراین یا باید تعداد امتیازهای نمونه را افزایش داد، آنگاه شاید ضریب از نظر آماری معنی‌دار شود و در عین حال مقدار آن مشخص شود، یا سایرین به‌عنوان متغیرهای مستقل یافت شوند که ارتباط نزدیک‌تری با ضریب وابسته دارند. متغیر. در این صورت دقت پیش بینی در هر دو حالت افزایش می یابد.

به عنوان یک روش بیان برای ارزیابی اهمیت ضرایب معادله رگرسیون، می توان از قانون زیر استفاده کرد: اگر آزمون t Student بزرگتر از 3 باشد، به عنوان یک قاعده، چنین ضریبی از نظر آماری معنی دار است. به طور کلی، اعتقاد بر این است که برای به دست آوردن معادلات رگرسیون معنی دار آماری، لازم است که شرط وجود داشته باشد.
.

خطای پیش‌بینی استاندارد از معادله رگرسیون حاصل از مقدار مجهول
با یک شناخته شده
با استفاده از فرمول ارزیابی می شود:

بنابراین، یک پیش‌بینی با احتمال اطمینان 68 درصد را می‌توان به صورت زیر ارائه کرد:

اگر سطح اطمینان متفاوتی مورد نیاز است
، سپس برای سطح معنی داری
پیدا کردن آزمون دانشجو ضروری است
و فاصله اطمینانبرای یک پیش بینی با سطح قابلیت اطمینان
برابر خواهد بود
.

پیش‌بینی وابستگی‌های چند بعدی و غیرخطی

اگر مقدار پیش بینی شده به چندین متغیر مستقل بستگی داشته باشد، در این مورد وجود دارد رگرسیون چند متغیرهنوع:

جایی که:
- ضرایب رگرسیون که تأثیر متغیرها را توصیف می کند
با مقدار پیش بینی شده

روش برای تعیین ضرایب رگرسیون هیچ تفاوتی با رگرسیون خطی زوجی ندارد، به خصوص در هنگام استفاده از صفحه گسترده، زیرا از یک تابع برای رگرسیون خطی دوتایی و چند متغیره استفاده می کند. در این حالت، مطلوب است که هیچ رابطه ای بین متغیرهای مستقل وجود نداشته باشد. تغییر یک متغیر بر مقادیر سایر متغیرها تأثیری ندارد. اما این الزام اجباری نیست، مهم این است که هیچ وابستگی خطی عملکردی بین متغیرها وجود نداشته باشد. رویه هایی که در بالا برای بررسی اهمیت آماری معادله رگرسیون حاصل و ضرایب فردی آن توضیح داده شد، ارزیابی دقت پیش بینی همانند مورد رگرسیون خطی زوجی باقی می ماند. در عین حال، استفاده از رگرسیون های چند متغیره به جای رگرسیون های زوجی، معمولاً با انتخاب مناسب متغیرها، به طور قابل توجهی باعث افزایش دقت در توصیف رفتار متغیر وابسته و در نتیجه دقت پیش بینی می شود.

علاوه بر این، معادلات رگرسیون خطی چند متغیره، توصیف وابستگی غیرخطی مقدار پیش‌بینی‌شده به متغیرهای مستقل را ممکن می‌سازد. روش کاهش یک معادله غیرخطی به شکل خطی نامیده می شود خطی سازی. به طور خاص، اگر این وابستگی با یک چند جمله‌ای درجه متفاوت از 1 توصیف شود، با جایگزینی متغیرهایی با درجه‌های متفاوت از وحدت با متغیرهای جدید درجه اول، به جای یک مسئله غیرخطی، یک مسئله رگرسیون خطی چند متغیره به دست می‌آوریم. بنابراین، برای مثال، اگر تأثیر متغیر مستقل با سهمی شکل توصیف شود

سپس جایگزینی
به شما امکان می دهد یک مسئله غیرخطی را به یک خطی چند بعدی تبدیل کنید

مسائل غیرخطی که در آنها غیرخطی بودن به دلیل اینکه مقدار پیش بینی شده به حاصلضرب متغیرهای مستقل بستگی دارد نیز به راحتی قابل تبدیل هستند. برای در نظر گرفتن چنین تأثیری، لازم است متغیر جدیدی معادل این محصول معرفی شود.

در مواردی که غیرخطی بودن با وابستگی های پیچیده تر توصیف می شود، خطی سازی به دلیل تبدیل مختصات امکان پذیر است. برای این منظور مقادیر محاسبه می شود
و نمودارهایی از وابستگی نقاط اولیه در ترکیبات مختلف متغیرهای تبدیل شده ساخته شده است. ترکیبی از مختصات تبدیل شده یا مختصات تبدیل شده و غیر تبدیل شده که در آن وابستگی به یک خط مستقیم نزدیک است، باعث تغییر متغیرها می شود که منجر به تبدیل یک وابستگی غیرخطی به یک فرم خطی می شود. به عنوان مثال، وابستگی غیرخطی فرم

به شکل خطی تبدیل می شود

جایی که:
,
و
.

ضرایب رگرسیون حاصل برای معادله تبدیل شده بی طرف و کارآمد باقی می مانند، اما آزمایش اهمیت آماری معادله و ضرایب ممکن نیست.

بررسی اعتبار استفاده از روش حداقل مربعات

استفاده از روش حداقل مربعات، کارایی و تخمین های بی طرفانه ضرایب معادله رگرسیون را با رعایت شرایط زیر تضمین می کند (شرایط) گائوسا-مارکوا):

1.

2.

3. معانی به یکدیگر وابسته نباشند

4. معانی به متغیرهای مستقل وابسته نیست

ساده ترین راه برای بررسی اینکه آیا این شرایط برآورده شده اند یا خیر، رسم نمودارهای باقیمانده است
بسته به ، سپس از متغیر(های) مستقل. اگر نقاط این نمودارها در راهرویی قرار گرفته باشند که به صورت متقارن نسبت به محور x قرار دارد و هیچ الگوی در محل نقاط قابل مشاهده نباشد، در این صورت شرایط گاوس-مارکوف برقرار است و فرصتی برای بهبود دقت رگرسیون وجود ندارد. معادله اگر اینطور نباشد، می توان دقت معادله را به میزان قابل توجهی بهبود بخشید و برای این کار باید به ادبیات تخصصی روی آورد.

تحلیل رگرسیون یک روش تحقیق آماری است که به شما امکان می دهد وابستگی یک پارامتر خاص را به یک یا چند متغیر مستقل نشان دهید. در دوران پیش از کامپیوتر، استفاده از آن بسیار دشوار بود، به خصوص زمانی که به حجم زیادی از داده ها می رسید. امروزه، با آموختن نحوه ایجاد رگرسیون در اکسل، می توانید مسائل پیچیده آماری را تنها در چند دقیقه حل کنید. در زیر نمونه های مشخصی از حوزه اقتصاد آورده شده است.

انواع رگرسیون

این مفهوم خود در سال 1886 وارد ریاضیات شد. رگرسیون اتفاق می افتد:

  • خطی؛
  • سهموی
  • آرام بخش
  • نمایی;
  • هذلولی
  • نمایشی؛
  • لگاریتمی

مثال 1

بیایید مشکل تعیین وابستگی تعداد اعضای تیمی که از کار کناره گیری می کنند به میانگین حقوق در 6 شرکت صنعتی در نظر بگیریم.

وظیفه. در شش شرکت، میانگین حقوق ماهانه و تعداد کارکنانی که داوطلبانه ترک کردند، تجزیه و تحلیل شد. به شکل جدول داریم:

تعداد افرادی که ترک کردند

حقوق

30000 روبل

35000 روبل

40000 روبل

45000 روبل

50000 روبل

55000 روبل

60000 روبل

برای تعیین وابستگی تعداد کارگران انصرافی به میانگین حقوق در 6 شرکت، مدل رگرسیون به شکل معادله Y = a 0 + a 1 x 1 +...+a k x k است که x i معادل است. متغیرهای تأثیرگذار، a i ضرایب رگرسیون و k تعداد عوامل است.

برای این مشکل، Y شاخص ترک کار کارکنان است و عامل تأثیرگذار، حقوق است که آن را با X نشان می دهیم.

استفاده از قابلیت های پردازشگر صفحه گسترده اکسل

تجزیه و تحلیل رگرسیون در اکسل باید با اعمال توابع داخلی به داده های جدولی موجود انجام شود. با این حال، برای این اهداف بهتر است از افزونه بسیار مفید "Analysis Pack" استفاده کنید. برای فعال کردن آن نیاز دارید:

  • از برگه "فایل" به بخش "گزینه ها" بروید.
  • در پنجره ای که باز می شود، خط "افزونه ها" را انتخاب کنید.
  • روی دکمه "Go" واقع در زیر، سمت راست خط "Management" کلیک کنید.
  • کادر کنار نام «بسته تجزیه و تحلیل» را علامت بزنید و با کلیک بر روی «تأیید» اقدامات خود را تأیید کنید.

اگر همه چیز به درستی انجام شود، دکمه مورد نیاز در سمت راست برگه "داده ها" که در بالای کاربرگ اکسل قرار دارد ظاهر می شود.

در اکسل

اکنون که همه ابزارهای مجازی لازم برای انجام محاسبات اقتصادسنجی را در اختیار داریم، می‌توانیم شروع به حل مشکل خود کنیم. برای این:

  • بر روی دکمه "تجزیه و تحلیل داده ها" کلیک کنید؛
  • در پنجره ای که باز می شود، روی دکمه "Regression" کلیک کنید.
  • در برگه ای که ظاهر می شود، محدوده مقادیر Y (تعداد کارمندان ترک) و X (حقوق آنها) را وارد کنید.
  • ما اقدامات خود را با فشار دادن دکمه "Ok" تأیید می کنیم.

در نتیجه، برنامه به طور خودکار یک صفحه گسترده جدید را با داده های تحلیل رگرسیون پر می کند. توجه داشته باشید! اکسل به شما امکان می دهد مکان مورد نظر خود را برای این منظور به صورت دستی تنظیم کنید. به عنوان مثال، این می تواند همان برگه ای باشد که مقادیر Y و X در آن قرار دارند یا حتی یک کتاب کار جدید که به طور خاص برای ذخیره چنین داده هایی طراحی شده است.

تجزیه و تحلیل نتایج رگرسیون برای R-squared

در اکسل، داده های به دست آمده در هنگام پردازش داده ها در مثال مورد بررسی به شکل زیر است:

اول از همه، باید به مقدار R-squared توجه کنید. نشان دهنده ضریب تعیین است. در این مثال، R-square = 0.755 (75.5%)، یعنی پارامترهای محاسبه شده مدل، رابطه بین پارامترهای در نظر گرفته شده را تا 75.5% توضیح می دهد. هر چه مقدار ضریب تعیین بالاتر باشد، مدل انتخاب شده برای یک کار خاص مناسب تر است. در نظر گرفته می شود که به درستی وضعیت واقعی را وقتی که مقدار R-square بالای 0.8 باشد، توصیف می کند. اگر R مربع باشد<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

تحلیل شانس

عدد 64.1428 نشان می دهد که اگر تمام متغیرهای xi در مدلی که در نظر داریم به صفر برسند، مقدار Y چقدر خواهد بود. به عبارت دیگر، می توان استدلال کرد که مقدار پارامتر تحلیل شده نیز تحت تأثیر عوامل دیگری است که در یک مدل خاص توضیح داده نشده اند.

ضریب بعدی -0.16285 که در سلول B18 قرار دارد، وزن تأثیر متغیر X را بر Y نشان می دهد. این بدان معنی است که میانگین حقوق ماهانه کارکنان در مدل مورد بررسی بر تعداد افراد ترک با وزن 0.16285- تأثیر می گذارد. درجه نفوذ آن کاملاً کم است. علامت "-" نشان دهنده منفی بودن ضریب است. این بدیهی است ، زیرا همه می دانند که هرچه حقوق در شرکت بالاتر باشد ، افراد کمتری تمایل به فسخ قرارداد کار یا ترک کار را دارند.

رگرسیون چندگانه

این اصطلاح به یک معادله رابطه با چندین متغیر مستقل از شکل اشاره دارد:

y=f(x 1 +x 2 +…x m) + ε، که در آن y مشخصه حاصل (متغیر وابسته) است، و x 1، x 2،…x m ویژگی های عاملی (متغیرهای مستقل) هستند.

تخمین پارامتر

برای رگرسیون چندگانه (MR)، با استفاده از روش حداقل مربعات (OLS) انجام می شود. برای معادلات خطی به شکل Y = a + b 1 x 1 +…+b m x m + ε ما سیستمی از معادلات عادی می سازیم (به زیر مراجعه کنید)

برای درک اصل روش، یک مورد دو عاملی را در نظر بگیرید. سپس وضعیتی داریم که با فرمول توصیف شده است

از اینجا دریافت می کنیم:

که در آن σ واریانس ویژگی مربوطه منعکس شده در شاخص است.

OLS برای معادله MR در مقیاس استاندارد قابل اعمال است. در این حالت معادله را بدست می آوریم:

که در آن t y، t x 1، ... t xm متغیرهای استانداردی هستند که مقادیر متوسط ​​آنها برابر با 0 است. β i ضرایب رگرسیون استاندارد شده است و انحراف استاندارد 1 است.

لطفاً توجه داشته باشید که همه β i در این مورد به صورت عادی و متمرکز مشخص می شوند، بنابراین مقایسه آنها با یکدیگر صحیح و قابل قبول تلقی می شود. علاوه بر این، مرسوم است که عوامل را با کنار گذاشتن آنهایی که کمترین مقدار βi را دارند، غربال کنند.

مسئله با استفاده از معادله رگرسیون خطی

فرض کنید جدولی از پویایی قیمت برای یک محصول خاص N در 8 ماه گذشته داریم. لازم است در مورد توصیه خرید دسته ای از آن با قیمت 1850 روبل در تن تصمیم گیری شود.

شماره ماه

نام ماه

قیمت محصول N

1750 روبل در هر تن

1755 روبل در هر تن

1767 روبل در هر تن

1760 روبل در هر تن

1770 روبل در هر تن

1790 روبل در هر تن

1810 روبل در هر تن

1840 روبل در هر تن

برای حل این مشکل در پردازنده صفحه گسترده اکسل، باید از ابزار "تجزیه و تحلیل داده ها" استفاده کنید، که قبلاً از مثال ارائه شده در بالا شناخته شده است. بعد، بخش "Regression" را انتخاب کنید و پارامترها را تنظیم کنید. لازم به یادآوری است که در قسمت "فاصله ورودی Y" باید محدوده ای از مقادیر برای متغیر وابسته (در این مورد قیمت کالاها در ماه های خاص سال) و در "فاصله ورودی X" وارد شود. - برای متغیر مستقل (تعداد ماه). با کلیک بر روی "Ok" اقدام را تأیید کنید. در یک صفحه جدید (اگر چنین باشد) داده هایی را برای رگرسیون به دست می آوریم.

با استفاده از آنها، یک معادله خطی به شکل y=ax+b می سازیم، که در آن پارامترهای a و b ضرایب خط با نام شماره ماه و ضرایب و خطوط "تقاطع Y" از صفحه با نتایج تحلیل رگرسیون بنابراین، معادله رگرسیون خطی (LR) برای کار 3 به صورت زیر نوشته می شود:

قیمت محصول N = 11.714* شماره ماه + 1727.54.

یا در نماد جبری

y = 11.714 x + 1727.54

تجزیه و تحلیل نتایج

برای تصمیم گیری در مورد مناسب بودن معادله رگرسیون خطی حاصل، از ضرایب همبستگی چندگانه (MCC) و تعیین و همچنین آزمون فیشر و آزمون تی دانشجویی استفاده می شود. در صفحه گسترده اکسل با نتایج رگرسیون، به ترتیب R، R-squared، F-statistic و t-statistic نامیده می شوند.

KMC R امکان ارزیابی نزدیکی رابطه احتمالی بین متغیرهای مستقل و وابسته را فراهم می کند. ارزش بالای آن نشان دهنده ارتباط نسبتاً قوی بین متغیرهای "تعداد ماه" و "قیمت محصول N به روبل در هر 1 تن" است. با این حال، ماهیت این رابطه ناشناخته باقی مانده است.

مجذور ضریب تعیین R2 (RI) یک مشخصه عددی نسبت پراکندگی کل است و پراکندگی کدام بخشی از داده های تجربی را نشان می دهد، یعنی. مقادیر متغیر وابسته با معادله رگرسیون خطی مطابقت دارد. در مسئله مورد بررسی، این مقدار برابر با 84.8 درصد است، یعنی داده های آماری با درجه دقت بالایی توسط SD حاصل توصیف می شوند.

آماره F که آزمون فیشر نیز نامیده می شود، برای ارزیابی اهمیت یک رابطه خطی، رد یا تایید فرضیه وجود آن استفاده می شود.

(آزمون دانشجویی) به ارزیابی معنی داری ضریب با یک جمله مجهول یا آزاد رابطه خطی کمک می کند. اگر مقدار آزمون t > tcr باشد، فرضیه بی اهمیت بودن جمله آزاد معادله خطی رد می شود.

در مسئله مورد بررسی برای عبارت آزاد، با استفاده از ابزار اکسل، به دست آمد که t = 169.20903، و p = 2.89E-12، یعنی احتمال صفر داریم که فرضیه صحیح در مورد بی اهمیت بودن عبارت آزاد رد شود. . برای ضریب مجهول t=5.79405 و p=0.001158. به عبارت دیگر، احتمال رد فرضیه صحیح در مورد بی اهمیت بودن ضریب برای مجهول 0.12 درصد است.

بنابراین، می توان استدلال کرد که معادله رگرسیون خطی به دست آمده کافی است.

مشکل امکان سنجی خرید بلوکی از سهام

رگرسیون چندگانه در اکسل با استفاده از همان ابزار تحلیل داده انجام می شود. بیایید یک مشکل کاربردی خاص را در نظر بگیریم.

مدیریت شرکت NNN باید در مورد امکان خرید 20 درصد سهام در MMM JSC تصمیم بگیرد. هزینه بسته (SP) 70 میلیون دلار آمریکا می باشد. متخصصان NNN داده هایی را در مورد تراکنش های مشابه جمع آوری کرده اند. تصمیم بر این شد که ارزش بلوک سهام با توجه به پارامترهایی که به میلیون ها دلار آمریکا بیان می شود، ارزیابی شود:

  • حساب های پرداختنی (VK)؛
  • حجم گردش مالی سالانه (VO)؛
  • حساب های دریافتنی (VD)؛
  • هزینه دارایی های ثابت (COF).

علاوه بر این، پارامتر معوقه دستمزد شرکت (V3 P) به هزار دلار آمریکا استفاده می شود.

راه حل با استفاده از پردازشگر صفحه گسترده اکسل

اول از همه، شما باید یک جدول از داده های منبع ایجاد کنید. به نظر می رسد این است:

  • با پنجره "تحلیل داده ها" تماس بگیرید.
  • بخش "Regression" را انتخاب کنید؛
  • در کادر "فاصله ورودی Y"، محدوده مقادیر متغیرهای وابسته را از ستون G وارد کنید.
  • روی نماد با یک فلش قرمز در سمت راست پنجره "Input interval X" کلیک کنید و دامنه همه مقادیر از ستون های B، C، D، F را در برگه برجسته کنید.

مورد «کاربرگ جدید» را علامت بزنید و روی «تأیید» کلیک کنید.

یک تحلیل رگرسیون برای یک مسئله معین بدست آورید.

مطالعه نتایج و نتیجه گیری

ما معادله رگرسیون را از داده های گرد ارائه شده در بالا در صفحه گسترده اکسل "جمع آوری" می کنیم:

SP = 0.103*SOF + 0.541*VO - 0.031*VK +0.405*VD +0.691*VZP - 265.844.

در یک شکل ریاضی آشناتر، می توان آن را به صورت زیر نوشت:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

داده های MMM JSC در جدول ارائه شده است:

با جایگزینی آنها در معادله رگرسیون، رقمی برابر با 64.72 میلیون دلار آمریکا بدست می آوریم. این بدان معناست که سهام MMM JSC ارزش خرید ندارد زیرا ارزش 70 میلیون دلاری آنها کاملاً متورم است.

همانطور که می بینید، استفاده از صفحه گسترده اکسل و معادله رگرسیون امکان تصمیم گیری آگاهانه در مورد امکان سنجی یک تراکنش بسیار خاص را فراهم می کند.

اکنون می دانید که رگرسیون چیست. مثال های اکسل که در بالا مورد بحث قرار گرفت به شما در حل مسائل عملی در زمینه اقتصاد سنجی کمک می کند.

آزمون های نهایی در اقتصاد سنجی

1. اهمیت پارامترهای معادله رگرسیون بر اساس ارزیابی می شود:

الف) t - آزمون دانشجویی;

ب) آزمون F Fisher-Snedecor;

ج) میانگین مربعات خطا.

د) میانگین خطای تقریب.

2. ضریب رگرسیون در معادله مشخص کننده رابطه بین حجم محصولات فروخته شده (میلیون روبل) و سود شرکت های صنعت خودرو برای سال (میلیون روبل) به این معنی است که با افزایش حجم محصولات فروخته شده توسط 1 میلیون روبل سود افزایش می یابد:

د) 0.5 میلیون. مالش.

ج) 500 هزار. مالش.

د) 1.5 میلیون روبل.

3. نسبت همبستگی (شاخص همبستگی) درجه نزدیکی ارتباط بین X وY:

الف) فقط با شکل غیر خطی وابستگی؛

ب) برای هر نوع اعتیاد؛

ج) فقط برای وابستگی خطی.

4. با توجه به جهت ارتباط وجود دارد:

الف) متوسط؛

ب) مستقیم؛

ج) مستقیم

5. بر اساس 17 مشاهده، معادله رگرسیون ساخته شد:
.
برای بررسی اهمیت معادله، محاسبه کردیمارزش مشاهده شدهتی- آمار: 3.9. نتیجه:

الف) معادله در a معنادار است = 0,05;

ب) معادله در a = 0.01 ناچیز است.

ج) معادله در a = 0.05 ناچیز است.

6. عواقب نقض فرض OLS "انتظار ریاضی باقیمانده های رگرسیون صفر است" چیست؟

الف) برآوردهای مغرضانه ضرایب رگرسیون.

ب) برآوردهای مؤثر اما متناقض ضرایب رگرسیون.

ج) برآورد ناکارآمد ضرایب رگرسیون.

د) برآوردهای متناقض از ضرایب رگرسیون.

7-اگر باقیمانده ها ناهمسان باشند، کدام یک از گزاره های زیر درست است؟

الف) نتیجه گیری بر اساس آمار t و F غیر قابل اعتماد است.

د) تخمین پارامترهای معادله رگرسیون بایاس هستند.

8. آزمون همبستگی رتبه اسپیرمن بر چه اساسی است؟

الف) استفاده از آمار t.

ج) در حال استفاده ;

9. تست وایت بر چه اساسی است؟

ب) استفاده از آماره F;

ب) در حال استفاده ;

د) در مورد تجزیه و تحلیل گرافیکی باقیمانده.

10. برای حذف خودهمبستگی از چه روشی می توان استفاده کرد؟

11. نقض فرض ثابت بودن واریانس باقیمانده ها چه نامیده می شود؟

الف) چند خطی بودن؛

ب) خود همبستگی.

ب) ناهمسانی؛

د) همسانی.

12. متغیرهای ساختگی وارد می شوند:

الف) فقط در مدل های خطی؛

ب) فقط در رگرسیون غیرخطی چندگانه.

ج) فقط در مدل های غیر خطی.

د) هر دو مدل خطی و غیرخطی به شکل خطی کاهش یافته است.

13. اگر در ماتریس ضرایب همبستگی جفت وجود دارد
، سپس این نشان می دهد:

الف) در مورد وجود چند خطی.

ب) در مورد عدم وجود چند خطی.

ج) در مورد وجود خود همبستگی;

د) در مورد عدم وجود هتروسکداستیسیته.

14. برای خلاص شدن از چند خطی نمی توان از چه معیاری استفاده کرد؟

الف) افزایش حجم نمونه؛

د) تبدیل جزء تصادفی.

15. اگر
و رتبه ماتریس A کمتر از (K-1) است پس معادله به صورت زیر است:

الف) بیش از حد شناسایی شده است؛

ب) ناشناس؛

ج) به طور دقیق شناسایی شده است.

16. معادله رگرسیون به شکل زیر است:

آ)
;

ب)
;

V)
.

17. مشکل شناسایی مدل چیست؟

الف) به دست آوردن پارامترهای تعریف شده منحصر به فرد از مدل مشخص شده توسط یک سیستم معادلات همزمان.

ب) انتخاب و اجرای روش‌هایی برای تخمین آماری پارامترهای مدل ناشناخته با استفاده از داده‌های آماری اولیه.

ج) بررسی کفایت مدل.

18. برای تخمین پارامترهای یک معادله بیش از حد شناسایی شده از چه روشی استفاده می شود؟

ب) DMNK، CMNK;

19. اگر یک متغیر کیفی داشته باشدکمقادیر جایگزین، سپس از موارد زیر در مدل سازی استفاده می شود:

الف) (k-1) متغیر ساختگی;

ب) متغیرهای kdummy;

ج) (k+1) متغیر ساختگی.

20. تجزیه و تحلیل نزدیکی و جهت اتصالات بین دو مشخصه بر اساس موارد زیر انجام می شود:

الف) ضریب همبستگی جفت.

ب) ضریب تعیین.

ج) ضریب همبستگی چندگانه.

21. در یک معادله خطی ایکس = آ 0 +a 1 ضریب رگرسیون x نشان می دهد:

الف) نزدیکی ارتباط؛

ب) نسبت واریانس "Y" وابسته به "X"؛

ج) زمانی که «X» یک واحد تغییر کند، «Y» به طور متوسط ​​چقدر تغییر خواهد کرد.

د) خطای ضریب همبستگی.

22. برای تعیین بخشی از تغییرات ناشی از تغییرات در مقدار عامل مورد مطالعه از چه شاخصی استفاده می شود؟

الف) ضریب تغییرات؛

ب) ضریب همبستگی;

ب) ضریب تعیین;

د) ضریب کشش.

23. ضریب کشش نشان می دهد:

الف) وقتی x 1% تغییر می کند، مقدار y چند درصد تغییر می کند.

ب) مقدار y با چند واحد اندازه گیری آن زمانی که x 1% تغییر می کند تغییر می کند.

ج) مقدار y زمانی که x بر حسب واحد تغییر می کند چقدر تغییر می کند. بعد آن

24. از چه روش هایی می توان برای تشخیص هتروسکداستیکی استفاده کرد?

الف) آزمون گلفلد-کواندت؛

ب) آزمون همبستگی رتبه اسپیرمن.

ج) آزمون دوربین واتسون.

25. آزمون Holfeld-Quandt بر چه اساسی است؟

الف) با استفاده از آمار t.

ب) استفاده از آماره F.

ج) در حال استفاده ;

د) در مورد تجزیه و تحلیل گرافیکی باقیمانده.

26. از چه روش هایی برای حذف خودهمبستگی باقیمانده ها نمی توان استفاده کرد؟

الف) روش حداقل مربعات تعمیم یافته؛

ب) روش حداقل مربعات وزنی.

ج) روش حداکثر درستنمایی;

د) روش حداقل مربعات دو مرحله ای.

27. تخلف از فرض استقلال باقیمانده ها چه نامیده می شود؟

الف) چند خطی بودن؛

ب) خود همبستگی;

ج) ناهمسانی؛

د) همسانی.

28. از چه روشی می توان برای رفع ناهمسانی استفاده کرد؟

الف) روش حداقل مربعات تعمیم یافته.

ب) روش حداقل مربعات وزنی.

ج) روش حداکثر احتمال.

د) روش حداقل مربعات دو مرحله ای.

30. اگر با توجه بهتی-معیار، اکثر ضرایب رگرسیون از نظر آماری معنی دار هستند و مدل به عنوان یک کلاف- معیار ناچیز است، این ممکن است نشان دهد:

الف) چند خطی بودن؛

ب) در مورد خود همبستگی باقیمانده ها;

ج) در مورد هتروسکداستیکی بودن باقیمانده ها.

د) این گزینه غیرممکن است.

31. آیا می توان با استفاده از تبدیل متغیر از شر چند خطی خلاص شد؟

الف) این معیار تنها در صورتی مؤثر است که حجم نمونه افزایش یابد.

32. با استفاده از چه روشی می توان تخمین هایی از پارامتر یک معادله رگرسیون خطی پیدا کرد:

الف) روش حداقل مربع؛

ب) تحلیل همبستگی و رگرسیون؛

ج) تجزیه و تحلیل واریانس.

33. یک معادله رگرسیون خطی چندگانه با متغیرهای ساختگی ساخته شد. برای بررسی اهمیت ضرایب فردی، استفاده کنید توزیع:

الف) عادی؛

ب) آزمون دانش آموزی؛

ج) پیرسون؛

د) فیشر-اسندکور.

34. اگر
و رتبه ماتریس A بزرگتر از (K-1) است پس معادله به صورت زیر است:

الف) بیش از حد شناسایی شده است؛

ب) ناشناس؛

ج) به طور دقیق شناسایی شده است.

35. برای تخمین پارامترهای یک سیستم معادلات دقیقاً مشخص شده، از موارد زیر استفاده می شود:

الف) DMNK، CMNK؛

ب) DMNK، MNK، CMNK؛

36. معیار چاو مبتنی بر کاربرد موارد زیر است:

الف) F - آمار;

ب) t - آمار.

ج) معیارهای دوربین واتسون.

37. متغیرهای ساختگی می توانند مقادیر زیر را بگیرند:

د) هر مقدار

39. بر اساس 20 مشاهده، معادله رگرسیون ساخته شد:
.
برای بررسی معناداری معادله، مقدار آماره محاسبه شد:4.2. نتیجه گیری:

الف) معادله در a=0.05 معنادار است.

ب) معادله در a=0.05 ناچیز است.

ج) معادله در a=0.01 ناچیز است.

40- در صورتی که باقیمانده ها ناهمسان باشند، کدام یک از گزاره های زیر صحیح نیست؟

الف) نتیجه گیری بر اساس آمار t و F غیر قابل اعتماد است.

ب) ناهمسانی از طریق مقدار کم آمار دوربین-واتسون آشکار می شود.

ج) با وجود هتروسکداستیکی، برآوردها همچنان مؤثر باقی می مانند.

د) برآوردها مغرضانه است.

41. آزمون چاو مبتنی بر مقایسه است:

الف) واریانس؛

ب) ضرایب تعیین.

ج) انتظارات ریاضی؛

د) متوسط

42. اگر در آزمون چاو
سپس در نظر گرفته می شود:

الف) تقسیم بندی به زیر بازه های زمانی از نقطه نظر بهبود کیفیت مدل توصیه می شود.

ب) مدل از نظر آماری ناچیز است.

ج) مدل از نظر آماری معنادار است.

د) تقسیم نمونه به قطعات فایده ای ندارد.

43. متغیرهای ساختگی متغیرهایی هستند:

الف) کیفیت بالا؛

ب) تصادفی؛

ب) کمی؛

د) منطقی

44. کدام یک از روش های زیر را نمی توان برای تشخیص خودهمبستگی استفاده کرد؟

الف) روش سری؛

ب) آزمون دوربین واتسون؛

ج) آزمون همبستگی رتبه اسپیرمن.

د) تست وایت.

45. ساده ترین شکل ساختاری مدل:

آ)

ب)

V)

ز)
.

46. ​​برای خلاص شدن از چند خطی بودن از چه اقداماتی می توان استفاده کرد؟

الف) افزایش حجم نمونه؛

ب) حذف متغیرهایی که همبستگی بالایی با سایر متغیرها دارند.

ج) تغییر مشخصات مدل.

د) تبدیل جزء تصادفی.

47. اگر
و رتبه ماتریس A (K-1) است پس معادله:

الف) بیش از حد شناسایی شده است؛

ب) ناشناس؛

ب) به طور دقیق شناسایی شده است.

48. مدل در صورتی شناسایی می شود که:

الف) در بین معادلات مدل حداقل یک معادله عادی وجود دارد.

ب) هر معادله سیستم قابل شناسایی است.

ج) در بین معادلات مدل حداقل یک معادله نامشخص وجود دارد.

د) در بین معادلات مدل حداقل یک معادله بیش از حد شناسایی شده وجود دارد.

49- برای تخمین پارامترهای یک معادله ناشناس از چه روشی استفاده می شود؟

الف) DMNK، CMNK؛

ب) DMNK، MNK;

ج) پارامترهای چنین معادله ای را نمی توان تخمین زد.

50. اقتصاد سنجی در نقطه اتصال چه حوزه هایی از دانش پدید آمد:

الف) نظریه اقتصادی؛ آمارهای اقتصادی و ریاضی؛

ب) نظریه اقتصادی، آمار ریاضی و نظریه احتمال.

ج) آمار اقتصادی و ریاضی، نظریه احتمال.

51. در یک معادله رگرسیون خطی چندگانه، فواصل اطمینان برای ضرایب رگرسیون با استفاده از توزیع ساخته می شود:

الف) عادی؛

ب) دانشجو؛

ج) پیرسون؛

د) فیشر-اسندکور.

52. بر اساس 16 مشاهدات، معادله رگرسیون خطی زوجی ساخته شد. برایآزمون اهمیت ضریب رگرسیون محاسبه شده استتی برای 6 لیتر =2.5.

الف) ضریب در a=0.05 ناچیز است.

ب) ضریب در a=0.05 معنی دار است.

ج) ضریب در a=0.01 معنادار است.

53. معلوم است که بین کمیت هاایکسوYوجود داردارتباط مثبت تا چه اندازهآیا ضریب همبستگی جفتی پیدا شده است؟

الف) از -1 تا 0؛

ب) از 0 تا 1؛

ب) از 1- تا 1.

54. ضریب همبستگی چندگانه 0.9 است. چند درصدواریانس صفت حاصل با تأثیر همه توضیح داده می شودنشانه های فاکتور؟

55. کدام یک از روش های زیر را نمی توان برای تشخیص ناهمسانی استفاده کرد?

الف) آزمون گلفلد-کواندت؛

ب) آزمون همبستگی رتبه اسپیرمن.

ج) روش سری.

56. شکل کاهش یافته مدل به صورت زیر است:

الف) سیستمی از توابع غیرخطی متغیرهای برون زا از درون زا؛

ب) سیستم توابع خطی متغیرهای درون زا از برون زا.

ج) سیستمی از توابع خطی متغیرهای برون زا از درون زا.

د) سیستم معادلات عادی.

57. ضریب همبستگی جزئی محاسبه شده با استفاده از فرمول های بازگشتی در چه حدودی تغییر می کند؟

یک فرم - به + ;

ب) از 0 تا 1؛

ج) از 0 تا + ;

د) از 1- تا 1+.

58. ضریب همبستگی جزئی محاسبه شده از طریق ضریب تعیین در چه حدودی تغییر می کند؟

یک فرم - به + ;

ب) از 0 تا 1؛

ج) از 0 تا + ;

د) از 1- تا 1+.

59. متغیرهای برونزا:

الف) متغیرهای وابسته؛

ب) متغیرهای مستقل؛

61. هنگام افزودن یک عامل توضیحی دیگر به معادله رگرسیون، ضریب همبستگی چندگانه برابر است با:

الف) کاهش می یابد؛

ب) افزایش می یابد؛

ج) معنای خود را حفظ می کند.

62. یک معادله رگرسیون هذلولی ساخته شده است:Y= آ+ ب/ ایکس. برایبرای بررسی معناداری معادله، از توزیع استفاده می شود:

الف) عادی؛

ب) دانشجو؛

ج) پیرسون؛

د) فیشر-اسندکور.

63. پارامترهای معادلات اقتصاد سنجی منفرد را برای چه نوع سیستم هایی می توان با استفاده از روش حداقل مربعات سنتی یافت؟

الف) سیستمی از معادلات عادی؛

ب) سیستم معادلات مستقل؛

ج) سیستم معادلات بازگشتی.

د) سیستم معادلات وابسته به هم.

64. متغیرهای درون زا:

الف) متغیرهای وابسته؛

ب) متغیرهای مستقل؛

ج) مربوط به نقاط قبلی در زمان است.

65- ضریب تعیین در چه حدودی تغییر می کند؟

الف) از 0 تا + ;

ب) از - به + ;

ب) از 0 تا +1؛

د) از -l تا +1.

66. یک معادله رگرسیون خطی چندگانه ساخته شده است. برای بررسی اهمیت ضرایب فردی، استفاده کنید توزیع:

الف) عادی؛

ب) آزمون دانش آموزی؛

ج) پیرسون؛

د) فیشر-اسندکور.

67. هنگام افزودن یک عامل توضیحی دیگر به معادله رگرسیون، ضریب تعیین:

الف) کاهش می یابد؛

ب) افزایش می یابد؛

ج) معنای خود را حفظ می کند.

د) کاهش نخواهد یافت.

68. ماهیت روش حداقل مربعات این است که:

الف) برآورد از شرایط به حداقل رساندن مجذور انحرافات داده های نمونه از برآورد تعیین شده تعیین می شود.

ب) برآورد از شرایط به حداقل رساندن مجموع انحرافات داده های نمونه از برآورد تعیین شده تعیین می شود.

ج) برآورد از شرط به حداقل رساندن مجذور انحرافات میانگین نمونه از واریانس نمونه تعیین می شود.

69. سهمی متعلق به کدام دسته از رگرسیون های غیرخطی است:

73. منحنی نمایی به کدام دسته از رگرسیون های غیرخطی تعلق دارد:

74. تابعی از فرم ŷ متعلق به کدام دسته از رگرسیون های غیرخطی است؟
:

الف) رگرسیون هایی که با توجه به متغیرهای موجود در تجزیه و تحلیل غیرخطی هستند، اما با توجه به پارامترهای برآورد شده خطی هستند.

ب) رگرسیون غیرخطی بر روی پارامترهای برآورد شده.

78. تابعی از فرم ŷ متعلق به کدام دسته از رگرسیون های غیرخطی است؟
:

الف) رگرسیون هایی که با توجه به متغیرهای موجود در تجزیه و تحلیل غیرخطی هستند، اما با توجه به پارامترهای برآورد شده خطی هستند.

ب) رگرسیون غیرخطی بر روی پارامترهای برآورد شده.

79. در معادله رگرسیون به صورت هذلولی ŷ
اگر ارزش
ب >0 ، این که:

الف) با افزایش مشخصه عاملی ایکسمقادیر مشخصه حاصل دربه آرامی کاهش می یابد و با x→∞مقدار متوسط دربرابر خواهد بود آ؛

ب) سپس مقدار علامت حاصل دربا رشد آهسته با افزایش صفت عامل افزایش می یابد ایکس، و در x→∞

81. ضریب کشش با فرمول تعیین می شود

الف) تابع خطی؛

ب) سهمی ها؛

ج) هایپربول ها.

د) منحنی نمایی;

ه) قدرت.

82. ضریب کشش با فرمول تعیین می شود
برای یک مدل رگرسیون به شکل:

الف) تابع خطی؛

ب) سهمی ها.

ج) هایپربول ها.

د) منحنی نمایی;

ه) قدرت.

86. معادله
به نام:

الف) روند خطی؛

ب) روند سهموی؛

ج) روند هذلولی.

د) روند نمایی.

89. معادله
به نام:

الف) روند خطی؛

ب) روند سهموی؛

ج) روند هذلولی.

د) روند نمایی.

90. انواع سیستم به نام:

الف) سیستم معادلات مستقل؛

ب) سیستم معادلات بازگشتی.

ج) سیستمی از معادلات به هم وابسته (مشترک، همزمان).

93. اقتصاد سنجی را می توان اینگونه تعریف کرد:

الف) یک رشته علمی مستقل است که مجموعه‌ای از نتایج نظری، تکنیک‌ها، روش‌ها و مدل‌های طراحی شده را ترکیب می‌کند تا بر اساس نظریه اقتصادی، آمار اقتصادی و ابزارهای ریاضی و آماری، بیان کمی خاص به الگوهای عمومی (کیفی) بدهد. تعیین شده توسط تئوری اقتصادی؛

ب) علم اندازه گیری های اقتصادی.

ب) تحلیل آماری داده های اقتصادی.

94. وظایف اقتصاد سنجی عبارتند از:

الف) پیش بینی شاخص های اقتصادی و اجتماعی-اقتصادی که وضعیت و توسعه سیستم مورد تجزیه و تحلیل را مشخص می کند.

ب) شبیه سازی سناریوهای ممکن برای توسعه اجتماعی-اقتصادی سیستم برای شناسایی اینکه چگونه تغییرات برنامه ریزی شده در برخی پارامترهای قابل کنترل بر ویژگی های خروجی تاثیر می گذارد.

ج) آزمون فرضیه ها با استفاده از داده های آماری.

95. روابط از نظر ماهیت متمایز می شوند:

الف) کارکردی و همبستگی؛

ب) عملکردی، منحنی و مستطیل.

ج) همبستگی و معکوس؛

د) آماری و مستقیم.

96. در ارتباط مستقیم با افزایش یک مشخصه عاملی:

الف) علامت مؤثر کاهش می یابد.

ب) علامت حاصل تغییر نمی کند.

ج) علامت مؤثر افزایش می یابد.

97. برای شناسایی حضور، ماهیت و جهت روابط در آمار از چه روش هایی استفاده می شود؟

الف) مقادیر متوسط؛

ب) مقایسه سری های موازی.

ج) روش گروه بندی تحلیلی;

د) مقادیر نسبی؛

د) روش گرافیکی

98- برای شناسایی شکل تأثیر یک عامل بر عامل دیگر از چه روشی استفاده می شود؟

الف) تحلیل همبستگی؛

ب) تحلیل رگرسیون؛

ج) تجزیه و تحلیل شاخص؛

د) تجزیه و تحلیل واریانس.

99. از چه روشی برای تعیین کمیت قدرت تأثیر یک عامل بر عامل دیگر استفاده می شود:

الف) تحلیل همبستگی؛

ب) تحلیل رگرسیون؛

ج) روش میانگین ها.

د) تجزیه و تحلیل واریانس.

100. چه شاخص هایی از نظر مقدار آنها از منفی تا مثبت یک وجود دارد:

الف) ضریب تعیین؛

ب) رابطه همبستگی؛

ب) ضریب همبستگی خطی.

101. ضریب رگرسیون برای مدل تک عاملی نشان می دهد:

الف) وقتی آرگومان یک واحد تغییر می کند، تابع با چند واحد تغییر می کند.

ب) چند درصد تابع در واحد تغییر در آرگومان تغییر می کند.

102. ضریب کشش نشان می دهد:

الف) تابع چند درصد با تغییر آرگومان به اندازه یک واحد اندازه گیری آن تغییر می کند.

ب) چند درصد تابع با تغییر آرگومان 1% تغییر می کند.

ج) تابع با چند واحد اندازه گیری خود با تغییر آرگومان 1 درصد تغییر می کند.

105. مقدار شاخص همبستگی برابر با 0.087 نشان می دهد:

الف) در مورد وابستگی ضعیف آنها؛

ب) در مورد یک رابطه قوی؛

ج) در مورد اشتباهات در محاسبات.

107. مقدار ضریب همبستگی زوج برابر با 1.12 نشان می دهد:

الف) در مورد وابستگی ضعیف آنها؛

ب) در مورد یک رابطه قوی؛

ج) در مورد اشتباهات در محاسبات.

109. کدام یک از اعداد زیر می تواند مقادیر ضریب همبستگی زوج باشد:

111. کدام یک از اعداد زیر می تواند مقادیر ضریب همبستگی چندگانه باشد:

115- شکل صحیح معادله رگرسیون خطی را مشخص کنید:

الف) ŷ
;

توسط
;

ج) ŷ
;

د) ŷ
.

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...