آزمون دانش آموز برای معناداری همبستگی. اهمیت آماری پارامترهای رگرسیون و همبستگی

آزمون همبستگی پیرسون یک روش آماری پارامتریک است که به شما امکان می دهد وجود یا عدم وجود رابطه خطی بین دو شاخص کمی را تعیین کنید و همچنین نزدیکی و اهمیت آماری آن را ارزیابی کنید. به عبارت دیگر، آزمون همبستگی پیرسون به شما این امکان را می دهد تا تعیین کنید که آیا رابطه خطی بین تغییرات مقادیر دو متغیر وجود دارد یا خیر. در محاسبات و استنباط های آماری، ضریب همبستگی معمولاً به صورت نشان داده می شود rxyیا Rxy.

1. تاریخچه توسعه معیار همبستگی

آزمون همبستگی پیرسون توسط تیمی از دانشمندان بریتانیایی به رهبری کارل پیرسون(1857-1936) در دهه 90 قرن 19، برای ساده سازی تحلیل کوواریانس دو متغیر تصادفی. علاوه بر کارل پیرسون، روی آزمون همبستگی پیرسون نیز کار شد فرانسیس اجورثو رافائل ولدون.

2. آزمون همبستگی پیرسون برای چیست؟

معیار همبستگی پیرسون به شما اجازه می دهد تا تعیین کنید نزدیکی (یا قدرت) همبستگی بین دو شاخص اندازه گیری شده در مقیاس کمی چقدر است. با کمک محاسبات اضافی، می توانید تعیین کنید که رابطه شناسایی شده چقدر از نظر آماری معنادار است.

به عنوان مثال، با استفاده از معیار همبستگی پیرسون، می توان به این سوال پاسخ داد که آیا بین دمای بدن و محتوای لکوسیت ها در خون در عفونت های حاد تنفسی، بین قد و وزن بیمار، بین محتوای موجود در خون رابطه وجود دارد یا خیر. آب آشامیدنیفلوراید و بروز پوسیدگی در جمعیت

3. شرایط و محدودیت های استفاده از آزمون کای اسکوئر پیرسون

  1. شاخص های قابل مقایسه باید در اندازه گیری شوند مقیاس کمی(به عنوان مثال، ضربان قلب، دمای بدن، تعداد لکوسیت ها در هر 1 میلی لیتر خون، فشار خون سیستولیک).
  2. با استفاده از معیار همبستگی پیرسون، فقط می توان آن را تعیین کرد وجود و قدرت یک رابطه خطیبین مقادیر سایر مشخصات اتصال، از جمله جهت (مستقیم یا معکوس)، ماهیت تغییرات (مستقیم یا منحنی خط)، و همچنین وابستگی یک متغیر به متغیر دیگر، با استفاده از تحلیل رگرسیون تعیین می‌شوند.
  3. تعداد مقادیر مورد مقایسه باید برابر با دو باشد. در مورد تجزیه و تحلیل رابطه سه یا چند پارامتر، باید از روش استفاده کنید تحلیل عاملی.
  4. معیار همبستگی پیرسون است پارامتریک، در رابطه با آن شرط اعمال آن است توزیع نرمالمتغیرهای همسان در صورت لزوم تجزیه و تحلیل همبستگیشاخص هایی که توزیع آنها با نرمال متفاوت است، از جمله شاخص هایی که در مقیاس ترتیبی اندازه گیری می شوند، باید از ضریب همبستگی رتبه اسپیرمن استفاده شود.
  5. لازم است به وضوح بین مفاهیم وابستگی و همبستگی تمایز قائل شد. وابستگی مقادیر وجود همبستگی بین آنها را تعیین می کند، اما نه برعکس.

مثلاً رشد کودک به سن او بستگی دارد، یعنی چه کودک بزرگتر، هر چه بالاتر باشد. اگر دو تا بچه بگیریم سنین مختلف، پس با احتمال زیاد رشد کودک بزرگتر از کوچکتر خواهد بود. این پدیدهو تماس گرفت اعتیاد، دلالت بر رابطه علی بین شاخص ها دارد. البته وجود دارند همبستگییعنی تغییرات یک اندیکاتور با تغییرات اندیکاتور دیگر همراه است.

در موقعیتی دیگر، رابطه بین رشد کودک و ضربان قلب (HR) را در نظر بگیرید. همانطور که می دانید، هر دوی این مقادیر به طور مستقیم به سن بستگی دارند، بنابراین، در بیشتر موارد، کودکان با قد بزرگتر (و بنابراین، بزرگترها) مقادیر ضربان قلب کمتری خواهند داشت. به این معنا که، همبستگیمشاهده خواهد شد و ممکن است سفتی به اندازه کافی بالا داشته باشد. با این حال اگر بچه بگیریم هم سن، ولی ارتفاع متفاوت، پس به احتمال زیاد ضربان قلب آنها به میزان ناچیزی متفاوت خواهد بود که در رابطه با آن می توان نتیجه گرفت که استقلالضربان قلب از رشد.

مثال بالا نشان می دهد که تمایز بین مفاهیم اساسی در آمار چقدر مهم است اتصالاتو وابستگی هاشاخص هایی برای نتیجه گیری صحیح

4. چگونه ضریب همبستگی پیرسون را محاسبه کنیم؟

ضریب همبستگی پیرسون با استفاده از فرمول زیر محاسبه می شود:

5. چگونه مقدار ضریب همبستگی پیرسون را تفسیر کنیم؟

مقادیر ضریب همبستگی پیرسون بر اساس مقادیر مطلق آن تفسیر می شوند. مقادیر احتمالی ضریب همبستگی از 0 تا 1± متغیر است. هر چه قدر مطلق r xy بیشتر باشد، نزدیکی رابطه بین دو کمیت بیشتر است. r xy = 0 نشان دهنده عدم اتصال کامل است. r xy = 1 - نشان دهنده وجود یک اتصال مطلق (عملکردی) است. اگر مقدار معیار همبستگی پیرسون بزرگتر از 1 یا کمتر از 1- بود، در محاسبات خطا رخ داده است.

برای ارزیابی نزدیکی یا قدرت همبستگی، معیارهای پذیرفته شده عمومی استفاده می شود که بر اساس آن مقادیر مطلق r xy< 0.3 свидетельствуют о ضعیفاتصال، مقادیر r xy از 0.3 تا 0.7 - در مورد اتصال وسطسفتی، مقادیر r xy > 0.7 - o قویاتصالات

تخمین دقیق تری از قدرت همبستگی را می توان با استفاده از میز چادوک:

مقطع تحصیلی اهمیت آماریضریب همبستگی r xy با استفاده از آزمون t انجام می شود که با فرمول زیر محاسبه می شود:

مقدار به دست آمده t r با مقدار بحرانی در سطح معینی از اهمیت و تعداد درجات آزادی n-2 مقایسه می شود. اگر t r از t crit بیشتر باشد، در مورد اهمیت آماری همبستگی شناسایی شده نتیجه گیری می شود.

6. مثالی از محاسبه ضریب همبستگی پیرسون

هدف از این مطالعه شناسایی، تعیین تنگی و اهمیت آماری همبستگی بین دو شاخص کمی: سطح تستوسترون خون (X) و درصد بود. توده عضلانیدر بدن (Y). داده های اولیه برای یک نمونه 5 نفری (n = 5) در جدول خلاصه شده است.


مقدمه. 2

1. ارزیابی معناداری ضرایب رگرسیون و همبستگی با استفاده از آزمون f استودیو. 3

2. محاسبه معنی داری ضرایب رگرسیون و همبستگی با استفاده از آزمون F Student. 6

نتیجه. پانزده

پس از ساخت معادله رگرسیون، لازم است اهمیت آن بررسی شود: با استفاده از معیارهای خاص، تعیین کنید که آیا وابستگی حاصل است یا خیر. با معادله بیان می شودرگرسیون، تصادفی، یعنی آیا می توان از آن برای اهداف پیش بینی و برای تجزیه و تحلیل عاملی استفاده کرد. در آمار، روش هایی برای آزمایش دقیق اهمیت ضرایب رگرسیون با استفاده از توسعه داده شده است تحلیل واریانسو محاسبه معیارهای خاص (مثلاً معیار F). یک آزمون غیر دقیق را می توان با محاسبه میانگین انحراف خطی نسبی (e) انجام داد خطای متوسطتقریب ها:

حال اجازه دهید به ارزیابی اهمیت ضرایب رگرسیون bj و ایجاد فاصله اطمینان برای پارامترهای مدل رگرسیونی Py (J=l,2,..., p) بپردازیم.

بلوک 5 - ارزیابی معنی داری ضرایب رگرسیون با مقدار آزمون t استیودنت. مقادیر محاسبه شده ta با مقدار مجاز مقایسه می شود

بلوک 5 - ارزیابی اهمیت ضرایب رگرسیون با مقدار ^-معیار. مقادیر محاسبه شده t0n با مقدار مجاز 4،/ که از جداول توزیع t برای تعیین می شود، مقایسه می شود. احتمال داده شدهخطاهای (a) و تعداد درجات آزادی (/).

علاوه بر بررسی معنی‌داری کل مدل، لازم است معنی‌داری ضرایب رگرسیون را با استفاده از آزمون /-Student آزمایش کرد. حداقل مقدار ضریب رگرسیون bg باید با شرط bifob-^t مطابقت داشته باشد، که در آن bi مقدار ضریب معادله رگرسیون در مقیاس طبیعی با ویژگی عامل i-ام است. ab. - متوسط خطای درجه دومهر ضریب ناسازگاری بین خود از نظر اهمیت ضرایب D.

تجزیه و تحلیل آماری بیشتر مربوط به آزمایش اهمیت ضرایب رگرسیون است. برای انجام این کار، مقدار ^-معیار را برای ضرایب رگرسیون پیدا می کنیم. در نتیجه مقایسه آنها، کوچکترین معیار t تعیین می شود. عاملی که ضریب آن با کوچکترین ^-معیار مطابقت دارد از تجزیه و تحلیل بیشتر حذف می شود.

برای ارزیابی معنی داری آماری ضرایب همبستگی و رگرسیون از آزمون t استیودنت و فاصله اطمینانهر یک از شاخص ها فرضیه اما در مورد ماهیت تصادفی شاخص ها مطرح می شود، یعنی. در مورد تفاوت ناچیز آنها از صفر. ارزیابی اهمیت ضرایب رگرسیون و همبستگی با استفاده از آزمون F Student با مقایسه مقادیر آنها با بزرگی خطای تصادفی انجام می شود:

تخمین معناداری ضرایب رگرسیون خالص با استفاده از /-معیار دانش آموز به محاسبه مقدار تقلیل می یابد.

کیفیت کار مشخصه یک کار خاص است که منعکس کننده میزان پیچیدگی، تنش (شدت)، شرایط و اهمیت آن برای توسعه اقتصاد است. K.t. اندازه گیری شده توسط سیستم تعرفه، که به شما امکان می دهد دستمزدها را بسته به سطح صلاحیت (پیچیدگی کار) ، شرایط ، شدت کار و شدت آن و همچنین اهمیت صنایع و صنایع فردی ، مناطق ، قلمروها برای توسعه اقتصاد کشور متمایز کنید. K.t. بیان می یابد در دستمزدکارگرانی که تحت تأثیر عرضه و تقاضای نیروی کار در بازار کار ظهور می کنند (انواع خاص نیروی کار). K.t. - ساختار پیچیده

نمرات به دست آمده برای اهمیت نسبی پیامدهای اقتصادی، اجتماعی و زیست محیطی فردی پروژه، زمینه ای را برای مقایسه پروژه های جایگزین و گزینه های آنها با استفاده از "معیار پیچیده امتیازدهی بدون بعد کارایی اجتماعی و زیست محیطی-اقتصادی" پروژه Ec، فراهم می کند. (در میانگین نمرات معنی داری) طبق فرمول

مقررات درون صنعتی بسته به اهمیت انواع تولید در این صنعت، پیچیدگی و شرایط کار، و همچنین به شکل دستمزد مورد استفاده، تفاوت هایی را در دستمزد کارگران در یک شاخه معین از صنعت پیش بینی می کند.

امتیاز رتبه‌بندی به‌دست‌آمده از شرکت مورد تجزیه و تحلیل در رابطه با شرکت معیار، بدون در نظر گرفتن اهمیت شاخص‌های فردی، مقایسه‌ای است. هنگام مقایسه رتبه بندی چندین شرکت، بالاترین رتبه متعلق به شرکتی است که حداقل ارزش ارزیابی مقایسه ای به دست آمده را داشته باشد.

درک کیفیت یک محصول به عنوان معیار سودمندی آن، یک سوال عملی مهم را در مورد اندازه گیری آن ایجاد می کند. راه حل آن با مطالعه اهمیت ویژگی های فردی در برآوردن یک نیاز خاص به دست می آید. اهمیت حتی یک ویژگی ممکن است بسته به شرایط مصرف محصول متفاوت باشد. در نتیجه سودمندی کالا در شرایط مختلف استفاده از آن متفاوت است.

مرحله دوم کار، مطالعه داده های آماری و شناسایی رابطه و تعامل شاخص ها، تعیین اهمیت عوامل فردی و دلایل تغییر است. شاخص های کلی.

تمام شاخص های مورد بررسی به گونه ای گرد هم آمده اند که نتیجه ارزیابی جامع تمام جنبه های تجزیه و تحلیل شده فعالیت های شرکت با در نظر گرفتن شرایط فعالیت آن و با در نظر گرفتن درجه اهمیت شاخص های فردی برای انواع مختلف باشد. انواع سرمایه گذاران:

ضرایب رگرسیون شدت تأثیر عوامل بر شاخص عملکرد را نشان می دهد. اگر استانداردسازی اولیه شاخص های فاکتوریل انجام شود، b0 برابر با مقدار متوسط ​​است شاخص عملکرددر مجموع. ضرایب b, b2 ..... bl نشان می دهد که اگر مقادیر شاخص عامل از میانگین برابر با صفر در یک انحراف داشته باشد، سطح شاخص مؤثر از مقدار میانگین آن چند واحد انحراف دارد. انحراف معیار. بنابراین، ضرایب رگرسیون درجه اهمیت عوامل فردی را برای افزایش سطح شاخص موثر مشخص می کند. مقادیر ویژه ضرایب رگرسیون بر اساس روش از داده های تجربی تعیین می شود کمترین مربعات(در نتیجه حل سیستم ها معادلات عادی).

2. محاسبه معنی داری ضرایب رگرسیون و همبستگی با استفاده از آزمون F Student.

اجازه دهید شکل خطی روابط چند عاملی را نه تنها به عنوان ساده ترین، بلکه به عنوان شکل ارائه شده توسط بسته های نرم افزار کاربردی برای رایانه های شخصی در نظر بگیریم. اگر ارتباط یک عامل منفرد با یک ویژگی حاصل خطی نباشد، معادله با جایگزینی یا تبدیل مقدار ویژگی عامل خطی می شود.

فرم کلیمعادله رگرسیون چند عاملی به شکل زیر است:


که در آن k تعداد ویژگی های عامل است.

برای ساده سازی سیستم معادلات حداقل مربعات لازم برای محاسبه پارامترهای معادله (8.32)، معمولاً انحراف مقادیر فردی همه ویژگی ها از مقادیر میانگین این ویژگی ها معرفی می شود.

ما سیستمی از k معادلات حداقل مربعات بدست می آوریم:

با حل این سیستم، مقادیر ضرایب رگرسیون خالص مشروط b را بدست می آوریم. جمله آزاد معادله با فرمول محاسبه می شود


اصطلاح "ضریب رگرسیون شرطی-خالص" به این معنی است که هر یک از مقادیر bj انحراف میانگین جمعیت صفت حاصل از آن را اندازه گیری می کند. سایز متوسطهنگامی که این ضریب xj از مقدار متوسط ​​خود در واحد اندازه گیری منحرف می شود و به شرطی که سایر عوامل موجود در معادله رگرسیون در مقادیر متوسط ​​ثابت باشند، تغییر نکنند، تغییر نکنند.

بنابراین، بر خلاف ضریب رگرسیون زوجی، ضریب رگرسیون شرطی-خالص تأثیر یک عامل را اندازه‌گیری می‌کند و از رابطه بین تغییرات این عامل و تغییرات عوامل دیگر انتزاع می‌کند. اگر می توان در معادله رگرسیون همه عوامل مؤثر بر تغییر ویژگی حاصل را گنجاند، آنگاه مقادیر bj. را می توان معیارهای تأثیر محض عوامل در نظر گرفت. اما از آنجایی که واقعاً گنجاندن همه عوامل در معادله غیرممکن است، ضرایب bj. عاری از اختلاط تأثیر عواملی که در معادله گنجانده نشده است.

گنجاندن همه عوامل در معادله رگرسیون به یکی از سه دلیل یا همه آنها به یکباره غیرممکن است، زیرا:

1) برخی از عوامل ممکن است ناشناخته باشند علم مدرندانش هر فرآیندی همیشه ناقص است.

2) اطلاعاتی در مورد عوامل نظری شناخته شده وجود ندارد یا غیر قابل اعتماد است.

3) اندازه جامعه مورد مطالعه (نمونه) محدود است که به شما امکان می دهد تعداد محدودی از عوامل را در معادله رگرسیون قرار دهید.

ضرایب رگرسیون خالص مشروط bj. اعداد نامگذاری شده و در واحدهای اندازه گیری مختلف بیان می شوند و بنابراین با یکدیگر غیر قابل مقایسه هستند. برای تبدیل آنها به قابل مقایسه عملکرد نسبیهمان تبدیل برای به دست آوردن ضریب همبستگی جفت اعمال می شود. مقدار حاصل نامیده می شود ضریب استانداردرگرسیون یا ضریب -.


ضریب در ضریب xj درجه تأثیر تغییر عامل xj را بر تغییر ویژگی مؤثر y هنگامی که سایر عوامل موجود در معادله رگرسیون از تغییرات همزمان حذف می‌شوند، تعیین می‌کند.

بیان ضرایب رگرسیون خالص مشروط در قالب شاخص های نسبی قابل مقایسه ارتباط، ضرایب کشش مفید است:

ضریب کشش ضریب xj نشان می دهد که اگر مقدار این ضریب از مقدار متوسط ​​خود به میزان 1% انحراف داشته باشد و سایر عوامل موجود در معادله نیز در نظر گرفته شوند، صفت حاصل از مقدار متوسط ​​آن به میزان ej درصد از آن انحراف خواهد داشت. y اغلب، ضرایب کشش بر حسب دینامیک تفسیر و اعمال می شود: با افزایش ضریب x به میزان 1٪ از مقدار متوسط ​​آن، ویژگی حاصل به میزان e. درصد از مقدار متوسط ​​آن افزایش می یابد.

محاسبه و تفسیر معادله رگرسیون چند متغیره را در مثال همان 16 مزرعه در نظر بگیرید (جدول 8.1). ویژگی مؤثر سطح درآمد ناخالص و سه عامل مؤثر بر آن در جدول ارائه شده است. 8.7.

یک بار دیگر به یاد بیاورید که برای به دست آوردن شاخص های همبستگی قابل اعتماد و به اندازه کافی دقیق، جمعیت بیشتری مورد نیاز است.


جدول 8.7

سطح درآمد ناخالص و عوامل آن

اعداد مزرعه

درآمد ناخالص، روبل./ra

هزینه های نیروی کار، روز انسان در هکتار x1

سهم زمین زراعی

تولید شیر در هر گاو،


جدول 8.8 شاخص های معادله رگرسیون


متغیر وابسته: y

ضریب رگرسیون

ثابت-240،112905

Std. خطای est = 79.243276


راه حل با استفاده از برنامه "Microstat" برای رایانه شخصی انجام شد. در اینجا جداول از برگه پرینت آمده است. 8.7 میانگین و میانگین می دهد انحراف معیارهمه نشانه ها Tab. 8.8 شامل ضرایب رگرسیون و برآورد احتمالی آنها است:

ستون اول "var" - متغیرها، یعنی عوامل؛ ستون دوم "ضریب رگرسیون" - ضرایب رگرسیون خالص مشروط bj. ستون سوم "std. خطا" - میانگین خطاهای برآورد ضرایب رگرسیون؛ ستون چهارم - مقادیر آزمون t Student در 12 درجه آزادی تنوع؛ ستون پنجم "prob" - احتمال فرضیه صفر در مورد ضرایب رگرسیون.

ستون ششم "R2 جزئی" - ضرایب تعیین جزئی. محتوا و روش محاسبه شاخص های ستون های 3-6 بیشتر در فصل 8 مورد بحث قرار گرفته است. "std. خطای est." - خطای ریشه میانگین مربع ارزیابی ویژگی مؤثر بر اساس معادله رگرسیون. معادله به دست آمد رگرسیون چندگانه:


y \u003d 2.26x1 - 4.31x2 + 0.166x3 - 240.


این بدان معنی است که ارزش درآمد ناخالص در هر 1 هکتار زمین کشاورزی به طور متوسط ​​2.26 روبل افزایش یافت. با افزایش هزینه های نیروی کار 1 ساعت در هکتار؛ به طور متوسط ​​4.31 روبل کاهش یافت. با افزایش سهم زمین قابل کشت در زمین های کشاورزی 1٪ و افزایش 0.166 روبل. با افزایش تولید شیر در هر گاو 1 کیلوگرم. ارزش منفی عبارت آزاد کاملاً طبیعی است و همانطور که قبلاً در بند 8.2 ذکر شد، ویژگی مؤثر - درآمد ناخالص مدتها قبل از رسیدن به مقادیر صفر عوامل صفر می شود که در تولید غیرممکن است.

معنی منفیضریب х^ سیگنالی از مشکل قابل توجه در اقتصاد مزارع مورد مطالعه است که در آن تولید محصول زیان آور است و فقط دام سودآور است. با روش های منطقی مدیریت کشاورزیو قیمت های معمولی (تعادل یا نزدیک به آنها) برای محصولات همه صنایع، درآمد نباید کاهش یابد، بلکه با افزایش حاصلخیزترین سهم در زمین های زراعی - زمین های زراعی افزایش یابد.

بر اساس داده های دو ردیف ماقبل آخر جدول. 8.7 و برگه. 8.8 ضرایب p و ضرایب کشش را با توجه به فرمول های (8.34) و (8.35) محاسبه کنید.

هم تغییر در سطح درآمد و هم تغییر احتمالی آن در پویایی به شدت تحت تأثیر عامل x3 - بهره وری گاوها، و ضعیف ترین - x2 - سهم زمین قابل کشت است. مقادیر Р2/ در آینده استفاده خواهد شد (جدول 8.9).


جدول 8.9 تأثیر مقایسه ای عوامل بر سطح درآمد

عوامل xj


بنابراین، ما به دست آوردیم که ضریب ضریب xj به ضریب کشش این عامل، به عنوان ضریب تغییر ضریب به ضریب تغییرات ویژگی مؤثر اشاره دارد. از آنجا که، همانطور که از خط آخر جدول مشاهده می شود. 8.7، ضرایب تغییرات همه عوامل کمتر از ضریب تغییرات ویژگی حاصل است. همه ضرایب - کمتر از ضرایب کشش هستند.

رابطه بین ضریب رگرسیون جفتی و مشروط خالص را با استفاده از مثال عامل -c در نظر بگیرید. جفت شد معادله خطیارتباط بین y و x به شکل زیر است:


y = 3.886x1 - 243.2


ضریب رگرسیون خالص مشروط در x1 تنها 58 درصد از یک جفت است. 42 درصد باقیمانده به این دلیل است که تغییر x1 با تغییر عامل x2 x3 همراه است که به نوبه خود بر صفت حاصل تأثیر می گذارد. روابط همه ویژگی ها و ضرایب رگرسیون زوجی آنها در نمودار رابطه ارائه شده است (شکل 8.2).

اگر تخمین‌های تأثیر مستقیم و غیرمستقیم تغییر x1 را روی y جمع کنیم، یعنی حاصل ضرب ضرایب رگرسیون زوجی برای همه «مسیرها» (شکل 8.2)، به‌دست می‌آید: 2.26 + 12.55 0.166 + (0.00128-). ) (-4.31) + (-0.00128) 17.00 0.166 = 4.344.

این ارزش حتی بیشتر است ضریب جفتاتصال x1 با y. بنابراین، تأثیر غیرمستقیم تغییر x1 از طریق نشانه‌ها-عواملی که در معادله گنجانده نشده‌اند، برعکس است و در مجموع به دست می‌آید:


1 Ayvazyan S.A., Mkhitaryan V.S. آمار کاربردی و مبانی اقتصاد سنجی. کتاب درسی برای دبیرستان ها. - M.: UNITI، 2008، - 311s.

2 جانستون جی. روشهای اقتصادسنجی. - م.: آمار، 1980،. - 282 ثانیه.

3 Dougherty K. مقدمه ای بر اقتصاد سنجی. - M.: INFRA-M، 2004، - 354 p.

4 Dreyer N., Smith G., Applied تجزیه و تحلیل رگرسیون. - M.: امور مالی و آمار، 2006، - 191s.

5 Magnus Ya.R.، Kartyshev P.K.، Peresetsky A.A. اقتصاد سنجی. دوره اولیه.-م.: دلو، 2006، - 259ص.

6 کارگاه اقتصاد سنجی / ویرایش. I.I.Eliseeva.- M.: امور مالی و آمار، 2004، - 248p.

7 اقتصاد سنجی / ویرایش. I.I.Eliseeva.- M.: امور مالی و آمار، 2004، - 541p.

8 Kremer N., Putko B. Econometrics.- M.: UNITY-DANA, 200, - 281p.



تدریس خصوصی

برای یادگیری یک موضوع به کمک نیاز دارید؟

کارشناسان ما در مورد موضوعات مورد علاقه شما مشاوره یا خدمات آموزشی ارائه خواهند کرد.
درخواست ارسال کنیدبا نشان دادن موضوع در حال حاضر برای اطلاع از امکان اخذ مشاوره.

نسخه کامل این یادداشت (به همراه فرمول ها و جداول) را می توانید از این صفحه با فرمت PDF دریافت کنید. متن روی خود صفحه است خلاصهمحتوای این یادداشت و مهمترین نتیجه گیری.

تقدیم به خوشبینان از آمار

ضریب همبستگی (CC) یکی از ساده ترین و ساده ترین هاست آمار محبوبتوصیف رابطه بین متغیرهای تصادفی در عین حال، QC در تعداد نتیجه‌گیری‌های اشتباه و بی‌معنی که با کمک آن انجام می‌شود، پیشتاز است. این وضعیت به دلیل رویه ثابت ارائه مطالب مرتبط با همبستگی و همبستگی است.

مقادیر QC بزرگ، کوچک و "واسطه".

هنگام در نظر گرفتن همبستگی، مفاهیم همبستگی «قوی» (تقریباً منفرد) و «ضعیف» (تقریباً صفر) به تفصیل مورد بحث قرار می‌گیرند، اما در عمل، نه یکی و نه دیگری هرگز مواجه نمی‌شوند. در نتیجه، سوال در مورد تفسیر معقول مقادیر "واسطه" QC که در عمل رایج است نامشخص باقی مانده است. ضریب همبستگی برابر است 0.9 یا 0.8 یک مبتدی خوشبین است و مقادیر کوچکتر او را گیج می کند.

با کسب تجربه، خوش بینی رشد می کند و اکنون QC برابر است 0.7 یا 0.6 محقق را به وجد می آورد و خوش بینی از ارزش ها الهام می گیرد 0.5 و 0.4 . در صورتی که محقق با روش های آزمایش آشنا باشد فرضیه های آماری، سپس آستانه مقادیر QC "خوب" به کاهش می یابد 0.3 یا 0.2 .

در واقع، کدام مقادیر QC را می توان "به اندازه کافی بزرگ" در نظر گرفت و کدام "خیلی کوچک" باقی می ماند؟ دو پاسخ کاملاً متضاد برای این سؤال وجود دارد - خوش بینانه و بدبینانه. ابتدا پاسخ خوش بینانه (محبوب ترین) را در نظر بگیرید.

اهمیت ضریب همبستگی

این گزینه پاسخ توسط آمار کلاسیک به ما داده شده است و با مفهوم مرتبط است اهمیت آماری QC. ما در اینجا فقط وضعیتی را در نظر خواهیم گرفت که یک همبستگی مثبت مورد علاقه باشد (مورد همبستگی منفی کاملاً مشابه است). یک مورد پیچیده تر، زمانی که فقط وجود یک همبستگی بدون در نظر گرفتن علامت بررسی شود، در عمل نسبتاً نادر است.

اگر برای QC rنابرابری r > r e (n)، سپس می گوییم که KK از نظر آماری معنی دار استدر سطح معناداری ه. اینجا دوباره (n)- چندک، با توجه به آن ما فقط به این واقعیت علاقه داریم که در سطح ثابتی از اهمیت e، مقدار آن با افزایش طول به صفر میل می کند. nنمونه ها. به نظر می رسد که با افزایش آرایه داده ها، می توان به اهمیت آماری QC حتی در مقادیر بسیار کوچک آن دست یافت. در نتیجه، با توجه به یک نمونه به اندازه کافی بزرگ، وسوسه تشخیص وجود وجود دارد برای مثال، در مورد QC، برابر است، 0.06 . با این وجود، حس مشترکنشان می دهد که نتیجه گیری در مورد وجود یک همبستگی معنی دار با r=0.06نمی تواند برای هر اندازه نمونه درست باشد. باید ماهیت خطا را درک کنیم. برای انجام این کار، مفهوم اهمیت آماری را با جزئیات بیشتری در نظر بگیرید.

طبق معمول، هنگام آزمون فرضیه های آماری، معنای محاسبات انجام شده در انتخاب فرضیه صفر و فرضیه جایگزین نهفته است. هنگام آزمایش اهمیت QC، فرضیه صفر به عنوان فرض در نظر گرفته می شود (r = 0)تحت فرضیه جایگزین ( r > 0 )(به یاد بیاورید که ما در اینجا فقط وضعیتی را در نظر می گیریم که همبستگی مثبت مورد علاقه باشد). سطح اهمیت به طور خودسرانه انتخاب شده است هاحتمال به اصطلاح را تعیین می کند. زمانی که فرضیه صفر درست باشد، خطاهای نوع I ( r=0، اما توسط آزمون آماری رد می شود (یعنی آزمون به اشتباه وجود یک همبستگی معنی دار را تشخیص می دهد). با انتخاب سطح معنی داری، احتمال کمی از چنین خطایی را تضمین می کنیم، یعنی. ما تقریباً از این واقعیت مصون هستیم که برای نمونه های مستقل ( r=0) به اشتباه وجود یک همبستگی را تشخیص دهد ( r > 0). به طور کلی، معنی دار بودن ضریب همبستگی فقط به این معنی است که به احتمال زیاد با صفر متفاوت است.

به همین دلیل است که اندازه نمونه و بزرگی QC یکدیگر را خنثی می کنند - نمونه های بزرگ به سادگی امکان دقت بیشتر در محلی سازی یک QC کوچک توسط تخمین نمونه آن را فراهم می کنند.

واضح است که مفهوم اهمیت به سؤال اصلی در مورد درک مقوله‌های «بزرگ/کوچک» در رابطه با مقادیر QC پاسخ نمی‌دهد. پاسخ داده شده توسط آزمون معنی داری چیزی در مورد ویژگی های همبستگی به ما نمی گوید، اما فقط به ما اجازه می دهد تا تأیید کنیم که نابرابری با احتمال بالایی برآورده شده است. r > 0. در عین حال، مقدار CC خود حاوی اطلاعات بسیار مهم تری در مورد ویژگی های همبستگی است. در واقع، QCهای به همان اندازه معنی دار برابر است 0.1 و 0.9 ، به طور قابل توجهی در درجه شدت همبستگی متناظر و بیانیه در مورد اهمیت QC متفاوت است. r = 0.06برای عمل، کاملاً بی فایده است، زیرا برای هر اندازه نمونه، نیازی به صحبت در مورد همبستگی در اینجا نیست.

در نهایت می توان گفت که در عمل هیچ ویژگی رابطه همبستگی و حتی وجود آن از معنی داری ضریب همبستگی ناشی نمی شود. از نقطه نظر عمل، خود انتخاب یک فرضیه جایگزین مورد استفاده در آزمایش اهمیت QC ناقص است، زیرا موارد r=0و r>0در کوچک rعملا غیر قابل تشخیص

در واقع، زمانی که از اهمیت QCاستنباط وجود همبستگی معنی دار، جایگزینی کاملاً بی شرمانه از مفاهیم را بر اساس ابهام معنایی کلمه "اهمیت" ایجاد می کند. اهمیت QC (مفهومی به وضوح تعریف شده) به طور فریبنده ای به یک "همبستگی معنی دار" تبدیل می شود و این عبارت که تعریف دقیقی ندارد مترادف "همبستگی تلفظ شده" تفسیر می شود.

تقسیم پراکندگی

اجازه دهید نسخه دیگری از پاسخ به سؤال در مورد مقادیر "کوچک" و "بزرگ" QC را در نظر بگیریم. این پاسخ به روشن شدن معنای رگرسیون QC مربوط می شود و برای تمرین بسیار مفید است، اگرچه نسبت به معیارهای اهمیت QC بسیار خوش بینانه تر است.

جالب توجه است، بحث در مورد معنای رگرسیون CC اغلب با مشکلاتی از ماهیت آموزشی (و نه روانشناختی) مواجه می شود. اجازه دهید به طور خلاصه در مورد آنها نظر دهیم. پس از معرفی رسمی QC و روشن شدن معنای همبستگی های «قوی» و «ضعیف»، لازم است در بحث مباحث فلسفی رابطه بین همبستگی ها و روابط علت و معلولی بپردازیم. در عین حال، تلاش‌های پرانرژی برای نفی تلاش (فرضی!) برای تفسیر همبستگی به عنوان علی انجام می‌شود. در مقابل این پس زمینه، بحث در مورد در دسترس بودن وابستگی عملکردی(از جمله رگرسیون) بین مقادیر همبسته به سادگی کفرآمیز به نظر می رسد. به هر حال، از وابستگی عملکردی تا علیت تنها یک مرحله وجود دارد! در نتیجه، سؤال معنای رگرسیون QC به طور کلی دور زده می شود، و همچنین سؤال خصوصیات همبستگی رگرسیون خطی.

در واقع، همه چیز در اینجا ساده است. اگر برای متغیرهای تصادفی نرمال شده (یعنی داشتن صفر میانگین و واریانس واحد). ایکسو Yیک نسبت وجود دارد

Y = a + bX + N،

جایی که نیک متغیر تصادفی با میانگین صفر است (نویز افزودنی)، به راحتی می توان آن را مشاهده کرد a = 0و b = r. این نسبت بین متغیرهای تصادفی است ایکسو Yمعادله رگرسیون خطی نامیده می شود.

محاسبه واریانس یک متغیر تصادفی Yدریافت عبارت زیر آسان است:

D[Y] = b 2 D[X] + D[N].

در آخرین عبارت، جمله اول سهم متغیر تصادفی را تعیین می کند ایکسبه پراکندگی Yو اصطلاح دوم سهم نویز است نبه پراکندگی Y. با استفاده از عبارت بالا برای پارامتر ب، بیان مشارکت متغیرهای تصادفی آسان است ایکسو ناز طریق ارزش r=r(به یاد بیاورید که ما مقادیر را در نظر می گیریم ایکسو Yنرمال شده، یعنی D[X] = D[Y] = 1):

b 2 D[X] = r 2

D[N] = 1 - r2

با در نظر گرفتن فرمول های به دست آمده، اغلب گفته می شود که برای متغیرهای تصادفی ایکسو Yمربوط معادله رگرسیون، ارزش r2نسبت واریانس یک متغیر تصادفی را تعیین می کند Y، به صورت خطی با تغییر در متغیر تصادفی تعیین می شود ایکس. بنابراین، واریانس کل متغیر تصادفی Yبه پراکندگی تجزیه می شود شرطی خطیوجود رابطه رگرسیون و پراکندگی باقی مانده به دلیل وجود نویز افزودنی


نمودار پراکندگی یک متغیر تصادفی دو بعدی را در نظر بگیرید (X, Y). در کوچک D[N]نمودار پراکندگی به یک رابطه خطی بین متغیرهای تصادفی تبدیل می‌شود، که با نویز افزایشی کمی تحریف می‌شود (یعنی نقاط روی نمودار پراکنده عمدتاً نزدیک خط مستقیم متمرکز می‌شوند. X=Y). چنین موردی برای مقادیر رخ می دهد rنزدیک به مدول به وحدت. با کاهش (در مقدار مطلق) مقدار QC، پراکندگی جزء نویز نشروع به کمک فزاینده ای به پراکندگی کمیت می کند Yو برای کوچک rنمودار پراکندگی به طور کامل شباهت خود را به یک خط مستقیم از دست می دهد. در این حالت ابری از نقاط داریم که پراکندگی آنها عمدتاً به دلیل نویز است. این مورد است که در مقادیر قابل توجه، اما کوچک در مقدار مطلق، QC تحقق می یابد. واضح است که در این مورد نیازی به صحبت از هیچ همبستگی نیست.

حال بیایید ببینیم که تفسیر رگرسیون CC چه نوع پاسخی به سؤال در مورد مقادیر "بزرگ" و "کوچک" CC به ما ارائه می دهد. اول از همه، باید تاکید کرد که این پراکندگی است که طبیعی ترین معیار پراکندگی مقادیر یک متغیر تصادفی است. ماهیت این "طبیعی بودن" شامل افزایش واریانس برای متغیرهای تصادفی مستقل است، اما این ویژگی دارای تظاهرات بسیار متنوعی است، که در میان آنها تقسیم واریانس به واریانس های شرطی خطی و باقیمانده در بالا نشان داده شده است.

بنابراین ارزش r2نسبت واریانس کمیت را تعیین می کند Y، به صورت خطی با وجود رابطه رگرسیون با یک متغیر تصادفی تعیین می شود ایکس. این سؤال که چه نسبتی از واریانس شرطی خطی را می توان نشانه وجود یک همبستگی برجسته در نظر گرفت، بر وجدان محقق باقی می ماند. با این حال، مشخص می شود که مقادیر کوچک ضریب همبستگی ( r< 0.3 ) نسبت کوچکی از واریانس توضیح داده شده خطی را ارائه دهید که صحبت در مورد همبستگی مشخص بی معنی است. در r > 0.5ما می توانیم در مورد وجود یک همبستگی قابل توجه بین کمیت ها و زمان صحبت کنیم r > 0.7همبستگی را می توان معنادار در نظر گرفت.

برخی از محققان با محاسبه مقدار ضریب همبستگی، در اینجا متوقف می شوند. اما از نقطه نظر روش شناسی شایسته آزمایش، تعیین سطح معناداری (یعنی درجه قابلیت اطمینان) این ضریب نیز ضروری است.

سطح معنی داری ضریب همبستگی با استفاده از جدول مقادیر بحرانی محاسبه می شود. در زیر بخشی از این جدول آمده است که به ما امکان می دهد سطح اهمیت ضریب به دست آمده توسط ما را تعیین کنیم.

ردیفی را انتخاب می کنیم که با حجم نمونه مطابقت دارد. در مورد ما، n = 10. ما در این ردیف مقدار جدول را انتخاب می کنیم که کمی کمتر از مقدار تجربی (یا دقیقاً برابر با آن است، که بسیار نادر است). این عدد پررنگ 0.632 است. این به ستونی با مقدار سطح اطمینان 0.05 = p اشاره دارد. یعنی در واقع، مقدار تجربی بین ستون‌های p = 0.05 و p = 0.01 متوسط ​​است، بنابراین 0.05  p  0.01 است. بنابراین، فرضیه صفر را رد می کنیم و نتیجه می گیریم که نتیجه به دست آمده (758/0 = R xy) در سطح p معنی دار است.< 0,05 (это уровень статистической значимости): R эмп >R cr (ص< 0,05) H 0 ,  Н 1 ! ст. зн.

در زبان روزمره، این را می توان به صورت زیر تفسیر کرد: می توان انتظار داشت که این قدرت اتصال در نمونه کمتر از پنج مورد از 100 اتفاق بیفتد، اگر این ارتباط نتیجه تصادف باشد.

    1. تجزیه و تحلیل رگرسیون

ایکس(رشد)

Y(وزن)

م ایکس = 166,6

م y = 58,3

ایکس = 6 , 54

y = 8 , 34

از تحلیل رگرسیون برای مطالعه رابطه بین دو کمیت اندازه گیری شده در مقیاس فاصله ای استفاده می شود. این نوع تحلیل شامل ساخت یک معادله رگرسیونی است که به فرد امکان می دهد وابستگی یک ویژگی به ویژگی دیگر را به طور کمی توصیف کند (ضریب همبستگی پیرسون وجود یا عدم وجود یک رابطه را نشان می دهد، اما این رابطه را توصیف نمی کند). محقق با دانستن مقدار تصادفی یکی از ویژگی ها و با استفاده از این معادله می تواند با درجه ای از احتمال، مقدار متناظر ویژگی دوم را پیش بینی کند. وابستگی خطی ویژگی ها با معادله ای از نوع زیر توصیف می شود:

y = a +ب y * ایکس ,

جایی که آ -جمله آزاد معادله، برابر با افزایش نمودار در یک نقطه x=0در مورد محور x، ب شیب خط رگرسیون برابر با مماس شیب نمودار به محور آبسیسا است (به شرطی که مقیاس مقادیر در هر دو محور یکسان باشد).

با دانستن مقادیر ویژگی های مورد مطالعه، می توان مقدار عبارت آزاد و ضریب رگرسیون را با استفاده از فرمول های زیر تعیین کرد:

a =م y ب y * م ایکس

در مورد ما:
;

a = 58,3 – 0,97 * 166,6 = -103,3

بنابراین، فرمول وابستگی وزن به قد به شرح زیر است: y = 0.969 * x - 103.3

نمودار مربوطه در زیر نشان داده شده است.

در صورت لزوم توضیح وابستگی قد به وزن ( ایکساز جانب در) سپس مقادیر آو بمتفاوت می شوند و فرمول ها باید بر این اساس اصلاح شوند:

ایکس= a +ب ایکس * در

a =م ایکس ب ایکس * م y

در این حالت شکل نمودار نیز تغییر می کند.

ضریب رگرسیون ارتباط نزدیکی با ضریب همبستگی دارد. دومی میانگین هندسی ضرایب رگرسیون ویژگی است:

مجذور ضریب همبستگی را ضریب تعیین می گویند. مقدار آن درصد تأثیر متقابل متغیرها را تعیین می کند. در مورد ما آر 2 = 0,76 2 = 0,58 . یعنی 58 درصد واریانس کل Y با تأثیر متغیر X توضیح داده می شود، 42٪ باقی مانده به دلیل تأثیر عواملی است که در معادله در نظر گرفته نشده است.

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...