برآورد فاصله ای ضریب همبستگی. آزمون: برآورد معنی‌داری ضرایب رگرسیون و همبستگی با استفاده از آزمون F Student.

نسخه کاملاین یادداشت (به همراه فرمول ها و جداول) را می توانید از این صفحه به صورت PDF دریافت کنید. متن روی خود صفحه است خلاصهمحتوای این یادداشت و مهمترین نتیجه گیری.

تقدیم به خوشبینان از آمار

ضریب همبستگی (CC) یکی از ساده ترین و ساده ترین هاست آمار محبوبتوصیف رابطه بین متغیرهای تصادفی در عین حال، QC در تعداد نتیجه‌گیری‌های اشتباه و بی‌معنی که با کمک آن انجام می‌شود، پیشتاز است. این وضعیت به دلیل رویه ثابت ارائه مطالب مرتبط با همبستگی و همبستگی است.

مقادیر QC بزرگ، کوچک و "واسطه".

هنگام در نظر گرفتن همبستگی، مفاهیم همبستگی «قوی» (تقریباً منفرد) و «ضعیف» (تقریباً صفر) به تفصیل مورد بحث قرار می‌گیرند، اما در عمل، نه یکی و نه دیگری هرگز مواجه نمی‌شوند. در نتیجه، سوال در مورد تفسیر معقول مقادیر "واسطه" QC که در عمل رایج است نامشخص باقی مانده است. ضریب همبستگی برابر است 0.9 یا 0.8 یک مبتدی خوشبین است و مقادیر کوچکتر او را گیج می کند.

با کسب تجربه، خوش بینی رشد می کند و اکنون QC برابر است 0.7 یا 0.6 محقق را به وجد می آورد و خوش بینی از ارزش ها الهام می گیرد 0.5 و 0.4 . در صورتی که محقق با روش های آزمایش آشنا باشد فرضیه های آماری، سپس آستانه مقادیر QC "خوب" به کاهش می یابد 0.3 یا 0.2 .

در واقع، کدام مقادیر QC را می توان "به اندازه کافی بزرگ" در نظر گرفت و کدام "خیلی کوچک" باقی می ماند؟ دو پاسخ کاملاً متضاد برای این سؤال وجود دارد - خوش بینانه و بدبینانه. ابتدا پاسخ خوش بینانه (محبوب ترین) را در نظر بگیرید.

اهمیت ضریب همبستگی

این گزینه پاسخ توسط آمار کلاسیک به ما داده شده است و با مفهوم مرتبط است اهمیت آماری QC. ما در اینجا فقط وضعیتی را در نظر خواهیم گرفت که یک همبستگی مثبت مورد علاقه باشد (مورد همبستگی منفی کاملاً مشابه است). یک مورد پیچیده تر، زمانی که فقط وجود یک همبستگی بدون در نظر گرفتن علامت بررسی شود، در عمل نسبتاً نادر است.

اگر برای QC rنابرابری r > r e (n)، سپس می گوییم که KK از نظر آماری معنی دار استدر سطح معناداری ه. اینجا دوباره (n)- چندک، با توجه به آن ما فقط به این واقعیت علاقه داریم که در سطح ثابتی از اهمیت e، مقدار آن با افزایش طول به صفر میل می کند. nنمونه ها. به نظر می رسد که با افزایش آرایه داده ها، می توان به اهمیت آماری QC حتی در مقادیر بسیار کوچک آن دست یافت. در نتیجه، با توجه به یک نمونه به اندازه کافی بزرگ، وسوسه تشخیص وجود وجود دارد برای مثال، در مورد QC، برابر است، 0.06 . با این وجود، حس مشترکنشان می دهد که نتیجه گیری در مورد وجود یک همبستگی معنی دار با r=0.06نمی تواند برای هر اندازه نمونه درست باشد. باید ماهیت خطا را درک کنیم. برای انجام این کار، مفهوم اهمیت آماری را با جزئیات بیشتری در نظر بگیرید.

طبق معمول، هنگام آزمون فرضیه های آماری، معنای محاسبات انجام شده در انتخاب فرضیه صفر و فرضیه جایگزین نهفته است. هنگام آزمایش اهمیت QC، فرضیه صفر به عنوان فرض در نظر گرفته می شود (r = 0)تحت فرضیه جایگزین ( r > 0 )(به یاد بیاورید که ما در اینجا فقط وضعیتی را در نظر می گیریم که همبستگی مثبت مورد علاقه باشد). سطح اهمیت به طور خودسرانه انتخاب شده است هاحتمال به اصطلاح را تعیین می کند. زمانی که فرضیه صفر درست باشد، خطاهای نوع I ( r=0، اما توسط آزمون آماری رد می شود (یعنی آزمون به اشتباه وجود یک همبستگی معنی دار را تشخیص می دهد). با انتخاب سطح معنی داری، احتمال کمی از چنین خطایی را تضمین می کنیم، یعنی. ما تقریباً از این واقعیت مصون هستیم که برای نمونه های مستقل ( r=0) به اشتباه وجود یک همبستگی را تشخیص دهد ( r > 0). به طور کلی، معنی دار بودن ضریب همبستگی فقط به این معنی است که به احتمال زیاد با صفر متفاوت است.

به همین دلیل است که اندازه نمونه و بزرگی QC یکدیگر را خنثی می کنند - نمونه های بزرگ به سادگی امکان دقت بیشتر در محلی سازی یک QC کوچک توسط تخمین نمونه آن را فراهم می کنند.

واضح است که مفهوم اهمیت به سؤال اصلی در مورد درک مقوله‌های «بزرگ/کوچک» در رابطه با مقادیر QC پاسخ نمی‌دهد. پاسخ داده شده توسط آزمون معنی داری چیزی در مورد ویژگی های همبستگی به ما نمی گوید، اما فقط به ما اجازه می دهد تا تأیید کنیم که نابرابری با احتمال بالایی برآورده شده است. r > 0. در عین حال، مقدار CC خود حاوی اطلاعات بسیار مهم تری در مورد ویژگی های همبستگی است. در واقع، QCهای به همان اندازه معنی دار برابر است 0.1 و 0.9 ، به طور قابل توجهی در درجه شدت همبستگی متناظر و بیانیه در مورد اهمیت QC متفاوت است. r = 0.06برای عمل، کاملاً بی فایده است، زیرا برای هر اندازه نمونه، نیازی به صحبت در مورد همبستگی در اینجا نیست.

در نهایت می توان گفت که در عمل هیچ ویژگی رابطه همبستگی و حتی وجود آن از معنی داری ضریب همبستگی ناشی نمی شود. از نقطه نظر عمل، خود انتخاب یک فرضیه جایگزین مورد استفاده در آزمایش اهمیت QC ناقص است، زیرا موارد r=0و r>0در کوچک rعملا غیر قابل تشخیص

در واقع، زمانی که از اهمیت QCاستنباط وجود همبستگی معنی دار، جایگزینی کاملاً بی شرمانه از مفاهیم را بر اساس ابهام معنایی کلمه "اهمیت" ایجاد می کند. اهمیت QC (مفهومی به وضوح تعریف شده) به طور فریبنده ای به یک "همبستگی معنی دار" تبدیل می شود و این عبارت که تعریف دقیقی ندارد مترادف "همبستگی تلفظ شده" تفسیر می شود.

تقسیم پراکندگی

اجازه دهید نسخه دیگری از پاسخ به سؤال در مورد مقادیر "کوچک" و "بزرگ" QC را در نظر بگیریم. این پاسخ به روشن شدن معنای رگرسیون QC مربوط می شود و برای تمرین بسیار مفید است، اگرچه نسبت به معیارهای اهمیت QC بسیار خوش بینانه تر است.

جالب توجه است، بحث در مورد معنای رگرسیون CC اغلب با مشکلاتی از ماهیت آموزشی (و نه روانشناختی) مواجه می شود. اجازه دهید به طور خلاصه در مورد آنها نظر دهیم. پس از معرفی رسمی QC و روشن شدن معنای همبستگی های «قوی» و «ضعیف»، لازم است در بحث مباحث فلسفی رابطه بین همبستگی ها و روابط علت و معلولی بپردازیم. در عین حال، تلاش‌های پرانرژی برای نفی تلاش (فرضی!) برای تفسیر همبستگی به عنوان علی انجام می‌شود. در مقابل این پس زمینه، بحث در مورد در دسترس بودن وابستگی عملکردی(از جمله رگرسیون) بین مقادیر همبسته به سادگی کفرآمیز به نظر می رسد. به هر حال، از وابستگی عملکردی تا علیت تنها یک مرحله وجود دارد! در نتیجه، سؤال معنای رگرسیون QC به طور کلی دور زده می شود، و همچنین سؤال خصوصیات همبستگی رگرسیون خطی.

در واقع، همه چیز در اینجا ساده است. اگر برای متغیرهای تصادفی نرمال شده (یعنی داشتن صفر میانگین و واریانس واحد). ایکسو Yیک نسبت وجود دارد

Y = a + bX + N،

جایی که نیک متغیر تصادفی با میانگین صفر است (نویز افزودنی)، به راحتی می توان آن را مشاهده کرد a = 0و b = r. این نسبت بین متغیرهای تصادفی است ایکسو Yمعادله رگرسیون خطی نامیده می شود.

محاسبه واریانس یک متغیر تصادفی Yدریافت عبارت زیر آسان است:

D[Y] = b 2 D[X] + D[N].

در آخرین عبارت، جمله اول سهم متغیر تصادفی را تعیین می کند ایکسبه پراکندگی Yو دومین عبارت سهم نویز است نبه پراکندگی Y. با استفاده از عبارت بالا برای پارامتر ب، بیان مشارکت متغیرهای تصادفی آسان است ایکسو ناز طریق ارزش r=r(به یاد بیاورید که ما مقادیر را در نظر می گیریم ایکسو Yنرمال شده، یعنی D[X] = D[Y] = 1):

b 2 D[X] = r 2

D[N] = 1 - r2

با در نظر گرفتن فرمول های به دست آمده، اغلب گفته می شود که برای متغیرهای تصادفی ایکسو Yمربوط معادله رگرسیون، ارزش r2نسبت واریانس یک متغیر تصادفی را تعیین می کند Y، به صورت خطی با تغییر در متغیر تصادفی تعیین می شود ایکس. بنابراین، واریانس کل متغیر تصادفی Yبه پراکندگی تجزیه می شود شرطی خطیوجود رابطه رگرسیون و پراکندگی باقی مانده به دلیل وجود نویز افزودنی


نمودار پراکندگی یک متغیر تصادفی دو بعدی را در نظر بگیرید (X, Y). در کوچک D[N]نمودار پراکندگی به یک رابطه خطی بین متغیرهای تصادفی تبدیل می‌شود، که با نویز افزایشی کمی تحریف می‌شود (یعنی نقاط روی نمودار پراکنده عمدتاً نزدیک خط مستقیم متمرکز می‌شوند. X=Y). چنین موردی برای مقادیر رخ می دهد rنزدیک به مدول به وحدت. با کاهش (در مقدار مطلق) مقدار QC، پراکندگی جزء نویز نشروع به کمک فزاینده ای به پراکندگی کمیت می کند Yو برای کوچک rنمودار پراکندگی به طور کامل شباهت خود را به یک خط مستقیم از دست می دهد. در این حالت ابری از نقاط داریم که پراکندگی آنها عمدتاً به دلیل نویز است. این مورد است که در مقادیر قابل توجه، اما کوچک در مقدار مطلق، QC تحقق می یابد. واضح است که در این مورد نیازی به صحبت از هیچ همبستگی نیست.

حال بیایید ببینیم که تفسیر رگرسیون CC چه نوع پاسخی به سؤال در مورد مقادیر "بزرگ" و "کوچک" CC به ما ارائه می دهد. اول از همه، باید تاکید کرد که این پراکندگی است که طبیعی ترین معیار پراکندگی مقادیر یک متغیر تصادفی است. ماهیت این "طبیعی بودن" شامل افزایش واریانس برای متغیرهای تصادفی مستقل است، اما این ویژگی دارای تظاهرات بسیار متنوعی است، که در میان آنها تقسیم واریانس به واریانس های شرطی خطی و باقیمانده در بالا نشان داده شده است.

بنابراین ارزش r2نسبت واریانس کمیت را تعیین می کند Y، به صورت خطی با وجود رابطه رگرسیونی با تعیین می شود متغیر تصادفی ایکس. این سؤال که چه نسبتی از واریانس شرطی خطی را می توان نشانه وجود یک همبستگی برجسته در نظر گرفت، بر وجدان محقق باقی می ماند. با این حال، مشخص می شود که مقادیر کوچک ضریب همبستگی ( r< 0.3 ) نسبت کوچکی از واریانس توضیح داده شده خطی را ارائه دهید که صحبت در مورد همبستگی مشخص بی معنی است. در r > 0.5ما می توانیم در مورد وجود یک همبستگی قابل توجه بین کمیت ها و زمان صحبت کنیم r > 0.7همبستگی را می توان معنادار در نظر گرفت.

اهمیت ضرایب همبستگی ما با معیار دانشجو بررسی می کنیم:

جایی که - میانگین مربعات خطای ضریب همبستگی که با فرمول تعیین می شود:

اگر مقدار محاسبه شده (بیشتر از مقدار جدولی) باشد، می توان نتیجه گرفت که مقدار ضریب همبستگی معنی دار است. تیبا توجه به جدول مقادیر معیارهای دانشجویی یافت می شوند. این تعداد درجات آزادی را در نظر می گیرد (V = n - 1) و سطح اطمینان (معمولاً 0.05 یا 0.01 در محاسبات اقتصادی). در مثال ما، تعداد درجات آزادی برابر است با: پ - 1 = 40 - 1 = 39. در سطح اطمینان آر = 0,05; تی= 2.02. از آنجایی که (واقعی (جدول 7.8) در همه موارد بالاتر از جدول t است، رابطه بین موثر و شاخص های عاملیقابل اعتماد است و مقدار ضرایب همبستگی معنادار است.

مرحله بعد تجزیه و تحلیل همبستگی-محاسبه معادله ارتباط (رگرسیون). راه حل معمولاً مرحله به مرحله انجام می شود. ابتدا یک عامل در نظر گرفته می شود که بیشترین را دارد تأثیر قابل توجهیدر شاخص مؤثر، سپس دوم، سوم و غیره. و در هر مرحله معادله ارتباط محاسبه می شود چند عاملیهمبستگی ها و تعیین ها، نسبت F (معیار فیشر)، خطای استاندارد و سایر شاخص هایی که توسط آن ها قابلیت اطمینان معادله پیوند تخمین زده می شود. مقدار آنها در هر مرحله با مرحله قبلی مقایسه می شود. هر چه مقدار ضرایب همبستگی چندگانه، تعیین و معیار فیشر بیشتر باشد و مقدار خطای استاندارد کمتر باشد، معادله رابطه با دقت بیشتری وابستگی های ایجاد شده بین شاخص های مورد مطالعه را توصیف می کند. اگر افزودن عوامل زیر شاخص های تخمینی ارتباط را بهبود نبخشد، باید آنها را کنار گذاشت، یعنی. در معادله ای که این شاخص ها بهینه ترین هستند، صحبت کنید.

با مقایسه نتایج در هر مرحله (جدول 7.9)، می‌توان نتیجه گرفت که مدل پنج عاملی به‌دست‌آمده در مرحله پنجم به‌طور کامل رابطه بین شاخص‌های مورد مطالعه را توصیف می‌کند. در نتیجه، معادله اتصال به شکل زیر است:

ضرایب معادله تأثیر کمی هر عامل را بر شاخص عملکرد نشان می دهد، در حالی که سایرین بدون تغییر باقی می مانند. در این مورد، می توانیم تفسیر زیر را از معادله حاصل ارائه دهیم: سودآوری 3.65٪ با افزایش بهره وری مواد به میزان 1 روبل افزایش می یابد. 0.09٪ - با افزایش بهره وری سرمایه 1 کوپک. 1.02٪ - با افزایش متوسط ​​تولید سالانه هر کارمند 1 میلیون روبل. 0.052٪ - با افزایش سهم محصولات با بالاترین کیفیت 1٪. با افزایش مدت زمان گردش وجوه به میزان 1 روز، سودآوری به طور متوسط ​​0.122٪ کاهش می یابد.

ضرایب رگرسیون در معادله رابطه دارای واحدهای اندازه گیری متفاوتی هستند که در صورت مطرح شدن سوال در مورد قدرت نسبی تأثیر عوامل بر شاخص مؤثر، آنها را غیرقابل مقایسه می کند. برای تبدیل آنها به شکل قابل مقایسه، همه متغیرهای معادله رگرسیون در کسری از انحراف معیار بیان می شوند، به عبارت دیگر، آنها محاسبه می کنند. ضرایب رگرسیون استانداردآنها همچنین با نمادی که برای تعیین آنها (p) پذیرفته شده است، ضرایب بتا نامیده می شوند.

ضرایب بتا و ضرایب رگرسیون با رابطه زیر مرتبط هستند:

همچنین ببینید:

همانطور که بارها اشاره شد، برای نتیجه گیری آماری در مورد وجود یا عدم وجود همبستگی بین متغیرهای مورد مطالعه، بررسی معناداری ضریب همبستگی نمونه ضروری است. با توجه به اینکه پایایی ویژگی های آماری از جمله ضریب همبستگی به حجم نمونه بستگی دارد، ممکن است شرایطی پیش بیاید که مقدار ضریب همبستگی کاملاً ناشی از نوسانات تصادفی در نمونه باشد که بر اساس آن است. محاسبه شد. با وجود رابطه معنادار بین متغیرها، ضریب همبستگی باید با صفر تفاوت معناداری داشته باشد. اگر بین متغیرهای مورد مطالعه همبستگی وجود نداشته باشد، ضریب همبستگی است جمعیتبرابر با صفر است. در تحقیقات عملی، به عنوان یک قاعده، آنها بر اساس مشاهدات نمونه. مانند هر مشخصه آماری، ضریب همبستگی نمونه یک متغیر تصادفی است، یعنی مقادیر آن به طور تصادفی در اطراف پارامتر جمعیت عمومی همنام (مقدار واقعی ضریب همبستگی) پراکنده می شود. در صورت عدم وجود همبستگی بین متغیرها، ضریب همبستگی آنها در جمعیت عمومی صفر است. اما به دلیل ماهیت تصادفی پراکندگی، شرایطی که برخی از ضرایب همبستگی محاسبه‌شده از نمونه‌های این جامعه با صفر متفاوت باشد، اساساً ممکن است.

آیا تفاوت های مشاهده شده را می توان به نوسانات تصادفی در نمونه نسبت داد یا منعکس می شوند تغییر قابل توجهشرایط شکل گیری روابط بین متغیرها؟ اگر مقادیر ضریب همبستگی نمونه در ناحیه پراکندگی قرار گیرد،

به دلیل ماهیت تصادفی خود شاخص، پس این دلیلی بر عدم وجود رابطه نیست. بیشترین چیزی که در این مورد می توان گفت این است که داده های مشاهده ای عدم وجود رابطه بین متغیرها را رد نمی کنند. اما اگر مقدار ضریب همبستگی نمونه خارج از ناحیه پراکندگی ذکر شده باشد، نتیجه می‌گیریم که با صفر تفاوت معناداری دارد و می‌توان فرض کرد که بین متغیرها رابطه آماری معناداری وجود دارد. معیار مورد استفاده برای حل این مشکل بر اساس توزیع آمارهای مختلف، معیار معناداری نامیده می شود.

روش آزمون معنی‌داری با فرمول‌بندی فرضیه صفر B آغاز می‌شود نمای کلیاین در این واقعیت نهفته است که تفاوت معنی داری بین پارامتر نمونه و پارامتر جمعیت وجود ندارد. یک فرضیه جایگزین این است که تفاوت های قابل توجهی بین این پارامترها وجود دارد. به عنوان مثال، هنگام آزمون همبستگی در جامعه عمومی، فرضیه صفر این است که ضریب همبستگی واقعی صفر است، اگر در نتیجه آزمون مشخص شود که فرضیه صفر قابل قبول نیست، ضریب همبستگی نمونه برابر است. تفاوت معنی داری با صفر (فرضیه صفر رد و جایگزین پذیرفته می شود، به عبارت دیگر، فرض متغیرهای تصادفی غیر همبسته در جامعه عمومی باید غیر معقول شناخته شود. و برعکس، اگر فرضیه صفر بر اساس فرضیه صفر پذیرفته شود. معیار معنی داری، یعنی در ناحیه مجاز پراکندگی تصادفی نهفته است، پس دلیلی برای مشکوک بودن فرض متغیرهای غیر همبسته در جامعه عمومی وجود ندارد.

در یک آزمون معنی‌داری، محقق سطح معناداری a را تعیین می‌کند، که تا حدی اطمینان عملی می‌دهد که نتیجه‌گیری‌های اشتباه فقط در موارد بسیار نادر انجام می‌شود. سطح معناداری بیانگر احتمال رد فرضیه صفر در زمانی است که واقعاً درست است. واضح است که انتخاب این احتمال تا حد امکان معقول است.

اجازه دهید توزیع مشخصه نمونه، که یک تخمین بی طرفانه از پارامتر جمعیت است، مشخص باشد. سطح اهمیت انتخاب شده a مربوط به مناطق سایه دار زیر منحنی این توزیع است (شکل 24 را ببینید). ناحیه بدون سایه در زیر منحنی توزیع احتمال را تعیین می کند.مرز قطعات روی آبسیسا در زیر نواحی سایه دار مقادیر بحرانی نامیده می شوند و خود قطعات ناحیه بحرانی یا ناحیه رد فرضیه را تشکیل می دهند.

در روش آزمون فرضیه، مشخصه نمونه محاسبه شده از نتایج مشاهدات با مقدار بحرانی مربوطه مقایسه می شود. در این صورت باید بین مناطق بحرانی یک طرفه و دو طرفه تمایز قائل شد. شکل مشخص کردن منطقه بحرانی بستگی به فرمول مسئله دارد مطالعه آماری. یک منطقه بحرانی دو طرفه زمانی ضروری است که، هنگام مقایسه یک پارامتر نمونه و یک پارامتر جمعیت،

لازم است قدر مطلق اختلاف بین آنها تخمین زده شود، یعنی هر دو تفاوت مثبت و منفی بین مقادیر مورد مطالعه مورد توجه است. هنگامی که لازم است اطمینان حاصل شود که یک مقدار به طور متوسط ​​بزرگتر یا کمتر از مقدار دیگر است، از یک ناحیه بحرانی یک طرفه (راست یا چپ دست) استفاده می شود. کاملاً واضح است که برای همان مقدار بحرانی سطح اهمیت هنگام استفاده از یک منطقه بحرانی یک طرفه کمتر از زمانی است که از یک منطقه دو طرفه استفاده می شود.

برنج. 24. آزمون فرضیه صفر

اگر توزیع مشخصه نمونه متقارن باشد، سطح اهمیت ناحیه بحرانی دو طرفه a است و ناحیه بحرانی یک طرفه y است (شکل 24 را ببینید). ما خود را به یک فرمول کلی از مشکل محدود می کنیم. جزئیات بیشتر در مورد توجیه نظری برای آزمون فرضیه های آماری را می توان در ادبیات تخصصی یافت. علاوه بر این، ما فقط معیارهای اهمیت را برای رویه های مختلف، بدون پرداختن به ساخت آنها نشان خواهیم داد.

با بررسی معنی داری ضریب همبستگی زوجی، وجود یا عدم وجود همبستگی بین پدیده های مورد مطالعه مشخص می شود. در صورت عدم وجود ارتباط، ضریب همبستگی جامعه برابر با صفر است.رویال تأیید با فرمول‌بندی فرضیه‌های صفر و جایگزین آغاز می‌شود:

تفاوت بین ضریب همبستگی نمونه ناچیز است،

تفاوت بین متغیرها معنادار است و بنابراین بین متغیرها رابطه معناداری وجود دارد. از فرضیه جایگزین نتیجه می شود که باید از یک منطقه بحرانی دو طرفه استفاده کرد.

در بخش 8.1 قبلاً ذکر شد که ضریب همبستگی نمونه، تحت مفروضات خاصی، با یک متغیر تصادفی مرتبط است که از توزیع دانش‌آموز با درجات آزادی تبعیت می‌کند. آماری که از نتایج نمونه محاسبه شده است

با مقدار بحرانی تعیین شده از جدول توزیع دانش آموز برای سطح اهمیت معین a و درجات آزادی مقایسه می شود. قاعده اعمال معیار به این صورت است: اگر فرضیه صفر در سطح معناداری a رد شود، یعنی رابطه بین متغیرها معنادار باشد. اگر فرضیه صفر در سطح معناداری a پذیرفته شود. انحراف مقدار از را می توان به تغییرات تصادفی نسبت داد. این نمونه ها فرضیه مورد بررسی را بسیار ممکن و قابل قبول توصیف می کنند، یعنی فرضیه عدم وجود ارتباط قابل اعتراض نیست.

اگر به جای آمار، از مقادیر بحرانی ضریب همبستگی استفاده کنیم که می توان از طریق چندک های توزیع دانش آموز با جایگزینی به آنها، روش آزمایش فرضیه را بسیار ساده کرد.

جداول مفصلی از مقادیر بحرانی وجود دارد که گزیده ای از آن در پیوست این کتاب آورده شده است (جدول 6 را ببینید). قاعده آزمون فرضیه در این مورد به شرح زیر است: اگر بتوانیم ادعا کنیم که رابطه بین متغیرها معنادار است. اگر در این صورت، نتایج مشاهدات را با فرضیه عدم وجود ارتباط مطابقت می دهیم.

بیایید فرضیه استقلال بهره وری نیروی کار را از سطح مکانیزه شدن کار با توجه به داده های ارائه شده در بخش 4.1 آزمایش کنیم. قبلاً محاسبه شده بود که توسط (8.38) بدست می آید

با توجه به جدول توزیع Student مقدار بحرانی این آمار را می یابیم: از آنجایی که فرضیه صفر را رد می کنیم، فقط در 5٪ موارد خطا می کنیم.

اگر با مقدار بحرانی ضریب همبستگی موجود در جدول مربوطه مقایسه کنیم، همین نتیجه را خواهیم گرفت.

که دارای -توزیع با درجات آزادی است. علاوه بر این، روش بررسی اهمیت به طور مشابه با روش قبلی با استفاده از معیار - انجام می شود.

مثال

مستقر تحلیل اقتصادیپدیده ها، ما در جمعیت عمومی رابطه قوی بین بهره وری نیروی کار و سطح مکانیزه شدن کار را فرض می کنیم. اجازه دهید، برای مثال،. به عنوان یک جایگزین در این مورد، می‌توانیم یک فرضیه را از ضریب همبستگی نمونه ارائه کنیم، بنابراین، باید از یک منطقه بحرانی یک طرفه استفاده کنیم. از (8.40) چنین می شود که

مقدار به دست آمده با مقدار بحرانی مقایسه می شود

اهمیت ضرایب همبستگی جزئی به روشی مشابه بررسی می شود. فقط تعداد درجات آزادی تغییر می کند که برابر با تعداد متغیرهای توضیحی می شود. مقدار آماری با فرمول محاسبه می شود

با مقدار بحرانی a یافت شده از جدول توزیع در سطح معنی داری a مقایسه می شود و تعداد درجات آزادی پذیرش یا رد فرضیه در مورد اهمیت ضریب همبستگی جزئی طبق همان قاعده ای که در بالا توضیح داده شد انجام می شود. آزمون اهمیت را می توان با استفاده از مقادیر بحرانی ضریب همبستگی مطابق با (8.39) و همچنین با استفاده از تبدیل -فیشر (8.40) انجام داد.

مثال

اجازه دهید پایایی آماری ضرایب همبستگی جزئی محاسبه شده در بخش 4.5 را در سطح معنی داری بررسی کنیم در زیر به همراه ضرایب همبستگی جزئی، مقادیر محاسبه شده و بحرانی مربوط به آمار آورده شده است.

با توجه به اینکه وقتی فرضیه معنی‌داری ضرایب پذیرفته می‌شود، نتیجه می‌گیریم که سطح مکانیزه شدن کار بدون احتساب میانگین سنی کارگران (و میانگین درصد انطباق) تأثیر بسزایی بر بهره‌وری نیروی کار دارد. با هنجارها). تفاوت با صفر سایر ضرایب

همبستگی جزئی را می‌توان به نوسانات تصادفی در نمونه نسبت داد، و بنابراین نمی‌توانیم چیزی قطعی در مورد تأثیرات جزئی متغیرهای مربوطه از آنها بگوییم.

در مورد اهمیت ضریب همبستگی چندگانهبر اساس نتیجه روش بررسی اهمیت ضریب قضاوت می شود تعیین چندگانه. در بخش بعدی به تفصیل بیشتر به این موضوع خواهیم پرداخت.

اغلب این سوال جالب است: آیا دو ضریب همبستگی به طور قابل توجهی با یکدیگر تفاوت دارند؟ هنگام آزمایش این فرضیه، فرض می شود که همان ویژگی های جمعیت های همگن در نظر گرفته می شود. داده ها نتایج هستند تست های مستقل; ضرایب همبستگی از یک نوع استفاده می شود، یعنی ضرایب همبستگی جفتی یا ضرایب همبستگی جزئی در هنگام حذف همان تعداد متغیر.

حجم دو نمونه ای که ضرایب همبستگی برای آنها محاسبه می شود می تواند متفاوت باشد. فرضیه صفر: یعنی ضرایب همبستگی دو جمعیت در نظر گرفته شده برابر است. فرضیه جایگزین: فرضیه جایگزین حاکی از آن است که باید از یک منطقه بحرانی دو طرفه استفاده شود. به عبارت دیگر، باید بررسی کنید که آیا تفاوت به طور قابل توجهی با صفر متفاوت است یا خیر. بیایید از آماری استفاده کنیم که توزیع تقریباً نرمال دارند:

که در آن - نتایج - تبدیل ضرایب همبستگی - حجم نمونه. قانون آزمون: اگر فرضیه رد شود. اگر فرضیه پذیرفته شود.

در صورت پذیرش، مقدار

پس از محاسبه مجدد در استفاده از (8.6) به عنوان یک تخمین خلاصه از ضریب همبستگی عمل می کند. سپس، فرضیه را می توان با استفاده از آمار آزمایش کرد.

دارای توزیع نرمال

مثال

بگذارید مشخص شود که آیا تنگاتنگی رابطه بین بهره وری نیروی کار و سطح مکانیزاسیون کار در شرکت های همان صنعت واقع در مناطق مختلف کشور متفاوت است یا خیر. بیایید شرکت های واقع در دو منطقه را با هم مقایسه کنیم. اجازه دهید، برای یکی از آنها، ضریب همبستگی از حجم نمونه محاسبه شود (به بخش 4.1 مراجعه کنید). برای منطقه دیگر محاسبه شده از نمونه حجم

پس از تبدیل هر دو ضریب همبستگی به مقادیر -، مقدار آماره X را با استفاده از (8.42) محاسبه می کنیم:

ارزش بحرانی آمار در این است بنابراین، فرضیه پذیرفته می شود، یعنی بر اساس نمونه های موجود، نمی توانیم بین ضرایب همبستگی تفاوت معناداری ایجاد کنیم. در این حالت هر دو ضریب همبستگی معنادار هستند.

با استفاده از (8.43) و (8.6)، یک برآورد خلاصه از ضریب همبستگی برای دو منطقه به دست می آوریم:

در نهایت، ما این فرضیه را آزمایش می کنیم که آیا برآورد خلاصه ضریب همبستگی به طور قابل توجهی با صفر متفاوت است با استفاده از آمار (8.44):

از چه زمانی می توان گفت که در جمعیت عمومی بین بهره وری نیروی کار و میزان مکانیزه شدن کار رابطه معناداری وجود دارد.

معیار X را می توان به روش های مختلفی مورد استفاده قرار داد. بنابراین، به جای مناطق، صنایع مختلفی را می توان در نظر گرفت، برای مثال، زمانی که لازم است مشخص شود که آیا تفاوت در قدرت پیوندهای مورد مطالعه بین نشانگرهای اقتصادیشرکت های متعلق به دو صنعت مختلف

اجازه دهید بر اساس دو نمونه حجم، ضرایب همبستگی محاسبه شود که نزدیکی رابطه بین بهره وری نیروی کار و سطح مکانیزه شدن کار در شرکت های متعلق به دو صنعت (دو جمعیت عمومی) را مشخص می کند. با (8.42) دریافت می کنیم

از آنجایی که ما فرضیه صفر را رد می کنیم. در نتیجه، می توان استدلال کرد که تفاوت های قابل توجهی در نزدیکی رابطه بین بهره وری نیروی کار و سطح مکانیزه شدن کار در شرکت های متعلق به صنایع مختلف وجود دارد. این مثال را در بخش 8.7 ادامه می دهیم، جایی که خطوط رگرسیون ساخته شده برای دو جمعیت را با هم مقایسه می کنیم.

با تجزیه و تحلیل مثال های فوق، ما متقاعد شدیم که تنها تفاوت مطلق بین ضرایب همبستگی مقایسه شده در نظر گرفته شود.

(اندازه های نمونه در هر دو مورد یکسان است) بدون آزمایش اهمیت این تفاوت منجر به نتیجه گیری اشتباه می شود. این امر لزوم استفاده از معیارهای آماری را هنگام مقایسه ضرایب همبستگی تأیید می کند.

روش مقایسه دو ضریب همبستگی را می توان به آن تعمیم داد بیشترضرایب مشروط به شرایط فوق. فرضیه برابری ضرایب همبستگی بین متغیرهای y به صورت زیر بیان می شود: بر اساس ضرایب همبستگی محاسبه شده از نمونه های حجمی از جمعیت های عمومی آزمایش می شود. ضرایب همبستگی دوباره به مقادیر - محاسبه می شوند: از آنجایی که در مورد کلیناشناخته است، برآورد آن را بر حسب فرمول می یابیم که تعمیم (8.43) است.

لازم به ذکر است که شاخص واقعی میزان رابطه خطی متغیرها می باشد ضریب همبستگی نظری، که بر اساس داده های کل جمعیت عمومی (یعنی تمام مقادیر ممکن شاخص ها) محاسبه می شود:

جایی که - کوواریانس نظری، که به عنوان انتظار ریاضی حاصل از انحرافات SW محاسبه می شود
و از انتظارات ریاضی آنها

به عنوان یک قاعده، ما نمی توانیم ضریب همبستگی نظری را محاسبه کنیم. اما از آنجایی که ضریب نمونه برداری برابر با صفر نیست
نتیجه نمی شود که ضریب نظری نیز وجود داشته باشد
(یعنی شاخص ها می توانند به صورت خطی مستقل باشند). که بر اساس داده های نمونه گیری تصادفی نمی توان استدلال کرد که بین شاخص ها رابطه وجود دارد.

ضریب همبستگی نمونه تخمینی از ضریب نظری است، زیرا فقط برای بخشی از مقادیر متغیرها محاسبه می شود.

همیشه وجود دارد خطای ضریب همبستگی. این خطا عدم تطابق بین ضریب همبستگی حجم نمونه است و ضریب همبستگی برای جمعیت عمومی با فرمول های زیر تعیین می شود:

در
; و
در
.

آزمایش اهمیت ضریب همبستگی خطی به این معنی است که چقدر می توانیم به داده های نمونه اعتماد کنیم.

برای این منظور فرضیه صفر مورد آزمون قرار می گیرد.
که مقدار ضریب همبستگی برای جمعیت عمومی صفر است، یعنی. در جمعیت عمومی همبستگی وجود ندارد. جایگزین فرضیه است
.

برای آزمایش این فرضیه، محاسبه می کنیم - آمار ( -معیار دانش آموزی:

.

که دارای توزیع دانشجویی با
درجات آزادی 1.

با توجه به جداول توزیع دانشجو، مقدار بحرانی تعیین می شود
.

اگر مقدار محاسبه شده از معیار
، سپس فرض صفر رد می شود، یعنی ضریب همبستگی محاسبه شده با یک احتمال تفاوت معنی داری با صفر دارد.
.

اگر
، پس فرض صفر را نمی توان رد کرد. در این حالت، منتفی نیست که مقدار واقعی ضریب همبستگی برابر با صفر باشد، یعنی. رابطه شاخص ها را می توان از نظر آماری ناچیز در نظر گرفت.

مثال 1. جدول داده های 8 سال درآمد کل را نشان می دهد و هزینه مصرف نهایی .

برای مطالعه و اندازه گیری تنگی رابطه بین شاخص های داده شده.

مبحث 4. رگرسیون خطی زوجی. روش حداقل مربعات

ضریب همبستگی میزان نزدیکی رابطه بین دو ویژگی را نشان می دهد، اما به این سؤال پاسخ نمی دهد که چگونه تغییر در یک ویژگی توسط یک واحد بعد آن بر تغییر ویژگی دیگر تأثیر می گذارد. برای پاسخ به این سوال از روش های تحلیل رگرسیون استفاده می شود.

تجزیه و تحلیل رگرسیونبرقرار می کند فرموابستگی بین یک متغیر تصادفی و مقادیر متغیر
علاوه بر این، ارزش ها
در نظر گرفته شده است که دقیقا مشخص شده است.

معادله رگرسیونفرمولی برای رابطه آماری بین متغیرها است.

اگر این فرمول خطی است، پس ما در مورد آن صحبت می کنیم رگرسیون خطی.فرمول رابطه آماری دو متغیر نامیده می شود رگرسیون زوجی(چند متغیر - چندگانه).

انتخاب فرمول وابستگی نامیده می شود مشخصاتمعادلات رگرسیون تخمین مقادیر پارامترهای فرمول انتخابی نامیده می شود پارامترسازی.

چگونه می توان مقادیر پارامترها را ارزیابی کرد و قابلیت اطمینان تخمین های انجام شده را بررسی کرد؟

شکل را در نظر بگیرید

    در نمودار (الف) رابطه ایکسو درنزدیک به خطی است، خط مستقیم 1 در اینجا نزدیک به نقاط مشاهده است و دومی تنها در نتیجه تأثیرات تصادفی نسبتاً کوچک از آن منحرف می شود.

    در نمودار (ب) رابطه واقعی بین مقادیر ایکسو دربا یک تابع غیر خطی 2 توصیف می شود و مهم نیست که چه خط مستقیمی را ترسیم می کنیم (مثلاً 1)، انحراف نقاط از آن غیر تصادفی خواهد بود.

    در نمودار (ج) رابطه بین متغیرها ایکسو دراز دست رفته، و نتایج پارامترسازی هر فرمول وابستگی با شکست مواجه خواهد شد.

نقطه شروع تحلیل وابستگی اقتصادسنجی معمولاً تخمینی از وابستگی خطی متغیرها است. همیشه می توانید سعی کنید چنین خط مستقیمی را بکشید که از نظر کلیت آنها "نزدیک ترین" به نقاط مشاهده باشد (مثلاً در شکل (ج) خط 1 بهتر از خط 2 خواهد بود).

معادله رگرسیون خطی زوجی نظریبه نظر می رسد:


,

جایی که
تماس گرفت پارامترهای نظری (ضرایب نظری) پسرفت؛ -انحراف تصادفی(اشتباه تصادفی).

به طور کلی، مدل نظری به صورت زیر نمایش داده می شود:

.

برای تعیین مقادیر ضرایب رگرسیون نظری، دانستن تمام مقادیر متغیرها ضروری است. ایکسو Y، یعنی کل جمعیت، که عملا غیرممکن است.

وظیفه به شرح زیر است: با توجه به داده های مشاهده ای موجود
,
برآورد مقادیر پارامترها ضروری است
.

اجازه دهید آبرآورد پارامتر
,ببرآورد پارامتر .

سپس معادله رگرسیون برآورد شده به شکل زیر است:
,

جایی که
مقادیر نظری متغیر وابسته y, - مقادیر خطای مشاهده شده . این معادله نامیده می شود معادله رگرسیون تجربی. ما آن را در فرم می نویسیم
.

برآورد پارامترهای رگرسیون خطی بر اساس روش حداقل مربعات (MNC)روشی برای تخمین پارامترهای رگرسیون خطی است که مجموع مجذور انحراف مشاهدات متغیر وابسته از تابع خطی مورد نظر را به حداقل می رساند.

عملکرد ساست تابع درجه دومدو پارامتر آو ب. زیرا پیوسته، محدب و از پایین محدود است (
) بنابراین به حداقل می رسد. شرط لازم برای وجود حداقل، برابری با صفر مشتقات جزئی آن نسبت به آو ب:


.

تقسیم هر دو معادله سیستم بر n، ما گرفتیم:


یا

در غیر این صورت می توانید بنویسید:

و  انحراف معیار مقادیر همان ویژگی ها.

که خط رگرسیون از نقطه ای با مقادیر میانگین عبور می کند ایکسو در
، آ ضریب رگرسیون ب متناسب با شاخص کوواریانس و ضریب همبستگی خطی است.

اگر جدای از رگرسیون Yبر روی ایکسبرای همان مقادیر تجربی، معادله رگرسیون X بر روی Y یافت می شود (
، جایی که
، سپس حاصل ضرب ضرایب
:

.

به ضریب رگرسیون - این مقداری است که نشان می دهد مقدار چند واحد بعد تغییر می کند هنگام تغییر مقدار یک واحد ابعاد آن ضریب .

اطلاعات اولیه

ارزیابی پایایی ضریب همبستگی

ضریب همبستگی خطی محاسبه شده از داده های نمونه یک متغیر تصادفی است. ضریب همبستگی به دست آمده از نمونه rتخمینی از ضریب همبستگی است rدر جمعیت عمومی با کاهش تعداد مشاهدات، پایایی ضریب همبستگی کاهش می یابد. ارزیابی اهمیت (معنی داری) ضریب همبستگی خطی بر اساس مقایسه مقدار است. rبا ریشه میانگین مربعات خطا:

هنگام ارزیابی اهمیت ضریب همبستگی، معمولاً موقعیت های زیر در نظر گرفته می شود.

1. اگر تعداد مشاهدات به اندازه کافی زیاد باشد (معمولا بیش از 30)، و مقدار ضریب همبستگی از 0.9 تجاوز نکند، توزیع ضریب همبستگی rرا می توان با میانگین مربعات خطا تقریباً عادی در نظر گرفت

وقتی به اندازه کافی اعداد بزرگمشاهدات rباید حداقل سه برابر از میانگین خطای خود بیشتر باشد: . اگر این نابرابری ارضا نشود، وجود رابطه بین ویژگی ها را نمی توان ثابت کرد.

با توجه به یک احتمال خاص، می توان مرزهای اطمینان را ایجاد کرد r:

بنابراین، برای مثال، با احتمال 0.95، که برای آن تی= 1.96، محدودیت های اطمینان خواهد بود

,

با احتمال 0.997 که ضریب اطمینان آن تی= 3، محدودیت های اطمینان خواهد بود

از آنجایی که مقدار r نمی تواند از یک تجاوز کند، پس اگر > 1 باشد، فقط باید حد پایین نشان داده شود، یعنی باید بیان شود که r واقعی کمتر از .

2. برای حجم نمونه کوچک، با توزیع rدور از حالت عادی، روش های دیگری برای ارزیابی اهمیت ضریب همبستگی استفاده می شود. با تعداد کمی از مشاهدات (n< 30), خطای متوسطضریب همبستگی خطی با فرمول بدست می آید:

و اهمیت بر اساس آزمایش می شود تیمعیار دانش آموز. در همان زمان، فرضیه ای در مورد برابری ضریب همبستگی به صفر، یعنی در مورد عدم وجود ارتباط بین y و x در جمعیت عمومی مطرح می شود. برای این کار از آمار استفاده می شود:

,

که مقدار محاسبه شده با مقدار جدول از جداول توزیع دانش آموز مقایسه می شود. اگر فرضیه صفر درست باشد، یعنی r= 0، سپس توزیع تی- ملاک از قانون توزیع دانشجو پیروی می کند n-2درجه آزادی و سطح قابل قبولی از اهمیت (معمولاً 0.05). در هر مورد با توجه به جدول توزیع تی-معیار دانش آموز یک مقدار جدولی (بحرانی) است تی، که در صورت درست بودن فرضیه صفر قابل قبول است و مقدار واقعی (محاسبه شده) با آن مقایسه می شود. تی. اگر یک t calc > جدول t. ، سپس فرضیه صفر رد می شود و ضریب خطیمعنی دار در نظر گرفته شد و رابطه بین ایکسو y- ضروری و بالعکس.



3. با تعداد کم مشاهدات در نمونه و ضریب همبستگی بالا (توزیع rمتفاوت از نرمال) برای آزمایش فرضیه وجود یک همبستگی و همچنین ساختن فاصله اطمینانفیشر z-تبدیل اعمال می شود.

برای این، مقدار محاسبه می شود

توزیع zبه حالت عادی نزدیک می شود تغییر zبا فرمول بیان می شود

بیایید آزمون z را برای مثال 1 محاسبه کنیم، زیرا در این مورد تعداد مشاهدات کمی داریم و ضریب همبستگی بالایی داریم.

.

برای اینکه مقادیر لگاریتم ها را محاسبه نکنید، می توانید از جداول ویژه تبدیل Z استفاده کنید (Efimova M.R. p. 402, Shmoylova R.A. p. 446, Eliseeva I.I. p. 473). دریافتیم که ضریب همبستگی 0.94 با Z=1.74 مطابقت دارد.

نگرش زتا وسط خطای درجه دومبرابر 3. بنابراین، می توانیم فرض کنیم که یک ارتباط واقعی بین ارزش خروجی و مصرف برق برای کل مجموعه شرکت ها وجود دارد.

ضرایب همبستگی را در برنامه STATISTICA محاسبه خواهیم کرد.

شکل 1 - ماتریس همبستگی.

همبستگی میزان "متناسب" بودن مقادیر دو متغیر با یکدیگر را تعیین می کند. تناسببه معنای ساده وابستگی خطی. اگر وابستگی "را بتوان" در نمودار به صورت یک خط مستقیم (با شیب مثبت یا منفی) نشان داد، همبستگی زیاد است. بنابراین، این ساده ترین است مدل رگرسیونتوصیف وابستگی یک متغیر به یک عامل.

ما به ویژگی های اصلی این شاخص توجه می کنیم.

می تواند مقادیری از -1 تا +1 بگیرد. علامت "+" به این معنی است که رابطه مستقیم است (زمانی که مقادیر یک متغیر افزایش می یابد، مقادیر متغیر دیگر نیز افزایش می یابد)، "-" به این معنی است که رابطه معکوس است.

هر چه ضریب به 1 نزدیکتر باشد، مقدار ضریب همبستگی کمتر از 0.3 است، رابطه ضعیف، از 0.31 تا 0.5 - متوسط، از 0.51 تا 0.7 - معنی دار، از 0.71 تا 0.9 - نزدیک، 0.91 و بالاتر ارزیابی می شود. - خیلی تنگ.

اگر همه مقادیر متغیرها به همان تعداد یا به همان تعداد بار افزایش (کاهش) داشته باشند، مقدار ضریب همبستگی تغییر نخواهد کرد.

ضریب همبستگی شاخصی است که تنگی رابطه خطی بین ویژگی ها را ارزیابی می کند.

در rهمبستگی 1± یک وابستگی تابعی خطی است. در این مورد، تمام مقادیر مشاهده شده در یک خط مستقیم مشترک قرار دارند. به آن خط رگرسیون نیز می گویند. در r= 0 هیچ همبستگی خطی وجود ندارد. در این حالت میانگین گروهی متغیرها با میانگین کلی آنها منطبق است و خطوط رگرسیون موازی با محورهای مختصات هستند.

برابری r= 0 فقط در مورد عدم وجود وابستگی همبستگی خطی (متغیرهای همبسته) صحبت می کند، اما نه به طور کلی در مورد عدم وجود همبستگی و حتی بیشتر از آن، یک وابستگی آماری.

بر اساس ضرایب همبستگی، نمی‌توانیم رابطه علی بین متغیرها را به طور دقیق ثابت کنیم، اما می‌توان همبستگی‌های جعلی را شناسایی کرد، یعنی همبستگی‌هایی که ناشی از تأثیرات متغیرهای «سایر» هستند که خارج از میدان دید شما باقی می‌مانند.

مشکل اصلی همبستگی کاذب این است که ما نمی دانیم

که حامل آن است با این حال، اگر ما بدانیم کجا باید نگاه کنیم، پس

می توانید از همبستگی های جزئی استفاده کنید , برای کنترل تأثیر (تا حدی حذف شده) متغیرهای خاص.


شکل 2 - نمودارهای پراکنده.

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...