تجزیه و تحلیل همبستگی پیرسون اکسل. نحوه انجام تحلیل همبستگی در اکسل

شما قبلاً با نیاز به محاسبه میزان رابطه بین دو مواجه شده اید آمارو فرمولی که با آن همبستگی دارند را تعیین کنید؟ آدم معمولیممکن است یکی بپرسد که چرا این ممکن است اصلاً ضروری باشد. به اندازه کافی عجیب، این واقعا ضروری است. اگر مثلاً یک معامله گر سهام هستید، دانستن همبستگی های قابل اعتماد می تواند به شما کمک کند که ثروتمند شوید. مشکل این است که به دلایلی هیچ کس این همبستگی ها را فاش نمی کند (تعجب آور است، اینطور نیست؟).

بیایید خودمان آنها را بشماریم! به عنوان مثال، من تصمیم گرفتم سعی کنم همبستگی روبل در برابر دلار را از طریق یورو محاسبه کنم. بیایید ببینیم چگونه این کار با جزئیات انجام می شود.

این مقاله برای سطوح پیشرفته است مایکروسافت اکسل. اگر وقت ندارید کل مقاله را بخوانید، می توانید فایل را دانلود کرده و خودتان با آن مقابله کنید.

اگر اغلب نیاز به انجام چنین کاری داریدمن به شما توصیه می کنم برای خرید کتاب فکر کنید. محاسبات آماری در اکسل.

دانستن در مورد همبستگی ها مهم است

برای محاسبه یک همبستگی قابل اعتماد، داشتن نمونه قابل اعتماد ضروری است، هر چه بزرگتر باشد، نتیجه قابل اعتمادتر خواهد بود. برای اهداف این مثال، من یک نمونه روزانه از نرخ ارز در طول 10 سال برداشته ام. داده ها به صورت رایگان در دسترس هستند، من آن را از سایت http://oanda.com گرفتم.

من واقعا چه کار کردم

(1) هنگامی که داده های اصلی خود را داشتم، با بررسی میزان همبستگی بین دو مجموعه داده شروع کردم. برای انجام این کار، من از تابع CORREL (CORREL) استفاده کردم - اطلاعات کمی در مورد آن وجود دارد. درجه همبستگی بین دو محدوده داده را برمی گرداند. نتیجه، صادقانه بگویم، به خصوص چشمگیر نبود (تنها حدود 70٪). به طور کلی، درجه همبستگی بین دو مقدار، مربع این مقدار در نظر گرفته می شود، یعنی همبستگی تقریباً 49٪ قابل اعتماد است. این خیلی کم است!

(2) برای من بسیار عجیب به نظر می رسید. چه خطاهایی ممکن است در محاسبات من رخنه کرده باشد؟ بنابراین تصمیم گرفتم یک نمودار بسازم و ببینم چه اتفاقی می تواند بیفتد. نمودار از عمد ساده نگه داشته شد و بر اساس سال ها تجزیه شد تا بتوانید به صورت بصری ببینید که کجای همبستگی شکسته می شود. نمودار به این شکل است

(3) از نمودار، واضح است که در محدوده حدود 35 روبل در هر یورو، همبستگی شروع به شکستن به دو بخش می کند. به همین دلیل معلوم شد که او غیرقابل اعتماد است. لازم بود در رابطه با آنچه که این اتفاق می افتد مشخص شود.

(4) رنگ نشان می دهد که این داده ها مربوط به سال های 2007، 2008، 2009 است. البته! دوره های اوج اقتصادی و رکود معمولاً از نظر آماری قابل اعتماد نیستند که در این مورد اتفاق افتاد. بنابراین، سعی کردم این دوره‌ها را از داده‌ها حذف کنم (خب، برای تأیید، میزان همبستگی داده‌ها را در این دوره بررسی کردم). درجه همبستگی فقط این داده ها 0.01٪ است، یعنی در اصل وجود ندارد. اما بدون آنها، داده ها تقریباً 81٪ همبستگی دارند. این در حال حاضر یک همبستگی نسبتا قابل اعتماد است. در اینجا یک نمودار با یک تابع است.

مراحل بعدی

از نظر تئوری، تابع همبستگی را می توان با تبدیل آن از خطی به نمایی یا لگاریتمی اصلاح کرد. در این حالت، اهمیت آماری همبستگی تقریباً یک درصد افزایش می‌یابد، اما پیچیدگی استفاده از فرمول به شدت افزایش می‌یابد. بنابراین، برای خودم این سوال را مطرح می کنم: آیا واقعاً لازم است؟ شما تصمیم می گیرید - برای هر مورد خاص.

تجزیه و تحلیل همبستگی- روش محبوب مطالعه آماری، که برای شناسایی میزان وابستگی یک شاخص به شاخص دیگر استفاده می شود. مایکروسافت اکسل ابزار خاصی دارد که برای انجام این نوع تحلیل طراحی شده است. بیایید نحوه استفاده از این ویژگی را دریابیم.

ماهیت تحلیل همبستگی

هدف از تحلیل همبستگی شناسایی وجود رابطه بین عوامل مختلف. یعنی مشخص می شود که کاهش یا افزایش یک شاخص بر تغییر شاخص دیگر تأثیر می گذارد یا خیر.

اگر وابستگی ایجاد شود، ضریب همبستگی تعیین می شود. بر خلاف تحلیل رگرسیون، این تنها شاخصی است که این روش تحقیق آماری محاسبه می کند. ضریب همبستگی از 1+ تا 1- متغیر است. اگر همبستگی مثبت وجود داشته باشد، افزایش یک شاخص به افزایش شاخص دوم کمک می کند. با یک همبستگی منفی، افزایش یک شاخص منجر به کاهش شاخص دیگر می شود. هرچه مدول ضریب همبستگی بیشتر باشد، تغییر در یک شاخص در تغییر شاخص دوم بیشتر قابل توجه است. با ضریب 0، وابستگی بین آنها به طور کامل وجود ندارد.

محاسبه ضریب همبستگی

حالا بیایید سعی کنیم ضریب همبستگی را روی یک مثال خاص محاسبه کنیم. ما جدولی داریم که در آن هزینه تبلیغات و میزان فروش به صورت ماهانه در ستون های جداگانه نقاشی شده است. ما باید میزان وابستگی تعداد فروش به مقدار پولی که صرف تبلیغات شده است را دریابیم.

روش 1: تعیین همبستگی از طریق Function Wizard

یکی از روش هایی که می توانید از طریق آن تجزیه و تحلیل همبستگی انجام دهید، استفاده از تابع CORREL است. خود تابع دارد فرم کلی CORREL (آرایه1، آرایه2).

سلولی را انتخاب کنید که نتیجه محاسبه باید در آن نمایش داده شود. بر روی دکمه "Insert Function" که در سمت چپ نوار فرمول قرار دارد کلیک کنید.
در لیستی که در پنجره Function Wizard ارائه شده است، تابع CORREL را جستجو کرده و انتخاب کنید. بر روی دکمه "OK" کلیک کنید.
پنجره آرگومان های تابع باز می شود. در قسمت "Array1" مختصات محدوده سلول های یکی از مقادیر را وارد کنید که وابستگی آن باید مشخص شود. در مورد ما، این مقادیر در ستون "مقدار فروش" خواهد بود. برای وارد کردن آدرس آرایه در فیلد، کافی است تمام سلول های دارای داده در ستون بالا را انتخاب کنید.
در قسمت "Array2" باید مختصات ستون دوم را وارد کنید. هزینه تبلیغات داریم مانند حالت قبل، داده ها را در فیلد وارد می کنیم.

بر روی دکمه "OK" کلیک کنید.

همانطور که می بینید، ضریب همبستگی به شکل یک عدد در سلولی که قبلا انتخاب کرده ایم ظاهر می شود. در این حالت برابر با 0.97 است که نشانه بسیار بالایی از وابستگی یک کمیت به کمیت دیگر است.

روش 2: محاسبه همبستگی با استفاده از بسته تجزیه و تحلیل

علاوه بر این، همبستگی را می توان با استفاده از یکی از ابزارهای ارائه شده در بسته تحلیل محاسبه کرد. اما ابتدا باید این ابزار را فعال کنیم.

به تب "File" بروید.
در پنجره ای که باز می شود، به بخش "تنظیمات" بروید.
بعد، به مورد "افزونه ها" بروید.
در پایین پنجره بعدی، در بخش "مدیریت"، سوئیچ را به موقعیت "افزونه های اکسل" منتقل کنید، اگر در موقعیت دیگری قرار دارد. بر روی دکمه "OK" کلیک کنید.
در پنجره افزونه‌ها، کادر کنار مورد «بسته تحلیل» را علامت بزنید. بر روی دکمه "OK" کلیک کنید.
پس از آن بسته آنالیز فعال می شود. به تب "داده ها" بروید. همانطور که می بینید، در اینجا یک بلوک جدید از ابزارها روی نوار ظاهر می شود - "Analysis". بر روی دکمه "تجزیه و تحلیل داده ها" که در آن قرار دارد کلیک کنید.
لیست با باز می شود گزینه های مختلفتحلیل داده ها. "همبستگی" را انتخاب کنید. بر روی دکمه "OK" کلیک کنید.
پنجره ای با پارامترهای تحلیل همبستگی باز می شود. برخلاف روش قبلی، در قسمت «فاصله ورودی»، فاصله زمانی را نه برای هر ستون جداگانه، بلکه برای تمام ستون هایی که در تحلیل شرکت می کنند، وارد می کنیم. در مورد ما، این داده‌های ستون‌های «خرج آگهی» و «فروش» است.
ما پارامتر "گروه بندی" را بدون تغییر می گذاریم - "با ستون ها"، زیرا گروه های داده ما به دو ستون تقسیم می شوند. اگر خط به خط شکسته شدند، سوئیچ باید به موقعیت "By lines" منتقل شود.

به‌طور پیش‌فرض، گزینه‌های خروجی روی «کاربرگ جدید» تنظیم می‌شوند، یعنی داده‌ها در برگه دیگری نمایش داده می‌شوند. با حرکت سوئیچ می توانید مکان را تغییر دهید. این می تواند برگه فعلی (سپس باید مختصات سلول های خروجی اطلاعات را مشخص کنید) یا یک کتاب کار جدید (فایل) باشد.

پس از تنظیم تمام تنظیمات، روی دکمه "OK" کلیک کنید.

از آنجایی که محل خروجی نتایج تجزیه و تحلیل به طور پیش فرض باقی مانده است، ما به یک برگه جدید می رویم. همانطور که می بینید، در اینجا ضریب همبستگی است. طبیعتاً مانند روش اول است - 0.97. این به این دلیل است که هر دو گزینه محاسبات یکسانی را انجام می دهند، فقط می توان آنها را به روش های مختلف انجام داد.

همانطور که می بینید، برنامه اکسل دو روش تحلیل همبستگی را به طور همزمان ارائه می دهد. نتیجه محاسبات، اگر همه چیز را درست انجام دهید، کاملاً یکسان خواهد بود. اما هر کاربر می تواند گزینه محاسبه راحت تری را برای خود انتخاب کند.

خوشحالیم که توانستیم به شما در حل مشکل کمک کنیم.

سوال خود را در نظرات بپرسید و ماهیت مشکل را با جزئیات شرح دهید. کارشناسان ما سعی خواهند کرد در اسرع وقت پاسخ دهند.

آیا این مقاله به شما کمک کرد؟

رگرسیون و تحلیل همبستگی - روشهای تحقیق آماری. اینها رایج ترین راه ها برای نشان دادن وابستگی یک پارامتر به یک یا چند متغیر مستقل هستند.

در زیر در مورد خاص نمونه های عملیبیایید این دو تحلیل بسیار محبوب در میان اقتصاددانان را در نظر بگیریم. ما همچنین مثالی از به دست آوردن نتایج در هنگام ترکیب آنها خواهیم داد.

تجزیه و تحلیل رگرسیون در اکسل

تأثیر برخی از مقادیر (مستقل، مستقل) را بر روی متغیر وابسته نشان می دهد. به عنوان مثال، چگونگی تعداد جمعیت فعال اقتصادی به تعداد شرکت ها، دستمزدها و سایر پارامترها بستگی دارد. یا: سرمایه گذاری های خارجی، قیمت انرژی و غیره چگونه بر سطح تولید ناخالص داخلی تأثیر می گذارد.

نتیجه تجزیه و تحلیل به شما امکان می دهد اولویت بندی کنید. و بر اساس عوامل اصلی، پیش بینی، برنامه ریزی توسعه حوزه های اولویت دار، تصمیم گیری های مدیریتی.

رگرسیون اتفاق می افتد:

خطی (y = a + bx)؛
سهمی (y = a + bx + cx2)؛
نمایی (y = a * exp(bx));
توان (y = a*x^b)؛
هذلولی (y = b/x + a)؛
لگاریتمی (y = b * 1n(x) + a)؛
نمایی (y = a * b^x).

مثال ساخت و ساز را در نظر بگیرید مدل رگرسیوندر اکسل و تفسیر نتایج. بیایید یک نوع رگرسیون خطی در نظر بگیریم.

یک وظیفه. در 6 شرکت، میانگین ماهانه حق الزحمهو تعداد کارکنان بازنشسته تعیین وابستگی تعداد کارکنان بازنشسته به میانگین حقوق ضروری است.

مدل رگرسیون خطیدارای فرم زیر است:

Y \u003d a0 + a1x1 + ... + akhk.

جایی که a ضرایب رگرسیون، x متغیرهای تاثیرگذار و k تعداد عوامل است.

در مثال ما، Y نشانگر ترک کار است. عامل تأثیرگذار دستمزد (x) است.

اکسل دارای توابع داخلی است که می توان از آنها برای محاسبه پارامترهای یک مدل رگرسیون خطی استفاده کرد. اما افزونه Analysis ToolPak این کار را سریعتر انجام می دهد.

یک ابزار تحلیلی قدرتمند را فعال کنید:

روی دکمه "Office" کلیک کنید و به تب "گزینه های اکسل" بروید. "افزونه ها".
در پایین، زیر لیست کشویی، در قسمت "Manage"، کتیبه "Excel Add-ins" وجود دارد (اگر وجود ندارد، روی کادر انتخاب سمت راست کلیک کنید و انتخاب کنید). و یک دکمه Go کلیک.
لیستی از افزونه های موجود باز می شود. "پکیج تجزیه و تحلیل" را انتخاب کنید و روی OK کلیک کنید.

پس از فعال شدن، افزونه در تب Data در دسترس خواهد بود.

حال به طور مستقیم به تحلیل رگرسیون می پردازیم.

منوی ابزار تحلیل داده را باز کنید. "Regression" را انتخاب کنید.
یک منو برای انتخاب مقادیر ورودی و گزینه های خروجی (محل نمایش نتیجه) باز می شود. در فیلدهای مربوط به داده های اولیه، محدوده پارامتر توصیف شده (Y) و عامل موثر بر آن (X) را نشان می دهیم. بقیه ممکن است کامل شود یا نباشد.
پس از کلیک بر روی OK، برنامه محاسبات را در یک برگه جدید نمایش می دهد (شما می توانید فاصله زمانی را برای نمایش در برگه فعلی انتخاب کنید یا خروجی را به یک کتاب کار جدید اختصاص دهید).

اول از همه به مربع R و ضرایب توجه می کنیم.

R-square ضریب تعیین است. در مثال ما، 0.755 یا 75.5٪ است. این بدان معناست که پارامترهای محاسبه شده مدل، رابطه بین پارامترهای مورد مطالعه را 75.5 درصد توضیح می دهد. هر چه ضریب تعیین بالاتر باشد، مدل بهتر است. خوب - بالای 0.8. ضعیف - کمتر از 0.5 (چنین تجزیه و تحلیل به سختی می تواند معقول در نظر گرفته شود). در مثال ما - "بد نیست".

ضریب 64.1428 نشان می دهد که اگر همه متغیرهای مدل مورد نظر برابر با 0 باشند Y چقدر خواهد بود. یعنی عوامل دیگری که در مدل توضیح داده نشده اند نیز بر مقدار پارامتر تحلیل شده تأثیر می گذارند.

ضریب -0.16285 وزن متغیر X را بر Y نشان می دهد. یعنی میانگین حقوق ماهانه در این مدل بر تعداد افراد ترک با وزن 0.16285- تأثیر می گذارد (این درجه تأثیر کمی است). علامت "-" یک اثر منفی را نشان می دهد: از حقوق بیشترافراد کمتری که ترک می کنند که منصفانه است.

تجزیه و تحلیل همبستگی در اکسل

تجزیه و تحلیل همبستگی به تعیین اینکه آیا رابطه ای بین شاخص ها در یک یا دو نمونه وجود دارد کمک می کند. به عنوان مثال بین زمان کارکرد دستگاه و هزینه تعمیرات، قیمت تجهیزات و مدت زمان کارکرد، قد و وزن کودکان و غیره.

اگر یک رابطه وجود داشته باشد، پس آیا افزایش در یک پارامتر منجر به افزایش (همبستگی مثبت) یا کاهش (منفی) در پارامتر دیگر می شود. تحلیل همبستگی به تحلیلگر کمک می کند تا تعیین کند که آیا مقدار یک شاخص می تواند ارزش احتمالی شاخص دیگر را پیش بینی کند یا خیر.

ضریب همبستگی r نشان داده می شود. از +1 تا -1 متغیر است. طبقه بندی همبستگی ها برای حوزه های مختلف متفاوت خواهد بود. وقتی مقدار ضریب 0 باشد، هیچ رابطه خطی بین نمونه ها وجود ندارد.

بیایید نحوه استفاده را ببینیم ابزارهای اکسلضریب همبستگی را پیدا کنید.

تابع CORREL برای یافتن ضرایب جفت شده استفاده می شود.

وظیفه: تعیین کنید که آیا رابطه ای بین زمان کار وجود دارد یا خیر ماشین تراشو هزینه نگهداری آن

مکان نما را در هر سلولی قرار دهید و دکمه fx را فشار دهید.

در دسته «آماری»، تابع CORREL را انتخاب کنید.
آرگومان "آرایه 1" - اولین محدوده مقادیر - زمان ماشین: A2: A14.
آرگومان "آرایه 2" - دومین محدوده مقادیر - هزینه تعمیرات: B2:B14. روی OK کلیک کنید.

برای تعیین نوع اتصال، باید نگاه کنید عدد مطلقضریب (هر زمینه فعالیت مقیاس خاص خود را دارد).

برای تجزیه و تحلیل همبستگی چندین پارامتر (بیش از 2)، استفاده از "تحلیل داده ها" (افزونه "بسته تجزیه و تحلیل") راحت تر است. در لیست، شما باید یک همبستگی را انتخاب کنید و یک آرایه را تعیین کنید. همه.

ضرایب حاصل در ماتریس همبستگی نمایش داده می شود. شبیه این یکی:

تحلیل همبستگی-رگرسیون

در عمل، این دو تکنیک اغلب با هم استفاده می شوند.

ما یک فیلد همبستگی ایجاد می کنیم: "Insert" - "Diagram" - "Scatter plot" (به شما امکان مقایسه جفت ها را می دهد). محدوده مقدار تمام داده های عددی جدول است.
روی هر نقطه از نمودار کلیک چپ کنید. سپس راست. در منوی باز شده، "Add trendline" را انتخاب کنید.
تعیین پارامترها برای خط نوع - "خطی". در پایین - "معادله را در نمودار نشان دهید."
روی "بستن" کلیک کنید.

اکنون داده های تحلیل رگرسیون قابل مشاهده است.

1.برنامه اکسل را باز کنید

2. ستون هایی با داده ایجاد کنید. در مثال خود، ما رابطه یا همبستگی بین پرخاشگری و شک به خود را در دانش آموزان کلاس اول در نظر خواهیم گرفت. این آزمایش شامل 30 کودک بود که داده ها در جدول اکسل ارائه شده است:

1 ستون - شماره موضوع

ستون 2 - پرخاشگری در نقاط

3 ستون - شک به خود در نقاط

3. سپس باید یک سلول خالی کنار جدول را انتخاب کنید و روی نماد کلیک کنید f(x)در پنل اکسل

4. منوی توابع باز می شود، از میان دسته هایی که باید انتخاب کنید آماری، و سپس در میان لیست توابع به ترتیب حروف الفبا پیدا کنید CORRELو روی OK کلیک کنید

5. سپس منوی آرگومان های تابع باز می شود که به ما امکان می دهد ستون های داده مورد نیاز خود را انتخاب کنیم. برای انتخاب ستون اول پرخاشگریباید روی دکمه آبی کنار خط کلیک کنید آرایه 1

6. بیایید داده ها را انتخاب کنیم آرایه 1از یک ستون پرخاشگریو روی دکمه آبی رنگ در کادر محاوره ای کلیک کنید

7. سپس مانند آرایه 1 روی دکمه آبی رنگ کنار خط کلیک کنید آرایه 2

8. بیایید داده ها را انتخاب کنیم آرایه 2- ستون عدم عزت نفسو دوباره دکمه آبی را فشار دهید و سپس OK را فشار دهید

9. در اینجا ضریب همبستگی r-Pearson محاسبه و در سلول انتخاب شده نوشته می شود که در مورد ما مثبت و تقریباً برابر است. این صحبت می کند مثبت متوسطارتباط بین پرخاشگری و شک به خود در دانش آموزان کلاس اولی

به این ترتیب، استنتاج آماریآزمایش برابر با 225/0 = r خواهد بود که یک رابطه مثبت متوسط بین متغیرها آشکار شد پرخاشگریو عدم عزت نفس

در برخی از مطالعات، لازم است سطح معنی داری p ضریب همبستگی نشان داده شود، اما برنامه اکسلبرخلاف SPSS، این قابلیت را ارائه نمی دهد. اشکالی ندارد، جداول مقادیر بحرانی همبستگی ها وجود دارد (A.D. Nasledov).

همچنین می توانید یک خط رگرسیون در اکسل بسازید و آن را به نتایج مطالعه پیوست کنید.

در تحقیقات علمی، اغلب لازم است بین متغیرهای حاصل و عامل (بازده محصول و میزان بارندگی، قد و وزن فرد در گروه‌های همگن بر حسب جنس و سن، ضربان نبض و دمای بدن رابطه وجود داشته باشد. ، و غیره.).

دوم نشانه هایی هستند که به تغییر افراد مرتبط با آنها کمک می کنند (اولی).

مفهوم تحلیل همبستگی

مجموعه ای وجود دارد با توجه به موارد فوق می توان گفت که تحلیل همبستگی روشی است برای آزمون فرضیه معناداری آماری دو یا چند متغیر، در صورتی که محقق بتواند آنها را اندازه گیری کند، اما آنها را تغییر ندهد.

تعاریف دیگری از این مفهوم در دست بررسی وجود دارد. تحلیل همبستگی یک روش پردازشی است که ضرایب همبستگی بین متغیرها را بررسی می کند. در این مورد، ضرایب همبستگی بین یک جفت یا چند جفت ویژگی با یکدیگر مقایسه می شوند تا روابط آماری بین آنها برقرار شود. تجزیه و تحلیل همبستگی روشی برای مطالعه وابستگی آماری بین متغیرهای تصادفی با حضور اختیاری یک ماهیت عملکردی دقیق است که در آن پویایی یک متغیر تصادفیمنجر به پویایی می شود انتظارات ریاضییکی دیگر.

مفهوم همبستگی کاذب

هنگام انجام یک تحلیل همبستگی، باید در نظر گرفت که می توان آن را در رابطه با هر مجموعه ای از ویژگی ها، اغلب در رابطه با یکدیگر پوچ، انجام داد. گاهی هیچ ارتباط سببی با یکدیگر ندارند.

در این مورد، از یک همبستگی کاذب صحبت می شود.

مشکلات تحلیل همبستگی

بر اساس تعاریف فوق، می توانیم وظایف زیر را از روش توصیف شده فرموله کنیم: اطلاعات مربوط به یکی از متغیرهای مورد نظر را با استفاده از دیگری بدست آوریم. تعیین نزدیکی رابطه بین متغیرهای مورد مطالعه.

تحلیل همبستگی شامل تعیین رابطه بین ویژگی های مورد مطالعه است و بنابراین وظایف تحلیل همبستگی را می توان با موارد زیر تکمیل کرد:

شناسایی عواملی که بیشترین تأثیر را بر علامت حاصل دارند.
شناسایی علل روابط ناشناخته قبلی؛
ساخت یک مدل همبستگی با تحلیل پارامتریک آن؛
بررسی اهمیت پارامترهای ارتباطی و برآورد فاصله زمانی آنها.

ارتباط تحلیل همبستگی با رگرسیون

روش تحلیل همبستگی اغلب به یافتن نزدیکی رابطه بین کمیت های مورد مطالعه محدود نمی شود. گاهی اوقات با تلفیقی معادلات رگرسیونی تکمیل می شود که با استفاده از تحلیلی به همین نام به دست می آیند و توصیفی از همبستگی بین ویژگی(های) حاصل و فاکتوریل (فاکتوری) هستند. این روش، همراه با تحلیل مورد بررسی، روش را تشکیل می دهد

شرایط استفاده از روش

عوامل نتیجه به یک یا چند عامل بستگی دارد. روش تحلیل همبستگی در صورت وجود تعداد زیادی مشاهدات در مورد ارزش شاخص‌های مؤثر و عاملی (عوامل) قابل استفاده است، در حالی که عوامل مورد مطالعه باید کمی بوده و در منابع خاص منعکس شوند. اولی را می توان تعریف کرد قانون عادی- در این حالت، نتیجه تحلیل همبستگی، ضرایب همبستگی پیرسون است یا در صورت عدم رعایت این قانون، از ضریب استفاده می شود. همبستگی رتبهاسپیرمن.

قوانین انتخاب عوامل تحلیل همبستگی

هنگامی که اعمال می شود این روشتعیین عوامل موثر بر شاخص های عملکرد ضروری است. آنها با در نظر گرفتن این واقعیت انتخاب می شوند که باید روابط علی بین شاخص ها وجود داشته باشد. در صورت ایجاد یک مدل همبستگی چند عاملی، آنهایی که تأثیر قابل توجهی بر شاخص حاصل دارند انتخاب می شوند، در حالی که ترجیحاً عوامل وابسته به هم با ضریب همبستگی جفتی بیش از 0.85 در مدل همبستگی و همچنین مواردی که که برای آن رابطه با پارامتر حاصل غیر مستقیم یا عملکردی است.

نمایش نتایج

نتایج تحلیل همبستگی را می توان به صورت متنی و نماهای گرافیکی. در حالت اول، آنها به عنوان یک ضریب همبستگی، در مورد دوم، به عنوان یک نمودار پراکنده ارائه می شوند.

اگر بین پارامترها همبستگی وجود نداشته باشد، نقاط روی نمودار به طور تصادفی قرار می گیرند، میانگین درجه اتصال با درجه نظم بیشتر مشخص می شود و با فاصله کم و بیش یکنواخت علائم مشخص شده از میانه مشخص می شود. یک اتصال قوی به یک خط مستقیم تمایل دارد و در r=1 نمودار پراکندگی یک خط صاف است. یک همبستگی معکوس با جهت نمودار از سمت چپ بالا به سمت راست پایین، یک همبستگی مستقیم - از پایین سمت چپ به گوشه سمت راست بالا مشخص می شود.

نمایش سه بعدی یک نمودار پراکندگی (پراکندگی)

علاوه بر نمایش پراکنده دوبعدی سنتی، یک نمایش گرافیکی سه بعدی از تحلیل همبستگی در حال حاضر استفاده می شود.

یک ماتریس پراکنده نیز استفاده می شود که تمام نمودارهای جفت شده را در یک شکل واحد در قالب ماتریس نمایش می دهد. برای n متغیر، ماتریس شامل n ردیف و n ستون است. نموداری که در تقاطع ردیف i و ستون j قرار دارد نموداری از متغیرهای Xi در مقایسه با Xj است. بنابراین هر سطر و ستون یک بعد است، یک سلول تک نمودار پراکندگی دو بعد را نشان می دهد.

تخمین تنگی ارتباط

تنگی همبستگی با ضریب همبستگی (r) تعیین می شود: قوی - r = 0.7 ± تا 1 ±، متوسط - r = 0.3 ± تا 0.699 ±، ضعیف - r = 0 تا 0.299 ±. این طبقه بندی سختگیرانه نیست. شکل یک طرح کمی متفاوت را نشان می دهد.

نمونه ای از کاربرد روش تحلیل همبستگی

یک مطالعه جالب در بریتانیا انجام شد. این به رابطه سیگار کشیدن با سرطان ریه اختصاص دارد و با تجزیه و تحلیل همبستگی انجام شد. این مشاهده در زیر ارائه شده است.

داده های اولیه برای تحلیل همبستگی

گروه حرفه ای		مرگ و میر
کشاورزان، جنگلبانان و ماهیگیران
کارگران معدن و کارگران معدن
تولید کنندگان گاز، کک و مواد شیمیایی
تولید کنندگان شیشه و سرامیک
کارگران کوره ها، فورج ها، ریخته گری ها و کارخانه های نورد
کارگران برق و الکترونیک
مهندسی و حرفه های مرتبط
تولید نجاری
دباغی ها
کارگران نساجی
تولید کنندگان لباس کار
کارگران صنایع غذایی، آشامیدنی و دخانیات
تولید کنندگان کاغذ و چاپ
تولید کنندگان سایر محصولات
سازندگان
هنرمندان و دکوراتورها
رانندگان موتورهای ثابت، جرثقیل و غیره.
کارگرانی که در جای دیگری گنجانده نشده اند
کارگران حمل و نقل و ارتباطات
کارگران انبار، انبار داران، بسته بندان و کارگران دستگاه پرکن
کارمندان اداره
فروشندگان
کارگران خدمات ورزشی و تفریحی
مدیران و مدیران
حرفه ای ها، تکنسین ها و هنرمندان

تحلیل همبستگی را آغاز می کنیم. برای وضوح بهتر است راه حل را با آن شروع کنید روش گرافیکی، که برای آن یک نمودار پراکندگی می سازیم.

او یک ارتباط مستقیم را نشان می دهد. با این حال، نتیجه گیری بدون ابهام تنها بر اساس روش گرافیکی دشوار است. بنابراین، ما به انجام تحلیل همبستگی ادامه خواهیم داد. نمونه ای از محاسبه ضریب همبستگی در زیر نشان داده شده است.

با استفاده از ابزارهای نرم افزاری (به عنوان مثال MS Excel که در زیر توضیح داده خواهد شد) ضریب همبستگی را تعیین می کنیم که 0.716 است که به معنای رابطه قوی بین پارامترهای مورد مطالعه است. بگذارید اهمیت آماری مقدار به دست آمده را طبق جدول مربوطه تعیین کنیم، که برای آن باید از 25 جفت مقدار 2 کم کنیم، در نتیجه 23 به دست می آید و برای این خط در جدول، r را برای p = 0.01 بحرانی می یابیم. (از آنجایی که اینها داده های پزشکی هستند، وابستگی شدیدتر، در سایر موارد p=0.05 کافی است)، که برای این تحلیل همبستگی 0.51 است. مثال نشان داد که r محاسبه شده بزرگتر از r بحرانی است، مقدار ضریب همبستگی از نظر آماری معنی دار در نظر گرفته می شود.

استفاده از نرم افزار در تحلیل همبستگی

نمای توصیف شده پردازش آماریداده ها را می توان با استفاده از نرم افزار، به ویژه، MS Excel انجام داد. همبستگی شامل محاسبه پارامترهای زیر با استفاده از توابع است:

1. ضریب همبستگی با استفاده از تابع CORREL (array1; array2) تعیین می شود. Array1,2 سلولی از محدوده مقادیر متغیرهای حاصل و عامل است.

ضریب همبستگی خطی، ضریب همبستگی پیرسون نیز نامیده می شود و بنابراین، با شروع اکسل 2007، می توانید از تابع با همان آرایه ها استفاده کنید.

نمایش گرافیکی تحلیل همبستگی در اکسل با استفاده از پنل «نمودارها» با انتخاب «نقشه پراکندگی» انجام می شود.

پس از مشخص کردن داده های اولیه، یک نمودار دریافت می کنیم.

2. ارزیابی معناداری ضریب همبستگی زوجی با استفاده از آزمون تی استودیود. مقدار محاسبه شده معیار t با مقدار جدولی (بحرانی) این شاخص از جدول مربوطه مقادیر پارامتر در نظر گرفته شده با در نظر گرفتن سطح اهمیت داده شده و تعداد درجات آزادی مقایسه می شود. این تخمین با استفاده از تابع STUDIV (احتمال؛ درجات_آزادی) انجام می شود.

3. ماتریس ضرایب همبستگی جفت. تجزیه و تحلیل با استفاده از ابزار "تحلیل داده ها" انجام می شود که در آن "همبستگی" انتخاب شده است. ارزیابی آماریضرایب همبستگی جفتی با مقایسه مقدار مطلق آن با مقدار جدولی (بحرانی) انجام می شود. هنگامی که ضریب همبستگی جفت محاسبه شده از آن بحرانی تجاوز می کند، می توان با در نظر گرفتن درجه احتمال داده شده، گفت که فرضیه صفر در مورد اهمیت رابطه خطی رد نمی شود.

سرانجام

استفاده از روش تحلیل همبستگی در تحقیقات علمی امکان تعیین رابطه بین عوامل مختلف و شاخص های عملکرد. در عین حال، باید در نظر گرفت که یک ضریب همبستگی بالا را نیز می توان از یک جفت یا مجموعه ای از داده های پوچ به دست آورد و بنابراین این نوع تجزیه و تحلیل باید روی یک آرایه داده به اندازه کافی بزرگ انجام شود.

پس از به دست آوردن مقدار محاسبه شده r، مطلوب است که آن را با r بحرانی مقایسه کنیم تا اهمیت آماری یک مقدار مشخص تأیید شود. تجزیه و تحلیل همبستگی را می توان به صورت دستی با استفاده از فرمول ها یا با استفاده از ابزارهای نرم افزاری، به ویژه MS Excel انجام داد. در اینجا شما همچنین می توانید یک نمودار پراکندگی (پراکندگی) به منظور نمایش بصری رابطه بین عوامل مورد مطالعه تحلیل همبستگی و ویژگی حاصل بسازید.

ضریب همبستگی نشان دهنده میزان ارتباط بین دو شاخص است. همیشه مقداری از -1 تا 1 می گیرد. اگر ضریب نزدیک 0 باشد، می گویند که هیچ ارتباطی بین متغیرها وجود ندارد.

اگر مقدار نزدیک به یک باشد (مثلاً از 0.9)، یک رابطه مستقیم مستقیم بین اشیاء مشاهده شده وجود دارد. اگر ضریب به دیگری نزدیک باشد نقطه افراطیمحدوده (-1)، پس یک رابطه معکوس قوی بین متغیرها وجود دارد. وقتی مقدار از 0 تا 1 یا از 0 تا -1 در وسط باشد، در این صورت ما در مورد یک رابطه ضعیف (به جلو یا معکوس) صحبت می کنیم. این رابطه معمولاً در نظر گرفته نمی شود: در نظر گرفته می شود که وجود ندارد.

محاسبه ضریب همبستگی در اکسل

به عنوان مثال، روش های محاسبه ضریب همبستگی، ویژگی های رابطه مستقیم و معکوس بین متغیرها را در نظر بگیرید.

مقادیر اندیکاتورهای x و y:

Y متغیر مستقل است، x متغیر وابسته است. لازم است قدرت (قوی / ضعیف) و جهت (به جلو / معکوس) رابطه بین آنها را پیدا کنید. فرمول ضریب همبستگی به صورت زیر است:

برای ساده‌تر کردن درک آن، آن را به چند عنصر ساده تقسیم می‌کنیم.

رابطه مستقیم قوی بین متغیرها وجود دارد.

تابع CORREL داخلی از محاسبات پیچیده جلوگیری می کند. بیایید ضریب همبستگی جفت را در اکسل با استفاده از آن محاسبه کنیم. ما استاد توابع را می نامیم. ما آنچه را که نیاز داریم پیدا می کنیم. آرگومان های تابع آرایه ای از مقادیر y و آرایه ای از مقادیر x هستند:

بیایید مقادیر متغیرها را در نمودار نشان دهیم:

یک رابطه قوی بین y و x وجود دارد، زیرا خطوط تقریباً موازی یکدیگر هستند. رابطه مستقیم است: افزایش y - افزایش x، کاهش y - کاهش x.

ماتریس ضرایب همبستگی زوجی در اکسل

ماتریس همبستگی جدولی است که در محل تقاطع سطرها و ستون های آن ضرایب همبستگی بین مقادیر مربوطه وجود دارد. ساخت آن برای چندین متغیر منطقی است.

ماتریس ضرایب همبستگی در اکسل با استفاده از ابزار "Correlation" از بسته "تحلیل داده ها" ساخته شده است.

یک رابطه مستقیم قوی بین مقادیر y و x1 یافت شد. بازخورد قوی بین x1 و x2 وجود دارد. عملاً هیچ ارتباطی با مقادیر ستون x3 وجود ندارد.

اجازه دهید ضریب همبستگی و کوواریانس را محاسبه کنیم انواع متفاوتروابط متغیرهای تصادفی

ضریب همبستگی(معیار همبستگی پیرسون، انگلیسی ضریب همبستگی لحظه محصول پیرسون)درجه را تعیین می کند خطیروابط بین متغیرهای تصادفی

همانطور که از تعریف بر می آید، برای محاسبه ضریب همبستگیدانستن توزیع متغیرهای تصادفی X و Y الزامی است. اگر توزیع ها ناشناخته هستند، تخمین زده می شود. ضریب همبستگیاستفاده شده ضریب همبستگی نمونهr (به آن نیز اشاره می شود Rxy یا rxy) :

جایی که S x – انحراف معیارنمونه ای از یک متغیر تصادفی x که با فرمول محاسبه می شود:

همانطور که از فرمول محاسبه مشخص است همبستگی ها، مخرج (ضرب انحراف معیار) به سادگی صورت را عادی می کند به طوری که همبستگیمعلوم می شود که یک عدد بی بعد از -1 تا 1 است. همبستگیو کوواریانسهمان اطلاعات را ارائه دهید (در صورت اطلاع انحراف معیار )، ولی همبستگیراحت تر برای استفاده، زیرا بدون بعد است

محاسبه ضریب همبستگیو کوواریانس نمونهدر MS EXCEL دشوار نیست، زیرا توابع ویژه CORREL() و COVAR() برای این کار وجود دارد. فهمیدن نحوه تفسیر مقادیر به دست آمده بسیار دشوارتر است، بیشتر مقاله به این اختصاص دارد.

انحراف نظری

به یاد بیاورید که همبستگییک رابطه آماری نامیده می شود که شامل این واقعیت است که معانی مختلفیک متغیر مربوط به متفاوت است متوسطمقادیر دیگری (با تغییر در مقدار X منظور داشتن Y به طور منظم تغییر می کند). فرض بر این است که هر دومتغیرهای X و Y هستند تصادفیمقادیر و مقداری پراکندگی تصادفی نسبت به آنها دارند مقدار میانگین.

توجه داشته باشید. اگر فقط یک متغیر، به عنوان مثال، Y، ماهیت تصادفی داشته باشد و مقادیر متغیر دیگر قطعی باشد (تعیین شده توسط محقق)، آنگاه فقط می توانیم در مورد رگرسیون صحبت کنیم.

بنابراین، برای مثال، هنگام مطالعه وابستگی میانگین دمای سالانه، نمی توان از آن صحبت کرد همبستگی هادما و سال مشاهده و بر این اساس، شاخص ها را اعمال کنید همبستگی هابا تفسیر مربوطه آنها.

همبستگیبین متغیرها می تواند به روش های مختلفی رخ دهد:

وجود رابطه علی بین متغیرها. به عنوان مثال، میزان سرمایه گذاری در تحقیق علمی(متغیر X) و تعداد پتنت های دریافتی (Y). اولین متغیر به صورت ظاهر می شود متغیر مستقل (عامل)، دومین - متغیر وابسته (نتیجه). باید به خاطر داشت که وابستگی کمیت ها وجود همبستگی بین آنها را تعیین می کند، اما نه برعکس.
وجود صرف (علت مشترک). به عنوان مثال، با رشد سازمان، صندوق حقوق و دستمزد (PAY) و هزینه اجاره محل رشد می کند. بدیهی است که فرض اینکه اجاره محل بستگی به حقوق و دستمزد دارد اشتباه است. هر دوی این متغیرها در بسیاری از موارد به صورت خطی به تعداد کارکنان وابسته هستند.
تأثیر متقابل متغیرها (زمانی که یک متغیر تغییر می کند، متغیر دوم تغییر می کند و بالعکس). با این رویکرد، دو صورت بندی از مسئله قابل پذیرش است. هر متغیری می تواند هم به عنوان متغیر مستقل و هم به عنوان متغیر وابسته عمل کند.

به این ترتیب، شاخص همبستگینشان می دهد که چقدر قوی است رابطه خطیبین دو عامل (در صورت وجود) و رگرسیون به شما امکان می دهد یک عامل را بر اساس دیگری پیش بینی کنید.

همبستگیمانند هر آمار دیگری در صورت استفاده صحیح می تواند مفید باشد، اما در استفاده از آن محدودیت هایی نیز دارد. اگر یک رابطه خطی به وضوح تعریف شده یا فقدان کامل رابطه را نشان دهد، پس همبستگیبه طرز شگفت انگیزی منعکس می شود اما، اگر داده ها یک رابطه غیر خطی (به عنوان مثال، درجه دوم) را نشان دهند، وجود گروه های جداگانه ای از مقادیر یا نقاط پرت، آنگاه مقدار محاسبه شده ضریب همبستگیمی تواند گمراه کننده باشد (به نمونه فایل مراجعه کنید).

همبستگینزدیک به 1 یا -1 (یعنی نزدیک به قدر مطلق به 1) نشان دهنده یک رابطه خطی قوی از متغیرها است، مقدار نزدیک به 0 نشان دهنده عدم وجود رابطه است. مثبت همبستگییعنی با رشد یک شاخص، شاخص دیگر به طور متوسط افزایش می یابد و با یک شاخص منفی کاهش می یابد.

برای محاسبه ضریب همبستگی لازم است که متغیرهای مطابقت داده شده شرایط زیر را داشته باشند:

تعداد متغیرها باید برابر با دو باشد.
متغیرها باید کمی باشند (به عنوان مثال فراوانی، وزن، قیمت). میانگین محاسبه شده این متغیرها منطقی است: قیمت میانگینیا وزن متوسط بیمار بر خلاف متغیرهای کمی، متغیرهای کیفی (اسمی) مقادیر را فقط از مجموعه محدودی از دسته‌ها (به عنوان مثال، جنس یا گروه خونی) دریافت می‌کنند. مقادیر عددی به صورت مشروط با این مقادیر مقایسه می شوند (به عنوان مثال، زن - 1، و مرد - 2). واضح است که در این صورت محاسبه مقدار میانگین، که برای یافتن آن لازم است همبستگی ها، نادرست است، به این معنی که محاسبه از همبستگی ها;
متغیرها باید تصادفی و دارای باشند .

داده های دو بعدی می توانند ساختار متفاوتی داشته باشند. برخی از آنها نیاز به رویکردهای خاصی برای کار دارند:

برای داده های غیر خطی همبستگیباید با احتیاط استفاده شود برای برخی مسائل، تبدیل یک یا هر دو متغیر به گونه‌ای مفید باشد که یک رابطه خطی به دست آید (این امر مستلزم ایجاد فرضی در مورد شکل رابطه غیرخطی به منظور پیشنهاد نوع تبدیل مورد نظر است).
با استفاده از نمودارهای پراکندهدر برخی از داده ها، تنوع نابرابر (پراکندگی) قابل مشاهده است. مشکل تنوع نابرابر این است که مکان هایی با تنوع بالا نه تنها کمترین اطلاعات را ارائه می دهند، بلکه بیشترین تأثیر را در محاسبه آمار نیز دارند. این مشکل نیز اغلب با تبدیل داده ها، مانند استفاده از لگاریتم، حل می شود.
در برخی از داده ها، خوشه بندی را می توان مشاهده کرد که ممکن است نشان دهنده نیاز به تقسیم جمعیت به بخش ها باشد.
یک نقطه پرت (پرت) می تواند مقدار محاسبه شده ضریب همبستگی را تحریف کند. یک نقطه پرت ممکن است به دلیل شانس، یک خطا در جمع آوری داده ها باشد یا ممکن است در واقع برخی از ویژگی های رابطه را منعکس کند. از آنجایی که نقطه پرت به شدت از مقدار متوسط منحرف می شود، سهم زیادی در محاسبه شاخص دارد. اغلب آمار با و بدون پرت محاسبه می شود.

استفاده از MS EXCEL برای محاسبه همبستگی

بیایید 2 متغیر را به عنوان مثال در نظر بگیریم ایکسو Yو به همین ترتیب، نمونه گیریمتشکل از چندین جفت مقدار (Х i؛ Y i). برای وضوح، بیایید بسازیم.

توجه داشته باشید: برای اطلاعات بیشتر در مورد رسم نمودارها به مقاله مراجعه کنید. در فایل نمونه ساخت نمودارهای پراکندهاستفاده می شود زیرا ما در اینجا از شرط تصادفی بودن متغیر X منحرف شدیم (این امر تولید انواع مختلف روابط را ساده می کند: روندهای ساختمانی و یک گسترش معین). در مورد داده های واقعی، لازم است از نمودار پراکندگی استفاده شود (به زیر مراجعه کنید).

محاسبات همبستگی هابرای خرج خواهیم کرد مناسبت های مختلفروابط بین متغیرها: خطی، درجه دومو در عدم ارتباط.

توجه داشته باشید: در فایل نمونه می توانید پارامترهای روند خطی (شیب، تقاطع با محور Y) و درجه گسترش حول این خط روند را تنظیم کنید. همچنین می توانید تنظیمات وابستگی درجه دوم را تنظیم کنید.

در فایل نمونه ساخت نمودارهای پراکندهدر صورت عدم وابستگی متغیرها، از نمودار پراکندگی استفاده می شود. در این حالت نقاط روی نمودار به صورت ابری مرتب می شوند.

توجه داشته باشید: توجه داشته باشید که با تغییر مقیاس نمودار در امتداد محور عمودی یا افقی می توان به ابر نقطه ظاهری عمودی یا خط افقی. واضح است که در این صورت متغیرها مستقل خواهند ماند.

همانطور که در بالا ذکر شد، برای محاسبه ضریب همبستگیدر MS EXCEL توابع ()CORREL وجود دارد. همچنین می توانید از تابع ()PEARSON مشابه استفاده کنید که همان نتیجه را برمی گرداند.

برای اطمینان از محاسبات همبستگی هاتوسط تابع CORREL() مطابق فرمول های بالا تولید می شوند، فایل مثال محاسبه را نشان می دهد همبستگی هابا استفاده از فرمول های دقیق تر:

=COVARIANCE.Y(B28:B88;D28:D88)/STDEV.Y(B28:B88)/STDEV.Y(D28:D88)

=COVARIATION.V(B28:B88;D28:D88)/STDEV.V(B28:B88)/STDEV.V(D28:D88)

توجه داشته باشید: مربع ضریب همبستگی r است ضریب تعیین R2 که هنگام ساخت خط رگرسیون با استفاده از تابع ()QVPIRSON محاسبه می شود. مقدار R2 را نیز می توان روی آن نمایش داد طرح پراکنده، با ساخت یک روند خطی با استفاده از عملکرد استاندارد MS EXCEL (نمودار را انتخاب کنید، برگه را انتخاب کنید چیدمان، سپس در گروه تحلیل و بررسیدکمه را فشار دهید خط روندو انتخاب کنید تقریب خطی). برای اطلاعات بیشتر در مورد ترسیم یک خط روند، به عنوان مثال، را ببینید.

استفاده از MS EXCEL برای محاسبه کوواریانس

کوواریانساز نظر معنی نزدیک به (همچنین معیار پراکندگی است) با این تفاوت که برای 2 متغیر تعریف شده است و پراکندگی- برای یکی. بنابراین، cov(x;x)=VAR(x).

برای محاسبه کوواریانس در MS EXCEL (شروع از نسخه 2010)، از توابع COVARIATION.G() و COVARIATION.V() استفاده می شود. در مورد اول، فرمول محاسبه مشابه موارد فوق است (پایان .Gمخفف جمعیت ، در دوم - به جای ضریب 1/n، 1/(n-1) استفاده می شود، یعنی. پایان .ATمخفف نمونه.

توجه داشته باشید: تابع COVAR() که در MS EXCEL نسخه های قبلی وجود دارد، مشابه تابع COVARIANCE.G() است.

توجه داشته باشید: توابع CORREL() و COVAR() در نسخه انگلیسی به صورت CORREL و COVAR نمایش داده می شوند. توابع COVARIANCE.G() و COVARIANCE.V() به عنوان COVARIANCE.P و COVARIANCE.S.

فرمول های اضافی برای محاسبه کوواریانس ها:

=SUMPRODUCT(B28:B88-AVERAGE(B28:B88)،(D28:D88-AVERAGE(D28:D88)))/COUNT(D28:D88)

=SUMPRODUCT(B28:B88-AVERAGE(B28:B88)،(D28:D88))/COUNT(D28:D88)

=SUMPRODUCT(B28:B88,D28:D88)/COUNT(D28:D88)-AVERAGE(B28:B88)*AVERAGE(D28:D88)

این فرمول ها از ویژگی استفاده می کنند کوواریانس ها:

اگر متغیرها ایکسو yمستقل هستند، کوواریانس آنها 0 است. اگر متغیرها مستقل نباشند، واریانس مجموع آنها برابر است با:

VAR(x+y)= VAR(x)+ VAR(y)+2COV(x;y)

ولی پراکندگیتفاوت آنهاست

VAR(x-y)= VAR(x)+ VAR(y)-2COV(x;y)

ارزیابی اهمیت آماری ضریب همبستگی

برای آزمون فرضیه، باید توزیع متغیر تصادفی را بدانیم. ضریب همبستگی r معمولاً آزمون فرضیه نه برای r، بلکه برای یک متغیر تصادفی t r انجام می شود:

که دارای n-2 درجه آزادی است.

اگر مقدار محاسبه شده متغیر تصادفی |t r | بزرگتر از مقدار بحرانی t α,n-2 (مشخص شده با α)، سپس فرضیه صفر رد می شود (رابطه بین مقادیر از نظر آماری معنی دار است).

بسته تحلیلی افزودنی

B برای محاسبه کوواریانس و همبستگی ابزارهایی به همین نام وجود دارد تحلیل و بررسی.

پس از فراخوانی ابزار، کادر محاوره ای ظاهر می شود که حاوی فیلدهای زیر است:

فاصله ورودی: باید پیوندی به یک محدوده با داده های اولیه برای 2 متغیر وارد کنید
گروه بندی: عموما داده های خام در 2 ستون وارد می شوند
برچسب ها در خط اول: اگر بررسی شد، پس فاصله ورودیباید شامل عناوین ستون باشد. توصیه می شود کادر را علامت بزنید تا نتیجه افزونه حاوی ستون های آموزنده باشد
فاصله خروجی: محدوده سلول هایی که نتایج محاسبات در آن قرار می گیرند. کافی است سلول سمت چپ بالای این محدوده را مشخص کنید.

افزودنی مقادیر همبستگی و کوواریانس محاسبه شده را برمی گرداند (برای کوواریانس، واریانس هر دو متغیر تصادفی نیز محاسبه می شود).