ضرایب همبستگی بسته نرم افزاری مایکروسافت به عنوان ابزاری موثر برای تحلیل اقتصاد سنجی

ضریب همبستگی چندگانه سه متغیر نشانگر نزدیکی یک رابطه خطی بین یکی از ویژگی ها (حرف نمایه قبل از خط تیره) و ترکیبی از دو ویژگی دیگر (حروف شاخص بعد از خط تیره) است:

; (12.7)

(12.8)

این فرمول ها محاسبه ضرایب همبستگی چندگانه را آسان می کند ارزش های شناخته شدهضرایب همبستگی جفتی r xy، r xz و r yz.

ضریب آرمنفی نیست و همیشه بین 0 و 1 است. هنگام نزدیک شدن آرتا وحدت، درجه رابطه خطی سه ویژگی افزایش می یابد. بین نسبت همبستگی چندگانه، مثلا R y-xzو دو ضریب همبستگی r yxو r yzرابطه زیر وجود دارد: هر یک از ضرایب جفت نمی تواند از مقدار مطلق تجاوز کند R y-xz.

مجذور ضریب همبستگی چندگانه R2ضریب نامیده می شود تعیین چندگانه. نسبت تغییرات متغیر وابسته را تحت تأثیر عوامل مورد مطالعه نشان می دهد.

اهمیت همبستگی چندگانه توسط برآورد می شود
اف– معیار:

, (12.9)

nحجم نمونه است،

ک- تعداد ویژگی ها؛ در مورد ما ک = 3.

ارزش نظری اف- معیارها از جدول درخواست برای ν 1 = k-1 و ν 2 \u003d n–kدرجات آزادی و سطح قابل قبول اهمیت. فرضیه صفر در مورد برابری ضریب همبستگی چندگانه در جمعیت به صفر ( H0: R= 0) پذیرفته می شود اگر F واقعیت.< F табл . و رد شد اگر F واقعیت. ≥ جدول F.

پایان کار -

این موضوع متعلق به:

آمار ریاضی

موسسه آموزشی.. گومل دانشگاه دولتی.. به نام فرانسیس اسکارینا یو ام ژوچنکو ..

اگر احتیاج داری مواد اضافیدر مورد این موضوع، یا آنچه را که به دنبال آن بودید پیدا نکردید، توصیه می کنیم از جستجو در پایگاه داده آثار ما استفاده کنید:

با مطالب دریافتی چه خواهیم کرد:

اگر این مطالب برای شما مفید بود، می توانید آن را در صفحه خود در شبکه های اجتماعی ذخیره کنید:

تمامی موضوعات این بخش:

آموزش
برای دانشجویانی که در رشته تخصصی 1-31 01 01 "زیست شناسی" گومل 2010 تحصیل می کنند

موضوع و روش آمار ریاضی
موضوع آمار ریاضی مطالعه خواص پدیده های توده ای در زیست شناسی، اقتصاد، فناوری و سایر زمینه ها است. این پدیده ها معمولاً به دلیل تنوع (تنوع) پیچیده هستند

مفهوم یک رویداد تصادفی
استقراء آماری یا استنتاج آماری به عنوان اصلی ترین جزءروش مطالعه پدیده های توده ای خاص خود را دارد ویژگی های متمایز کننده. نتیجه گیری های آماری با عددی انجام می شود

احتمال وقوع یک رویداد تصادفی
مشخصه عددیرویداد تصادفی، که این ویژگی را دارد که برای هر سری آزمایش های به اندازه کافی بزرگ، فرکانس رویداد فقط اندکی با این مشخصه متفاوت است، نامیده می شود.

محاسبه احتمالات
اغلب نیاز به جمع و ضرب همزمان احتمالات وجود دارد. به عنوان مثال، شما می خواهید با انداختن همزمان 2 تاس، احتمال کسب 5 امتیاز را تعیین کنید. مقدار مورد نیاز محتمل است

مفهوم متغیر تصادفی
پس از تعریف مفهوم احتمال و روشن شدن ویژگی های اصلی آن، اجازه دهید به بررسی یکی از مهمترین مفاهیم نظریه احتمال - مفهوم متغیر تصادفی - بپردازیم. اجازه دهید در نتیجه آن را فرض کنیم

متغیرهای تصادفی گسسته
یک متغیر تصادفی گسسته است اگر مجموعه مقادیر ممکن آن متناهی باشد یا با توجه به حداقل، قابل شمارش است. فرض کنید یک متغیر تصادفی X می تواند مقادیر x1 را بگیرد

متغیرهای تصادفی پیوسته
در مقایسه با متغیرهای تصادفی گسسته که در بخش فرعی قبلی مورد بحث قرار گرفت، مجموعه مقادیر ممکن برای یک متغیر تصادفی پیوسته نه تنها محدود نیست، بلکه قابل قبول نیست.

انتظارات و واریانس ریاضی
اغلب نیاز به توصیف توزیع یک متغیر تصادفی با استفاده از یک یا دو شاخص عددی وجود دارد که مهمترین ویژگی های این توزیع را بیان می کند. به چنین

لحظات
در آمار ریاضی به اصطلاح لحظه های توزیع یک متغیر تصادفی اهمیت زیادی دارد. AT انتظارات ریاضیمقادیر بزرگ یک متغیر تصادفی به اندازه کافی در نظر گرفته نمی شود.

توزیع دو جمله ای و اندازه گیری احتمالات
در این مبحث انواع اصلی توزیع متغیرهای تصادفی گسسته را در نظر خواهیم گرفت. فرض کنید احتمال وقوع یک رویداد تصادفی A در یک آزمایش منفرد برابر است با

توزیع مستطیلی (یکنواخت).
توزیع مستطیلی (یکنواخت) - ساده ترین نوع توزیع های پیوسته. اگر یک متغیر تصادفی X بتواند هر مقدار واقعی را در بازه (a, b) بگیرد، جایی که a و b واقعی هستند.

توزیع نرمال
توزیع نرمال نقش عمده ای در آمار ریاضی ایفا می کند. این به هیچ وجه تصادفی نیست: در واقعیت عینی، اغلب با علائم مختلفی مواجه می شود.

توزیع log-normal
متغیر تصادفی Y دارای لگاریتمی است توزیع نرمالبا پارامترهای μ و σ اگر متغیر تصادفی X = lnY دارای توزیع نرمال با پارامترهای مشابه μ و & باشد.

مقادیر متوسط
از بین تمام ویژگی‌های گروه، سطح متوسط که با میانگین مقدار صفت اندازه‌گیری می‌شود، بیشترین اهمیت نظری و عملی را دارد. مقدار متوسط یک ویژگی یک مفهوم بسیار عمیق است،

خصوصیات عمومی میانگین ها
برای استفاده صحیح از مقادیر متوسط، لازم است ویژگی های این شاخص ها را بدانید: مکان میانه، انتزاع و وحدت عمل کل. با مقدار عددی آن

میانگین حسابی
میانگین حسابی، داشتن خواص مشترکمقادیر متوسط، ویژگی های خاص خود را دارد که می توان آن را با فرمول های زیر بیان کرد:

رتبه متوسط (میانگین ناپارامتریک)
رتبه متوسط برای چنین ویژگی هایی تعیین می شود که هنوز روش های اندازه گیری کمی برای آنها یافت نشده است. با توجه به درجه تجلی چنین ویژگی هایی، اشیاء را می توان رتبه بندی کرد، به عنوان مثال، واقع شده است

میانگین وزنی حسابی
معمولاً برای محاسبه میانگین حسابی همه را جمع کنید مقادیر ویژگیو مقدار حاصل بر تعداد گزینه ها تقسیم می شود. در این حالت، هر مقدار با وارد کردن مجموع، آن را به میزان کامل افزایش می دهد

ریشه میانگین مربع
ریشه میانگین مربع با فرمول محاسبه می شود: , (6.5) برابر است با جذر مجموع

میانه
میانه مقدار مشخصه ای است که کل گروه را به دو قسمت مساوی تقسیم می کند: یک قسمت دارای مقدار ویژگی کمتر از میانه است و قسمت دیگر دارای مقدار بیشتری است. مثلاً اگر دارم

میانگین هندسی
برای به دست آوردن میانگین هندسی برای یک گروه با n داده، باید همه گزینه ها را ضرب کنید و از حاصل ضرب استخراج کنید. ریشه n امدرجه:

هارمونیک متوسط
میانگین هارمونیک با فرمول محاسبه می شود. (6.14) برای پنج گزینه: 1، 4، 5، 5 متوسط

تعداد درجات آزادی
تعداد درجات آزادی برابر با تعداد عناصر تنوع آزاد در گروه است. برابر است با تعداد تمام آیتم های مطالعه موجود بدون تعداد محدودیت های تنوع. مثلا برای تحقیق

ضریب تغییرات
انحراف معیار- یک مقدار نامگذاری شده، که در واحدهای اندازه گیری مشابه با میانگین حسابی بیان می شود. بنابراین، برای مقایسه ویژگی های مختلف بیان شده در واحدهای مختلف از

محدودیت ها و دامنه
برای ارزیابی سریع و تقریبی درجه تنوع، اغلب از ساده ترین شاخص ها استفاده می شود: lim = (min ¸ max) - محدودیت ها، یعنی کوچکترین و بزرگترین ارزشویژگی، p =

انحراف نرمال شده
معمولاً درجه رشد یک صفت با اندازه گیری آن مشخص می شود و با عدد مشخصی بیان می شود: وزن 3 کیلوگرم، طول 15 سانتی متر، 20 قلاب در بال زنبور، 4 درصد چربی در شیر، 15 کیلوگرم بریدن

میانگین و سیگمای گروه خلاصه
گاهی لازم است میانگین و سیگما برای توزیع مجموعی که از چندین توزیع تشکیل شده است تعیین شود. در این مورد، نه خود توزیع ها، بلکه فقط ابزار و سیگماهای آنها شناخته می شوند.

چولگی (چولگی) و شیب (کورتوز) منحنی توزیع
برای نمونه های بزرگ (n> 100)، دو آمار دیگر محاسبه می شود. چولگی منحنی نامتقارن نامیده می شود:

سری واریاسیون
با افزایش اندازه گروه های مورد مطالعه، نظم در تنوع بیشتر و بیشتر آشکار می شود که در گروه های کوچک با شکل تصادفی تجلی آن پنهان می شد.

هیستوگرام و منحنی تغییرات
هیستوگرام است سری تغییرات، به صورت نموداری ارائه می شود که در آن مقدار فرکانس متفاوتی با ارتفاع میله های مختلف نشان داده می شود. هیستوگرام توزیع داده ها در صفحه نشان داده شده است

اهمیت تفاوت های توزیع
یک فرضیه آماری یک فرض خاص در مورد توزیع احتمال زیربنای نمونه مشاهده شده داده است. معاینه فرضیه آماریفرآیند پذیرش است

معیارهای چولگی و کشیدگی
برخی از نشانه های گیاهان، حیوانات و میکروارگانیسم ها، هنگامی که اشیاء در گروه ها ترکیب می شوند، توزیع هایی را به وجود می آورند که به طور قابل توجهی با نرمال متفاوت است. در مواردی که هر

جامعه عمومی و نمونه
کل آرایه افراد یک دسته خاص، جمعیت عمومی نامیده می شود. جلد جمعیتتوسط اهداف مطالعه تعیین می شود. اگر گونه ای از حیوانات وحشی مورد مطالعه قرار گیرد

نمایندگی
مطالعه مستقیم گروهی از اشیاء انتخاب شده، اول از همه، مواد اولیهو ویژگی های خود نمونه تمام داده های نمونه و ارقام خلاصه به عنوان مرتبط هستند

خطاهای نمایندگی و سایر خطاهای تحقیق
ارزیابی پارامترهای کلی بر اساس شاخص های انتخابی ویژگی های خاص خود را دارد. یک جزء هرگز نمی تواند به طور کامل کل را مشخص کند، بنابراین ویژگی جمعیت عمومی است

مرزهای اعتماد به نفس
برای استفاده از شاخص های نمونه برای یافتن مقادیر احتمالی پارامترهای عمومی، لازم است مقدار خطاهای نمایندگی تعیین شود. این فرآیند o نامیده می شود

روش ارزیابی عمومی
سه مقدار مورد نیاز برای ارزیابی پارامتر کلی - شاخص نمونه ()، معیار قابلیت اطمینان

تخمین میانگین حسابی
مقطع تحصیلی سایز متوسطهدف آن تعیین مقدار میانگین کلی برای دسته مورد مطالعه از اشیاء است. خطای نمایندگی مورد نیاز برای این منظور با فرمول تعیین می شود:

تخمین اختلاف میانگین
در برخی از مطالعات، تفاوت بین دو اندازه گیری به عنوان داده اولیه در نظر گرفته می شود. این ممکن است زمانی اتفاق بیفتد که هر فرد از نمونه در دو حالت - یا در مورد مطالعه قرار گیرد سنین مختلف، یا p

برآورد غیر قابل اعتماد و قابل اعتماد از تفاوت میانگین
چنین نتایجی از مطالعات انتخابی که بر اساس آن‌ها نمی‌توان تخمین قطعی از پارامتر کلی را به دست آورد (یا بزرگ‌تر از صفر یا کمتر یا مساوی صفر باشد)، غیر قابل اعتماد نامیده می‌شوند.

تخمین تفاوت میانگین های کلی
در تحقیقات بیولوژیکی، تفاوت بین دو کمیت از اهمیت ویژه ای برخوردار است. با تفاوت، جمعیت‌ها، نژادها، نژادها، واریته‌ها، لاین‌ها، خانواده‌ها، گروه‌های آزمایش و کنترل با هم مقایسه می‌شوند.

معیار پایایی تفاوت
همزمان پراهمیت، که برای محققان تفاوت های قابل اعتماد را دریافت می کند ، نیاز به تسلط بر روش هایی وجود دارد که امکان تعیین قابل اعتماد بودن نتایج بدست آمده را به طور واقع بینانه فراهم می کند.

نمایندگی در مطالعه ویژگی های کیفی
صفات کیفی معمولاً نمی توانند درجاتی از تجلی داشته باشند: آنها یا در هر یک از افراد وجود دارند یا وجود ندارند، مثلاً جنسیت، نظرسنجی، وجود یا عدم وجود هر ویژگی، زشتی.

قابلیت اطمینان تفاوت در سهام
پایایی تفاوت سهام نمونه به همان روشی که برای تفاوت میانگین ها تعیین می شود: (10.34)

ضریب همبستگی
در بسیاری از مطالعات، بررسی چندین نشانه در رابطه متقابل آنها الزامی است. اگر چنین مطالعه ای را در رابطه با دو صفت انجام دهیم، می بینیم که تغییرپذیری یک صفت نیست.

خطای ضریب همبستگی
مانند هر مقدار نمونه، ضریب همبستگی دارای خطای نمایندگی خاص خود است که برای نمونه های بزرگ با استفاده از فرمول محاسبه می شود:

اطمینان از ضریب همبستگی نمونه
معیار ضریب همبستگی نمونه با فرمول: (11.9) تعیین می شود که در آن:

حدود اطمینان ضریب همبستگی
حدود اطمینان مقدار کلی ضریب همبستگی پیدا شده است به صورت کلیطبق فرمول:

پایایی تفاوت بین دو ضریب همبستگی
پایایی تفاوت در ضرایب همبستگی به همان روشی که پایایی اختلاف میانگین ها طبق فرمول معمول تعیین می شود.

معادله رگرسیون خط مستقیم
همبستگی مستقیم از این جهت متفاوت است که با این شکل از اتصال، هر یک از تغییرات یکسان در اولین ویژگی مربوط به یک تغییر کاملاً تعریف شده و همچنین میانگین یکسان در pr دیگر است.

خطاهای عناصر معادله رگرسیون یکطرفه
در معادله یک مستقیم ساده رگرسیون خطی: y = a + bx سه خطای نمایندگی وجود دارد. 1 خطای ضریب رگرسیون:

ضریب همبستگی جزئی
ضریب همبستگی جزئی شاخصی است که درجه همگرایی دو ویژگی را می سنجد مقدار ثابتسوم. آمار ریاضی به شما امکان می دهد یک همبستگی ایجاد کنید

معادله رگرسیون چندگانه خطی
معادله ریاضی برای رابطه خط مستقیم بین سه متغیر، معادله خطی چندگانه صفحه رگرسیون نامیده می شود. شکل کلی زیر را دارد:

رابطه همبستگی
اگر رابطه بین پدیده های مورد مطالعه به طور قابل توجهی از یک رابطه خطی انحراف داشته باشد، که به راحتی از نمودار مشخص می شود، ضریب همبستگی به عنوان معیاری برای رابطه نامناسب است. می تواند نشان دهنده غیبت باشد

ویژگی های رابطه همبستگی
نسبت همبستگی درجه همبستگی را در هر یک از اشکال آن اندازه گیری می کند. علاوه بر این، نسبت همبستگی دارای تعدادی ویژگی دیگر است که در آماری بسیار جالب است

خطای نمایندگی نسبت همبستگی
فرمول دقیقی برای خطای نمایندگی هنوز ایجاد نشده است. رابطه همبستگی. فرمولی که معمولاً در کتاب های درسی ارائه می شود دارای اشکالاتی است که همیشه نمی توان آنها را نادیده گرفت. این فرمول ندارد

معیار خطی همبستگی
برای تعیین درجه تقریب یک وابستگی منحنی به یک مستطیل، از معیار F استفاده می شود که با فرمول محاسبه می شود:

مجتمع پراکندگی
مجموعه پراکندگی مجموعه ای از درجه بندی ها با داده های مربوط به مطالعه و میانگین داده ها برای هر درجه بندی (میانگین خصوصی) و برای کل مجموعه (میانگین عمومی) است.

تأثیرات آماری
تأثیر آماری بازتابی در تنوع ویژگی حاصل از تنوع عامل (درجه بندی آن) است که در مطالعه سازماندهی شده است. برای ارزیابی تأثیر نئو

تأثیر عاملی
تأثیر عاملی، تأثیر آماری ساده یا ترکیبی عوامل مورد مطالعه است. در مجتمع های تک عاملی، تأثیر ساده یک عامل در سطوح سازمانی مشخصی بررسی می شود.

مجتمع پراکندگی یک عاملی
تجزیه و تحلیل واریانس توسط دانشمند انگلیسی R. A. Fisher، که قانون توزیع نسبت مربعات میانگین را کشف کرد، توسعه داده شد و در تحقیقات کشاورزی و بیولوژیکی معرفی شد.

کمپلکس پراکندگی چند عاملی
ایده روشن از مدل ریاضی تحلیل واریانسدرک عملیات محاسباتی لازم را آسان تر می کند، به ویژه در هنگام پردازش داده های آزمایش های چند متغیره، که در آنها موارد بیشتری وجود دارد.

تحولات
استفاده صحیح از تحلیل واریانس برای پردازش مواد آزمایشی، همگنی واریانس ها را برای انواع (نمونه ها)، یک توزیع نرمال یا نزدیک به آن در

شاخص های قدرت تأثیرات
تعیین قدرت تأثیرات توسط نتایج آنها در زیست شناسی مورد نیاز است. کشاورزی، دارو برای انتخاب موثرترین ابزار قرار گرفتن در معرض، برای دوز عوامل فیزیکی و شیمیایی - هنر.

خطای نمایندگی شاخص اصلی قدرت نفوذ
فرمول دقیقی برای خطای شاخص اصلی قدرت نفوذ هنوز پیدا نشده است. در مجتمع های یک عاملی، زمانی که خطای نمایندگی فقط برای یک شاخص فاکتوریل تعیین می شود

مقادیر حدی شاخص های قدرت نفوذ
شاخص اصلی قدرت نفوذ برابر است با سهم یک جمله از مجموع مجموع اصطلاحات. علاوه بر این، این شاخص برابر مربع استرابطه همبستگی به این دو دلیل، نشانگر قدرت

قابلیت اطمینان تأثیرات
شاخص اصلی قدرت تأثیر، که در یک مطالعه انتخابی به دست آمده است، اول از همه، درجه تأثیرگذاری را مشخص می کند که واقعاً در واقع در گروه اشیاء مورد مطالعه ظاهر می شود.

تجزیه و تحلیل تشخیصی
تحلیل تفکیک یکی از روش های چند متغیره است تحلیل آماری. هدف از تجزیه و تحلیل متمایز این است که بر اساس اندازه گیری ویژگی های مختلف (ویژگی ها، جفت ها).

بیان مسئله، روش های راه حل، محدودیت ها
فرض کنید n شی با ویژگی m وجود دارد. در نتیجه اندازه گیری ها، هر جسم با بردار x1 ... xm، m >1 مشخص می شود. وظیفه این است که

مفروضات و محدودیت ها
تجزیه و تحلیل تمایز تحت تعدادی از مفروضات "کار" می کند. این فرض که کمیت های مشاهده شده - ویژگی های اندازه گیری شده جسم - دارای توزیع نرمال هستند. آی تی

الگوریتم تجزیه و تحلیل متمایز
حل مسائل تمایز (تحلیل تمایز) شامل تقسیم کل فضای نمونه (مجموعه تحقق همه متغیرهای تصادفی چند بعدی در نظر گرفته شده) به تعداد معینی است.

آنالیز خوشه ای
تجزیه و تحلیل خوشه ای روش های مختلف مورد استفاده برای انجام طبقه بندی را ترکیب می کند. در نتیجه اعمال این رویه ها، مجموعه اولیه اشیاء به خوشه ها یا گروه ها تقسیم می شوند

روش های تحلیل خوشه ای
در عمل، روش‌های خوشه‌بندی تجمعی معمولاً اجرا می‌شوند. معمولاً قبل از شروع طبقه‌بندی، داده‌ها استاندارد می‌شوند (میانگین کم و جذر تقسیم می‌شود).

الگوریتم تحلیل خوشه ای
تجزیه و تحلیل خوشه ای مجموعه ای از روش ها برای طبقه بندی مشاهدات یا اشیاء چند بعدی بر اساس تعریف مفهوم فاصله بین اشیاء و به دنبال آن انتخاب گروه ها از آنها است.

تحلیل رگرسیون یک روش تحقیق آماری است که به شما امکان می دهد وابستگی یک پارامتر را به یک یا چند متغیر مستقل نشان دهید. در دوران پیش از کامپیوتر، استفاده از آن بسیار دشوار بود، به خصوص زمانی که صحبت از حجم زیاد داده می شد. امروز، با یادگیری نحوه ساخت رگرسیون در اکسل، می توانید پیچیده را حل کنید مشکلات آماریبه معنای واقعی کلمه در چند دقیقه در زیر نمونه های مشخصی از حوزه اقتصاد آورده شده است.

انواع رگرسیون

خود این مفهوم در سال 1886 وارد ریاضیات شد. رگرسیون اتفاق می افتد:

خطی؛
سهموی
قدرت؛
نمایی;
هذلولی
نمایشی؛
لگاریتمی

مثال 1

مشکل تعیین وابستگی تعداد اعضای تیم بازنشسته را در نظر بگیرید میانگین درامددر 6 شرکت صنعتی

یک وظیفه. شش شرکت میانگین ماهانه را تجزیه و تحلیل کردند دستمزدو تعداد کارمندانی که ترک می کنند اراده خود. به شکل جدول داریم:


		تعداد افرادی که رفتند	حقوق
			30000 روبل
			35000 روبل
			40000 روبل
			45000 روبل
			50000 روبل
			55000 روبل
			60000 روبل

برای مسئله تعیین وابستگی تعداد کارگران بازنشسته به میانگین حقوق در 6 شرکت، مدل رگرسیون به شکل معادله Y = a 0 + a 1 x 1 +…+a k x k است که x i متغیرهای تأثیرگذار هستند. ، a i ضرایب رگرسیون، a k تعداد عوامل است.

برای این کار، Y نشانگر کارمندانی است که ترک کرده اند و عامل تأثیرگذار حقوق است که آن را با X نشان می دهیم.

استفاده از قابلیت های صفحه گسترده "اکسل"

تجزیه و تحلیل رگرسیون در اکسل باید قبل از اعمال توابع داخلی برای داده های جدولی موجود باشد. با این حال، برای این اهداف، بهتر است از افزونه بسیار مفید "Analysis Toolkit" استفاده کنید. برای فعال کردن آن نیاز دارید:

از برگه "فایل" به بخش "گزینه ها" بروید.
در پنجره ای که باز می شود، خط "افزونه ها" را انتخاب کنید.
روی دکمه "Go" واقع در پایین، سمت راست خط "Management" کلیک کنید.
کادر کنار نام «بسته تجزیه و تحلیل» را علامت بزنید و با کلیک روی «OK» اقدامات خود را تأیید کنید.

اگر همه چیز به درستی انجام شود، دکمه مورد نظر در سمت راست تب Data که در بالای کاربرگ اکسل قرار دارد ظاهر می شود.

در اکسل

اکنون که تمام ابزارهای مجازی لازم برای انجام محاسبات اقتصادسنجی را در اختیار داریم، می توانیم شروع به حل مشکل خود کنیم. برای این:

بر روی دکمه "تجزیه و تحلیل داده ها" کلیک کنید؛
در پنجره ای که باز می شود، روی دکمه "Regression" کلیک کنید.
در برگه ای که ظاهر می شود، محدوده مقادیر Y (تعداد کارمندانی که ترک می کنند) و X (حقوق آنها) را وارد کنید.
ما اقدامات خود را با فشار دادن دکمه "Ok" تأیید می کنیم.

در نتیجه، برنامه به طور خودکار یک صفحه جدید از صفحه گسترده را با داده های تحلیل رگرسیون پر می کند. توجه داشته باشید! اکسل این قابلیت را دارد که به صورت دستی مکان مورد نظر شما را برای این منظور تنظیم کند. به عنوان مثال، می تواند همان برگه ای باشد که مقادیر Y و X در آن هستند یا حتی یک کتاب جدید، به ویژه برای ذخیره چنین داده هایی طراحی شده است.

تجزیه و تحلیل نتایج رگرسیون برای R-square

در اکسل، داده های به دست آمده در هنگام پردازش داده های مثال در نظر گرفته شده به صورت زیر است:

اول از همه باید به مقدار R-square توجه کنید. ضریب تعیین است. در این مثال، R-square = 0.755 (75.5%)، یعنی پارامترهای محاسبه شده مدل، رابطه بین پارامترهای در نظر گرفته شده را 75.5٪ توضیح می دهد. هر چه مقدار ضریب تعیین بالاتر باشد، مدل انتخاب شده برای یک کار خاص کاربرد بیشتری دارد. اعتقاد بر این است که به درستی وضعیت واقعی را با مقدار مربع R بالای 0.8 توصیف می کند. اگر R مربع باشد<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

تجزیه و تحلیل نسبت

عدد 64.1428 نشان می‌دهد که اگر تمام متغیرهای xi در مدلی که در نظر می‌گیریم صفر شوند، مقدار Y چقدر خواهد بود. به عبارت دیگر، می توان استدلال کرد که مقدار پارامتر تحلیل شده نیز تحت تأثیر عوامل دیگری است که در یک مدل خاص توضیح داده نشده اند.

ضریب بعدی -0.16285 که در سلول B18 قرار دارد، وزن تأثیر متغیر X را بر Y نشان می دهد. این بدان معنی است که میانگین حقوق ماهانه کارکنان در مدل مورد بررسی بر تعداد افراد ترک کار با وزن 0.16285- تأثیر می گذارد. درجه نفوذ آن در همه کوچک است. علامت "-" نشان می دهد که ضریب دارای مقدار منفی است. این بدیهی است، زیرا همه می دانند که هر چه حقوق و دستمزد در شرکت بالاتر باشد، افراد کمتر تمایلی به فسخ قرارداد کار یا ترک کار دارند.

رگرسیون چندگانه

این اصطلاح به یک معادله اتصال با چندین متغیر مستقل از شکل اشاره دارد:

y \u003d f (x 1 + x 2 + ... x m) + ε، که در آن y ویژگی مؤثر (متغیر وابسته) است، و x 1، x 2، ... x m عوامل عامل (متغیرهای مستقل) هستند.

تخمین پارامتر

برای رگرسیون چندگانه(MR) با استفاده از روش انجام می شود کمترین مربعات(MNK). برای معادلات خطی به شکل Y = a + b 1 x 1 +…+b m x m + ε، ما سیستمی از معادلات عادی می سازیم (به زیر مراجعه کنید)

برای درک اصل روش، حالت دو عاملی را در نظر بگیرید. سپس وضعیتی داریم که با فرمول توصیف شده است

از اینجا دریافت می کنیم:

که در آن σ واریانس ویژگی مربوطه منعکس شده در شاخص است.

LSM برای معادله MP در مقیاس قابل استانداردسازی قابل اعمال است. در این حالت معادله را بدست می آوریم:

که در آن t y، t x 1، ... t xm متغیرهای استاندارد شده ای هستند که مقادیر میانگین آنها 0 است. β i ضرایب رگرسیون استاندارد شده است و انحراف استاندارد 1 است.

لطفاً توجه داشته باشید که همه β i در این مورد به صورت عادی و متمرکز تنظیم می شوند، بنابراین مقایسه آنها با یکدیگر صحیح و قابل قبول است. علاوه بر این، مرسوم است که فاکتورها را فیلتر کرده و آنهایی را که دارای کمترین مقادیر βi هستند کنار بگذارند.

مسئله با استفاده از معادله رگرسیون خطی

فرض کنید جدولی از پویایی قیمت یک محصول خاص N در 8 ماه گذشته وجود دارد. لازم است در مورد توصیه خرید دسته آن با قیمت 1850 روبل در تن تصمیم گیری شود.


شماره ماه	نام ماه	قیمت کالای N
		1750 روبل در هر تن
		1755 روبل در هر تن
		1767 روبل در هر تن
		1760 روبل در هر تن
		1770 روبل در هر تن
		1790 روبل در هر تن
		1810 روبل در هر تن
		1840 روبل در هر تن

برای حل این مشکل در صفحه گسترده اکسل، باید از ابزار تجزیه و تحلیل داده ها که قبلاً در مثال بالا شناخته شده است استفاده کنید. بعد، بخش "Regression" را انتخاب کنید و پارامترها را تنظیم کنید. لازم به یادآوری است که در قسمت "فاصله ورودی Y" باید محدوده ای از مقادیر برای متغیر وابسته (در این مورد قیمت یک محصول در ماه های خاص سال) و در "ورودی" وارد شود. فاصله X" - برای متغیر مستقل (تعداد ماه). با کلیک بر روی "Ok" اقدام را تأیید کنید. در یک برگه جدید (اگر چنین نشان داده شده بود)، ما داده هایی را برای رگرسیون دریافت می کنیم.

بر اساس آنها یک معادله خطی به شکل y=ax+b می سازیم که در آن پارامترهای a و b ضرایب سطر با نام شماره ماه و ضرایب و ردیف "تقاطع Y" از برگه با نتایج تحلیل رگرسیون. بنابراین، معادله رگرسیون خطی (LE) برای مسئله 3 به صورت زیر نوشته می شود:

قیمت محصول N = 11.714* شماره ماه + 1727.54.

یا در نماد جبری

y = 11.714 x + 1727.54

تجزیه و تحلیل نتایج

برای تصمیم گیری در مورد مناسب بودن معادله رگرسیون خطی حاصل، از ضرایب همبستگی چندگانه (MCC) و ضرایب تعیین و همچنین آزمون فیشر و آزمون دانشجو استفاده می شود. در جدول اکسل با نتایج رگرسیون، به ترتیب با نام های R متعدد، R-square، F-statistic و t-statistic ظاهر می شوند.

KMC R امکان ارزیابی تنگی رابطه احتمالی بین متغیرهای مستقل و وابسته را فراهم می کند. ارزش بالای آن نشان دهنده رابطه نسبتاً قوی بین متغیرهای "تعداد ماه" و "قیمت کالا N بر حسب روبل در هر 1 تن" است. با این حال، ماهیت این رابطه ناشناخته باقی مانده است.

مجذور ضریب تعیین R 2 (RI) یک مشخصه عددی از سهم پراکندگی کل است و پراکندگی کدام بخشی از داده های تجربی را نشان می دهد، یعنی. مقادیر متغیر وابسته با معادله رگرسیون خطی مطابقت دارد. در مسئله مورد بررسی، این مقدار برابر 84.8 درصد است، یعنی داده های آماری با دقت بالایی توسط SD به دست آمده توصیف می شوند.

آماره F که آزمون فیشر نیز نامیده می شود، برای ارزیابی اهمیت یک رابطه خطی، رد یا تایید فرضیه وجود آن استفاده می شود.

(معیار دانش آموز) به ارزیابی اهمیت ضریب با یک جمله مجهول یا آزاد یک رابطه خطی کمک می کند. اگر مقدار معیار t > t cr باشد، فرضیه بی اهمیت بودن عبارت آزاد است. معادله خطیرد شد.

در مسئله مورد بررسی برای عضو آزاد با استفاده از ابزار اکسل به دست آمد که t = 169.20903 و p = 2.89E-12، یعنی احتمال صفر داریم که فرضیه صحیح در مورد بی اهمیت بودن عضو آزاد باشد. رد شد. برای ضریب مجهول t=5.79405 و p=0.001158. به عبارت دیگر، احتمال رد فرضیه صحیح در مورد بی اهمیت بودن ضریب برای مجهول 0.12 درصد است.

بنابراین، می توان استدلال کرد که معادله رگرسیون خطی به دست آمده کافی است.

مشکل مصلحت خرید بلوک سهام

رگرسیون چندگانه در اکسل با استفاده از همان ابزار تحلیل داده انجام می شود. یک مشکل کاربردی خاص را در نظر بگیرید.

مدیریت NNN باید در مورد امکان خرید 20 درصد از سهام MMM SA تصمیم گیری کند. هزینه بسته (JV) 70 میلیون دلار آمریکا می باشد. متخصصان NNN داده های مربوط به تراکنش های مشابه را جمع آوری کردند. تصمیم بر این شد که ارزش بلوک سهام با توجه به پارامترهایی که به میلیون ها دلار آمریکا بیان می شود، ارزیابی شود:

حساب های پرداختنی (VK)؛
گردش مالی سالانه (VO)؛
حساب های دریافتنی (VD)؛
هزینه دارایی های ثابت (SOF).

علاوه بر این، پارامتر حقوق و دستمزد معوقه شرکت (V3 P) به هزار دلار آمریکا استفاده می شود.

راه حل با استفاده از صفحه گسترده اکسل

اول از همه، شما باید یک جدول از داده های اولیه ایجاد کنید. به نظر می رسد این است:

با پنجره "تجزیه و تحلیل داده ها" تماس بگیرید.
بخش "Regression" را انتخاب کنید؛
در کادر "فاصله ورودی Y" محدوده مقادیر متغیرهای وابسته را از ستون G وارد کنید.
روی نماد با یک فلش قرمز در سمت راست کادر "Input interval X" کلیک کنید و محدوده ای از تمام مقادیر را در برگه انتخاب کنید. ستون B,C، دی ، اف.

«کاربرگ جدید» را انتخاب کرده و روی «تأیید» کلیک کنید.

تحلیل رگرسیون را برای مسئله داده شده دریافت کنید.

بررسی نتایج و نتیجه گیری

"ما" از داده های گرد ارائه شده در بالا در صفحه گسترده اکسل، معادله رگرسیون جمع آوری می کنیم:

SP \u003d 0.103 * SOF + 0.541 * VO - 0.031 * VK + 0.405 * VD + 0.691 * VZP - 265.844.

در یک شکل ریاضی آشناتر، می توان آن را به صورت زیر نوشت:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

داده های JSC "MMM" در جدول ارائه شده است:

با جایگزینی آنها در معادله رگرسیون، رقمی معادل 64.72 میلیون دلار آمریکا بدست می آید. این به این معنی است که سهام JSC MMM نباید خریداری شود، زیرا ارزش 70 میلیون دلاری آنها بسیار زیاد است.

همانطور که می بینید، استفاده از صفحه گسترده اکسل و معادله رگرسیون امکان تصمیم گیری آگاهانه در مورد امکان سنجی یک تراکنش بسیار خاص را فراهم می کند.

اکنون می دانید که رگرسیون چیست. مثال‌هایی در اکسل که در بالا مورد بحث قرار گرفت به شما کمک می‌کند تصمیم بگیرید. وظایف عملیاز رشته اقتصاد سنجی

ساخت یک رگرسیون خطی، تخمین پارامترهای آن و اهمیت آنها در هنگام استفاده از بسته می تواند بسیار سریعتر انجام شود. تجزیه و تحلیل اکسل(پسرفت). اجازه دهید تفسیر نتایج به دست آمده را در نظر بگیریم مورد کلی (کمتغیرهای توضیحی) مطابق مثال 3.6.

جدول آمار رگرسیون مقادیر داده شده است:

چندگانه آر – ضریب همبستگی چندگانه؛

آر- مربع– ضریب تعیین آر 2 ;

عادی شده است آر - مربع- تنظیم شده آر 2 تنظیم شده برای تعداد درجات آزادی؛

خطای استانداردخطای استاندارد رگرسیون است اس;

مشاهدات -تعداد مشاهدات n.

جدول تحلیل واریانسداده شده:

1. ستون df - تعداد درجات آزادی برابر است

برای رشته پسرفت df = ک;

برای رشته باقی ماندهdf = n – ک – 1;

برای رشته جمعdf = n– 1.

2. ستون SS-مجموع مجذور انحرافات، برابر است

برای رشته پسرفت ;

برای رشته باقی مانده ;

برای رشته جمع .

3. ستون ام‌اسواریانس های تعیین شده توسط فرمول ام‌اس = اس اس/df:

برای رشته پسرفت- واریانس عاملی؛

برای رشته باقی ماندهواریانس باقیمانده است.

4. ستون اف - ارزش محاسبه شده اف- معیارهای محاسبه شده با فرمول

اف = ام‌اس(پسرفت)/ ام‌اس(باقی مانده).

5. ستون اهمیت اف مقدار سطح معنی داری مربوط به محاسبه شده است اف-آمار .

اهمیت اف= FRIST( F-آمار، df(پسرفت)، df(باقی مانده)).

اگر اهمیت دارد اف < стандартного уровня значимости, то آر 2 از نظر آماری معنی دار است.

	ضرایب	خطای استاندارد	آمار t	مقدار p	95% پایین	95% برتر
Y	65,92	11,74	5,61	0,00080	38,16	93,68
ایکس	0,107	0,014	7,32	0,00016	0,0728	0,142

این جدول نشان می دهد:

1. شانس- مقادیر ضرایب آ, ب.

2. خطای استانداردخطاهای استاندارد ضرایب رگرسیون هستند S a, Sb.

3. t-آمار- مقادیر محاسبه شده تی - معیارهای محاسبه شده با فرمول:

t-statistic = ضرایب / خطای استاندارد.

4.آر-ارزش (اهمیت تی) مقدار سطح معنی داری مربوط به محاسبه شده است t-آمار.

آر-value= استودراسپ(تی-آمار، df(باقی مانده)).

اگر یک آر-معنی< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. 95% پایین و 95% بالا- حد پایین و بالایی 95٪ فاصله اطمینانبرای ضرایب معادله رگرسیون خطی نظری.

انصراف باقی مانده
مشاهده	y را پیش بینی کرد	باقی می ماند e
	72,70	-29,70
	82,91	-20,91
	94,53	-4,53
	105,72	5,27
	117,56	12,44
	129,70	19,29
	144,22	20,77
	166,49	24,50
	268,13	-27,13

جدول انصراف باقی ماندهنشان داد:

در یک ستون مشاهده- شماره مشاهده؛

در یک ستون پیش بینی کرد y مقادیر محاسبه شده متغیر وابسته هستند.

در یک ستون باقی ه تفاوت بین مقادیر مشاهده شده و محاسبه شده متغیر وابسته است.

مثال 3.6.داده های موجود (واحدهای عربی) در مورد هزینه های غذا yو درآمد سرانه ایکسبرای نه گروه از خانواده ها:

ایکس
y

با استفاده از نتایج بسته تحلیل اکسل (رگرسیون)، وابستگی هزینه های مواد غذایی به ارزش درآمد سرانه را تجزیه و تحلیل می کنیم.

نتایج تحلیل رگرسیون معمولاً به صورت زیر نوشته می شود:

که در داخل پرانتز خطاهای استاندارد ضرایب رگرسیون وجود دارد.

ضرایب رگرسیون آ = 65,92 و ب= 0.107. جهت ارتباط بین yو ایکسعلامت ضریب رگرسیون را تعیین می کند ب= 0.107، یعنی رابطه مستقیم و مثبت است. ضریب ب 0.107 = نشان می دهد که با افزایش درآمد سرانه 1 ارب. واحدها هزینه های غذا 0.107 تبدیل افزایش می یابد. واحدها

اجازه دهید اهمیت ضرایب مدل به دست آمده را تخمین بزنیم. اهمیت ضرایب ( الف، ب) در مقابل بررسی می شود تی- تست:

مقدار p ( آ) = 0,00080 < 0,01 < 0,05

مقدار p ( ب) = 0,00016 < 0,01 < 0,05,

از این رو ضرایب ( الف، ب) در سطح 1% و حتی بیشتر از آن در سطح 5% معنی دار هستند. بنابراین، ضرایب رگرسیون معنی دار بوده و مدل برای داده های اصلی مناسب است.

نتایج تخمین رگرسیون نه تنها با مقادیر بدست آمده از ضرایب رگرسیون، بلکه با مقداری از مجموعه آنها (فاصله اطمینان) نیز سازگار است. با احتمال 95 درصد، فواصل اطمینان برای ضرایب (38.16 - 93.68) برای آو (0.0728 - 0.142) برای ب

کیفیت مدل با ضریب تعیین ارزیابی می شود آر 2 .

ارزش آر 2 = 0.884 به این معنی است که ضریب درآمد سرانه می تواند 88.4 درصد از تغییرات (پراکندگی) در مخارج مواد غذایی را توضیح دهد.

اهمیت آر 2 توسط F-آزمون: اهمیت اف = 0,00016 < 0,01 < 0,05, следовательно, آر 2 در سطح 1% و حتی بیشتر از آن در سطح 5% معنی دار است.

در مورد رگرسیون خطی زوجی، ضریب همبستگی را می توان به صورت تعریف کرد . مقدار به دست آمده از ضریب همبستگی نشان می دهد که رابطه بین هزینه های غذایی و درآمد سرانه بسیار نزدیک است.

ضریب همبستگی چندگانهتنگی رابطه خطی بین یک متغیر و مجموعه متغیرهای دیگر مورد بررسی را مشخص می کند.
محاسبه ضریب همبستگی چندگانه از اهمیت ویژه ای برخوردار است ویژگی حاصل y با عامل x 1 , x 2 ,…, x m ,فرمول برای تعیین اینکه در حالت کلی فرم دارد

جایی که Δ r تعیین کننده ماتریس همبستگی است. ∆ 11 متمم جبری عنصر r yy ماتریس همبستگی است.
اگر فقط دو علامت عامل در نظر گرفته شود، می توان از فرمول زیر برای محاسبه ضریب همبستگی چندگانه استفاده کرد:

ساخت یک ضریب همبستگی چندگانه فقط در مواردی توصیه می شود که ضرایب همبستگی جزئی معنی دار باشند و رابطه بین ویژگی حاصل و عوامل موجود در مدل واقعاً وجود داشته باشد.

ضریب تعیین

فرمول کلی: R2 = RSS/TSS=1-ESS/TSS
که در آن RSS مجموع مجذور انحرافات توضیح داده شده است، ESS مجموع مجذور انحرافات غیر قابل توضیح (باقیمانده) است، TSS برابر است با مبلغ کلانحرافات مربع (TSS=RSS+ESS)

,
که در آن r ij - ضرایب همبستگی جفت بین رگرسیور x i و x j , a r i 0 - ضرایب همبستگی جفت بین رگرسیور x i و y .
- ضریب تعیین تصحیح شده (نرمال شده).

مجذور ضریب همبستگی چندگانه تماس گرفت ضریب چندگانهتعیین ها; نشان می دهد که چه نسبتی از واریانس صفت حاصل را نشان می دهد yبا تأثیر علائم عامل x 1 , x 2 , …, x m توضیح داده می شود. توجه داشته باشید که فرمول محاسبه ضریب تعیین از طریق نسبت باقیمانده و واریانس کلویژگی حاصل همان نتیجه را خواهد داد.
ضریب همبستگی چندگانه و ضریب تعیین از 0 تا 1 متغیر است. yاز x 1، x 2، …، x m. اگر مقدار ضریب همبستگی چندگانه کوچک باشد (کمتر از 0.3)، به این معنی است که مجموعه انتخاب شده از ویژگی های عامل به اندازه کافی تغییرات ویژگی حاصل را توصیف نمی کند، یا رابطه بین متغیرهای عامل و نتیجه غیرخطی است.

ضریب همبستگی چندگانه با استفاده از ماشین حساب محاسبه می شود. اهمیت ضریب همبستگی چندگانه و ضریب تعیینبا استفاده از تست فیشر بررسی شد.

کدام یک از اعداد زیر می تواند مقدار ضریب تعیین چندگانه باشد:
الف) 0.4؛
ب) -1؛
ج) -2.7;
د) 2.7.

چندگانه ضریب خطیهمبستگی 0.75 است. چند درصد از تغییرات متغیر وابسته y در مدل لحاظ شده و ناشی از تأثیر عوامل x 1 و x 2 است.
الف) 56.2 (R 2 = 0.75 2 = 0.5625)؛

وزارت آموزش و پرورش و علوم فدراسیون روسیه

ایالت فدرال خودمختار موسسه تحصیلیآموزش عالی حرفه ای

دانشگاه فدرال خاور دور

دانشکده اقتصاد و مدیریت

گروه انفورماتیک بازرگانی و روشهای اقتصادی و ریاضی

کار آزمایشگاهی

در رشته "شبیه سازی"

تخصص 080801.65 "انفورماتیک کاربردی (در اقتصاد)"

تجزیه و تحلیل رگرسیون

روداکوا

اولیانا آناتولیوانا

ولادی وستوک

گزارش

وظیفه: یک روش تحلیل رگرسیون را بر اساس داده ها (قیمت فروش و منطقه زندگی) در 23 ملک در نظر بگیرید.

حالت عملیاتی "رگرسیون" برای محاسبه پارامترهای معادله رگرسیون خطی و بررسی کفایت آن برای فرآیند مورد مطالعه استفاده می شود.

برای حل مشکل تحلیل رگرسیون در MS Excel از منو انتخاب کنید سرویسفرمان تحلیل داده هاو ابزار تحلیل" پسرفت".

در کادر محاوره ای که ظاهر می شود، پارامترهای زیر را تنظیم کنید:

1. فاصله ورودی Y- این محدوده ای از داده ها در مورد ویژگی موثر است. باید یک ستون باشد.

2. فاصله ورودی Xمحدوده ای از سلول ها حاوی مقادیر فاکتورها (متغیرهای مستقل) است. تعداد محدوده های ورودی (ستون ها) نباید از 16 تجاوز کند.

.چک باکس برچسب ها، در صورتی تنظیم می شود که خط اول محدوده حاوی عنوان باشد.

5. صفر ثابتاگر خط رگرسیون باید از مبدا (و) عبور کند، این چک باکس باید تنظیم شود 0=0).

6. فاصله خروجی / کاربرگ جدید / کتاب کار جدید -آدرس سلول بالای سمت چپ محدوده خروجی را مشخص کنید.

.چک باکس ها در یک گروه باقیاگر می‌خواهید ستون‌ها یا نمودارهای مربوطه را در محدوده خروجی قرار دهید، تنظیم می‌شوند.

.اگر می‌خواهید نمودار پراکندگی مقادیر Y مشاهده‌شده در مقابل فواصل صدک‌های تولید شده به‌طور خودکار روی برگه نمایش داده شود، باید چک باکس Normal Probability Plot فعال شود.

پس از زدن دکمه OK در محدوده خروجی، گزارشی دریافت می کنیم.

با استفاده از مجموعه ای از ابزارهای تجزیه و تحلیل داده ها، تحلیل رگرسیونی داده های اصلی را انجام خواهیم داد.

ابزار تحلیل رگرسیون برای برازش پارامترهای معادله رگرسیون با استفاده از روش حداقل مربعات استفاده می شود. رگرسیون برای تجزیه و تحلیل اثر بر روی یک متغیر وابسته واحد از مقادیر یک یا چند متغیر مستقل استفاده می شود.

آمار رگرسیون جدولی

ارزش R جمعریشه ضریب تعیین (R-square) است. به آن شاخص همبستگی یا ضریب همبستگی چندگانه نیز می گویند. میزان وابستگی متغیرهای مستقل (X1, X2) و متغیر وابسته (Y) را بیان می کند و برابر است با ریشه دوماز ضریب تعیین، این مقدار مقادیری در محدوده صفر تا یک می گیرد. در مورد ما برابر با 0.7 است که نشان دهنده وجود رابطه معنادار بین متغیرها است.

ارزش R-squared (ضریب تعیین)که معیار قطعیت نیز نامیده می شود، کیفیت خط رگرسیون حاصل را مشخص می کند. این کیفیت با درجه مطابقت بین داده های اصلی و مدل رگرسیون (داده های محاسبه شده) بیان می شود. معیار اطمینان همیشه در بازه زمانی است.

در مورد ما، مقدار R-squared 0.48 است، یعنی. تقریباً 50٪ که نشان دهنده تناسب ضعیف خط رگرسیون با داده های اصلی است. مقدار پیدا شده R-square = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

مربع R نرمال شدههمان ضریب تعیین است، اما برای اندازه نمونه تنظیم شده است.

هنجار R-square=1-(1-R-square)*((n-1)/(n-k))،

معادله خطی تحلیل رگرسیون

که در آن n تعداد مشاهدات است. k - تعداد پارامترها. ترجیحاً در صورت افزودن رگرسیورها (عوامل) جدید از R-square نرمال شده استفاده شود، زیرا افزایش آنها مقدار R-squared را نیز افزایش می دهد، اما این نشان دهنده بهبود مدل نیست. از آنجایی که در مورد ما مقدار به دست آمده 0.43 است (که با R-square تنها 0.05 تفاوت دارد)، می توانیم در مورد اطمینان بالا در ضریب R-square صحبت کنیم.

خطای استانداردکیفیت تقریب (تقریبی) نتایج مشاهدات را نشان می دهد. در مورد ما، خطا 5.1 است. به صورت درصد محاسبه کنید: 5.1/(57.4-40.1)=0.294 ≈ 29% (مدل زمانی بهتر در نظر گرفته می شود که خطای استاندارد باشد.<30%)

مشاهدات- تعداد مقادیر مشاهده شده را نشان می دهد (23).

تجزیه و تحلیل جدولی ANOVA

برای به دست آوردن معادله رگرسیون، - آمار تعیین می شود - مشخصه ای از دقت معادله رگرسیون، که نسبت آن قسمت از واریانس متغیر وابسته است که توسط معادله رگرسیون توضیح داده می شود به قسمت غیر قابل توضیح (باقیمانده) واریانس

در ستون df- تعداد درجات آزادی k داده شده است.

برای بقیه، این مقدار برابر با n-(m + 1)، یعنی. تعداد نقاط اولیه (23) منهای تعداد ضرایب (2) و منهای جمله آزاد (1).

در ستون SS- مجموع انحرافات مجذور از مقدار میانگین ویژگی حاصل. ارائه می دهد:

مجموع رگرسیون مجذور انحرافات از مقدار میانگین ویژگی حاصل از مقادیر نظری محاسبه شده توسط معادله رگرسیون.

مجموع باقیمانده انحراف مقادیر اولیه از مقادیر نظری.

مجموع مجذور انحرافات مقادیر اصلی از ویژگی حاصل.

هر چه مجموع رگرسیون مجذور انحرافات بزرگتر باشد (یا مجموع باقیمانده کوچکتر)، معادله رگرسیون بهتر به ابر نقطه مبدا نزدیک می شود. در مورد ما، مقدار باقیمانده حدود 50٪ است. بنابراین، معادله رگرسیون ابر نقطه منبع را بسیار ضعیف تقریب می‌کند.

در ستون MS- واریانس نمونه بی طرفانه، رگرسیون و باقیمانده.

در ستون Fبرای آزمون معناداری معادله رگرسیون، ارزش آمار ملاک محاسبه شد.

برای انجام آزمون آماری معناداری معادله رگرسیون، فرضیه صفر مبنی بر عدم وجود رابطه بین متغیرها (همه ضرایب برای متغیرها برابر با صفر هستند) فرموله شده و سطح معناداری انتخاب می شود.

سطح معنی داری احتمال قابل قبول ایجاد خطای نوع I - رد فرضیه صفر صحیح در نتیجه آزمایش است. در این مورد، ایجاد یک خطای نوع I به معنای تشخیص وجود رابطه بین متغیرها در جامعه عمومی از نمونه است، در حالی که در واقع وجود ندارد. سطح معنی داری معمولاً 5 درصد در نظر گرفته می شود. با مقایسه مقدار بدست آمده 9.4 با مقدار جدولی = 3.5 (تعداد درجه آزادی به ترتیب 2 و 20 است) می توان گفت که معادله رگرسیون معنی دار است (F>Fcr).

در ستون، اهمیت Fاحتمال مقدار به دست آمده از آمار معیار محاسبه می شود. از آنجایی که در مورد ما این مقدار = 0.00123 است که کمتر از 0.05 است، می توان گفت که معادله رگرسیون (وابستگی) با احتمال 95٪ معنی دار است.

دو ستون توضیح داده شده در بالا قابلیت اطمینان مدل را به عنوان یک کل نشان می دهد.

جدول زیر شامل ضرایب رگرسیون ها و برآورد آنها می باشد.

سطر تقاطع Y با هیچ رگرسیونی مرتبط نیست، یک ضریب آزاد است.

در ستون شانسمقادیر ضرایب معادله رگرسیون ثبت می شود. بنابراین، معادله معلوم شد:

Y=25.6+0.009X1+0.346X2

معادله رگرسیون باید از مرکز ابر نقطه اولیه عبور کند: 13.02≤M(b)≤38.26

سپس مقادیر ستون ها را به صورت جفت با هم مقایسه می کنیم ضرایب و خطای استانداردمشاهده می شود که در مورد ما، تمام مقادیر مطلق ضرایب از مقادیر خطاهای استاندارد بیشتر است. این ممکن است نشان دهنده اهمیت رگرسیون ها باشد، با این حال، این یک تحلیل تقریبی است. ستون آمار t شامل ارزیابی دقیق تری از اهمیت ضرایب است.

در ستون آمار tحاوی مقادیر آزمون t است که با فرمول محاسبه می شود:

t=(ضریب)/(خطای استاندارد)

n-(k+1)=23-(2+1)=20

با توجه به جدول Student، مقدار ttable = 2.086 را پیدا می کنیم. مقایسه کردن

t با جدول دریافت می کنیم که ضریب رگرسیون X2 ناچیز است.

ستون مقدار pنشان دهنده این احتمال است که مقدار بحرانی آمار آزمون مورد استفاده (آمار دانشجویی) از مقدار محاسبه شده از نمونه تجاوز کند. در این مورد مقایسه می کنیم مقادیر pبا سطح معناداری انتخابی (05/0). مشاهده می شود که تنها ضریب رگرسیون X2=0.08>0.05 را می توان ناچیز در نظر گرفت.

ستون‌های 95 درصد پایین و 95 درصد بالا مرزهای فواصل اطمینان را با اطمینان 95 درصد نشان می‌دهند. هر ضریب محدودیت های خاص خود را دارد: ضریبجدول*خطای استاندارد

فواصل اطمینان فقط برای مقادیر معنی دار آماری ساخته می شوند.

جدول باقی مانده برداشت

باقی مانده انحراف یک نقطه (مشاهده) از خط رگرسیون (مقدار پیش بینی شده) است.

فرض نرمال بودن باقی ماندهفرض می کند که توزیع تفاوت بین مقادیر پیش بینی شده و مشاهده شده نرمال است. برای تعریف بصریماهیت توزیع، تابع را روشن می کنیم نمودار باقیمانده.

نمودارهای باقیمانده تفاوت بین مقادیر Y اصلی و مقادیر محاسبه شده از تابع رگرسیون را برای هر مقدار جزء متغیرهای X1 و X2 نشان می دهد. برای تعیین اینکه آیا خط مستقیم مورد استفاده قابل قبول است یا خیر استفاده می شود.

نمودار برازش را می توان برای تجسم خط رگرسیون استفاده کرد.

باقیمانده استاندارد - باقیمانده های نرمال شده برای تخمین انحراف معیار آنها.