رگرسیون در اکسل: معادله، مثال. رگرسیون خطی

تحلیل رگرسیون یک روش تحقیق آماری است که به شما امکان می دهد وابستگی یک پارامتر را به یک یا چند متغیر مستقل نشان دهید. در دوران پیش از کامپیوتر، استفاده از آن بسیار دشوار بود، به خصوص زمانی که صحبت از حجم زیاد داده می شد. امروز، با یادگیری نحوه ساخت رگرسیون در اکسل، می توانید پیچیده را حل کنید وظایف آماریبه معنای واقعی کلمه در چند دقیقه در زیر نمونه های مشخصی از حوزه اقتصاد آورده شده است.

انواع رگرسیون

خود این مفهوم در سال 1886 وارد ریاضیات شد. رگرسیون اتفاق می افتد:

  • خطی؛
  • سهموی
  • قدرت؛
  • نمایی;
  • هذلولی
  • نمایشی؛
  • لگاریتمی

مثال 1

مشکل تعیین وابستگی تعداد اعضای تیم بازنشسته را در نظر بگیرید میانگین درامددر 6 شرکت صنعتی

یک وظیفه. شش شرکت میانگین ماهانه را تجزیه و تحلیل کردند دستمزدو تعداد کارمندانی که ترک می کنند اراده خود. به شکل جدول داریم:

تعداد افرادی که رفتند

حقوق

30000 روبل

35000 روبل

40000 روبل

45000 روبل

50000 روبل

55000 روبل

60000 روبل

برای مسئله تعیین وابستگی تعداد کارگران بازنشسته به میانگین حقوق در 6 شرکت، مدل رگرسیون به شکل معادله Y = a 0 + a 1 x 1 +…+a k x k است که x i متغیرهای تأثیرگذار هستند. ، a i ضرایب رگرسیون، a k تعداد عوامل است.

برای این کار، Y نشانگر کارمندانی است که ترک کرده اند و عامل تأثیرگذار حقوق است که آن را با X نشان می دهیم.

استفاده از قابلیت های صفحه گسترده "اکسل"

تجزیه و تحلیل رگرسیون در اکسل باید قبل از اعمال توابع داخلی برای داده های جدولی موجود باشد. با این حال، برای این اهداف، بهتر است از افزونه بسیار مفید "Analysis Toolkit" استفاده کنید. برای فعال کردن آن نیاز دارید:

  • از برگه "فایل" به بخش "گزینه ها" بروید.
  • در پنجره ای که باز می شود، خط "افزونه ها" را انتخاب کنید.
  • روی دکمه "Go" واقع در پایین، سمت راست خط "Management" کلیک کنید.
  • کادر کنار نام «بسته تجزیه و تحلیل» را علامت بزنید و با کلیک روی «OK» اقدامات خود را تأیید کنید.

اگر همه چیز به درستی انجام شود، دکمه مورد نظر در سمت راست تب Data که در بالای کاربرگ اکسل قرار دارد ظاهر می شود.

در اکسل

اکنون که تمام ابزارهای مجازی لازم برای انجام محاسبات اقتصادسنجی را در اختیار داریم، می توانیم شروع به حل مشکل خود کنیم. برای این:

  • روی دکمه "تجزیه و تحلیل داده ها" کلیک کنید؛
  • در پنجره ای که باز می شود، روی دکمه "Regression" کلیک کنید.
  • در برگه ای که ظاهر می شود، محدوده مقادیر Y (تعداد کارمندانی که ترک می کنند) و X (حقوق آنها) را وارد کنید.
  • ما اقدامات خود را با فشار دادن دکمه "Ok" تأیید می کنیم.

در نتیجه، برنامه به طور خودکار یک صفحه جدید از صفحه گسترده را با داده های تحلیل رگرسیون پر می کند. توجه داشته باشید! اکسل این قابلیت را دارد که به صورت دستی مکان مورد نظر شما را برای این منظور تنظیم کند. به عنوان مثال، می تواند همان برگه ای باشد که مقادیر Y و X در آن هستند یا حتی یک کتاب جدید، به ویژه برای ذخیره چنین داده هایی طراحی شده است.

تجزیه و تحلیل نتایج رگرسیون برای R-square

در اکسل، داده های به دست آمده در هنگام پردازش داده های مثال در نظر گرفته شده به صورت زیر است:

اول از همه باید به مقدار R-square توجه کنید. ضریب تعیین است. در این مثال، R-square = 0.755 (75.5%)، یعنی پارامترهای محاسبه شده مدل، رابطه بین پارامترهای در نظر گرفته شده را 75.5٪ توضیح می دهد. هر چه مقدار ضریب تعیین بالاتر باشد، مدل انتخاب شده برای یک کار خاص کاربرد بیشتری دارد. اعتقاد بر این است که به درستی وضعیت واقعی را با مقدار مربع R بالای 0.8 توصیف می کند. اگر R مربع باشد<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

تجزیه و تحلیل نسبت

عدد 64.1428 نشان می‌دهد که اگر تمام متغیرهای xi در مدلی که در نظر می‌گیریم صفر شوند، مقدار Y چقدر خواهد بود. به عبارت دیگر، می توان استدلال کرد که مقدار پارامتر تحلیل شده نیز تحت تأثیر عوامل دیگری است که در یک مدل خاص توضیح داده نشده اند.

ضریب بعدی -0.16285 که در سلول B18 قرار دارد، وزن تأثیر متغیر X را بر Y نشان می دهد. این بدان معنی است که میانگین حقوق ماهانه کارکنان در مدل مورد بررسی بر تعداد افراد ترک کار با وزن 0.16285- تأثیر می گذارد. درجه نفوذ آن در همه کوچک است. علامت "-" نشان می دهد که ضریب دارای مقدار منفی است. این بدیهی است ، زیرا همه می دانند که هر چه حقوق در شرکت بالاتر باشد ، افراد کمتری تمایل به فسخ قرارداد کار یا ترک کار دارند.

رگرسیون چندگانه

این اصطلاح به یک معادله اتصال با چندین متغیر مستقل از شکل اشاره دارد:

y \u003d f (x 1 + x 2 + ... x m) + ε، که در آن y ویژگی مؤثر (متغیر وابسته) است، و x 1، x 2، ... x m عوامل عامل (متغیرهای مستقل) هستند.

تخمین پارامتر

برای رگرسیون چندگانه (MR)، با استفاده از روش انجام می شود کمترین مربعات(MNK). برای معادلات خطی به شکل Y = a + b 1 x 1 +…+b m x m + ε ما سیستم را می سازیم معادلات عادی(پایین را ببینید)

برای درک اصل روش، حالت دو عاملی را در نظر بگیرید. سپس وضعیتی داریم که با فرمول توصیف شده است

از اینجا دریافت می کنیم:

که در آن σ واریانس ویژگی مربوطه منعکس شده در شاخص است.

LSM برای معادله MP در مقیاس قابل استانداردسازی قابل اعمال است. در این حالت معادله را بدست می آوریم:

که در آن t y، t x 1، ... t xm متغیرهای استاندارد شده ای هستند که مقادیر میانگین آنها 0 است. β i ضرایب رگرسیون استاندارد شده است و انحراف استاندارد 1 است.

لطفاً توجه داشته باشید که همه β i در این مورد به صورت عادی و متمرکز تنظیم می شوند، بنابراین مقایسه آنها با یکدیگر صحیح و قابل قبول است. علاوه بر این، مرسوم است که فاکتورها را فیلتر کرده و آنهایی را که دارای کمترین مقادیر βi هستند کنار بگذارند.

مسئله با استفاده از معادله رگرسیون خطی

فرض کنید جدولی از پویایی قیمت یک محصول خاص N در 8 ماه گذشته وجود دارد. لازم است در مورد توصیه خرید دسته آن با قیمت 1850 روبل در تن تصمیم گیری شود.

شماره ماه

نام ماه

قیمت کالای N

1750 روبل در هر تن

1755 روبل در هر تن

1767 روبل در هر تن

1760 روبل در هر تن

1770 روبل در هر تن

1790 روبل در هر تن

1810 روبل در هر تن

1840 روبل در هر تن

برای حل این مشکل در صفحه گسترده اکسل، باید از ابزار تجزیه و تحلیل داده ها که قبلاً در مثال بالا شناخته شده است استفاده کنید. بعد، بخش "Regression" را انتخاب کنید و پارامترها را تنظیم کنید. لازم به یادآوری است که در قسمت "فاصله ورودی Y" باید محدوده ای از مقادیر برای متغیر وابسته (در این مورد قیمت یک محصول در ماه های خاص از سال) و در "ورودی" وارد شود. فاصله X" - برای متغیر مستقل (تعداد ماه). با کلیک بر روی "Ok" اقدام را تأیید کنید. در یک برگه جدید (اگر چنین نشان داده شده بود)، ما داده هایی را برای رگرسیون دریافت می کنیم.

بر اساس آنها یک معادله خطی به شکل y=ax+b می سازیم که در آن پارامترهای a و b ضرایب خط با نام شماره ماه و ضرایب و خط "تقاطع Y" از برگه با نتایج تجزیه و تحلیل رگرسیون. بنابراین، معادله رگرسیون خطی (LE) برای مسئله 3 به صورت زیر نوشته می شود:

قیمت محصول N = 11.714* شماره ماه + 1727.54.

یا در نماد جبری

y = 11.714 x + 1727.54

تجزیه و تحلیل نتایج

برای تصمیم گیری در مورد مناسب بودن معادله رگرسیون خطی حاصل، از ضرایب همبستگی چندگانه (MCC) و ضرایب تعیین و همچنین آزمون فیشر و آزمون دانشجو استفاده می شود. در جدول اکسل با نتایج رگرسیون، به ترتیب با نام های R متعدد، R-square، F-statistic و t-statistic ظاهر می شوند.

KMC R امکان ارزیابی تنگی رابطه احتمالی بین متغیرهای مستقل و وابسته را فراهم می کند. ارزش بالای آن نشان دهنده رابطه نسبتاً قوی بین متغیرهای "تعداد ماه" و "قیمت کالا N بر حسب روبل در هر 1 تن" است. با این حال، ماهیت این رابطه ناشناخته باقی مانده است.

مجذور ضریب تعیین R 2 (RI) یک مشخصه عددی از سهم پراکندگی کل است و پراکندگی کدام بخشی از داده های تجربی را نشان می دهد. مقادیر متغیر وابسته با معادله رگرسیون خطی مطابقت دارد. در مسئله مورد بررسی، این مقدار برابر 84.8 درصد است، یعنی داده های آماری با دقت بالایی توسط SD به دست آمده توصیف می شوند.

آماره F که آزمون فیشر نیز نامیده می شود، برای ارزیابی اهمیت یک رابطه خطی، رد یا تایید فرضیه وجود آن استفاده می شود.

(معیار دانش آموز) به ارزیابی اهمیت ضریب با یک جمله مجهول یا آزاد یک رابطه خطی کمک می کند. اگر مقدار معیار t > t cr باشد، فرضیه بی اهمیت بودن عبارت آزاد است. معادله خطیرد شد.

در مسئله مورد بررسی برای عضو آزاد با استفاده از ابزار اکسل به دست آمد که t = 169.20903 و p = 2.89E-12، یعنی احتمال صفر داریم که فرضیه صحیح در مورد بی اهمیت بودن عضو آزاد باشد. رد شود. برای ضریب مجهول t=5.79405 و p=0.001158. به عبارت دیگر، احتمال رد فرضیه صحیح در مورد بی اهمیت بودن ضریب برای مجهول 0.12 درصد است.

بنابراین، می توان استدلال کرد که معادله رگرسیون خطی به دست آمده کافی است.

مشکل مصلحت خرید بلوک سهام

رگرسیون چندگانه در اکسل با استفاده از همان ابزار تحلیل داده انجام می شود. یک مشکل کاربردی خاص را در نظر بگیرید.

مدیریت NNN باید در مورد امکان خرید 20 درصد از سهام MMM SA تصمیم گیری کند. هزینه بسته (JV) 70 میلیون دلار آمریکا می باشد. متخصصان NNN داده های مربوط به تراکنش های مشابه را جمع آوری کردند. تصمیم بر این شد که ارزش بلوک سهام با توجه به پارامترهایی که به میلیون ها دلار آمریکا بیان می شود، ارزیابی شود:

  • حساب های پرداختنی (VK)؛
  • گردش مالی سالانه (VO)؛
  • حساب های دریافتنی (VD)؛
  • هزینه دارایی های ثابت (SOF).

علاوه بر این، پارامتر حقوق و دستمزد معوقه شرکت (V3 P) به هزار دلار آمریکا استفاده می شود.

راه حل با استفاده از صفحه گسترده اکسل

اول از همه، شما باید یک جدول از داده های اولیه ایجاد کنید. به نظر می رسد این است:

  • با پنجره "تجزیه و تحلیل داده ها" تماس بگیرید.
  • بخش "Regression" را انتخاب کنید؛
  • در کادر "فاصله ورودی Y" محدوده مقادیر متغیرهای وابسته را از ستون G وارد کنید.
  • روی نماد با یک فلش قرمز در سمت راست کادر "Input interval X" کلیک کنید و محدوده ای از تمام مقادیر را در برگه انتخاب کنید. ستون B,C، دی، اف.

«کاربرگ جدید» را انتخاب کرده و روی «تأیید» کلیک کنید.

تحلیل رگرسیون را برای مسئله داده شده دریافت کنید.

بررسی نتایج و نتیجه گیری

"ما" از داده های گرد ارائه شده در بالا در صفحه گسترده اکسل، معادله رگرسیون جمع آوری می کنیم:

SP \u003d 0.103 * SOF + 0.541 * VO - 0.031 * VK + 0.405 * VD + 0.691 * VZP - 265.844.

در یک شکل ریاضی آشناتر، می توان آن را به صورت زیر نوشت:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

داده های JSC "MMM" در جدول ارائه شده است:

با جایگزینی آنها در معادله رگرسیون، رقمی معادل 64.72 میلیون دلار آمریکا بدست می آید. این به این معنی است که سهام JSC MMM نباید خریداری شود، زیرا ارزش 70 میلیون دلاری آنها بسیار زیاد است.

همانطور که می بینید، استفاده از صفحه گسترده اکسل و معادله رگرسیون امکان تصمیم گیری آگاهانه در مورد امکان سنجی یک تراکنش بسیار خاص را فراهم می کند.

اکنون می دانید که رگرسیون چیست. مثال‌هایی در اکسل که در بالا مورد بحث قرار گرفت به شما کمک می‌کند تصمیم بگیرید. وظایف عملیاز رشته اقتصاد سنجی

واگذاری خدمات. با استفاده از این ماشین حساب آنلاین، می توانید پارامترهای یک معادله رگرسیون غیر خطی (نمایی، نمایی، هذلول متساوی الاضلاع، لگاریتمی، نمایی) را بیابید (به مثال مراجعه کنید).

دستورالعمل. مقدار داده های منبع را مشخص کنید. راه حل به دست آمده در یک فایل Word ذخیره می شود. یک الگوی راه حل نیز به طور خودکار در اکسل تولید می شود.

تعداد خطوط (اطلاعات اولیه)
مقادیر نهایی مقادیر داده شده است (∑x، ∑x 2، ∑xy، ∑y، ∑y 2)
",0);">
توجه داشته باشید: اگر نیاز به تعیین پارامترهای وابستگی سهمی دارید (y = ax 2 + bx + c)، می توانید از سرویس تراز تحلیلی استفاده کنید.
می توان مجموعه همگنی از واحدها را با حذف اشیاء مشاهده غیرعادی از طریق روش ایروین یا با قانون سه سیگما محدود کرد (حذف واحدهایی که مقدار عامل توضیحی برای آنها بیش از سه برابر استاندارد از میانگین انحراف دارد. انحراف).

انواع رگرسیون غیر خطی

در اینجا ε یک خطای تصادفی است (انحراف، اغتشاش)، که منعکس کننده تأثیر همه عوامل نامشخص است.

معادله رگرسیون مرتبه اولیک معادله رگرسیون خطی زوجی است.

معادله رگرسیون مرتبه دوماین یک معادله رگرسیون چند جمله ای مرتبه دوم است: y = a + bx + cx 2 .

معادله رگرسیون مرتبه سومبه ترتیب معادله رگرسیون چند جمله ای مرتبه سوم: y = a + bx + cx 2 + dx 3 .

برای رساندن وابستگی‌های غیرخطی به یک وابستگی خطی، از روش‌های خطی‌سازی استفاده می‌شود (روش تراز را ببینید):

  1. تغییر متغیرها
  2. لگاریتم هر دو طرف معادله.
  3. ترکیب شده.
y = f(x)دگرگونیروش خطی سازی
y = b x aY = log(y); X = log (x)لگاریتم
y = b e تبرY = log(y); X=xترکیب شده
y = 1/(ax+b)Y = 1/y; X=xتغییر متغیرها
y = x/(ax+b)Y=x/y; X=xتغییر متغیرها مثال
y = aln(x)+bY=y; X = log (x)ترکیب شده
y = a + bx + cx2x 1 = x; x2 = x2تغییر متغیرها
y = a + bx + cx2 + dx3x 1 = x; x 2 \u003d x 2; x 3 = x 3تغییر متغیرها
y = a + b/xx 1 = 1 / xتغییر متغیرها
y = a + sqrt(x)bx 1 = sqrt(x)تغییر متغیرها
مثال. با توجه به داده های بدست آمده از جدول مربوطه، موارد زیر را انجام دهید:
  1. یک میدان همبستگی بسازید و یک فرضیه در مورد شکل رابطه فرموله کنید.
  2. پارامترهای معادلات رگرسیون جفت خطی، توانی، نمایی، نیمه لگاریتمی، معکوس، هذلولی را محاسبه کنید.
  3. تنگی رابطه را با استفاده از شاخص های همبستگی و تعیین ارزیابی کنید.
  4. از ضریب کشش متوسط ​​(عمومی) برای ارائه یک ارزیابی مقایسه ای از قدرت رابطه بین عامل و نتیجه استفاده کنید.
  5. رتبه بندی با خطای متوسطکیفیت تقریبی معادلات
  6. پایایی آماری نتایج مدل‌سازی رگرسیون را با استفاده از آزمون F فیشر ارزیابی کنید. با توجه به مقادیر مشخصه های محاسبه شده در پاراگراف ها. 4، 5 و این پاراگراف، بهترین معادله رگرسیون را انتخاب کرده و توجیه آن را بیان کنید.
  7. مقدار پیش‌بینی‌شده نتیجه را در صورتی محاسبه کنید که مقدار پیش‌بینی‌شده ضریب ۱۵ درصد از سطح متوسط ​​آن افزایش یابد. تعریف کردن فاصله اطمینانپیش‌بینی سطح معنی‌داری 0.05=α.
  8. نتایج به دست آمده را ارزیابی کنید، در یک یادداشت تحلیلی نتیجه گیری کنید.
سالمصرف نهایی واقعی خانوارها (به قیمت فعلی)، میلیارد روبل (1995 - تریلیون روبل)، yمتوسط ​​درآمد نقدی سرانه جمعیت (در ماه)، روبل. (1995 - هزار روبل)، x
1995 872 515,9
2000 3813 2281,1
2001 5014 3062
2002 6400 3947,2
2003 7708 5170,4
2004 9848 6410,3
2005 12455 8111,9
2006 15284 10196
2007 18928 12602,7
2008 23695 14940,6
2009 25151 16856,9

راه حل. در ماشین حساب، را انتخاب کنید انواع رگرسیون غیر خطی. جدول زیر را بدست می آوریم.
معادله رگرسیون نمایی y = a e bx است
پس از خطی سازی، به دست می آید: ln(y) = ln(a) + bx
ما ضرایب رگرسیون تجربی را دریافت می کنیم: b = 0.000162، a = 7.8132
معادله رگرسیون: y = e 7.81321500 e 0.000162x = 2473.06858e 0.000162x

معادله رگرسیون توان به شکل y = a x b است
پس از خطی سازی، به دست می آوریم: ln(y) = ln(a) + b ln(x)
ضرایب رگرسیون تجربی: b = 0.9626، a = 0.7714
معادله رگرسیون: y = e 0.77143204 x 0.9626 = 2.16286 x 0.9626

معادله رگرسیون هذلولی y = b/x + a + ε است
پس از خطی سازی، به دست می آید: y=bx + a
ضرایب رگرسیون تجربی: b = 21089190.1984، a = 4585.5706
معادله رگرسیون تجربی: y = 21089190.1984 / x + 4585.5706

معادله رگرسیون لگاریتمی به شکل y = b ln(x) + a + ε است.
ضرایب رگرسیون تجربی: b = 7142.4505، a = -49694.9535
معادله رگرسیون: y = 7142.4505 ln(x) - 49694.9535

معادله رگرسیون نمایی به شکل y = a b x + ε است
پس از خطی سازی، به دست می آوریم: ln(y) = ln(a) + x ln(b)
ضرایب رگرسیون تجربی: b = 0.000162، a = 7.8132
y = e 7.8132 *e 0.000162x = 2473.06858*1.00016x

ایکسy1/xورود به سیستم (x)ورود (y)
515.9 872 0.00194 6.25 6.77
2281.1 3813 0.000438 7.73 8.25
3062 5014 0.000327 8.03 8.52
3947.2 6400 0.000253 8.28 8.76
5170.4 7708 0.000193 8.55 8.95
6410.3 9848 0.000156 8.77 9.2
8111.9 12455 0.000123 9 9.43
10196 15284 9.8E-59.23 9.63
12602.7 18928 7.9E-59.44 9.85
14940.6 23695 6.7E-59.61 10.07
16856.9 25151 5.9E-59.73 10.13

معادله رگرسیون

معادله رگرسیون یک فرمول ریاضی است که تعیین می‌کند مقدار متوسط ​​y برای مقدار خاصی از x چقدر خواهد بود، اگر همه عوامل دیگر مؤثر بر y در نظر گرفته نشوند، به عنوان مثال. انتزاعی از آنها

یافتن در هر مورد خاص، نوع تابعی که می تواند رابطه بین x و y را با دقت بیشتری منعکس کند، اولین وظیفه تحلیل رگرسیون است. انواع معادلات:

1) وابستگی خطی؛

2) سهمی ;

3) هذلولی.

4) تابع نمایی ;

5) تابع توانو غیره.

مبنای اصلی انتخاب نوع تابع باید تحلیل معنادار ماهیت پدیده مورد مطالعه باشد. نشان دادن وابستگی به صورت گرافیکی مفید است.

روش حداقل مربعات

در مرحله بعد، باید پارامترهای معادله رگرسیون را تعریف کنید یک 0و یک 1، (برای سهمی نیز یک 2). برای این منظور از روش حداقل مربعات استفاده می شود. این مبتنی بر ایده به حداقل رساندن مجموع انحرافات مجذور مقادیر واقعی y از مقادیر برابر شده (نظری) آنها است، یعنی.

جایی که من- مقادیر واقعی ویژگی موثر؛

y من (x i)مقادیر y هستند که توسط معادله رگرسیون یافت می شوند.

اگر رگرسیون خطی باشد، پس

در نظر گرفتن مجموع به عنوان تابعی از پارامترها یک 0و یک 1، مشتقات جزئی را با توجه به تعیین کنید یک 0و یک 1و آنها را با صفر برابر کنید، زیرا در نقطه منتهی مشتق تابع برابر با صفر است:

سیستم معادلات برای انواع متفاوتوابستگی بین ویژگی ها

اگر رابطه بین ویژگی ها خطی باشد، سیستم معادلات برای یافتن پارامترهای معادله رگرسیون به شکل زیر خواهد بود:

پس از حل سیستم برای یک 1و یک 1معادله رگرسیون را بسازید.

اگر رابطه بین علائمی که دارند با معادله سهمی توصیف شود ، سپس سیستم معادلات نرمال به شکل زیر در می آید:


حس اقتصادیپارامترهای معادله رگرسیون خطی

در معادله رگرسیون خطی، پارامتر یک 0میانگین را تعیین می کند yکه تحت تأثیر همه عوامل به جز ایکس.



پارامتر یک 1ضریب رگرسیون نامیده می شود و تعیین می کند که میانگین چقدر تغییر خواهد کرد درهنگامی که علامت عامل با یک تغییر می کند. چگونه ارزش بیشتر یک 1، تأثیر این ویژگی عامل بر ویژگی مؤثر مدل‌سازی شده معنادارتر است. علامت ضریب رگرسیون ماهیت تأثیر عامل بر ویژگی حاصل را نشان می دهد.

ضریب کشش نشان می دهد که وقتی صفت عامل به میزان 1 درصد تغییر کند، ویژگی مؤثر چند درصد تغییر می کند. فرمول کلی برای محاسبه ضریب کشش به شرح زیر است:

,

جایی که y"(x)- مشتق اول معادله رگرسیون y(x)بر ایکس.

در ارزش های مختلفعلامت عامل ایکسضریب الاستیسیته مقادیر مختلفی می گیرد.

برای یک معادله رگرسیون خطی، ضریب کشش به شکل زیر خواهد بود:

برای یک پیوند سهموی، ضریب کشش برابر است با:

.

برای یک پیوند هذلولی، ضریب کشش برابر است با:

3. تجزیه و تحلیل همبستگی. شاخص های تنگاتنگ رابطه بین ویژگی ها

در مورد رابطه خطی بین علائم، برای ارزیابی نزدیکی رابطه، اعمال شود ضریب همبستگی خطی:

ضریب همبستگی خطی از 1- تا 1+ متغیر است. اگر یک |r|<0,3, то связь слабая. Если 0,3 <|r| < 0,7, то связь средняя. Если 0,7 < |r| < 0.9، سپس رابطه بالاتر از حد متوسط ​​یا نزدیک است. اگر |r| > 0.9، پس رابطه قوی یا بسیار نزدیک است. اگر، پس این زمینه را برای صحبت در مورد عدم وجود رابطه خطی بین ایکسو y

تجزیه و تحلیل رگرسیون چند متغیره امکان تمایز بین تأثیر ویژگی های عامل را فراهم می کند. پارامتر رگرسیون برای هر ویژگی عامل ارزیابی تأثیر آن بر ارزش ویژگی مؤثر را ارائه می دهد
در صورت تغییر در واحد، با ثابت نگه داشتن سایر عوامل.

پیش بینی بر اساس مدل به دست آمدهمشابه پیش‌بینی‌های رگرسیون خطی زوجی انجام شد.

پیش بینی نقطه ایبا جایگزینی مقادیر پیش بینی ویژگی های عامل به دست می آید به معادله رگرسیون ارزش دریافت شده یک پیش بینی نقطه ای از ویژگی موثر است
.

پیش بینی فاصله زمانیحد پایین و بالای بازه ای را نشان می دهد که مقدار واقعی شاخص پیش بینی شده در آن قرار دارد
. فاصله اطمینان توسط

آن ها مقدار واقعی شاخص پیش بینی شده
با احتمال 1 -به فاصله اطمینان تعلق دارد.

مثال 3.9.مطابق جدول 3.17، معادله رگرسیون را یادداشت کرده و مدل حاصل را تحلیل کنید.

راه حل.از آنجایی که ابزار رگرسیون فقط می تواند تحلیل رگرسیون خطی را انجام دهد، در نهایت به معادله رگرسیون خطی چند متغیره زیر می رسیم.

جدول 3.17. نتایج ابزار پسرفت

بیایید مدل رگرسیون حاصل را تحلیل کنیم:


بنابراین، مدل رگرسیون برای تصمیم‌گیری مناسب است، اما برای پیش‌بینی مناسب نیست.

بیایید وجود یک همبستگی زوجی بین ویژگی‌های عاملی موجود در مدل رگرسیون را با توجه به ماتریس همبستگی تحلیل کنیم (شکل 3.8):



شکل 3.8. ماتریس همبستگی

علامت گذاری برای ماتریس همبستگی: - بهره وری نیروی کار (میانگین تولید سالانه به ازای هر کارمند)، هزار گریونا.
- پیچیدگی یک واحد تولیدی؛
- نسبت کارگران در ترکیب پرسنل صنعتی و تولیدی؛
- ضریب تغییر تجهیزات؛ - پاداش و پاداش به ازای هر کارمند، %؛
- هزینه های غیر تولید، ٪.

بنابراین، بر اساس نمونه چند متغیره مورد مطالعه، می توان نتیجه گرفت که از ویژگی های عامل در نظر گرفته شده، بهره وری نیروی کار تحت تأثیر شدت کار یک واحد خروجی و پاداش است. این ویژگی های عاملی باید در مدل رگرسیون غیرخطی چند متغیره گنجانده شوند.

از آنجایی که ضریب تعیین نسبتاً کوچک است، هنگام توسعه یک مدل رگرسیون، باید علائم فاکتورهای غیرقابل محاسبه اضافی در نظر گرفته شود.

جدول 3.18 نتایج ابزار "رگرسیون" را برای یک مدل رگرسیونی بدون ویژگی عامل نشان می دهد.
تجزیه و تحلیل این مدل رگرسیون را اجرا کنید.

و همبستگی

1.1. مفهوم رگرسیون

رگرسیون زوجی معادله رابطه دو متغیر y و x است

نوع y= f(ایکس),

که در آن y یک متغیر وابسته است (علامت حاصل)؛ х یک متغیر مستقل و توضیحی (عامل علامت) است.

رگرسیون خطی و غیر خطی وجود دارد.

رگرسیون خطیبا معادله توصیف می شود: y= آ+ ب× ایکس+e .

رگرسیون های غیرخطی به دو دسته تقسیم می شوند: رگرسیون هایی که با توجه به متغیرهای توضیحی موجود در تحلیل غیرخطی هستند، اما نسبت به پارامترهای برآورد شده خطی هستند و رگرسیون هایی که نسبت به پارامترهای برآورد شده غیرخطی هستند.

نمونه هایی از رگرسیون هایی که در متغیرهای توضیحی غیر خطی هستند , اما است-

خطی از نظر پارامترهای برآورد شده:

چند جمله ای با درجات مختلف

هایپربولی متساوی الاضلاع:

نمونه هایی از رگرسیون هایی که از نظر پارامترهای برآورد شده غیرخطی هستند:

قدرت

تظاهرات

نمایی

رایج ترین مدل های رگرسیون مورد استفاده عبارتند از:

- سر راست

- هذلولی ها

- سهمی ها

- تابع نمایی

- تابع توان

1.2. ساخت معادله رگرسیون

فرمول بندی مسئله.گزارش شده است nمفصل

تغییر دو پارامتر ایکسو y{(xi,یی), i=1,2,...,n) لازم است تعیین شود

وابستگی تحلیلی ŷ =f(x)که به بهترین وجه داده های مشاهده ای را توصیف می کند.

ساخت معادله رگرسیون در دو مرحله انجام می شود (شامل حل دو مسئله):

- مشخصات مدل (تعیین نوع وابستگی تحلیلی

ŷ =f(x));

- تخمین پارامترهای مدل انتخاب شده.

1.2.1. مشخصات مدل

در صورت وجود عامل غالب که به عنوان متغیر توضیحی استفاده می شود، رگرسیون زوجی اعمال می شود.

سه روش اصلی برای انتخاب نوع وابستگی تحلیلی وجود دارد:

- گرافیک (بر اساس تجزیه و تحلیل زمینه همبستگی)؛

- تحلیلی، یعنی بر اساس نظریه رابطه مورد مطالعه؛

- تجربی، یعنی با مقایسه مقدار پراکندگی باقیمانده Dخطای تقریبی باقیمانده یا متوسط برای مختلف محاسبه می شود

مدل های رگرسیون (روش شمارش).

1.2.2. تخمین پارامترهای مدل

برای تخمین پارامترهای رگرسیونی که در این پارامترها خطی هستند، از روش حداقل مربعات (LSM) استفاده شده است. . LSM امکان به دست آوردن چنین تخمین هایی از پارامترهایی را فراهم می کند که تحت آن مجموع انحرافات مجذور مقادیر واقعی ویژگی مؤثر y از مقادیر نظری ŷ می باشد. ایکسبا همان مقادیر فاکتور ایکسحداقلی، یعنی

در مورد رگرسیون خطی، پارامترهای a و باز موارد زیر هستند

سیستم های معادلات نرمال از روش LSM:

(1.1)

می‌توانید از فرمول‌های آماده‌ای استفاده کنید که در ادامه آمده است

(1.2)

برای معادلات رگرسیون غیر خطی با استفاده از تبدیل ( ایکس, y) → (ایکس', شما) سیستم معادلات عادی دارد

شکل (1.1) در متغیرهای تبدیل شده ایکس', شما.

ضریب ببا متغیر عامل ایکستفسیر زیر را دارد: نشان می دهد که مقدار به طور متوسط ​​چقدر تغییر خواهد کرد yوقتی عامل تغییر می کند ایکسدر هر 1 واحد اندازه گیری

رگرسیون هایپربولیک:

x' = 1/x; y = y.

معادلات (1.1) و فرمول (1.2) شکل می گیرند

رگرسیون نمایی:

تبدیل خطی سازی: x' = x; y = lny.

غرفه دار اصلاح شده: , (0 < آ 1 < 1).

تبدیل خطی سازی: x' = x; y' = lny- K│.

مقدار حد رشد کبر اساس تجزیه و تحلیل از پیش انتخاب شده است

زمینه های همبستگی یا به دلایل کیفی. پارامتر آ 0 از گرفته شده است

علامت "+" اگر yایکس > کو با علامت "-" در غیر این صورت.

تابع توان:

تبدیل خطی سازی: x' = ورود x; y = log y.

تابع نمایی:

تبدیل خطی سازی: x' = x; y = lny.

https://pandia.ru/text/78/146/images/image026_7.jpg" width="459" height="64 src=">

سهمی مرتبه دوم:

سهمی مرتبه دوم دارای 3 پارامتر است آ 0, آ 1, آ 2 که از سیستم سه معادله تعیین می شوند

1.3. تخمین تنگی اتصال

نزدیکی ارتباط بین پدیده های مورد مطالعه با ضریب خطی تخمین زده می شود

همبستگی جفتی rxy برای رگرسیون خطی (-1≤ rxy≤ 1)

و شاخص همبستگی ρ xy برای رگرسیون غیر خطی

یک نسبت وجود دارد

درصد واریانس با رگرسیون توضیح داده شد، که در واریانس کلاز ویژگی مؤثر y ضریب تعیین را مشخص می کند r2xy (برای رگرسیون خطی) یا شاخص تعیین (برای رگرسیون غیر خطی).

ضریب تعیینمجذور ضریب یا شاخص همبستگی است.

برای ارزیابی کیفیت مدل رگرسیون ساخته شده، می توانید استفاده کنید

شاخص (ضریب، شاخص) تعیین آر 2 یا میانگین خطای تقریب.

هرچه شاخص تعیین بالاتر یا میانگین خطای تقریب کمتر باشد، مدل داده های اولیه را بهتر توصیف می کند.

میانگین خطای تقریب - میانگین انحراف نسبی

مقادیر محاسبه شده از واقعی

معادله رگرسیون ساخته شده رضایت بخش در نظر گرفته می شود اگر

معنی از 10-12٪ تجاوز نمی کند.

1.4. ارزیابی اهمیت معادله رگرسیون، ضرایب آن،

ضریب تعیین

ارزیابی اهمیت کل معادله رگرسیون به عنوان یک کل با انجام می شود

کمک اف- معیار فیشر.

F- معیار فیشر آزمون فرضیه اما در مورد بی اهمیت بودن آماری معادله رگرسیون . برای این، مقایسه ای انجام می شود

واقعی افواقعیت و انتقادی (جدولی) افجدول ارزش F-شاخص

فیشر .

اف این واقعیت از نسبت مقادیر فاکتوریل و باقیمانده تعیین می شود

پراکندگی های محاسبه شده بر حسب درجه آزادی

جایی که nتعداد واحدهای جمعیتی است؛ مترتعداد پارامترهای متغیرها است.

برای رگرسیون خطی متر= 1 .

برای رگرسیون غیر خطی، به جای r 2 xyاستفاده شده آر 2.

اف جدول - حداکثر مقدار ممکن معیار تحت تأثیر عوامل تصادفی با درجه آزادی k1 = m, k2 = n – m– 1 (برای رگرسیون خطی متر= 1) و سطح معناداری α.

سطح اهمیت α احتمال رد یک فرضیه صحیح

مشروط بر اینکه صحیح باشد معمولاً مقدار α برابر با 05/0 یا در نظر گرفته می شود

اگر یک افجدول< افپس واقعیت 0 - فرضیه تصادفی بودن ویژگی های برآورد شده رد شده و به عنوان آنها شناخته می شود اهمیت آماریو قابلیت اطمینان اگر یک افجدول > افدر واقع، فرضیه اما رد نشده و بی اهمیت بودن آماری، غیر قابل اعتماد بودن معادله رگرسیون تشخیص داده می شود.

برای ارزیابی اهمیت آماری ضرایب رگرسیون خطیو ضریب خطیهمبستگی جفتی کاربردی

t- آزمون دانش آموز و فواصل اطمینان برای هر کدام

از شاخص ها

مطابق با t-معیار، فرضیه H 0 در مورد ماهیت تصادفی شاخص ها، یعنی در مورد تفاوت ناچیز آنها از صفر. در مرحله بعد، مقادیر واقعی معیار محاسبه می شود تیواقعیت برای ضرایب رگرسیون برآورد شده و ضریب همبستگی با مقایسه مقادیر آنها با مقدار خطای استاندارد

خطاهای استاندارد پارامترهای رگرسیون خطی و ضریب

همبستگی ها با فرمول ها تعیین می شوند

مقایسه مقادیر واقعی و بحرانی (جدولی). t-آمار

تیجدول و تیواقعیت فرضیه را قبول یا رد می کند اما.

تی جدول- حداکثر مقدار ممکن معیار تحت تأثیر عوامل تصادفی برای درجه آزادی معین k = n- 2 و سطح معناداری α.

اتصال بین F-معیار فیشر (چه زمانی ک 1 = 1; متر=1) و t-معیار دانش آموز با برابری بیان می شود

اگر یک تیجدول< تیواقع، سپس اما منحرف می شود، i.e. الف، بو تصادفی نیست آنها متفاوت هستند

از صفر و تحت تأثیر عامل x به طور سیستماتیک عمل می کند . اگر یک تیجدول > تیدر واقع، فرضیه اما رد نمی شود و ماهیت تصادفی تشکیل الف ، بیا https://pandia.ru/text/78/146/images/image041_2.jpg" width="574" height="59">

افتب از جدول با درجه آزادی تعیین می شود ک 1 = 1, ک 2 = n-2 و در

سطح اهمیت α داده شده است. اگر یک افجدول< افدر واقع، اهمیت آماری ضریب تعیین تشخیص داده می شود. در فرمول (1.6)، مقدار متربه معنی تعداد پارامترهای متغیرها در معادله رگرسیون مربوطه است.

1.5. محاسبه فواصل اطمینان

مقادیر محاسبه شده شاخص ها (ضرایب آ, ب, ) هستند

تقریبی، بر اساس داده های نمونه موجود به دست آمده است.

برای ارزیابی چگونگی مقادیر دقیقممکن است شاخص ها با موارد محاسبه شده متفاوت باشند، ساخت فواصل اطمینان انجام می شود.

فواصل اطمینان، حدودی را تعیین می کند که در آن مقادیر دقیق شاخص های تعیین شده با درجه اطمینان معینی مطابق با سطح اهمیت معین α قرار می گیرند.

برای محاسبه فواصل اطمینان برای پارامترها آو بمعادلات رگرسیون خطی تعیین کنید خطای حاشیه ای Δ برای هر شاخص:

ارزش تی tabl یک مقدار جدول است t-معیار دانش آموز تحت تأثیر عوامل تصادفی با درجه آزادی ک= n-2 و سطح معناداری داده شده α.

فرمول های محاسبه فواصل اطمینان به شرح زیر است:

https://pandia.ru/text/78/146/images/image045_3.jpg" width="188" height="62">

جایی که تیγ - ارزش متغیر تصادفی، رعایت استاندارد توزیع نرمال، مربوط به احتمال γ = 1 - α/2 (α سطح معنی داری است).

z' = Z (rxy)- معنی ز-توزیع فیشر مربوط به مقدار بدست آمده از ضریب همبستگی خطی rxy.

مقادیر مرزی فاصله اطمینان ( r–, r+) برای rxyبه دست آمده

از مقادیر مرزی فاصله اطمینان ( z–, z+) برای zبا استفاده از

تابع، معکوس ز-توزیع فیشر

1.6. پیش بینی نقطه و فاصله با توجه به معادله خطی

پسرفت

پیش بینی نقطه شامل به دست آوردن مقدار پیش بینی y است پ، که با جایگزینی در معادله رگرسیون تعیین می شود

مربوطه (پیش بینی
) ارزش های ایکسپ

پیش بینی بازه ای شامل ایجاد فاصله اطمینان از پیش بینی، یعنی مرزهای پایین و بالای y است. pmin،در pmaxبازه ای حاوی مقدار دقیق برای مقدار پیش بینی https://pandia.ru/text/78/146/images/image050_2.jpg" width="37" height="44 src=">

و سپس بسازید فاصله اطمینان پیش بینی، یعنی پایین تر و حد بالایی فاصله پیش بینی

سوالات تستی:

1. منظور از رگرسیون زوجی چیست؟

2. هنگام ساخت معادله رگرسیون چه وظایفی حل می شود؟

3. برای انتخاب نوع مدل رگرسیون از چه روش هایی استفاده می شود؟

4. برای ساختن معادله رگرسیون زوجی از چه توابعی بیشتر استفاده می شود؟

5. سیستم معادلات حداقل مربعات نرمال در حالت رگرسیون خطی چگونه است؟

6. سیستم معادلات حداقل مربعات نرمال در حالت رگرسیون نمایی هذلولی چگونه است؟

7. برای محاسبه ضریب خطی همبستگی جفت از چه فرمولی استفاده می شود rxy?

8. چگونه یک فاصله اطمینان برای یک ضریب همبستگی جفت خطی ساخته می شود؟

9. شاخص همبستگی چگونه محاسبه می شود؟

10. شاخص تعیین چگونه محاسبه می شود و چه چیزی را نشان می دهد؟

11. اهمیت معادله رگرسیون و ضرایب فردی چگونه بررسی می شود؟

12. فاصله اطمینان پیش بینی در حالت رگرسیون خطی چگونه ساخته می شود؟

آزمایشگاه شماره 1

وظیفه.1 بر اساس داده های جدول. P1 برای گزینه مربوطه (جدول 1.1):

1. ضریب همبستگی جفت خطی را محاسبه کنید.

2. اهمیت ضریب همبستگی جفت را بررسی کنید.

3. یک فاصله اطمینان برای ضریب همبستگی جفت خطی بسازید.

ورزش. 2 بر اساس داده های جدول. P1 برای گزینه مربوطه (جدول 1.1):

1. معادلات رگرسیون پیشنهادی، از جمله رگرسیون خطی را بسازید.

2. شاخص های همبستگی جفتی را برای هر معادله محاسبه کنید.

3. اهمیت معادلات رگرسیون و ضرایب فردی معادله خطی را بررسی کنید.

4. بهترین معادله رگرسیون را بر اساس میانگین خطای تقریب تعیین کنید.

5. یک پیش بینی بازه زمانی برای مقدار بسازید ایکس= ایکسحداکثر برای خطی

معادلات رگرسیون

الزامات برای ارائه نتایج

گزارش آزمایشگاه باید شامل بخش های زیر باشد:

1. شرح وظیفه;

2. شرح محلول کار آزمایشگاهی (بر اساس مراحل).

3. ارائه نتایج به دست آمده.

جدول P1

داده های اولیه به کار آزمایشگاهی1, 2

در دسترس بودن کالاهای بادوام در خانوارها بر اساس منطقه فدراسیون روسیه(بخش اروپایی قلمرو بدون جمهوری قفقاز شمالی) (بر اساس بررسی نمونه ای از بودجه خانوار؛ به ازای هر 100 خانوار؛ آیتم)

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...