تحلیل آماری مدل رگرسیون. تحلیل رگرسیون - روشی آماری برای مطالعه وابستگی یک متغیر تصادفی به متغیرها

خصوصیات وابستگی های علی

رابطه علّی- این پیوند پدیده ها و فرآیندها است، زمانی که تغییر در یکی از آنها - علت - منجر به تغییر در دیگری - معلول می شود.

علائم با توجه به اهمیتی که برای مطالعه رابطه دارند به دو دسته تقسیم می شوند.

علائمی که باعث تغییر در سایر علائم مرتبط می شوند نامیده می شوند عامل (یا عوامل).

علائمی که تحت تأثیر علائم عاملی تغییر می کنند سازنده.

تمیز دادن فرم های زیراتصالات: عملکردی و تصادفی. کاربردیآنها چنین رابطه ای را می نامند که در آن مقدار معینی از یک ویژگی عامل مربوط به یک و تنها یک مقدار از ویژگی حاصل است. رابطه عملکردی در همه موارد مشاهده و برای هر واحد خاص از جمعیت مورد مطالعه آشکار می شود.

رابطه تابعی را می توان با معادله زیر نشان داد:
y i =f(x i)،کجا: y من - علامت موثر؛ f(x i) - عملکرد شناخته شده ارتباط بین علائم مؤثر و عاملی؛ x i - علامت فاکتور
در طبیعت واقعی، هیچ ارتباط عملکردی وجود ندارد. آنها فقط انتزاع هستند، در تجزیه و تحلیل پدیده ها مفید هستند، اما واقعیت را ساده می کنند.

تصادفی (آماری یا تصادفی)ارتباطرابطه بین کمیت ها است که در آن یکی از آنها با تغییر قانون توزیع به تغییر کمیت دیگر یا کمیت های دیگر واکنش نشان می دهد. به عبارت دیگر با این ارتباط ارزش های مختلفیک متغیر با توزیع های مختلف متغیر دیگر مطابقت دارد. این امر به این دلیل است که متغیر وابسته علاوه بر متغیرهای مستقل در نظر گرفته شده، در معرض تأثیر تعدادی از عوامل تصادفی حساب نشده یا کنترل نشده و همچنین برخی خطاهای اجتناب ناپذیر در اندازه گیری متغیرها است. با توجه به اینکه مقادیر متغیر وابسته در معرض انتشار تصادفی هستند، نمی توان آنها را با دقت کافی پیش بینی کرد، بلکه فقط با احتمال مشخصی می توان آنها را نشان داد.

با توجه به ابهام وابستگی تصادفی بین Y و X، به ویژه، طرح وابستگی به طور میانگین بر روی x مورد توجه است، یعنی. نظم در تغییر مقدار متوسط - مشروط انتظارات ریاضی Mx(Y) (انتظار ریاضی یک متغیر تصادفی Y، که در شرایطی یافت می‌شود که متغیر X مقدار x را بگیرد) بسته به x.

همبستگی یک مورد خاص از اتصال تصادفی است. همبستگی(از لات همبستگی- نسبت، رابطه). تفسیر مستقیم این اصطلاح همبستگی - تصادفی، احتمالی، ممکن ارتباط بین دو (جفت) یا چند (چند متغیر) تصادفی.

به همبستگی بین دو متغیر، رابطه آماری بین این متغیرها نیز گفته می شود که در آن هر مقدار از یک متغیر با مقدار متوسط معینی مطابقت دارد. انتظار مشروط دیگری است. وابستگی همبستگی یک مورد خاص از وابستگی تصادفی است که در آن تغییر در مقادیر علائم عامل (x 1 x 2 ...، x n) مستلزم تغییر در مقدار میانگین علامت مؤثر است.

مرسوم است که بین انواع همبستگی زیر تمایز قائل شود:

1. همبستگی زوج - رابطه بین دو علامت (موثر و فاکتوریل یا دو عاملی).

2. همبستگی جزئی - رابطه بین ویژگی های حاصل و یک عامل با مقدار ثابت سایر ویژگی های عامل موجود در مطالعه.

3. همبستگی چندگانه- وابستگی علائم مؤثر و دو یا چند عاملی موجود در مطالعه.

هدف از تحلیل رگرسیون

مدل های رگرسیون شکلی تحلیلی از نمایش روابط علی هستند. اعتبار علمی و محبوبیت تحلیل رگرسیون آن را به یکی از ابزارهای ریاضی اصلی برای مدل‌سازی پدیده مورد مطالعه تبدیل می‌کند. این روش برای صاف کردن داده های تجربی و به دست آوردن استفاده می شود ارزیابی های کمینفوذ نسبی عوامل مختلفبه متغیر نتیجه

تجزیه و تحلیل رگرسیوناستدر تعریف یک بیان تحلیلی از یک رابطه، که در آن تغییر در یک مقدار (متغیر وابسته یا ویژگی حاصل) به دلیل تأثیر یک یا چند متغیر مستقل (عوامل یا پیش بینی کننده) و مجموعه همه عوامل دیگری است که همچنین مقدار وابسته نیز به صورت مقادیر ثابت و متوسط در نظر گرفته شده است.

اهداف تحلیل رگرسیون:

ارزیابی وابستگی عملکردی مقدار میانگین شرطی ویژگی مؤثر y به عوامل فاکتوریل (x 1، x 2، ...، x n).

پیش بینی مقدار متغیر وابسته با استفاده از متغیر(های) مستقل.

تعیین سهم متغیرهای مستقل منفرد در تغییر متغیر وابسته.

نمی توان از تحلیل رگرسیون برای تعیین اینکه آیا رابطه ای بین متغیرها وجود دارد استفاده کرد، زیرا وجود چنین رابطه ای شرط لازم برای اعمال تحلیل است.

در تجزیه و تحلیل رگرسیون، وجود روابط علت و معلولی بین علائم مؤثر (Y) و عامل x 1، x 2 ...، x n از قبل دلالت دارد.

عملکرد , opکه وابستگی اندیکاتور به پارامترها را بررسی می کند، معادله رگرسیون (تابع) نامیده می شود.یکی . معادله رگرسیون مقدار مورد انتظار متغیر وابسته را برای مقادیر معینی از متغیرهای مستقل نشان می دهد.
بسته به تعداد عوامل موجود در مدل ایکسمدل ها به تک عاملی (مدل رگرسیون زوجی) و چند عاملی (مدل) تقسیم می شوند رگرسیون چندگانه). بسته به نوع تابع، مدل ها به خطی و غیر خطی تقسیم می شوند.

مدل رگرسیون زوجی

با توجه به تأثیر عوامل و علل تصادفی نامشخص، مشاهدات فردی y به میزان کم و بیش از تابع رگرسیون f(x) منحرف می شود. در این حالت، معادله رابطه دو متغیر (مدل رگرسیون زوجی) را می توان به صورت زیر نشان داد:

Y=f(X) + ɛ،

که در آن ɛ یک متغیر تصادفی است که انحراف از تابع رگرسیون را مشخص می کند. این متغیر را آشفتگی یا اغتشاش (باقیمانده یا خطا) می نامند. بنابراین، در مدل رگرسیون، متغیر وابسته Yبرخی از عملکرد وجود دارد f (X)تا یک اغتشاش تصادفی ɛ.

مدل رگرسیون جفت خطی کلاسیک (CLPR) را در نظر بگیرید. اون شبیه

y i \u003d β 0 + β 1 x i + ɛ i (i \u003d 1،2، ...، n)،(1)

جایی که من- توضیح داده شده (متغیر حاصل، وابسته، درون زا)؛ x i- متغیر توضیحی (پیش‌بینی‌کننده، فاکتوریل، برون‌زا)؛ β 0، β 1- ضرایب عددی؛ ɛi- جزء یا خطای تصادفی (تصادفی).

شرایط اساسی (پیش نیازها، فرضیه ها) KLMPR:

1) x i- یک مقدار قطعی (غیر تصادفی)، فرض بر این است که در بین مقادیر x i - همه یکسان نیستند.

2) انتظار ریاضی (مقدار متوسط) اغتشاش ɛiبرابر با صفر است:

М[ɛ i ]=0 (i=1،2، …، n).

3) پراکندگی اغتشاش برای هر مقدار i ثابت است (شرایط همسانی):

D[ɛ i ]=σ 2 (i=1،2، …، n).

4) آشفتگی ها برای مشاهدات مختلف همبستگی ندارند:

cov[ɛ i، ɛj ]=M[ɛ i، ɛ j ]=0 برای i≠j،

جایی که cov[ɛ i، ɛj] ضریب کوواریانس (لحظه همبستگی) است.

5) آشفتگی ها معمولاً متغیرهای تصادفی توزیع شده با میانگین صفر و واریانس σ 2 هستند:

ɛ i ≈ N(0، σ 2).

برای به دست آوردن معادله رگرسیون، چهار فرض اول کافی است. شرط تحقق فرض پنجم برای ارزیابی دقت معادله رگرسیون و پارامترهای آن ضروری است.

اظهار نظر:توجه به روابط خطی با تنوع محدود متغیرها و این واقعیت توضیح داده می شود که در بیشتر موارد، اشکال غیر خطی روابط (با گرفتن لگاریتم یا تغییر متغیرها) به شکل خطی برای انجام محاسبات تبدیل می شوند.

روش سنتی کمترین مربعات(MNC)

تخمین نمونه مدل معادله است

ŷ i = a 0 + a 1 x i(i=1،2، …، n)، (2)

که در آن ŷ i مقادیر نظری (تقریبی) متغیر وابسته به دست آمده از معادله رگرسیون است. a 0 , a 1 - ضرایب (پارامترهای) معادله رگرسیون (برآوردهای انتخابی ضرایب β 0 , β 1 به ترتیب).

با توجه به حداقل مربعات، پارامترهای مجهول a 0 , a 1 طوری انتخاب می شوند که مجموع انحرافات مجذور مقادیر ŷ i از مقادیر تجربی y i (مجموع باقیمانده مربع ها) حداقل باشد:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

که e i = y i - ŷ i تخمین نمونه اغتشاش ɛ i یا باقیمانده رگرسیون است.

مشکل به یافتن مقادیری از پارامترهای a 0 و a 1 کاهش می یابد که تابع Q e برای آنها می گیرد. کوچکترین ارزش. توجه داشته باشید که تابع Q e = Q e (a 0 , a 1) تابعی از دو متغیر a 0 و a 1 است تا زمانی که مقادیر "بهترین" آنها (به معنای روش حداقل مربعات) را پیدا کرده و سپس ثابت کنیم. و х i , y i اعداد ثابتی هستند که بصورت تجربی یافت می شوند.

شرایط اکسترموم ضروری (3) با برابر کردن مشتقات جزئی این تابع از دو متغیر به صفر می رسد. در نتیجه، ما یک سیستم دو را دریافت می کنیم معادلات خطیکه به آن سیستم می گویند معادلات عادی:

(4)

ضریب a 1 - ضریب رگرسیون نمونه y روی x، که نشان می دهد وقتی متغیر x با یک واحد اندازه گیری خود تغییر می کند، متغیر y به طور میانگین چند واحد تغییر می کند، یعنی تغییر y در هر واحد تغییر x. امضاء کردن یک 1جهت این تغییر را نشان می دهد. ضریب a 0 - shift مطابق (2) برابر با مقدار ŷ i در x=0 است و ممکن است تفسیر معناداری نداشته باشد. برای این، متغیر وابسته گاهی اوقات پاسخ نامیده می شود.

ویژگی های آماری برآورد ضرایب رگرسیون:

تخمین ضرایب a 0 , a 1 بی طرف هستند.

واریانس تخمین‌ها 0، 1 کاهش می‌یابد (دقت تخمین‌ها افزایش می‌یابد) با افزایش حجم نمونه n.

واریانس برآورد شیب a 1 با افزایش کاهش می یابد و بنابراین مطلوب است که x i را انتخاب کنیم تا گسترش آنها در اطراف مقدار متوسط زیاد باشد.

برای x¯ > 0 (که بیشتر مورد توجه است)، یک رابطه آماری منفی بین 0 و 1 وجود دارد (افزایش 1 منجر به کاهش 0 می شود).

هدف اصلی تحلیل رگرسیونعبارت است از تعیین شکل تحلیلی رابطه که در آن تغییر در صفت برآیند به دلیل تأثیر یک یا چند علامت عامل است و مجموعه سایر عواملی که بر ویژگی حاصل نیز تأثیر می گذارند به عنوان مقادیر ثابت و متوسط در نظر گرفته می شود. .
وظایف تحلیل رگرسیون:
الف) ایجاد شکل وابستگی. با توجه به ماهیت و شکل رابطه بین پدیده ها، رگرسیون خطی مثبت و غیرخطی و خطی و غیرخطی منفی وجود دارد.
ب) تعریف تابع رگرسیون در قالب یک معادله ریاضی از یک نوع و تعیین تأثیر متغیرهای توضیحی بر متغیر وابسته.
ج) برآورد مقادیر مجهول متغیر وابسته. با استفاده از تابع رگرسیون، می توانید مقادیر متغیر وابسته را در بازه مقادیر داده شده متغیرهای توضیحی بازتولید کنید (به عنوان مثال، مشکل درون یابی را حل کنید) یا سیر فرآیند را خارج از بازه مشخص شده ارزیابی کنید (یعنی، حل مشکل برون یابی). نتیجه تخمینی از مقدار متغیر وابسته است.

رگرسیون جفتی - معادله رابطه دو متغیر y و x: که در آن y متغیر وابسته (علامت مؤثر) است. x - متغیر مستقل و توضیحی (ویژگی-عامل).

رگرسیون خطی و غیر خطی وجود دارد.
رگرسیون خطی: y = a + bx + ε
رگرسیون‌های غیرخطی به دو دسته تقسیم می‌شوند: رگرسیون‌هایی که با توجه به متغیرهای توضیحی موجود در تحلیل غیرخطی هستند، اما نسبت به پارامترهای برآورد شده خطی هستند و رگرسیون‌هایی که نسبت به پارامترهای برآورد شده غیرخطی هستند.
رگرسیون هایی که در متغیرهای توضیحی غیر خطی هستند:

رگرسیون هایی که از نظر پارامترهای تخمینی غیر خطی هستند: ساخت یک معادله رگرسیون به تخمین پارامترهای آن کاهش می یابد. برای تخمین پارامترهای رگرسیون هایی که از نظر پارامترها خطی هستند، از روش حداقل مربعات (LSM) استفاده می شود. LSM به دست آوردن چنین تخمین هایی از پارامترها را امکان پذیر می کند که تحت آن مجموع انحرافات مجذور مقادیر واقعی ویژگی حاصل از y از موارد نظری حداقل است، به عنوان مثال.

.
برای خطی و معادلات غیر خطیبا کاهش به خطی، سیستم زیر برای a و b حل می شود:

می توانید از فرمول های آماده ای که از این سیستم پیروی می کنند استفاده کنید:

نزدیکی ارتباط بین پدیده های مورد مطالعه توسط برآورد می شود ضریب خطیهمبستگی زوجی برای رگرسیون خطی:

و شاخص همبستگی - برای رگرسیون غیر خطی:

ارزیابی کیفیت مدل ساخته شده با ضریب (شاخص) تعیین و همچنین میانگین خطای تقریب داده خواهد شد.
میانگین خطای تقریب میانگین انحراف مقادیر محاسبه شده از مقادیر واقعی است:

.
حد مجاز مقادیر - بیش از 8-10٪ نیست.
میانگین ضریب کشش نشان می دهد که نتیجه y به طور میانگین در جمعیت چند درصد از آن تغییر می کند سایز متوسطوقتی ضریب x از مقدار متوسط خود 1% تغییر می کند:
.

یک وظیفه تحلیل واریانسشامل تجزیه و تحلیل واریانس متغیر وابسته است:
,
جایی که - مبلغ کلانحرافات مربع؛
- مجموع انحرافات مجذور ناشی از رگرسیون ("توضیح داده شده" یا "عاملی")؛
- مجموع باقیمانده انحرافات مجذور.
نسبت واریانس توضیح داده شده توسط رگرسیون، در واریانس کلاز ویژگی مؤثر y ضریب (شاخص) تعیین R2 را مشخص می کند:

ضریب تعیین مجذور ضریب یا شاخص همبستگی است.

آزمون F - ارزیابی کیفیت معادله رگرسیون - شامل آزمون فرضیه اما در مورد بی اهمیت بودن آماری معادله رگرسیون و شاخص نزدیکی اتصال است. برای این، مقایسه واقعیت F واقعی و جدول F بحرانی (جدولی) مقادیر معیار F فیشر انجام می شود. F واقعیت از نسبت مقادیر فاکتور و پراکندگی باقی ماندهبرای یک درجه آزادی محاسبه می شود:
,
که در آن n تعداد واحدهای جمعیت است. m تعداد پارامترهای متغیر x است.
جدول F حداکثر مقدار ممکن معیار تحت تأثیر عوامل تصادفی برای درجات آزادی معین و سطح معناداری a است. سطح اهمیت الف - احتمال رد فرضیه صحیح به شرط صحت. معمولا a برابر با 0.05 یا 0.01 گرفته می شود.
اگر جدول F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F یک واقعیت است، سپس فرضیه H در مورد رد نمی شود و بی اهمیت بودن آماری، غیر قابل اعتماد بودن معادله رگرسیون تشخیص داده می شود.
برای نرخ اهمیت آماریضرایب رگرسیون و همبستگی با آزمون تی استودنت و فاصله اطمینان برای هر یک از شاخص ها محاسبه می شود. یک فرضیه H در مورد ماهیت تصادفی شاخص ها مطرح می شود، یعنی. در مورد تفاوت ناچیز آنها از صفر. ارزیابی معنی‌داری ضرایب رگرسیون و همبستگی با استفاده از آزمون t Student با مقایسه مقادیر آنها با بزرگی خطای تصادفی انجام می‌شود:
; ; .
خطاهای تصادفی پارامترهای رگرسیون خطی و ضریب همبستگی با فرمول های زیر تعیین می شوند:

با مقایسه مقادیر واقعی و بحرانی (جدولی) آمار t - t tabl و t fact - فرضیه H o را می پذیریم یا رد می کنیم.
رابطه بین آزمون F فیشر و آماره t دانشجویی با برابری بیان می شود

اگر T جدول< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >این واقعیت که فرضیه H در مورد رد نمی شود و ماهیت تصادفی تشکیل a، b یا تشخیص داده می شود.
برای محاسبه فاصله اطمینان، تعیین می کنیم خطای حاشیه ای D برای هر شاخص:
, .
فرمول های محاسبه فاصله اطمینانفرم زیر را داشته باشد:
; ;
; ;
اگر صفر در مرزهای فاصله اطمینان قرار گیرد، یعنی. اگر حد پایین منفی و حد بالایی مثبت باشد، پارامتر تخمین زده شده صفر در نظر گرفته می شود، زیرا نمی تواند همزمان مقادیر مثبت و منفی را بگیرد.
مقدار پیش‌بینی با جایگزین کردن مقدار (پیش‌بینی) متناظر در معادله رگرسیون تعیین می‌شود. میانگین خطای استاندارد پیش بینی محاسبه می شود:
,
جایی که
و فاصله اطمینان پیش بینی ساخته می شود:
; ;
جایی که .

مثال راه حل

کار شماره 1. در سراسر هفت قلمرو منطقه اورالبرای 199X، مقادیر دو ویژگی مشخص است.
میز 1.
ضروری: 1. برای مشخص کردن وابستگی y به x، پارامترهای توابع زیر را محاسبه کنید:
الف) خطی؛
ب) قانون توان (قبلاً لازم بود رویه خطی سازی متغیرها با گرفتن لگاریتم هر دو قسمت انجام شود).
ج) نمایشی؛
د) هذلولای متساوی الاضلاع (شما همچنین باید نحوه پیش خطی کردن این مدل را نیز بیابید).
2. هر مدل را از طریق ارزیابی کنید خطای متوسطتقریب ها و آزمون F فیشر.

راه حل (گزینه شماره 1)

برای محاسبه پارامترهای a و b یک رگرسیون خطی (محاسبه را می توان با استفاده از ماشین حساب انجام داد).
حل سیستم معادلات نرمال با توجه به آو ب:

بر اساس داده های اولیه محاسبه می کنیم

	y	ایکس	yx	x2	y2			یک آی
ل	68,8	45,1	3102,88	2034,01	4733,44	61,3	7,5	10,9
2	61,2	59,0	3610,80	3481,00	3745,44	56,5	4,7	7,7
3	59,9	57,2	3426,28	3271,84	3588,01	57,1	2,8	4,7
4	56,7	61,8	3504,06	3819,24	3214,89	55,5	1,2	2,1
5	55,0	58,8	3234,00	3457,44	3025,00	56,5	-1,5	2,7
6	54,3	47,2	2562,96	2227,84	2948,49	60,5	-6,2	11,4
7	49,3	55,2	2721,36	3047,04	2430,49	57,8	-8,5	17,2
جمع	405,2	384,3	22162,34	21338,41	23685,76	405,2	0,0	56,7
چهارشنبه ارزش (مجموع/n)	57,89	54,90	3166,05	3048,34	3383,68	ایکس	ایکس	8,1
س	5,74	5,86	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس
s2	32,92	34,34	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس

معادله رگرسیون: y= 76,88 - 0,35ایکس.با افزایش میانگین روزانه دستمزدبرای 1 مالش. سهم هزینه خرید محصولات غذایی به طور متوسط 0.35 درصد کاهش می یابد.
ضریب خطی همبستگی جفت را محاسبه کنید:

ارتباط متوسط، معکوس است.
بیایید ضریب تعیین را تعریف کنیم:

تغییرات 12.7٪ در نتیجه با تغییر در ضریب x توضیح داده می شود. جایگزینی مقادیر واقعی در معادله رگرسیون ایکس،مقادیر نظری (محاسبه شده) را تعیین کنید . مقدار میانگین خطای تقریب را بیابید:

به طور متوسط، مقادیر محاسبه شده 8.1٪ از مقادیر واقعی انحراف دارند.
بیایید معیار F را محاسبه کنیم:

از 1< اف < ¥ ، باید مد نظر قرار داده شود اف -1 .
مقدار به دست آمده نشان دهنده نیاز به پذیرش فرضیه است اما اوهماهیت تصادفی وابستگی آشکار و بی اهمیت بودن آماری پارامترهای معادله و نشانگر تنگی اتصال.
1b.ساخت یک مدل قدرت با روش خطی سازی متغیرها انجام می شود. در مثال، خطی سازی با گرفتن لگاریتم دو طرف معادله انجام می شود:

جایی کهY=lg(y)، X=lg(x)، C=lg(a).

برای محاسبات، از داده های جدول استفاده می کنیم. 1.3.

جدول 1.3

	Y	ایکس	YX	Y2	x2				یک آی
1	1,8376	1,6542	3,0398	3,3768	2,7364	61,0	7,8	60,8	11,3
2	1,7868	1,7709	3,1642	3,1927	3,1361	56,3	4,9	24,0	8,0
3	1,7774	1,7574	3,1236	3,1592	3,0885	56,8	3,1	9,6	5,2
4	1,7536	1,7910	3,1407	3,0751	3,2077	55,5	1,2	1,4	2,1
5	1,7404	1,7694	3,0795	3,0290	3,1308	56,3	-1,3	1,7	2,4
6	1,7348	1,6739	2,9039	3,0095	2,8019	60,2	-5,9	34,8	10,9
7	1,6928	1,7419	2,9487	2,8656	3,0342	57,4	-8,1	65,6	16,4
جمع	12,3234	12,1587	21,4003	21,7078	21,1355	403,5	1,7	197,9	56,3
منظور داشتن	1,7605	1,7370	3,0572	3,1011	3,0194	ایکس	ایکس	28,27	8,0
σ	0,0425	0,0484	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس
σ2	0,0018	0,0023	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس

C و b را محاسبه کنید:

یک معادله خطی بدست می آوریم: .
با تقویت آن، دریافت می کنیم:

جایگزینی در این معادله مقادیر واقعی ایکس،ما مقادیر نظری نتیجه را بدست می آوریم. بر اساس آنها، شاخص ها را محاسبه می کنیم: تنگی اتصال - شاخص همبستگی و میانگین خطای تقریب

ویژگی های مدل توان نشان می دهد که رابطه را تا حدودی بهتر از تابع خطی توصیف می کند.

1c. ساخت معادله منحنی نمایی

قبل از یک روش برای خطی کردن متغیرها هنگام گرفتن لگاریتم هر دو بخش معادله:

برای محاسبات از داده های جدول استفاده می کنیم.

	Y	ایکس	Yx	Y2	x2				یک آی
1	1,8376	45,1	82,8758	3,3768	2034,01	60,7	8,1	65,61	11,8
2	1,7868	59,0	105,4212	3,1927	3481,00	56,4	4,8	23,04	7,8
3	1,7774	57,2	101,6673	3,1592	3271,84	56,9	3,0	9,00	5,0
4	1,7536	61,8	108,3725	3,0751	3819,24	55,5	1,2	1,44	2,1
5	1,7404	58,8	102,3355	3,0290	3457,44	56,4	-1,4	1,96	2,5
6	1,7348	47,2	81,8826	3,0095	2227,84	60,0	-5,7	32,49	10,5
7	1,6928	55,2	93,4426	2,8656	3047,04	57,5	-8,2	67,24	16,6
جمع	12,3234	384,3	675,9974	21,7078	21338,41	403,4	-1,8	200,78	56,3
چهارشنبه zn.	1,7605	54,9	96,5711	3,1011	3048,34	ایکس	ایکس	28,68	8,0
σ	0,0425	5,86	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس
σ2	0,0018	34,339	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس

مقادیر پارامترهای رگرسیون A و ATتخمین زده می شود به:

یک معادله خطی به دست می آید: . معادله به دست آمده را تقویت می کنیم و آن را به شکل معمول می نویسیم:

ما نزدیکی اتصال را از طریق شاخص همبستگی تخمین می زنیم:

پس از استفاده تجزیه و تحلیل همبستگیوجود روابط آماری بین متغیرها شناسایی شده و میزان تنگی آنها ارزیابی شده است، معمولاً با استفاده از تحلیل رگرسیون به توصیف ریاضی نوع خاصی از وابستگی می‌پردازند. برای این منظور، یک کلاس از توابع انتخاب می شود که نشانگر مؤثر y را مرتبط می کند و آرگومان های x 1، x 2، ...، x به آموزنده ترین آرگومان ها انتخاب می شوند، تخمین مقادیر مجهول پارامترهای پیوند. معادله محاسبه شده و خواص معادله به دست آمده مورد تجزیه و تحلیل قرار می گیرد.

تابع f (x 1، x 2، ...، x k) که وابستگی میانگین مقدار مشخصه مؤثر y را به مقادیر داده شده آرگومان ها توصیف می کند، تابع رگرسیون (معادله) نامیده می شود. اصطلاح "بازگشت" (lat. - رگرسیون - عقب نشینی، بازگشت به چیزی) توسط روانشناس و انسان شناس انگلیسی F. Galton معرفی شد و منحصراً با مشخصات یکی از اولین نمونه های عینی که در آن از این مفهوم استفاده شد، مرتبط است. بنابراین، با پردازش داده‌های آماری در ارتباط با تجزیه و تحلیل وراثت رشد، F. Galton دریافت که اگر پدرها از میانگین قد همه پدرها به اندازه x اینچ انحراف داشته باشند، پسران آنها از میانگین قد همه پسران کمتر از x منحرف می‌شوند. اینچ روند آشکار شده "بازگشت به حالت متوسط" نامیده شد. از آن زمان، اصطلاح "رگرسیون" به طور گسترده ای در ادبیات آماری استفاده شده است، اگرچه در بسیاری از موارد به طور دقیق مفهوم وابستگی آماری را مشخص نمی کند.

برای توضیحات دقیقمعادلات رگرسیون باید قانون توزیع را بدانید شاخص عملکرد y در عمل آماری، معمولاً لازم است که خود را به جستجوی تقریب های مناسب برای تابع رگرسیون ناشناخته واقعی محدود کنیم، زیرا محقق دانش دقیقی از قانون شرطی توزیع احتمال شاخص نتیجه تحلیل شده y برای مقادیر داده شده ندارد. از آرگومان x.

رابطه بین f(x) = M(y1x)، رگرسیون مدل را در نظر بگیرید؟ و نمره y از رگرسیون. بگذارید شاخص مؤثر y با آرگومان x با نسبت مرتبط باشد:

که در آن یک متغیر تصادفی وجود دارد قانون عادیتوزیع ها، با Me = 0 و D e = y 2 . تابع رگرسیون واقعی در این مورد این است: f(x) = M(y/x) = 2x 1.5.

فرض کنید که شکل دقیق معادله رگرسیون واقعی را نمی دانیم، اما 9 مشاهده بر روی یک متغیر تصادفی دو بعدی داریم که با نسبت yi = 2x1.5 + e مرتبط است و در شکل نشان داده شده است. یکی

تصویر 1 - ترتیب متقابلحقیقت f (x) و نظری؟ مدل های رگرسیون

محل قرارگیری نقاط در شکل 1 به شما امکان می دهد خود را به کلاس وابستگی های خطی فرم محدود کنید؟ = در 0 + در 1 x. با استفاده از روش حداقل مربعات، تخمینی از معادله رگرسیون y = b 0 +b 1 x را می یابیم. برای مقایسه، در شکل. 1 نمودارهای تابع رگرسیون واقعی y \u003d 2x 1.5، تابع رگرسیون تقریبی نظری را نشان می دهد؟ = در 0 + در 1 x.

از آنجایی که ما در انتخاب کلاس تابع رگرسیون اشتباه کردیم و این در عمل کاملاً رایج است مطالعات آماری، پس نتیجه گیری و تخمین های آماری ما اشتباه خواهد بود. و مهم نیست که چقدر حجم مشاهدات را افزایش دهیم، تخمین نمونه ما از y به تابع رگرسیون واقعی f(x) نزدیک نخواهد بود. اگر کلاس توابع رگرسیون را به درستی انتخاب کنیم، پس عدم دقت در توصیف f (x) با استفاده از؟ تنها با حجم نمونه محدود قابل توضیح است.

برای بازیابی بهترین مقدار شرطی شاخص مؤثر y(x) و تابع رگرسیون مجهول f(x) = M(y/x) از داده های آماری اولیه، معیارهای کفایت زیر (توابع ضرر) اغلب استفاده می شود. .

روش حداقل مربعات بر اساس آن، مجذور انحراف مقادیر مشاهده شده شاخص موثر y، (i = 1،2،...، n) از مقادیر مدل به حداقل می رسد. = f(х i)، که در آن، х i مقدار بردار آرگومان در است مشاهده i-ام: ?(y i - f(x i) 2 > min. رگرسیون حاصل ریشه-میانگین مربع نامیده می شود.

روش کمترین ماژول. بر اساس آن، مجموع انحرافات مطلق مقادیر مشاهده شده شاخص موثر از مقادیر مدولار به حداقل می رسد. و می گیریم = f(x i)، یعنی رگرسیون میانه مطلق؟ |y i - f(х i)| > دقیقه

تحلیل رگرسیون یک روش تحلیل وابستگی آماری است متغیر تصادفی y از متغیرهای x j = (j=1،2،...، k)، در تحلیل رگرسیون به عنوان متغیرهای غیر تصادفی، بدون توجه به قانون توزیع واقعی x j در نظر گرفته می‌شوند.

معمولاً فرض می شود که متغیر تصادفی y دارای یک قانون توزیع نرمال با انتظار ریاضی شرطی y است که تابعی از آرگومان های x/ (/ = 1, 2, ..., k) و یک ثابت مستقل از آرگومان ها، واریانس y 2 .

به طور کلی، مدل خطی تحلیل رگرسیون به شکل زیر است:

Y = Y ک j=0که در jج j(ایکس 1 , ایکس 2 . . .. ،ایکس ک) + E

که در آن c j تابعی از متغیرهای آن است - x 1 , x 2 . . .. ,x k , E یک متغیر تصادفی با انتظار ریاضی صفر و واریانس y 2 است.

در تحلیل رگرسیون، نوع معادله رگرسیون بر اساس ماهیت فیزیکی پدیده مورد مطالعه و نتایج مشاهده انتخاب می شود.

تخمین پارامترهای مجهول معادله رگرسیون معمولاً با روش حداقل مربعات یافت می شود. در زیر با جزئیات بیشتر به این مشکل خواهیم پرداخت.

معادله رگرسیون خطی دو بعدی. اجازه دهید، بر اساس تجزیه و تحلیل پدیده مورد مطالعه، فرض شود که در "متوسط" y تابع خطیاز x، یعنی یک معادله رگرسیون وجود دارد

y \u003d M (y / x) \u003d در 0 + در 1 x)

که در آن M(y1x) انتظار ریاضی شرطی یک متغیر تصادفی y برای یک x معین است. در 0 و در 1 - پارامترهای ناشناخته جمعیت، که باید از نتایج مشاهدات نمونه تخمین زده شود.

فرض کنید برای تخمین پارامترها در 0 و 1، یک نمونه با اندازه n از یک جمعیت عمومی دو بعدی (x, y) گرفته می شود، که در آن (x, y,) نتیجه مشاهده i-ام است (i) = 1، 2،...، n) . در این حالت، مدل تحلیل رگرسیون به شکل زیر است:

y j = در 0 + در 1 x+e j.

که در آن e j.- متغیرهای تصادفی با توزیع نرمال مستقل با انتظارات ریاضی صفر و واریانس y 2، یعنی M e j. = 0;

D e j .= y 2 برای همه i = 1، 2،...، n.

با توجه به روش حداقل مربعات، به عنوان تخمین پارامترهای مجهول در 0 و 1، باید مقادیری از ویژگی های نمونه b 0 و b 1 را در نظر گرفت که مجموع انحرافات مجذور مقادیر حاصل را به حداقل برساند. ویژگی y i از انتظارات ریاضی شرطی؟ من

ما روشی را برای تعیین تأثیر ویژگی های بازاریابی بر سود یک شرکت با استفاده از مثال هفده شرکت معمولی با اندازه متوسط و شاخص های فعالیت اقتصادی در نظر خواهیم گرفت.

هنگام حل مسئله، ویژگی های زیر در نظر گرفته شد که در نتیجه یک بررسی پرسشنامه به عنوان مهم ترین (مهم ترین) شناسایی شدند:

* فعالیت نوآورانهشرکت ها؛

* برنامه ریزی محدوده محصولات؛

* شکل گیری سیاست قیمت گذاری؛

* روابط عمومی؛

* سیستم بازاریابی؛

* سیستم تشویقی کارکنان

بر اساس سیستم مقایسه عوامل، ماتریس های مجاورت مربعی ساخته شد که در آن مقادیر اولویت های نسبی برای هر عامل محاسبه شد: فعالیت نوآورانه شرکت، برنامه ریزی محدوده محصول، سیاست قیمت گذاری، تبلیغات، روابط عمومی، سیستم فروش، سیستم تشویقی کارکنان.

برآورد اولویت ها برای عامل "روابط با مردم" در نتیجه نظرسنجی از متخصصان شرکت به دست آمد. نام‌های زیر پذیرفته می‌شوند: > (بهتر)، > (بهتر یا یکسان)، = (برابر)،< (хуже или одинаково), <

در مرحله بعد، مشکل یک ارزیابی جامع از سطح بازاریابی شرکت حل شد. هنگام محاسبه شاخص، اهمیت (وزن) ویژگی های خاص در نظر گرفته شده تعیین شد و مشکل پیچیدگی خطی شاخص های خاص حل شد. پردازش داده ها بر اساس برنامه های ویژه توسعه یافته انجام شد.

در مرحله بعد، یک ارزیابی جامع از سطح بازاریابی شرکت محاسبه می شود - ضریب بازاریابی، که در جدول 1 وارد شده است. علاوه بر این، جدول بالا شامل شاخص هایی است که شرکت را به عنوان یک کل مشخص می کند. از داده های جدول برای تحلیل رگرسیون استفاده خواهد شد. نتیجه سود است. همراه با ضریب بازاریابی، از شاخص های زیر به عنوان نشانه های عامل استفاده شد: حجم تولید ناخالص، هزینه دارایی های ثابت، تعداد کارکنان، ضریب تخصص.

جدول 1 - داده های اولیه برای تحلیل رگرسیون

بر اساس داده های جدول و بر اساس عواملی که بیشترین مقدار ضرایب همبستگی را داشتند، توابع رگرسیونی وابستگی سود به عوامل ساخته شد.

معادله رگرسیون در مورد ما به شکل زیر خواهد بود:

ضرایب معادله رگرسیون در مورد تأثیر کمی عوامل مورد بحث در بالا بر میزان سود صحبت می کند. آنها نشان می دهند که با تغییر علامت عامل یک واحد، ارزش آن چند هزار روبل تغییر می کند. همانطور که از معادله بر می آید، افزایش نسبت آمیخته بازاریابی به میزان یک واحد باعث افزایش سود 1547.7 هزار روبل می شود. این نشان می دهد که پتانسیل بسیار زیادی برای بهبود عملکرد اقتصادی بنگاه ها در بهبود فعالیت های بازاریابی وجود دارد.

در بررسی اثربخشی بازاریابی، جالب ترین و مهمترین ویژگی عامل، عامل X5 - ضریب بازاریابی است. مطابق با تئوری آمار، مزیت معادله رگرسیون چندگانه موجود، توانایی ارزیابی تأثیر مجزای هر عامل، از جمله عامل بازاریابی است.

نتایج تحلیل رگرسیون انجام شده نیز بیشتر از محاسبه پارامترهای معادله استفاده می شود. معیار طبقه بندی (Kef,) شرکت ها به عنوان نسبتاً بهتر یا نسبتاً بدتر بر اساس شاخص نسبی نتیجه است:

که در آن Y facti ارزش واقعی شرکت i-ام، هزار روبل است.

Y محاسبه شده - ارزش سود i-امین شرکت که با محاسبه مطابق با معادله رگرسیون به دست می آید.

از نظر مشکل در حال حل، مقدار "ضریب کارایی" نامیده می شود. فعالیت شرکت را می توان در مواردی مؤثر دانست که مقدار ضریب از یک بیشتر باشد. این بدان معنی است که سود واقعی بیشتر از سود میانگین در نمونه است.

ارزش سود واقعی و محاسبه شده در جدول ارائه شده است. 2.

جدول 2 - تحلیل ویژگی موثر در مدل رگرسیونی

تجزیه و تحلیل جدول نشان می دهد که در مورد ما، فعالیت های شرکت های 3، 5، 7، 9، 12، 14، 15، 17 برای دوره مورد بررسی را می توان موفق در نظر گرفت.

مفاهیم همبستگی و رگرسیون ارتباط مستقیم دارند. بسیاری از تکنیک های محاسباتی رایج در تحلیل همبستگی و رگرسیون وجود دارد. آنها برای شناسایی روابط علت و معلولی بین پدیده ها و فرآیندها استفاده می شوند. با این حال، اگر تجزیه و تحلیل همبستگیسپس به شما امکان می دهد قدرت و جهت اتصال تصادفی را ارزیابی کنید تجزیه و تحلیل رگرسیوناین هم نوعی اعتیاد است.

رگرسیون می تواند باشد:

الف) بسته به تعداد پدیده ها (متغیرها):

ساده (رگرسیون بین دو متغیر)؛

چندگانه (رگرسیون بین متغیر وابسته (y) و چندین متغیر توضیح دهنده آن (x1, x2 ... xn);

ب) بسته به فرم:

خطی (به عنوان یک تابع خطی نمایش داده می شود و روابط خطی بین متغیرهای مورد مطالعه وجود دارد).

غیر خطی (به عنوان یک تابع غیر خطی نمایش داده می شود، رابطه بین متغیرهای مورد مطالعه غیر خطی است).

ج) بر اساس ماهیت رابطه بین متغیرهای موجود در بررسی:

مثبت (افزایش مقدار متغیر توضیحی منجر به افزایش مقدار متغیر وابسته و بالعکس) می شود.

منفی (با افزایش مقدار متغیر توضیحی، مقدار متغیر توضیح داده شده کاهش می یابد).

د) بر اساس نوع:

فوری (در این مورد، علت تأثیر مستقیم بر معلول دارد، یعنی متغیرهای وابسته و توضیحی مستقیماً با یکدیگر مرتبط هستند).

غیر مستقیم (متغیر توضیحی اثر غیرمستقیم از طریق یک سوم یا تعدادی متغیر دیگر بر متغیر وابسته دارد).

نادرست (رگرسیون مزخرف) - می تواند با رویکردی سطحی و رسمی به فرآیندها و پدیده های مورد مطالعه ایجاد شود. نمونه ای از مزخرفات، رگرسیونی است که بین کاهش میزان مصرف الکل در کشور ما و کاهش فروش پودر لباسشویی رابطه برقرار می کند.

هنگام انجام تحلیل رگرسیون، وظایف اصلی زیر حل می شود:

1. تعیین شکل وابستگی.

2. تعریف تابع رگرسیون. برای این کار از یک معادله ریاضی از یک نوع یا دیگری استفاده می شود که اولاً امکان ایجاد یک روند کلی در تغییر متغیر وابسته را فراهم می کند و ثانیاً تأثیر متغیر توضیحی (یا چندین متغیر) را بر روی محاسبه می کند. متغیر وابسته

3. برآورد مقادیر مجهول متغیر وابسته. وابستگی ریاضی حاصل (معادله رگرسیون) به شما امکان می دهد مقدار متغیر وابسته را هم در محدوده مقادیر داده شده متغیرهای توضیحی و هم فراتر از آن تعیین کنید. در مورد دوم، تحلیل رگرسیون به عنوان یک ابزار مفید در پیش بینی تغییرات در فرآیندها و پدیده های اجتماعی-اقتصادی (به شرط حفظ روندها و روابط موجود) عمل می کند. معمولاً طول بازه زمانی که پیش‌بینی برای آن انجام می‌شود انتخاب می‌شود که بیش از نیمی از فاصله زمانی باشد که مشاهدات شاخص‌های اولیه در آن انجام شده است. می توان هم یک پیش بینی غیرفعال، حل مسئله برون یابی و هم یک پیش بینی فعال را انجام داد و طبق طرح معروف "اگر ... آنگاه" استدلال کرد و مقادیر مختلف را به یک یا چند متغیر رگرسیون توضیحی جایگزین کرد.

برای ایجاد یک رگرسیوناز روش خاصی به نام استفاده می کند روش حداقل مربعات. این روش نسبت به سایر روش های هموارسازی مزایایی دارد: تعریف ریاضی نسبتاً ساده از پارامترهای مورد نیاز و توجیه نظری خوب از دیدگاه احتمال.

هنگام انتخاب یک مدل رگرسیون، یکی از الزامات ضروری برای آن اطمینان از بیشترین سادگی ممکن است که امکان دستیابی به یک راه حل با دقت کافی را فراهم می کند. بنابراین، برای ایجاد روابط آماری، ابتدا، به عنوان یک قاعده، مدلی از کلاس توابع خطی در نظر گرفته می شود (به عنوان ساده ترین از همه کلاس های ممکن توابع):

که در آن bi، b2...bj - ضرایبی که تأثیر متغیرهای مستقل хij را بر مقدار yi تعیین می کنند. ai - عضو رایگان. ei - انحراف تصادفی، که منعکس کننده تأثیر عوامل محاسبه نشده بر متغیر وابسته است. n تعداد متغیرهای مستقل است. N تعداد مشاهدات است و شرط (N . n+1) باید برآورده شود.

مدل خطیمی تواند کلاس بسیار گسترده ای از مشکلات مختلف را توصیف کند. با این حال، در عمل، به ویژه در سیستم های اجتماعی-اقتصادی، گاهی اوقات استفاده از مدل های خطی به دلیل خطاهای تقریبی زیاد دشوار است. بنابراین، توابع رگرسیون چندگانه غیرخطی که امکان خطی‌سازی را فراهم می‌کنند، اغلب استفاده می‌شوند. از جمله، تابع تولید (تابع قدرت کاب داگلاس) است که در مطالعات مختلف اجتماعی-اقتصادی کاربرد پیدا کرده است. به نظر می رسد:

که در آن b 0 - ضریب نرمال سازی، b 1 ...b j - ضرایب مجهول، e i - انحراف تصادفی.

با استفاده از لگاریتم های طبیعی می توانیم این معادله را به شکل خطی تبدیل کنیم:

مدل به دست آمده به شما امکان می دهد از روش های استاندارد رگرسیون خطی که در بالا توضیح داده شد استفاده کنید. با ساخت مدل های دو نوع (افزودنی و ضربی)، می توان بهترین ها را انتخاب کرد و مطالعات بیشتری را با خطاهای تقریبی کوچکتر انجام داد.

یک سیستم به خوبی توسعه یافته برای انتخاب توابع تقریبی وجود دارد - روش حسابداری گروهی آرگومان ها(MGUA).

صحت مدل انتخاب شده را می توان با نتایج مطالعه باقیمانده ها، که تفاوت بین مقادیر مشاهده شده y i و مقادیر مربوطه پیش بینی شده با استفاده از معادله رگرسیون y i است، قضاوت کرد. در این مورد برای بررسی کفایت مدلمحاسبه شد میانگین خطای تقریب:

اگر e در محدوده 15 درصد یا کمتر باشد، مدل کافی در نظر گرفته می شود.

ما به ویژه تأکید می کنیم که در رابطه با سیستم های اجتماعی-اقتصادی، شرایط اساسی برای کفایت مدل رگرسیون کلاسیک به هیچ وجه همیشه برآورده نمی شود.

بدون پرداختن به تمام علل نارسایی ناشی از آن، فقط نام می بریم چند خطی بودن- مشکل ترین مشکل کاربرد موثر روش های تحلیل رگرسیون در مطالعه وابستگی های آماری. زیر چند خطی بودنوجود یک رابطه خطی بین متغیرهای توضیحی درک می شود.

این پدیده:

الف) معنای ضرایب رگرسیون را در تفسیر معنی دار آنها تحریف می کند.

ب) دقت برآورد را کاهش می دهد (واریانس برآوردها افزایش می یابد).

ج) حساسیت تخمین های ضریب را به داده های نمونه افزایش می دهد (افزایش حجم نمونه می تواند تا حد زیادی بر مقادیر تخمین ها تأثیر بگذارد).

تکنیک های مختلفی برای کاهش چند خطی وجود دارد. در دسترس ترین راه حذف یکی از دو متغیر است در صورتی که ضریب همبستگی بین آنها از مقداری برابر با قدر مطلق 0.8 بیشتر شود. بر اساس ملاحظات معنی دار تصمیم گیری می شود که کدام یک از متغیرها حفظ شود. سپس دوباره ضرایب رگرسیون محاسبه می شود.

استفاده از الگوریتم رگرسیون گام به گام به شما این امکان را می دهد که به طور مداوم یک متغیر مستقل را در مدل بگنجانید و اهمیت ضرایب رگرسیون و چند خطی بودن متغیرها را تحلیل کنید. در نهایت، تنها آن دسته از متغیرها در وابستگی مورد مطالعه باقی می مانند که اهمیت لازم ضرایب رگرسیون و حداقل اثر چند خطی را ارائه می دهند.

در مدل سازی آماری، تحلیل رگرسیون مطالعه ای است که برای ارزیابی رابطه بین متغیرها استفاده می شود. این روش ریاضی شامل بسیاری از روش‌های دیگر برای مدل‌سازی و تحلیل متغیرهای متعدد زمانی است که تمرکز بر رابطه بین یک متغیر وابسته و یک یا چند متغیر مستقل است. به طور خاص، تحلیل رگرسیون به شما کمک می کند تا بفهمید که اگر یکی از متغیرهای مستقل تغییر کند در حالی که متغیرهای مستقل دیگر ثابت بمانند، چگونه مقدار معمولی متغیر وابسته تغییر می کند.

در تمام موارد، نمره هدف تابعی از متغیرهای مستقل است و تابع رگرسیون نامیده می شود. در تحلیل رگرسیون، مشخص کردن تغییر در متغیر وابسته به عنوان تابعی از رگرسیون نیز جالب است که می‌توان با استفاده از توزیع احتمال توصیف کرد.

وظایف تحلیل رگرسیون

این روش آماریتحقیقات به طور گسترده ای برای پیش بینی استفاده می شود، جایی که استفاده از آن مزیت قابل توجهی دارد، اما گاهی اوقات می تواند منجر به توهم یا یک رابطه کاذب شود، بنابراین توصیه می شود در این سوال با دقت از آن استفاده کنید، زیرا به عنوان مثال، همبستگی به معنای علیت نیست. .

تعداد زیادی روش برای انجام تحلیل رگرسیون توسعه داده شده است، مانند رگرسیون حداقل مربعات خطی و معمولی که پارامتریک هستند. ماهیت آنها این است که تابع رگرسیون بر حسب تعداد محدودی از پارامترهای ناشناخته که از داده ها تخمین زده می شوند، تعریف می شود. رگرسیون ناپارامتریک به تابع خود اجازه می دهد تا در مجموعه خاصی از توابع قرار گیرد که می تواند بینهایت بعدی باشد.

به عنوان یک روش تحقیق آماری، تحلیل رگرسیون در عمل به شکل فرآیند تولید داده و نحوه ارتباط آن با رویکرد رگرسیون بستگی دارد. از آنجایی که شکل واقعی تولید فرآیند داده معمولاً یک عدد ناشناخته است، تحلیل رگرسیون داده اغلب تا حدی به فرضیات مربوط به فرآیند بستگی دارد. اگر داده های کافی در دسترس باشد، گاهی اوقات این فرضیات قابل آزمایش هستند. مدل‌های رگرسیون اغلب مفید هستند حتی زمانی که مفروضات به طور متوسط نقض شوند، اگرچه ممکن است بهترین عملکرد را نداشته باشند.

در معنای محدودتر، رگرسیون می تواند به طور خاص به تخمین متغیرهای پاسخ پیوسته اشاره داشته باشد، در مقابل متغیرهای پاسخ گسسته مورد استفاده در طبقه بندی. به حالت متغیر خروجی پیوسته، رگرسیون متریک نیز گفته می شود تا آن را از مسائل مرتبط متمایز کند.

داستان

اولین شکل رگرسیون، روش شناخته شده حداقل مربعات است. توسط لژاندر در سال 1805 و گاوس در سال 1809 منتشر شد. لژاندر و گاوس این روش را برای مسئله تعیین مدار اجسام به دور خورشید (عمدتاً دنباله‌دارها، اما بعداً سیارات کوچک تازه کشف شده) از طریق مشاهدات نجومی به کار بردند. گاوس توسعه بیشتری از نظریه حداقل مربعات را در سال 1821 منتشر کرد، از جمله نوعی از قضیه گاوس-مارکوف.

اصطلاح "رگرسیون" توسط فرانسیس گالتون در قرن نوزدهم برای توصیف یک پدیده بیولوژیکی ابداع شد. نتیجه این بود که رشد فرزندان از رشد اجداد، به عنوان یک قاعده، به میانگین عادی کاهش می یابد. از نظر گالتون، رگرسیون فقط این معنای بیولوژیکی را داشت، اما بعداً کار او توسط اودنی یولی و کارل پیرسون مورد توجه قرار گرفت و به یک زمینه آماری کلی تری منتقل شد. در کار یول و پیرسون، توزیع مشترک متغیرهای پاسخ و توضیحی گاوسی در نظر گرفته شده است. این فرض توسط فیشر در مقالات 1922 و 1925 رد شد. فیشر پیشنهاد کرد که توزیع شرطی متغیر پاسخ گوسی است، اما توزیع مشترک لازم نیست. در این زمینه، پیشنهاد فیشر به فرمول 1821 گاوس نزدیکتر است. قبل از سال 1970، گاهی اوقات تا 24 ساعت طول می کشید تا نتیجه تجزیه و تحلیل رگرسیون به دست آید.

روش های تجزیه و تحلیل رگرسیون همچنان یک حوزه تحقیقات فعال است. در دهه های اخیر، روش های جدیدی برای رگرسیون قوی توسعه یافته است. رگرسیون شامل پاسخ های همبسته. روش های رگرسیون که انواع مختلفی از داده های از دست رفته را در خود جای می دهند. رگرسیون ناپارامتریک روش های رگرسیون بیزی رگرسیون هایی که در آن متغیرهای پیش بینی با خطا اندازه گیری می شوند. رگرسیون ها با پیش بینی های بیشتری نسبت به مشاهدات؛ و استنتاج های علی با رگرسیون.

مدل های رگرسیون

مدل های تحلیل رگرسیون شامل متغیرهای زیر است:

پارامترهای ناشناخته، که به صورت بتا نشان داده می شوند، که می تواند یک اسکالر یا یک بردار باشد.
متغیرهای مستقل، X.
متغیرهای وابسته، Y.

در رشته های مختلف علوم که تحلیل رگرسیون به کار می رود، به جای متغیرهای وابسته و مستقل از اصطلاحات مختلفی استفاده می شود، اما در همه موارد مدل رگرسیون Y را به تابعی از X و β مرتبط می کند.

تقریب معمولاً به صورت E (Y | X) = F (X, β) فرموله می شود. برای انجام تحلیل رگرسیون باید شکل تابع f را تعیین کرد. به ندرت، مبتنی بر دانش در مورد رابطه بین Y و X است که بر داده ها متکی نیست. اگر چنین دانشی در دسترس نباشد، فرم انعطاف پذیر یا راحت F انتخاب می شود.

متغیر وابسته Y

اکنون فرض می کنیم که بردار پارامترهای مجهول β دارای طول k است. برای انجام تحلیل رگرسیون، کاربر باید اطلاعاتی در مورد متغیر وابسته Y ارائه دهد:

اگر N نقطه داده از فرم (Y, X) مشاهده شود که در آن N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.

اگر دقیقاً N = K مشاهده شود و تابع F خطی باشد، معادله Y = F(X, β) را می توان دقیقاً حل کرد، نه تقریباً. این به حل مجموعه ای از معادلات N با N-ناشناخته ها (عناصر β) خلاصه می شود که تا زمانی که X به صورت خطی مستقل باشد، راه حل منحصر به فردی دارد. اگر F غیر خطی باشد، ممکن است راه حلی وجود نداشته باشد یا راه حل های زیادی وجود داشته باشد.
متداول ترین حالت در جایی است که N > نقاط به داده ها وجود دارد. در این حالت، اطلاعات کافی در داده ها برای تخمین مقدار منحصر به فرد β وجود دارد که بهترین راهبا داده ها مطابقت دارد و یک مدل رگرسیون زمانی که روی داده ها اعمال می شود می تواند به عنوان یک سیستم بیش از حد تعیین شده در β در نظر گرفته شود.

در مورد دوم، تحلیل رگرسیون ابزارهایی را برای موارد زیر فراهم می کند:

یافتن راه حلی برای پارامترهای ناشناخته β، که به عنوان مثال، فاصله بین مقدار اندازه گیری شده و پیش بینی شده Y را به حداقل می رساند.
تحت فرضیات آماری خاصی، تحلیل رگرسیون از اطلاعات اضافی برای ارائه اطلاعات آماری در مورد پارامترهای ناشناخته β و مقادیر پیش‌بینی‌شده متغیر وابسته Y استفاده می‌کند.

تعداد مورد نیاز اندازه گیری مستقل

مدل رگرسیونی را در نظر بگیرید که دارای سه پارامتر ناشناخته است: β 0 ، β 1 و β 2 . بیایید فرض کنیم که آزمایشگر 10 اندازه گیری را در همان مقدار متغیر مستقل بردار X انجام می دهد. در این مورد، تحلیل رگرسیون مجموعه ای منحصر به فرد از مقادیر را به دست نمی دهد. بهترین کار این است که میانگین و انحراف معیارمتغیر وابسته Y. به طور مشابه، اندازه گیری دو ارزش های مختلف X، شما می توانید داده های کافی برای یک رگرسیون با دو مجهول به دست آورید، اما نه برای سه یا بیشتر مجهول.

اگر اندازه‌گیری‌های آزمایشگر در سه مقدار مختلف از متغیر بردار مستقل X انجام شود، آنگاه تحلیل رگرسیون مجموعه‌ای منحصر به فرد از تخمین‌ها را برای سه پارامتر ناشناخته در β ارائه می‌دهد.

در مورد رگرسیون خطی عمومی، عبارت فوق معادل شرط معکوس بودن ماتریس X T X است.

مفروضات آماری

وقتی تعداد اندازه‌گیری‌های N بیشتر از تعداد پارامترهای مجهول k و خطاهای اندازه‌گیری εi باشد، معمولاً اطلاعات اضافی موجود در اندازه‌گیری‌ها توزیع می‌شود و برای پیش‌بینی‌های آماری در مورد پارامترهای ناشناخته استفاده می‌شود. این مازاد اطلاعات، درجه آزادی رگرسیون نامیده می شود.

مفروضات اساسی

مفروضات کلاسیک برای تحلیل رگرسیون عبارتند از:

نمونه گیری نماینده پیش بینی استنتاج است.
خطا یک متغیر تصادفی با مقدار میانگین صفر است که مشروط به متغیرهای توضیحی است.
متغیرهای مستقل بدون خطا اندازه گیری می شوند.
به عنوان متغیرهای مستقل (پیش‌بینی‌کننده)، به صورت خطی مستقل هستند، یعنی نمی‌توان هیچ پیش‌بینی‌کننده‌ای را به صورت ترکیبی خطی از دیگران بیان کرد.
خطاها همبستگی ندارند، یعنی ماتریس کوواریانس خطای قطرها و هر عنصر غیرصفر واریانس خطا است.
واریانس خطا در بین مشاهدات ثابت است (همسانی). در غیر این صورت، می توان از حداقل مربعات وزنی یا روش های دیگر استفاده کرد.

اینها شرایط کافیبرای برآورد حداقل مربعات دارای ویژگی های مورد نیاز است، به ویژه این مفروضات به این معنی است که برآورد پارامتر عینی، سازگار و کارآمد خواهد بود، به ویژه زمانی که در کلاس در نظر گرفته شود. تخمین های خطی. توجه به این نکته مهم است که داده های واقعی به ندرت شرایط را برآورده می کنند. یعنی از روش استفاده می شود حتی اگر فرضیات صحیح نباشد. تغییر از مفروضات گاهی اوقات می تواند به عنوان معیاری برای میزان مفید بودن مدل استفاده شود. بسیاری از این فرضیات را می توان در روش های پیشرفته تر تسهیل کرد. گزارش‌های تحلیل آماری معمولاً شامل تجزیه و تحلیل آزمون‌ها در برابر داده‌های نمونه و روش‌شناسی برای سودمندی مدل است.

علاوه بر این، متغیرها در برخی موارد به مقادیر اندازه گیری شده در مکان های نقطه اشاره می کنند. ممکن است روندهای فضایی و خودهمبستگی های مکانی در متغیرها وجود داشته باشد که مفروضات آماری را نقض می کند. رگرسیون وزنی جغرافیایی تنها روشی است که با چنین داده هایی سروکار دارد.

در رگرسیون خطی، ویژگی این است که متغیر وابسته که Y i است، ترکیبی خطی از پارامترها است. به عنوان مثال، در رگرسیون خطی ساده، مدل‌سازی نقطه‌ای n از یک متغیر مستقل xi و دو پارامتر β 0 و β 1 استفاده می‌کند.

در رگرسیون خطی چندگانه، چندین متغیر مستقل یا توابع آنها وجود دارد.

هنگامی که به طور تصادفی از یک جامعه نمونه برداری می شود، پارامترهای آن امکان به دست آوردن نمونه ای از مدل رگرسیون خطی را فراهم می کند.

در این زمینه روش حداقل مربعات محبوب ترین است. این تخمین پارامترها را ارائه می دهد که مجموع مربع های باقیمانده را به حداقل می رساند. این نوع کمینه سازی (که نمونه ای از رگرسیون خطی است) این تابع منجر به مجموعه ای از معادلات عادی و مجموعه ای از معادلات خطی با پارامترها می شود که برای به دست آوردن تخمین پارامترها حل می شوند.

با فرض بیشتر اینکه خطای جمعیت به طور کلی منتشر می شود، محقق می تواند از این تخمین های خطاهای استاندارد برای ایجاد فواصل اطمینان و انجام آزمایش فرضیه ها در مورد پارامترهای آن استفاده کند.

تحلیل رگرسیون غیرخطی

مثالی که در آن تابع نسبت به پارامترها خطی نیست نشان می دهد که مجموع مربع ها باید با یک روش تکرار شونده به حداقل برسد. این پیچیدگی‌های بسیاری را معرفی می‌کند که تفاوت‌های بین روش‌های حداقل مربعات خطی و غیرخطی را مشخص می‌کند. در نتیجه، نتایج تجزیه و تحلیل رگرسیون هنگام استفاده روش غیر خطیگاهی غیر قابل پیش بینی

محاسبه توان و حجم نمونه

در اینجا، به عنوان یک قاعده، هیچ روش ثابتی در مورد تعداد مشاهدات در مقایسه با تعداد متغیرهای مستقل در مدل وجود ندارد. قانون اول توسط دوبرا و هاردین پیشنهاد شد و به نظر می رسد N = t^n، که در آن N حجم نمونه، n تعداد متغیرهای توضیحی و t تعداد مشاهدات مورد نیاز برای دستیابی به دقت مورد نظر در صورت داشتن مدل است. فقط یک متغیر توضیحی به عنوان مثال، یک محقق یک مدل رگرسیون خطی را با استفاده از مجموعه داده ای که شامل 1000 بیمار است (N) می سازد. اگر محقق تصمیم بگیرد که برای تعیین دقیق خط (m) به پنج مشاهده نیاز است، حداکثر تعداد متغیرهای توضیحی که مدل می تواند پشتیبانی کند 4 است.

سایر روش ها

اگرچه پارامترهای یک مدل رگرسیون معمولاً با استفاده از روش حداقل مربعات تخمین زده می‌شوند، روش‌های دیگری نیز وجود دارند که کمتر مورد استفاده قرار می‌گیرند. به عنوان مثال، این روش ها عبارتند از:

روش های بیزی (به عنوان مثال، روش بیزی رگرسیون خطی).
رگرسیون درصدی برای موقعیت‌هایی که کاهش درصد خطا مناسب‌تر در نظر گرفته می‌شود استفاده می‌شود.
کوچکترین انحرافات مطلق، که در حضور نقاط پرت که منجر به رگرسیون چندکی می شود، قوی تر است.
رگرسیون ناپارامتریک که به تعداد زیادی مشاهدات و محاسبات نیاز دارد.
فاصله متریک یادگیری که در جستجوی یک متریک فاصله معنادار در فضای ورودی داده شده آموخته می شود.

نرم افزار

تمامی بسته های نرم افزاری آماری اصلی با استفاده از تحلیل رگرسیون حداقل مربعات انجام می شود. ساده رگرسیون خطیو تجزیه و تحلیل رگرسیون چندگانه را می توان در برخی از برنامه های کاربردی صفحه گسترده و همچنین برخی از ماشین حساب ها استفاده کرد. در حالی که بسیاری از بسته های نرم افزاری آماری می توانند انواع مختلفی از رگرسیون ناپارامتریک و قوی را انجام دهند، این روش ها کمتر استاندارد شده اند. بسته های نرم افزاری مختلف را پیاده سازی می کنند روش های مختلف. نرم افزار رگرسیون تخصصی برای استفاده در زمینه هایی مانند تجزیه و تحلیل نظرسنجی و تصویربرداری عصبی ایجاد شده است.