معادله رگرسیون را رسم کنید. حل مسئله: رگرسیون خطی و ضریب همبستگی

واگذاری خدمات. با کمک سرویس آنلاین می توانید پیدا کنید:
  • پارامترهای معادله رگرسیون خطی y=a+bx، ضریب خطیهمبستگی با آزمون اهمیت آن؛
  • تنگی اتصال با استفاده از شاخص‌های همبستگی و تعیین، تخمین OLS، پایایی استاتیکی مدل‌سازی رگرسیون با استفاده از آزمون F فیشر و با استفاده از آزمون t Student، فاصله اطمینانپیش بینی سطح اهمیت α

معادله رگرسیون زوجی اشاره دارد معادله رگرسیون مرتبه اول. اگر یک مدل اقتصادسنجی فقط شامل یک متغیر توضیحی باشد، آن را رگرسیون زوجی می نامند. معادله رگرسیون مرتبه دومو معادله رگرسیون مرتبه سومبه معادلات رگرسیون غیر خطی مراجعه کنید.

مثال. برای ساخت یک مدل رگرسیون زوجی، متغیر وابسته (توضیح داده شده) و توضیحی را انتخاب کنید. دادن . معادله رگرسیون جفت نظری را تعیین کنید. کفایت مدل ساخته شده را ارزیابی کنید (تفسیر R-square، t-statistics، F-statistics).
راه حلبر اساس خواهد بود فرآیند مدلسازی اقتصادسنجی.
مرحله 1 (مرحله بندی) - تعیین اهداف نهایی مدل سازی، مجموعه ای از عوامل و شاخص های شرکت کننده در مدل و نقش آنها.
مشخصات مدل - تعریف هدف مطالعه و انتخاب متغیرهای اقتصادی مدل.
تکلیف موقعیتی (عملی). برای 10 شرکت در منطقه، ما وابستگی تولید به ازای هر کارگر y (هزار روبل) را به سهم کارگران بسیار ماهر در تعداد کل کارگران x (بر حسب درصد) مطالعه می کنیم.
مرحله 2 (پیشینی) - تجزیه و تحلیل پیش مدل جوهره اقتصادیاز پدیده مورد مطالعه، شکل‌گیری و رسمی‌سازی اطلاعات پیشینی و مفروضات اولیه، به‌ویژه مربوط به ماهیت و پیدایش داده‌های آماری اولیه و مولفه‌های باقی‌مانده تصادفی در قالب تعدادی فرضیه است.
در حال حاضر در این مرحله می‌توان در مورد وابستگی آشکار سطح مهارت کارگر و خروجی او صحبت کرد، زیرا هرچه کارگر با تجربه‌تر باشد، بهره‌وری او بالاتر می‌رود. اما چگونه می توان این وابستگی را ارزیابی کرد؟
رگرسیون جفتیک رگرسیون بین دو متغیر - y و x است، یعنی مدلی از شکل:

جایی که y متغیر وابسته است (علامت حاصل)؛ x یک متغیر مستقل یا توضیحی (عامل علامت) است. علامت "^" به این معنی است که هیچ وابستگی عملکردی دقیقی بین متغیرهای x و y وجود ندارد، بنابراین، تقریباً در هر مورد جداگانه، مقدار y از دو عبارت تشکیل شده است:

جایی که y مقدار واقعی ویژگی مؤثر است. y x مقدار نظری ویژگی مؤثر است که بر اساس معادله رگرسیون یافت می شود. ε – مقدار تصادفی، که انحرافات ارزش واقعی ویژگی مؤثر را از مقدار نظری یافت شده توسط معادله رگرسیون مشخص می کند.
ما به صورت گرافیکی وابستگی رگرسیونی بین خروجی هر کارگر و نسبت کارگران بسیار ماهر را نشان خواهیم داد.


مرحله 3 (پارامتریزاسیون) - مدل سازی واقعی، به عنوان مثال. انتخاب شکل کلی مدل، شامل ترکیب و شکل روابط بین متغیرهای موجود در آن. به انتخاب نوع وابستگی تابعی در معادله رگرسیون، پارامترسازی مدل می گویند. انتخاب کنید معادله رگرسیون زوجی، یعنی تنها یک عامل بر نتیجه نهایی y تأثیر می گذارد.
مرحله چهارم (اطلاعاتی) - جمع آوری اطلاعات آماری لازم، یعنی. ثبت مقادیر عوامل و شاخص های شرکت کننده در مدل. نمونه شامل 10 شرکت صنعتی است.
مرحله 5 (شناسایی مدل) - تخمین پارامترهای مدل ناشناخته با استفاده از داده های آماری موجود.
برای تعیین پارامترهای مدل از روش MNC کمترین مربعات . سیستم معادلات عادیبه این صورت خواهد بود:
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
برای محاسبه پارامترهای رگرسیون، یک جدول محاسباتی می سازیم (جدول 1).
ایکسyx2y2x y
10 6 100 36 60
12 6 144 36 72
15 7 225 49 105
17 7 289 49 119
18 7 324 49 126
19 8 361 64 152
19 8 361 64 152
20 9 400 81 180
20 9 400 81 180
21 10 441 100 210
171 77 3045 609 1356

داده ها را از جدول 1 (ردیف آخر) می گیریم، در نتیجه داریم:
10a + 171b = 77
171 a + 3045 b = 1356
این SLAE با روش کرامر یا روش ماتریس معکوس حل می شود.
ما ضرایب رگرسیون تجربی را دریافت می کنیم: b = 0.3251، a = 2.1414
معادله رگرسیون تجربی به شکل زیر است:
y = 0.3251 x + 2.1414
مرحله 6 (تأیید مدل) - مقایسه داده های واقعی و مدل، تأیید کفایت مدل، ارزیابی صحت داده های مدل.
تجزیه و تحلیل با استفاده از

در یادداشت های قبلی، تمرکز اغلب بر روی یک متغیر عددی واحد بوده است، مانند بازده صندوق سرمایه گذاری مشترک، زمان بارگذاری صفحه وب یا مصرف نوشابه. در این یادداشت و نکات بعدی، روش هایی را برای پیش بینی مقادیر یک متغیر عددی بسته به مقادیر یک یا چند متغیر عددی دیگر در نظر خواهیم گرفت.

مطالب با یک مثال از طریق نشان داده خواهد شد. پیش بینی حجم فروش در یک فروشگاه پوشاک 25 سال است که فروشگاه های زنجیره ای لباس های تخفیف دار Sunflowers به ​​طور مداوم در حال گسترش است. با این حال، این شرکت در حال حاضر یک رویکرد سیستماتیک برای انتخاب فروشگاه های جدید ندارد. مکانی که شرکت قصد دارد یک فروشگاه جدید افتتاح کند بر اساس ملاحظات ذهنی تعیین می شود. معیار انتخاب شرایط اجاره مطلوب یا ایده مدیر از مکان ایده آل فروشگاه است. تصور کنید که شما رئیس بخش پروژه های ویژه و برنامه ریزی هستید. شما وظیفه دارید یک برنامه استراتژیک برای افتتاح فروشگاه های جدید تهیه کنید. این طرح باید شامل پیش بینی فروش سالانه در فروشگاه های تازه افتتاح شده باشد. شما معتقدید که فروش فضا به طور مستقیم با درآمد مرتبط است و می خواهید این واقعیت را در فرآیند تصمیم گیری خود لحاظ کنید. چگونه توسعه دهیم مدل آماریبرای پیش بینی فروش سالانه بر اساس اندازه فروشگاه جدید؟

معمولاً از تحلیل رگرسیون برای پیش‌بینی مقادیر یک متغیر استفاده می‌شود. هدف آن توسعه یک مدل آماری است که بتواند مقادیر متغیر وابسته یا پاسخ را از روی مقادیر پیش بینی کند. حداقلیک متغیر مستقل یا توضیحی در این یادداشت، ما یک رگرسیون خطی ساده را در نظر خواهیم گرفت - یک روش آماری که به شما امکان می دهد مقادیر متغیر وابسته را پیش بینی کنید. Yتوسط مقادیر متغیر مستقل ایکس. یادداشت های زیر مدل را شرح می دهند رگرسیون چندگانه، برای پیش بینی مقادیر متغیر مستقل طراحی شده است Yبا مقادیر چندین متغیر وابسته ( X 1، X 2، …، X k).

دانلود یادداشت در قالب یا فرمت، نمونه ها در قالب

انواع مدل های رگرسیون

جایی که ρ 1 ضریب همبستگی است. اگر ρ 1 = 0 (بدون خود همبستگی)، D≈ 2; اگر ρ 1 ≈ 1 (خودهمبستگی مثبت)، D≈ 0; اگر ρ 1 = -1 (خودهمبستگی منفی)، D ≈ 4.

در عمل، استفاده از معیار دوربین واتسون مبتنی بر مقایسه مقدار است Dبا ارزش های نظری انتقادی d Lو d Uبرای تعداد معینی از مشاهدات nتعداد متغیرهای مستقل مدل ک(برای رگرسیون خطی ساده ک= 1) و سطح معناداری α. اگر یک D< d L ، فرضیه استقلال انحرافات تصادفیرد شد (از این رو خودهمبستگی مثبت وجود دارد). اگر D > d U، فرضیه رد نمی شود (یعنی خود همبستگی وجود ندارد). اگر d L< D < d U دلیل کافی برای تصمیم گیری وجود ندارد. زمانی که مقدار محاسبه شده است Dپس از 2 تجاوز می کند d Lو d Uاین خود ضریب نیست که مقایسه می شود Dو عبارت (4- D).

برای محاسبه آمار دوربین واتسون در اکسل، به جدول پایین در شکل 1 می رویم. چهارده برداشت موجودی. عدد در عبارت (10) با استفاده از تابع = SUMMQDIFF(array1, array2) و مخرج = SUMMQ(آرایه) محاسبه می شود (شکل 16).

برنج. 16. فرمول های محاسبه آمار دوربین واتسون

در مثال ما D= 0.883. سوال اصلی این است: چه مقداری از آمار دوربین واتسون را باید به اندازه کافی کوچک در نظر گرفت تا نتیجه گیری شود که یک خودهمبستگی مثبت وجود دارد؟ لازم است که مقدار D را با مقادیر بحرانی مرتبط کنیم ( d Lو d U) بسته به تعداد مشاهدات nو سطح اهمیت α (شکل 17).

برنج. 17. مقادیر بحرانی آمار دوربین واتسون (قطعه جدول)

بنابراین، در مشکل حجم فروش در فروشگاهی که کالا را به منزل شما تحویل می دهد، یک متغیر مستقل وجود دارد ( ک= 1)، 15 مشاهده ( n= 15) و سطح معنی داری α = 0.05. در نتیجه، d L= 1.08 و دU= 1.36. از آنجا که D = 0,883 < d L 08/1 =، بین باقیمانده ها همبستگی مثبت وجود دارد، روش حداقل مربعات را نمی توان اعمال کرد.

آزمون فرضیه های شیب و ضریب همبستگی

رگرسیون فوق صرفاً برای پیش بینی اعمال شد. برای تعیین ضرایب رگرسیون و پیش بینی مقدار یک متغیر Yبرای یک مقدار متغیر معین ایکساز روش حداقل مربعات استفاده شد. علاوه بر این، خطای استاندارد برآورد و ضریب همبستگی مختلط را در نظر گرفتیم. اگر تجزیه و تحلیل باقیمانده ها تأیید کند که شرایط کاربرد روش حداقل مربعات نقض نشده است و مدل رگرسیون خطی ساده کافی باشد، بر اساس داده های نمونه، می توان استدلال کرد که بین متغیرها در جمعیتیک رابطه خطی وجود دارد

کاربردتی - معیارهای شیببا بررسی اینکه آیا شیب جمعیت β 1 برابر با صفر است، می توان تعیین کرد که آیا رابطه آماری معنی داری بین متغیرها وجود دارد یا خیر. ایکسو Y. اگر این فرضیه رد شود، می توان استدلال کرد که بین متغیرها ایکسو Yیک رابطه خطی وجود دارد فرضیه های صفر و جایگزین به صورت زیر فرموله می شوند: H 0: β 1 = 0 (بدون رابطه خطی)، H1: β 1 ≠ 0 (رابطه خطی وجود دارد). طبق تعریف تی- آمار برابر است با تفاوت بین شیب نمونه و شیب فرضی جمعیت، تقسیم بر خطای استاندارد برآورد شیب:

(11) تی = (ب 1 β 1 ) / Sb 1

جایی که ب 1 شیب رگرسیون مستقیم بر اساس داده های نمونه است، β1 شیب فرضی جمعیت عمومی مستقیم است، ، و آمار تست تیاین دارد تی- توزیع با n - 2درجه آزادی.

بیایید بررسی کنیم که آیا رابطه آماری معناداری بین اندازه فروشگاه و فروش سالانه در α = 0.05 وجود دارد یا خیر. تیهنگام استفاده، معیارها همراه با سایر پارامترها نمایش داده می شود بسته تحلیلی(گزینه پسرفت). نتایج کامل بسته تحلیلی در شکل نشان داده شده است. 4، یک قطعه مربوط به آمار t - در شکل. هجده.

برنج. 18. نتایج برنامه تی

چون تعداد فروشگاه ها n= 14 (نگاه کنید به شکل 3)، مقدار بحرانی تی-آمار در سطح معناداری α = 0.05 را می توان با فرمول پیدا کرد: تی ال=STUDENT.INV(0.025;12) = -2.1788 که در آن 0.025 نیمی از سطح معنی داری و 12 = است. n – 2; t U\u003d STUDENT.INV (0.975، 12) \u003d +2.1788.

از آنجا که تی-statistics = 10.64 > t U= 2.1788 (شکل 19)، فرضیه صفر H 0رد می شود. از سوی دیگر، آر-ارزش برای ایکس\u003d 10.6411، محاسبه شده با فرمول \u003d 1-STUDENT.DIST (D3, 12, TRUE) تقریباً برابر با صفر است، بنابراین فرضیه H 0دوباره رد می شود این حقیقت که آر- ارزش تقریباً صفر است، به این معنی که اگر رابطه خطی واقعی بین اندازه فروشگاه و فروش سالانه وجود نداشت، تشخیص آن با استفاده از رگرسیون خطی تقریباً غیرممکن بود. بنابراین بین میانگین فروش سالانه فروشگاه و اندازه فروشگاه رابطه خطی معناداری از نظر آماری وجود دارد.

برنج. 19. آزمون فرضیه شیب جمعیت عمومی در سطح معنی داری 05/0 و 12 درجه آزادی.

کاربرداف - معیارهای شیبیک رویکرد جایگزین برای آزمایش فرضیه‌های مربوط به شیب رگرسیون خطی ساده استفاده از آن است اف-شاخص. به یاد بیاورید که اف- معیار برای آزمایش رابطه بین دو واریانس استفاده می شود (به جزئیات مراجعه کنید). هنگام آزمایش فرضیه شیب، معیار خطاهای تصادفی واریانس خطا (مجموع مجذور خطاها تقسیم بر تعداد درجه آزادی) است. اف-تست از نسبت واریانس توضیح داده شده توسط رگرسیون استفاده می کند (یعنی مقادیر SSRتقسیم بر تعداد متغیرهای مستقل ک، به واریانس خطا ( MSE=S Yایکس 2 ).

طبق تعریف اف-آمار برابر است با میانگین مجذور انحرافات ناشی از رگرسیون (MSR) تقسیم بر واریانس خطا (MSE): اف = MSR/ MSE، جایی که MSR=SSR / کMSE =SSE/(n– k – 1)، kتعداد متغیرهای مستقل در مدل رگرسیونی است. آمار تست افاین دارد اف- توزیع با کو n– k – 1درجه آزادی.

برای سطح معناداری معین α قانون تصمیم گیریبه صورت زیر فرموله شده است: اگر F > FU، فرضیه صفر رد می شود. در غیر این صورت رد نمی شود. نتایج در قالب یک جدول محوری ارائه شده است تحلیل واریانسدر شکل نشان داده شده اند. بیست.

برنج. 20. جدول ANOVA برای آزمون فرضیه در مورد اهمیت آماریضریب رگرسیون

به همین ترتیب تی-معیار اف-معیار هنگام استفاده در جدول نمایش داده می شود بسته تحلیلی(گزینه پسرفت). نتایج کامل کار بسته تحلیلیدر شکل نشان داده شده است. 4، قطعه مربوط به اف-statistics - در شکل. 21.

برنج. 21. نتایج برنامه اف- معیارهای به دست آمده با استفاده از بسته ابزار تجزیه و تحلیل اکسل

آماره F 113.23 است و آر-مقدار نزدیک به صفر (سلول اهمیتاف). اگر سطح معناداری α 0.05 باشد، مقدار بحرانی را تعیین کنید اف-توزیعات با یک و 12 درجه آزادی را می توان از فرمول بدست آورد F U\u003d F. OBR (1-0.05؛ 1؛ 12) \u003d 4.7472 (شکل 22). از آنجا که اف = 113,23 > F U= 4.7472 و آر-مقدار نزدیک به 0< 0,05, нулевая гипотеза H 0منحرف می شود، یعنی اندازه یک فروشگاه ارتباط نزدیکی با حجم فروش سالانه آن دارد.

برنج. 22. آزمون فرضیه شیب جمعیت عمومی در سطح معنی داری 05/0، با یک و 12 درجه آزادی.

فاصله اطمینان حاوی شیب β 1 .برای آزمایش فرضیه وجود رابطه خطی بین متغیرها، می توانید یک فاصله اطمینان حاوی شیب β 1 بسازید و مطمئن شوید که مقدار فرضی β 1 = 0 به این بازه تعلق دارد. مرکز فاصله اطمینان حاوی شیب β 1 شیب نمونه است ب 1 ، و مرزهای آن کمیت ها هستند b 1 ±t n –2 Sb 1

همانطور که در شکل نشان داده شده است. هجده، ب 1 = +1,670, n = 14, Sb 1 = 0,157. تی 12 \u003d STUDENT.OBR (0.975، 12) \u003d 2.1788. در نتیجه، b 1 ±t n –2 Sb 1 = 2.1788 ± 1.670 * 0.157 = 0.342 ± 1.670، یا + 1.328 ≤ β 1 ≤ +2.012. بنابراین، شیب جمعیت با احتمال 0.95 در محدوده 1.328 + تا 2.012 + قرار دارد (یعنی از 1،328،000 تا 2،012،000 دلار). از آنجایی که این مقادیر بزرگتر از صفر هستند، رابطه خطی آماری معناداری بین فروش سالانه و منطقه فروشگاه وجود دارد. اگر فاصله اطمینان حاوی صفر باشد، هیچ رابطه ای بین متغیرها وجود نخواهد داشت. علاوه بر این، فاصله اطمینان به این معنی است که هر 1000 متر مربع. فوت منجر به افزایش میانگین فروش 1,328,000 تا 2,012,000 دلار می شود.

استفادهتی - معیارهای ضریب همبستگی.ضریب همبستگی معرفی شد r، که معیاری از رابطه بین دو متغیر عددی است. برای تعیین اینکه آیا بین دو متغیر رابطه آماری معناداری وجود دارد یا خیر می توان از آن استفاده کرد. اجازه دهید ضریب همبستگی بین جمعیت های هر دو متغیر را با نماد ρ نشان دهیم. فرضیه های صفر و جایگزین به صورت زیر فرموله می شوند: H 0: ρ = 0 (بدون همبستگی)، H 1: ρ ≠ 0 (همبستگی وجود دارد). بررسی وجود همبستگی:

جایی که r = + ، اگر ب 1 > 0, r = – ، اگر ب 1 < 0. Тестовая статистика تیاین دارد تی- توزیع با n - 2درجه آزادی.

در مشکل فروشگاه های زنجیره ای آفتابگردان r2= 0.904 و ب 1- 1.670+ (شکل 4 را ببینید). از آنجا که ب 1> 0، ضریب همبستگی بین فروش سالانه و اندازه فروشگاه است r= +√0.904 = +0.951. بیایید این فرضیه صفر را آزمایش کنیم که بین این متغیرها همبستگی وجود ندارد تی- آمار:

در سطح معناداری 0.05 = α، فرضیه صفر باید رد شود زیرا تی= 10.64 > 2.1788. بنابراین می توان ادعا کرد که از نظر آماری رابطه معناداری بین فروش سالانه و اندازه فروشگاه وجود دارد.

هنگام بحث در مورد استنباط در مورد شیب جمعیت، فواصل اطمینان و معیارهای آزمون فرضیه ها ابزارهای قابل تعویض هستند. با این حال، محاسبه فاصله اطمینان حاوی ضریب همبستگی دشوارتر است، زیرا شکل توزیع نمونه آماری rبستگی به ضریب همبستگی واقعی دارد.

برآورد انتظارات ریاضی و پیش بینی مقادیر فردی

در این بخش روش هایی برای تخمین پاسخ مورد انتظار بحث می شود Yو پیش بینی ارزش های فردی Yبرای مقادیر داده شده متغیر ایکس.

ایجاد فاصله اطمینان.در مثال 2 (به بخش بالا مراجعه کنید روش حداقل مربعات) معادله رگرسیوناجازه پیش بینی مقدار متغیر را دارد Y ایکس. در مشکل انتخاب مکان برای یک فروشگاه خرده فروشی، میانگین فروش سالانه در یک فروشگاه با مساحت 4000 متر مربع است. فوت معادل 7.644 میلیون دلار بوده است، اما این برآورد از انتظارات ریاضی عموم مردم یک نقطه است. برای برآورد انتظارات ریاضی جمعیت عمومی، مفهوم فاصله اطمینان پیشنهاد شد. به همین ترتیب، می توان مفهوم را معرفی کرد فاصله اطمینان برای انتظار ریاضی از پاسخبرای مقدار معینی از یک متغیر ایکس:

جایی که , = ب 0 + ب 1 X i– متغیر مقدار پیش بینی شده Yدر ایکس = X i, S YXمیانگین مربعات خطا است، nحجم نمونه است، ایکسمن- مقدار داده شده متغیر ایکس, µ Y|ایکس = ایکسمنارزش مورد انتظارمتغیر Yدر ایکس = Х i,SSX=

تجزیه و تحلیل فرمول (13) نشان می دهد که عرض فاصله اطمینان به عوامل متعددی بستگی دارد. در سطح معینی از اهمیت، افزایش دامنه نوسانات در اطراف خط رگرسیون، که با استفاده از میانگین مربعات خطا اندازه‌گیری می‌شود، منجر به افزایش عرض بازه می‌شود. از سوی دیگر، همانطور که انتظار می رود، افزایش حجم نمونه با کاهش فاصله زمانی همراه است. علاوه بر این، عرض فاصله بسته به مقادیر تغییر می کند ایکسمن. اگر مقدار متغیر Yبرای مقادیر پیش بینی شده است ایکس، نزدیک به مقدار متوسط ، معلوم می شود که فاصله اطمینان از زمانی که پاسخ برای مقادیر دور از میانگین پیش بینی می شود باریک تر است.

فرض کنید هنگام انتخاب مکان برای یک فروشگاه، می‌خواهیم یک فاصله اطمینان 95% برای میانگین فروش سالانه در تمام فروشگاه‌های با مساحت 4000 متر مربع ایجاد کنیم. پا:

بنابراین میانگین حجم فروش سالیانه در تمامی فروشگاه های با مساحت 4000 متر مربع می باشد. فوت، با احتمال 95 درصد در محدوده 6.971 تا 8.317 میلیون دلار قرار دارد.

فاصله اطمینان را برای مقدار پیش بینی شده محاسبه کنید.علاوه بر فاصله اطمینان برای انتظار ریاضی از پاسخ برای مقدار معینی از متغیر ایکس، اغلب لازم است که فاصله اطمینان برای مقدار پیش بینی شده را بدانیم. اگرچه فرمول محاسبه چنین فاصله اطمینانی بسیار شبیه فرمول (13) است، اما این بازه حاوی یک مقدار پیش بینی شده است و نه تخمینی از پارامتر. فاصله زمانی برای پاسخ پیش بینی شده Yایکس = شیبرای مقدار خاصی از متغیر ایکسمنبا فرمول تعیین می شود:

بیایید فرض کنیم که هنگام انتخاب مکان برای یک فروشگاه خرده فروشی، می خواهیم یک فاصله اطمینان 95٪ برای حجم فروش سالانه پیش بینی شده در فروشگاهی با مساحت 4000 متر مربع ایجاد کنیم. پا:

بنابراین، حجم فروش سالانه پیش بینی شده برای 4000 متر مربع. فوت، با احتمال 95% در محدوده 5.433 تا 9.854 میلیون دلار قرار دارد.همانطور که می بینید، فاصله اطمینان برای مقدار پاسخ پیش بینی شده بسیار گسترده تر از فاصله اطمینان برای انتظارات ریاضی آن است. این به این دلیل است که تنوع در پیش‌بینی مقادیر فردی بسیار بیشتر از تخمین مقدار مورد انتظار است.

مشکلات و مسائل اخلاقی مرتبط با استفاده از رگرسیون

مشکلات مرتبط با تحلیل رگرسیون:

  • نادیده گرفتن شرایط کاربرد روش حداقل مربعات.
  • برآورد اشتباه از شرایط برای کاربرد روش حداقل مربعات.
  • انتخاب اشتباه روش های جایگزین بر خلاف شرایط کاربرد روش حداقل مربعات.
  • کاربرد تحلیل رگرسیون بدون شناخت عمیق موضوع مورد مطالعه.
  • برون یابی رگرسیون فراتر از محدوده متغیر توضیحی.
  • سردرگمی بین روابط آماری و علی.

استفاده گسترده از صفحات گسترده و نرم افزارهای آماری، مشکلات محاسباتی را که مانع استفاده از تحلیل رگرسیون می شد، از بین برده است. با این حال، این منجر به این واقعیت شد که تجزیه و تحلیل رگرسیون توسط کاربرانی که صلاحیت و دانش کافی ندارند مورد استفاده قرار گرفت. اگر بسیاری از آنها اصلاً از شرایط کاربرد روش حداقل مربعات اطلاعی ندارند و نمی دانند چگونه اجرای آنها را بررسی کنند، چگونه کاربران از روش های جایگزین مطلع می شوند؟

محقق نباید با خرد کردن اعداد - محاسبه شیب، شیب و ضریب همبستگی مختلط غافل شود. او به دانش عمیق تری نیاز دارد. بیایید این را با یک مثال کلاسیک برگرفته از کتاب های درسی نشان دهیم. Anscombe نشان داد که هر چهار مجموعه داده نشان داده شده در شکل. 23 پارامترهای رگرسیون یکسانی دارند (شکل 24).

برنج. 23. چهار مجموعه داده مصنوعی

برنج. 24. تحلیل رگرسیون چهار مجموعه داده مصنوعی. تمام شده با بسته تحلیلی(برای بزرگنمایی تصویر روی تصویر کلیک کنید)

بنابراین، از نقطه نظر تحلیل رگرسیون، همه این مجموعه داده ها کاملاً یکسان هستند. اگر تحلیل در این مورد تمام می شد، خیلی ضرر می کردیم اطلاعات مفید. این توسط نمودارهای پراکندگی (شکل 25) و نمودارهای باقیمانده (شکل 26) ساخته شده برای این مجموعه داده ها مشهود است.

برنج. 25. نمودارهای پراکنده برای چهار مجموعه داده

نمودارهای پراکنده و نمودارهای باقیمانده نشان می دهد که این داده ها با یکدیگر متفاوت هستند. تنها مجموعه ای که در امتداد یک خط مستقیم توزیع می شود مجموعه A است. نمودار باقیمانده های محاسبه شده از مجموعه A هیچ الگوی ندارد. این را نمی توان برای مجموعه های B، C، و D گفت. نمودار پراکندگی ترسیم شده برای مجموعه B یک الگوی درجه دوم را نشان می دهد. این نتیجه با نمودار باقیمانده ها که شکل سهمی دارد تأیید می شود. نمودار پراکندگی و نمودار باقیمانده نشان می دهد که مجموعه داده B حاوی یک نقطه پرت است. در این شرایط، لازم است که اطلاعات پرت را از مجموعه داده ها حذف کرده و تجزیه و تحلیل را تکرار کنید. تکنیک تشخیص و حذف موارد پرت از مشاهدات، تحلیل تأثیر نامیده می شود. پس از حذف موارد پرت، نتیجه ارزیابی مجدد مدل ممکن است کاملاً متفاوت باشد. نمودار پراکندگی ترسیم شده از مجموعه داده D وضعیت غیرعادی را نشان می دهد که در آن مدل تجربی به شدت به یک پاسخ وابسته است ( X 8 = 19, Y 8 = 12.5). چنین مدل‌های رگرسیونی باید به‌ویژه با دقت محاسبه شوند. بنابراین، قطعات پراکنده و باقیمانده بسیار زیاد هستند ابزار ضروریتجزیه و تحلیل رگرسیون و باید بخشی جدایی ناپذیر از آن باشد. بدون آنها، تحلیل رگرسیون معتبر نیست.

برنج. 26. قطعه های باقیمانده برای چهار مجموعه داده

چگونه از مشکلات در تحلیل رگرسیون جلوگیری کنیم:

  • تحلیل رابطه احتمالی بین متغیرها ایکسو Yهمیشه با یک نمودار پراکنده شروع کنید.
  • قبل از تفسیر نتایج تحلیل رگرسیون، شرایط کاربردی بودن آن را بررسی کنید.
  • باقیمانده ها را در مقابل متغیر مستقل رسم کنید. این امر به تعیین چگونگی مطابقت مدل تجربی با نتایج مشاهدات و تشخیص نقض ثبات واریانس کمک می‌کند.
  • برای آزمایش فرضیه در مورد توزیع نرمالخطاها، از هیستوگرام ها، نمودارهای ساقه و برگ، نمودارهای جعبه ای و نمودارهای توزیع نرمال استفاده کنید.
  • اگر شرایط کاربردی روش حداقل مربعات برآورده نشد، از روش‌های جایگزین استفاده کنید (مثلاً مدل‌های رگرسیون درجه دوم یا چندگانه).
  • اگر شرایط کاربرد روش حداقل مربعات برآورده شود، لازم است فرضیه مربوط به اهمیت آماری ضرایب رگرسیون آزمایش شود و فواصل اطمینان حاوی انتظارات ریاضی و مقدار پاسخ پیش بینی شده ایجاد شود.
  • از پیش بینی مقادیر متغیر وابسته خارج از محدوده متغیر مستقل خودداری کنید.
  • به خاطر داشته باشید که وابستگی های آماری همیشه علی نیستند. به یاد داشته باشید که همبستگی بین متغیرها به معنای وجود رابطه علی بین آنها نیست.

خلاصه.همانطور که در بلوک دیاگرام (شکل 27) نشان داده شده است، یادداشت یک مدل رگرسیون خطی ساده، شرایط کاربردی بودن آن و راه های آزمایش این شرایط را توصیف می کند. در نظر گرفته شده تی-معیار آزمون اهمیت آماری شیب رگرسیون. برای پیش بینی مقادیر متغیر وابسته از مدل رگرسیون استفاده شد. یک مثال مربوط به انتخاب مکانی برای یک فروشگاه خرده فروشی در نظر گرفته شده است که در آن وابستگی حجم فروش سالانه به منطقه فروشگاه بررسی می شود. اطلاعات به دست آمده به شما این امکان را می دهد که مکان فروشگاه را با دقت بیشتری انتخاب کنید و فروش سالانه آن را پیش بینی کنید. در یادداشت های بعدی، بحث تحلیل رگرسیون و همچنین مدل های رگرسیون چندگانه ادامه خواهد داشت.

برنج. 27. بلوک دیاگرام یک یادداشت

از مطالب کتاب لوین و همکاران آمار برای مدیران استفاده شده است. - م.: ویلیامز، 2004. - ص. 792-872

اگر متغیر وابسته مقوله ای باشد، باید از رگرسیون لجستیک استفاده شود.

خط رگرسیون بازتابی گرافیکی از رابطه بین پدیده هاست. شما به راحتی می توانید یک خط رگرسیون در اکسل بسازید.

برای این شما نیاز دارید:

1.برنامه اکسل را باز کنید

2. ستون هایی با داده ایجاد کنید. در مثال خود، ما یک خط رگرسیون یا رابطه بین پرخاشگری و شک به خود در دانش آموزان کلاس اول ایجاد می کنیم. این آزمایش شامل 30 کودک بود که داده ها در جدول اکسل ارائه شده است:

1 ستون - شماره موضوع

2 ستون - پرخاشگریدر امتیاز

3 ستون - عدم عزت نفسدر امتیاز

3. سپس باید هر دو ستون را انتخاب کنید (بدون نام ستون)، زبانه را فشار دهید درج کنید , انتخاب کنید نقطه و از بین طرح‌بندی‌های پیشنهادی، اولین مورد را انتخاب کنید نقطه با نشانگر .

4. بنابراین ما یک خالی برای خط رگرسیون گرفتیم - به اصطلاح - طرح پراکنده. برای رفتن به خط رگرسیون، باید روی شکل حاصل کلیک کنید، روی تب کلیک کنید سازنده، در پانل پیدا کنید طرح بندی نمودار و انتخاب کنید م آ ket9 ، همچنین می گوید f(x)

5. بنابراین، ما یک خط رگرسیون داریم. نمودار نیز معادله آن و مجذور ضریب همبستگی را نشان می دهد

6. باقی مانده است که نام نمودار، نام محورها را اضافه کنید. همچنین، در صورت تمایل، می توانید افسانه را حذف کنید، تعداد را کاهش دهید خطوط افقیشبکه ها (برگه چیدمان ، سپس توری ). تغییرات و تنظیمات اصلی در تب انجام می شود چیدمان

خط رگرسیون در MS Excel ساخته شده است. حال می توان آن را به متن اثر اضافه کرد.

برای مناطق منطقه، داده ها برای 200X داده شده است.

شماره منطقه میانگین سرانه حداقل معیشت در روز برای یک فرد توانمند، روبل، x میانگین حقوق روزانه، روبل، در
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

ورزش:

1. یک میدان همبستگی بسازید و یک فرضیه در مورد شکل اتصال ایجاد کنید.

2. پارامترهای معادله رگرسیون خطی را محاسبه کنید

4. با استفاده از میانگین (عمومی) ضریب کشش، ارزیابی مقایسه ای از قدرت رابطه بین عامل و نتیجه ارائه دهید.

7. مقدار پیش بینی شده نتیجه را در صورتی محاسبه کنید که مقدار پیش بینی شده ضریب 10 درصد از سطح متوسط ​​آن افزایش یابد. فاصله اطمینان پیش بینی را برای سطح معنی داری تعیین کنید.

راه حل:

بیایید این مشکل را با استفاده از اکسل حل کنیم.

1. با مقایسه داده های موجود x و y، به عنوان مثال، رتبه بندی آنها به ترتیب صعودی ضریب x، می توان رابطه مستقیمی را بین علائم مشاهده کرد که افزایش حداقل سرانه معیشتی باعث افزایش متوسط ​​دستمزد روزانه می شود. بر این اساس می توان فرض کرد که رابطه بین علائم مستقیم است و می توان آن را با معادله یک خط مستقیم توصیف کرد. همین نتیجه بر اساس تحلیل گرافیکی تایید شده است.

برای ایجاد یک فیلد همبستگی، می توانید از Excel PPP استفاده کنید. داده های اولیه را به ترتیب وارد کنید: ابتدا x و سپس y.

ناحیه سلول های حاوی داده را انتخاب کنید.

سپس انتخاب کنید: درج / پراکنده / پراکنده با نشانگرهمانطور که در شکل 1 نشان داده شده است.

شکل 1 ساخت میدان همبستگی

تجزیه و تحلیل میدان همبستگی وجود یک وابستگی نزدیک به یک خط مستقیم را نشان می دهد، زیرا نقاط تقریباً در یک خط مستقیم قرار دارند.

2. برای محاسبه پارامترهای معادله رگرسیون خطی
از تابع آماری داخلی استفاده کنید LINEST.

برای این:

1) یک فایل موجود حاوی داده های مورد تجزیه و تحلیل را باز کنید.
2) ناحیه ای از سلول های خالی 5×2 (5 ردیف، 2 ستون) را برای نمایش نتایج آمار رگرسیون انتخاب کنید.
3) فعال کنید Function Wizard: در منوی اصلی را انتخاب کنید فرمول ها / درج تابع.
4) در پنجره دسته بندیشما می گیرید آماری، در پنجره تابع - LINEST. روی دکمه کلیک کنید خوبهمانطور که در شکل 2 نشان داده شده است؛

شکل 2 جعبه گفتگوی Function Wizard

5) آرگومان های تابع را پر کنید:

ارزش های شناخته شده

مقادیر x شناخته شده

مقدار ثابت- یک مقدار منطقی که وجود یا عدم وجود یک عبارت آزاد را در معادله نشان می دهد. اگر Constant = 1 باشد، ترم آزاد به روش معمول محاسبه می شود، اگر ثابت = 0، ترم آزاد 0 است.

آمار- یک مقدار بولی که نشان می دهد آیا اطلاعات اضافی در تجزیه و تحلیل رگرسیون نمایش داده می شود یا خیر. اگر آمار = 1، پس اطلاعات تکمیلینمایش داده می شود، اگر Statistics = 0، آنگاه فقط تخمین پارامترهای معادله نمایش داده می شود.

روی دکمه کلیک کنید خوب;

شکل 3 جعبه گفتگوی LINEST Arguments

6) اولین عنصر جدول نهایی در سلول سمت چپ بالای ناحیه انتخاب شده ظاهر می شود. برای بزرگ کردن کل جدول، دکمه را فشار دهید و سپس روی میانبر صفحه کلید ++ .

آمار رگرسیون اضافی به ترتیب نشان داده شده در طرح زیر خروجی خواهد شد:

مقدار ضریب b مقدار ضریب a
b خطای استاندارد خطای استاندارد الف
خطای استاندارد y
آمار F
مجموع رگرسیون مربع ها

شکل 4 نتیجه محاسبه تابع LINEST

معادله رگرسیون را بدست آوردیم:

نتیجه می گیریم: با افزایش سرانه حداقل 1 روبل. متوسط ​​دستمزد روزانه به طور متوسط ​​0.92 روبل افزایش می یابد.

به معنی 52 درصد تنوع دستمزد(y) با تغییر ضریب x - میانگین حداقل معیشت سرانه و 48٪ - با عملکرد سایر عواملی که در مدل گنجانده نشده است توضیح داده می شود.

با توجه به ضریب تعیین محاسبه شده، می توان ضریب همبستگی را محاسبه کرد: .

رابطه نزدیک رتبه بندی می شود.

4. با استفاده از میانگین (عمومی) ضریب کشش، قدرت تأثیر عامل بر نتیجه را تعیین می کنیم.

برای معادله خط مستقیم، ضریب کشش متوسط ​​(عمومی) با فرمول تعیین می شود:

با انتخاب مساحت سلول های دارای مقادیر x، مقادیر متوسط ​​را پیدا کرده و انتخاب می کنیم فرمول ها / جمع خودکار / میانگینو همین کار را با مقادیر y انجام دهید.

شکل 5 محاسبه مقادیر میانگین یک تابع و آرگومان

بنابراین، اگر میانگین سرانه حداقل معیشتی 1 درصد از مقدار متوسط ​​خود تغییر کند، متوسط ​​دستمزد روزانه به طور متوسط ​​0.51 درصد تغییر خواهد کرد.

استفاده از ابزار تجزیه و تحلیل داده ها پسرفتدر دسترس:
- نتایج آمار رگرسیون،
- نتایج تجزیه و تحلیل پراکندگی،
- نتایج فواصل اطمینان،
- نمودارهای برازش باقیمانده و خط رگرسیون،
- باقی مانده ها و احتمال عادی.

روند کار به صورت زیر است:

1) بررسی دسترسی به بسته تحلیلی. در منوی اصلی به ترتیب انتخاب کنید: فایل/تنظیمات/افزونه ها.

2) رها کردن کنترلمورد را انتخاب کنید افزونه های اکسلو دکمه را فشار دهید برو

3) در پنجره افزونه هاکادر را علامت بزنید بسته تحلیلیو سپس روی دکمه کلیک کنید خوب.

اگر یک بسته تحلیلیاز لیست فیلد موجود نیست افزونه های موجود، دکمه را فشار دهید مروربرای جستجو

اگر پیامی مبنی بر نصب نشدن بسته تحلیلی روی رایانه دریافت کردید، کلیک کنید آرهبرای نصب آن

4) در منوی اصلی، به ترتیب انتخاب کنید: داده ها / تجزیه و تحلیل داده ها / ابزارهای تجزیه و تحلیل / رگرسیونو سپس روی دکمه کلیک کنید خوب.

5) کادر محاوره ای گزینه های ورودی و خروجی داده را پر کنید:

فاصله ورودی Y- محدوده حاوی داده های ویژگی موثر؛

فاصله ورودی X- محدوده حاوی داده های ویژگی عامل؛

برچسب ها- پرچمی که نشان می دهد خط اول شامل نام ستون ها است یا خیر.

ثابت - صفر- پرچمی که وجود یا عدم وجود یک عبارت آزاد در معادله را نشان می دهد.

فاصله خروجی- کافی است سلول سمت چپ بالای محدوده آینده را نشان دهید.

6) کاربرگ جدید - می توانید یک نام دلخواه برای برگه جدید تعیین کنید.

سپس دکمه را فشار دهید خوب.

شکل 6 کادر محاوره ای برای وارد کردن پارامترهای ابزار Regression

نتایج تحلیل رگرسیون برای داده های مسئله در شکل 7 نشان داده شده است.

شکل 7 نتیجه اعمال ابزار رگرسیون

5. تخمین استفاده از خطای متوسطکیفیت تقریبی معادلات بیایید از نتایج تحلیل رگرسیون ارائه شده در شکل 8 استفاده کنیم.

شکل 8 نتیجه به کارگیری ابزار رگرسیون "استنتاج باقیمانده"

بیایید یک جدول جدید همانطور که در شکل 9 نشان داده شده است بسازیم. در ستون C، محاسبه کنید خطای مربوطهتقریب با فرمول:

شکل 9 محاسبه میانگین خطای تقریب

میانگین خطای تقریب با فرمول محاسبه می شود:

کیفیت مدل ساخته شده خوب ارزیابی می شود، زیرا از 8 تا 10 درصد تجاوز نمی کند.

6. از جدول با آمار رگرسیون(شکل 4) بیایید مقدار واقعی معیار F فیشر را بنویسیم:

از آنجا که در سطح معنی‌داری 5 درصد، می‌توان نتیجه گرفت که معادله رگرسیون معنادار است (رابطه ثابت شده است).

8. با استفاده از آماره t Student و با محاسبه فاصله اطمینان برای هر یک از شاخص ها، اهمیت آماری پارامترهای رگرسیون را ارزیابی خواهیم کرد.

ما فرضیه H 0 را در مورد تفاوت آماری ناچیز شاخص ها از صفر مطرح می کنیم:

.

برای تعداد درجات آزادی

شکل 7 مقادیر واقعی آماره t را نشان می دهد:

آزمون t برای ضریب همبستگی را می توان به دو روش محاسبه کرد:

من راه:

جایی که - خطای تصادفی ضریب همبستگی.

داده ها را برای محاسبه از جدول شکل 7 می گیریم.

راه دوم:

مقادیر آماری t واقعی نسبت به مقادیر جدول برتری دارند:

بنابراین، فرضیه H 0 رد می شود، یعنی پارامترهای رگرسیون و ضریب همبستگی به طور تصادفی با صفر تفاوت ندارند، اما از نظر آماری معنادار هستند.

فاصله اطمینان برای پارامتر a به صورت تعریف شده است

برای پارامتر a، کران های 95%، همانطور که در شکل 7 نشان داده شده است، عبارت بودند از:

فاصله اطمینان برای ضریب رگرسیون به صورت تعریف شده است

برای ضریب رگرسیون b، کران های 95% همانطور که در شکل 7 نشان داده شده است:

تجزیه و تحلیل مرزهای بالا و پایین فواصل اطمینان به این نتیجه می رسد که با یک احتمال پارامترهای a و b که در محدوده های مشخص شده قرار دارند، مقادیر صفر را نمی گیرند، یعنی. از نظر آماری معنی دار نیستند و تفاوت معنی داری با صفر دارند.

7. برآوردهای به دست آمده از معادله رگرسیون به ما امکان می دهد از آن برای پیش بینی استفاده کنیم. اگر مقدار پیش‌بینی حداقل معیشت:

سپس مقدار پیش‌بینی‌شده حداقل معیشت به صورت زیر خواهد بود:

خطای پیش بینی را با استفاده از فرمول محاسبه می کنیم:

جایی که

ما همچنین واریانس را با استفاده از Excel PPP محاسبه می کنیم. برای این:

1) فعال کنید Function Wizard: در منوی اصلی را انتخاب کنید فرمول ها / درج تابع.

3) محدوده حاوی داده های عددی مشخصه عامل را پر کنید. کلیک خوب.

شکل 10 محاسبه واریانس

مقدار واریانس را دریافت کنید

برای محاسبه واریانس باقیمانده به ازای یک درجه آزادی، از نتایج تحلیل واریانس همانطور که در شکل 7 نشان داده شده است استفاده می کنیم.

فواصل اطمینان برای پیش بینی مقادیر فردی y در با احتمال 0.95 با عبارت:

این فاصله بسیار گسترده است، در درجه اول به دلیل حجم کم مشاهدات. به طور کلی، پیش بینی برآورده شده از میانگین حقوق ماهانه قابل اعتماد بود.

شرط مسئله از: Workshop on Econometrics: Proc. کمک هزینه / I.I. السیوا، اس.و. کوریشوا، ن.م. گوردینکو و دیگران؛ اد. I.I. السیوا - م.: امور مالی و آمار، 1382. - 192 ص: بیمار.

اتاق بخار رگرسیون خطی رابطه بین یک متغیر و میانگین متغیر دیگر است. اغلب، مدل به صورت $y=ax+b+e$ نوشته می‌شود، که $x$ یک متغیر عامل است، $y$ نتیجه (وابسته)، $e$ یک جزء تصادفی (باقیمانده، انحراف) است.

در مسائل آموزشی در آمار ریاضی معمولا از موارد زیر استفاده می شود الگوریتمبرای یافتن معادله رگرسیون

  1. انتخاب مدل (معادله). اغلب مدل از پیش تعیین شده است (یافت رگرسیون خطی) یا برای استفاده انتخابی روش گرافیکی: یک Scatterplot بسازید و شکل آن را تجزیه و تحلیل کنید.
  2. محاسبه ضرایب (پارامترهای) معادله رگرسیون. این اغلب با استفاده از روش حداقل مربعات انجام می شود.
  3. بررسی اهمیت ضریب همبستگی و پارامترهای مدل (فاصله های اطمینان نیز می توان برای آنها ایجاد کرد)، ارزیابی کیفیت مدل با استفاده از معیار فیشر.
  4. تحلیل باقیمانده، محاسبه خطای استاندارد رگرسیون، پیش‌بینی مدل (اختیاری).

در زیر راه‌حل‌هایی برای رگرسیون زوجی (روی سری داده‌ها یا جدول همبستگی، با وظایف مختلف اضافی) و چند کار برای تعیین و بررسی ضریب همبستگی پیدا خواهید کرد.


دوست داشت؟ نشانک

نمونه راه حل های آنلاین: رگرسیون خطی

انتخاب ساده

مثال 1در 20 فروشگاه در هر سه ماه، داده هایی در مورد میانگین خروجی هر کارگر Y (هزار روبل) و گردش مالی X (هزار روبل) وجود دارد. بر اساس داده های مشخص شده لازم است:
1) تعیین وابستگی (ضریب همبستگی) متوسط ​​تولید هر کارگر به گردش مالی،
2) معادله رگرسیون مستقیم این وابستگی را بسازید.

مثال 2به منظور تجزیه و تحلیل تأثیر متقابل دستمزد و گردش کار در پنج شرکت از همان نوع با تعداد کارمندان یکسان، اندازه گیری سطح حقوق ماهانه X و تعداد کارگرانی که در طول سال Y ترک کردند:
X 100 150 200 250 300
Y 60 35 20 20 15
رگرسیون خطی Y روی X، ضریب همبستگی نمونه را بیابید.

مثال 3انتخابی را پیدا کنید ویژگی های عددیو معادله رگرسیون خطی $y_x=ax+b$ را نمونه کنید. یک خط رگرسیون بسازید و نقاط $(x,y)$ را از جدول روی صفحه رسم کنید. محاسبه پراکندگی باقی مانده. کفایت مدل رگرسیون خطی را با ضریب تعیین بررسی کنید.

مثال 4ضرایب معادله رگرسیون را محاسبه کنید. ضریب همبستگی نمونه بین چگالی چوب خاکستر منچوری و استحکام آن را تعیین کنید.
برای حل مسئله، لازم است یک فیلد همبستگی ایجاد کنید، نوع وابستگی را بر اساس نوع فیلد تعیین کنید، بنویسید. فرم کلیمعادله رگرسیون Y روی X، ضرایب معادله رگرسیون را تعیین کنید و ضرایب همبستگی بین دو مقدار داده شده را محاسبه کنید.

مثال 5یک شرکت اجاره خودرو به رابطه بین مسافت پیموده شده خودروهای X و هزینه ماهانه علاقه مند است. نگهداریبرای تعیین ماهیت این رابطه، 15 وسیله نقلیه انتخاب شدند. نموداری از داده های اولیه بسازید و ماهیت وابستگی به آن را تعیین کنید. ضریب همبستگی خطی پیرسون نمونه را محاسبه کنید، اهمیت آن را در 0.05 بررسی کنید. یک معادله رگرسیون بسازید و نتایج را تفسیر کنید.

جدول همبستگی

مثال 6یک نمونه معادله رگرسیون مستقیم Y بر روی X با یک جدول همبستگی پیدا کنید

مثال 7جدول 2 داده های مربوط به وابستگی مصرف Y (r.u.) به درآمد X (r.u.) را برای برخی خانوارها نشان می دهد.
1. با فرض وجود رابطه خطی بین X و Y، پیدا کنید تخمین های نقطه ایضرایب رگرسیون خطی
2. پیدا کنید انحراف معیار$s$ و ضریب تعیین $R^2$.
3. با فرض نرمال بودن مولفه تصادفی مدل رگرسیون، این فرضیه را آزمایش کنید که بین Y و X رابطه خطی وجود ندارد.
4. مصرف مورد انتظار یک خانوار با درآمد x_n=7$ ارب چقدر است. واحدها؟ فاصله اطمینان برای پیش بینی را پیدا کنید.
تفسیری از نتایج بدست آمده ارائه دهید. سطح معنی داری در تمامی موارد برابر با 05/0 در نظر گرفته شده است.

مثال 8توزیع 100 نوع تعرفه جدید برای ارتباطات سلولی تمام سیستم های تلفن همراه شناخته شده X (واحد پول) و درآمد حاصل از آنها Y (واحد پول) در جدول آورده شده است:
لازم:
1) محاسبه میانگین گروه و ایجاد خطوط رگرسیون تجربی.
2) با فرض وجود همبستگی خطی بین متغیرهای X و Y:
الف) معادلات خطوط رگرسیون را پیدا کنید، نمودارهای آنها را بر روی همان نقاشی با خطوط رگرسیون تجربی بسازید و یک تفسیر اقتصادی از معادلات به دست آمده ارائه دهید.
ب) ضریب همبستگی را محاسبه کنید، اهمیت آن را در سطح معناداری 0.05 ارزیابی کنید و در مورد نزدیکی و جهت رابطه بین متغیرهای X و Y نتیجه گیری کنید.
ج) با استفاده از معادله رگرسیون مناسب، میانگین درآمد حاصل از سیستم های تلفن همراه را با 20 نوع تعرفه جدید برآورد کنید.

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...