با استفاده از روش حداقل مربعات، حاصل جمع. روش حداقل مربعات در اکسل

وظیفه یافتن ضرایب وابستگی خطی است که در آن تابع دو متغیر است آو بمی پذیرد کوچکترین ارزش. یعنی داده شده آو بمجموع انحرافات مجذور داده های تجربی از خط مستقیم یافت شده کوچکترین خواهد بود. این تمام ماهیت روش است کمترین مربعات.

بنابراین، حل مثال به یافتن حداکثر یک تابع از دو متغیر ختم می شود.

استخراج فرمول برای یافتن ضرایب.یک سیستم دو معادله با دو مجهول گردآوری و حل می شود. یافتن مشتقات جزئی یک تابع توسط متغیرها آو ب، این مشتقات را با صفر برابر می کنیم.

سیستم معادلات حاصل را با استفاده از هر روشی حل می کنیم (مثلاً روش جایگزینی یا روش کرامر) و فرمول هایی را برای یافتن ضرایب با استفاده از روش حداقل مربعات (LSM) به دست می آوریم.

داده شده آو بتابع کمترین مقدار را می گیرد.

این کل روش حداقل مربعات است. فرمول برای یافتن پارامتر آشامل مجموع ، ، ، و پارامتر است n- مقدار داده های تجربی توصیه می کنیم مقادیر این مقادیر را جداگانه محاسبه کنید. ضریب ببعد از محاسبه پیدا شد آ.

حوزه اصلی کاربرد چنین چندجمله ای پردازش داده های تجربی (ساخت فرمول های تجربی) است. واقعیت این است که یک چند جمله ای درون یابی ساخته شده از مقادیر تابع به دست آمده از طریق آزمایش به شدت تحت تأثیر "نویز تجربی" قرار می گیرد؛ علاوه بر این، هنگام درون یابی، گره های درون یابی نمی توانند تکرار شوند، به عنوان مثال. نتایج آزمایش های مکرر در شرایط یکسان قابل استفاده نیست. چند جمله ای ریشه میانگین مربع نویز را صاف می کند و به شما امکان می دهد از نتایج آزمایش های متعدد استفاده کنید.

ادغام و تمایز عددی مثال.

ادغام عددی- محاسبه مقدار یک انتگرال معین (معمولاً تقریبی). یکپارچه سازی عددی به عنوان مجموعه ای از روش های عددی برای یافتن مقدار یک انتگرال معین درک می شود.

تمایز عددی- مجموعه ای از روش ها برای محاسبه مقدار مشتق یک تابع مشخص شده گسسته.

ادغام

فرمول بندی مسئله.بیان مسئله ریاضی: باید مقدار را پیدا کنید انتگرال معین

که در آن a، b متناهی هستند، f(x) در [a، b] پیوسته است.

هنگام تصمیم گیری مشکلات عملیاغلب اتفاق می افتد که انتگرال به صورت تحلیلی ناخوشایند یا غیرممکن است: ممکن است در توابع ابتدایی بیان نشود، انتگرال را می توان به شکل جدول ارائه داد و غیره. در چنین مواردی از روش هایی استفاده می شود. ادغام عددی. روش‌های ادغام عددی از جایگزینی مساحت ذوزنقه منحنی با مجموع محدود مساحت‌های ساده‌تر استفاده می‌کنند. شکل های هندسی، که دقیقاً قابل محاسبه است. به این معنا، آنها در مورد استفاده از فرمول های تربیعی صحبت می کنند.

اکثر روش ها از نمایش انتگرال به عنوان یک مجموع محدود (فرمول مربعات) استفاده می کنند:

فرمول های ربع بر اساس ایده جایگزینی نمودار انتگرال در بخش ادغام با توابع بیشتر است. نوع ساده، که می تواند به راحتی به صورت تحلیلی ادغام شود و در نتیجه به راحتی محاسبه شود. وظیفه ساخت فرمول های ربع به سادگی برای مدل های ریاضی چند جمله ای اجرا می شود.

سه گروه از روش ها را می توان تشخیص داد:

1. روش با تقسیم بخش ادغام به فواصل مساوی. تقسیم بندی به فواصل از قبل انجام می شود؛ معمولاً فواصل برابر انتخاب می شوند (برای اینکه محاسبه تابع در انتهای فواصل آسان تر شود). مساحت ها را محاسبه کرده و آنها را جمع کنید (مستطیل، ذوزنقه، روش های سیمپسون).

2. روش های پارتیشن بندی بخش ادغام با استفاده از نقاط خاص (روش گاوس).

3. محاسبه انتگرال ها با استفاده از اعداد تصادفی(روش مونت کارلو).

روش مستطیل.اجازه دهید تابع (شکل) باید به صورت عددی در بخش ادغام شود. قطعه را به N بازه مساوی تقسیم کنید. مساحت هر یک از ذوزنقه های منحنی N را می توان با مساحت یک مستطیل جایگزین کرد.

عرض همه مستطیل ها یکسان و برابر است:

برای انتخاب ارتفاع مستطیل ها می توانید مقدار تابع را در حاشیه سمت چپ انتخاب کنید. در این حالت، ارتفاع مستطیل اول f(a)، دومی - f(x 1)،...، N-f(N-1) خواهد بود.

اگر مقدار تابع در حاشیه سمت راست را برای انتخاب ارتفاع مستطیل بگیریم، در این صورت ارتفاع مستطیل اول f(x 1)، دومی - f(x 2)، ... ، N - f (x N).

همانطور که می بینید، در این مورد یکی از فرمول ها تقریبی به انتگرال با اضافه و دومی با کمبود می دهد. راه دیگری وجود دارد - استفاده از مقدار تابع در وسط بخش ادغام برای تقریب:

تخمین خطای مطلق روش مستطیل (وسط)

تخمین خطای مطلق روش های مستطیل چپ و راست.

مثال.کل فاصله را محاسبه کنید و فاصله را به چهار بخش تقسیم کنید

راه حل.محاسبه تحلیلی این انتگرال I=arctg(1)–arctg(0)=0.7853981634 را به دست می دهد. در مورد ما:

1)h = 1; xo = 0; x1 = 1;

2) h = 0.25 (1/4); x0 = 0; x1 = 0.25; x2 = 0.5; x3 = 0.75; x4 = 1;

بیایید با استفاده از روش مستطیل سمت چپ محاسبه کنیم:

بیایید با استفاده از روش مستطیل راست محاسبه کنیم:

بیایید با استفاده از روش مستطیل متوسط ​​محاسبه کنیم:

روش ذوزنقه ای.استفاده از یک چند جمله ای درجه یک (خط مستقیمی که از دو نقطه کشیده شده است) برای درون یابی فرمول ذوزنقه ای شکل می گیرد. انتهای بخش ادغام به عنوان گره های درون یابی در نظر گرفته می شود. بنابراین، ذوزنقه منحنی با یک ذوزنقه معمولی جایگزین می شود که مساحت آن را می توان حاصل ضرب نصف مجموع پایه ها و ارتفاع یافت.

در مورد N بخش ادغام برای همه گره ها، به جز نقاط افراطیبخش، ارزش توابع گنجانده خواهد شد V مبلغ کلدو بار (از آنجایی که ذوزنقه های مجاور یک طرف مشترک دارند)

فرمول ذوزنقه ای را می توان با گرفتن نصف مجموع فرمول های مستطیل در امتداد لبه های راست و چپ قطعه به دست آورد:

بررسی پایداری محلولبه عنوان یک قاعده، از طول کوتاه ترهر بازه، یعنی چگونه تعداد بزرگتراین فواصل، تفاوت بین مقدار تقریبی و دقیق انتگرال کمتر است. این برای اکثر توابع صادق است. در روش ذوزنقه ای خطا در محاسبه انتگرال ϭ تقریباً متناسب با مربع مرحله انتگرال است (ϭ ~ h 2) بنابراین برای محاسبه انتگرال یک تابع معین بر حسب a,b لازم است قطعه را به فواصل N 0 تقسیم کنید و مجموع مساحت ذوزنقه را پیدا کنید. سپس باید تعداد فواصل N 1 را افزایش دهید، دوباره مجموع ذوزنقه را محاسبه کنید و مقدار حاصل را با نتیجه قبلی مقایسه کنید. این باید تا (N i) تکرار شود تا دقت مشخص شده حاصل شود (معیار همگرایی).

برای روش های مستطیل و ذوزنقه معمولاً در هر مرحله تکرار تعداد فواصل 2 برابر افزایش می یابد (N i +1 = 2N i).

معیار همگرایی:

مزیت اصلی قاعده ذوزنقه ای سادگی آن است. با این حال، اگر هنگام محاسبه انتگرال به دقت بالایی نیاز باشد، این روش ممکن است به تکرارهای بیش از حد نیاز داشته باشد.

خطای مطلقروش ذوزنقه ایبه عنوان برآورد می شود
.

مثال.یک انتگرال تقریبا معین را با استفاده از فرمول ذوزنقه ای محاسبه کنید.

الف) تقسیم بخش ادغام به 3 قسمت.
ب) تقسیم بخش ادغام به 5 قسمت.

راه حل:
الف) طبق شرط، بخش ادغام باید به 3 قسمت تقسیم شود، یعنی.
بیایید طول هر بخش پارتیشن را محاسبه کنیم: .

بنابراین، فرمول کلی ذوزنقه ها به اندازه دلپذیر کاهش می یابد:

سرانجام:

اجازه دهید به شما یادآوری کنم که مقدار حاصل یک مقدار تقریبی مساحت است.

ب) بخش ادغام را به 5 قسمت مساوی تقسیم می کنیم، یعنی. با افزایش تعداد بخش ها، دقت محاسبات را افزایش می دهیم.

اگر، فرمول ذوزنقه ای شکل زیر را دارد:

بیایید مرحله پارتیشن را پیدا کنیم:
، یعنی طول هر قطعه میانی 0.6 است.

هنگام نهایی کردن کار، راحت است که تمام محاسبات را با استفاده از جدول محاسبه رسمی کنید:

در خط اول می نویسیم "counter"

در نتیجه:

خوب، واقعاً یک توضیح وجود دارد، و یک توضیح جدی!
اگر برای 3 بخش پارتیشن، سپس برای 5 بخش. اگر بخش بزرگتری را انتخاب کنید => دقیق تر خواهد بود.

فرمول سیمپسونفرمول ذوزنقه ای نتیجه ای به دست می دهد که به شدت به اندازه گام h بستگی دارد، که بر دقت محاسبه یک انتگرال خاص تأثیر می گذارد، به خصوص در مواردی که تابع غیر یکنواخت است. می‌توان فرض کرد که دقت محاسبات افزایش می‌یابد اگر به‌جای قطعات مستقیم که جایگزین قطعات منحنی نمودار تابع f(x) شوند، از قطعات سهمی که از طریق سه نقطه مجاور نمودار داده شده‌اند استفاده کنیم. این تفسیر هندسی زیربنای روش سیمپسون برای محاسبه انتگرال معین است. کل فاصله ادغام a,b به N بخش تقسیم می شود، طول قطعه نیز برابر با h=(b-a)/N خواهد بود.

فرمول سیمپسون به این صورت است:

مدت باقی مانده

با افزایش طول قطعات، دقت فرمول کاهش می یابد، بنابراین برای افزایش دقت از فرمول ترکیبی سیمپسون استفاده می شود. کل فاصله ادغام به تعداد زوج از بخش های یکسان N تقسیم می شود، طول قطعه نیز برابر با h=(b-a)/N خواهد بود. فرمول ترکیب سیمپسون:

در فرمول، عبارات داخل پرانتز به ترتیب مجموع مقادیر انتگرال را در انتهای بخش‌های فرد و زوج داخلی نشان می‌دهند.

باقیمانده فرمول سیمپسون با توان چهارم گام متناسب است:

مثال:با استفاده از قانون سیمپسون، انتگرال را محاسبه کنید. (راه حل دقیق - 0.2)

روش گاوس

فرمول ربع گاوسی. اصل اساسی فرمول های تربیعی نوع دوم از شکل 1.12 قابل مشاهده است: لازم است نقاط را به این ترتیب قرار دهیم. ایکس 0 و ایکس 1 در داخل بخش [ آ;ب]، به طوری که مساحت کل "مثلث" برابر با مساحت "قطعه" باشد. هنگام استفاده از فرمول گاوس، بخش اصلی [ آ;ب] با جایگزینی متغیر به بخش [-1;1] کاهش می یابد ایکسبر

0.5∙(بآ)∙تی+ 0.5∙(ب + آ).

سپس ، جایی که .

چنین جایگزینی ممکن است اگر آو بمحدود هستند و تابع f(ایکس) پیوسته در [ آ;ب]. فرمول گاوس در nنکته ها x i, من=0,1,..,n-1 در داخل قطعه [ آ;ب]:

, (1.27)

جایی که تی منو یک آیبرای مختلف nدر کتاب های مرجع آورده شده است. مثلاً وقتی n=2 آ 0 =آ 1 = 1; در n=3: تی 0 =t 2 "0.775، تی 1 =0, آ 0 =A 2 "0.555، آ 1 "0.889.

فرمول ربع گاوسی

با تابع وزن برابر با واحد به دست می آید p(x)= 1 و گره ها x i، که ریشه های چند جمله ای لژاندر هستند

شانس یک آیمحاسبه آسان با استفاده از فرمول ها

من=0,1,2,...n.

مقادیر گره ها و ضرایب برای n=2،3،4،5 در جدول آورده شده است.

سفارش گره ها شانس
n=2 x 1=0 x 0 =-x 2=0.7745966692 الف 1=8/9 A 0 = A 2=5/9
n=3 x 2 =-x 1=0.3399810436 x 3 =-x 0=0.8611363116 A 1 = A 2=0.6521451549 A 0 = A 3=0.6521451549
n=4 ایکس 2 = 0 ایکس 3 = -ایکس 1 = 0.5384693101 ایکس 4 =-ایکس 0 =0.9061798459 آ 0 =0.568888899 آ 3 =آ 1 =0.4786286705 آ 0 =آ 4 =0.2869268851
n=5 ایکس 5 = -ایکس 0 =0.9324695142 ایکس 4 = -ایکس 1 =0.6612093865 ایکس 3 = -ایکس 2 =0.2386191861 آ 5 =A 0 =0.1713244924 آ 4 =A 1 =0.3607615730 آ 3 =A 2 =0.4679139346

مثال.مقدار را با استفاده از فرمول گاوس برای محاسبه کنید n=2:

ارزش دقیق: .

الگوریتم محاسبه انتگرال با استفاده از فرمول گاوس شامل دوبرابر کردن تعداد ریزبخش ها نیست، بلکه افزایش تعداد ارتین ها با 1 و مقایسه مقادیر به دست آمده از انتگرال است. مزیت فرمول گاوس دقت بالای آن با تعداد نسبتاً کمی از ارتین است. معایب: ناخوشایند برای محاسبات دستی. لازم است مقادیر را در حافظه کامپیوتر ذخیره کنید تی من, یک آیبرای مختلف n.

خطای فرمول ربع گاوسی روی قطعه خواهد بود برای باقیمانده فرمول ترم و ضریب α نبا رشد به سرعت کاهش می یابد ن. اینجا

فرمول های گاوسی دقت بالایی را حتی با تعداد کمی گره (از 4 تا 10) ارائه می دهند.در این حالت در محاسبات عملی تعداد گره ها از چند صد تا چند هزار متغیر است. همچنین توجه داشته باشید که وزن های ربع گاوسی همیشه مثبت هستند که پایداری الگوریتم محاسبه مجموع را تضمین می کند.

تفکیک.هنگام حل مسائل، اغلب لازم است مشتقی از یک ترتیب معین از تابع f(x) ارائه شده در جدول پیدا شود. علاوه بر این، گاهی اوقات به دلیل پیچیدگی بیان تحلیلی تابع f(x)، تمایز مستقیم آن بسیار دشوار است و همچنین زمانی که حل عددی معادلات دیفرانسیل. در این موارد از تمایز عددی استفاده می شود.

  • آموزش

معرفی

من یک ریاضی دان و برنامه نویس هستم. بزرگترین جهشی که در حرفه ام انجام دادم زمانی بود که یاد گرفتم بگویم: "من هیچی نمیفهمم!"حالا خجالت نمی کشم به مرشد علم بگویم که برای من سخنرانی می کند، من نمی فهمم که آن بزرگوار به من چه می گوید. و خیلی سخته بله، اعتراف به نادانی خود سخت و شرم آور است. چه کسی دوست دارد اعتراف کند که اصول چیزی را نمی داند؟ با توجه به حرفه ام، باید در تعداد زیادی سخنرانی و سخنرانی شرکت کنم، جایی که، اعتراف می کنم، در اکثر موارد می خواهم بخوابم زیرا چیزی نمی فهمم. اما من نمی فهمم زیرا مشکل بزرگ وضعیت فعلی علم در ریاضیات نهفته است. فرض بر این است که همه شنوندگان کاملاً با تمام زمینه های ریاضیات آشنا هستند (که پوچ است). اعتراف به اینکه نمی دانید مشتق چیست (در مورد چیستی آن کمی بعد صحبت خواهیم کرد) شرم آور است.

اما یاد گرفتم بگویم که نمی دانم ضرب چیست. بله، من نمی دانم جبر فرعی بر جبر دروغ چیست. بله، من نمی دانم چرا آنها در زندگی مورد نیاز هستند معادلات درجه دوم. به هر حال، اگر مطمئن هستید که می دانید، پس ما باید در مورد آن صحبت کنیم! ریاضیات یک سری ترفند است. ریاضیدانان سعی می کنند مردم را گیج و مرعوب کنند. جایی که هیچ سردرگمی وجود ندارد، شهرت و اقتدار وجود ندارد. بله، صحبت کردن به زبانی تا حد امکان انتزاعی معتبر است، که کاملا مزخرف است.

آیا می دانید مشتق چیست؟ به احتمال زیاد در مورد حد نسبت اختلاف به من خواهید گفت. در سال اول ریاضیات و مکانیک در دانشگاه ایالتی سن پترزبورگ، ویکتور پتروویچ خاوین به من گفت مشخصمشتق به عنوان ضریب اولین جمله از سری تیلور تابع در یک نقطه (این یک ژیمناستیک جداگانه برای تعیین سری تیلور بدون مشتقات بود). من مدت زیادی به این تعریف خندیدم تا اینکه بالاخره فهمیدم در مورد چیست. مشتق چیزی نیست جز یک اندازه گیری ساده از شباهت تابعی که ما متمایز می کنیم با تابع y=x, y=x^2, y=x^3.

اکنون این افتخار را دارم که برای دانشجویانی که می ترسدریاضیات اگر از ریاضی می ترسید ما در همین مسیر هستیم. به محض اینکه سعی کردید متنی را بخوانید و به نظرتان رسید که بیش از حد پیچیده است، بدانید که آن متن بد نوشته شده است. من ادعا می کنم که هیچ حوزه ای از ریاضیات وجود ندارد که بدون از دست دادن دقت، "روی انگشتان" مورد بحث قرار نگیرد.

تکلیف برای آینده نزدیک: من به دانش آموزانم وظیفه دادم تا بفهمند تنظیم کننده درجه دوم خطی چیست. خجالتی نباشید، سه دقیقه از زندگی خود را صرف کنید و پیوند را دنبال کنید. اگر چیزی متوجه نشدید، پس ما در همان مسیر هستیم. من (یک ریاضیدان-برنامه نویس حرفه ای) هم چیزی نفهمیدم. و من به شما اطمینان می دهم، می توانید این را "روی انگشتان خود" بفهمید. در حال حاضر نمی‌دانم چیست، اما به شما اطمینان می‌دهم که می‌توانیم آن را کشف کنیم.

بنابراین، اولین سخنرانی ای که قرار است برای شاگردانم داشته باشم بعد از اینکه آنها با وحشت به سمت من می آیند و می گویند که تنظیم کننده خطی-مربع چیز وحشتناکی است که هرگز در زندگی خود به آن مسلط نخواهید شد. روش های حداقل مربعات. میتونی تصمیم بگیری معادلات خطی? اگر در حال خواندن این متن هستید، به احتمال زیاد نه.

بنابراین، با توجه به دو نقطه (x0، y0)، (x1، y1)، به عنوان مثال، (1،1) و (3،2)، وظیفه یافتن معادله خطی است که از این دو نقطه می گذرد:

تصویر

این خط باید معادله ای مانند زیر داشته باشد:

در اینجا آلفا و بتا برای ما ناشناخته هستند، اما دو نقطه از این خط شناخته شده است:

می توانیم این معادله را به صورت ماتریسی بنویسیم:

در اینجا چه باید کرد انحراف غزلی: ماتریس چیست؟ ماتریس چیزی بیش از یک آرایه دو بعدی نیست. این روشی برای ذخیره سازی داده ها است؛ هیچ معانی دیگری نباید به آن ضمیمه شود. این دقیقاً به ما بستگی دارد که چگونه یک ماتریس خاص را تفسیر کنیم. من به صورت دوره ای آن را به عنوان یک نگاشت خطی، به صورت دوره ای به عنوان یک فرم درجه دوم، و گاهی اوقات به سادگی به عنوان مجموعه ای از بردارها تفسیر می کنم. این همه در چارچوب روشن خواهد شد.

بیایید ماتریس های بتنی را با نمایش نمادین آنها جایگزین کنیم:

سپس (آلفا، بتا) را می توان به راحتی پیدا کرد:

به طور خاص برای داده های قبلی ما:

که به معادله خطی که از نقاط (1،1) و (3،2) می گذرد، منجر می شود:

خوب، اینجا همه چیز روشن است. بیایید معادله خط عبوری را پیدا کنیم سهنقاط: (x0,y0)، (x1,y1) و (x2,y2):

اوه اوه، اما ما سه معادله برای دو مجهول داریم! یک ریاضیدان استاندارد خواهد گفت که هیچ راه حلی وجود ندارد. برنامه نویس چه خواهد گفت؟ و ابتدا سیستم معادلات قبلی را به شکل زیر بازنویسی می کند:

در مورد ما بردارهای i,j,bسه بعدی، بنابراین (در مورد کلی) هیچ راه حلی برای این سیستم وجود ندارد. هر بردار (alpha\*i + beta\*j) در صفحه ای قرار دارد که توسط بردارهای (i, j) پوشانده شده است. اگر b به این صفحه تعلق نداشته باشد، هیچ راه حلی وجود ندارد (برابری را نمی توان در معادله به دست آورد). چه باید کرد؟ بیایید به دنبال مصالحه باشیم. بیایید نشان دهیم e (آلفا، بتا)دقیقا چقدر به برابری دست نیافته ایم:

و ما سعی خواهیم کرد این خطا را به حداقل برسانیم:

چرا مربع؟

ما نه تنها به دنبال حداقل هنجار، بلکه به دنبال حداقل مربع هنجار هستیم. چرا؟ حداقل نقطه به خودی خود منطبق است، و مربع یک تابع صاف می دهد (یک تابع درجه دوم از آرگومان ها (آلفا، بتا))، در حالی که به سادگی طول یک تابع مخروطی شکل می دهد که در نقطه حداقل غیر قابل تمایز است. Brr. مربع راحت تر است.

بدیهی است که هنگام بردار خطا به حداقل می رسد همتعامد به صفحه ای که توسط بردارها پوشانده شده است منو j.

تصویر

به عبارت دیگر: ما به دنبال یک خط مستقیم هستیم که مجموع مجذور طول فواصل تمام نقاط تا این خط مستقیم حداقل باشد:

به روز رسانی: من در اینجا یک مشکل دارم، فاصله تا خط مستقیم باید به صورت عمودی اندازه گیری شود، نه با طرح ریزی متعامد. این مفسر درست می گوید.

تصویر

در کلمات کاملاً متفاوت (با دقت، به طور ضعیف رسمی شده است، اما باید واضح باشد): ما همه خطوط ممکن را بین همه جفت نقاط می گیریم و به دنبال خط متوسط ​​بین همه می گردیم:

تصویر

توضیح دیگر ساده است: ما یک فنر بین تمام نقاط داده (در اینجا ما سه نقطه داریم) و خط مستقیمی که به دنبال آن هستیم وصل می کنیم و خط مستقیم حالت تعادل دقیقاً همان چیزی است که به دنبال آن هستیم.

حداقل فرم درجه دوم

بنابراین، با توجه به این بردار بو صفحه ای که توسط بردارهای ستونی ماتریس پوشانده شده است آ(در این حالت (x0,x1,x2) و (1,1,1)) به دنبال بردار هستیم. هبا حداقل مربع طول بدیهی است که حداقل برای بردار قابل دستیابی است ه، متعامد به صفحه ای که توسط بردارهای ستون ماتریس پوشانده شده است آ:

به عبارت دیگر، ما به دنبال یک بردار x=(آلفا، بتا) هستیم که:

به شما یادآوری کنم که این بردار x=(آلفا، بتا) حداقل است تابع درجه دوم||e(آلفا، بتا)||^2:

در اینجا یادآوری این نکته مفید است که ماتریس را می توان به صورت یک فرم درجه دوم نیز تفسیر کرد، برای مثال، ماتریس هویت ((1,0),(0,1)) را می توان به عنوان یک تابع x^2 + y^ تفسیر کرد. 2:

فرم درجه دوم

تمام این ژیمناستیک با نام رگرسیون خطی شناخته می شود.

معادله لاپلاس با شرط مرزی دیریکله

اکنون ساده ترین کار واقعی: یک سطح مثلثی مشخص وجود دارد، لازم است آن را صاف کنید. به عنوان مثال، بیایید یک مدل از چهره من را بارگذاری کنیم:

commit اصلی موجود است. برای به حداقل رساندن وابستگی‌های خارجی، کد رندر نرم‌افزارم را که قبلاً روی Habré بود، گرفتم. برای راه حل ها سیستم خطیمن از OpenNL استفاده می کنم، این یک حل کننده عالی است، اما نصب آن بسیار دشوار است: شما باید دو فایل (.h+.c) را در پوشه پروژه خود کپی کنید. همه صاف کردن با کد زیر انجام می شود:

برای (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&face = faces[i]; برای (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

مختصات X، Y و Z قابل جدا شدن هستند، من آنها را جداگانه صاف می کنم. یعنی من سه سیستم معادلات خطی را حل می کنم که هر کدام تعدادی متغیر برابر با تعداد رئوس مدل من دارند. n سطر اول ماتریس A فقط یک 1 در هر سطر دارند و n سطر اول بردار b مختصات مدل اصلی را دارند. یعنی یک فنر بین موقعیت جدید راس و موقعیت قدیمی راس می بندم - جدیدها نباید خیلی از موقعیت های قدیمی دور شوند.

تمام ردیف‌های بعدی ماتریس A (faces.size()*3 = تعداد یال‌های همه مثلث‌ها در مش) یک رخداد 1 و یک وقوع 1- دارند که بردار b دارای مولفه‌های صفر در مقابل است. این به این معنی است که من یک فنر در هر لبه مش مثلثی خود قرار می دهم: همه لبه ها سعی می کنند راس یکسانی را با نقطه شروع و پایان خود بدست آورند.

بار دیگر: همه رئوس متغیر هستند و نمی توانند از موقعیت اصلی خود دور شوند، اما در عین حال سعی می کنند شبیه یکدیگر شوند.

نتیجه این است:

همه چیز خوب خواهد بود، مدل واقعا صاف است، اما از لبه اصلی خود فاصله گرفته است. بیایید کد را کمی تغییر دهیم:

برای (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

در ماتریس A، برای رئوس هایی که روی لبه هستند، یک ردیف از دسته v_i = verts[i][d] اضافه نمی کنم، بلکه 1000*v_i = 1000*verts[i][d] اضافه می کنم. چه چیزی را تغییر می دهد؟ و این شکل درجه دوم خطای ما را تغییر می دهد. اکنون یک انحراف از بالا در لبه نه یک واحد، مانند قبل، بلکه 1000 * 1000 واحد هزینه خواهد داشت. یعنی فنر قوی تری را روی رئوس انتهایی آویزان کردیم، راه حل ترجیح می دهد بقیه را قوی تر بکشد. نتیجه این است:

بیایید قدرت فنر بین رئوس را دو برابر کنیم:
nlCoefficient(face[j], 2); nlCoefficient(face[(j+1)%3], -2);

منطقی است که سطح صاف تر شده است:

و حالا حتی صد برابر قوی تر:

این چیه؟ تصور کنید که یک حلقه سیمی را در آب صابون فرو برده ایم. در نتیجه، فیلم صابونی به دست آمده سعی می کند تا حد ممکن کمترین انحنا را داشته باشد و لبه را لمس کند - حلقه سیمی ما. این دقیقاً همان چیزی است که با تعمیر حاشیه و درخواست سطح صاف در داخل به دست آوردیم. تبریک می گویم، ما به تازگی معادله لاپلاس را با شرایط مرزی دیریکله حل کردیم. باحال به نظر می رسد؟ اما در واقعیت، شما فقط باید یک سیستم معادلات خطی را حل کنید.

معادله پواسون

بیایید یک نام جالب دیگر را به یاد بیاوریم.

بیایید بگوییم که من تصویری مانند این دارم:

برای همه خوب به نظر می رسد، اما من صندلی را دوست ندارم.

عکس رو نصف میکنم:



و من یک صندلی را با دستان خود انتخاب می کنم:

سپس هر چیزی که در ماسک سفید است را به سمت چپ تصویر می کشم و در همان زمان در سراسر تصویر می گویم که تفاوت بین دو پیکسل همسایه باید برابر با تفاوت بین دو پیکسل همسایه سمت راست باشد. تصویر:

برای (int i=0; i

نتیجه این است:

کد و تصاویر موجود است

این به طور گسترده در اقتصاد سنجی در قالب یک تفسیر اقتصادی روشن از پارامترهای آن استفاده می شود.

رگرسیون خطی به یافتن معادله شکل می رسد

یا

معادله فرم بر اساس مقادیر پارامتر مشخص شده اجازه می دهد ایکسمقادیر نظری مشخصه حاصل را داشته باشد و مقادیر واقعی عامل را جایگزین آن کند. ایکس.

ساخت و ساز رگرسیون خطیبه تخمین پارامترهای آن ختم می شود - آو V.تخمین پارامترهای رگرسیون خطی را می توان با استفاده از روش های مختلف یافت.

رویکرد کلاسیک برای برآورد پارامترهای رگرسیون خطی بر اساس است روش حداقل مربعات(MNC).

روش حداقل مربعات به ما امکان می دهد چنین تخمین پارامترهایی را بدست آوریم آو که در آن مجموع انحرافات مجذور مقادیر واقعی مشخصه حاصل است (y)از محاسبه شده (نظری) کمترین:

برای یافتن حداقل یک تابع، باید مشتقات جزئی را برای هر یک از پارامترها محاسبه کنید آو بو آنها را برابر صفر قرار دهید.

بیایید نشان دهیم از طریق S، سپس:

با تبدیل فرمول، سیستم معادلات عادی زیر را برای تخمین پارامترها به دست می آوریم آو V:

با حل سیستم معادلات نرمال (3.5) یا به روش حذف متوالی متغیرها و یا با روش تعیین کننده ها، برآوردهای مورد نیاز پارامترها را پیدا می کنیم. آو V.

پارامتر Vضریب رگرسیون نامیده می شود. مقدار آن میانگین تغییر در نتیجه را با تغییر ضریب یک واحد نشان می دهد.

معادله رگرسیون همیشه با نشانگر نزدیک بودن اتصال تکمیل می شود. هنگام استفاده از رگرسیون خطی، چنین شاخصی ضریب همبستگی خطی است. اصلاحات مختلفی در فرمول ضریب همبستگی خطی وجود دارد. برخی از آنها در زیر آورده شده است:

همانطور که مشخص است، ضریب همبستگی خطی در حدود: -1 است 1.

برای ارزیابی کیفیت انتخاب یک تابع خطی، مربع محاسبه می شود

ضریب همبستگی خطی نامیده می شود ضریب تعیینضریب تعیین، نسبت واریانس مشخصه حاصل را مشخص می کند با رگرسیون، در کل واریانس صفت حاصل توضیح داده می شود:

بر این اساس، مقدار 1 سهم واریانس را مشخص می کند ناشی از تأثیر عوامل دیگری است که در مدل در نظر گرفته نشده اند.

سوالاتی برای خودکنترلی

1. ماهیت روش حداقل مربعات؟

2. رگرسیون زوجی چند متغیر ارائه می دهد؟

3. چه ضریبی نزدیک بودن ارتباط بین تغییرات را مشخص می کند؟

4. ضریب تعیین در چه حدودی تعیین می شود؟

5. برآورد پارامتر b در تحلیل همبستگی-رگرسیون؟

1. کریستوفر دوگرتی. مقدمه ای بر اقتصاد سنجی. - M.: INFRA - M، 2001 - 402 p.

2. س.ا. بورودیچ. اقتصاد سنجی. Minsk LLC "دانش جدید" 2001.


3. R.U. Rakhmetova دوره کوتاه در اقتصاد سنجی. آموزش. آلماتی 2004. -78 ص.

4. I.I. Eliseeva. اقتصاد سنجی. - م.: "مالی و آمار"، 2002

5. ماهنامه اطلاعات و تحلیلی.

مدل های اقتصادی غیرخطی مدل های رگرسیون غیرخطی تبدیل متغیرها

مدل های اقتصادی غیرخطی..

تبدیل متغیرها

ضریب الاستیسیته.

اگر روابط غیر خطی بین پدیده های اقتصادی وجود داشته باشد، آنها با استفاده از توابع غیرخطی مربوطه بیان می شوند: برای مثال، هذلولی متساوی الاضلاع , سهمی های درجه دوم و غیره.

دو دسته رگرسیون غیرخطی وجود دارد:

1. رگرسیون هایی که با توجه به متغیرهای توضیحی موجود در تجزیه و تحلیل غیرخطی هستند، اما با توجه به پارامترهای برآورد شده خطی هستند، به عنوان مثال:

چند جمله ای درجات مختلف - , ;

هذلولی متساوی الاضلاع - ;

تابع نیم لگاریتمی - .

2. رگرسیون هایی که در پارامترهای تخمین زده شده غیرخطی هستند، به عنوان مثال:

قدرت - ؛

نمایشی - ;

نمایی - .

مجموع مجذور انحرافات مقادیر فردی مشخصه حاصل دراز مقدار متوسط ​​ناشی از تأثیر دلایل بسیاری است. اجازه دهید به طور مشروط کل مجموعه دلایل را به دو گروه تقسیم کنیم: عامل مورد مطالعه xو عوامل دیگر

اگر عامل بر نتیجه تأثیری نداشته باشد، خط رگرسیون در نمودار موازی با محور است. اوهو

سپس کل واریانس مشخصه حاصل به دلیل تأثیر عوامل دیگر است و مجموع مجذور انحرافات با باقیمانده منطبق خواهد شد. اگر عوامل دیگر بر نتیجه تأثیر نگذارند، پس y گره خورده استبا ایکساز نظر عملکردی و مجموع مربعات باقیمانده صفر است. در این حالت، مجموع انحرافات مجذور تبیین شده توسط رگرسیون با مجموع مجذورات یکسان است.

از آنجایی که همه نقاط میدان همبستگی روی خط رگرسیون قرار ندارند، پراکندگی آنها همیشه در نتیجه تأثیر عامل رخ می دهد. ایکس، یعنی رگرسیون درتوسط ایکس،و ناشی از علل دیگر (تغییر غیر قابل توضیح). مناسب بودن یک خط رگرسیون برای پیش‌بینی بستگی به این دارد که چه بخشی از تغییرات کل صفت درتغییرات توضیح داده شده را به حساب می آورد

بدیهی است که اگر مجذور انحرافات ناشی از رگرسیون بیشتر از مجموع مجذور باقیمانده باشد، معادله رگرسیون از نظر آماری معنادار است و عامل ایکستاثیر بسزایی در نتیجه دارد تو

, یعنی با تعداد آزادی تغییر مستقل یک مشخصه. تعداد درجات آزادی مربوط به تعداد واحدهای جمعیت n و تعداد ثابت های تعیین شده از آن است. در رابطه با مسئله مورد مطالعه، تعداد درجات آزادی باید نشان دهد که چه تعداد انحراف مستقل از آن وجود دارد پ

ارزیابی اهمیت معادله رگرسیون به عنوان یک کل با استفاده از داده می شود اف-معیار فیشر در این مورد، یک فرضیه صفر مطرح می شود که ضریب رگرسیون برابر با صفر است، یعنی. b = 0 و در نتیجه فاکتور ایکسبر نتیجه تأثیر نمی گذارد تو

محاسبه فوری آزمون F با تحلیل واریانس انجام می شود. مکان مرکزی در آن با تجزیه مجموع مجذور انحرافات یک متغیر اشغال شده است. دراز مقدار متوسط دربه دو بخش - "توضیح" و "غیر قابل توضیح":

- مجموع مجذور انحرافات.

- مجموع انحرافات مجذور توضیح داده شده توسط رگرسیون.

- مجموع باقیمانده انحرافات مجذور.

هر مجموع انحرافات مجذور مربوط به تعداد درجات آزادی است , یعنی با تعداد آزادی تغییر مستقل یک مشخصه. تعداد درجات آزادی با تعداد واحدهای جمعیتی مرتبط است nو با تعداد ثابت های تعیین شده از آن. در رابطه با مسئله مورد مطالعه، تعداد درجات آزادی باید نشان دهد که چه تعداد انحراف مستقل از آن وجود دارد پممکن است مورد نیاز برای تشکیل یک مجموع معین از مربع.

پراکندگی به ازای درجه آزادیD.

نسبت های F (آزمون F):

اگر فرضیه صفر درست باشد، سپس واریانس عامل و باقیمانده با یکدیگر تفاوتی ندارند. برای H 0، ابطال لازم است به طوری که پراکندگی عامل چندین بار از پراکندگی باقیمانده بیشتر شود. Snedekor آماردان انگلیسی جداول مقادیر بحرانی را تهیه کرد اف-روابط در سطوح مختلف اهمیت فرضیه صفر و تعداد متفاوت درجات آزادی. مقدار جدول افمعیار حداکثر مقدار نسبت واریانس است که می تواند در صورت واگرایی تصادفی برای سطح معینی از احتمال وجود فرضیه صفر رخ دهد. مقدار محاسبه شده افاگر o بزرگتر از جدول باشد، روابط قابل اعتماد در نظر گرفته می شوند.

در این صورت فرضیه صفر مبنی بر عدم وجود رابطه بین نشانه ها رد می شود و در مورد اهمیت این رابطه نتیجه گیری می شود: F fact > جدول F H 0 رد می شود.

اگر مقدار کمتر از جدول باشد F fact ‹، F جدول، پس احتمال فرضیه صفر بالاتر از سطح مشخص شده است و بدون خطر جدی نتیجه گیری اشتباه در مورد وجود یک رابطه قابل رد نیست. در این حالت معادله رگرسیون از نظر آماری ناچیز در نظر گرفته می شود. اما او منحرف نمی شود.

خطای استاندارد ضریب رگرسیون

برای ارزیابی اهمیت ضریب رگرسیون، مقدار آن با خطای استاندارد آن مقایسه می شود، یعنی مقدار واقعی تعیین می شود. تی-آزمون دانش آموزی: که سپس با مقدار جدول در سطح معنی داری معین و تعداد درجات آزادی مقایسه می شود ( n- 2).

خطای پارامتر استاندارد آ:

اهمیت ضریب همبستگی خطی بر اساس بزرگی خطا بررسی می شود. ضریب همبستگی t r:

واریانس کل صفت ایکس:

رگرسیون خطی چندگانه

ساختمان نمونه

رگرسیون چندگانهنشان دهنده رگرسیون یک مشخصه مؤثر با دو یا چند عامل، یعنی مدلی از فرم است

در صورتی که بتوان از تأثیر سایر عوامل مؤثر بر موضوع مطالعه چشم پوشی کرد، رگرسیون می تواند نتایج خوبی در مدل سازی به همراه داشته باشد. رفتار متغیرهای اقتصادی منفرد قابل کنترل نیست، یعنی نمی توان از برابری سایر شرایط برای ارزیابی تأثیر یک عامل مورد مطالعه اطمینان حاصل کرد. در این مورد، باید سعی کنید با وارد کردن آنها به مدل، تأثیر عوامل دیگر را شناسایی کنید، یعنی یک معادله رگرسیون چندگانه بسازید: y = a+b 1 x 1 +b 2 +…+b p x p + .

هدف اصلی رگرسیون چندگانه ساختن مدلی با تعداد زیادی فاکتور است، در حالی که تأثیر هر یک از آنها به طور جداگانه و همچنین تأثیر ترکیبی آنها بر شاخص مدل شده تعیین می شود. مشخصات مدل شامل دو محدوده موضوع است: انتخاب عوامل و انتخاب نوع معادله رگرسیون.

3.5. روش حداقل مربعات

اولین کاری که پایه های روش حداقل مربعات را بنا نهاد، توسط لژاندر در سال 1805 انجام شد. لازم است ضرایب به گونه ای تعیین شود که بزرگی خطاهای آنها کمترین مقدار ممکن باشد. ساده‌ترین راه برای دستیابی به این، روشی است که شامل یافتن حداقل مجموع مجذور خطاها است.» در حال حاضر، این روش به‌طور گسترده‌ای در هنگام تقریب وابستگی‌های عملکردی ناشناخته که توسط بسیاری از نمونه‌های تجربی مشخص شده‌اند، به‌منظور به دست آوردن یک عبارت تحلیلی که بهترین تقریب را دارد، استفاده می‌شود. به یک آزمایش در مقیاس کامل

اجازه دهید، بر اساس یک آزمایش، لازم باشد که وابستگی عملکردی کمیت ایجاد شود y از x : فرض می کنیم که در نتیجه آزمایشی که به دست آوردیمnارزش های yبرای مقادیر متناظر آرگومانایکس. اگر نقاط آزمایش مانند شکل روی صفحه مختصات قرار داشته باشند، با دانستن اینکه خطاها در طول آزمایش رخ می دهند، می توانیم فرض کنیم که وابستگی خطی است، یعنی.y= تبر+ بتوجه داشته باشید که روش محدودیتی در نوع تابع اعمال نمی کند. می توان آن را برای هر وابستگی عملکردی اعمال کرد.

از دیدگاه آزمایشگر، اغلب طبیعی تر است که توالی نمونه برداری را در نظر بگیریماز قبل ثابت شده است، یعنی یک متغیر مستقل است و حساب می شود - متغیر وابسته. این به ویژه اگر زیر باشد واضح است به عنوان لحظاتی در زمان درک می شوند که بیشتر در کاربردهای فنی استفاده می شود.اما این فقط یک مورد خاص بسیار رایج است. به عنوان مثال، طبقه بندی برخی از نمونه ها بر اساس اندازه ضروری است. سپس متغیر مستقل تعداد نمونه و متغیر وابسته اندازه فردی آن خواهد بود.

روش حداقل مربعات در بسیاری از نشریات آموزشی و علمی به خصوص از نظر تقریب توابع در مهندسی برق و رادیو و همچنین در کتاب های نظریه احتمالات و آمار ریاضی به تفصیل شرح داده شده است.

بیایید به نقاشی برگردیم. خطوط نقطه چین نشان می‌دهند که خطاها نه تنها به دلیل روش‌های اندازه‌گیری ناقص، بلکه به دلیل عدم دقت در تعیین متغیر مستقل نیز می‌توانند ایجاد شوند. با نوع تابع انتخاب شده تنها چیزی که باقی می ماند این است که پارامترهای موجود در آن را انتخاب کنیدآو بواضح است که تعداد پارامترها می تواند بیش از دو باشد که فقط برای توابع خطی معمول است.به طور کلی فرض می کنیم

.(1)

شما باید شانس را انتخاب کنیدآ, ب, ج... تا شرط محقق شود

. (2)

بیایید ارزش ها را پیدا کنیم آ, ب, ج...، سمت چپ (2) را به حداقل برسانید. برای انجام این کار، نقاط ثابت (نقاطی که اولین مشتق در آن ناپدید می شود) را با تفکیک سمت چپ (2) نسبت بهآ, ب, ج:

(3)

و غیره. سیستم معادلات حاصل به تعداد مجهولات معادلات داردآ, ب, ج…. حل چنین سیستمی به صورت کلی غیرممکن است، بنابراین باید حداقل به طور تقریبی نوع خاصی از تابع را مشخص کرد، در ادامه به دو حالت توابع خطی و درجه دوم می پردازیم.

تابع خطی .

اجازه دهید مجموع اختلاف مجذور بین مقادیر تجربی و مقادیر تابع را در نقاط مربوطه در نظر بگیریم:

(4)

بیایید پارامترها را انتخاب کنیمآو ببه طوری که این مقدار کمترین مقدار را داشته باشد. بنابراین، کار به یافتن مقادیر می رسدآو ب، که در آن تابع دارای حداقل است، یعنی برای مطالعه تابع دو متغیر مستقلآو ببه حداقل برسد. برای انجام این کار، ما بر اساسآو ب:

;

.


یا

(5)

با جایگزینی داده های تجربی و , سیستمی از دو معادله خطی با دو مجهول بدست می آوریمآو ب. با حل این سیستم، می توانیم تابع را بنویسیم.

اجازه دهید مطمئن شویم که برای مقادیر یافت شدهآو بدارای حداقل است. برای انجام این کار، پیدا می کنیم و:

, , .

از این رو،

− = ,

>0,

آن ها حداقل شرط کافی برای یک تابع از دو متغیر برآورده می شود.

تابع درجه دوم .

اجازه دهید آزمایش مقادیر تابع را در نقاط بدست آورد. همچنین، بر اساس اطلاعات پیشینی، این فرض وجود داشته باشد که تابع درجه دوم است:

.

باید ضرایب را پیدا کنیمآ, بو ج.ما داریم

– تابع سه متغیرآ, ب, ج.

در این حالت، سیستم (3) به شکل زیر است:

یا:

پس از حل این سیستم معادلات خطی، مجهولات را تعیین می کنیمآ, ب, ج.

مثال.بگذارید چهار مقدار از تابع مورد نظر بر اساس آزمایش به دست آید y = (x ) با چهار مقدار آرگومان که در جدول آورده شده است:

روش حداقل مربعات

روش حداقل مربعات ( OLS، OLS، حداقل مربعات معمولی) - یکی از روش های اساسی تحلیل رگرسیون برای تخمین پارامترهای مجهول مدل های رگرسیونی با استفاده از داده های نمونه. این روش بر اساس به حداقل رساندن مجموع مجذورهای باقیمانده رگرسیون است.

لازم به ذکر است که خود روش حداقل مربعات را می توان روشی برای حل مسئله در هر ناحیه ای نامید که راه حل در معیاری برای به حداقل رساندن مجموع مجذورهای برخی از توابع متغیرهای مورد نیاز باشد یا دارای معیاری باشد. بنابراین، هنگام یافتن مجموعه‌ای از مقادیری که معادلات یا محدودیت‌هایی را برآورده می‌کنند که تعداد آنها از تعداد این کمیت‌ها بیشتر است، می‌توان از روش حداقل مربعات نیز برای نمایش تقریبی (تقریبی) یک تابع معین توسط توابع دیگر (ساده‌تر) استفاده کرد. ، و غیره.

ماهیت MNC

اجازه دهید یک مدل (پارامتری) از یک رابطه احتمالی (رگرسیون) بین متغیر (توضیح داده شده) ارائه شود. yو بسیاری از عوامل (متغیرهای توضیحی) ایکس

بردار پارامترهای مدل ناشناخته کجاست

- خطای مدل تصادفی

اجازه دهید مشاهدات نمونه ای از مقادیر این متغیرها نیز وجود داشته باشد. اجازه دهید عدد مشاهده (). سپس مقادیر متغیرها در مشاهده ام قرار دارند. سپس، برای مقادیر داده شده پارامترهای b، می توان مقادیر نظری (مدل) متغیر توضیح داده شده y را محاسبه کرد:

اندازه باقیمانده ها به مقادیر پارامترهای b بستگی دارد.

ماهیت روش حداقل مربعات (معمولی، کلاسیک) یافتن پارامترهای b است که مجموع مربعات باقیمانده (eng. مجموع باقیمانده مربع ها) حداقل خواهد بود:

در حالت کلی، این مشکل را می توان با روش های بهینه سازی عددی (به حداقل رساندن) حل کرد. در این مورد آنها صحبت می کنند حداقل مربعات غیر خطی(NLS یا NLLS - انگلیسی) حداقل مربعات غیر خطی). در بسیاری از موارد می توان به یک راه حل تحلیلی دست یافت. برای حل مسئله کمینه سازی، لازم است نقاط ثابت تابع را با تفکیک آن نسبت به پارامترهای مجهول b، معادل سازی مشتقات با صفر و حل سیستم معادلات حاصل، پیدا کنیم:

اگر خطاهای تصادفی مدل به طور معمول توزیع شده باشند، واریانس یکسانی داشته باشند و همبستگی نداشته باشند، برآوردهای پارامتر OLS همان برآوردهای حداکثر درستنمایی (MLM) است.

OLS در مورد یک مدل خطی

بگذارید وابستگی رگرسیون خطی باشد:

اجازه دهید yیک بردار ستونی از مشاهدات متغیر توضیح داده شده است و ماتریسی از مشاهدات عامل است (ردیف های ماتریس بردار مقادیر عامل در یک مشاهده داده شده هستند، ستون ها بردار مقادیر یک عامل معین هستند. در تمام مشاهدات). نمایش ماتریسی مدل خطی به صورت زیر است:

سپس بردار تخمین های متغیر توضیح داده شده و بردار باقیمانده های رگرسیون برابر خواهد بود.

بر این اساس مجموع مجذورهای باقیمانده رگرسیون برابر خواهد بود

با تمایز این تابع با توجه به بردار پارامترها و معادل سازی مشتقات با صفر، سیستمی از معادلات (به صورت ماتریسی) به دست می آید:

.

حل این سیستم معادلات فرمول کلی را برای برآورد حداقل مربعات برای یک مدل خطی به دست می دهد:

برای اهداف تحلیلی، نمایش اخیر این فرمول مفید است. اگر در مدل رگرسیونی داده ها متمرکز شده است، سپس در این نمایش ماتریس اول به معنای ماتریس کوواریانس نمونه عوامل است و دومی بردار کوواریانس عوامل با متغیر وابسته است. اگر علاوه بر این داده ها نیز باشد عادی شده استبه MSE (یعنی در نهایت استاندارد شده، سپس ماتریس اول به معنای ماتریس همبستگی نمونه عوامل است، بردار دوم - بردار همبستگی نمونه عوامل با متغیر وابسته.

ویژگی مهم تخمین OLS برای مدل ها با ثابت- خط رگرسیون ساخته شده از مرکز ثقل داده های نمونه می گذرد، یعنی برابری برآورده می شود:

به طور خاص، در حالت شدید، زمانی که تنها رگرسیون یک ثابت است، متوجه می‌شویم که تخمین OLS تنها پارامتر (خود ثابت) برابر است با مقدار متوسط ​​متغیر توضیح داده شده. یعنی، میانگین حسابی، که به دلیل خواص خوبش از قوانین اعداد بزرگ شناخته می شود، همچنین یک تخمین حداقل مربعات است - این معیار حداقل مجموع مجذور انحرافات از آن را برآورده می کند.

مثال: ساده ترین رگرسیون (جفتی).

در مورد رگرسیون خطی زوجی، فرمول های محاسبه ساده می شوند (شما می توانید بدون جبر ماتریسی انجام دهید):

ویژگی های برآوردگرهای OLS

اول از همه، متذکر می شویم که برای مدل های خطی، برآوردهای OLS، تخمین های خطی هستند، همانطور که از فرمول بالا آمده است. برای تخمین های OLS بی طرفانه، انجام مهم ترین شرط تحلیل رگرسیون لازم و کافی است: انتظار ریاضی یک خطای تصادفی، مشروط به عوامل، باید برابر با صفر باشد. این شرط، به ویژه، برآورده می شود اگر

  1. انتظار ریاضی خطاهای تصادفی صفر است و
  2. عوامل و خطاهای تصادفی متغیرهای تصادفی مستقل هستند.

شرط دوم - شرط برون زایی عوامل - اساسی است. اگر این ویژگی برآورده نشود، می توانیم فرض کنیم که تقریباً هر تخمینی بسیار رضایت بخش نخواهد بود: آنها حتی سازگار نخواهند بود (یعنی حتی حجم بسیار زیادی از داده ها به ما امکان نمی دهد در این مورد تخمین های با کیفیت بالا به دست آوریم. ). در مورد کلاسیک، فرض قوی تری در مورد قطعیت عوامل ایجاد می شود، در مقابل یک خطای تصادفی، که به طور خودکار به این معنی است که شرط برون زایی برآورده شده است. در حالت کلی، برای سازگاری تخمین‌ها، ارضای شرط برون‌زایی همراه با هم‌گرایی ماتریس به برخی از ماتریس‌های غیرمفرد با افزایش حجم نمونه تا بی نهایت کافی است.

برای اینکه، علاوه بر سازگاری و بی طرفی، برآوردهای حداقل مربعات (معمولی) نیز مؤثر باشند (بهترین در کلاس تخمین های بی طرف خطی)، ویژگی های اضافی خطای تصادفی باید رعایت شود:

این مفروضات را می توان برای ماتریس کوواریانس بردار خطای تصادفی فرموله کرد

مدل خطی که این شرایط را برآورده کند نامیده می شود کلاسیک. تخمین‌های OLS برای رگرسیون خطی کلاسیک، بی‌طرفانه، سازگار و مؤثرترین تخمین‌ها در کلاس همه تخمین‌های بی‌طرفانه خطی هستند (در ادبیات انگلیسی گاهی اوقات از این مخفف استفاده می‌شود. آبی (بهترین برآوردگر خطی بدون پایه) - بهترین تخمین بی طرفانه خطی. در ادبیات روسی، قضیه گاوس-مارکوف بیشتر مورد استناد قرار می‌گیرد. همانطور که به راحتی می توان نشان داد، ماتریس کوواریانس بردار برآورد ضرایب برابر با:

OLS عمومی

روش حداقل مربعات امکان تعمیم گسترده را فراهم می کند. به جای به حداقل رساندن مجموع مجذورهای باقیمانده، می توان برخی از شکل درجه دوم قطعی مثبت بردار باقیمانده ها را به حداقل رساند، که در آن ماتریس وزن قطعی مثبت متقارن وجود دارد. حداقل مربعات متعارف یک مورد خاص از این رویکرد است که در آن ماتریس وزن متناسب با ماتریس هویت است. همانطور که از نظریه ماتریس های متقارن (یا عملگرها) مشخص است، برای چنین ماتریس هایی تجزیه وجود دارد. در نتیجه، تابع مشخص شده را می توان به صورت زیر نشان داد، یعنی این تابع را می توان به عنوان مجموع مربع های برخی از "باقیمانده" تبدیل شده نشان داد. بنابراین، ما می توانیم یک کلاس از روش های حداقل مربعات - روش های LS (کمترین مربع) را تشخیص دهیم.

ثابت شده است (قضیه آیتکن) که برای یک مدل رگرسیون خطی تعمیم یافته (که در آن هیچ محدودیتی بر روی ماتریس کوواریانس خطاهای تصادفی اعمال نمی شود)، موثرترین (در کلاس تخمین های بی طرف خطی) به اصطلاح تخمین ها هستند. حداقل مربعات تعمیم یافته (GLS - حداقل مربعات تعمیم یافته)- روش LS با ماتریس وزنی معادل ماتریس کوواریانس معکوس خطاهای تصادفی: .

می توان نشان داد که فرمول تخمین GLS پارامترهای یک مدل خطی دارای فرم است

ماتریس کوواریانس این برآوردها بر این اساس برابر خواهد بود

در واقع، ماهیت OLS در یک تبدیل خاص (خطی) (P) از داده های اصلی و استفاده از OLS معمولی برای داده های تبدیل شده نهفته است. هدف از این تبدیل این است که برای داده های تبدیل شده، خطاهای تصادفی از قبل مفروضات کلاسیک را برآورده می کنند.

OLS وزنی

در مورد ماتریس وزن مورب (و در نتیجه ماتریس کوواریانس خطاهای تصادفی)، به اصطلاح حداقل مربعات وزنی (WLS) را داریم. در این حالت، مجموع وزنی مجذورهای باقیمانده مدل به حداقل می رسد، یعنی هر مشاهده یک "وزن" دریافت می کند که با واریانس خطای تصادفی در این مشاهده نسبت معکوس دارد: . در واقع، داده ها با وزن دادن به مشاهدات (تقسیم بر مقداری متناسب با انحراف استاندارد تخمینی خطاهای تصادفی) تبدیل می شوند و OLS معمولی برای داده های وزنی اعمال می شود.

برخی از موارد خاص استفاده از MNC در عمل

تقریب وابستگی خطی

اجازه دهید موردی را در نظر بگیریم که در نتیجه مطالعه وابستگی یک کمیت اسکالر خاص به یک کمیت اسکالر خاص (این می تواند برای مثال، وابستگی ولتاژ به قدرت جریان باشد: جایی که یک مقدار ثابت است، مقاومت هادی)، اندازه گیری این مقادیر انجام شد، در نتیجه مقادیر و مقادیر مربوط به آنها. داده های اندازه گیری باید در یک جدول ثبت شود.

جدول. نتایج اندازه گیری

شماره اندازه گیری
1
2
3
4
5
6

سوال این است: چه مقدار از ضریب را می توان برای توصیف بهترین وابستگی انتخاب کرد؟ طبق روش حداقل مربعات، این مقدار باید به گونه ای باشد که مجموع مجذور انحراف مقادیر از مقادیر

حداقل بود

مجموع انحرافات مجذور دارای یک حداکثر است - حداقل، که به ما امکان می دهد از این فرمول استفاده کنیم. اجازه دهید از این فرمول مقدار ضریب را پیدا کنیم. برای انجام این کار، سمت چپ آن را به صورت زیر تبدیل می کنیم:

آخرین فرمول به ما امکان می دهد مقدار ضریب را پیدا کنیم، همان چیزی که در مسئله مورد نیاز است.

داستان

تا اوایل قرن نوزدهم. دانشمندان قوانین خاصی برای حل یک سیستم معادلات که در آن تعداد مجهولات کمتر از تعداد معادلات باشد، نداشتند. تا آن زمان از تکنیک‌های خصوصی استفاده می‌شد که به نوع معادلات و هوشمندی ماشین‌حساب‌ها بستگی داشت و بنابراین ماشین‌حساب‌های مختلف بر اساس داده‌های مشاهداتی یکسان به نتایج متفاوتی می‌رسیدند. گاوس (1795) اولین کسی بود که از این روش استفاده کرد و لژاندر (1805) به طور مستقل آن را با نام مدرن خود (فرانسوی) کشف و منتشر کرد. Méthode des moindres quarrés ) . لاپلاس این روش را به نظریه احتمال مرتبط کرد و ریاضیدان آمریکایی آدرین (1808) کاربردهای نظری احتمالی آن را در نظر گرفت. این روش با تحقیقات بیشتر توسط انکه، بسل، هانسن و دیگران گسترش یافت و بهبود یافت.

کاربردهای جایگزین OLS

ایده روش حداقل مربعات را می توان در موارد دیگری که مستقیماً به تحلیل رگرسیون مرتبط نیستند نیز استفاده کرد. واقعیت این است که مجموع مربع ها یکی از رایج ترین معیارهای مجاورت بردارها است (متریک اقلیدسی در فضاهای بابعد محدود).

یکی از کاربردها "حل" سیستم های معادلات خطی است که در آن تعداد معادلات بیشتر از تعداد متغیرها است.

که در آن ماتریس مربع نیست، بلکه مستطیل شکل است.

چنین سیستمی از معادلات، در حالت کلی، هیچ راه حلی ندارد (اگر رتبه واقعاً از تعداد متغیرها بیشتر باشد). بنابراین، این سیستم تنها به معنای انتخاب چنین بردار برای به حداقل رساندن «فاصله» بین بردارها و . برای این کار می توانید معیار کمینه سازی مجموع مجذورات اختلاف سمت چپ و راست معادلات سیستم را اعمال کنید، یعنی. به راحتی می توان نشان داد که حل این مسئله کمینه سازی منجر به حل سیستم معادلات زیر می شود

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...