Метод найменших квадратів простими словами. Лінійна регресія

Метод найменших квадратів(МНК, анг. Ordinary Least Squares, OLS) -- математичний метод, що застосовується для вирішення різних завдань, заснований на мінімізації суми квадратів відхилень деяких функцій від змінних, що шукаються. Він може використовуватися для «вирішення» перевизначених систем рівнянь (коли кількість рівнянь перевищує кількість невідомих), для пошуку рішення у разі звичайних (не перевизначених) нелінійних систем рівнянь, для апроксимації точкових значень деякою функцією. МНК є одним із базових методів регресійного аналізу для оцінки невідомих параметрів регресійних моделей за вибірковими даними.

Сутність методу найменших квадратів

Нехай – набір невідомих змінних (параметрів), – сукупність функцій від цього набору змінних. Завдання полягає у підборі таких значень x, щоб значення цих функцій були максимально близькими до деяких значень. По суті мова йдепро «вирішення» перевизначеної системи рівнянь у вказаному сенсі максимальної близькості лівої та правої частин системи. Сутність МНК полягає у виборі як «заходи близькості» суми квадратів відхилень лівих і правих частин - . Таким чином, сутність МНК може бути виражена таким чином:

У разі, якщо система рівнянь має рішення, то мінімум суми квадратів дорівнюватиме нулю і можуть бути знайдені точні рішення системи рівнянь аналітично або, наприклад, різними чисельними методамиоптимізація. Якщо система перевизначена, то є, кажучи нестрого, кількість незалежних рівнянь більше кількостішуканих змінних, то система не має точного рішення і метод найменших квадратів дозволяє знайти деякий «оптимальний» вектор у сенсі максимальної близькості векторів і або максимальної близькості вектора відхилень до нуля (близькість розуміється на сенсі Евклідова відстані).

Приклад - система лінійних рівнянь

Зокрема, метод найменших квадратів може використовуватися для вирішення системи лінійних рівнянь

де матриця не квадратна, а прямокутна розміру (точніше ранг матриці A більша за кількість шуканих змінних).

Така система рівнянь, загальному випадкунемає рішення. Тому цю систему можна «вирішити» лише в сенсі вибору такого вектора, щоб мінімізувати відстань між векторами і. Для цього можна застосувати критерій мінімізації суми квадратів різниці лівої та правої частин рівнянь системи, тобто. Неважко показати, що вирішення цього завдання мінімізації призводить до вирішення наступної системи рівнянь

Використовуючи оператор псевдоінверсії, рішення можна переписати так:

де - псевдооборотна матриця для.

Це завдання також можна «вирішити» використовуючи так званий зважений МНК (див. нижче), коли різні рівняння системи отримують різну вагу з теоретичних міркувань.

Суворе обґрунтування та встановлення меж змістовної застосовності методу дано А. А. Марковим та А. Н. Колмогоровим.

МНК у регресійному аналізі (апроксимація даних)[ред. [ред.] [ред.] Нехай є значень деякої змінної (це можуть бути результати спостережень, експериментів і т. д.) і відповідних змінних. Завдання полягає в тому, щоб взаємозв'язок між та апроксимувати деякою функцією, відомою з точністю до деяких невідомих параметрів, тобто фактично знайти найкращі значенняпараметрів, що максимально наближають значення до фактичних значень. Фактично це зводиться до випадку «вирішення» перевизначеної системи рівнянь щодо:

У регресійному аналізі та зокрема в економетриці використовуються ймовірнісні моделі залежності між змінними

де - звані випадкові помилки моделі.

Відповідно, відхилення значень, що спостерігаються від модельних, передбачається вже в самій моделі. Сутність МНК (звичайного, класичного) полягає в тому, щоб знайти такі параметри, при яких сума квадратів відхилень (помилок для регресійних моделей їх часто називають залишками регресії) буде мінімальною:

де - англ. Residual Sum of Squares визначається як:

У випадку вирішення цього завдання може здійснюватися чисельними методами оптимізації (мінімізації). І тут говорять про нелінійному МНК (NLS чи NLLS - англ. Non-Linear Least Squares). У багатьох випадках можна одержати аналітичне рішення. Для вирішення задачі мінімізації необхідно знайти стаціонарні точки функції, продиференціювавши її за невідомими параметрами, прирівнявши похідні до нуля та вирішивши отриману систему рівнянь:

МНК у разі лінійної регресії[ред. редагувати вікі-текст]

Нехай регресійна залежністьє лінійною:

Нехай y - вектор-стовпець спостережень пояснюваної змінної, а - це -матриця спостережень факторів (рядки матриці - вектори значень факторів у даному спостереженні, по стовпцях - вектор значень даного фактора у всіх спостереженнях). Матрична виставалінійної моделі має вигляд:

Тоді вектор оцінок змінної, що пояснюється, і вектор залишків регресії дорівнюватимуть

відповідно сума квадратів залишків регресії дорівнюватиме

Диференціюючи цю функцію за вектором параметрів та прирівнявши похідні до нуля, отримаємо систему рівнянь (у матричній формі):

У розшифрованій матричній формі ця система рівнянь виглядає так:


де всі суми беруться за всіма допустимими значеннями.

Якщо в модель включена константа (як завжди), то при всіх, тому в лівому верхньому кутку матриці системи рівнянь знаходиться кількість спостережень, а в інших елементах першого рядка і першого стовпця - просто суми значень змінних: і перший елемент правої частини системи - .

Вирішення цієї системи рівнянь і дає загальну формулу МНК-оцінок для лінійної моделі:

Для аналітичних цілей виявляється корисним останнє уявлення цієї формули (у системі рівнянь при розподілі на n замість сум фігурують середні арифметичні). Якщо в регресійної моделідані центровані, то цьому поданні перша матриця має сенс вибіркової ковариационной матриці чинників, а друга -- вектор ковариаций чинників із залежною змінної. Якщо дані ще інормовані на СКО (тобто зрештою стандартизовані), то перша матриця має сенс вибіркової кореляційної матриці чинників, другий вектор -- вектора вибіркових кореляцій чинників із залежною змінною.

Важлива властивість МНК оцінок для моделей з константою - лінія побудованої регресії проходить через центр тяжкості вибіркових даних, тобто виконується рівність:

Зокрема, у крайньому випадку, коли єдиним регресором є константа, отримуємо, що МНК-оцінка єдиного параметра (власне константи) дорівнює середньому значенню змінної, що пояснюється. Тобто середнє арифметичне, відоме своїми добрими властивостями із законів великих чисел, також є МНК-оцінкою - відповідає критерію мінімуму суми квадратів відхилень від неї.

Найпростіші окремі випадки[ред. редагувати вікі-текст]

У разі парної лінійної регресії, коли оцінюється лінійна залежність однієї змінної від іншої, формули розрахунку спрощуються (можна уникнути матричної алгебри). Система рівнянь має вигляд:

Звідси нескладно знайти оцінки коефіцієнтів:

Незважаючи на те, що в загальному випадку моделі з константою краще, в деяких випадках з теоретичних міркувань відомо, що константа повинна дорівнювати нулю. Наприклад, у фізиці залежність між напругою та силою струму має вигляд; Вимірюючи напругу і силу струму, необхідно оцінити опір. У такому разі йдеться про модель. У цьому випадку замість системи рівнянь маємо єдине рівняння

Отже, формула оцінки єдиного коефіцієнта має вигляд

Статистичні властивості МНК-оценок[ред. редагувати вікі-текст]

Насамперед зазначимо, що для лінійних моделей МНК-оцінки є лінійними оцінками, як це випливає з вищенаведеної формули. Для незміщеності МНК-оцінок необхідне і достатньо виконання найважливішої умови регресійного аналізу: умовне за факторами математичне очікуваннявипадкової помилки має дорівнювати нулю. Ця умова, зокрема, виконано, якщо математичне очікування випадкових помилок дорівнює нулю, і чинники та випадкові помилки - незалежні випадкові величини.

Першу умову можна вважати виконаною завжди для моделей з константою, так як константа бере на себе ненульове математичне очікування помилок (тому моделі з константою у випадку краще). найменший квадрат регресійний коварійний

Друга умова - умова екзогенності факторів - важлива. Якщо ця властивість не виконана, то можна вважати, що практично будь-які оцінки будуть вкрай незадовільними: вони не будуть навіть заможними (тобто навіть дуже великий обсягданих не дозволяє отримати якісні оцінки у цьому випадку). У класичному випадку робиться сильніша припущення про детермінованість факторів, на відміну від випадкової помилки, що автоматично означає виконання умови екзогенності. У випадку для спроможності оцінок досить виконання умови екзогенності разом із збіжністю матриці до деякої невиродженої матриці зі збільшенням обсягу вибірки до нескінченності.

Для того, щоб окрім спроможності та незміщеності, оцінки (звичайного) МНК були ще й ефективними (найкращими у класі лінійних незміщених оцінок) необхідно виконання додаткових властивостей випадкової помилки:

Постійна (однакова) дисперсія випадкових помилок у всіх спостереженнях (відсутність гетероскедастичності):

Відсутність кореляції (автокореляції) випадкових помилок у різних спостереженнях між собою

Дані припущення можна сформулювати для коварійної матриці вектора випадкових помилок

Лінійна модель, що задовольняє такі умови, називається класичною. МНК-оцінки для класичної лінійної регресії є незміщеними, заможними і найбільш ефективними оцінками в класі всіх лінійних незміщених оцінок (в англомовній літературі іноді використовують абревіатуру BLUE (Best Linear Unbiased Estimator) - найкраща лінійна; вітчизняної літературичастіше наводиться теорема Гауса - Маркова). Як неважко показати, ковариационная матриця вектора оцінок коефіцієнтів дорівнюватиме:

Ефективність означає, що ця ковариационная матриця є «мінімальної» (будь-яка лінійна комбінація коефіцієнтів, і зокрема самі коефіцієнти, мають мінімальну дисперсію), тобто у класі лінійних незміщених оцінок оцінки МНК-найкращі. Діагональні елементи цієї матриці – дисперсії оцінок коефіцієнтів – важливі параметри якості отриманих оцінок. Однак розрахувати матрицю коваріації неможливо, оскільки дисперсія випадкових помилок невідома. Можна довести, що незміщеною та заможною (для класичної лінійної моделі) оцінкою дисперсії випадкових помилок є величина:

Підставивши це значення формулу для ковариационной матриці і отримаємо оцінку ковариационной матриці. Отримані оцінки також є незміщеними та заможними. Важливо також те, що оцінка дисперсії помилок (а отже і дисперсій коефіцієнтів) та оцінки параметрів моделі є незалежними випадковими величинамищо дозволяє отримати тестові статистики для перевірки гіпотез про коефіцієнти моделі.

Слід зазначити, що й класичні припущення не виконані, МНК-оцінки параметрів є найбільш ефективними оцінками (залишаючись несмещенными і заможними). Однак, ще більше погіршується оцінка матриці коваріаційної - вона стає зміщеною і неспроможною. Це означає, що статистичні висновки якість побудованої моделі у разі можуть бути вкрай недостовірними. Одним із варіантів вирішення останньої проблеми є застосування спеціальних оцінок коваріаційної матриці, які є заможними при порушеннях класичних припущень (стандартні помилки у формі Уайта та стандартні помилки у формі Нью-Уеста). Інший підхід полягає у застосуванні так званого узагальненого МНК.

Узагальнений МНК[ред. редагувати вікі-текст]

Основна стаття: Узагальнений метод найменших квадратів

Метод найменших квадратів припускає широке узагальнення. Замість мінімізації суми квадратів залишків можна мінімізувати деяку позитивно визначену квадратичну форму від вектора залишків, де деяка симетрична позитивно визначена вагова матриця. Звичайний МНК є окремим випадком даного підходу, коли вагова матриця пропорційна одиничній матриці. Як відомо, з теорії симетричних матриць (або операторів) для таких матриць існує розкладання. Отже, вказаний функціонал можна подати так

тобто цей функціонал можна як суму квадратів деяких перетворених «залишків». Отже, можна назвати клас методів найменших квадратів - LS-методи (Least Squares).

Доведено (теорема Айткена), що для узагальненої лінійної регресійної моделі (у якій на коварійну матрицю випадкових помилок не накладається жодних обмежень) найефективнішими (у класі лінійних незміщених оцінок) є оцінки т.з. узагальненого МНК (ОМНК, GLS - Generalized Least Squares) - LS-методу з ваговою матрицею, що дорівнює зворотній матриці ковараційної випадкових помилок: .

Можна показати, що формула ОМНК оцінок параметрів лінійної моделі має вигляд

Коваріаційна матриця цих оцінок відповідно дорівнюватиме

Фактично сутність ОМНК полягає у певному (лінійному) перетворенні (P) вихідних даних та застосуванні звичайного МНК до перетворених даних. Мета цього -- для перетворених даних випадкові помилки вже задовольняють класичним припущенням .

Зважений МНК[ред. редагувати вікі-текст]

У випадку діагональної вагової матриці (а значить і матриці коварійної випадкових помилок) маємо так званий зважений МНК (WLS - Weighted Least Squares). У даному випадку мінімізується зважена сума квадратів залишків моделі, тобто кожне спостереження отримує «вагу», обернено пропорційну дисперсії випадкової помилки в даному спостереженні:

Фактично дані перетворюються зважуванням спостережень (розподілом на величину, пропорційну передбачуваному стандартного відхиленнявипадкових помилок), а до виважених даних застосовується стандартний МНК.

Сутність методу найменших квадратів полягає у відшуканні параметрів моделі тренда, яка найкраще описує тенденцію розвитку якогось випадкового явища у часі чи просторі (тренд – це лінія, що й характеризує тенденцію цього розвитку). Завдання методу найменших квадратів (МНК) зводиться до знаходження не просто якоїсь моделі тренду, а до знаходження кращої чи оптимальної моделі. Ця модель буде оптимальною, якщо сума квадратичних відхиленьміж фактичними величинами, що спостерігаються, і відповідними ним розрахунковими величинами тренду буде мінімальною (найменшою):

де - квадратичне відхилення між фактичною величиною, що спостерігається.

та відповідною їй розрахунковою величиною тренду,

Фактичне (спостерігається) значення досліджуваного явища,

Розрахункове значення моделі тренду,

Число спостережень за явищем, що вивчається.

МНК самостійно застосовується досить рідко. Як правило, найчастіше його використовують лише як необхідний технічний прийом при кореляційних дослідженнях. Слід пам'ятати, що інформаційною основою МНК може бути лише достовірний статистичний ряд, причому кількість спостережень має бути менше 4-х, інакше, що згладжують процедури МНК можуть втратити здоровий глузд.

Інструментарій МНК зводиться до таких процедур:

Перша процедура. З'ясовується, чи взагалі існує якась тенденція зміни результативної ознаки при зміні обраного фактора-аргументу, або іншими словами, чи є зв'язок між « у » та « х ».

Друга процедура. Визначається, яка лінія (траєкторія) здатна найкраще описати чи охарактеризувати цю тенденцію.

Третя процедура.

приклад. Допустимо, ми маємо інформацію про середню врожайність соняшнику по досліджуваному господарству (табл. 9.1).

Таблиця 9.1

Номер спостереження

Врожайність, ц/га

Оскільки рівень технології при виробництві соняшнику в нашій країні за останні 10 років практично не змінився, отже, мабуть, коливання врожайності в аналізований період дуже залежали від коливання погодно-кліматичних умов. Чи це так?

Перша процедура МНК. Перевіряється гіпотеза про існування тенденції зміни врожайності соняшнику залежно від зміни погодно-кліматичних умов за 10 років, що аналізуються.

У цьому прикладі за « y » Доцільно прийняти врожайність соняшнику, а за « x » - Номер спостережуваного року в аналізованому періоді. Перевірку гіпотези про існування будь-якого взаємозв'язку між « x » та « y » можна виконати двома способами: вручну та за допомогою комп'ютерних програм. Звісно, ​​за наявності комп'ютерної техніки дана проблемавирішується сама собою. Але щоб краще зрозуміти інструментарій МНК доцільно виконати перевірку гіпотези про існування зв'язку між « x » та « y » вручну, коли під рукою знаходяться лише ручка та звичайний калькулятор. У таких випадках гіпотезу про існування тенденції найкраще перевірити візуальним способом за розташуванням графічного зображенняаналізованого ряду динаміки - кореляційного поля:

Кореляційне поле в нашому прикладі розташоване навколо лінії, що повільно зростає. Це вже само собою говорить про існування певної тенденції в зміні врожайності соняшника. Не можна говорити про наявність будь-якої тенденції лише тоді, коли кореляційне поле схоже на коло, коло, строго вертикальну або строго горизонтальну хмару, або ж складається з хаотично розкиданих точок. В інших випадках слід підтвердити гіпотезу про існування взаємозв'язку між « x » та « y », та продовжити дослідження.

Друга процедура МНК. Визначається, яка лінія (траєкторія) здатна найкраще описати чи охарактеризувати тенденцію зміни врожайності соняшника за аналізований період.

За наявності комп'ютерної техніки вибір оптимального тренда відбувається автоматично. При «ручній» обробці вибір оптимальної функціїздійснюється, як правило, візуальним способом - розташування кореляційного поля. Тобто, на вигляд графіка підбирається рівняння лінії, яка найкраще підходить до емпіричного тренду (до фактичної траєкторії).

Як відомо, у природі існує величезна різноманітність функціональних залежностей, тому візуальним способом проаналізувати навіть незначну їх частину – вкрай важко. На щастя, в реальній економічній практиці більшість взаємозв'язків досить точно можуть бути описані або параболою, або гіперболою, або прямою лінією. У зв'язку з цим, при «ручному» варіанті підбору кращої функції, можна обмежитися лише цими трьома моделями.

Гіперболу:

Парабола другого порядку: :

Неважко помітити, що у нашому прикладі найкраще тенденцію зміни врожайності соняшника за аналізовані 10 років характеризує пряма лінія, тому рівнянням регресії буде пряма рівняння.

Третя процедура. Розраховуються параметри регресійного рівняння, Що характеризує цю лінію, або іншими словами, визначається аналітична формула, що описує найкращу модель тренду.

Знаходження значень параметрів рівняння регресії, у разі параметрів і , є серцевиною МНК. Цей процес зводиться до вирішення системи нормальних рівнянь.

(9.2)

Ця система рівнянь досить легко вирішується методом Гаусса. Нагадаємо, що в результаті рішення в нашому прикладі знаходяться значення параметрів і . Таким чином, знайдене рівняння регресії матиме такий вигляд:

Яке знаходить найширше застосування у різних галузях науки та практичної діяльності. Це може бути фізика, хімія, біологія, економіка, соціологія, психологія і таке інше. Волею долі мені часто доводиться мати справу з економікою, і тому сьогодні я оформлю вам путівку до дивовижної країни під назвою Економетрика=) …Як це не хочете?! Там дуже добре – треба тільки наважитися! …Але ось те, що ви, напевно, точно хочете – так це навчитися вирішувати завдання методом найменших квадратів. І особливо старанні читачі навчаться вирішувати їх не тільки безпомилково, але ще й ДУЖЕ ШВИДКО;-) Але спочатку загальна постановка задачі+ супутній приклад:

Нехай у деякій предметної області досліджуються показники, які мають кількісне вираз. У цьому є підстави вважати, що показник залежить від показника . Це становище може бути як науковою гіпотезою, так і ґрунтуватися на елементарному здоровому глузді. Залишимо, проте, науку осторонь і досліджуємо більш апетитні області - зокрема, продовольчі магазини. Позначимо через:

– торгову площу продовольчого магазину, кв.м.,
- Річний товарообіг продовольчого магазину, млн. руб.

Цілком зрозуміло, що чим більша площа магазину, тим у більшості випадків буде більшим його товарообіг.

Припустимо, що після проведення спостережень/дослідів/підрахунків/танців з бубном у нашому розпорядженні виявляються числові дані:

З гастрономами, гадаю, все зрозуміло: - це площа 1-го магазину, - його річний товарообіг, - площа 2-го магазину, - його річний товарообіг і т.д. До речі, зовсім не обов'язково мати доступ до секретних матеріалів – досить точну оцінку товарообігу можна отримати засобами математичної статистики. Втім, не відволікаємось, курс комерційного шпигунства – він уже платний =)

Табличні дані також можна записати у вигляді точок та зобразити у звичній для нас декартовій системі .

Відповімо на важливе питання: скільки точок потрібно якісного дослідження?

Чим більше тим краще. Мінімально допустимий набір складається з 5-6 пікселів. Крім того, при невеликій кількості даних у вибірку не можна включати «аномальні» результати. Так, наприклад, невеликий елітний магазин може рятувати на порядки більше «своїх колег», спотворюючи тим самим загальну закономірність, яку потрібно знайти!

Якщо дуже просто - нам потрібно підібрати функцію, графікякою проходить якомога ближче до точок . Таку функцію називають апроксимуючою (апроксимація – наближення)або теоретичною функцією . Взагалі кажучи, тут одразу з'являється очевидний «претендент» – багаточлен високого ступеня, Графік якого проходить через ВСІ точки. Але цей варіант складний, а часто й просто некоректний (т.к. графік буде весь час «петляти» і погано відображатиме головну тенденцію).

Таким чином, розшукувана функція повинна бути досить простою і в той же час відображати залежність адекватно. Як ви здогадуєтеся, один із методів знаходження таких функцій і називається методом найменших квадратів. Спочатку розберемо його суть у загальному вигляді. Нехай деяка функція наближає експериментальні дані:


Як оцінити точність наближення? Обчислимо і різниці (відхилення) між експериментальними та функціональними значеннями (Вивчаємо креслення). Перша думка, яка спадає на думку – це оцінити, наскільки велика сума, але проблема полягає в тому, що різниці можуть бути і негативні. (наприклад, ) та відхилення внаслідок такого підсумовування будуть взаємознищуватись. Тому як оцінка точності наближення напрошується прийняти суму модуліввідхилень:

або в згорнутому вигляді: (раптом хто не знає: – це значок суми, а – допоміжна змінна-«лічильник», яка набуває значення від 1 до ).

Наближаючи експериментальні точки різними функціями, ми отримуватимемо різні значення, і, очевидно, де ця сума менше – та функція і точніше.

Такий метод існує і називається він методом найменших модулів. Однак на практиці набув значно більшого поширення метод найменших квадратів, в якому можливі від'ємні значенняліквідуються не модулем, а зведенням відхилень у квадрат:

, після чого зусилля спрямовані на підбір такої функції, щоб сума квадратів відхилень була якнайменше. Власне, звідси й назва методу.

І зараз ми повертаємося до іншого важливого моменту: як зазначалося вище, функція, що підбирається, повинна бути досить проста - але ж і таких функцій теж чимало: лінійна , гіперболічна, експоненційна, логарифмічна, квадратична і т.д. І, звичайно, тут одразу б хотілося «скоротити поле діяльності». Який клас функцій вибрати на дослідження? Примітивний, але ефективний прийом:

- Найпростіше зобразити точки на кресленні та проаналізувати їх розташування. Якщо вони мають тенденцію розташовуватися по прямій, слід шукати рівняння прямої з оптимальними значеннямита . Іншими словами, завдання полягає у знаходженні ТАКИХ коефіцієнтів – щоб сума квадратів відхилень була найменшою.

Якщо ж точки розташовані, наприклад, по гіперболі, то свідомо зрозуміло, що лінійна функція даватиме погане наближення. У цьому випадку шукаємо найбільш «вигідні» коефіцієнти для рівняння гіперболи – ті, що дають мінімальну суму квадратів .

А тепер зверніть увагу, що в обох випадках мова йде про функції двох змінних, аргументами якої є параметри залежностей, що розшукуються:

І по суті нам потрібно вирішити стандартне завдання – знайти мінімум функції двох змінних.

Згадаймо про наш приклад: припустимо, що «магазинні» точки мають тенденцію розташовуватися по прямій лінії і є підстави вважати наявність лінійної залежностітоварообігу від торгової площі Знайдемо ТАКІ коефіцієнти «а» та «бе», щоб сума квадратів відхилень була найменшою. Все як завжди - спочатку приватні похідні 1-го порядку. Згідно правилу лінійностідиференціювати можна прямо під значком суми:

Якщо хочете використати цю інформаціюдля реферату або курсовика – буду дуже вдячний за посилання в списку джерел, такі докладні викладки знайдете мало де:

Складемо стандартну систему:

Скорочуємо кожне рівняння на «двійку» і, крім того, «розвалюємо» суми:

Примітка : самостійно проаналізуйте, чому «а» та «бе» можна винести за значок суми До речі, формально це можна зробити і із сумою

Перепишемо систему у «прикладному» вигляді:

після чого починає промальовуватися алгоритм розв'язання нашого завдання:

Координати точок ми знаємо? Знаємо. Суми знайти можемо? Легко. Складаємо найпростішу систему двох лінійних рівнянь із двома невідомими(«а» та «бе»). Систему вирішуємо, наприклад, методом Крамера, у результаті отримуємо стаціонарну точку . Перевіряючи достатня умова екстремумуможна переконатися, що в даній точці функція досягає саме мінімуму. Перевірка пов'язана з додатковими викладками і тому залишимо її за кадром (при необхідності кадр, що бракує, можна подивитися ). Робимо остаточний висновок:

Функція найкращим чином (принаймні, порівняно з будь-якою іншою лінійною функцією)наближає експериментальні точки . Грубо кажучи, її графік відбувається максимально близько до цих точок. У традиціях економетрикиотриману апроксимуючу функцію також називають рівнянням парної лінійної регресії .

Розглянуте завдання має велике практичне значення. У ситуації з нашим прикладом, рівняння дозволяє прогнозувати, який товарообіг («Ігрек»)буде біля магазину при тому чи іншому значенні торгової площі (Тому чи іншому значенні «ікс»). Так, отриманий прогноз буде лише прогнозом, але у багатьох випадках він виявиться досить точним.

Я розберу лише одне завдання з «реальними» числами, оскільки ніяких труднощів у ньому немає – всі обчислення на рівні шкільної програми 7-8 класи. У 95 відсотків випадків вам буде запропоновано знайти саме лінійну функцію, але в самому кінці статті я покажу, що нітрохи не складніше знайти рівняння оптимальної гіперболи, експоненти та деяких інших функцій.

По суті, залишилося роздати обіцяні плюшки – щоб ви навчилися вирішувати такі приклади не лише безпомилково, а ще й швидко. Уважно вивчаємо стандарт:

Завдання

В результаті дослідження взаємозв'язку двох показників отримані такі пари чисел:

Методом найменших квадратів знайти лінійну функцію, яка найкраще наближає емпіричні (досвідчені)дані. Зробити креслення, на якому в декартовій прямокутній системі координат побудувати експериментальні точки та графік апроксимуючої функції . Знайти суму квадратів відхилень між емпіричними та теоретичними значеннями. З'ясувати, чи буде функція кращою (з погляду методу найменших квадратів)наближати експериментальні точки.

Зауважте, що «іксові» значення – натуральні, і це має характерний змістовний зміст, про який я розповім трохи згодом; але вони, зрозуміло, можуть і дробовими. Крім того, залежно від змісту того чи іншого завдання як «іксові», так і «ігрові» значення повністю або частково можуть бути негативними. Ну а у нас дане «безлике» завдання, і ми починаємо її Рішення:

Коефіцієнти оптимальної функції знайдемо як розв'язання системи:

З метою більш компактного запису змінну-«лічильник» можна опустити, оскільки і так зрозуміло, що підсумовування здійснюється від 1 до .

Розрахунок потрібних сум зручніше оформити у табличному вигляді:


Обчислення можна провести на мікрокалькуляторі, але краще використовувати Ексель - і швидше, і без помилок; дивимося короткий відеоролик:

Таким чином, отримуємо наступну систему:

Тут можна помножити друге рівняння на 3 та від 1-го рівняння почленно відняти 2-е. Але це везіння - на практиці системи частіше не подарункові, і в таких випадках рятує метод Крамера:
Отже, система має єдине рішення.

Виконаємо перевірку. Розумію, що не хочеться, але навіщо пропускати помилки там, де їх можна стовідсотково не пропустити? Підставимо знайдене рішення в ліву частину кожного рівняння системи:

Отримано праві частини відповідних рівнянь, отже система вирішена правильно.

Таким чином, шукана апроксимуюча функція: – з всіх лінійних функцій експериментальні дані найкраще наближає саме вона.

На відміну від прямий залежності товарообігу магазину від його площі, знайдена залежність є зворотній (Принцип «що більше – тим менше»), і цей факт відразу виявляється по негативному кутовому коефіцієнту. Функція повідомляє нам про те, що зі збільшення якогось показника на 1 одиницю значення залежного показника зменшується в середньомуна 0,65 одиниць. Як то кажуть, що вище ціна на гречку, то менше її продано.

Для побудови графіка апроксимуючої функції знайдемо два її значення:

і виконаємо креслення:


Побудована пряма називається лінією тренду (а саме – лінією лінійного тренду, тобто у загальному випадку тренд – це не обов'язково пряма лінія). Всім знайомий вислів «бути в тренді», і, гадаю, що цей термін не потребує додаткових коментарів.

Обчислимо суму квадратів відхилень між емпіричними та теоретичними значеннями. Геометрично – це сума квадратів довжин «малинових» відрізків (два з яких настільки малі, що їх навіть не видно).

Обчислення зведемо до таблиці:


Їх можна знову ж таки провести вручну, про всяк випадок наведу приклад для 1-ї точки:

але набагато ефективніше вчинити вже відомим чином:

Ще раз повторимо: у чому сенс отриманого результату?З всіх лінійних функційу функції показник є найменшим, тобто у своїй родині це найкраще наближення. І тут, до речі, невипадкове заключне питання завдання: а раптом запропонована експоненційна функція краще наближати експериментальні точки?

Знайдемо відповідну суму квадратів відхилень – щоб розрізняти, я позначу їх літерою «епсілон». Техніка така сама:


І знову на будь-який пожежний обчислення для 1-ї точки:

В Екселі користуємося стандартною функцією EXP (Синтаксис можна подивитися в екселевський Довідці).

Висновок: , отже, експоненційна функція наближає експериментальні точки гірше, ніж пряма .

Але тут слід зазначити, що «гірше» – це ще не означає, що погано. Зараз збудував графік цієї експоненційної функції – і він теж проходить близько до точок - Так, що без аналітичного дослідження і сказати важко, яка функція точніше.

На цьому рішення закінчено, і я повертаюся до питання про натуральні значення аргументу. У різних дослідженнях, зазвичай, економічних чи соціологічних, натуральними «іксами» нумерують місяці, роки чи інші рівні часові проміжки. Розглянемо, наприклад, таке завдання.

Апроксимація дослідних даних - це метод, заснований на заміні експериментально отриманих даних аналітичною функцією, що найбільш близько проходить або збігається в вузлових точках з вихідними значеннями (даними отриманими в ході досвіду або експерименту). В даний час існує два способи визначення аналітичної функції:

За допомогою побудови інтерполяційного багаточлена n-ступеня, що проходить безпосередньо через усі точкизаданого масиву даних. У даному випадку апроксимуюча функція подається у вигляді: інтерполяційного багаточлена у формі Лагранжа або інтерполяційного багаточлена у формі Ньютона.

За допомогою побудови апроксимуючого багаточлена n-ступеня, що проходить в найближчій близькості від точокіз заданого масиву даних. Таким чином, апроксимуюча функція згладжує всі випадкові перешкоди (або похибки), які можуть виникати при виконанні експерименту: значення, що вимірюються в ході досвіду, залежать від випадкових факторів, які коливаються за своїм власним випадковим законам(Похибки вимірювань або приладів, неточність або помилки досвіду). У разі апроксимуюча функція визначається методом найменших квадратів.

Метод найменших квадратів(В англомовній літературі Ordinary Least Squares, OLS) - математичний метод, заснований на визначенні апроксимуючої функції, яка будується в найближчій близькості від точок із заданого масиву експериментальних даних. Близькість вихідної та апроксимуючої функції F(x) визначається числовою мірою, а саме: сума квадратів відхилень експериментальних даних від апроксимуючої кривої F(x) має бути найменшою.

Апроксимуюча крива, побудована за методом найменших квадратів

Метод найменших квадратів використовується:

Для вирішення перевизначених систем рівнянь коли кількість рівнянь перевищує кількість невідомих;

Для пошуку рішення у разі звичайних (не перевизначених) нелінійних систем рівнянь;

Для апроксимації точкових значень деякою апроксимуючою функцією.

Апроксимуюча функція методом найменших квадратів визначається з умови мінімуму суми квадратів відхилень розрахункової апроксимуючої функції від заданого масиву експериментальних даних. Цей критерій методу найменших квадратів записується у вигляді наступного виразу:

Значення розрахункової апроксимуючої функції у вузлових точках

Заданий масив експериментальних даних у вузлових точках.

Квадратичний критерій має низку "хороших" властивостей, таких, як диференційність, забезпечення єдиного рішеннязадачі апроксимації при поліноміальних апроксимуючих функціях.

Залежно від умов завдання апроксимуюча функція є багаточленом ступеня m

Ступінь апроксимуючої функції не залежить від числа вузлових точок, але її розмірність повинна бути завжди меншою за розмірність (кількість точок) заданого масиву експериментальних даних.

∙ Якщо ступінь апроксимуючої функції m=1, то ми апроксимуємо табличну функцію прямою лінією (лінійна регресія).

∙ Якщо ступінь апроксимуючої функції m=2, то ми апроксимуємо табличну функцію квадратичною параболою(квадратична апроксимація).

∙ Якщо ступінь апроксимуючої функції m=3, то ми апроксимуємо табличну функцію кубічною параболою (кубічна апроксимація).

У випадку, коли потрібно побудувати апроксимуючий многочлен ступеня m для заданих табличних значень, умова мінімуму суми квадратів відхилень за всіма вузловими точками переписується у такому виде:

- невідомі коефіцієнти апроксимуючого багаточлена ступеня m;

Кількість заданих табличних значень.

Необхідною умовою існування мінімуму функції є рівність нуля її приватних похідних за невідомими змінними . В результаті отримаємо наступну систему рівнянь:

Перетворимо отриману лінійну систему рівнянь: розкриємо дужки і перенесемо вільні доданки в праву частину виразу. В результаті отримана система лінійних виразів алгебри буде записуватися в наступному вигляді:

Дана система лінійних виразів алгебри може бути переписана в матричному вигляді:

В результаті було отримано систему лінійних рівнянь розмірністю m+1, що складається з m+1 невідомих. Дана система може бути вирішена за допомогою будь-якого методу вирішення лінійних алгебраїчних рівнянь(Наприклад, методом Гауса). Через війну рішення знайдено невідомі параметри апроксимуючої функції, які забезпечують мінімальну суму квадратів відхилень апроксимуючої функції від вихідних даних, тобто. найкраще можливе квадратичне наближення. Слід пам'ятати, що при зміні навіть одного значення вихідних даних усі коефіцієнти змінять свої значення, оскільки вони повністю визначаються вихідними даними.

Апроксимація вихідних даних лінійною залежністю

(лінійна регресія)

Як приклад розглянемо методику визначення апроксимуючої функції, яка задана у вигляді лінійної залежності. Відповідно до методу найменших квадратів умова мінімуму суми квадратів відхилень записується у такому вигляді:

Координати вузлових точок таблиці;

Невідомі коефіцієнти апроксимуючої функції, заданої у вигляді лінійної залежності.

Необхідною умовою існування мінімуму функції є рівність нуля її приватних похідних за невідомими змінними. В результаті отримуємо таку систему рівнянь:

Перетворимо отриману лінійну систему рівнянь.

Вирішуємо отриману систему лінійних рівнянь. Коефіцієнти апроксимуючої функції в аналітичному вигляді визначаються в такий спосіб (метод Крамера):

Дані коефіцієнти забезпечують побудову лінійної апроксимуючої функції відповідно до критерію мінімізації суми квадратів апроксимуючої функції від заданих табличних значень (експериментальні дані).

Алгоритм реалізації методу найменших квадратів

1. Початкові дані:

Задано масив експериментальних даних із кількістю вимірювань N

Задано ступінь апроксимуючого багаточлена (m)

2. Алгоритм обчислення:

2.1. Визначаються коефіцієнти для побудови системи рівнянь розмірністю

Коефіцієнти системи рівнянь (ліва частина рівняння)

- Індекс номера стовпця квадратної матриці системи рівнянь

Вільні члени системи лінійних рівнянь ( права частинарівняння)

- індекс номера рядка квадратної матриці системи рівнянь

2.2. Формування системи лінійних рівнянь розмірністю.

2.3. Розв'язання системи лінійних рівнянь з метою визначення невідомих коефіцієнтів апроксимуючого багаточлена ступеня m.

2.4.Визначення суми квадратів відхилень апроксимуючого багаточлена від вихідних значень по всіх вузлових точках

Знайдене значення суми квадратів відхилень є мінімально можливим.

Апроксимація за допомогою інших функцій

Слід зазначити, що при апроксимації вихідних даних відповідно до методу найменших квадратів як апроксимуючу функцію іноді використовують логарифмічну функцію, експоненційну функцію і статечну функцію.

Логарифмічна апроксимація

Розглянемо випадок, коли апроксимуюча функція задана логарифмічною функцієювиду:

Якщо деяка фізична величиназалежить від іншої величини, то цю залежність можна досліджувати, вимірюючи y при різних значеннях x. В результаті вимірів виходить ряд значень:

x 1, x 2, ..., x i, ..., x n;

y 1 , y 2 , ..., y i , ... , y n .

За даними такого експерименту, можна побудувати графік залежності y = ƒ(x). Отримана крива дозволяє судити про вид функції ƒ(x). Однак постійні коефіцієнти, які входять до цієї функції, залишаються невідомими. Визначити їх дозволяє метод найменших квадратів. Експериментальні точки, зазвичай, не лягають точно на криву. Метод найменших квадратів вимагає, щоб сума квадратів відхилень експериментальних точок від кривої, тобто. 2 була найменшою.

Насправді цей метод найчастіше (і найпростіше) використовується у разі лінійної залежності, тобто. коли

y = kxабо y = a + bx.

Лінійна залежність дуже поширена у фізиці. І навіть коли нелінійна залежність, зазвичай намагаються будувати графік так, щоб отримати пряму лінію. Наприклад, якщо припускають, що показник заломлення скла n пов'язаний з довжиною λ світлової хвилі співвідношенням n = a + b/λ 2 то на графіку будують залежність n від λ -2 .

Розглянемо залежність y = kx(Пряма, що проходить через початок координат). Складемо величину φ суму квадратів відхилень наших точок від прямої

Величина φ завжди позитивна і виявляється тим меншою, чим ближче до прямої лежать наші точки. Метод найменших квадратів стверджує, що для k слід вибирати таке значення, при якому має мінімум


або
(19)

Обчислення показує, що середньоквадратична помилка визначення величини k дорівнює при цьому

, (20)
де n число вимірювань.

Розглянемо тепер трохи складніший випадок, коли точки повинні задовольнити формулу y = a + bx(Пряма, що не проходить через початок координат).

Завдання полягає в тому, щоб за наявним набором значень x i і y знайти найкращі значення a і b.

Знову складемо квадратичну форму? рівну суміквадратів відхилень точок x i , y i від прямої

і знайдемо значення a і b , при яких має мінімум

;

.

.

Спільне рішенняцих рівнянь дає

(21)

Середньоквадратичні помилки визначення a та b рівні

(23)

.  (24)

При обробці результатів вимірювання цим методом зручно всі дані зводити в таблицю, в якій попередньо підраховуються всі суми, що входять до формул (19) (24). Форми цих таблиць наведені в наведених нижче прикладах.

приклад 1.Досліджувалося основне рівняння динаміки обертального руху ε = M/J (пряма, яка проходить через початок координат). При різних значеннях моменту M вимірювалося кутове прискорення деякого тіла ε. Потрібно визначити момент інерції цього тіла. Результати вимірювань моменту сили та кутового прискорення занесені до другого та третього стовпців таблиці 5.

Таблиця 5
n M, Н · м ε, c -1 M 2 M · ε ε - kM (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

За формулою (19) визначаємо:

.

Для визначення середньоквадратичної помилки скористаємося формулою (20)

0.005775кг-1 · м -2 .

За формулою (18) маємо

; .

S J = (2.996 · 0.005775) / 0.3337 = 0.05185 кг · м 2.

Задавшись надійністю P = 0.95, за таблицею коефіцієнтів Стьюдента для n = 5, знаходимо t = 2.78 і визначаємо абсолютну помилкуΔJ = 2.78 · 0.05185 = 0.1441 ≈ 0.2 кг · м 2.

Результати запишемо у вигляді:

J = (3.0 ± 0.2) кг · м 2;


приклад 2.Обчислимо температурний коефіцієнт опору металу методом найменших квадратів. Опір залежить від температури за лінійним законом

R t = R 0 (1 + α t °) = R 0 + R 0 α t °.

Вільний член визначає опір R 0 при температурі 0° C , а кутовий коефіцієнт твір температурного коефіцієнта α на опір R 0 .

Результати вимірювань та розрахунків наведені в таблиці ( див. таблицю 6).

Таблиця 6
n t°, c r, Ом t-¯ t (t-¯ t) 2 (t-¯ t)r r - bt - a (r - bt - a) 2,10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

За формулами (21), (22) визначаємо

R 0 = ? R - α R 0 ? Ом.

Знайдемо помилку у визначенні α. Оскільки , то за формулою (18) маємо:

.

Користуючись формулами (23), (24) маємо

;

0.014126 Ом.

Задавшись надійністю P = 0.95, за таблицею коефіцієнтів Стьюдента для n = 6, знаходимо t = 2.57 та визначаємо абсолютну помилку Δα = 2.57 · 0.000132 = 0.000338 град -1.

α = (23 ± 4) · 10 -4 град-1 за P = 0.95.


приклад 3.Потрібно визначити радіус кривизни лінзи по кільцях Ньютона. Вимірювалися радіуси кілець Ньютона r m та визначалися номери цих кілець m. Радіуси кілець Ньютона пов'язані з радіусом кривизни лінзи R і номером кільця рівнянням

r 2 m = mλR - 2d 0 R,

де d 0 товщина зазору між лінзою і плоскопаралельною пластинкою (або деформація лінзи),

λ | довжина хвилі падаючого світла.

λ = (600 ± 6) нм;
r 2 m = y;
m = x;
λR = b;
-2d 0 R = a,

тоді рівняння набуде вигляду y = a + bx.

.

Результати вимірювань та обчислень занесені до таблицю 7.

Таблиця 7
n x = m y = r 2 10 -2 мм 2 m - m (m - m) 2 (m - m)y y - bx - a, 10 -4 (y - bx - a) 2 , 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –

Поділіться з друзями або збережіть для себе:

Завантаження...