Математика та інформатика. Навчальний посібник з усього курсу

Часто оцінювачу доводиться аналізувати ринок нерухомості того сегмента, в якому знаходиться об'єкт оцінки. Якщо ринок розвинений, проаналізувати всю сукупність представлених об'єктів буває складно, для аналізу використовується вибірка об'єктів. Не завжди ця вибірка виходить однорідною, іноді потрібно очистити її від екстремумів - надто високих чи надто низьких пропозицій ринку. Для цієї мети застосовується довірчий інтервал. Ціль даного дослідження- Провести порівняльний аналіз двох способів розрахунку довірчого інтервалу і вибрати оптимальний варіант розрахунку при роботі з різними вибірками в системі estimatica.pro.

Довірчий інтервал - обчислений на основі вибірки інтервал значень ознаки, який з певною ймовірністю містить параметр, що оцінюється генеральної сукупності.

Сенс обчислення довірчого інтервалу полягає в побудові за даними вибірки такого інтервалу, щоб можна було стверджувати із заданою ймовірністю, що значення параметра, що оцінюється, знаходиться в цьому інтервалі. Іншими словами, довірчий інтервал з певною ймовірністю містить невідоме значення величини, що оцінюється. Чим ширший інтервал, тим вища неточність.

Існують різні способи визначення довірчого інтервалу. У цій статті розглянемо 2 способи:

  • через медіану та середньоквадратичне відхилення;
  • через критичне значення t-статистики (коефіцієнт Стьюдента).

Етапи порівняльного аналізу різних способіврозрахунку ДІ:

1. формуємо вибірку даних;

2. обробляємо її статистичними методами: розраховуємо середнє значення, медіану, дисперсію тощо;

3. розраховуємо довірчий інтервал двома способами;

4. аналізуємо очищені вибірки та отримані довірчі інтервали.

Етап 1. Вибірка даних

Вибірку сформовано за допомогою системи estimatica.pro. У вибірку увійшла 91 пропозиція про продаж 1 кімнатних квартир у 3-му ціновому поясі з типом планування «Хрущовка».

Таблиця 1. Вихідна вибірка

Ціна 1 кв.м., д.е.

Рис.1. Вихідна вибірка



Етап 2. Обробка вихідної вибірки

Обробка вибірки методами статистики потребує обчислення наступних значень:

1. Середнє арифметичне значення

2. Медіана - число, що характеризує вибірку: рівно половина елементів вибірки більше медіани, інша половина менше медіани

(Для вибірки, що має непарне число значень)

3. Розмах - різниця між максимальним та мінімальним значеннями у вибірці

4. Дисперсія – використовується для більш точного оцінювання варіації даних

5. Середньоквадратичне відхилення за вибіркою (далі - СКО) - найпоширеніший показник розсіювання значень коригування навколо середнього арифметичного значення.

6. Коефіцієнт варіації - відбиває ступінь розкиданості значень коригувань

7. коефіцієнт осциляції - відбиває відносне коливання крайніх значень цін у вибірці навколо середньої

Таблиця 2. Статистичні показники вихідної вибірки

Коефіцієнт варіації, що характеризує однорідність даних, становить 12,29%, проте коефіцієнт осциляції занадто великий. Таким чином ми можемо стверджувати, що вихідна вибірка не є однорідною, тому перейдемо до розрахунку довірчого інтервалу.

Етап 3. Розрахунок довірчого інтервалу

Спосіб 1. Розрахунок через медіану та середньоквадратичне відхилення.

Довірчий інтервал визначається так: мінімальне значення - з медіани віднімається СКО; максимальне значення - до медіани додається СКО.

Таким чином, довірчий інтервал (47179 д.е.; 60689 д.е.)

Рис. 2. Значення, що потрапили в інтервал довіри 1.



Спосіб 2. Побудова довірчого інтервалу через критичне значення t-статистики (коефіцієнт Стьюдента)

С.В. Грибовський у книзі « Математичні методиоцінки вартості майна» визначає спосіб обчислення довірчого інтервалу через коефіцієнт Стьюдента. При розрахунку цим методом оцінювач повинен сам задати рівень значущості ∝, що визначає ймовірність, з якою буде побудовано довірчий інтервал. Зазвичай використовуються рівні значення 0,1; 0,05 та 0,01. Їм відповідають довірчі ймовірності 0,9; 0,95 та 0,99. За такого методу вважають справжні значення математичного очікуваннята дисперсії практично невідомими (що майже завжди вірно при вирішенні практичних завданьоцінки).

Формула довірчого інтервалу:

n – обсяг вибірки;

Критичне значення t-статистики (розподілу Стьюдента) з рівнем значимості ∝, числом ступенів свободи n-1, яке визначається за спеціальними статистичними таблицями або за допомогою MS Excel (→ "Статистичні" → СТЬЮДРАСПОБР);

∝ – рівень значущості, приймаємо ∝=0,01.

Рис. 2. Значення, що потрапили в інтервал довіри 2.

Етап 4. Аналіз різних способів розрахунку довірчого інтервалу

Два способи розрахунку довірчого інтервалу – через медіану та коефіцієнт Стьюдента – привели до різним значеннямінтервалів. Відповідно, вийшло дві різні очищені вибірки.

Таблиця 3. Статистичні показники за трьома вибірками.

Показник

Вихідна вибірка

1 варіант

2 варіант

Середнє значення

Дисперсія

Коеф. варіації

Коеф. осциляції

Кількість об'єктів, що вибули, шт.

З виконаних розрахунків можна сказати, що отримані різними методами значення довірчих інтервалів перетинаються, тому можна використовувати будь-який із способів розрахунку розсуд оцінювача.

Однак ми вважаємо, що при роботі в системі estimatica.pro доцільно вибирати метод розрахунку довірчого інтервалу в залежності від рівня розвиненості ринку:

  • якщо ринок нерозвинений, застосовувати метод розрахунку через медіану і середньоквадратичне відхилення, оскільки кількість об'єктів, що вибули, у цьому випадку невелика;
  • якщо ринок розвинений, застосовувати розрахунок через критичне значення t-статистики (коефіцієнт Стьюдента), оскільки є можливість сформувати велику вихідну вибірку.

Під час підготовки статті було використано:

1. Грибовський С.В., Сівець С.А., Левикіна І.А. Математичні методи оцінки вартості майна. Москва, 2014 р.

2. Дані системи estimatica.pro

та інших. Усі є оцінками своїх теоретичних аналогів, які можна було б отримати, якби у розпорядженні була вибірка, а генеральна сукупність. Але на жаль, генеральна сукупність - це дуже дорого і часто недоступне.

Поняття про інтервальне оцінювання

Будь-яка вибіркова оцінка має деякий розкид, т.к. є випадковою величиною, що залежить від значень у конкретній вибірці. Отже, для більш надійних статистичних висновків слід знати не лише точкову оцінку, але й інтервал, який з високою ймовірністю γ (гама) накриває оцінюваний показник θ (Тета).

Формально це два таких значення (статистики) T 1 (X)і T 2 (X), що T 1< T 2 для яких при заданому рівні ймовірності γ виконується умова:

Коротше, з ймовірністю γ або більше істинний показник знаходиться між точками T 1 (X)і T 2 (X), які називаються нижнім та верхнім кордоном довірчого інтервалу.

Однією з умов побудови довірчих інтервалів його максимальна вузькість, тобто. він має бути наскільки це можливо коротким. Бажання цілком природно, т.к. дослідник намагається точніше локалізувати знаходження шуканого параметра.

Звідси випливає, що інтервал довіри повинен накривати максимальні ймовірності розподілу. а сама оцінка бути у центрі.

Тобто ймовірність відхилення (справжнього показника від оцінки) у більшу сторону дорівнює ймовірності відхилення у менший бік. Слід зазначити, що з несиметричних розподілів інтервал справа не дорівнює інтервалу зліва.

На малюнку вище чітко видно, що чим більша довірча ймовірність, тим ширший інтервал – пряма залежність.

Це була невелика вступна частина в теорію інтервального оцінювання невідомих параметрів. Перейдемо до знаходження довірчих кордонів для математичного очікування.

Довірчий інтервал для математичного очікування

Якщо вихідні дані розподілені по , то середнє буде нормальною величиною. Це випливає з того правила, що лінійна комбінація нормальних величин також має нормальний розподіл. Отже, для розрахунку можливостей ми могли б використовувати математичний апарат нормального закону розподілу.

Однак для цього потрібно знати два параметри – матожидання та дисперсію, які зазвичай не відомі. Можна, звичайно, замість параметрів використовувати оцінки (середню арифметичну і ), але тоді розподіл середньої буде не зовсім нормальним, він буде трохи приплюснутий донизу. Цей факт спритно помітив громадянин Вільям Госсет з Ірландії, опублікувавши своє відкриття у березневому випуску журналу Biometrica за 1908 рік. З метою конспірації Держсет підписався Стьюдентом. Так виник t-розподіл Стьюдента.

Однак нормальний розподіл даних, що використовувався К. Гауссом при аналізі помилок астрономічних спостережень, у земному житті зустрічається вкрай рідко і встановити досить складно (для високої точності необхідно близько 2 тисяч спостережень). Тому припущення про нормальність найкраще відкинути та використовувати методи, які не залежать від розподілу вихідних даних.

Виникає питання: який же розподіл середньої арифметичної, якщо він розрахований за даними невідомого розподілу? Відповідь дає відома у теорії ймовірностей Центральна гранична теорема(ЦПТ). У математиці існує кілька її варіантів (протягом довгих років формулювання уточнювалися), але всі вони, грубо кажучи, зводяться до твердження, що сума великої кількості незалежних випадкових величин підпорядковується нормальному законурозподілу.

При розрахунку середньої арифметичної використовується сума випадкових величин. Звідси виходить, що середнє арифметичне має нормальний розподіл, у якого матожидання – це маточування вихідних даних, а дисперсія – .

Розумні людивміють доводити ЦПТ, але ми переконаємося з допомогою експерименту, проведеного в Excel. Змоделюємо вибірку із 50-ти рівномірно розподілених випадкових величин (за допомогою функції ExcelВИПАДМІЖ). Потім зробимо 1000 таких вибірок і кожної розрахуємо середню арифметичну. Подивимося з їхньої розподіл.

Видно, що розподіл середньої близько до нормального закону. Якщо обсяг вибірок та їх кількість зробити ще більше, то подібність буде ще кращою.

Тепер, коли ми переконалися в справедливості ЦПТ, можна, використовуючи , розрахувати довірчі інтервали для середньої арифметичної, які із заданою ймовірністю накривають справжнє середнє чи математичне очікування.

Для встановлення верхньої та нижньої межі потрібно знати параметри нормального розподілу. Як правило, їх немає, тому використовують оцінки: середню арифметичнуі вибіркову дисперсію. Повторюся, такий спосіб дає гарне наближення лише за великих вибірках. Коли вибірки малі, часто рекомендують використовувати розподіл Стьюдента. Не вірте! Розподіл Стьюдента для середньої буває лише тоді, коли вихідні дані мають нормальний розподіл, тобто майже ніколи. Тому краще відразу поставити мінімальну планку за кількістю необхідних даних та використовувати асимптотично коректні методи. Говорять, достатньо 30 спостережень. Беріть 50 – не помилитеся.

T 1,2– нижня та верхня межа довірчого інтервалу

– вибіркове середнє арифметичне

s 0- Середнє квадратичне відхилення за вибіркою (незміщене)

n - Розмір вибірки

γ - Довірча ймовірність (зазвичай дорівнює 0,9, 0,95 або 0,99)

c γ =Φ -1 ((1+γ)/2)- Зворотне значення функції стандартного нормального розподілу. Простіше кажучи, це кількість стандартних помилок від середньої арифметичної до нижньої або верхньої межі (вказаним трьома ймовірностями відповідають значення 1,64, 1,96 і 2,58).

Суть формули в тому, що береться середнє арифметичне і далі від неї відкладається кілька ( з γ) стандартних помилок ( s 0 /√n). Все відомо, бери і рахуй.

До масового використання ПЕОМ для отримання значень функції нормального розподілу та зворотної їй використовували. Їх і зараз використовують, але ефективніше звернутися до готових формулам Excel. Всі елементи формули вище ( , і ) можна легко розрахувати в Excel. Але є і готова формула для розрахунку довірчого інтервалу ДОВІР.НОРМ. Її синтаксис наступний.

ДОВІР.НОРМ(альфа;стандартне_вимк.;розмір)

альфа– рівень значущості чи довірчий рівень, що у прийнятих вище позначеннях дорівнює 1- γ, тобто. ймовірність того, що математичнеочікування опиниться поза довірчого інтервалу. При довірчої ймовірності 0,95, альфа дорівнює 0,05 і т.д.

стандартне_відкл- Середнє квадратичне відхилення вибіркових даних. Стандартну помилку не треба розраховувати, Excel сам розділить на корінь з n.

розмір- Розмір вибірки (n).

Результат функції ДОВЕРИТ.НОРМ – це другий доданок з формули розрахунку довірчого інтервалу, тобто. напівінтервал. Відповідно, нижня та верхня точка – це середнє ± отримане значення.

Отже, можна побудувати універсальний алгоритм розрахунку довірчих інтервалів для середньої арифметичної, який залежить від розподілу вихідних даних. Платою за універсальність є його асимптотичність, тобто. необхідність використання щодо великих вибірок. Однак у вік сучасних технологійзібрати необхідну кількість даних зазвичай не становить труднощів.

Перевірка статистичних гіпотез за допомогою довірчого інтервалу

(Module 111)

Однією з основних завдань, вирішуваних у статистиці, є . Її суть коротко така. Висувається припущення, наприклад, що матожидання генеральної сукупності дорівнює якомусь значенню. Потім будується розподіл вибіркових середніх, які можуть спостерігатися при даному матожиданні. Далі дивляться, де цього умовного розподілу перебуває справжня середня. Якщо вона виходить за допустимі межі, то поява такого середнього дуже малоймовірна, а при одноразовому повторенні експерименту майже неможливо, що суперечить висунутій гіпотезі, яка успішно відхиляється. Якщо ж середнє не виходить за критичний рівень, то гіпотеза не відхиляється (але й доводиться!).

Так ось за допомогою довірчих інтервалів, у нашому випадку для матожидання, також можна перевіряти деякі гіпотези. Це дуже просто зробити. Припустимо, середня арифметична за деякою вибіркою дорівнює 100. Перевіряється гіпотеза про те, що матожидання одно, припустимо, 90. Тобто, якщо поставити питання примітивно, то він звучить так: чи може таке бути, щоб при істинному значенні середньої рівної 90, спостерігається середня виявилася дорівнює 100?

Для відповіді на це питання додатково знадобиться інформація про середнє квадратичне відхилення та розмір вибірки. Допустимо середньоквадратичне відхилення дорівнює 30, а кількість спостережень 64 (щоб легко витягти корінь). Тоді стандартна помилка середньої дорівнює 30/8 чи 3,75. Для розрахунку 95% довірчого інтервалу потрібно відкласти в обидві сторони від середньої по дві стандартні помилки (точніше, 1,96). Довірчий інтервал вийде приблизно 100±7,5 або 92,5 до 107,5.

Далі міркування такі. Якщо перевірене значення потрапляє у довірчий інтервал, воно не суперечить гіпотезі, т.к. укладається у межі випадкових коливань (з ймовірністю 95%). Якщо точка, що перевіряється, виходить за межі довірчого інтервалу, то ймовірність такої події дуже маленька, принаймні нижче допустимого рівня. Отже, гіпотезу відхиляють, як таку, що суперечить спостережуваним даним. У нашому випадку гіпотеза про маточування знаходиться за межами довірчого інтервалу (перевірене значення 90 не входить до інтервалу 100±7,5), тому її слід відхилити. Відповідаючи на примітивне питання вище, слід сказати: ні не може, принаймні таке трапляється вкрай рідко. Часто при цьому вказують конкретну ймовірність помилкового відхилення гіпотези (p-level), а не заданий рівень, яким будувався довірчий інтервал, але про це в інший раз.

Як бачимо, побудувати довірчий інтервал для середнього (або математичного очікування) нескладно. Головне, вловити суть, а далі йтиметься. На практиці в більшості випадків використовуються 95% довірчий інтервал, який має завширшки приблизно дві стандартні помилки по обидва боки від середньої.

На цьому поки що все. Всіх благ!

Нехай зроблена вибірка з генеральної сукупності, підпорядкованої закону нормальногорозподілу XN( m; ). Це основне припущення математичної статистики ґрунтується на центральній граничній теоремі. Нехай відоме генеральне середнє квадратичне відхилення , але невідомо математичне очікування теоретичного розподілу m(середнє значення ).

У такому разі середнє вибіркове , отримане в ході експерименту (п.3.4.2), також буде випадковою величиною m;
). Тоді «нормалізоване» відхилення
N(0;1) – є стандартною нормальною випадковою величиною.

Завдання полягає у пошуку інтервальної оцінки для m. Побудуємо двосторонній довірчий інтервал для m так, щоб справжнє математичне очікування належало йому із заданою ймовірністю (надійністю) .

Встановити такий інтервал для величини
- Це означає знайти максимальне значення цієї величини
та мінімальне
, які є межами критичної області:
.

Т.к. така ймовірність дорівнює
, то корінь цього рівняння
можна знайти за допомогою таблиць функції Лапласа (Таблиця 3, додаток 1).

Тоді з ймовірністю можна стверджувати, що випадкова величина
, тобто шукане генеральне середнє належить інтервалу
. (3.13)

Величину
(3.14)

називають точністюоцінки.

Число
квантильнормального розподілу – можна як аргумент функції Лапласа (Таблиця 3, додаток 1), враховуючи співвідношення 2Ф( u)=, тобто. Ф( u)=
.

Назад, за заданим значенням відхилення можна знайти, з якою ймовірністю, невідоме генеральне середнє належить інтервалу
. Для цього потрібно обчислити

. (3.15)

Нехай із генеральної сукупності вилучено випадкову вибірку методом повторного відбору. З рівняння
можна знайти мінімальнийобсяг повторної вибірки n, необхідний для того, щоб довірчий інтервал із заданою надійністю не перевищував наперед заданого значення . Оцінку необхідного обсягу вибірки роблять за такою формулою:

. (3.16)

Досліджуємо точність оцінки
:

1) У разі зростання обсягу вибірки nвеличина зменшується, і значить, точність оцінки збільшується.

2) З збільшеннямнадійності оцінки збільшується значення аргументу u(Т.к. Ф(u) монотонно зростає) і значить збільшується . У такому разі збільшення надійності зменшуєточність її оцінки .

Оцінку
(3.17)

називають класичною(де t- певний параметр, що залежить від і n), т.к. вона характеризує найпоширеніші закони розподілу.

3.5.3 Довірчі інтервали для оцінки математичного очікування нормального розподілу за невідомого середнього квадратичного відхилення 

Нехай відомо, що генеральна сукупність підпорядкована закону нормального розподілу XN( m;), де величина середнього квадратичноговідхилення невідома.

Для побудови довірчого інтервалу оцінки генерального середнього у разі використовується статистика
, що має розподіл Ст'юдента з k= n-1 ступенями свободи. Це випливає з того, що N(0;1) (див. п.3.5.2), а
(див. п.3.5.3) та з визначення розподілу Ст'юдента (ч.1.п.2.11.2).

Знайдемо точність класичної оцінки розподілу Стьюдента: тобто. знайдемо tіз формули (3.17). Нехай ймовірність виконання нерівності
задана надійністю :

. (3.18)

Оскільки TSt( n-1), очевидно, що tзалежить від і nтому зазвичай пишуть
.

(3.19)

де
- функція розподілу Ст'юдента з n-1 ступенями свободи.

Вирішуючи це рівняння щодо m, отримаємо інтервал
який з надійністю  покриває невідомий параметр m.

Величина t , n-1 , що служить для визначення довірчого інтервалу випадкової величини T(n-1), розподіленою за Ст'юдентом з n-1 ступенями свободи, називається коефіцієнтом Ст'юдента. Його слід знаходити за заданими значеннями nта  з таблиць « Критичні точкирозподілу Стьюдента». (Таблиця 6, додаток 1), які є рішення рівняння (3.19).

У результаті отримуємо такий вираз точності довірчого інтервалу для оцінки математичного очікування (генерального середнього), якщо невідома дисперсія:

(3.20)

Т.ч. існує загальна формула побудови довірчих інтервалів для математичного очікування генеральної сукупності:

де точність довірчого інтервалу залежно від відомої чи невідомої дисперсії знаходиться за формулами відповідно 3.16. та 3.20.

Завдання 10.Проведено деякі випробування, результати яких занесені до таблиці:

x i

Відомо, що вони підпорядковуються закону нормального розподілу з
. Знайти оцінку m* для математичного очікування m, побудувати йому 90% довірчий інтервал.

Рішення:

Отже, m(2.53;5.47).

Завдання 11.Глибина моря вимірюється приладом, систематична помилка якого дорівнює 0, а випадкові помилки розподіляються за нормальним законом, із середнім квадратичним відхиленням = 15м. Скільки треба зробити незалежних вимірів, щоб визначити глибину з помилками не більше 5м за довірчої ймовірності 90%?

Рішення:

За умовою завдання маємо XN( m; ), де = 15м, = 5м, =0.9. Знайдемо обсяг n.

1) Із заданою надійністю = 0.9 знайдемо за таблицями 3 (Додаток 1) аргумент функції Лапласа u = 1.65.

2) Знаючи задану точність оцінки =u=5, знайдемо
. Маємо

. Тому кількість випробувань n25.

Завдання 12.Вибір температури tза перші 6 днів січня представлена ​​у таблиці:

Знайти довірчий інтервал для математичного очікування mгенеральної сукупності з довірчою ймовірністю
та оцінити генеральне стандартне відхилення s.

Рішення:


і
.

2) Незміщену оцінку знайдемо за формулою
:

=-175

=234.84

;
;

=-192

=116


.

3) Оскільки генеральна дисперсія невідома, але відома її оцінка, то оцінки математичного очікування mвикористовуємо розподіл Ст'юдента (Таблиця 6, додаток 1) та формулу (3.20).

Т.к. n 1 =n 2 = 6, то ,
, s 1 =6.85 маємо:
, звідси -29.2-4.1<m 1 < -29.2+4.1.

Тому -33.3<m 1 <-25.1.

Аналогічно маємо,
, s 2 = 4.8, тому

–34.9< m 2 < -29.1. Тогда доверительные интервалы примут вид: m 1 (-33.3;-25.1) та m 2 (-34.9;-29.1).

У прикладних науках, наприклад, у будівельних дисциплінах, для оцінки точності об'єктів використовуються таблиці довірчих інтервалів, які наведені у довідковій літературі.

Поділіться з друзями або збережіть для себе:

Завантаження...