Формула визначення медіани. Середня чи все ж таки медіана

Зарплат в різних галузях економіки, температуру і рівень опадів на одній і тій же території за порівняні періоди часу, врожайність культур, що вирощуються в різних географічних регіонах і т. д. Втім, середня є аж ніяк не єдиним узагальнюючим показником - у ряді випадків для більш точної оцінки підходить така величина як медіана. У статистиці вона широко застосовується як допоміжна описова характеристика розподілу будь-якої ознаки в окремо взятій сукупності. Давайте розберемося, чим вона відрізняється від середньої, і чим викликана необхідність її використання.

Медіана у статистиці: визначення та властивості

Уявіть собі таку ситуацію: на фірмі разом із директором працюють 10 осіб. Прості працівники отримують по 1000 грн., а їхній керівник, який, до того ж, є власником, – 10000 грн. Якщо обчислити середнє арифметичне, то вийде, що у середньому зарплата цьому підприємстві дорівнює 1900 грн. Чи буде справедливим це твердження? Або візьмемо такий приклад, в одній і тій же лікарняній палаті знаходиться дев'ять осіб з температурою 36,6 °С, і одна людина, яка має 41 °С. Арифметичне середнє у разі одно: (36,6*9+41)/10 = 37,04 °С. Але це зовсім не означає, що кожен із присутніх хворий. Все це наштовхує на думку, що однієї середньої часто буває недостатньо, і саме тому на додаток до неї використовується медіана. У статистиці цим показником називають варіант, розташований рівно посередині упорядкованого варіаційного ряду. Якщо порахувати її для наших прикладів, то вийде відповідно 1000 грн. та 36,6 °С. Іншими словами, медіаною в статистиці називається значення, яке ділить ряд навпіл таким чином, що по обидва боки від неї (вниз або вгору) розташована однакова кількість одиниць цієї сукупності. Через цю властивість цей показник має ще кілька назв: 50-й перцентиль або квантиль 0,5.

Як знайти медіану у статистиці

Спосіб розрахунку цієї величини багато в чому залежить від того, який тип варіаційного ряду ми маємо: дискретний чи інтервальний. У першому випадку медіана в статистиці знаходиться досить просто. Все, що потрібно зробити, це знайти суму частот, розділити її на 2 і потім додати результату ½. Найкраще пояснити принцип розрахунку на наступному прикладі. Припустимо, у нас є згруповані дані народжуваності, і потрібно з'ясувати, чому дорівнює медіана.

Номер групи сімей за кількістю дітей

Кількість сімей

Провівши нехитрі підрахунки, отримаємо, що показник, що шукається, дорівнює: 195/2 + ½ = варіанти. Для того, щоб з'ясувати, що це означає, слід послідовно накопичувати частоти, починаючи з найменшої варіанти. Отже, сума перших двох рядків дає нам 30. Зрозуміло, що тут 98 варіантів немає. Але якщо додати до результату частоту третьої варіанти (70), то вийде сума, що дорівнює 100. У ній якраз і знаходиться 98 варіанта, а значить медіаною буде сім'я, у якої є двоє дітей.

Щодо інтервального ряду, то тут зазвичай використовують таку формулу:

М е = Х Ме + i Ме * (∑f/2 - S Me-1)/f Ме, в якій:

  • Х Ме – перше значення медіанного інтервалу;
  • ∑f – чисельність ряду (сума його частот);
  • i Ме – величина медіанного діапазону;
  • f Ме – частота медіанного діапазону;
  • S Ме-1 – сума кумулятивних частот у діапазонах, що передують медіанному.

Знову ж таки, без прикладу тут розібратися досить складно. Припустимо, є дані за величиною

Зарплата, тис. руб.

Накопичені частоти

Щоб скористатися наведеною вище формулою, спочатку нам потрібно визначити медіанний інтервал. Як такий діапазон вибирають той, накопичена частота якого перевищує половину всієї суми частот або дорівнює їй. Отже, розділивши 510 на 2, отримуємо, що цьому критерію відповідає інтервал зі значенням зарплати від 250 000 руб. до 300 000 руб. Тепер можна підставляти всі дані у формулу:

М е = Х Ме + i Ме * (∑f/2 - S Ме-1) / f Ме = 250 + 50 * (510/2 - 170) / 115 = 286,96 тис. руб.

Сподіваємося, наша стаття виявилася корисною, і тепер ви маєте чітке уявлення про те, що таке медіана у статистиці та як її слід розраховувати.

Медіана (Me)- Значення ознаки, що припадає на середину ранжованого ряду, тобто. ділить ряд розподілу на дві рівні частини.

а) для ряду одиночних значень:

Якщо непарнеу варіант, то серединне значення ранжированном ряду

Якщо парне, то сред.арифмет. з 2х суміжних серединних значень у ранжирів. ряду

б) У дискретному ряді розподілувизначається номер медіани за формулою:

Номер медіани показує значення показника, яке і є медіаною.

в) В інтервальному ряді розподілумедіана розраховується за такою формулою:

x – нижня межа медіанного інтервалу;

i – величина інтервалу;

f – чисельність медіанного інтервалу;

S – сума накопичених частот інтервалів, що передують медіанному.

31. Мода та її практичне значення

Мода (Mo)– величина ознаки, найчастіше що у сукупності, тобто. має найбільшу чисельність у ряді розподілу.

а) У дискретному ряді розподілумода визначається візуально.

б) В інтервальному ряду розподілувізуально можна визначити лише інтервал, в якому укладена мода, який називається модальним інтервалом (той, що має найбільшу частоту).

Мода дорівнюватиме:

x – нижня межа модального інтервалу;

i – величина інтервалу;

f – чисельність модального інтервалу;

Якщо всі значення варіаційного ряду мають однакову частоту, то кажуть, що варіаційний ряд не має моди. Якщо дві не сусідні варіанти мають однакову домінуючу частоту, то такий варіаційний ряд називають бімодальним; якщо таких варіантів більше двох, то ряд – полімодальний.

32. Показники варіації та способи їх розрахунку

Варіації- коливання, різноманіття, змінність величини ознаки в одиниць сукупності.

Показники варіації поділяються на абсолютні та відносні.

До абсолютним показникамналежать розмах варіації, середнє лінійне відхилення, дисперсія, середнє квадратичне відхилення. До відносним- Коефіцієнти осциляції, коефіцієнти варіації та відносне лінійне відхилення.

Розмах варіації– найпростіший показник, різниця між максимальним та мінімальним значеннями ознаки.

Недоліком є ​​те, що він оцінює лише межі варіювання ознаки і не відображає його коливання усередині цих кордонів.

Середнє лінійне відхиленнявідбиває всі коливання варіюючого ознаки і є середню арифметичну з абсолютних значень відхилень варіант від середньої величини, т.к. сума відхилень значень ознаки від середньої дорівнює 0, всі відхилення беруться по модулю.

Проста
Зважена

Дисперсія- Середній квадрат відхилень значень ознаки від їх середньої величини.

Проста:
Зважена:

З реднє квадратичне відхилення. Воно визначається як квадратний корінь з дисперсії і має ту ж розмірність, що і ознака, що вивчається.

Проста:
Зважена:
.

Відносні показники

У 1906 році великий вчений і відомий фахівець з євгеніки Френсіс Гальтон відвідав щорічну виставку досягнень тваринництва та птахівництва у західній Англії, де випадково провів цікавий експеримент.

Як зазначає Джеймс Суровецьки, автор книги «Мудрість натовпу», на ярмарку Гальтона зацікавило одне змагання, в рамках якого люди мали вгадати вагу забитого бика. Який назвав найближче до справжнього число оголошувався переможцем.

Гальтон був відомий своєю зневагою до інтелектуальних здібностей звичайних людей. Він вважав, що лише справжні експерти зможуть зробити точні твердження про вагу бика. А 787 учасників змагання не були експертами.

Вчений збирався довести некомпетентність натовпу, обчисливши середню кількість відповідей учасників. Яке ж було його здивування, коли виявилося, що отриманий ним результат майже точно відповідав справжній вазі бика!

Середнє значення - пізніше винахід

Звісно, ​​точність відповіді вразила дослідника. Але ще примітнішим є той факт, що Гальтон взагалі здогадався скористатися середнім значенням.

У сьогоднішньому світі середні і так звані медіанні показники зустрічаються на кожному кроці: середня температура в Нью-Йорку у квітні дорівнює 52 градусам за Фаренгейтом; Стівен Каррі в середньому заробляє 30 очок за гру; медіанний сімейний дохід у США становить $51 939/рік.

Однак ідея про те, що безліч різних результатів можна репрезентувати одним числом, задоволена нова. До 17 століття середні числа взагалі не використовувалися.

Яким чином з'явилася і розвинулася концепція середніх і медіанних значень? І як їй удалося стати головною вимірювальною методикою в наш час?

Переважання середніх значень над медіанними мало далекосяжні наслідки для нашого розуміння інформації. І нерідко воно приводило людей в оману.

Середнє та медіанне значення

Уявіть, що ви розповідаєте історію про чотирьох людей, які вечеряли минулого вечора з вами в ресторані. Одному з них ви дали б 20 років, іншому — 30, третьому — 40, а четвертому — 50. Що ви скажете про їх вік у своїй історії?

Швидше за все, ви назвете їхній середній вік.

Середнє значення часто використовується передачі інформації про що-небудь, і навіть для опису деякого безлічі вимірів. Технічно, середнє значення — те, що математики називають «середнім арифметичним» — сума всіх вимірів, поділена на число вимірів.

Хоча слово "середнє" (average) часто використовується як синонім слова "медіанне" (median), останнім частіше позначається середина чогось. Це слово походить від латинського "medianus", що означає "середина".

Медіанне значення в Стародавню Грецію

Історія медіанного значення бере свій початок із вчення давньогрецького математика Піфагора. Для Піфагора та його школи медіана мала чітке визначення і дуже відрізнялася від того, як ми розуміємо середнє значення сьогодні. Воно використовувалося лише у математиці, а чи не в аналізі даних.

У школі піфагорійців медіанне значення було середнім числом у тричленній послідовності чисел, що перебуває у «рівному» відношенні із сусідніми членами. «Рівне» ставлення могло означати однакову відстань. Наприклад, число 4 у рядку 2,4,6. Однак воно також могло виражати геометричну прогресію, наприклад 10 послідовності 1,10,100.

Статистик Черчілль Ейзенхарт пояснює, що в Стародавній Греції, медіанне значення не використовувалося як репрезентуючий чи заміняє якийсь набір чисел. Воно просто означало середину і часто використовувалося в математичних доказах.

Ейзенхарт присвятив цілих десять років вивченню середнього та медіанного значень. Спочатку він намагався знайти репрезентуючу функцію медіани в ранніх наукових побудовах. Однак натомість він виявив, що більшість ранніх фізиків і астрономів спиралися на поодинокі, вміло проведені виміри, і вони не мали методології, що дозволяла вибрати найкращий результат серед безлічі спостережень.

Сучасні дослідники ґрунтують свої висновки на збиранні великих обсягів даних, як, наприклад, біологи, які вивчають людський геном. Давні вчені могли провести кілька вимірів, але вибирали лише найкраще для побудови своїх теорій.

Як писав історик астрономії Отто Нойгебауер, "це узгоджується з усвідомленим прагненням античних людей мінімізувати кількість емпіричних даних у науці, тому що вони не вірили в точність безпосередніх спостережень".

Наприклад, грецький математик та астроном Птолемей обчислив кутовий діаметр Місяця, використовуючи метод спостереження та теорію руху землі. Його результат дорівнював 31'20. Сьогодні ми знаємо, що діаметр Місяця коливається від 29'20 до 34'6 залежно від відстані від Землі. Птолемей у своїх обчисленнях використовував мало даних, але він мав усі підстави вважати, що вони були точними.

Ейзенхарт пише: «Необхідно мати на увазі, що зв'язок між спостереженням і теорією в античності був інший, ніж сьогодні. Результати спостережень розумілися не як факти, під які повинна підлаштовуватися теорія, але як конкретні випадки, які можуть бути корисними лише як ілюстративні приклади істинності теорії »

Зрештою, вчені звернуться до репрезентативних вимірювань даних, але спочатку ні середні, ні медіанні значення не використовувалися в цій ролі. З часів античності до сьогодні як такий репрезентативний засіб використовувався інший математичний концепт — напівсума крайніх значень.

Напівсума крайніх значень

Нові наукові засоби майже завжди виникають із необхідності вирішити певне завдання у будь-якій дисципліні. Необхідність знайти найкраще значеннясеред безлічі вимірювань виникло потреба точно визначити географічне положення.

Інтелектуальний гігант 11-го століття Аль-Біруні відомий як один з перших людей, які використовували методологію значень, що репрезентують. Аль-Біруні писав, що коли в його розпорядженні було безліч вимірів, і він хотів знайти найкраще серед них, він використав таке «правило»: потрібно відшукати число, що відповідає середині між двома крайніми значеннями. При обчисленні напівсуми крайніх значень не беруться до уваги всі числа між максимальним та мінімальним значеннями, а перебуває середнє лише цих двох чисел.

Аль-Біруні застосовував цей метод у різних областях, у тому числі для обчислення довготи міста Газні, що знаходиться на території сучасного Афганістану, а також у своїх дослідженнях властивостей металів.

Проте останні кілька століть напівсума крайніх значень використовується дедалі рідше. Насправді, в сучасній науцівона й не актуальна. На місце напівсуми прийшло медіанне значення.

Перехід до середніх значень

На початку 19-го століття використання медіанного/середнього значення стало поширеним методом знаходження найбільш точно репрезентує значення групи даних. Фрідріх фон Гаус, видатний математик свого часу, в 1809-му році писав: «Вважалося, що якщо деяке число було визначено кількома прямими спостереженнями, досконалими в однакових умовах, то середнє арифметичне значенняє найбільш дійсним значенням. Якщо воно і не зовсім суворе, то, Крайній мірі, Воно близьке до дійсності, і тому на нього завжди можна покластися».

Чому відбулося подібне зрушення в методології?

На це питання важко відповісти. У своєму дослідженні Черчілль Ейзенхарт припускає, що метод знаходження середнього арифметичного міг зародитися в галузі вимірювання магнітного відхилення, тобто у відшуканні відмінності між напрямком стрілки компаса, що вказує на північ і реальною північчю. Цей вимір був украй важливим в епоху Великих Географічних Відкриттів.

Ейзенхарт з'ясував, що до кінця 16-го століття більшість вчених, що вимірювали магнетичне відхилення, використовували метод ad hoc (від латів. «до цього, для цього випадку, для цієї мети») при виборі найбільш точного вимірювання.

Але в 1580 році вчений Вільям Боро підійшов до проблеми інакше. Він взяв вісім різних вимірів відхилення і, порівнявши їх, дійшов висновку, що найбільше точне значеннябуло між 11 ⅓ та 11 ¼ градусами. Ймовірно, він вирахував середнє арифметичне, яке знаходилось у цьому діапазоні. Проте сам Боро відкрито не називав свого підходу новим методом.

До 1635-го року взагалі було однозначних випадків використання середнього значення як репрезентуючого числа. Однак саме тоді англійський астроном Генрі Геллібренд взяв два різні результати вимірювання магнетичного відхилення. Одна з них була зроблена вранці (11 градусів), а інша — вдень (11 градусів та 32 хвилини). Обчислюючи найбільш справжнє значення, він писав:

"Якщо ми знайдемо середнє арифметичне, ми з великою ймовірністю можемо стверджувати, що результат точного вимірювання має бути близько 11 градусів 16 хвилин".

Цілком імовірно, що це був перший випадок використання середнього значення як найближчого до істинного!

Слово «середнє» (average) застосовувалося в англійській мовіна початку 16-го століття для позначення фінансових втрат від шкоди, яке отримало судно або вантаж, що перевозився під час плавання. Протягом наступних ста років воно означало саме ці втрати, які вираховувалися як середнє арифметичне. Наприклад, якщо корабель під час плавання був пошкоджений, і команді доводилося викидати за борт деякі товари, щоб зберегти вагу судна, інвестори несли фінансові втрати, еквівалентні сумі їх інвестиції - ці втрати обчислювалися так само, як середнє арифметичне. Так поступово значення середнього (average) та середнього арифметичного зближалися.

Медіанне значення

У наші дні середнє або середнє арифметичне використовуються як основний спосіб для вибору репрезентативного значення безлічі вимірювань. Як це сталося? Чому ця роль була відведена медіанному значенню?

Френк Гальтон був чемпіоном медіанного значення

Термін «медіанне значення» (median) - середній член у ряді чисел, що розділяє цей ряд наполовину - з'явився приблизно в той же час, що середнє арифметичне. У 1599 році математик Едвард Райт, який працював над проблемою нормального відхилення в компасі, вперше запропонував використовувати медіанне значення.

«…Припустимо, безліч лучників стріляють у певну мету. Мету згодом прибирають. Як можна дізнатися, де була мета? Потрібно знайти середнє місце між усіма стрілами. Аналогічно, серед багатьох результатів спостережень найближче до істини буде те, що знаходиться посередині».

Медіанне значення широко використовувалося у ХІХ столітті, ставши обов'язковою частиною будь-якого аналізу даних у той час. Ним також користувався і Френк Гальтон, видатний аналітик дев'ятнадцятого століття. В історії про зважування бика, розказаної на початку цієї статті, Гальтон спочатку використовував медіанне значення як думка натовпу.

Безліч аналітиків, включаючи Гальтона, надавали перевагу медіанному значенню, оскільки його легше розрахувати для невеликих наборів даних.

Тим не менш, медіа значення ніколи не було більш популярним, ніж середнє. Швидше за все, це сталося через особливі статистичні властивості, властиві середньому значенню, а також його ставлення до нормального розподілу.

Зв'язок середнього значення та нормального розподілу

Коли ми проводимо безліч вимірів, їх результати, як свідчать статистики, «нормально розподілені». Це означає, що якщо ці дані нанести на графік, то точки на ньому зображатимуть щось схоже на дзвін. Якщо їх з'єднати, вийде «дзвоноподібна» крива. Нормальному розподілувідповідають багато статистичних даних, наприклад, зростання людей, показник інтелекту, а також показник найвищої річної температури.

Коли дані нормально розподілені, середнє значення буде дуже близьким до вищої точки на дзвоноподібну криву, і дуже велика кількість вимірювань буде близьким до середнього значення. Існує навіть формула, яка передбачає, як багато результатів вимірювань будуть знаходитися на деякій відстані від середнього значення.

Отже, обчислення середнього значення дає дослідникам багато додаткової інформації.

Зв'язок середнього значення зі стандартним відхиленнямдає йому велику перевагу, адже у медіанного значення такого зв'язку немає. Цей зв'язок — важлива частина аналізу експериментальних даних та статистичної обробкиінформації. Саме тому середнє значення стало ядром статистики та всіх наук, які покладаються у своїх висновках на численні дані.

Перевага середнього значення також пов'язана з тим, що легко обчислюється комп'ютерами. Хоча медіанне значення для невеликої групи даних досить легко обчислити самостійно, все ж таки набагато простіше написати комп'ютерну програму, яка знаходила б середнє значення. Якщо ви користуєтеся Microsoft Excel, то, напевно, знаєте, що медіанну функцію не так просто розрахувати, як функцію середнього значення.

У результаті завдяки великому науковому значенню і простоті використання середнє значення стало головною репрезентативною величиною. Тим не менш, цей варіант далеко не завжди є найкращим.

Переваги медіанного значення

У багатьох випадках, коли хочемо обчислити центральне значення розподілу, медіанне значення є найкращим показником. Так відбувається тому, що середнє значення багато в чому визначається крайніми результатами вимірів.

Багато аналітиків вважають, що бездумне використання середнього значення негативно позначається на нашому розумінні кількісної інформації. Люди дивляться на середнє значення і думають, що це норма. Але насправді воно може бути визначене якимось одним дуже видатним із однорідного ряду членом.

Уявіть собі аналітика, який бажає дізнатися репрезентативне значення вартості п'яти будинків. Чотири будинки коштують $100,000, а п'ятий - $900,000. Середнє значення, таким чином, дорівнюватиме $200,000, а медіанне - $100,000. У цьому, як і в багатьох інших випадках, медіанне значення дає найкраще розуміння того, що можна назвати «стандартом».

Розуміючи, наскільки дуже крайні значення можуть позначитися середньому, відображення змін у сімейних доходах США використовується медіанне значення.

Медіанний показник також менш чутливий до «брудних» даних, з якими сьогодні мають справу аналітики. Багато статистики та аналітики збирають інформацію, опитуючи людей в інтернеті. Якщо користувач випадково додасть у відповідь зайвий нуль, який перетворить 100 на 1000, то ця помилка набагато сильніше позначиться на середньому значенні, ніж медіанному.

Середнє чи медіанне?

Вибір між медіанним та середнім значенням має далекосяжні наслідки — від нашого розуміння впливу ліків на здоров'я до знань щодо того, який сімейний бюджет можна назвати стандартним.

Оскільки збирання та аналіз даних дедалі більше визначає те, як ми розуміємо світ, зростає і значення використовуваних нами величин. В ідеальному світі аналітики використовували б і середнє, і медіа значення для графічного вираження даних.

Але ми живемо в умовах обмеженого часу та уваги. Через ці обмеження часто нам необхідно вибрати лише щось одне. І в багатьох випадках краще саме медіанне значення.

4. Мода. Медіана. Генеральна та вибіркова середня

Мода на екрані, медіана у трикутнику, а середні – це температура по лікарні та в палаті. Продовжуємо наш практичний курс цікавої статистики (Заняття 1)вивченням центральних характеристик статистичної сукупності, назви яких ви бачите у заголовку. І почнемо ми з його кінця, оскільки про середніх величинмова зайшла практично з перших абзаців теми. Для підготовлених читачів зміст:

  • Генеральна та вибіркова середня– обчислення за первинними даними та для сформованого дискретного варіаційного ряду;
  • Мода- Визначення та знаходження для дискретного випадку;
  • Медіаназагальне визначення, як знайти медіану;
  • Середня, мода та медіана інтервального варіаційного ряду- Обчислення за первинними даними та за готовим рядом. Формули моди та медіани,
  • Квартили, децилі, перцентілі - коротко про головне.

ну а "чайникам" краще ознайомитися з матеріалом по порядку:

Отже, нехай досліджується деяка Генеральна сукупністьобсягу, а саме її числова характеристика, неважливо, дискретнаабо безперервна (Заняття 2, 3).

Генеральної середньої називається середнє арифметичневсіх значень цієї сукупності:

Якщо серед чисел є однакові (що характерно для дискретного ряду) формулу можна записати в більш компактному вигляді:
, де
варіантиповторюється раз;
варіанти – раз;
варіанти – раз;

варіанти – раз.

Живий приклад обчислення генеральної середньоїзустрівся в Приклад 2, але щоб не занудити, я навіть не нагадуватиму його зміст.

Далі. Як ми пам'ятаємо, обробка всієї генеральної сукупностічасто утруднена чи неможлива, і тому з неї організують представницькувибірку обсягу, і на підставі дослідження цієї вибірки роблять висновок про всю сукупність.

Вибіркової середньої називається середнє арифметичневсіх значень вибірки:

і за наявності однакових варіантів формула запишеться компактніше:
– як сума творів варіант на відповідні частоти .

Вибіркова середня дозволяє досить точно оцінити справжнє значення, чого цілком достатньо багатьох досліджень. При цьому чим більше вибірка, тим точніше буде ця оцінка.

Практику почнемо, а точніше продовжимо, з дискретного варіаційного рядута знайомої умови:

Приклад 8

За результатами вибіркового дослідження робочих цеху було встановлено їх кваліфікаційні розряди: 4, 5, 6, 4, 4, 2, 3, 5, 4, 4, 5, 2, 3, 3, 4, 5, 5, 2, 3, 6, 5, 4, 6, 4, 3.

Як вирішуватизавдання? Якщо нам дані первинні дані(вихідні необроблені значення), їх можна тупо підсумувати і розділити результат обсяг вибірки:
- Середньостатистичний кваліфікаційний розряд робочих цеху.

Але у багатьох завданнях потрібно скласти варіаційний ряд (Див. Приклад 4) :

- або цей ряд запропонований спочатку (що буває частіше). І тоді ми, звичайно, використовуємо «цивілізовану» формулу:

Мода . Мода дискретного варіаційного ряду – це варіантиіз максимальною частотою. В даному випадку . Моду легко знайти по таблиці, і ще легше на полігоні частот- Це абсциса найвищої точки:


Іноді таких значень кілька (з однаковою максимальною частотою), і тоді модою вважають кожне їх.

Якщо все чи майже все варіантирізні (що характерно для інтервального ряду), то модальне значення визначається дещо іншим способом, про який у 2-й частині уроку.

Медіана . Медіана варіаційного ряду * - Це значення, яка ділить його на дві рівні частини (за кількістю варіант).

Але тепер нам потрібно знайти середню, моду та медіану.

Рішення: щоб знайти середнюза первинними даними, найкраще підсумувати всі варіанти та розділити отриманий результат на обсяг сукупності:
ден. од.

Ці підрахунки, до речі, займуть не так багато часу і при використанні калькулятора оффлайн. Але якщо є Ексель, то, звісно, забиваємо в будь-який вільний осередок = СУМ (, виділяємо мишкою всі числа, закриваємо дужку ) , ставимо знак поділу / , вводимо число 30 і тиснемо Enter. Готово.

Що стосується моди, то її оцінка за вихідними даними стає непридатною. Хоч ми й бачимо серед чисел однакові, але серед них запросто може бути п'ять так шість-сім варіант з однаковою максимальною частотою, наприклад, частотою 2. Крім того, ціни можуть бути округленими. Тому модальне значення розраховується за сформованим інтервальним рядом (Про що трохи пізніше).

Чого не скажеш про медіана: забиваємо в Ексель =МЕДІАНА(, виділяємо мишею всі числа, закриваємо дужку ) і тиснемо Enter: . Причому тут навіть нічого не потрібно сортувати.

Але в Приклад 6було проведено сортування за зростанням (згадуємо та сортуємо – посилання вище), і це відмінна можливість повторити формальний алгоритм пошуку медіани. Ділимо обсяг вибірки навпіл:

І оскільки вона складається з парної кількості варіант, то медіана дорівнює середньому арифметичному 15-й та 16-й варіанти упорядкованого(!) Варіаційного ряду:

ден. од.

Ситуація друга. Коли дано готовий інтервальний ряд (типове навчальне завдання).

Продовжуємо аналізувати той самий приклад із черевиками, де за вихідними даними був складений ІВР. Для обчислення середньоїзнадобляться середини інтервалів:

– щоб скористатися знайомою формулою дискретного випадку:

- відмінний результат! Розбіжність із більш точним значенням (), обчисленим за первинними даними, становить лише 0,04.

По суті, тут ми наблизили інтервальний ряд дискретним, і це наближення виявилося дуже ефективним. Втім, особливої ​​вигоди немає, т.к. при сучасному програмному забезпеченні нескладно обчислити точне значення навіть у дуже великому масиву первинних даних. Але це за умови, що вони нам відомі:)

З іншими центральними показниками все цікавіше.

Щоб знайти моду, потрібно знайти модальний інтервал (з максимальною частотою)- У цьому завдання це інтервал з частотою 11, і користуватися наступною страшною формулою:
, де:

- нижня межа модального інтервалу;
- Довжина модального інтервалу;
- Частота модального інтервалу;
- Частота попереднього інтервалу;
- Частота наступного інтервалу.

Таким чином:
ден. од. - Як бачите, «модна» ціна на черевики помітно відрізняється від середньої арифметичної.

Не вдаючись у геометрію формули, просто наведу гістограму відносних частоті відзначу:


звідки добре видно, що мода зміщена щодо центру модального інтервалу у бік лівого інтервалу з більшою частотою. Логічно.

Довідково розберу поодинокі випадки:

- Якщо модальний інтервал останній, то або ;

– якщо виявляться 2 модальні інтервали, які знаходяться поруч, наприклад, і , то розглядаємо модальний інтервал, при цьому довколишні інтервали (ліворуч і праворуч) по можливості теж укрупнюємо в 2 рази.

– якщо між модальними інтервалами є відстань, то застосовуємо формулу до кожного інтервалу, отримуючи цим 2 або більша кількістьмод.

Ось такий депеш мод:)

І медіана. Якщо дано готовий інтервальний ряд, то медіана розраховується трохи менш страшною формулою, але спочатку нудно (описка по Фрейду:)) знайти медіанний інтервал - Це інтервал, що містить варіанту (або 2 варіанти), яка ділить варіаційний ряд на дві рівні частини.

Вище я розповів, як визначити медіану, орієнтуючись на відносні накопичені частоти, тут же зручніше розрахувати «звичайні» накопичені частоти. Обчислювальний алгоритм такий самий – перше значення зносимо зліва (червона стрілка), і кожне наступне виходить як сума попереднього з поточною частотою з лівого стовпця (зелені позначення як приклад):

Усім зрозуміле значення чисел у правому стовпці? - це кількість варіантів, які встигли "накопичитися" на всіх "пройдених" інтервалах, включаючи поточний.

Бо у нас парна кількістьваріант (30 штук), то медіанним буде той інтервал, який містить 30/2 = 15 і 16 варіанта. І орієнтуючись на накопичені частоти, легко дійти висновку, що ці варіанти містяться в інтервалі .

Формула медіани:
, де:
- Обсяг статистичної сукупності;
– нижня межа медіанного інтервалу;
- Довжина медіанного інтервалу;
частотамедіанного інтервалу;
накопичена частота попередньогоінтервалу.

Таким чином:
ден. од. - Зауважимо, що медіанне значення, навпаки, виявилося зміщене правіше, т.к. праворуч знаходиться значна кількість варіантів:


І довідково особливі випадки.

ПРАКТИЧНЕ ЗАНЯТТЯ № 4 .

Розрахунок структурних показників варіаційного ряду розподілу.

Студент повинен:

знати:

- сферу застосування та методику розрахунку структурних середніх величин;

вміти:

- обчислювати структурні середні величини;

- формулювати висновок щодо отриманих результатів.

Методичні вказівки

У статистиці обчислюються мода та медіана, які відносяться до структурних середніх, оскільки величина залежить від будовистатистичної сукупності.

Розрахунок моди

Модою називається значення ознаки (варіанту), частіше все, що зустрічаєтьсяу досліджуваній сукупності. У дискретному ряду розподілу модою буде варіанти із найбільшою частотою.

Наприклад: Розподіл проданого жіночого взуття за розмірами характеризується таким чином:

Розмір взуття

Кількість проданих пар

У цьому ряді розподілу модою є 37 розмір, тобто. Мо = 37 розмір.

Для інтервального ряду розподілу мода визначається за такою формулою:

де Х Mo - нижня межа модального інтервалу;

h Mo - величина модального інтервалу;

f Mo - Частота модального інтервалу;

f Mo -1і f Mo +1 – частота інтервалу відповідно

попереднього модального і наступного його.

Наприклад: Розподіл робітників за стажем роботи характеризується такими даними.

Стаж роботи, років

до 2

8-10

10 і більше

Число робітників, чол.

Визначити моду інтервального ряду розподілу.

Мода інтервального ряду складає

Мода завжди буває дещо невизначеною, т.к. вона залежить від величини груп та точного положення меж груп. Мода широко застосовується у комерційної практиці щодо купівельного попиту, під час реєстрації цін тощо.

Розрахунок медіани

Медіаною у статистиці називається варіанта, розташована в середині впорядкованого ряду даних, і яка ділить статистичну сукупність на дві рівні частини так, що в однієї половини значення менше медіани, а в іншої половини - більше за неї. Для визначення медіани потрібно побудувати ранжований ряд, тобто. ряд у порядку зростання чи спадання індивідуальних значень ознаки.

У дискретному впорядкованому ряду з непарним числом членів медіаною буде варіант, розташований у центрі ряду.

Наприклад: Стаж п'яти робітників склав 2, 4, 7, 9 і 10 років У ряді медіана-7 років, тобто. Ме=7 років

Якщо дискретний упорядкований ряд складається з парного числа членів, то медіаною буде середня арифметична із двох суміжних варіантів, що стоять у центрі ряду.

Наприклад: Стаж роботи шести робітників склав 1, 3, 4, 5, 10 та 11 років У цьому ряду є два варіанти, що стоять у центрі ряду. Це варіанти 4 і 5. Середня арифметична з цих значень буде медіаною ряду

Щоб визначити медіану для згрупованих даних, необхідно брати до уваги накопичені частоти.

Наприклад:За наявними даними визначимо медіану розміру взуття

Розмір взуття

Кількість проданих пар

Сума накопичених частот

8+19=27

27+34=61

61+108=169

Разом

Для визначення медіани слід підрахувати суму накопичених частот ряду. Нарощування результату триває до отримання накопиченої суми частот, що перевищує половину суми частот ряду. У прикладі сума частот становила 300, її половина – 150. Накопичена сума частот вийшла рівної 169. Варіанта, відповідна цієї сумі, тобто. 37 і є медіана ряду.

Якщо ж сума накопичених частот проти однієї з варіант дорівнює точно половині суми частот ряду, то медіана визначається як середня арифметична варіанти цієї і наступної.

Наприклад: За наявними даними визначимо медіану заробітної плати робітників

Місячна заробітня плата, тис. руб.

Число робітників, чол.

Сума накопичених частот

14,0

14,2

2+6=8

16,0

8+12=20

16,8

18,0

Разом:

Медіана дорівнюватиме:

Медіана інтервального варіаційного ряду розподілу визначається за такою формулою:

Де Х Ме – нижня межа медіанного інтервалу;

h Me - Величина медіанного інтервалу;

f- Сума частот ряду;

f Ме - Частота медіанного інтервалу;

Наприклад:За наявними даними про розподіл підприємств за чисельністю промислово-виробничого персоналу розрахувати медіану в інтервальному варіаційному ряду

Число підприємств

Сума накопичених частот

100-200

200-300

1+3=4

300-400

4+7=11

400-500

11+30=41

500-600

600-700

700-800

Разом:

Визначимо передусім медіанний інтервал. У цьому прикладі сума накопичених частот, перевищують половину суми всіх значень ряду, відповідає інтервалу 400-500. Це і є медіанний інтервал, тобто. інтервал, де знаходиться медіана ряду. Визначимо її значення

Якщо ж сума накопичених частот проти одного з інтервалів дорівнює до половини суми частот ряду, то медіана визначається за формулою:

де n- Число одиниць в сукупності.

Наприклад:За даними про розподіл підприємств за чисельністю промислово-виробничого персоналу розрахувати медіану в інтервальному варіаційному ряду

Групи підприємств із чисельності ППП, чол.

Число підприємств

Сума накопичених частот

100-200

200-300

1+3=4

300-400

4+6=10

400-500

10+30=40

500-600

40+20=60

600-700

700-800

Разом:

чол

Моду та медіану в інтервальному ряду можна визначити графічно:

моду в дискретних рядах - за полігоном розподілу, моду в інтервальних рядах - за гістограмою розподілу, а медіану - за кумулятом.

Мода інтервального ряду розподілу визначається за гістограмою розподілу визначаютьнаступним чином. Для цього вибирається найвищий прямокутник, який є в даному випадку модальним. Потім праву вершину модального прямокутника з'єднуємо з верхнім правим кутом попереднього прямокутника. А ліву вершину модального прямокутника – з верхнім лівим кутом наступного прямокутника. Далі з точки їхнього перетину опускають перпендикуляр на вісь абсцис. Абсцис точки перетину цих прямих і буде модою розподілу.

Медіана розраховується за кумулятом. Для її визначення з точки на шкалі накопичених частот (частин), що відповідає 50%, проводиться пряма, паралельна осі абсцис, до перетину з кумулятою. Потім із точки перетину зазначеної прямої з кумулятою опускається перпендикуляр на вісь абсцис. Абсцис точки перетину є медіаною.

Крім моди та медіани у варіантних рядах можуть бути визначені й інші структурні характеристики- Квантили. Квантилі призначені для глибшого вивчення структури низки розподілів.

Квантіль- Це значення ознаки, що займає певне місце в упорядкованій за цією ознакою сукупності. Розрізняють такі види квантилей:

- квартували – значення ознаки, що ділять упорядковану сукупністьчотири рівні частини;

- децилі - Значення ознаки, що ділять упорядковану сукупність на десять рівних частин;

- перцентелі - Значення ознаки, що ділять упорядковану сукупність на сто рівних частин.

Таким чином, для характеристики положення центру ряду розподілу можна використовувати 3 показники: середнє значенняознаки, мода, медіана.При виборі виду та форми конкретного показника центру розподілу необхідно виходити з наступних рекомендацій:

- для стійких соціально-економічних процесів як показник центру використовують середню арифметичну. Такі процеси характеризуються симетричними розподілами, у яких ;

- для нестійких процесів положення центру розподілу характеризується за допомогою Mo або Me. Для асиметричних процесів переважною характеристикою центру розподілу є медіана, оскільки займає положення між середньою арифметичною модою.

Поділіться з друзями або збережіть для себе:

Завантаження...