Як побудувати дискретну низку розподілу. Побудова інтервального ряду розподілу

Що таке угруповання статистичних даних, і як воно пов'язане з рядами розподілу, було розглянуто цю лекцію, там же можна дізнатися, що таке дискретний і варіаційний ряд розподілу.

Ряди розподілу один із різновидів статистичних рядів (крім них у статистиці використовуються ряди динаміки), використовуються для аналізу даних про явища суспільного життя. Побудова варіаційних рядівцілком посильне завдання кожному за. Однак є правила, які потрібно пам'ятати.

Як побудувати дискретний варіаційний ряд розподілу

приклад 1. Є дані про кількість дітей у 20 обстежених сім'ях. Побудувати дискретний варіаційний ряд розподілу сімейза кількістю дітей.

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

Рішення:

  1. Почнемо з макета таблиці, в яку потім ми внесемо дані. Оскільки ряди розподілу мають два елементи, то таблиця складатиметься з двох колонок. Перша колонка це завжди варіанти – те, що ми вивчаємо – її назву беремо із завдання (кінець пропозиції із завданням в умовах). за кількістю дітей– отже, нашого варіанту це число дітей.

Друга колонка це частота - як часто зустрічається наша варіанта в досліджуваному явище - назва колонки так само беремо із завдання - розподілу сімей – значить наша частота – це кількість сімей з відповідною кількістю дітей.

  1. Тепер із вихідних даних виберемо ті значення, які зустрічаються хоча б один раз. У нашому випадку це

І розставимо ці дані в першій колонці нашої таблиці в логічному порядку, в даному випадку зростаючому від 0 до 4. Отримуємо

І насамкінець підрахуємо, скільки ж разів зустрічається кожне значення варіанти.

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

В результаті отримуємо закінчену табличку або потрібну низку розподілу сімей за кількістю дітей.

Завдання . Є дані про тарифні розряди 30 робітників підприємства. Побудувати дискретний варіаційний ряд розподілу робітників за тарифним розрядом. 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

Як побудувати інтервальний варіаційний ряд розподілу

Побудуємо інтервальний ряд розподілу, і подивимося чим його побудова відрізняється від дискретного ряду.

приклад 2. Є дані про величину отриманого прибутку 16 підприємств, млн. руб. - 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. Побудувати інтервальний варіаційний ряд розподілу підприємств за обсягом прибутку, виділивши 3 групи з рівними інтервалами.

Загальний принцип побудови ряду, звичайно ж, збережеться, ті ж дві колонки, ті ж варіанти і частота, але тут варіанта буде розташовуватися в інтервалі і підрахунок частот буде вестися інакше.

Рішення:

  1. Почнемо аналогічно до попередньої задачі з побудови макета таблиці, в яку потім ми внесемо дані. Оскільки ряди розподілу мають два елементи, то таблиця складатиметься з двох колонок. Перша колонка це завжди варіанти – те, що ми вивчаємо – її назву беремо із завдання (кінець пропозиції із завданням в умовах) – за обсягом прибутку – отже, наш варіант це обсяг отриманого прибутку.

Друга колонка це частота - як часто зустрічається наша варіанта в досліджуваному явище - назву колонки так само беремо із завдання - розподілу підприємств - значить наша частота це число підприємств з відповідним прибутком, що в даному випадку потрапляє в інтервал.

У результаті макет нашої таблиці виглядатиме так:

де i - величина або довжина інтервалу,

Хmax і Xmin – максимальне та мінімальне значення ознаки,

n – необхідне число груп за умовою завдання.

Розрахуємо величину інтервалу нашого прикладу. Для цього серед вихідних даних знайдемо найбільше і найменше

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 - максимальне значення 118 млн. руб., І мінімальне 9 млн. руб. Проведемо розрахунок за формулою.

У розрахунку отримали число 36,(3) три в періоді, у таких ситуаціях величину інтервалу потрібно округлити до більшого, щоб після підрахунків не загубилося максимальне дане, саме тому в розрахунку величина інтервалу 36,4 млн. руб.

  1. Тепер збудуємо інтервали – наші варіанти у цій задачі. Перший інтервал починають будувати від мінімального значення до нього додається величина інтервалу і виходить верхня межа першого інтервалу. Потім верхня межа першого інтервалу стає нижньою межею другого інтервалу, до неї додається величина інтервалу і виходить другий інтервал. І так далі стільки разів, скільки потрібно побудувати інтервалів за умовою.

Звернімо увагу якби ми не округлили величину інтервалу до 36,4, а залишили її 36,3, то останнє значенняу нас вийшло б 117,9. Саме для того, щоб не було втрати даних, необхідно округлювати величину інтервалу до більшого значення.

  1. Проведемо підрахунок кількості підприємств, що потрапили в кожен конкретний інтервал. При обробці даних необхідно пам'ятати, що верхнє значення інтервалу в даному інтервалі не враховується (не включається до цього інтервалу), а враховується в наступному інтервалі (нижня межа інтервалу включається до цього інтервалу, а верхня не включається), за винятком останнього інтервалу.

При проведенні обробки даних найкраще відібрані дані позначити умовними значками або кольором для спрощення обробки.

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

Перший інтервал позначимо жовтим кольором- і визначимо скільки даних потрапляє в інтервал від 9 до 45,4, при цьому це 45,4 буде враховуватися в другому інтервалі (за умови, що воно є в даних) - в результаті отримуємо 7 підприємств у першому інтервалі. І так далі за всіма інтервалами.

  1. (додаткова дія) Проведемо підрахунок загального обсягу прибутку отриманого підприємствами по кожному інтервалу та в цілому. Для цього складемо дані зазначені різними кольорамита отримаємо сумарне значення прибутку.

За першим інтервалом 23 + 12 + 9 + 16 + 22 + 27 + 45 = 154 млн. руб.

За другим інтервалом - 48 + 57 + 48 + 56 + 63 = 272 млн. руб.

За третім інтервалом - 118 + 87 + 98 + 88 = 391 млн. руб.

Завдання . Є дані про величину вкладу у банку 30 вкладників, тис. руб. 150, 120, 300, 650, 1500, 900, 450, 500, 380, 440,

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

Побудувати інтервальний варіаційний рядрозподіл вкладників, за розміром вкладу виділивши 4 групи з рівними інтервалами. По кожній групі підрахувати загальний розмір вкладів.

Предмет математичної статистики. Генеральна та вибіркова сукупність.

— Математична статистика- Розділ математики, який вивчає способи відбору, угруповання, систематизації та аналізу статистичних даних, для отримання науково обґрунтованих висновків.

— Статистичні данні– числові значення аналізованої ознаки об'єктів, що вивчаються, отримані як результат випадкового експерименту.

Математична статистика тісно пов'язана з теорією ймовірностей, але, на відміну від теорії ймовірностей, математична модель експерименту невідома. У математичній статистиці за статистичними даними необхідно встановити невідомий розподіл ймовірностей чи об'єктивно оцінити параметри розподілу.

Методи математичної статистики дозволяють будувати оптимальні математичні моделімасових, повторюваних явищ. Сполучною ланкою між теорією ймовірностей та математичною статистикою є граничні теореми теорії ймовірностей.

В даний час статистичні методивикористовуються практично у всіх галузях народного господарства.

— Генеральна сукупність– статистичні дані всіх об'єктів, що вивчаються (іноді – самі об'єкти). Часто генеральну сукупність розглядають як НВХ.

— Вибірка(вибіркова сукупність) – статистичні дані об'єктів, обраних випадково з генеральної сукупності.

— Обсяг вибірки n(Обсяг генеральної сукупності N) - кількість об'єктів, обраних для вивчення з генеральної сукупності (кількість об'єктів у генеральній сукупності).

Приклади.

а) Статистичними данимиможуть бути: зростання студентів; кількість дієслів (чи інших частин мови) уривку тексту певної довжини; середній балатестата; рівень інтелекту; число помилок, допущених диспетчером тощо.

б) Генеральною сукупністюможливо: зростання всіх людей, розряди всіх робітників заводу, частота вживання певної частини мови у всіх творах автора, що вивчається, середній бал атестата всіх випускників і т.п.



в) Вибіркоюможе бути: – зростання 20 студентів, кількість дієслів у вибраних довільно 50 однорідних уривках тексту завдовжки 500 слововжитків, середній бал атестату 100 випускників, вибраних випадково зі шкіл міста тощо.

Вибірка називається репрезентативної,якщо вона чітко відбиває якість генеральної сукупності. Репрезентативність вибірки досягається випадковістю відбору, коли всі об'єкти генеральної сукупності мають однакову можливість бути відібраними.

Для того щоб вибірка була репрезентативною застосовують різні способидобору об'єктів вивчення.

Види відборуКабіна: простий, механічний, серійний, типовий.

Простий. Довільно відбираються елементи з усієї генеральної сукупності.

Механічний відбір. Вибирають кожен 10 (25, 30 тощо) об'єкт із генеральної сукупності.

Серійний. Проводиться дослідження кожної серії (наприклад, з тексту вибирають 10 уривків по 500 слововжитків- 10 серій).

Типовий. Генеральну сукупність за певною ознакою поділяють типові групи. Кількість серій, які витягуються з кожної такої групи, визначається питомою вагою цієї групи в генеральній сукупності.

Статистичний розподіл вибірки та її графічне зображення.

Нехай вивчається СВ Х (генеральна сукупність) щодо певної ознаки. Проводиться ряд незалежних випробувань. В результаті дослідів СВ Х набуває деяких значень. Сукупність отриманих значень є вибіркою, а самі значення є статистичними даними.

Спочатку проводять ранжування вибірки - розташування статистичних даних вибірки з незменшення. Отримуємо варіаційний ряд.

Варіаційний ряд- Проранжована вибірка.

Дискретний статистичний ряд

Якщо генеральна сукупність дискретної СВ, будується дискретний статистичний ряд (статистичний розподіл).

Нехай значення з'явилося у вибірці разів,

Разa, …, - раз.

I-та варіантивибірки; - частота i-тої варіанти Частота показує, скільки разів дана варіантаз'явилася у вибірці.

- відносна частота i-тої варіанти

(Показує яку частину вибірки становить ).

Статистичне розподіл – це відповідність між варіантами вибірки та його частотами чи відносними частотами.

Для ДСВ статистичний розподіл можна у вигляді таблиці – статистичного низки частот чи статистичного ряду відносних частот.

Статистичний ряд частот Статистичний ряд

відносних частот

........
........
........
........

Для наочності уявлення статистичного розподілувибірки будують «графіки» статистичного розподілу: полігон та гістограму.

Полігон частот(відносних частот) – графічне зображення дискретного статистичного ряду - ламана лінія, яка послідовно з'єднує точки [для полігону відносних частот].

приклад.Дослідника цікавлять знання абітурієнтів з математики. Обирають 10 абітурієнтів та записують їх шкільні оцінки з цього предмету. Отримано наступну вибірку: 5;4;4;3;2;5;4;3;4;5.

а) Подати вибірку у вигляді варіаційного ряду;

б) побудувати статистичний ряд частот та відносних частот;

в) зобразити полігон відносних частот для одержаного ряду.

а) Проведемо ранжування вибірки, тобто. розташуємо члени вибірки з невтрати. Отримуємо варіаційний ряд: 2; 3; 3; 4; 4; 4; 4; 5; 5;5.

б) Побудуємо статистичний ряд частот (відповідність між варіантами вибірки та їх частотами) та статистичний ряд відносних частот (відповідність між варіантами вибірки та їх відносними частотами)

0,1 0,2 0,4 0,3

Статистичний ряд частот Статистичний ряд отн. частот

1+2+4+3=10=n 0,1+0,2+0,4+0,3=1.

Полігон відносних частот.


При обробці великих масивів інформації, що особливо актуально під час проведення сучасних наукових розробок, перед дослідником стоїть серйозне завдання правильного угруповання вихідних даних. Якщо дані мають дискретний характер, то проблем, як ми бачили, не виникає – необхідно просто підрахувати частоту кожної ознаки. Якщо ж досліджувана ознака має безперервнийхарактер (що має більшого поширення практично), то вибір оптимального числа інтервалів угруповання ознаки зовсім на тривіальної завданням.

Для угруповання безперервних випадкових величин весь варіаційний розмахознакирозбивають на деяку кількість інтервалів до.

Згрупованим інтервальним (безперервним) варіаційним рядом називають ранжовані за значенням ознаки інтервали (), де вказані разом з відповідними частотами () числа спостережень, що потрапили в г-й інтервал, або відносними частотами ():

Інтервали значень ознаки

Частота mi

Гістограмаі кумулята (огива),вже докладно розглянуті нами є чудовим засобом візуалізації даних, що дозволяє отримати первинне уявлення про структуру даних. Такі графіки (рис. 1.15) будуються для безперервних даних так само, як і для дискретних, тільки з урахуванням того, що безперервні дані часто заповнюють область своїх можливих значень, приймаючи будь-які значення.

Мал. 1.15.

Тому стовпці на гістограмі та кумуляті повинні стикатися, не мати ділянок, куди не потрапляють значення ознаки в межах усіх можливих(тобто гістограма і кумулята не повинні мати "дірок" по осі абсцис, в які не потрапляють значення змінної, що вивчається, як на рис. 1.16). Висота стовпчика відповідає частоті-числу спостережень, що потрапили в даний інтервал, або відносної частоті-частці спостережень. Інтервали не повинні перетинатисяі мають, як правило, однакову ширину.

Мал. 1.16.

Гістограма та полігон є апроксимаціями кривої щільності ймовірності (диференціальної функції) f(x)теоретичного розподілу, що розглядається в курсі теорії ймовірностей. Тому їхня побудова має таке важливе значенняпри первинній статистичної обробкикількісних безперервних даних – з їхньої виду можна будувати висновки про гіпотетичному законі розподілу.

Кумулята - крива накопичених частот (частин) інтервального варіаційного ряду. З кумулятою зіставляється графік інтегральної функції розподілу F(x), що також розглядається в курсі теорії ймовірностей.

В основному поняття гістограми та кумуляти пов'язують саме з безперервними даними та їх інтервальними варіаційними рядами, тому що їх графіки є емпіричними оцінками функції ймовірності щільності і функції розподілу відповідно.

Побудова інтервального варіаційного ряду починають із визначення кількості інтервалів k.І це завдання, мабуть, є найскладнішим, важливішим і неоднозначним у досліджуваному питанні.

Число інтервалів не повинно бути занадто малим, тому що при цьому гістограма виходить занадто згладженою ( oversmoothed),втрачає всі особливості мінливості вихідних даних - на рис. 1.17 можна побачити, як самі дані, якими побудовані графіки рис. 1.15 використані для побудови гістограми з меншим числом інтервалів (лівий графік).

У той же час кількість інтервалів не повинна бути занадто великою – інакше ми не зможемо оцінити щільність розподілу даних по числовій осі: гістограма вийде недозгладжена (undersmoothed),із незаповненими інтервалами, нерівномірна (див. рис. 1.17, правий графік).

Мал. 1.17.

Як же визначити найкраще число інтервалів?

Ще 1926 р. Герберт Стерджес (Herbert Sturges) запропонував формулу обчислення кількості інтервалів, куди необхідно розбити вихідне безліч значень досліджуваного ознаки . Ця формула справді стала надпопулярною – більшість статистичних підручників пропонують саме її, за умовчанням її використовують і безліч статистичних пакетів. Наскільки це виправдано і в усіх випадках – є дуже серйозним питанням.

Отже, на чому ґрунтується формула Стерджеса?

Розглянемо біномний розподіл }

Поділіться з друзями або збережіть для себе:

Завантаження...