Як збудувати інтервальний ряд розподілу. Побудова інтервального варіаційного ряду для безперервних кількісних даних

2. Поняття рядів розподілу. Дискретні та інтервальні ряди розподілу

Рядами розподілуназиваються угруповання особливого виду, у яких за кожним ознакою, групі ознак чи класу ознак відомі чисельність одиниць групи чи питому вагу цієї чисельності загалом. Тобто. ряд розподілу– упорядкована сукупність значень ознаки, розташованих у порядку зростання чи спадання з відповідними їм вагами. Ряди розподілу можуть бути побудовані або за кількісною або за атрибутивною ознакою.

Ряди розподілу, побудовані за кількісною ознакою, називаються варіаційними рядами. Вони бувають дискретні та інтервальні. Ряд розподілу може бути побудований за неперервно варіюючої ознакою (коли ознака може приймати будь-які значення в рамках будь-якого інтервалу) і по дискретно варіює ознакою (приймає строго певні цілочисельні значення).

Дискретним варіаційним рядомрозподілу називається ранжована сукупність варіантів з відповідними ним частотами або частками. Варіанти дискретного ряду – це значення, що дискретно переривно змінюються, ознака, зазвичай це результат підрахунку.

Дискретні

варіаційні ряди будують зазвичай у разі, якщо значення досліджуваного ознаки можуть відрізнятися друг від друга щонайменше ніж деяку кінцеву величину. У дискретних рядах задаються точкові значення ознаки. приклад : Розподіл чоловічих костюмів, реалізованих магазинами за місяць за розмірами

Інтервальним

варіаційним рядомназивається впорядкована сукупність інтервалів варіювання значень випадкової величиниз відповідними частотами чи частотами попадань у кожен із них значень величини. Інтервальні ряди призначені для аналізу розподілу ознаки, що безперервно змінюється, значення якого найчастіше реєструється шляхом вимірювання або зважування. Варіанти такого ряду – це угруповання.

приклад : Розподіл покупок у продуктовому магазині за сумою

Якщо дискретних варіаційних рядах частотна характеристика відноситься безпосередньо до варіанту ряду, то в інтервальних до групи варіантів.

Ряди розподілу зручно аналізувати за допомогою їх графічного зображення, що дозволяє судити і про форму розподілу, про закономірності. Дискретний ряд зображується на графіку у вигляді ламаної лінії – полігону розподілу. Для його побудови в прямокутній системі координат по осі абсцис в однаковому масштабі відкладаються ранжовані (упорядковані) значення ознаки, що варіює, а по осі ординат наноситься шкала для вираження частот.

Інтервальні ряди зображуються у вигляді гістограм розподілу(тобто стовпчиків діаграм).

При побудові гістограми осі абсцис відкладаються величини інтервалів, а частоти зображуються прямокутниками, побудованими на відповідних інтервалах. Висота стовпчиків у разі рівних інтервалів має бути пропорційна частотам.

Будь-яка гістограма може бути перетворена на полігон розподілів, для цього необхідно з'єднати між собою відрізками прямої вершини її прямокутників.

2. Індексний метод аналізу впливу середнього вироблення та середньооблікової чисельностізміни обсягу продукції

Індексний методзастосовується для аналізу динаміки та порівняння узагальнюючих показників, а також факторів, що впливають на зміну рівнів цих показників. За допомогою індексів можна виявити вплив середнього вироблення та середньооблікової чисельності на зміни обсягу продукції. Це завдання вирішується шляхом побудови системи аналітичних індексів.

Індекс обсягу продукції з індексом середньооблікової чисельності працюючих та індексом середнього вироблення пов'язаний таким же чином, як обсяг виробництва (Q) пов'язаний з виробленням ( w)та чисельністю ( r) .

Можна зробити висновок, що обсяг продукції дорівнюватиме добутку середнього вироблення та середньооблікової чисельності:

Q = wr,де Q - обсяг продукції,

w - середнє вироблення,

r – середньооблікова чисельність.

Як видно, йдеться про взаємозв'язок явищ у статиці: добуток двох факторів дає загальний обсяг результативного явища. Очевидно також, що цей зв'язок функціональний, отже, динаміка зв'язку вивчається за допомогою індексів. Для наведеного прикладу це така система:

J w × J r = J wr.

Наприклад, індекс обсягу продукції Jwr, як індекс результативного явища, можна розкласти на два індекси-фактори: індекс середнього виробітку (Jw), та індекс середньооблікової чисельності (Jr):

Індекс Індекс Індекс

обсягу середньої середньооблікової

продукції вироблення чисельності

де J w- Індекс продуктивності праці, що розраховується за формулою Ласпейреса;

J r- Індекс чисельності працюючих, що розраховується за формулою Пааше.

Індексні системи використовуються визначення впливу окремих чинників формування рівня результативного показника, дозволяють по 2-му відомим значенняміндексів визначити значення невідомого.

На основі наведеної системи індексів можна визначити і абсолютний приріст обсягу продукції, розкладений вплив чинників.

1. Загальний приріст обсягу продукції:

∆wr = ∑w 1 r 1 - ∑w 0 r 0 .

2. Приріст за рахунок дії показника середнього виробітку:

∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 .

3. Приріст за рахунок дії показника середньооблікової чисельності:

∆wr/r = ∑w 0 r 1 - ∑w 0 r 0

∆wr = ∆wr/w + ∆wr/r.

приклад.Відомі такі дані

Ми можемо визначити, як змінився обсяг продукції у відносному та абсолютному вираженні та як окремі фактори вплинули на цю зміну.

Обсяг продукції становив:

у базисному періоді

w 0 * r 0 = 2000 * 90 = 180000,

а у звітному

w 1 * r 1 = 2100 * 100 = 210000.

Отже, обсяг продукції збільшився на 30 000 або на 1,16%.

∆wr=∑w 1 r 1 -∑w 0 r 0= (210000-180000)=30000

або (210 000:180 000) * 100% = 1,16%.

Ця зміна обсягу продукції була обумовлена:

1) збільшенням середньооблікової чисельності на 10 осіб або на 111,1%

r 1 /r 0 = 100/90 = 1,11 або 111,1%.

В абсолютному вираженні за рахунок цього фактора обсяг продукції збільшився на 20 000:

w 0 r 1 - w 0 r 0 = w 0 (r 1 -r 0) = 2000 (100-90) = 20000.

2) збільшенням середнього виробітку на 105% або на 10000:

w 1 r 1 /w 0 r 1 = 2100*100/2000*100 = 1,05 чи 105%.

В абсолютному вираженні приріст становить:

w 1 r 1 - w 0 r 1 = (w 1 -w 0) r 1 = (2100-2000) * 100 = 10000.

Звідси, спільний вплив факторів становив:

1. В абсолютному вираженні

10000 + 20000 = 30000

2. У відносному вираженні

1,11 * 1,05 = 1,16 (116%)

Отже, приріст становить 1,16%. Обидва результати було отримано раніше.

Слово "index" у перекладі означає покажчик, показник. У статистиці індекс сприймається як відносний показник, що характеризує зміна явища у часі, просторі чи проти планом. Оскільки індекс відносна величина, найменування індексів співзвучні із найменуванням відносних величин.

У тих випадках, коли ми аналізуємо зміну в часі продукції, що порівнюється, ми можемо поставити питання про те, як у різних умовах (на різних ділянках) змінюються складові індексу (ціна, фізичний обсяг, структура виробництва або реалізації окремих видів продукції). У зв'язку з цим будуються індекси постійного складу, змінного складу, структурних зрушень.

Індекс постійного (фіксованого) складу –це індекс, який характеризує динаміку середньої величиниза однієї й тієї фіксованої структурі сукупності.

Принцип побудови індексу постійного складу – елімінувати вплив змін у структурі ваг на індексовану величину шляхом розрахунку середньозваженого рівня індексованого показника з одними й тими самими вагами.

Індекс постійного складу за своєю формою тотожний агрегатному індексу. Агрегатна форма є найпоширенішою.

Індекс постійного складу обчислюється з вагами, зафіксованими на рівні одного будь-якого періоду, і показує зміну величини, що тільки індексується. Індекс постійного складу елімінує вплив змін у структурі ваги на індексовану величину шляхом розрахунку середньозваженого рівня індексованого показника з одними і тими ж вагами. У індексах постійного складу зіставляються показники, розраховані з урахуванням постійної структури явищ.

При обробці великих масивів інформації, що особливо актуально під час проведення сучасних наукових розробок, перед дослідником стоїть серйозне завдання правильного угруповання вихідних даних. Якщо дані мають дискретний характер, то проблем, як ми бачили, не виникає – необхідно просто підрахувати частоту кожної ознаки. Якщо ж досліджувана ознака має безперервнийхарактер (що має більшого поширення практично), то вибір оптимального числа інтервалів угруповання ознаки не є тривіальним завданням.

Для угруповання безперервних випадкових величин весь варіаційний розмах ознаки розбивають на кілька інтервалів до.

Згрупованим інтервальним (безперервним) варіаційним рядомназивають ранжовані за значенням ознаки інтервали (), де вказані разом з відповідними частотами () числа спостережень, що потрапили в г-й інтервал, або відносними частотами ():

Інтервали значень ознаки

Частота mi

Гістограмаі кумулята (огива),вже детально розглянуті нами є чудовим засобом візуалізації даних, що дозволяє отримати первинне уявлення про структуру даних. Такі графіки (рис. 1.15) будуються для безперервних даних так само, як і для дискретних, тільки з урахуванням того, що безперервні дані часто заповнюють область своїх можливих значень, приймаючи будь-які значення.

Рис. 1.15.

Тому стовпці на гістограмі та кумуляті повинні стикатися, не мати ділянок, куди не потрапляють значення ознаки в межах усіх можливих(тобто гістограма і кумулята не повинні мати "дірок" по осі абсцис, в які не потрапляють значення змінної, що вивчається, як на рис. 1.16). Висота стовпчика відповідає частоті-числу спостережень, що потрапили в даний інтервал, або відносної частоті-частці спостережень. Інтервали не повинні перетинатисяі мають, як правило, однакову ширину.

Рис. 1.16.

Гістограма та полігон є апроксимаціями кривої щільності ймовірності (диференціальної функції) f(x)теоретичного розподілу, що розглядається в курсі теорії ймовірностей. Тому їхня побудова має таке важливе значенняпри первинній статистичної обробкикількісних безперервних даних – з їхньої виду можна будувати висновки про гіпотетичному законі розподілу.

Кумулята – крива накопичених частот (частин) інтервального варіаційного ряду. З кумулятою зіставляється графік інтегральної функції розподілу F(x), що також розглядається в курсі теорії ймовірностей.

В основному поняття гістограми та кумуляти пов'язують саме з безперервними даними та їх інтервальними варіаційними рядами, тому що їх графіки є емпіричними оцінками функції густини ймовірності та функції розподілу відповідно.

Побудова інтервального варіаційного ряду починають із визначення кількості інтервалів k.І це завдання, мабуть, є найскладнішим, важливішим і неоднозначним у досліджуваному питанні.

Число інтервалів не повинно бути занадто малим, тому що при цьому гістограма виходить занадто згладженою ( oversmoothed),втрачає всі особливості мінливості вихідних даних - на рис. 1.17 можна побачити, як самі дані, якими побудовані графіки рис. 1.15 використані для побудови гістограми з меншим числом інтервалів (лівий графік).

У той же час кількість інтервалів не повинна бути занадто великою – інакше ми не зможемо оцінити щільність розподілу даних, що вивчаються по числовій осі: гістограма вийде недозгладжена (undersmoothed),із незаповненими інтервалами, нерівномірна (див. рис. 1.17, правий графік).

Рис. 1.17.

Як же визначити найкраще число інтервалів?

Ще 1926 р. Герберт Стерджес (Herbert Sturges) запропонував формулу обчислення кількості інтервалів, куди необхідно розбити вихідне безліч значень досліджуваного ознаки . Ця формула справді стала надпопулярною – більшість статистичних підручників пропонують саме її, за умовчанням її використовують і безліч статистичних пакетів. Наскільки це виправдано і в усіх випадках – є дуже серйозним питанням.

Отже, на чому ґрунтується формула Стерджеса?

Розглянемо біномний розподіл }

Поділіться з друзями або збережіть для себе:

Завантаження...