Статистичне зведення та угруповання. Статистичний ряд розподілу

Найважливішою частиною статистичного аналізує побудова рядів розподілу (структурного угруповання) з метою виділення характерних властивостейта закономірностей досліджуваної сукупності. Залежно від цього, який ознака (кількісний чи якісний) взятий за основу угруповання даних, розрізняють відповідно типи рядів розподілу.

Якщо за основу угруповання взято якісну ознаку, то такий ряд розподілу називають атрибутивним(розподіл за видами праці, за статтю, за професією, за релігійною ознакою, національною належністю тощо).

Якщо ряд розподілу побудований за кількісною ознакою, то такий ряд називають варіаційним. Побудувати варіаційний ряд - отже впорядкувати кількісний розподіл одиниць сукупності за значеннями ознаки, та був підрахувати числа одиниць сукупності із цими значеннями (побудувати групову таблицю).

Виділяють три форми варіаційного ряду: ранжований ряд, дискретний ряд та інтервальний ряд.

Ранжований ряд- це розподіл окремих одиниць сукупності у порядку зростання чи спадання досліджуваного ознаки. Ранжування дозволяє легко розділити кількісні дані по групах, відразу виявити найменше та найбільше значенняознаки, виділити значення, які найчастіше повторюються.

Інші форми варіаційного ряду - групові таблиці, складені характером варіації значень досліджуваного ознаки. За характером варіації розрізняють дискретні (перервні) та безперервні ознаки.

Дискретний ряд- це такий варіаційний ряд, основою побудови якого покладено ознаки з перервним зміною (дискретні ознаки). До останніх можна віднести тарифний розряд, кількість дітей у сім'ї, кількість працівників для підприємства тощо. Ці ознаки можуть набувати лише кінцеве число певних значень.

Дискретний варіаційний ряд представляє таблицю, що складається із двох граф. У першій графі вказується конкретне значення ознаки, тоді як у другий - число одиниць сукупності з певним значенням ознаки.

Якщо ознака має безперервну зміну (розмір доходу, стаж роботи, вартість основних фондів підприємства і т.д., які у певних межах можуть набувати будь-яких значень), то для цієї ознаки потрібно будувати інтервальний варіаційний ряд.

Групова таблиця також має дві графи. У першій вказується значення ознаки в інтервалі від - до (варіанти), у другій - число одиниць, що входять в інтервал (частота).

Частота (частота повторення) - число повторень окремого варіанта значень ознаки, що позначається fi , а сума частот, що дорівнює обсягу досліджуваної сукупності, позначається

де k - число варіантів значень ознаки

Дуже часто таблиця доповнюється графою, в якій підраховуються накопичені частоти S, які показують, скільки одиниць сукупності має значення ознаки не більше, ніж дане значення.

Частоти ряду f можуть замінюватися частотами w, вираженими в відносних числах(частках чи відсотках). Вони є відносинами частот кожного інтервалу до їх загальну суму, тобто:

При побудові варіаційного ряду з інтервальними значеннями насамперед необхідно встановити величину інтервалу i, яка визначається як відношення розмаху варіації R до груп m:

де R = xmax - xmin; m = 1 + 3,322 lgn (формула Стерджес); n - загальне числоодиниць сукупності.

Для визначення структури сукупності використовують спеціальні середні показники, до яких відносяться медіана та мода, або так звані структурні середні. Якщо середня арифметична розраховується на основі використання всіх варіантів значень ознаки, то медіана та мода характеризують величину того варіанту, який займає певне середнє положення в ранжованому варіаційному ряду.

Медіана (Ме)- це величина, яка відповідає варіанту, що знаходиться в середині ранжованого ряду.

Для ранжованого ряду з непарним числом індивідуальних величин (наприклад, 1, 2, 3, 3, 6, 7, 9, 9, 10) медіаною буде величина, розташована в центрі ряду, тобто. п'ята величина.

Для ранжованого ряду з парною кількістю індивідуальних величин (наприклад, 1, 5, 7, 10, 11, 14) медіаною буде середня арифметична величина, яка розраховується з двох суміжних величин.

Тобто для знаходження медіани спочатку необхідно визначити її порядковий номер (її положення у ранжованому ряду) за формулою

де n – число одиниць у сукупності.

Чисельне значення медіани визначають за накопиченими частотами дискретному варіаційному ряду. Для цього спочатку слід зазначити інтервал знаходження медіани в інтервальному ряду розподілу. Медіанним називають перший інтервал, де сума накопичених частот перевищує половину спостережень від загальної кількості всіх спостережень.

Чисельне значення медіани

де xМе – нижня межа медіанного інтервалу; i – величина інтервалу; S-1 - накопичена частота інтервалу, яка передує медіанному; f – частота медіанного інтервалу.

Модою (Мо)називають значення ознаки, що зустрічається найчастіше в одиниць сукупності. Для дискретного ряду модою буде варіант із найбільшою частотою. Для визначення моди інтервального ряду спочатку визначають модальний інтервал (інтервал, що має найбільшу частоту). Потім у межах цього інтервалу знаходять значення ознаки, яке може бути модою.

Щоб знайти конкретне значення моди, необхідно використати формулу

де xМо - нижня межа модального інтервалу; iМо – величина модального інтервалу; fМо – частота модального інтервалу; fМо-1 - частота інтервалу, що передує модальному; fМо+1 - частота інтервалу, наступного за модальним.

Мода має стала вельми поширеною у маркетингової діяльності щодо купівельного попиту, особливо щодо користуються найбільшим попитом розмірів одягу та взуття, під час регулювання цінової політики.

Основною метою аналізу варіаційних рядів є виявлення закономірності розподілу, виключаючи у своїй вплив випадкових для цього розподілу чинників. Цього можна досягти, якщо збільшувати обсяг досліджуваної сукупності та одночасно зменшувати інтервал ряду. При спробі зображення цих даних графічно ми отримаємо деяку плавну криву лінію, яка для полігону частот буде деякою межею. Цю лінію називають кривою розподілу.

Іншими словами, крива розподілує графічне зображення у вигляді безперервної лінії зміни частот у варіаційному ряду, яке функціонально пов'язане зі зміною варіант. Крива розподілу відбиває закономірність зміни частот за відсутності випадкових чинників. Графічне зображення полегшує аналіз рядів розподілу.

Відомо досить багато форм кривих розподілу, якими може вирівнюватися варіаційний ряд, але у практиці статистичних досліджень найчастіше використовуються такі форми, як нормальний розподіл і розподіл Пуассона.

Нормальний розподіл залежить від двох параметрів: середньої арифметичної та середнього квадратичного відхилення. Його крива виражається рівнянням

де у - ордината кривої нормального розподілу; - стандартизовані відхилення; е та π - математичні постійні; x – варіанти варіаційного ряду; - їх середня величина; - Середнє квадратичне відхилення.

Якщо потрібно отримати теоретичні частоти f" при вирівнюванні варіаційного ряду за кривою нормального розподілу, то можна скористатися формулою

де – сума всіх емпіричних частот варіаційного ряду; h - величина інтервалу у групах; - Середнє квадратичне відхилення; - нормоване відхилення варіантів від середньої арифметичної; всі інші величини легко обчислюються за спеціальними таблицями.

За допомогою цієї формули ми отримуємо теоретичний (імовірнісний) розподіл, замінюючи їм емпіричний (фактичний) розподілЗа характером вони не повинні відрізнятися один від одного.

Проте в ряді випадків, якщо варіаційний ряд є розподілом за дискретною ознакою, де при збільшенні значень ознаки х частоти починають різко зменшуватися, а середня арифметична, у свою чергу, дорівнює або близька за значенням до дисперсії (), такий ряд вирівнюється за кривою Пуассона.

Криву Пуассонаможна висловити ставленням

де Px – ймовірність настання окремих значень х; - Середня арифметична ряду.

При вирівнюванні емпіричних даних теоретичні частоти можна визначити за формулою

де f" - теоретичні частоти; N - загальна кількість одиниць ряду.

Порівнюючи отримані величини теоретичних частот f" c емпіричними (фактичними) частотами f, переконуємося, що їх розбіжності можуть бути невеликими.

Об'єктивну характеристику відповідності теоретичних та емпіричних частот можна отримати за допомогою спеціальних статистичних показників, які називають критеріями згоди.

Для оцінки близькості емпіричних та теоретичних частот застосовуються критерій згоди Пірсона, критерій згоди Романовського, критерій згоди Колмогорова.

Найбільш поширеним є критерій згоди К. Пірсона, Який можна представити як суму відносин квадратів розбіжностей між f" і f до теоретичних частот:

Обчислене значення критерію слід порівняти з табличним (критичним) значенням . Табличне значення визначається за спеціальною таблицею, воно залежить від прийнятої ймовірності Р та числа ступенів свободи k (при цьому k = m - 3, де m - число груп у ряді розподілу для нормального розподілу). При розрахунку критерію згоди Пірсона має дотримуватися така умова: досить великою має бути кількість спостережень (n 50), при цьому якщо в деяких інтервалах теоретичні частоти< 5, то интервалы объединяют для условия > 5.

Якщо розбіжності між емпіричними і теоретичними частотами розподілу можуть бути випадковими і припущення про близькість емпіричного розподілу до нормального не може бути відкинуто.

У тому випадку, якщо відсутні таблиці для оцінки випадковості розходження теоретичних та емпіричних частот, можна використовувати критерій згоди В.І. РомановськогоКРом, який, використовуючи величину, запропонував оцінювати близькість емпіричного розподілу кривої нормального розподілу за допомогою відношення

де m – число груп; k = (m – 3) – число ступенів свободи при обчисленні частот нормального розподілу.

Якщо вищезазначене ставлення< 3, то расхождения эмпирических и теоретических частот можно считать случайными, а эмпирическое распределение - соответствующим нормальному. Если отношение >3, то розбіжності можуть бути досить суттєвими і гіпотезу про нормальний розподіл слід відкинути.

Критерій згоди О.М. Колмогоровавикористовується при визначенні максимальної розбіжності між частотами емпіричного та теоретичного розподілу, що обчислюється за формулою

де D - максимальне значення різниці між накопиченими емпіричними та теоретичними частотами; - Сума емпіричних частот.

По таблицях значень ймовірностей -критерію можна визначити величину , відповідну ймовірності Р. Якщо величина ймовірності Р значна стосовно знайденої величини , можна припустити, що розбіжності між теоретичним і емпіричним розподілами несуттєві.

Необхідною умовою при використанні критерію згоди Колмогорова є достатньо велике числоспостережень (щонайменше сто).

Першим етапом статистичного вивчення варіації є побудова варіаційного ряду - упорядкованого розподілу одиниць сукупності за зростаючим (частіше) чи з спадним (рідше) значенням ознаки і підрахунок числа одиниць із тим чи іншим значенням ознаки.

Існує три форми варіаційного ряду: ранжований ряд, дискретний ряд, інтервальний ряд. Варіаційний ряд часто називають поряд розподілу.Цей термін використовується щодо варіації як кількісних, і некількісних ознак. Ряд розподілу є структурне угруповання(Див. гл. 6).

Ранжований ряд -це перелік окремих одиниць сукупності у порядку зростання (зменшення) досліджуваного ознаки.

Прикладом ранжованого ряду може бути табл. 5.5.

Таблиця 5.5

Великі банки Санкт-Петербурга, ранжовані за розмірамивласного капіталу на 01.07.96

Якщо чисельність одиниць сукупності досить велика, ранжований ряд стає громіздким, яке побудова, навіть з допомогою ЕОМ, займає тривалий час. У разі варіаційний ряд будується з допомогою групування одиниць сукупності за значенням досліджуваного ознаки.

Якщо ознака набуває невеликої кількості значень, будується дискретний варіаційний ряд. Прикладом такого ряду є розподіл футбольних матчів за кількістю забитих м'ячів (табл. 5.1). Дискретний варіаційний рядце таблиця, що складається з двох рядків або граф: конкретних значень ознаки, що варіює хiта числа одиниць сукупності з даним значенням ознаки f iчастот (f - початкова літера англ. Слова frequency).

Визначення числа груп

Число груп у дискретному варіаційному ряду визначається числом реально існуючих значень ознаки, що варіює. Якщо ж ознака може набувати хоч і дискретних значень, але їх кількість дуже велика (наприклад, поголів'я худоби на 1 січня року в різних сільгосппідприємствах може становити від нуля до десятків тисяч голів), тоді будується інтервальний варіаційний ряд. Інтервальний варіаційний ряд будується і вивчення ознак, які можуть набувати будь-які, як цілі, і дробові, значення у сфері свого існування. Такі, наприклад, рентабельність реалізованої продукції, собівартість одиниці продукції, дохід на 1 жителя міста, частка осіб з вищою освітоюсеред населення різних територій та взагалі всі вторинні ознаки, значення яких розраховуються шляхом розподілу величини однієї первинної ознаки на величину іншої (див. гл. 3).

Інтервальний варіаційний рядявляє собою таблицю (що складається з двох граф (або рядків) - інтервалів ознаки, варіація якого вивчається, та числа одиниць сукупності, що потрапляють у даний інтервал (частот), або часткою цього числа від загальної чисельності сукупності (частин).

При побудові інтервального варіаційного ряду необхідно вибрати оптимальну кількість груп (інтервалів ознаки) та встановити довжину інтервалу. Оскільки при аналізі варіаційного ряду порівнюють частоти різних інтервалах, необхідно, щоб величина інтервалу була постійною. Оптимальне число груп вибирається так, щоб у достатній мірі відбилося різноманітність значень ознаки в сукупності і в той же час закономірність розподілу, його форма не спотворювалася випадковими коливаннями частот. Якщо груп буде замало, не виявиться закономірність варіації; якщо груп буде надмірно багато, випадкові стрибки частот спотворять форму розподілу.

Найчастіше кількість груп у варіаційному ряду встановлюють, дотримуючись формули, рекомендованої американським статистиком Стерджесом (Sturgess):

де k- Число груп; n- Чисельність сукупності.

Ця формула показує, що кількість груп – функція обсягу даних.

Припустимо, необхідно збудувати варіаційний ряд розподілу підприємств області за врожайністю зернових культур за якийсь рік. Число сільгосппідприємств, які мали посіви зернових культур, становило 143; найменше значення врожайності дорівнює 10,7 ц/га, найбільше – 53,1 ц/га. Маємо:

Оскільки число груп ціле, отже, рекомендується побудувати 8 чи 9 груп.

Визначення величини інтервалу

Знаючи число груп, розраховують величину інтервалу:

У прикладі величина інтервалу становить:

а) при 8 групах

б) при 9 групах

Для побудови ряду та аналізу варіації значно краще мати по можливості округлені значення величини інтервалу та його меж. Тому найкращим рішенням буде побудова варіаційного ряду з 9 групами з інтервалом 5 ц/га. Цей варіаційний ряд наведено у табл. 5.6, яке графічне зображення дано на рис. 5.1.

Межі інтервалів можуть вказуватись різним чином: верхня межа попереднього інтервалу повторює нижню межу наступного, як показано в табл. 5.6 або не повторює.

У разі другий інтервал буде позначений як 15,1-20, третій як 20,1-25 тощо., тобто. передбачається, що це значення врожайності обов'язково округлені до однієї десятої. Крім того, виникає небажане ускладнення з серединою інтервалу 15,1-20, яка, строго кажучи, вже дорівнюватиме не 17,5, а 17,55; відповідно при заміні округленого інтервалу 40-60 на 40,1-6,0 замість округленого значення його середини 50 отримаємо 50,5, Тому краще залишити інтервали з повторюваним округленим кордоном і домовитися, що одиниці сукупності, що мають значення ознаки, дорівнює межі інтервалу, включаються до того інтервалу, де це точне значеннявперше вказується. Так, господарство, що має врожайність, що дорівнює 15 ц/га, включається до першої групи, значення 20 ц/га -у другу і т.д.

Рис. 5.1. Розподіл господарств за врожайністю

Таблиця 5.6

Розподіл господарств області з урожайності зернових культур

Групи господарств з урожайності,

ц/га хj

Число господарств

Середина інтервалу,

ц/га хj"

Накопичена частота f ’ j

Графічне зображення варіаційного ряду

Істотну допомогу в аналізі варіаційного ряду та його властивостей надає графічне зображення. Інтервальний рядзображується стовпчикової діаграмою, в якій основи стовпчиків, розташовані на осі абсцис, - це інтервали значень варіюючої ознаки, а висоти стовпчиків - частоти, - відповідні масштабу по осі ординат. Графічне зображення розподілу господарств області з урожайності зернових культур наведено на рис. 5.1. Діаграма цього роду часто називається гістограмою(Від грецького слова «гістос» - тканина, будова).

Дані таблиці. 5.5 та рис. 5.1 показують характерну для багатьох ознак форму розподілу: частіше зустрічаються значення середніх інтервалів ознаки, рідше крайні; малі та великі значення ознаки. Форма цього розподілу близька до аналізованого в курсі математичної статистикизакону нормального розподілу. Великий російський математик А. М. Ляпунов (1857 - 1918) довів, що нормальний розподіл утворюється, якщо на змінну, що варіює, впливає велика кількість факторів, жоден з яких не має переважаючого впливу. Випадкове поєднання безлічі приблизно рівних факторів, що впливають на варіацію врожайності зернових культур, як природних, так і агротехнічних, економічних, створює близьке до нормальному законурозподіл розподіл господарств області за врожайністю.

Якщо є дискретний варіаційний ряд або використовуються середини інтервалів, то графічне зображення такого варіаційного ряду називається полігоном(Від грец. Слова - багатокутник). Кожен із вас легко побудує цей графік, з'єднуючи прямими точками з координатами х,та /.

Відношення висоти полігону або діаграми до їхньої підстави рекомендується в пропорції приблизно 5:8.

Поняття частості

Якщо табл. 5.6 кількість господарств з тим чи іншим рівнем врожайності виразити у відсотках до результату, приймаючи все число господарств (143) за 100%, то середня врожайність може бути обчислена так:

де w- Частина 7-ї категорії варіаційного ряду;

Кумулятивний розподіл

Перетвореною формою варіаційного ряду є ряд накопичених частот,наведений у табл. 5.6, графа 5. Це ряд значень числа одиниць сукупності з меншими та рівними нижній межі відповідного інтервалу значеннями ознаки. Такий ряд називається кумулятивним.Можна побудувати кумулятивний розподіл "не менше, ніж", а можна "більше, ніж". У першому випадку графік кумулятивного розподілу називається кумулята,у другому - огивою(Рис. 5.2).

Щільність, розподіли

Якщо доводиться мати справу з варіаційним рядомз нерівними інтервалами, то порівнянності потрібно частоти чи частоти призвести до одиниці інтервалу. Отримане ставлення називається щільністю розподілу:

Щільність розподілу використовується як для розрахунку узагальнюючих показників, так і графічного зображенняваріаційних рядів із нерівними інтервалами.

Рис. 5.2. Огива та кумулята розподілу за врожайністю

5.7. Структурні характеристики варіаційного ряду

Медіана розподілу

При вивченні варіації застосовують такі характеристики варіаційного ряду, які описують кількісно його структуру, будову. Така, наприклад, медіана-величина варіює ознаки, що ділить сукупність на дві рівні частини ~ зі значеннями ознаки менше медіани І зі значеннями ознаки більше медіани (третього банку з п'яти в табл. 5.5, тобто 196 млрд руб.).

Приклад табл. 5.5 видно принципова відмінністьміж медіаною та середньою величиною. Медіана залежить від значень ознаки на краях ранжированного ряду. Якби навіть капітал найбільшого банку Санкт-Петербурга був удесятеро більшим, величина медіани не змінилася б. Тому часто медіану використовують як надійніший показник типового значення ознаки, ніж арифметична середня, якщо ряд значень неоднорідний, включає різкі відхилення від середньої. У даному рядусередня величина власного капіталу, що дорівнює 269 млрд руб., Склалася під великим впливом найбільшої варіанти. 80% банків мають капітал менший за середній і лише 20% - більше. Навряд чи таку середню вважатимуться типовою величиною. При парному числі одиниць сукупності за медійну приймають арифметичну середню величину двох центральних варіант, наприклад при десяти значеннях ознаки - середню з п'ятого і шостого значень в ранжированном ряду.

В інтервальному варіаційному ряду для знаходження медіани застосовується формула (5.14).

де Me – медіана;

х 0 -нижня межа інтервалу, в якому знаходиться медіана;

f M е-1 - накопичена частота в інтервалі, що передує медіанному;

f Me- Частота в медіанному інтервалі;

i- Величина інтервалу;

k - кількість груп.

У табл. 5,6 медіанним є середнє зі 143 значень, тобто. сімдесят-друге від початку низки значення врожайності. Як видно з низки накопичених частот, воно знаходиться у четвертому інтервалі. Тоді

При непарному числі одиниць сукупності номер медіани, як бачимо, дорівнює не , як у формулі (5.14), a , але це відмінність несуттєво і зазвичай ігнорується практично.

У дискретному варіаційному ряду медіаною слід вважати значення ознаки у тій групі, у якій накопичена частота;

перевищує половину чисельності сукупності. Наприклад, для даних табл. 5.1 медіаною числа забитих за гру м'ячів буде 2.

Квартили розподілу

Аналогічно медіани обчислюються значення ознаки, що ділять сукупність на чотири рівні за кількістю одиниць частини. Ці величини називаються квартилямиі позначаються великою латинською буквою Qз номером квартилю значок «підпис». Зрозуміло, що Q 2 збігається з Me. Для першого та третього квартилів наводимо формули та розрахунок за даними табл. 5.6.

Так як Q 2 = Me = 29,5 ц/га, видно, що різницю між першим квартилем і медіаною менше, ніж між медіаною і третім квартилем. Цей факт свідчить про наявність деякої несиметричності у середній галузі розподілу, що помітно і рис. 5.1.

Значення ознаки, що ділять ряд на п'ять рівних частин, називають квінтилями,на десять частин - децилями,на сто частин - перцентилями.Оскільки ці характеристики застосовуються лише за необхідності докладного вивчення структури варіаційного ряду, наводити їх формули та розрахунок не будемо.

Мода розподілу

Безперечно, важливе значеннямає така величина ознаки, яка зустрічається в ряді, що вивчається, в сукупності найчастіше. Таку величину прийнято називати модоюта позначати Мо. У дискретному ряду мода визначається без обчислення значення ознаки з найбільшою частотою. Наприклад, за даними табл. 5.1 найчастіше за футбольний матч було забито 2 м'ячі – 71 раз. Модою є число 2. Зазвичай трапляються ряди з одним модальним значенням ознаки. Якщо два або кілька рівних (і навіть кілька різних, але більших, ніж сусідні) значень ознаки є в варіаційному ряду, він вважається відповідно бімодальним (верблюдоподібним) або мультимодальним. Це говорить про неоднорідність сукупності, можливо, що представляє собою агрегат кількох сукупностей з різними модами.

Так і в натовпі туристів, які приїхали з різних країн, замість одного, що переважає серед місцевих жителів модного одягу, можна зустріти суміш різних «мод», прийнятих у різних народів світу.

В інтервальному варіаційному ряду, тим більше при безперервній варіації ознаки, строго кажучи, кожне значення ознаки зустрічається лише один раз. Модальним інтервалом є інтервал із максимальною частотою.. Усередині цього інтервалу знаходять умовне значення ознаки, поблизу якого щільність розподілу, тобто. число одиниць сукупності, що припадає на одиницю виміру ознаки, що варіює, досягає максимуму. Це умовне значення і вважається точковою модою.Логічно припустити, що така точкова мода розташовується ближче до тієї межі інтервалу, за якою частота в сусідньому інтервалі більше частоти в інтервалі за іншою межею модального інтервалу. Звідси маємо зазвичай застосовувану формулу (5.15):

де x 0 - нижня межа модального інтервалу;

f Mo - частота в модальному інтервалі;

f Mo -1 - Частота в попередньому інтервалі;

f Mo +1 - Частота в наступному інтервалі за модальним;

i - величина інтервалу.

За даними табл. 5.6 розрахуємо моду:

Обчислення моди в інтервальному ряду дуже умовне. Приблизно Мо можна визначити графічно (див. рис. 5.1).

До вивчення структури варіаційного ряду середня арифметична величина також має відношення, хоча основне значення цього узагальнюючого показника інше. Серед розподілу господарств за врожайністю (табл. 5.6) середня величина врожайності обчислюється як зважена за частотою середина інтервалів х(За формулою (5.2)):

Співвідношення між середньою величиною, медіаною та модою

Відмінність між середньою арифметичною величиною, медіаною та модою в даному розподілі невелика. Якщо розподіл за формою близький до нормального закону, то медіана знаходиться між модою і середньою величиною, причому ближче до середньої, ніж до моди.

При правосторонній асиметрії х̅ > Me > Mo;

при лівосторонній асиметрії х̅ < Me< Mo.

Для помірно асиметричних розподілів справедлива рівність:

5.8. Показники розміру та інтенсивності варіації

Абсолютні середні розміри варіації

Наступним етапом вивчення варіації ознаки у сукупності є вимірювання характеристик сили, величини варіації. Найпростішим може служити розмахабо амплітуда варіації -абсолютна різниця між максимальним і мінімальним значеннями ознаки з наявних у досліджуваній сукупності значень. Таким чином, розмах варіації обчислюється за формулою

Оскільки величина розмаху характеризує лише максимальне відмінність значень ознаки, вона може вимірювати закономірну силу його варіації у всій сукупності. Призначений для цієї мети показник повинен враховувати та узагальнювати всі відмінності значень ознаки разом без винятку. Число таких відмінностей дорівнює числу поєднань по два з усіх одиниць сукупності; за даними табл. 5.6 воно становитиме: С^= 10 153. Однак немає необхідності розглядати, обчислювати та середити всі відхилення. Простіше використовувати середню з відхилень окремих значень ознаки від середньої арифметичного значенняознаки, а таких всього 143. Але середнє відхилення значень ознаки від середньої арифметичної величини згідно з відомою якістю останньої дорівнює нулю. Тому показником сили варіації виступає не середня алгебраїчна відхилень, а середній модуль відхилень:

За даними табл. 5.6 середній модуль, або середнє лінійне відхилення,по абсолютній величині обчислюється як зважене частотою відхилення по модулю середин інтервалів від середньої арифметичної величини, тобто. за формулою

Це означає, що в середньому врожайність у сукупності господарств, що вивчається, відхилялася від середньої врожайності по області на 6,85 ц/га. Простота розрахунку та інтерпретації становлять позитивні сторониданого показника, проте математичні властивості модулів «погані»: їхне можна поставити у відповідність до будь-якого імовірнісного закону, в тому числі і з нормальним розподілом, параметром якого є не середній модуль відхилень, а середнє квадратичне відхилення(в англомовних програмах для ЕОМ зване the standard deviation, скорочено s.d. або просто « s», у російськомовних – СКО). У статистичній літературі середнє квадратичне відхилення від середньої величини прийнято позначати малою (рядковою) грецькою літероюсигма (ст) або s(див. гл. 7):

для ранжованого ряду

для інтервального ряду

За даними табл. 5.6 середнє квадратичне відхилення врожайності зернових становило:

Слід зазначити, що деяке округлення середньої величини та середин інтервалів, наприклад до цілих, мало відбивається на величині σ, яка склала б при цьому 8,55 ц/га.

Середнє квадратичне відхилення за величиною реальних сукупностях завжди більше середнього модуля відхилень. Співвідношення (у: азалежить від наявності в сукупності різких відхилень, що виділяються і може служити індикатором «засміченості» сукупності неоднорідними з основною масою елементами: чим це співвідношення більше, тим сильніше подібна «засміченість». Для нормального закону розподілу σ: а = 1,2.

Поняття дисперсії

Квадрат середнього квадратичного відхилення дає величину дисперсії σ 2 .Формула дисперсії:

проста (для несгрупованих даних):

зважена (для згрупованих даних):

На дисперсії ґрунтуються практично всі методи математичної статистики. Велике практичне значення має правило додавання дисперсій (див. гл. 6).

Інші заходи варіації

Ще одним показником сили варіації, що характеризує її не по всій сукупності, а лише в її центральній частині, служить середня квартальна відстань,тобто. середня величина різниці між квартилями, що позначається далі як q:

Для розподілу сільгосппідприємств щодо врожайності у табл. 5.2

q= (36,25 – 25,09): 2 = 5,58 ц/га. Сила варіації в центральній частині сукупності, як правило, менша, ніж загалом по всій сукупності. Співвідношення між середнім модулем відхилень та середнім квартальним відхиленням також служить для вивчення структури варіації: велике значеннятакого співвідношення говорить про наявність слабоваріюючого «ядра» і сильно розсіяного навколо цього ядра оточення, або «гало» в сукупності, що вивчається. Для даних табл. 5.6 співвідношення а: q= 1,23, що говорить про невелику відмінність сили варіації в центральній частині сукупності та на її периферії.

Для оцінки інтенсивності варіації та для порівняння її в різних сукупностях і тим паче для різних ознак необхідні відносні показникиваріації.Вони обчислюються як відносини абсолютних показниківсили варіації, розглянутих раніше, до середньої арифметичної величини ознаки. Отримуємо такі показники:

1) відносний розмах варіації р:

2) відносне відхилення по модулю т:

3) коефіцієнт варіації як відносне квадратичне відхилення v:

4) відносна квартальна відстань d:

де q - середня квартильна відстань.

Для варіації врожайності за даними табл. 5,6 ці показники становлять:

ρ = 42,4: 30,3 = 1,4, або 140%;

т= 6,85: 30,3 = 0,226, або 22,6%;

v = 8,44: 30,3 = 0,279, або 27,9%;

d= 5,58: 30,3 = 0,184, або 18,4%.

Оцінка ступеня інтенсивності варіації можлива тільки для кожного окремого ознак сукупності певного складу. Так, для сукупності сільгосппідприємств варіація врожайності в тому самому природному регіоні може бути оцінена як слабка, якщо v < 10%, умеренная при 10% < v < 25% и сильная при v > 25%.

Навпаки, варіація зростання в сукупності дорослих чоловіків або жінок вже при коефіцієнті, що дорівнює 7%, має бути оцінена і сприймається людьми як сильна. Таким чином, оцінка інтенсивності варіації полягає в порівнянні варіації з деякою звичайною її інтенсивністю, що приймається за норматив. Ми звикли до того, що врожайність, заробіток чи дохід на душу, кількість житлових кімнат у будівлі можуть відрізнятися в кілька і навіть десятки разів, але різниця зростання людей хоча б у півтора рази вже сприймається як дуже сильна.

Різна сила, інтенсивність варіації обумовлені об'єктивними причинами. Наприклад, ціна продажу долара США в комерційних банках Санкт-Петербурга на 24 січня 1997 варіювала від 5675 до 5640 руб. при середньої ціни 5664 руб. Відносний розмах варіації ρ = 35:5664 = 0,6%. Така мала варіація викликана тим, що при значній відмінності курсу долара негайно відбувся відплив покупців з «дорогого» банку на «дешевші». Навпаки, ціна кілограма картоплі чи яловичини у різних регіонах Росії дуже сильно варіює - на десятки відсотків і більше. Це різними витратами на доставку товару з регіону-виробника до регіону-споживача, тобто. прислів'ям «телушка за морем - полушка, і рубль перевезення».

5.9. Моменти розподілу та показники його форми

Центральні моменти розподілу

Для вивчення характеру варіації використовуються середні значення різних ступенів відхилень окремих величин ознаки з його середньої арифметичної величини. Ці показники отримали назву центральних моментіврозподіл порядку, відповідного ступеня, в який зводяться відхилення (табл. 5.7), або просто моментів (нецентральні моменти використовуються рідко і тут не будуть розглядатися). Розмір третього моменту ц-, залежить, як та її символ, від переважання позитивних кубів відхилень над негативними кубами чи навпаки. При нормальному та будь-якому іншому строго симетричному розподілі сума позитивних кубів строго дорівнює сумі негативних кубів.

Показники асиметрії

На основі моменту третього порядку можна побудувати показник, що характеризує ступінь асиметричності розподілу:

Asназивають коефіцієнтом асиметрії.Він може бути розрахований як за згрупованими, так і за несгрупованими даними. За даними табл. 5.6 показник асиметрії становив:

тобто. асиметрія незначна. Англійський статистик К. Пірсон на основі різниці між середньою величиною та модою запропонував інший показник асиметрії

Таблиця 5.7

Центральні моменти

За даними табл. 5.6 показник Пірсона становив:

Показник Пірсона залежить від ступеня асиметричності в середній частині ряду розподілу, а показник асиметрії, що базується на моменті третього порядку, - від крайніх значень ознаки. Таким чином, у нашому прикладі в середній частині розподілу асиметрія більша, що видно і за графіком (рис. 5.1). Розподіли з сильною правосторонньою та лівосторонньою (позитивною та негативною) асиметрією показані на рис. 5.3.

Характеристика ексцесу розподілу

За допомогою моменту четвертого порядку характеризується ще більш складна властивість рядів розподілу, ніж асиметрія, яка називається ексцесом.


Рис. 5.3. Асиметрія, розподіли

Показник ексцесу розраховується за формулою

(5.30)

Часто ексцес інтерпретується як "крутість" розподілу, але це неточно і неповно. Графік розподілу може виглядати як завгодно крутим в залежності від сили варіації ознаки: чим слабша варіація, тим крутіша крива розподілу при даному масштабі. Не кажучи вже про те, що, змінюючи масштаби по осі абсцис і по осі ординат, будь-який розподіл можна штучно зробити «крутим» і «пологим». Щоб показати, у чому полягає ексцес розподілу, і правильно його інтерпретувати, потрібно порівняти ряди з однаковою силою варіації (одною і тією самою величиною σ) та різними показниками ексцесу. Щоб не змішати ексцес з асиметрією, всі порівнювані ряди мають бути симетричними. Таке порівняння зображено на рис. 5.4.

Рис.5.4. Ексцес розподілу

Для варіаційного ряду з нормальним розподілом значно i ний ознаки показник ексцесу, розрахований за формулою (5.30), j дорівнює трьом.

Однак такий показник не слід називати терміном ексцес, що в перекладі означає надмірність. Термін «ексцес» слід застосовувати не до самого відношення за формулою (5.30), а до порівняння такого відношення для розподілу, що вивчається, з величиною даного відношення нормального розподілу, тобто. з величиною 3. Звідси остаточні формули показника ексцесу, тобто. надмірності в порівнянні з нормальним розподілом при тій же силі варіації, мають вигляд:

для ранжованого ряду

для інтервального та дискретного варіаційного ряду

Наявність позитивного ексцесу, як і раніше зазначеного значної різниці між малою квартальною відстанню і великим середнім квадратичним відхиленням, означає, що в масі явищ, що вивчається, існує слабо варіює за даною ознакою «ядро», оточене розсіяним «гало». За суттєвого негативного ексцесу такого «ядра» немає зовсім.

За значеннями показників асиметрії та ексцесу розподілу можна судити про близькість розподілу до нормального, що буває суттєво важливо для оцінки результатів кореляційного та регресійного аналізу, можливостей імовірнісної оцінки прогнозів (див. глави 7,8,9). Розподіл можна вважати нормальним, а точніше - не відкидати гіпотезу про схожість фактичного розподілу з нормальним, якщо показники асиметрії та ексцесу не перевищують своїх дворазових середніх квадратичних відхилень Стц. Ці середні квадратичні відхилення обчислюються за формулами:

5.10. Гранично можливі значення показників варіації та їх застосування

Застосовуючи будь-який вид статистичних показників, корисно знати, які гранично можливі значення даного показника для системи, що вивчається, і яке відношення фактично спостерігаються значень до гранично можливим. Особливо актуальна ця проблема щодо варіації об'ємних показників, як-от обсяг виробництва певного виду продукції, наявність певних ресурсів, розподіл капіталовкладень, доходів, прибутку. Розглянемо теоретично та практично це питання на прикладі розподілу виробництва овочів між сільгосппідприємствами в районі.

Очевидно, що мінімально можливе значення показників варіації досягається при рівномірному розподілі об'ємного ознаки між всіма одиницями сукупності, тобто при однаковому обсязі виробництва в кожному з сільгосппідприємств. У такому граничному (звичайно, вельми малоймовірному на практиці) розподілі варіація відсутня і всі показники, варіації дорівнюють нулю.

Максимально можливе значення показників варіації досягається при такому розподілі об'ємної ознаки в сукупності, при якому весь обсяг зосереджений в одній одиниці сукупності; наприклад, весь обсяг виробництва овочів - в одному сільгосппідприємств району за відсутності їхнього виробництва в інших господарствах. Ймовірність такого максимально можливого зосередження обсягу ознаки в одній одиниці сукупності не така вже мала; принаймні вона набагато більша за ймовірність строго рівномірного розподілу.

Розглянемо показники варіації за вказаного граничного випадку її максимальності. Позначимо кількість одиниць сукупності п,середню величину ознаки х̅ , тоді загальний обсяг ознаки в сукупності виразиться як х̅ п.Весь цей обсяг зосереджений в однієї одиниці сукупності, отже хmax= х̅ п. хmin = 0, звідки випливає, що максимальне значення амплітуди (розмаху варіації) дорівнює:

Для обчислення максимальних значень середніх відхилень за модулем і квадратичним збудуємо таблицю відхилень (табл. 5.8).

Таблиця5.8

Модулі та квадрати відхилень від середньої при максимальноможливої ​​варіації

Номери одиниць сукупності

Значення ознаки

Відхилення від середньої

x i - x̅

Модулі відхилень

|x i - x̅|

Квадрати відхилень

i- х̅ ) 2

х̅ п

х̅ (п - 1)

-x̅

-x̅

-x̅

х̅ (п - 1)

х̅

х̅

х̅

х̅ 2 (п - 1) 2

х̅ 2

х̅ 2

х̅ 2

х̅ п

2х̅ (п - 1)

х̅ 2 [(п - 1) 2 +(n-1)]

Виходячи з виразів, що стоять у підсумковому рядку табл. 5.8 отримуємо наступні максимально можливі значення показників варіації.

Середній модуль відхилень, або середнє лінійне відхилення:

Середнє квадратичне відхилення:

Відносне модульне (лінійне) відхилення:

Коефіцієнт варіації:

Що стосується квартальної відстані, то система з максимально можливою варіацією має вироджену структуру розподілу ознаки, в якій не існують («не працюють») характеристики структури: медіана, квартилі та подібні до них.

Виходячи з отриманих формул максимально можливих значень основних показників варіації, перш за все слідує висновок про залежність цих значень від обсягу сукупності п.Ця залежність узагальнена у табл. 5.9.

Найбільш вузькі межі зміни та слабку залежність від чисельності сукупності виявляють середній модуль та відносне лінійне відхилення. Навпаки, середнє відхилення і коефіцієнт варіації сильно залежать від чисельності одиниць сукупності. Цю залежність слід враховувати у порівнянні сили інтенсивності варіації в сукупності різної чисельності. Якщо в сукупності шести підприємств коефіцієнт варіації обсягу продукції становив 0,58, а в сукупності з 20 підприємств він становив 0,72, то чи справедливо робити висновок про більшу нерівномірність обсягу продукції в другій сукупності? Адже першою, меншою, він становив 0,58: 2,24 = 25,9% максимально можливого, тобто. граничного, рівня концентрації виробництва на одному підприємстві з шести, тоді як у другий, більшої сукупності, що спостерігається коефіцієнт варіації становив лише 0,72: 4,36 = 16,5% максимально можливого.

Таблиця 5.9

Граничні значення показників варіації об'ємної ознаки за різних чисельностей сукупності

Чисельність сукупностей

Максимальні значення показників

х̅

х̅

1,5х̅

1,73х̅

1,67х̅

2,24х̅

1,80х̅

3х̅

1,90х̅

4,36х̅

1,96х̅

7х̅

1,98х̅

9,95х̅

2х̅

Має практичне значення і такий показник, як відношення фактичного середнього модуля відхилень до гранично можливого. Так, для сукупності шести підприємств це співвідношення становило: 0,47: 1,67 = 0,281, або 28,1%. Інтерпретація отриманого показника така: для переходу від розподілу обсягу продукції, що спостерігається, між підприємствами, до рівномірному розподілупотрібно було б перерозподілити

, або 23,4% від загального обсягу продукції в сукупності. Якщо рівень фактичної концентрації виробництва (фактична величина σ або v) становить деяку частку граничного значення при монополізації виробництва одному підприємстві, то відношення фактичного показника до граничного може характеризувати ступінь концентрації (або монополізації) виробництва.

Відносини фактичних значень показників варіації або зміни структури до гранично можливих використовуються також під час аналізу структурних зрушень (див. розділ 11).

1. Джіні До.Середні величини. - М: Статистика, 1970.

2. Кривенкова Л. Н., Юзбашев М. М.Область існування показників варіації та її застосування // Вісник статистики. – 1991. – №6. – С. 66-70.

3. Пасхавер І. ​​С.Середні величини у статистиці. - М: Статистика. 1979.

4. Шураков Ст Ст, Дайітбегов Д. М. та ін.Автоматизоване робоче місцестатистичної обробки даних (Глава 4. Попередня статистична обробкаданих). - М.: Фінанси та статистика, 1990.

Найважливішим етапом дослідження соціально-економічних явищ та процесів є систематизація первинних даних та отримання на цій основі зведеної характеристики всього об'єкта за допомогою узагальнюючих показників, що досягається шляхом зведення та угруповання первинного статистичного матеріалу.

Статистичне зведення - це комплекс послідовних операцій із узагальнення конкретних одиничних фактів, що утворюють сукупність, виявлення типових рис і закономірностей, властивих досліджуваному явище загалом. Проведення статистичного зведення включає наступні етапи :

  • вибір групувального ознаки;
  • визначення порядку формування груп;
  • розробка системи статистичних показників для характеристики груп та об'єкта загалом;
  • розробка макетів статистичних таблиць для представлення результатів зведення.

Статистичним угрупованням називається розчленування одиниць сукупності, що вивчається, на однорідні групи за певними істотними для них ознаками. Угруповання є найважливішим статистичним методом узагальнення статистичних даних, основою правильного обчислення статистичних показників.

Розрізняють такі види угруповань: типологічні, структурні, аналітичні. Всі ці угруповання поєднує те, що одиниці об'єкта поділені на групи за якоюсь ознакою.

Групувальною ознакою називається ознака, яким проводиться розбиття одиниць сукупності деякі групи. Від правильного виборугрупувальні ознаки залежать висновки статистичного дослідження. Як основу угруповання необхідно використовувати суттєві, теоретично обґрунтовані ознаки (кількісні чи якісні).

Кількісні ознаки угруповання мають числове вираження (обсяг торгів, вік людини, дохід сім'ї тощо), а якісні ознаки угруповання відображають стан одиниці сукупності (підлога, сімейний стан, галузева приналежність підприємства, його форма власності тощо).

Після того, як визначено підставу угруповання, слід вирішити питання про кількість груп, на які треба розбити досліджувану сукупність. Число груп залежить від завдань дослідження та виду показника, покладеного в основу угруповання, обсягу сукупності, ступеня варіації ознаки.

Наприклад, угруповання підприємств за формами власності враховує муніципальну, федеральну та власність суб'єктів федерації. Якщо угруповання проводиться за кількісною ознакою, тоді необхідно звернути особливу увагу на кількість одиниць досліджуваного об'єкта і ступінь коливання групувальної ознаки.

Коли визначено кількість груп, слід визначити інтервали угруповання. Інтервал - Це значення варіює ознаки, що лежать у певних межах. Кожен інтервал має свою величину, верхню та нижню межі або хоча б одну з них.

Нижнім кордоном інтервалу називається найменше значення ознаки в інтервалі, а верхнім кордоном - Найбільше значення ознаки в інтервалі. Величина інтервалу є різницею між верхньою та нижньою межами.

Інтервали угруповання залежно від їхньої величини бувають: рівні та нерівні. Якщо варіація ознаки проявляється у порівняно вузьких межах і розподіл має рівномірний характер, то будують угруповання з рівними інтервалами. Величина рівного інтервалу визначається за такою формулою :

де Хmax, Хmin - максимальне та мінімальне значення ознаки в сукупності; n – число груп.

Найпростіше угруповання, у якому кожна виділена група характеризується одним показником є ​​ряд розподілу.

Статистичний рядрозподілу - це упорядкований розподіл одиниць сукупності на групи за певною ознакою. Залежно від ознаки, покладеної основою освіти низки розподілу, розрізняють атрибутивні і варіаційні ряди розподілу.

Атрибутивними називають ряди розподілу, побудовані за якісними ознаками, тобто ознаками, що не мають числового виразу (розподіл за видами праці, за статтю, за професією тощо). Атрибутивні ряди розподілу характеризують склад сукупності за тими чи іншими суттєвими ознаками. Взяті за кілька періодів ці дані дозволяють досліджувати зміну структури.

Варіаційними рядами називають ряди розподілу, побудовані за кількісним ознакою. Будь-який варіаційний ряд складається з двох елементів: варіантів та частот. Варіантами називаються окремі значення ознаки, які він приймає в варіаційному ряду, тобто конкретне значення ознаки, що варіює.

Частотами називаються чисельності окремих варіантів або кожної групи варіаційного ряду, тобто це числа, які показують, як часто зустрічаються ті чи інші варіанти у ряді розподілу. Сума всіх частот визначає чисельність усієї сукупності, її обсяг. Частинами називаються частоти, виражені у частках одиниці чи відсотках до результату. Відповідно сума частостей дорівнює 1 чи 100%.

Залежно від характеру варіації ознаки розрізняють три форми варіаційного ряду: ранжований ряд, дискретний ряд та інтервальний ряд.

Ранжований варіаційний ряд - це розподіл окремих одиниць сукупності у порядку зростання чи спадання досліджуваного ознаки. Ранжування дозволяє легко розділити кількісні дані по групам, відразу виявити найменше та найбільше значення ознаки, виділити значення, які найчастіше повторюються.

Дискретний варіаційний ряд характеризує розподіл одиниць сукупності за дискретною ознакою, що приймає лише цілі значення. Наприклад, тарифний розряд, кількість дітей у сім'ї, кількість працівників для підприємства та інших.

Якщо ознака має безперервну зміну, які в певних межах можуть набувати будь-яких значень («від - до»), то для цієї ознаки потрібно будувати інтервальний варіаційний ряд . Наприклад, розмір доходу, стаж роботи, вартість основних фондів підприємства та ін.

Приклади розв'язання задач на тему «Статистичне зведення та угруповання»

Завдання 1 . Є інформація про кількість книг, отриманих студентами за абонементом за минулий навчальний рік.

Побудувати ранжований та дискретний варіаційні ряди розподілу, позначивши елементи ряду.

Рішення

Ця сукупність є безліч варіантів кількості одержуваних студентами книг. Підрахуємо кількість таких варіантів та упорядкуємо у вигляді варіаційного ранжованого та варіаційного дискретного рядів розподілу.

Завдання 2 . Є дані про вартість основних фондів у 50 підприємств, тис. руб.

Побудувати низку розподілу, виділивши 5 груп підприємств (з рівними інтервалами).

Рішення

Для вирішення оберемо найбільше та найменше значення вартості основних фондів підприємств. Це 30,0 та 10,2 тис. руб.

Знайдемо розмір інтервалу: h = (30,0-10,2): 5 = 3,96 тис. руб.

Тоді до першої групи входитимуть підприємства, розмір основних фондів яких становить від 10,2 тис. руб. до 10,2 +3,96 = 14,16 тис. руб. Таких підприємств буде 9. До другої групи увійдуть підприємства, розмір основних фондів яких складе від 14,16 тис. руб. до 14,16 +3,96 = 18,12 тис. руб. Таких підприємств буде 16. Аналогічно знайдемо кількість підприємств, що входять до третьої, четвертої та п'ятої групи.

Отриманий ряд розподілу помістимо до таблиці.

Завдання 3 . По ряду підприємств легкої промисловостіотримані такі дані:

Здійсніть угруповання підприємств за кількістю робітників, утворюючи 6 груп з рівними інтервалами. Підрахуйте по кожній групі:

1. кількість підприємств
2. число робітників
3. обсяг виробленої продукції протягом року
4. середнє фактичне вироблення одного робітника
5. обсяг основних засобів
6. середній розмір основних засобів одного підприємства
7. середню величину виробленої продукції одним підприємством

Результати розрахунку оформіть у таблиці. Зробіть висновки.

Рішення

Для вирішення виберемо найбільше та найменше значення середньооблікового числа робітників на підприємстві. Це 43 та 256.

Знайдемо розмір інтервалу: h = (256-43): 6 = 35,5

Тоді до першої групи входитимуть підприємства, середньооблікова кількість робітників на яких становить від 43 до 43 +35,5 = 78,5 чоловік. Таких підприємств буде 5. До другої групи увійдуть підприємства, середньооблікова кількість робітників на яких складе від 78,5 до 78,5 +35,5 = 114 осіб. Таких підприємств буде 12. Аналогічно знайдемо кількість підприємств, що входять до третьої, четвертої, п'ятої та шостої групи.

Отриманий ряд розподілу помістимо до таблиці та обчислимо необхідні показники по кожній групі:

Висновок : Як видно з таблиці, друга група підприємств є найчисленнішою До неї входять 12 підприємств. Найменшими є п'ята і шоста групи (по два підприємства). Це найбільші підприємства (за кількістю робітників).

Оскільки друга група найчисленніша, обсяг виробленої продукції за рік підприємствами цієї групи та обсяг основних засобів значно вищий за інші. Водночас середній фактичний вироблення одного робітника на підприємствах цієї групи найбільшого не є. Тут лідирують підприємства четвертої групи. На цю групу припадає досить великий обсяг основних засобів.

У висновку зазначимо, що середній розмір основних засобів та середня величина виробленої продукції одного підприємства прямо пропорційні розмірам підприємства (за кількістю робітників).

Першим етапом статистичного вивчення варіації є побудова варіаційного ряду - упорядкованого розподілу одиниць сукупності за зростаючим (частіше) чи з спадним (рідше) значенням ознаки і підрахунок числа одиниць із тим чи іншим значенням ознаки.

Існують три форми варіаційного ряду: ранжований, дискретний, інтервальний. Варіаційний ряд часто називають поряд розподілу. Цей термін вживається щодо варіації як кількісних, і некількісних ознак. Ряд розподілу є структурне угруповання (гл. 6).

Ранжированный ряд - це перелік окремих одиниць сукупності порядку зростання (зменшення) досліджуваного ознаки.

Нижче наведено відомості про великих банкахСанкт-Петербурга, ранжованих за розмірами власного капіталу 01.10.1999 р.

Назва банку Власний капітал, млн. руб. Балтонексім банк 169

Банк «Санкт-Петербург» 237

Петровський 268

Балтійський 290

Промбудбанк 1007

Якщо чисельність одиниць сукупності досить велика, ранжований ряд стає громіздким, яке побудова, навіть з допомогою комп'ютера, займає тривалий час. У разі варіаційний ряд будується з допомогою групування одиниць сукупності за значенням досліджуваного ознаки.


Визначення числа груп

Число груп у дискретному варіаційному ряду визначається числом реально існуючих значень ознаки, що варіює. Якщо ознака набуває дискретних значень, але їх кількість дуже велика (наприклад, поголів'я худоби на 1 січня року в різних сільськогосподарських підприємствах може становити від нуля до десятків тисяч голів), то будується інтервальний варіаційний ряд. Інтервальний варіаційний ряд будується і для вивчення ознак, які можуть приймати будь-які, як цілі, так і дробові значення

сфери свого існування. Такі, наприклад, рентабельність реалізованої продукції, собівартість одиниці виробленої продукції, дохід однієї жителя міста, частка осіб із вищою освітою серед населення різних територій і взагалі всі вторинні ознаки, значення яких розраховуються шляхом розподілу величини однієї первинної ознаки на величину іншого (див. гл. 3).

Інтервальний варіаційний ряд є таблицею, що складається з двох граф (або рядків) - інтервалів ознаки, варіація якого вивчається, та числа одиниць сукупності, що потрапляють у даний інтервал (частот), або часткою цього числа від загальної чисельності сукупності (частин).

Найчастіше використовуються два види інтервальних варіаційних рядів: рівноінтервальний та рівночастотний. Рівноінтервальний ряд застосовується, якщо варіація ознаки дуже сильна, тобто. для однорідної сукупності, розподіл якої за цією ознакою близький до нормального закону. (Такий ряд представлений у табл. 5.6). Рівночастотний ряд застосовується, якщо варіація ознаки дуже сильна, проте розподіл не є нормальним, а, наприклад, гіперболічним (табл. 5.5).

При побудові рівноінтервального ряду число груп вибирається так, щоб у достатній мірі відбилися різноманітність значень ознаки в сукупності і водночас закономірність розподілу, його форма не спотворювалася випадковими коливаннями частот. Якщо груп буде замало, не виявиться закономірність варіації; якщо груп буде надмірно багато, випадкові стрибки частот спотворять форму розподілу.



Межі інтервалів можуть вказуватись різним чином: верхня межа попереднього інтервалу повторює нижню межу наступного, як показано в табл. 5.5 або не повторює.

У разі другий інтервал буде позначений як 15,1-20, третій - як 20,1-25 тощо., тобто. передбачається, що це значення врожайності обов'язково округлені до однієї десятої. Крім того, виникає небажане ускладнення з серединою інтервалу 15,1-20, яка, строго кажучи, вже дорівнюватиме не 17,5, а 17,55; відповідно при заміні заокругленого інтервалу 40-60 на 40,1-60 замість заокругленого значення його середини 50 отримаємо 50,5. Тому краще залишити інтервали з округленим кордоном, що повторюється, і домовитися, що одиниці сукупності, що мають значення ознаки, рівне межі інтервалу, включаються в той інтервал, де це точне значення вперше вказується. Так, господарство, що має врожайність, що дорівнює 15 ц/га, включається до першої групи, значення 20 ц/га

По-друге і т.д.

Рівночастотний варіаційний ряд необхідний при дуже сильній варіації ознаки тому, що при рівноінтервальному розподілі більша частина одиниць сукупності ока-


Таблиця 5.5

Розподіл 100 банків Росії з балансової оцінки активів на 01.01.2000 р.


Межі інтервалів при рівночастотному розподілі – це фактичні величини активів першого, десятого, одинадцятого, двадцятого тощо банків.

Графічне зображення варіаційного ряду

Істотну допомогу в аналізі варіаційного ряду та його властивостей надає графічне зображення. Інтервальний ряд зображується стовпчиковою діаграмою, в якій основи стовпчиків, розташовані на осі абсцис, - це інтервали значень ознаки, що варіює, а висота стовпчиків - частоти, що відповідають масштабу по осі ординат. Графічне зображення розподілу господарств області з урожайності зернових культур наведено на рис.

5.1. Діаграма цього роду часто називається гістограмою (гр. histos – тканина).

Дані таблиці. 5.6 та рис. 5.1 показують характерну для багатьох ознак форму розподілу: частіше зустрічаються значення середніх інтервалів ознаки, рідше – крайні, малі та великі значення ознаки. Форма цього розподілу близька до математичної статистики, що розглядається в курсі, закону нормального розподілу. Великий російський математик А. М. Ляпунов (1857-1918) довів, що нор-

Таблиця 5.6 Розподіл господарств області з урожайності зернових культур


мальний розподіл утворюється, якщо на змінну, що варіює, впливає велика кількість факторів, жоден з яких не має переважаючого впливу. Випадкове поєднання безлічі приблизно рівних факторів, що впливають на варіації врожайності зернових культур, як природних, так і агротехнічних, економічних, створює близьке до закону розподілу розподіл господарств області за врожайністю.


Рис. 5.2. Кумулята та огива розподілу господарств по

врожайності

Такий ряд називається кумулятивним. Можна побудувати кумулятивний розподіл «не менше, ніж», а можна

"більше ніж". У першому випадку графік кумулятивного розподілу називається кумулятою, у другому – огивою (рис. 5.2).

Щільність розподілу

Якщо доводиться мати справу з варіаційним поруч із нерівними інтервалами, то для сумісності потрібно частоти, або частоти, привести до одиниці інтервалу. Отримане відношення називається щільністю розподілу:


Щільність розподілу використовується як розрахунку узагальнюючих показників, так графічного зображення варіаційних рядів з нерівними інтервалами.

Подаються у вигляді рядів розподілу та оформляються у вигляді.

Ряд розподілу одна із видів угруповань.

Ряд розподілу— є впорядкованим розподілом одиниць досліджуваної сукупності на групи за певною ознакою, що варіює.

Залежно від ознаки, покладеної в основу освіти, ряду розподілу розрізняють атрибутивні та варіаційніряди розподілу:

  • Атрибутивними- Називають ряди розподілу, побудовані за якісними ознаками.
  • Ряди розподілу, побудовані в порядку зростання або зменшення значень кількісної ознаки називаються варіаційними.
Варіаційний ряд розподілу складається із двох стовпців:

У першому стовпці наводяться кількісні значення ознаки, що називаються, які називаються варіантамиі позначаються. Дискретна варіанта - виражається цілим числом. Інтервальний варіант знаходиться в межах від і до. Залежно від типу варіанти, можна побудувати дискретний або інтервальний варіаційний ряд.
У другому стовпці міститься кількість конкретних варіант, Виражене через частоти або частоти:

Частоти- це абсолютні числа, Що показують стільки разів у сукупності зустрічається це значення ознаки, які позначають . Сума всіх частот дорівнює повинна дорівнювати чисельності одиниць всієї сукупності.

Частини() - Це частоти виражені у відсотках до підсумку. Сума всіх частостей виражених у відсотках повинна дорівнювати 100% у частках одиниці.

Графічне зображення рядів розподілу

Наочно ряди розподілу надаються за допомогою графічних зображень.

Ряди розподілу зображуються у вигляді:
  • Полігона
  • Гістограми
  • Кумуляти
  • Огіви

Полігон

При побудові полігону на горизонтальній осі (вісь абсцис) відкладають значення ознаки, що варіює, а на вертикальній осі (вісь ординат) — частоти або частоти.

Полігон на рис. 6.1 побудований за даними мікроперепису населення Росії у 1994 р.

6.1. Розподіл домогосподарств за розміром

Умова: Наводяться дані про розподіл 25 працівників одного з підприємств за тарифними розрядами:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Завдання: Побудувати дискретний варіаційний ряд та зобразити його графічно у вигляді полігону розподілу
Рішення:
У цьому прикладі варіантами є тарифний розряд працівника. Для визначення частот необхідно розрахувати кількість працівників, які мають відповідний тарифний розряд.

Полігон використовують для дискретних варіаційних рядів.

Для побудови полігону розподілу (рис 1) по осі абсцис (X) відкладаємо кількісні значення ознаки, що варіює, - варіанти, а по осі ординат - частоти або частоти.

Якщо значення ознаки виражені як інтервалів, такий ряд називається інтервальним.
Інтервальні рядирозподіли зображують графічно у вигляді гістограми, кумуляти або огива.

Статистична таблиця

Умова: Наведено дані про розміри вкладів 20 фізичних осібв одному банку (тис.руб) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Завдання: Побудувати інтервальний варіаційний ряд із рівними інтервалами.
Рішення:

  1. Вихідна сукупність складається з 20 одиниць (N = 20).
  2. За формулою Стерджеса визначимо необхідна кількістьвикористовуваних груп: n=1+3,322*lg20=5
  3. Обчислимо величину рівного інтервалу: i = (152 - 2) / 5 = 30 тис.руб
  4. Розчленуємо вихідну сукупність на 5 груп з величиною інтервалу в 30 тис. руб.
  5. Результати угруповання подаємо у таблиці:

При такому записі безперервної ознаки, коли та сама величина зустрічається двічі (як верхня межа одного інтервалу і нижня межа іншого інтервалу), то ця величина відноситься до тієї групи, де ця величина виступає в ролі верхньої межі.

Гістограма

Для побудови гістограми по осі абсцис вказують значення меж інтервалів і на їх підставі будують прямокутники, висота яких пропорційна до частот (або частот).

На рис. 6.2. зображено гістограму розподілу населення Росії у 1997 р. за віковими групами.

Рис. 6.2. Розподіл населення Росії за віковими групами

Умова: Наводиться розподіл 30 працівників фірми за розміром місячної заробітної плати

Завдання: Зобразити інтервальний варіаційний ряд графічно у вигляді гістограми та кумуляти.
Рішення:

  1. Невідома межа відкритого (першого) інтервалу визначається за величиною другого інтервалу: 7000 - 5000 = 2000 руб. З тією ж величиною знаходимо нижню межу першого інтервалу: 5000 - 2000 = 3000 руб.
  2. Для побудови гістограми прямокутної системі координат по осі абсцис відкладаємо відрізки, величини яких відповідають інтервалам варицонного ряду.
    Ці відрізки служать нижньою основою, а відповідна частота (частина) - висотою прямокутників, що утворюються.
  3. Побудуємо гістограму:

Для побудови кумуляти необхідно розрахувати накопичені частоти (частини). Вони визначаються шляхом послідовного підсумовування частот (частин) попередніх інтервалів і позначаються S. Накопичені частоти показують, скільки одиниць сукупності мають значення ознаки не більше, ніж аналізоване.

Кумулята

Розподіл ознаки у варіаційному ряду за накопиченими частотами (частинами) зображується за допомогою кумуляти.

Кумулятаабо кумулятивна крива, на відміну від полігону, будується за накопиченими частотами або частотами. У цьому на осі абсцис поміщають значення ознаки, але в осі ординат — накопичені частоти чи частоти (рис. 6.3).

Рис. 6.3. Кумулята розподілу домогосподарств за розміром

4. Розрахуємо накопичені частоти:
Наколінна частота першого інтервалу розраховується так: 0 + 4 = 4, для другого: 4 + 12 = 16; для третього: 4+12+8=24 і т.д.

При побудові кумуляти накопичена частота (частина) відповідного інтервалу присвоюється його верхній межі:

Огіва

Огівабудується аналогічно кумуляті з тією різницею, що накопичені частоти поміщають на осі абсцис, а значення ознаки - на осі ординат.

Різновидом кумуляти є крива концентрації чи графік Лоренца. Для побудови кривої концентрації на обидві осі прямокутної системи координат наноситься масштабна шкала у відсотках від 0 до 100. При цьому осі абсцис вказують накопичені частоти, а на осі ординат - накопичені значення частки (у відсотках) за обсягом ознаки.

Рівномірному розподілу ознаки відповідає графіку діагональ квадрата (рис. 6.4). При нерівномірному розподілі графік є увігнутою кривою залежно від рівня концентрації ознаки.

6.4. Крива концентрації
Поділіться з друзями або збережіть для себе:

Завантаження...