Как да изградим серия с интервално разпределение. Изграждане на интервална вариационна серия за непрекъснати количествени данни

2. Концепцията за разпределителни серии. Дискретни и интервални редове на разпределение

разпределителни редовенаричат се групи от специален тип, в които за всеки признак, група признаци или клас признаци е известен броят на единиците в групата или делът на този брой в общия брой. Тези. серия за разпространение– подреден набор от стойности на атрибути, подредени във възходящ или низходящ ред със съответните им тегла. Сериите на разпределение могат да бъдат построени или по количествени, или по атрибути.

Сериите на разпределение, изградени на количествена основа, се наричат вариационни редове. Те са дискретни и интервални. Серията на разпределение може да бъде изградена върху непрекъснато променящ се признак (когато даден признак може да приема всякакви стойности в рамките на интервал) и върху дискретно променящ се признак (приема строго определени цели числа).

отделен вариационни серииразпределението се нарича обхватен набор от опции със съответните им честоти или подробности. Вариантите на дискретна серия са дискретно прекъснато променящи се стойности на знак, обикновено това е резултат от преброяване.

Отделен

вариационни серии обикновено се изграждат, ако стойностите на изследваната черта могат да се различават една от друга с поне някаква крайна стойност. В дискретни серии са посочени точкови стойности на характеристика. Пример : Разпределение на продадените мъжки костюми по магазини по месеци по размер.

интервал

вариационна серия е подреден набор от интервали на вариация на стойностите случайна величинасъс съответните честоти или честоти на магнитудни стойности, удрящи всяка от тях. Интервалните серии са предназначени да анализират разпределението на непрекъснато променяща се характеристика, чиято стойност най-често се записва чрез измерване или претегляне. Варианти на такъв ред е групиране.

Пример : Разпределение на покупките в хранителния магазин по суми.

Ако при дискретните вариационни серии АЧХ се отнася директно към варианта на серията, то при интервалните към групата от варианти.

Сериите на разпределение се анализират удобно с помощта на техните графично изображение, което позволява да се съди за формата на разпространение и закономерностите. Дискретна серия се показва на диаграмата като прекъсната линия - зона на разпространение. За да се изгради в правоъгълна координатна система, класираните (подредени) стойности на променливия атрибут се нанасят върху абсцисата в същата скала, а скалата за изразяване на честотите се нанася по ординатата.

Интервалните серии се показват като хистограми на разпределение(т.е. стълбовидни диаграми).

При конструирането на хистограма стойностите на интервалите се нанасят върху абсцисната ос, а честотите се изобразяват с правоъгълници, изградени върху съответните интервали. Височината на колоните в случай на равни интервали трябва да бъде пропорционална на честотите.

Всяка хистограма може да бъде преобразувана в полигон от разпределения, за това е необходимо да свържете върховете на нейните правоъгълници с прави сегменти.

2. Индексен метод за анализиране на влиянието на средната продукция и среден брой служителидо промени в обема на производството

Индексен методсе използва за анализ на динамиката и сравняване на общи показатели, както и фактори, влияещи върху изменението на нивата на тези показатели. С помощта на индекси е възможно да се разкрие влиянието на средната продукция и средната численост на персонала върху промените в обема на производството. Този проблем се решава чрез изграждане на система от аналитични показатели.

Индексът на обема на производството с индекса на средния брой на заетите и индекса на средната продукция е свързан по същия начин, както обемът на продукцията (Q) е свързан с продукцията ( w)и номер ( r) .

Можем да заключим, че обемът на производството ще бъде равен на произведението на средната продукция и средната численост на персонала:

Q = w r,където Q е обемът на производството,

w - средна мощност,

r е средният брой на персонала.

Както можете да видите, говорим за връзката на явленията в статиката: произведението на два фактора дава общия обем на полученото явление. Очевидно е също, че тази връзка е функционална, следователно динамиката на тази връзка се изследва с помощта на индекси. За дадения пример това е следната система:

J w × J r = J wr .

Например, индексът на производствения обем Jwr, като индекс на резултантно явление, може да се разложи на два индексни фактора: индексът на средната продукция (Jw) и индексът на средната численост на персонала (Jr):

Индекс Индекс Индекс

обемът на средния

мощност на продукцията

където Дж w- индекс на производителността на труда, изчислен по формулата на Ласпейрес;

J r- индекс на броя на заетите лица, изчислен по формулата на Пааше.

Индексните системи се използват за определяне влиянието на отделните фактори върху формирането на нивото показател за ефективност, позволете 2 известни стойностииндексите определят стойността на неизвестното.

Въз основа на горната система от показатели може да се намери и абсолютното увеличение на обема на производството, разложено на влиянието на факторите.

1. Общо увеличение на производствения обем:

∆wr = ∑w 1 r 1 - ∑w 0 r 0 .

2. Растеж, дължащ се на действието на индикатора за средна продукция:

∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 .

3. Растеж, дължащ се на действието на индикатора за средния брой на персонала:

∆wr/r = ∑w 0 r 1 - ∑w 0 r 0

∆wr = ∆wr/w + ∆wr/r.

Пример.Известна е следната информация

Можем да определим как се е променил обемът на производството в относително и абсолютно изражение и как отделните фактори са повлияли на тази промяна.

Обемът на продукцията възлиза на:

в базисния период

w 0 * r 0 \u003d 2000 * 90 \u003d 180000,

и в отчетността

w 1 * r 1 \u003d 2100 * 100 \u003d 210000.

Следователно обемът на продукцията се увеличава с 30 000 или 1,16%.

∆wr=∑w 1 r 1 -∑w 0 r 0= (210000-180000)=30000

или (210000:180000)*100%=1,16%.

Тази промяна в обема на производството се дължи на:

1) увеличение на средната численост на персонала с 10 души или със 111,1%

r 1 / r 0 \u003d 100 / 90 \u003d 1,11 или 111,1%.

В абсолютно изражение, поради този фактор, обемът на производството се е увеличил с 20 000:

w 0 r 1 - w 0 r 0 \u003d w 0 (r 1 -r 0) \u003d 2000 (100-90) \u003d 20000.

2) увеличение на средната продукция със 105% или с 10 000:

w 1 r 1 / w 0 r 1 \u003d 2100 * 100 / 2000 * 100 \u003d 1,05 или 105%.

В абсолютно изражение увеличението е:

w 1 r 1 - w 0 r 1 \u003d (w 1 -w 0) r 1 \u003d (2100-2000) * 100 \u003d 10000.

Следователно комбинираното влияние на факторите е:

1. В абсолютно изражение

10000 + 20000 = 30000

2. В относително отношение

1,11 * 1,05 = 1,16 (116%)

Следователно увеличението е 1,16%. И двата резултата са получени преди това.

Думата "индекс" в превод означава указател, индикатор. В статистиката индексът се тълкува като относителен показател, който характеризира изменението на дадено явление във времето, пространството или в сравнение с плана. Тъй като индексът е относителна стойност, имената на индексите са съгласни с имената на относителните стойности.

В тези случаи, когато анализираме промяната във времето на сравняваните продукти, можем да повдигнем въпроса как компонентите на индекса (цена, физически обем, структура на производството или продажбите на отделните видове продукти) се променят при различни условия (в различни области). В тази връзка се изграждат индекси с постоянен състав, променлив състав и структурни промени.

Индекс на постоянен (фиксиран) състав -е индекс, който характеризира динамиката среден размерсъс същата фиксирана структура на населението.

Принципът на конструиране на индекс с постоянен състав е да се елиминира влиянието на промените в структурата на теглата върху индексираната стойност чрез изчисляване на среднопретегленото ниво на индексирания индикатор със същите тегла.

Индексът с постоянен състав е идентичен по форма с агрегатния индекс. Агрегатната форма е най-често срещаната.

Индексът на постоянен състав се изчислява с тегла, фиксирани на ниво едно от всеки период, и показва промяната само в индексираната стойност. Индексът на постоянен състав елиминира влиянието на промените в структурата на теглата върху индексираната стойност чрез изчисляване на среднопретегленото ниво на индексирания показател със същите тегла. При индексите с постоянен състав се сравняват показатели, изчислени на базата на постоянна структура на явленията.

При обработката на големи количества информация, което е особено важно при провеждането на съвременни научни разработки, изследователят е изправен пред сериозната задача за правилно групиране на изходните данни. Ако данните са дискретни, тогава, както видяхме, няма проблеми - просто трябва да изчислите честотата на всяка характеристика. Ако изследваната черта има непрекъснатохарактер (което е по-често срещано в практиката), то изборът на оптимален брой интервали за групиране на признак никак не е тривиална задача.

За групиране на непрекъснати случайни променливи целият диапазон на вариация на характеристиката се разделя на определен брой интервали да се.

Групиран интервал (непрекъснато) вариационни сериинаречени интервали, класирани по стойността на характеристиката (), където е посочен заедно със съответните честоти () броят на наблюденията, които са попаднали в r"-ия интервал, или относителните честоти ():

Интервали на характерни стойности
mi честота

стълбовидна диаграмаи кумулативен (ogiva),вече разгледани подробно от нас, са отличен инструмент за визуализация на данни, който ви позволява да получите първоначално разбиране на структурата на данните. Такива графики (фиг. 1.15) се изграждат за непрекъснати данни по същия начин, както за дискретни данни, само като се вземе предвид фактът, че непрекъснатите данни напълно запълват областта на възможните им стойности, като приемат всякакви стойности.

Ориз. 1.15.

Ето защо колоните на хистограмата и кумулата трябва да са в контакт, да нямат области, където стойностите на атрибута не попадат във всички възможни(т.е. хистограмата и кумулацията не трябва да имат "дупки" по абсцисната ос, в които стойностите на изследваната променлива не попадат, както на фиг. 1.16). Височината на лентата съответства на честотата - броят на наблюденията, които попадат в дадения интервал, или на относителната честота - делът на наблюденията. Интервали не трябва да пресичаи обикновено са с еднаква ширина.

Ориз. 1.16.

Хистограмата и многоъгълникът са приближения на кривата на плътност на вероятността (диференциална функция) f(x)теоретично разпределение, разглеждано в курса по теория на вероятностите. Следователно тяхната конструкция е важностна основното статистическа обработкаколичествени непрекъснати данни - по формата им може да се съди за хипотетичния закон на разпределение.

Cumulate - кривата на натрупаните честоти (честоти) на интервала вариационна серия. Графиката на интегралната функция на разпределение се сравнява с кумулативната F(x), също разглеждани в курса на теорията на вероятностите.

По принцип понятията хистограма и кумулати се свързват точно с непрекъснати данни и техните интервални вариационни серии, тъй като техните графики са емпирични оценки на функцията на плътност на вероятността и функцията на разпределение, съответно.

Изграждането на интервална вариационна серия започва с определяне на броя на интервалите к.И тази задача е може би най-трудната, важна и противоречива в разглежданата проблематика.

Броят на интервалите не трябва да е твърде малък, тъй като хистограмата ще бъде твърде гладка ( прекалено загладен),губи всички характеристики на променливостта на изходните данни - на фиг. 1.17 можете да видите как същите данни, върху които графиките на фиг. 1.15 се използват за изграждане на хистограма с по-малък брой интервали (лявата графика).

В същото време броят на интервалите не трябва да бъде твърде голям - в противен случай няма да можем да оценим плътността на разпределението на изследваните данни по цифровата ос: хистограмата ще се окаже недостатъчно изгладена (недостатъчно загладен)с незапълнени интервали, неравномерно (виж Фиг. 1.17, дясна графика).

Ориз. 1.17.

Как да определите най-предпочитания брой интервали?

През 1926 г. Хърбърт Стърджис предложи формула за изчисляване на броя на интервалите, на които е необходимо да се раздели първоначалният набор от стойности на изследвания атрибут. Тази формула наистина стана супер популярна - повечето статистически учебници я предлагат и много статистически пакети я използват по подразбиране. Дали това е оправдано и във всички случаи е много сериозен въпрос.

И така, на какво се основава формулата на Sturges?

Обмисли биномно разпределение }