Изградете вариационна серия. Серия на интервално разпределение

При обработката на големи количества информация, което е особено важно при провеждането на съвременни научни разработки, изследователят е изправен пред сериозната задача за правилно групиране на изходните данни. Ако данните са дискретни, тогава, както видяхме, няма проблеми - просто трябва да изчислите честотата на всяка характеристика. Ако изследваната черта има непрекъснатохарактер (което е по-често срещано в практиката), то изборът на оптимален брой интервали за групиране на признак никак не е тривиална задача.

За групиране на непрекъснати случайни променливи, цялата диапазон на вариацияфункцията е разделена на няколко интервала да се.

Групиран интервал (непрекъснато) вариационни серии наречени интервали, класирани по стойността на характеристиката (), където е посочен заедно със съответните честоти () броят на наблюденията, които са попаднали в r"-ия интервал, или относителните честоти ():

Интервали на характерни стойности

mi честота

стълбовидна диаграмаи кумулативен (ogiva),вече разгледани подробно от нас, са отличен инструмент за визуализация на данни, който ви позволява да получите първоначално разбиране на структурата на данните. Такива графики (фиг. 1.15) се изграждат за непрекъснати данни по същия начин, както за дискретни данни, само като се вземе предвид фактът, че непрекъснатите данни напълно запълват областта на възможните им стойности, като приемат всякакви стойности.

Ориз. 1.15.

Ето защо колоните на хистограмата и кумулата трябва да са в контакт, да нямат области, където стойностите на атрибута не попадат във всички възможни(т.е. хистограмата и кумулацията не трябва да имат "дупки" по абсцисната ос, в които стойностите на изследваната променлива не попадат, както на фиг. 1.16). Височината на лентата съответства на честотата - броят на наблюденията, които попадат в дадения интервал, или на относителната честота - делът на наблюденията. Интервали не трябва да пресичаи обикновено са с еднаква ширина.

Ориз. 1.16.

Хистограмата и многоъгълникът са приближения на кривата на плътност на вероятността (диференциална функция) f(x)теоретично разпределение, разглеждано в курса по теория на вероятностите. Следователно тяхната конструкция е важностпри първичната статистическа обработка на количествени непрекъснати данни - по формата им може да се съди за хипотетичния закон на разпределение.

Cumulate - кривата на натрупаните честоти (честоти) на интервалната вариационна серия. Графиката на интегралната функция на разпределение се сравнява с кумулативната F(x), също разглеждани в курса на теорията на вероятностите.

По принцип концепциите за хистограма и кумулати се свързват точно с непрекъснати данни и техните серии от интервални вариации, тъй като техните графики са емпирични оценки на функцията на плътност на вероятността и функцията на разпределение, съответно.

Изграждането на интервална вариационна серия започва с определяне на броя на интервалите к.И тази задача е може би най-трудната, важна и противоречива в разглежданата проблематика.

Броят на интервалите не трябва да е твърде малък, тъй като хистограмата ще бъде твърде гладка ( прекалено загладен),губи всички характеристики на променливостта на изходните данни - на фиг. 1.17 можете да видите как същите данни, върху които графиките на фиг. 1.15 се използват за изграждане на хистограма с по-малък брой интервали (лявата графика).

В същото време броят на интервалите не трябва да е твърде голям - в противен случай няма да можем да оценим плътността на разпределението на изследваните данни по цифровата ос: хистограмата ще се окаже недостатъчно изгладена (недостатъчно загладен)с незапълнени интервали, неравномерно (виж Фиг. 1.17, дясна графика).

Ориз. 1.17.

Как да определите най-предпочитания брой интервали?

През 1926 г. Хърбърт Стърджис предложи формула за изчисляване на броя на интервалите, на които е необходимо да се раздели първоначалният набор от стойности на изследвания атрибут. Тази формула наистина стана супер популярна - повечето статистически учебници я предлагат и много статистически пакети я използват по подразбиране. Дали това е оправдано и във всички случаи е много сериозен въпрос.

И така, на какво се основава формулата на Sturges?

Обмисли биномно разпределение }

Споделете с приятели или запазете за себе си:

Зареждане...