Каква е медианата на разпределението. Структурни характеристики на вариационния ред на разпределение

Медиана (аз)е стойността на характеристиката, която попада в средата на класираната серия, т.е. разделяне на серията за разпределение на две равни части.

а) за поредица от единични стойности:

Ако странноброй опции, след това средната стойност в класираната серия

Ако дори, след това средно аритметично. от 2 съседни средни стойности в класациите. ред

б) В дискретна серия на разпределениесредното число се определя по формулата:

Медианното число показва стойността на индикатора, който е медианата.

в) В интервалния ред на разпределениемедианата се изчислява по следната формула:

x - долната граница на средния интервал;

i - стойността на интервала;

f е номерът на средния интервал;

S е сумата от натрупаните честоти на интервалите, предхождащи медианата.

31. Модата и нейното практическо значение

Мода (Mo)- стойността на атрибута, най-често срещаната в популацията, т.е. с най-голям брой в серията за разпространение.

а) В серия с дискретно разпределениемодата се определя визуално.

б) В интервалния ред на разпределениевизуално можете да определите само интервала, в който е затворен режимът, който се нарича модален интервал (този, който има най-висока честота).

Режимът ще бъде:

x е долната граница на модалния интервал;

i - стойността на интервала;

f - номер на модален интервал;

Ако всички стойности вариационна серияимат същата честота, тогава се казва, че тази вариационна серия няма мода. Ако два несъседни варианта имат една и съща доминираща честота, тогава такава вариационна серия се нарича бимодален; ако има повече от две такива опции, тогава серията полимодален.

32. Показатели на вариация и методи за тяхното изчисляване

Вариации- колебание, разнообразие, променливост на стойността на признака в единици от съвкупността.

Вариационните показатели се делят на абсолютни и относителни.

Да се абсолютни показателивключват диапазона на вариация, средно линейно отклонение, дисперсия, стандартно отклонение. Да се роднина– коефициенти на трептене, коефициенти на вариация и относително линейно отклонение.

Вариация на обхвата- най-простият индикатор, разликата между максималните и минималните стойности на атрибута.

Недостатъкът е, че той оценява само границите на вариацията на признака и не отразява нейното колебание в тези граници.

Средно линейно отклонениеотразява всички колебания на променливия признак и е средноаритметичната стойност на абсолютните стойности на отклоненията на варианта от средната стойност, т.к. сумата от отклоненията на стойностите на атрибута от средната стойност е 0, тогава всички отклонения се вземат модулно.

просто
претеглени

дисперсияе средният квадрат на отклоненията на стойностите на чертата от тяхната средна стойност.

просто:
Претеглено:

ОТ стандартно отклонение. Дефинира се като корен квадратен от дисперсията и има същото измерение като чертата, която се изследва.

просто:
Претеглено:
.

Относителни показатели

Медиана Азте наричат ​​такава стойност на признака, която попада в средата на класираната серия и я разделя на две части, равни по брой единици. По този начин, в серията с класирано разпределение, едната половина от серията има стойности на характеристиките, които надвишават медианата, докато другата половина има стойности, по-малки от медианата.

Медианата се използва вместо средноаритметично, когато крайните варианти на класираната серия (най-малката и най-голямата) в сравнение с останалите се оказват прекалено големи или прекалено малки.

AT отделенв вариационна серия, съдържаща нечетен брой единици, медианата е равна на варианта на характеристиката с числото:
,
където N е броят единици на съвкупността.
В дискретна серия, състояща се от четен брой единици от съвкупността, медианата се определя като средната стойност на опциите с числа и :
.
При разпределението на работниците по трудов стаж медианата е равна на средната стойност на вариантите, които имат номера 10: 2 = 5 и 10: 2 + 1 = 6 в класираната серия. Вариантите за пети и шести признак са Така 4 години
на годината
При изчисляване на медианата в интервалред първа находка среден интервал, (т.е. съдържаща медианата), за която се използват натрупаните честоти или честоти. Медианата е интервалът, чиято кумулативна честота е равна или по-голяма от половината от общата популация. След това средната стойност се изчислява по формулата:
,
където е долната граница на средния интервал;
е ширината на средния интервал;
е кумулативната честота на интервала, предхождащ медианата;
е честотата на средния интервал.
Нека изчислим медианата на серията разпределение на работниците по заплата (вижте лекцията "Обобщение и групиране на статистически данни").
Средният интервал на заплатите е 800-900 UAH, тъй като неговата кумулативна честота е 17, което е повече от половината от сумата на всички честоти (). Тогава
Аз=800+100 UAH.
Получената стойност показва, че половината от работниците имат заплатипод 875 UAH, но това е над средния му размер.
За да определите медианата, можете да използвате кумулативни честоти вместо кумулативни честоти.
Медианата, подобно на режима, не зависи от екстремните стойности на варианта, поради което се използва и за характеризиране на центъра в сериите на разпределение с неопределени граници.
медиен имот : сумата от абсолютните стойности на отклоненията на варианта от медианата е по-малка от всяка друга стойност (включително средната аритметична):

Това свойство на медианата се използва в транспорта при проектиране на разположението на трамвайни и тролейбусни спирки, бензиностанции, сборни пунктове и др.
Пример.На 100 км магистрала има 10 гаража. За проектиране на изграждането на бензиностанция бяха събрани данни за броя на очакваните пътувания на бензиностанция за всеки гараж.
Таблица 2 - Данни за броя пътувания до бензиностанции за всеки автосервиз.

Необходимо е да се постави бензиностанция, така че общият пробег на колите за зареждане да е най-малък.
Опция 1.Ако бензиностанцията е разположена в средата на магистралата, т.е. на 50-ия километър (центъра на обхвата на промяна на знака), тогава пистите, като се вземе предвид броят на ездачите, ще бъдат:
а) в една посока:
;
б) по обратния начин:
;
в) общ пробег в двете посоки: .

Вариант 2.Ако бензиностанцията е разположена на средния участък от магистралата, определена по средноаритметична формула, като се вземе предвид броят на ездачите:

Медианата може да се определи графично, чрез кумулация (виж лекцията "Обобщение и групиране на статистически данни"). За това, последната ордината, равно на суматавсички честоти или честоти са разделени наполовина. От получената точка се възстановява перпендикулярът до пресечната точка с кумулата. Абсцисата на пресечната точка дава стойността на медианата.

4. Мода. Медиана. Обща и извадкова средна стойност

Режимът е на екрана, медианата е в триъгълника, а средните са температурата в болницата и в отделението. Продължаваме нашия практически курс забавна статистика (Урок 1)изследване на централните характеристики статистическа съвкупност, чиито имена виждате в заглавката. И ще започнем от края му, т.к средни стойностиречта дойде почти от първите параграфи на темата. За напреднали читатели съдържание:

  • Обща и извадкова средна стойност– изчисление по първични данни и за генерираните дискретни вариационни редове;
  • Мода– определение и констатация за отделен случай;
  • Медианаобща дефинициякак да намерим медианата;
  • Средна стойност, режим и медиана на интервалната вариационна серия– изчисление от първични данни и от готова серия. Формули за режим и медиана,
  • Квартили, децили, процентили - накратко за основното.

Е, по-добре е „манекените“ да се запознаят с материала по ред:

Така че нека проучим някои населениеобем, а именно числена характеристика, без значение, отделенили непрекъснато (Уроци 2, 3).

Общо средно Наречен средно аритметичновсички стойности на този набор:

Ако числата са еднакви (което е характерно за дискретна серия) , тогава формулата може да бъде написана в по-компактна форма:
, където
опцияповтаря се веднъж;
опция - пъти;
опция - пъти;

опция - пъти.

Пример за изчисление на живо средно общообразователносрещнах в пример 2, но за да не съм скучен, дори няма да припомням съдържанието му.

По-нататък. Както си спомняме, обработката на всички населениечесто трудно или невъзможно и затова те организират Представителвземане на проби сила на звука, като въз основа на изследването на тази извадка се прави заключение за цялата популация.

Примерна средна стойност Наречен средно аритметичновсички примерни стойности:

и при наличието на същите опции, формулата ще бъде написана по-компактно:
- като сбор от произведенията на варианта върху съответния честоти .

Средната извадка ни позволява да оценим точно истинската стойност на , което е напълно достатъчно за много изследвания. Колкото по-голяма е извадката, толкова по-точна ще бъде тази оценка.

Нека започнем практиката или по-скоро да продължим с дискретни вариационни сериии познатото условие:

Пример 8

Въз основа на резултатите от селективно проучване на цеховите работници са установени техните квалификационни категории: 4, 5, 6, 4, 4, 2, 3, 5, 4, 4, 5, 2, 3, 3, 4, 5 , 5, 2, 3, 6, 5, 4, 6, 4, 3.

как решизадача? Ако ни се даде първични данни(първоначални необработени стойности), тогава те могат да бъдат глупаво сумирани и разделени на размера на извадката:
- средната квалификационна категория на работниците в цеха.

Но в много задачи се изисква съставянето на вариационна серия (см. Пример 4) :

- или тази серия е била първоначално предложена (което се случва по-често). И тогава, разбира се, използваме "цивилизованата" формула:

Мода . Режимът на дискретна вариационна серия е опцияс максимална честота. В такъв случай . Модата се намира лесно на масата и още по-лесно честотен диапазоне абсцисата на най-високата точка:


Понякога има няколко такива стойности (със същата максимална честота) и тогава всяка от тях се счита за мода.

Ако всички или почти всички настроикиразличен (което е характерно за интервални серии), тогава модалната стойност се определя по малко по-различен начин, който се обсъжда във 2-ра част на урока.

Медиана . Медиана на вариационната серия * - това е стойността, която го разделя на две равни части (според броя на опциите).

Но сега трябва да намерим средната стойност, модата и медианата.

Решение: да намеря средатаспоред първичните данни е най-добре да сумирате всички опции и да разделите резултата на обема на населението:
бърлога единици

Тези изчисления, между другото, няма да отнемат много време дори при използване на офлайн калкулатор. Но ако има Excel, тогава, разбира се, резултат във всяка свободна клетка =SUM(, изберете всички числа с мишката, затворете скобата ) , поставете знак за деление / , въведете числото 30 и натиснете Въведете. Готов.

Що се отнася до модата, нейната оценка въз основа на първоначални данни става неизползваема. Въпреки че виждаме едни и същи числа сред тях, но сред тях лесно може да има пет или шест или седем опции със същата максимална честота, например честота 2. Освен това цените могат да бъдат закръглени. Следователно модалната стойност се изчислява според генерираната интервална серия (повече за това по-късно).

Какво можете да кажете за медианата: включване в ексел =МЕДИАН(, изберете всички числа с мишката, затворете скобата ) и щракнете Въведете: . Освен това тук дори не е нужно да сортирате нищо.

Но в Пример 6сортирани във възходящ ред (запомнете и сортирайте - линк по-горе), и това е добра възможност да повторим формалния алгоритъм за намиране на медианата. Разделяме пробата наполовина:

И тъй като се състои от четен брой опции, медианата е равна на средноаритметичната стойност на 15-та и 16-та опция подреден(!) вариационна серия:

бърлога единици

Ситуация две. Когато е дадена готова интервална серия (типична учебна задача).

Продължаваме да анализираме същия пример с ботуши, където според първоначалните данни е съставен от IVR. Да изчисля средатанеобходими са средните точки на интервалите:

– да използвате познатата формула за дискретни случаи:

- отличен резултат! Несъответствието с по-точната стойност (), изчислена от първичните данни, е само 0,04.

Всъщност тук апроксимирахме интервалната серия с дискретна и тази апроксимация се оказа много ефективна. Тук обаче няма особена полза, т.к. с модерен софтуер не е трудно да се изчисли точна стойностдори за много голям масив от първични данни. Но това е при условие, че са ни известни :)

С други централни индикатори всичко е по-интересно.

За да намерите мода, трябва да намерите модално разстояние (с максимална честота)- в този проблем това е интервал с честота 11 и използвайте следната грозна формула:
, където:

е долната граница на модалния интервал;
е дължината на модалния интервал;
е честотата на модалния интервал;
– честота на предходния интервал;
– честота на следващия интервал.

По този начин:
бърлога единици - както можете да видите, "модерната" цена за обувки е забележимо различна от средната аритметична.

Без да навлизам в геометрията на формулата, просто ще дам хистограма на относителните честотии забележка:


откъдето ясно се вижда, че модата е изместена спрямо центъра на модалния интервал към левия интервал с по-висока честота. Логично.

За справка ще анализирам редки случаи:

– ако модалният интервал е екстремен, тогава или ;

- ако се открият 2 модални интервала, които са наблизо, например и , тогава разглеждаме модалния интервал , докато близките интервали (ляв и десен), ако е възможно, също се увеличават 2 пъти.

- ако има разстояние между модалните интервали, тогава прилагаме формулата към всеки интервал, като по този начин получаваме 2 или голямо количествоМод.

Ето такъв мод за изпращане :)

И медианата. Ако е дадена готова интервална серия, тогава медианата се изчислява с помощта на малко по-малко ужасна формула, но в началото е досадно (фройдистка печатна грешка :)) да се намери среден интервал - това е интервал, съдържащ вариант (или 2 варианта), който разделя вариационната серия на две равни части.

По-горе описах как да определя медианата, като се съсредоточавам върху относителни кумулативни честоти, тук е по-удобно да се изчислят "обикновените" натрупани честоти. Изчислителният алгоритъм е абсолютно същият - първата стойност се премахва отляво (червена стрелка), а всеки следващ се получава като сбор от предходния с текущата честота от лявата колона (зелени маркировки като пример):

Всички ли разбират значението на числата в дясната колона? - това е броят на опциите, които са успели да се "натрупат" на всички "преминали" интервали, включително текущия.

Защото имаме четен бройопция (30 броя), тогава медианата ще бъде интервалът, който съдържа 30/2 = 15-та и 16-та опция. И фокусирайки се върху натрупаните честоти, е лесно да се стигне до извода, че тези опции се съдържат в интервала.

Формула на медианата:
, където:
- обемът на статистическата съвкупност;
е долната граница на средния интервал;
е дължината на средния интервал;
честотасреден интервал;
кумулативна честота предишенинтервал.

По този начин:
бърлога единици – имайте предвид, че средната стойност, напротив, се оказа изместена надясно, т.к от дясната страна има значителен брой опции:


И за справка специални случаи.

Заплати в различни сектори на икономиката, температура и валежи в една и съща област за съпоставими периоди от време, добиви в различни географски региони и т.н. Средната стойност обаче съвсем не е единственият обобщаващ показател – в някои случаи за по-точна оценка стойност като медианата е подходяща. В статистиката се използва широко като спомагателна описателна характеристика на разпределението на признак в отделна популация. Нека да видим как се различава от средното, както и какво е причинило необходимостта от използването му.

Медиана в статистиката: определение и свойства

Представете си следната ситуация: 10 души работят заедно с директора в една фирма. Обикновените служители получават по 1000 гривни, а техният мениджър, който освен това е собственик, получава 10 000 гривни. Ако изчислим средноаритметичната стойност, се оказва, че средната заплата в това предприятие е 1900 UAH. Ще бъде ли вярно това твърдение? Или да вземем този пример, в една и съща болнична стая има девет души с температура 36,6°C и един човек с температура 41°C. Средната аритметична стойност в този случай е: (36,6 * 9 + 41) / 10 \u003d 37,04 ° C. Но това не означава, че всички присъстващи са болни. Всичко това подсказва, че самата средна стойност често не е достатъчна и затова се използва медиана като допълнение към нея. В статистиката този индикатор се нарича вариант, който се намира точно в средата на подредена вариационна серия. Ако го изчислите за нашите примери, получавате съответно 1000 UAH. и 36,6 °С. С други думи, медианата в статистиката е стойността, която разделя серията наполовина по такъв начин, че от двете й страни (нагоре или надолу) да се намират еднакъв брой единици от дадената съвкупност. Поради това свойство този показател има няколко други имена: 50-ти персентил или 0,5 квантил.

Как да намерите медианата в статистиката

Методът за изчисляване на тази стойност до голяма степен зависи от това какъв тип вариационна серия имаме: дискретна или интервална. В първия случай медианата в статистиката е доста проста. Всичко, което трябва да направите, е да намерите сумата от честотите, да разделите на 2 и след това да добавите ½ към резултата. Най-добре би било да обясните принципа на изчисление със следния пример. Да предположим, че сме групирали данни за раждаемостта и искаме да разберем каква е медианата.

Номер на семейната група по брой деца

Брой семейства

След като извършихме някои прости изчисления, получаваме, че желаният индикатор е равен на: 195/2 + ½ = опция. За да разберете какво означава това, трябва последователно да натрупате честоти, като започнете от най-малко опции. И така, сумата от първите два реда ни дава 30. Ясно е, че тук няма 98 опции. Но ако добавим честотата на третата опция (70) към резултата, получаваме сума, равна на 100. Тя съдържа само 98-та опция, което означава, че медианата ще бъде семейство, което има две деца.

Що се отнася до интервални серии, тогава обикновено се използва следната формула:

M e \u003d X Me + i Me * (∑f / 2 - S Me-1) / f Me, в което:

  • X Me - първата стойност на медианния интервал;
  • ∑f е номерът на серията (сумата от нейните честоти);
  • i Me - стойността на медианния диапазон;
  • f Me - честота на медианния диапазон;
  • S Me-1 - сумата от кумулативните честоти в диапазоните, предхождащи медианата.

Отново е трудно да се разбере това без пример. Да предположим, че има данни за стойността

Заплата, хиляди рубли

Натрупани честоти

За да използваме горната формула, първо трябва да определим средния интервал. Като такъв диапазон се избира такъв, чиято натрупана честота надвишава или е равна на половината от общата сума на честотите. Така че, разделяйки 510 на 2, получаваме, че този критерий съответства на интервал със стойност на заплатата от 250 000 рубли. до 300 000 рубли Сега можете да замените всички данни във формулата:

M e \u003d X Me + i Me * (∑f / 2 - S Me-1) / f Me \u003d 250 + 50 * (510/2 - 170) / 115 \u003d 286,96 хиляди рубли.

Надяваме се, че нашата статия е била полезна и сега имате ясна представа какво е медианата в статистиката и как трябва да се изчислява.

Медиана- това е стойност на характеристика, която разделя класираната серия на разпределение на две равни части - със стойности на характеристики по-малки от медианата и със стойности на характеристики по-големи от медианата. За да намерите медианата, трябва да намерите стойността на характеристиката, която е в средата на подредената серия.

Вижте решението на задачата за намиране на модата и медианатаМожеш

В класирани серии, негрупирани данни за намиране на медианатасе свеждат до намиране на поредния номер на медианата. Медианата може да се изчисли по следната формула:

където Xm е долната граница на средния интервал;
im - среден интервал;
Sme е сборът от наблюдения, натрупан преди началото на средния интервал;
fme е броят на наблюденията в средния интервал.

медианни свойства

  1. Медианата не зависи от онези стойности на атрибута, които са разположени от двете му страни.
  2. Аналитичните операции с медианата са много ограничени, така че при комбиниране на две разпределения с известни медиани е невъзможно да се предвиди предварително стойността на медианата на новото разпределение.
  3. Медианата имаминималната собственост. Същността му е, че сумата абсолютни отклонения x стойности от медианата е минималната стойност в сравнение с отклонението на x от всяка друга стойност

Графично определение на медианата

За определяне медиани графичен метод използват натрупаните честоти, върху които се изгражда кумулативната крива. Върховете на ординатите, съответстващи на натрупаните честоти, са свързани с прави сегменти. Разделяне на pop olam на последната ордината, която съвпада обща сумачестоти и начертавайки към него перпендикуляра на пресечната точка с кумулативната крива, намерете ординатата на желаната стойност на медианата.

Определение за мода в статистиката

Мода - характеристика стойност, който има най-висока честота в статистически серииразпространение.

Определение за модапроизведени различни начинии зависи от това дали променливата е представена като дискретна или интервална серия.

Намиране на модаи медианата се прави чрез просто разглеждане на колоната за честота. В тази колона намерете най-голям бройхарактеризиращи най-високата честота. Съответства на определена стойност на атрибута, който е режимът. В серията от интервални вариации централният вариант на интервала с най-висока честота се счита приблизително за режим. В тази серия за разпространение режим се изчислява по формулата:

където XMo е долната граница на модалния интервал;
imo - модално разстояние;
fm0, fm0-1, fm0+1 са честотите в модалните, предишните и следващите модални интервали.

Модалният интервал се определя от най-високата честота.

Модата се използва широко в статистическата практика при анализа на потребителското търсене, регистриране на цените и др.

Връзки между средно аритметично, медиана и мода

За унимодална серия със симетрично разпределение медианата и модата са еднакви. За асиметричните разпределения те не съвпадат.

К. Пиърсън, въз основа на подравняването на различни видове криви, установи, че за умерено асиметрични разпределения са валидни следните приблизителни връзки между средноаритметичната стойност, медианата и модата:

Споделете с приятели или запазете за себе си:

Зареждане...