Определение на вариационна серия. Вариация и вариационна серия, диапазон на вариация

Наборът от стойности, изучавани в този експериментили наблюдение на параметър, класиран по величина (увеличаване или намаляване), се нарича вариационна серия.

Да приемем, че сме измерили кръвното налягане на десет пациенти, за да получим горен праг на BP: систолично налягане, т.е. само едно число.

Представете си, че поредица от наблюдения (статистическа съвкупност) на артериалното систолно налягане в 10 наблюдения има следната форма (Таблица 1):

маса 1

Компоненти вариационна сериясе наричат ​​опции. Вариантите представляват числената стойност на изследваната черта.

Изграждането на вариационна серия от статистически набор от наблюдения е само първата стъпка към разбиране на характеристиките на целия набор. След това е необходимо да се определи средното ниво на изследваната количествена характеристика (средното ниво на кръвния протеин, средното тегло на пациентите, средното време на начало на анестезията и др.)

Средното ниво се измерва с помощта на критерии, които се наричат ​​средни стойности. Средна стойност – обобщаваща числена характеристикакачествено еднородни величини, характеризиращи с едно число цялата статистическа съвкупност по един признак. Средната стойност изразява общото, което е характерно за черта в даден набор от наблюдения.

Има три типа средни стойности, които се използват често: режим (), медиана () и средно аритметично ().

За да определите всяка среден размере необходимо да се използват резултатите от индивидуалните наблюдения, като се записват под формата на вариационна серия (Таблица 2).

Мода- стойността, която се среща най-често в серия от наблюдения. В нашия пример режим = 120. Ако няма повтарящи се стойности в серията вариации, тогава те казват, че няма режим. Ако няколко стойности се повтарят еднакъв брой пъти, тогава най-малката от тях се приема като режим.

Медиана- стойността, разделяща разпределението на две равни части, централната или средната стойност на поредица от наблюдения, подредени във възходящ или низходящ ред. Така че, ако има 5 стойности във вариационната серия, тогава нейната медиана е равна на третия член на вариационната серия, ако в серията четен бройчленове, тогава медианата е средноаритметичното на двете му централни наблюдения, т.е. ако има 10 наблюдения в серията, тогава медианата е равна на средната аритметична от 5 и 6 наблюдения. В нашия пример.

Обърнете внимание на важна характеристика на режима и медианата: техните стойности не се влияят от числените стойности на екстремните варианти.

Средноаритметичноизчислено по формулата:

където е наблюдаваната стойност в -тото наблюдение и е броят на наблюденията. За нашия случай.

Средната аритметична има три свойства:

Средният заема средна позиция във вариационната серия. В строго симетричен ред.

Средната стойност е обобщаваща стойност и случайни колебания, разликите в отделните данни не се виждат зад средната стойност. Той отразява типичното, което е характерно за цялото население.

Сумата от отклоненията на всички варианти от средната е равна на нула: . Посочено е отклонението на варианта от средната стойност.

Серията вариации се състои от варианти и съответните им честоти. От десетте получени стойности числото 120 се среща 6 пъти, 115 - 3 пъти, 125 - 1 път. Честота () - абсолютният брой на отделните опции в популацията, показващ колко пъти се среща тази опциявъв вариационната серия.

Вариационните серии могат да бъдат прости (честоти = 1) или групирани съкратени, по 3-5 варианта всяка. Използва се проста серия с малък брой наблюдения (), групирани - с голям брой наблюдения ().

Специално място в статистическия анализ заема определянето на средното ниво на изучавания признак или явление. Средното ниво на характеристика се измерва чрез средни стойности.

Средната стойност характеризира общото количествено ниво на изследвания признак и е групово свойство на статистическата съвкупност. Тя се изравнява, отслабва случайни отклоненияиндивидуални наблюдения в една или друга посока и откроява основното, типично свойство на изследвания признак.

Средните стойности са широко използвани:

1. Да се ​​оцени здравното състояние на населението: характеристики физическо развитие(ръст, тегло, гръдна обиколка и др.), идентифициране на разпространението и продължителността на различни заболявания, анализ на демографски показатели (естествено движение на населението, средна продължителност на живота, възпроизводство на населението, средно население и др.).

2. Проучване на дейността на лечебните заведения, медицинския персонал и оценка на качеството на тяхната работа, планиране и определяне потребностите на населението в различни видовемедицинско обслужване (среден брой молби или посещения на жител на година, средна продължителност на престоя на пациента в болница, средна продължителност на прегледа на пациента, средна осигуреност с лекари, легла и др.).

3. Да характеризира санитарно-епидемиологичното състояние (средна запрашеност на въздуха в цеха, средна площ на човек, средна консумация на протеини, мазнини и въглехидрати и др.).

4. Да се ​​определят медицинските и физиологичните параметри в нормата и патологията, при обработката на лабораторни данни, да се установи надеждността на резултатите от селективно изследване в социално-хигиенни, клинични, експериментални изследвания.

Изчисляването на средните стойности се извършва въз основа на вариационни серии. Вариационни серии- това е качествено хомогенна статистическа съвкупност, чиито отделни единици характеризират количествените различия на изучавания признак или явление.

Количествената вариация може да бъде два вида: прекъсната (дискретна) и непрекъсната.

Прекъснат (дискретен) знак се изразява само като цяло число и не може да има такъв междинни стойности(например брой посещения, население на обекта, брой деца в семейството, тежест на заболяването в точки и др.).

Непрекъснатият знак може да приема всякакви стойности в определени граници, включително дробни, и се изразява само приблизително (например тегло - за възрастни можете да се ограничите до килограми, а за новородени - грамове; височина, кръвно налягане, време изразходвани за преглед на пациент и др.).



Цифровата стойност на всяка отделна характеристика или явление, включено в серията вариации, се нарича вариант и се обозначава с буквата V . В математическата литература има и други означения, например х или г.

Вариационна серия, при която всяка опция е посочена веднъж, се нарича проста.Тези линии се използват в повечето статистически задачив случай на компютърна обработка на данни.

С увеличаване на броя на наблюденията, като правило, има повтарящи се стойности на варианта. В този случай създава групирани вариационни серии, където е посочен броят на повторенията (честота, означена с буквата " Р »).

Класирани вариационни сериисе състои от опции, подредени във възходящ или низходящ ред. И простите, и групираните серии могат да бъдат съставени с класиране.

Интервални вариационни серииса направени с цел опростяване на последващи изчисления, извършвани без използване на компютър, с много голям брой единици за наблюдение (повече от 1000).

Непрекъснати вариационни сериивключва вариантни стойности, които могат да бъдат всякакви стойности.

Ако във вариационната серия стойностите на атрибута (опциите) са дадени под формата на отделни специфични числа, тогава такава серия се нарича отделен.

Основни характеристикистойностите на признака, отразени в серията вариации, са средни стойности. Сред тях най-използвани са: средно аритметично М,мода мои медиана азВсяка от тези характеристики е уникална. Те не могат да се заменят един друг и само в съвкупност, доста пълно и в сбита форма, са признаците на вариационния ред.

Мода (Мо) назовете стойността на най-често срещаните опции.

Медиана (аз) е стойността на варианта, разделяща диапазонираната вариационна серия наполовина (от всяка страна на медианата има половината от варианта). В редки случаи, когато има симетрична вариационна серия, модата и медианата са равни една на друга и съвпадат със стойността на средната аритметична.

Най-типичната характеристика на вариантните стойности е средноаритметичностойност ( М ). В математическата литература се обозначава .

Средноаритметично (М, ) е обща количествена характеристика на определен признак на изследваните явления, които съставляват качествено хомогенна статистическа съвкупност. Правете разлика между проста средна аритметична и среднопретеглена стойност. Простата средна аритметична стойност се изчислява за проста вариационна серия, като се сумират всички опции и тази сума се раздели на общия брой опции, включени в тази вариационна серия. Изчисленията се извършват по формулата:

,

където: М - средно аритметично;

Σ V - опция за сума;

н- брой наблюдения.

В групираните вариационни серии се определя среднопретеглена аритметична стойност. Формулата за неговото изчисляване:

,

където: М - средноаритметично претеглено;

Σ vp - сумата от произведенията на вариант върху техните честоти;

н- брой наблюдения.

При голям брой наблюдения в случай на ръчни изчисления може да се използва методът на моментите.

Средната аритметична има следните свойства:

сумата от отклоненията на варианта от средната ( Σ д ) е равно на нула (виж таблица 15);

При умножаване (деление) на всички опции с един и същи коефициент (делител), средноаритметичното се умножава (дели) на един и същ коефициент (делител);

Ако добавите (извадите) едно и също число към всички опции, средната аритметична стойност се увеличава (намалява) със същото число.

Средните аритметични стойности, взети сами по себе си, без да се вземе предвид променливостта на серията, от която са изчислени, може да не отразяват напълно свойствата на вариационната серия, особено когато е необходимо сравнение с други средни стойности. Средства, близки по стойност, могат да бъдат получени от серии с различни степениразсейване. Колкото отделните варианти са по-близки един до друг по своите количествени характеристики, толкова по-малко разсейване (флуктуация, променливост)серия, толкова по-типична е нейната средна стойност.

Основните параметри, които позволяват да се оцени променливостта на даден признак, са:

· обхват;

Амплитуда;

· Стандартно отклонение;

· Коефициентът на вариация.

Приблизително флуктуацията на даден признак може да се прецени по обхвата и амплитудата на вариационните серии. Диапазонът показва максималните (V max) и минималните (V min) опции в серията. Амплитудата (A m) е разликата между тези опции: A m = V max - V min .

Основната, общоприета мярка за флуктуацията на вариационните редове са дисперсия (д ). Но най-често се използва по-удобният параметър, изчислен на базата на дисперсията - стандартното отклонение ( σ ). Той взема предвид стойността на отклонението ( д ) на всеки вариант на вариационната серия от неговата средна аритметична ( d=V - М ).

Тъй като отклоненията на варианта от средната стойност могат да бъдат положителни и отрицателни, когато се сумират, те дават стойност "0" (S d=0). За да избегнете това, стойностите на отклонението ( д) се повдигат на втора степен и се осредняват. По този начин дисперсията на вариационната серия е средният квадрат на отклоненията на варианта от средноаритметичната стойност и се изчислява по формулата:

.

Това е най-важната характеристика на променливостта и се използва за изчисляване на много статистически тестове.

Тъй като дисперсията се изразява като квадрат на отклоненията, нейната стойност не може да се използва в сравнение със средната аритметична стойност. За тези цели се използва стандартно отклонение, което се обозначава със знака "Сигма" ( σ ). Той характеризира средното отклонение на всички варианти на вариационната серия от средната аритметична стойност в същите единици като самата средна стойност, така че те могат да се използват заедно.

Стандартното отклонение се определя по формулата:

Тази формула се прилага за броя на наблюденията ( н ) е по-голямо от 30. С по-малко число н стойността на стандартното отклонение ще има грешка, свързана с математическото отклонение ( н - един). В тази връзка може да се получи по-точен резултат, като се вземе предвид такова отклонение във формулата за изчисляване на стандартното отклонение:

стандартно отклонение (с ) е оценка на стандартното отклонение на случайната променлива хпо отношение на нея математическо очакваневъз основа на безпристрастна оценка на неговата дисперсия.

За ценности н > 30 стандартно отклонение ( σ ) и стандартно отклонение ( с ) ще бъде същото ( σ=s ). Следователно в повечето практически ръководства тези критерии се третират като имащи различни значения.В програма Ексел изчислениестандартното отклонение може да се направи с =STDEV(диапазон). И за да изчислите стандартното отклонение, трябва да създадете подходяща формула.

Средно квадратното или стандартното отклонение ви позволява да определите колко стойностите на дадена характеристика могат да се различават от средната стойност. Да предположим, че има два града с еднаква средна дневна температура летен период. Единият от тези градове е разположен на брега, а другият на континента. Известно е, че в градовете, разположени на брега, разликите в дневните температури са по-малки, отколкото в градовете, разположени във вътрешността. Следователно стандартното отклонение на дневните температури в близост до крайбрежния град ще бъде по-малко от това на втория град. На практика това означава, че средната температура на въздуха за всеки отделен ден в град, разположен на континента, ще се различава повече от средната, отколкото в град на брега. В допълнение, стандартното отклонение дава възможност да се оценят възможните температурни отклонения от средната стойност с необходимото ниво на вероятност.

Според теорията на вероятностите, при явления, които се подчиняват на нормалния закон за разпределение, има строга връзка между стойностите на средната аритметична стойност, стандартното отклонение и опциите ( правило три сигма). Например, 68,3% от стойностите на променлив атрибут са в рамките на M ± 1 σ , 95,5% - в рамките на M ± 2 σ и 99,7% - в рамките на М ± 3 σ .

Стойността на стандартното отклонение позволява да се прецени естеството на хомогенността на вариационните серии и изследваната група. Ако стойността на стандартното отклонение е малка, това показва достатъчно висока хомогенност на изследваното явление. Средната аритметична стойност в този случай трябва да се признае за доста характерна за тази вариационна серия. Въпреки това, твърде малка сигма кара човек да мисли за изкуствен подбор на наблюдения. При много голяма сигма средноаритметичната стойност характеризира вариационните серии в по-малка степен, което показва значителна променливост на изследваната черта или явление или хетерогенността на изследваната група. Сравняването на стойността на стандартното отклонение обаче е възможно само за знаци с една и съща размерност. Наистина, ако сравним тегловното разнообразие на новородените и възрастните, винаги ще получаваме по-високи сигма стойности при възрастни.

Сравнението на променливостта на характеристики с различни измерения може да се извърши с помощта на коефициент на вариация. Той изразява разнообразието като процент от средната стойност, което позволява сравнение на различни черти. Коефициент на вариация в медицинска литератураотбелязано с " ОТ ", и в математическия " v» и се изчислява по формулата:

.

Стойностите на коефициента на вариация под 10% показват малко разсейване, от 10 до 20% - около средното, повече от 20% - за силно разсейване около средноаритметичната стойност.

Средната аритметична стойност обикновено се изчислява от данните рамка за вземане на проби. При многократни изследвания под въздействието на случайни явления средната аритметична стойност може да се промени. Това се дължи на факта, че по правило се изследва само част от възможните единици за наблюдение, тоест извадкова съвкупност. Информация за всички възможни единици, представящи изследваното явление, може да бъде получена чрез изучаване на цялото население, което не винаги е възможно. В същото време, за да се обобщят експерименталните данни, представлява интерес стойността на средната в генералната съвкупност. Следователно, за да се формулира общо заключение за изследваното явление, резултатите, получени на базата на извадковата съвкупност, трябва да се пренесат в генералната съвкупност чрез статистически методи.

За да се определи степента на съгласие между изследването на извадката и общата съвкупност, е необходимо да се оцени количеството грешка, която неизбежно възниква, когато селективно наблюдение. Такава грешка се нарича грешка в представителността” или „Средна грешка на средноаритметичната стойност”. Всъщност това е разликата между средните стойности, получени от извадката статистическо наблюдение, и подобни стойности, които биха се получили при непрекъснато изследване на един и същ обект, т.е. при изучаване на генералната популация. Тъй като средната стойност на извадката е случайна променлива, такава прогноза се прави с приемливо ниво на вероятност за изследователя. В медицинските изследвания е най-малко 95%.

Грешката в представителността не трябва да се бърка с грешки при регистрация или грешки на вниманието (печатни грешки, грешни изчисления, печатни грешки и т.н.), които трябва да бъдат сведени до минимум чрез адекватна методология и инструменти, използвани в експеримента.

Големината на грешката на представителност зависи както от размера на извадката, така и от променливостта на признака. как повече бройнаблюдения, колкото по-близо е извадката до генералната съвкупност и толкова по-малка е грешката. Колкото по-променлива е функцията, толкова по-голяма е статистическата грешка.

На практика за определяне на грешката на представителност във вариационни серии се използва следната формула:

,

където: м – грешка в представителността;

σ - стандартно отклонение;

не броят на наблюденията в извадката.

От формулата се вижда, че размерът средна грешкае право пропорционална на стандартното отклонение, т.е. променливостта на изследваната характеристика, и обратно пропорционална на квадратния корен от броя на наблюденията.

При извършване на статистически анализ въз основа на изчисляване на относителни стойности, изграждането на вариационна серия не е задължително. В този случай определянето на средната грешка за относителните показатели може да се извърши по опростена формула:

,

където: Р- стойност относителен показател, изразено като процент, ppm и т.н.;

р- реципрочната стойност на P и изразена като (1-P), (100-P), (1000-P) и т.н., в зависимост от базата, за която се изчислява показателят;

не броят на наблюденията в извадката.

Въпреки това, посочената формула за изчисляване на грешката на представителност за относителни стойности може да се приложи само когато стойността на индикатора е по-малка от неговата база. В редица случаи на изчисляване на интензивни показатели това условие не е изпълнено и показателят може да бъде изразен като число над 100% или 1000%o. В такава ситуация се изгражда вариационна серия и грешката на представителност се изчислява с помощта на формулата за средни стойности, базирани на стандартното отклонение.

Прогнозирането на стойността на средната аритметична стойност в генералната съвкупност се извършва с посочване на две стойности - минималната и максималната. Тези екстремни стойности на възможните отклонения, в рамките на които желаната средна стойност на общата съвкупност може да варира, се наричат ​​" Граници на доверието».

Постулатите на теорията на вероятностите доказват, че при нормално разпределение на характеристика с вероятност от 99,7%, екстремните стойности на отклоненията на средната стойност няма да бъдат повече стойностутроява грешката на представителност ( М ± 3 м ); в 95,5% - не повече от стойността на удвоената средна грешка на средната стойност ( М ±2 м ); в 68,3% - не повече от стойността на една средна грешка ( М ± 1 м ) (фиг. 9).

P%

Ориз. 9. Плътност на вероятността нормална дистрибуция.

Имайте предвид, че горното твърдение е вярно само за характеристика, която се подчинява на нормалния закон за разпределение на Гаус.

Повечето експериментални изследвания, включително тези в областта на медицината, са свързани с измервания, чиито резултати могат да приемат почти всякакви стойности в даден интервал, следователно, като правило, те се описват чрез модел на непрекъснати случайни променливи. В това отношение повечето статистически методи разглеждат непрекъснати разпределения. Едно от тези разпределения, което има фундаментална роля в математическа статистика, е нормално или гаусово разпределение.

Това се дължи на редица причини.

1. Първо, много експериментални наблюдения могат да бъдат успешно описани с помощта на нормално разпределение. Веднага трябва да се отбележи, че няма разпределения на емпирични данни, които да са точно нормални, тъй като нормално разпределена случайна променлива е в диапазона от до , което никога не се среща на практика. Нормалното разпределение обаче много често е добро приближение.

Независимо дали се извършват измервания на тегло, височина и други физиологични параметри на човешкото тяло - навсякъде резултатите се влияят от много голямо числослучайни фактори (естествени причини и грешки при измерване). И като правило ефектът от всеки от тези фактори е незначителен. Опитът показва, че резултатите в такива случаи ще се разпределят приблизително нормално.

2. Много разпределения, свързани с произволна извадка, с увеличаване на обема на последната, стават нормални.

3. Нормалното разпределение е много подходящо като приблизително описание на други непрекъснати разпределения(например асиметрични).

4. Нормалното разпределение има редица благоприятни математически свойства, които до голяма степен осигуряват широкото му използване в статистиката.

В същото време трябва да се отбележи, че в медицинските данни има много експериментални разпределения, които не могат да бъдат описани с модела на нормалното разпределение. За да направи това, статистиката е разработила методи, които обикновено се наричат ​​„непараметрични“.

Избор статистически метод, който е подходящ за обработка на данните от конкретен експеримент, трябва да се направи в зависимост от това дали получените данни принадлежат на нормалния закон на разпределение. Проверката на хипотезата за подчинението на знака на нормалния закон на разпределение се извършва с помощта на хистограма на честотното разпределение (графика), както и редица статистически критерии. Между тях:

Критерий за асиметрия ( b );

Критерии за проверка за ексцес ( ж );

Критерий на Шапиро-Уилкс ( У ) .

За всеки параметър се извършва анализ на характера на разпределението на данните (нарича се още тест за нормалност на разпределението). За да се прецени уверено съответствието на разпределението на параметрите с нормалния закон, е необходим достатъчно голям брой единици за наблюдение (поне 30 стойности).

За нормално разпределение критериите за изкривяване и ексцес приемат стойност 0. Ако разпределението е изместено надясно b > 0 (положителна асиметрия), с b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормален закон ж =0. При ж > 0 кривата на разпределение е по-остра, ако ж < 0 пик более сглаженный, чем функция нормального распределения.

За да се тества за нормалност с помощта на теста на Shapiro-Wilks, се изисква да се намери стойността на този критерий с помощта на статистически таблици при необходимото ниво на значимост и в зависимост от броя на единиците за наблюдение (степени на свобода). Приложение 1. Хипотезата за нормалност се отхвърля за малки стойности на този критерий, като правило, за w <0,8.

Нека извикаме различни примерни стойности настроикипоредица от стойности и обозначават: х 1 , х 2, …. Първо, нека направим вариращиопции, т.е. подредете ги във възходящ или низходящ ред. За всяка опция е посочено собственото й тегло, т.е. число, което характеризира приноса на тази опция към общото население. Честотите или честотите действат като тежести.

Честота n i опция x iнаречено число, показващо колко пъти се среща тази опция в разглежданата извадкова популация.

Честота или относителна честота w i опция x iсе нарича число, равно на съотношението на честотата на даден вариант към сумата от честотите на всички варианти. Честотата показва каква част от единиците на извадката има даден вариант.

Поредицата от опции със съответните им тегла (честоти или честоти), записани във възходящ (или низходящ) ред, се нарича вариационни серии.

Вариационните редове са дискретни и интервални.

За дискретна вариационна серия са посочени точковите стойности на атрибута, за интервалната серия стойностите на атрибута са посочени под формата на интервали. Вариационните серии могат да показват разпределението на честотите или относителните честоти (честоти), в зависимост от това каква стойност е посочена за всяка опция - честота или честота.

Дискретни вариационни серии на честотното разпределениеизглежда като:

Честотите се намират по формулата , i = 1, 2, …, м.

w 1 +w 2 + … + w m = 1.

Пример 4.1. За даден набор от числа

4, 6, 6, 3, 4, 9, 6, 4, 6, 6

изграждане на дискретни вариационни серии от честота и честотни разпределения.

Решение . Обемът на населението е н= 10. Серията с дискретно разпределение на честотата има формата

Интервалните серии имат подобна форма на запис.

Интервални вариационни серии на честотното разпределениесе записва като:

Сумата от всички честоти е равна на общия брой наблюдения, т.е. общ обем: н = н 1 +н 2 + … + нм .

Интервални вариационни серии на разпределението на относителните честоти (честоти)изглежда като:

Честотата се намира по формулата , i = 1, 2, …, м.

Сумата от всички честоти е равна на единица: w 1 +w 2 + … + w m = 1.

Най-често в практиката се използват интервални серии. Ако има много статистически извадкови данни и техните стойности се различават една от друга с произволно малка сума, тогава дискретната серия за тези данни ще бъде доста тромава и неудобна за по-нататъшно изследване. В този случай се използва групиране на данни, т.е. интервалът, съдържащ всички стойности на атрибута, се разделя на няколко частични интервала и след изчисляване на честотата за всеки интервал се получава интервална серия. Нека запишем по-подробно схемата за изграждане на интервална серия, като приемем, че дължините на частичните интервали ще бъдат еднакви.

2.2 Изграждане на интервална серия

За да изградите интервална серия, трябва:

Определете броя на интервалите;

Определете дължината на интервалите;

Определете местоположението на интервалите върху оста.

За определяне брой интервали к Съществува формула на Стърджис, според която

,

където н- обемът на съвкупността.

Например, ако има 100 характерни стойности (вариант), тогава се препоръчва да се вземе броят на интервалите, равен на интервалите, за да се изгради интервална серия.

Въпреки това много често на практика броят на интервалите се избира от самия изследовател, като се има предвид, че този брой не трябва да бъде много голям, така че серията да не е тромава, но и не много малка, за да не се загубят някои свойства на разпространение.

Дължина на интервала ч се определя по следната формула:

,

където хмакс и х min е най-голямата и най-малката стойност на опциите, съответно.

стойността Наречен в голям мащабред.

За да се конструират самите интервали, те действат по различни начини. Един от най-лесните начини е следният. Стойността се приема като начало на първия интервал
. Тогава останалите граници на интервалите се намират по формулата . Очевидно краят на последния интервал а m+1 трябва да отговаря на условието

След като бъдат намерени всички граници на интервалите, се определят честотите (или честотите) на тези интервали. За да решат този проблем, те разглеждат всички опции и определят броя на опциите, които попадат в определен интервал. Ще разгледаме пълното изграждане на интервална серия, използвайки пример.

Пример 4.2. За следните статистики, записани във възходящ ред, изградете интервална серия с брой интервали, равен на 5:

11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

Решение. Обща сума н=50 вариантни стойности.

Броят на интервалите е посочен в условието на проблема, т.е. к=5.

Дължината на интервалите е
.

Нека да определим границите на интервалите:

а 1 = 11 − 8,5 = 2,5; а 2 = 2,5 + 17 = 19,5; а 3 = 19,5 + 17 = 36,5;

а 4 = 36,5 + 17 = 53,5; а 5 = 53,5 + 17 = 70,5; а 6 = 70,5 + 17 = 87,5;

а 7 = 87,5 +17 = 104,5.

За да определим честотата на интервалите, ние преброяваме броя на опциите, които попадат в този интервал. Например в първия интервал от 2,5 до 19,5 попадат опциите 11, 12, 12, 14, 14, 15. Техният брой е 6, следователно честотата на първия интервал е н 1=6. Честотата на първия интервал е . Във втория интервал от 19.5 до 36.5 попадат варианти 21, 21, 22, 23, 25, чийто брой е 5. Следователно честотата на втория интервал е н 2 =5 и честотата . След като намерихме по подобен начин честотите и честотите за всички интервали, получаваме следната интервална серия.

Интервалният ред на честотното разпределение има формата:

Сумата от честотите е 6+5+9+11+8+11=50.

Интервалният ред на честотното разпределение има формата:

Сумата от честотите е 0,12+0,1+0,18+0,22+0,16+0,22=1. ■

При построяването на интервални редове в зависимост от конкретните условия на разглежданата задача могат да се прилагат и други правила, а именно

1. Интервалните вариационни серии могат да се състоят от частични интервали с различна дължина. Неравномерните дължини на интервалите позволяват да се отделят свойствата на статистическа съвкупност с неравномерно разпределение на признак. Например, ако границите на интервалите определят броя на жителите в градовете, тогава е препоръчително в този проблем да се използват интервали, които са различни по дължина. Очевидно за малките градове е важна и малката разлика в броя на жителите, а за големите градове разлика от десетки и стотици жители не е съществена. Интервални серии с различни дължини на частични интервали се изучават главно в общата теория на статистиката и тяхното разглеждане е извън обхвата на това ръководство.

2. В математическата статистика понякога се разглеждат интервални серии, за които лявата граница на първия интервал се приема за –∞, а дясната граница на последния интервал е +∞. Това се прави с цел да се доближи статистическото разпределение до теоретичното.

3. При конструиране на интервални серии може да се окаже, че стойността на някой вариант съвпада точно с границата на интервала. Най-доброто нещо, което можете да направите в този случай е следното. Ако има само едно такова съвпадение, считайте, че разглежданият вариант с неговата честота е попаднал в интервала, разположен по-близо до средата на интервалната поредица, ако има няколко такива варианта, тогава или всички те са приписани на интервалите към отдясно на тези варианти или всички отляво.

4. След определяне на броя на интервалите и тяхната дължина, разположението на интервалите може да се извърши по друг начин. Намерете средната аритметична стойност на всички разгледани стойности на опциите хвж. и изградете първия интервал по такъв начин, че тази примерна средна стойност да бъде вътре в някакъв интервал. Така получаваме интервала от хвж. – 0,5 чпреди хср. + 0,5 ч. След това наляво и надясно, добавяйки дължината на интервала, изграждаме останалите интервали, докато хмин. и х max няма да попада съответно в първия и последния интервал.

5. Интервалните серии с голям брой интервали са удобно написани вертикално, т.е. записвайте интервали не в първия ред, а в първата колона и честоти (или честоти) във втората колона.

Примерните данни могат да се разглеждат като стойности на някаква случайна променлива х. Случайната променлива има свой собствен закон на разпределение. От теорията на вероятностите е известно, че законът за разпределение на дискретна случайна променлива може да бъде определен като серия на разпределение, а за непрекъсната - с помощта на функцията на плътността на разпределението. Съществува обаче универсален закон за разпределение, който важи както за дискретни, така и за непрекъснати случайни променливи. Този закон на разпределение е даден като функция на разпределение Е(х) = П(х<х). За примерни данни можете да посочите аналог на функцията на разпределение - емпиричната функция на разпределение.


Подобна информация.


Вариационни сериие поредица от числови стойности на характеристика.

Основните характеристики на вариационната серия: v - вариант, p - честотата на неговото появяване.

Видове вариационни серии:

    според честотата на срещане на вариантите: прости - вариантът се среща веднъж, претеглени - вариантът се среща два или повече пъти;

    опции по местоположение: класирани - опциите са подредени в низходящ и възходящ ред, некласирани - опциите са записани без определен ред;

    чрез групиране на опцията в групи: групирани - опциите се комбинират в групи, негрупирани - опциите не се групират;

    опции по стойност: непрекъснати - опциите се изразяват като цяло число и дробно число, дискретни - опциите се изразяват като цяло число, сложни - опциите се представят чрез относителна или средна стойност.

За изчисляване на средните стойности се съставя и изготвя вариационна серия.

Форма за нотация на вариационна серия:

8. Средни стойности, видове, начин на изчисляване, приложение в здравеопазването

Средни стойности- общата обобщаваща характеристика на количествените характеристики. Прилагане на средни стойности:

1. Да се ​​характеризира организацията на работата на лечебните заведения и да се оцени тяхната дейност:

а) в поликлиниката: показатели за натовареността на лекарите, среден брой посещения, среден брой жители в района;

б) в болница: среден брой леглодни за година; средна продължителност на болничния престой;

в) в центъра по хигиена, епидемиология и обществено здраве: средната площ (или кубичен капацитет) на 1 човек, средните хранителни норми (протеини, мазнини, въглехидрати, витамини, минерални соли, калории), санитарни норми и стандарти и др. ;

2. Да характеризира физическото развитие (основните антропометрични характеристики на морфологични и функционални);

3. Да се ​​определят медико-физиологичните параметри на организма в нормални и патологични състояния при клинични и експериментални изследвания.

4. В специални научни изследвания.

Разликата между средните стойности и индикаторите:

1. Коефициентите характеризират алтернативна характеристика, която се среща само в част от статистическия екип, която може или не може да се осъществи.

Средните стойности обхващат признаците, присъщи на всички членове на екипа, но в различна степен (тегло, ръст, дни на лечение в болница).

2. Коефициентите се използват за измерване на качествени характеристики. Средните стойности са за различни количествени признаци.

Видове средни стойности:

    средно аритметично, неговите характеристики - стандартно отклонение и средна грешка

    режим и медиана. Мода (Mo)- съответства на стойността на признака, който най-често се среща в тази популация. Медиана (аз)- стойността на атрибута, който заема средната стойност в тази популация. Той разделя серията на 2 равни части според броя на наблюденията. Средна аритметична стойност (M)- за разлика от модата и медианата, той се основава на всички направени наблюдения, следователно е важна характеристика за цялото разпределение.

    други видове средни стойности, които се използват в специални изследвания: средноквадратична, кубична, хармонична, геометрична, прогресивна.

Средноаритметичнохарактеризира средното ниво на статистическата съвкупност.

За проста серия, където

∑v – опция за сума,

n е броят на наблюденията.

за претеглена серия, където

∑vr е сумата от продуктите на всяка опция и честотата на нейното появяване

n е броят на наблюденията.

Стандартно отклонениесредно аритметично или сигма (σ) характеризира разнообразието на характеристиката

- за обикновен ред

Σd 2 - сумата от квадратите на разликата между средната аритметична стойност и всяка опция (d = │M-V│)

n е броят на наблюденията

- за претеглени серии

∑d 2 p е сумата от произведенията на квадратите на разликата между средната аритметична стойност и всяка опция и честотата на нейното появяване,

n е броят на наблюденията.

Степента на разнообразие може да се съди по стойността на коефициента на вариация
. Повече от 20% - силно разнообразие, 10-20% - средно разнообразие, по-малко от 10% - слабо разнообразие.

Ако една сигма (M ± 1σ) се добави и извади от средното аритметично, тогава при нормално разпределение най-малко 68,3% от всички варианти (наблюдения) ще бъдат в тези граници, което се счита за норма за изследваното явление . Ако k 2 ± 2σ, тогава 95,5% от всички наблюдения ще бъдат в тези граници, а ако k M ± 3σ, тогава 99,7% от всички наблюдения ще бъдат в тези граници. По този начин стандартното отклонение е стандартното отклонение, което позволява да се предвиди вероятността за поява на такава стойност на изследваната черта, която е в рамките на определените граници.

Средна грешка на средноаритметичната стойностили грешка в представителността. За прости, претеглени серии и по правилото на моментите:

.

За да се изчислят средните стойности, е необходимо: хомогенността на материала, достатъчен брой наблюдения. Ако броят на наблюденията е по-малък от 30, във формулите за изчисляване на σ и m се използва n-1.

При оценката на получения резултат от размера на средната грешка се използва коефициент на доверие, който дава възможност да се определи вероятността за правилен отговор, т.е. показва, че получената грешка в извадката няма да бъде по-голяма от действителната грешка направени в резултат на непрекъснато наблюдение. Следователно, с увеличаване на вероятността за доверие, ширината на интервала на доверие се увеличава, което от своя страна увеличава увереността на преценката, подкрепата на получения резултат.

(дефиниция на вариационна серия; компоненти на вариационна серия; три форми на вариационна серия; целесъобразност на построяването на интервална серия; изводи, които могат да се направят от построената серия)

Вариационна серия е последователност от всички елементи на извадка, подредени в ненамаляващ ред. Повтарят се едни и същи елементи

Вариационни - това са серии, изградени на количествена основа.

Вариационните серии на разпределение се състоят от два елемента: варианти и честоти:

Вариантите са числените стойности на количествен признак във вариационната серия на разпределението. Те могат да бъдат положителни или отрицателни, абсолютни или относителни. Така че, когато групирате предприятията според резултатите от икономическата дейност, опциите са положителни - това е печалба, а отрицателните числа - това е загуба.

Честотите са числата на отделните варианти или всяка група от вариационната серия, т.е. това са числа, показващи колко често се появяват определени опции в серия за разпространение. Сумата от всички честоти се нарича обем на популацията и се определя от броя на елементите на цялата популация.

Честотите са честоти, изразени като относителни стойности (части от единици или проценти). Сумата от честотите е равна на единица или 100%. Замяната на честотите с честоти позволява да се сравняват вариационни серии с различен брой наблюдения.

Има три форми на вариационни серии:класирани серии, дискретни серии и интервални серии.

Класирана серия е разпределението на отделни единици от популацията във възходящ или низходящ ред на изследваната характеристика. Класирането улеснява разделянето на количествените данни в групи, незабавното откриване на най-малките и най-големите стойности на характеристика, подчертаване на стойностите, които най-често се повтарят.

Други форми на вариационните серии са групови таблици, съставени според естеството на вариацията в стойностите на изследваната черта. По естеството на вариацията се разграничават дискретни (прекъснати) и непрекъснати признаци.

Дискретна серия е такава вариационна серия, чиято конструкция се основава на признаци с прекъсната промяна (дискретни знаци). Последните включват тарифната категория, броя на децата в семейството, броя на служителите в предприятието и др. Тези знаци могат да приемат само краен брой определени стойности.

Дискретна вариационна серия е таблица, която се състои от две колони. В първата колона се посочва конкретната стойност на признака, а във втората - броят единици на съвкупността с конкретна стойност на признака.

Ако даден знак има непрекъсната промяна (размерът на доходите, трудовия опит, цената на дълготрайните активи на предприятието и т.н., които могат да приемат произволна стойност в определени граници), тогава за този знак трябва да се изгради интервална серия от вариации.



Груповата таблица тук също има две колони. Първият показва стойността на характеристиката в интервала "от - до" (опции), вторият - броя на единиците, включени в интервала (честота).

Честота (честота на повторение) - броят на повторенията на определен вариант на стойностите на атрибута, означен fi , и сумата от честотите, равна на обема на изследваната популация, означена

Където k е броят на опциите за стойност на атрибута

Много често таблицата се допълва с колона, в която се изчисляват натрупаните честоти S, които показват колко единици от съвкупността имат стойност на признака не по-голяма от тази стойност.

Серия с дискретно вариационно разпределение е серия, в която групите са съставени според характеристика, която варира дискретно и приема само цели числа.

Интервалната вариационна серия на разпределение е серия, в която групиращият атрибут, който формира основата на групирането, може да приема всякакви стойности в определен интервал, включително дробни.

Интервална вариационна серия е подреден набор от интервали на вариация на стойностите на случайна променлива със съответните честоти или честоти на стойностите на количеството, попадащо във всяка от тях.

Целесъобразно е да се изгради интервална серия на разпределение, на първо място, с непрекъсната вариация на признак, а също и ако дискретна вариация се проявява в широк диапазон, т.е. броят на опциите за отделна функция е доста голям.

От тази поредица вече могат да се направят няколко извода. Например, средният елемент на вариационна серия (медиана) може да бъде оценка на най-вероятния резултат от измерване. Първият и последният елемент от вариационната серия (т.е. минималният и максималният елемент на извадката) показват разпространението на елементите на извадката. Понякога, ако първият или последният елемент е много различен от останалата част от извадката, те се изключват от резултатите от измерването, като се има предвид, че тези стойности са получени в резултат на някакъв вид груба повреда, например технология.

Споделете с приятели или запазете за себе си:

Зареждане...