خلاصه آماری و گروه بندی. سری توزیع آماری

مهمترین بخش تحلیل آماری ساخت سری های توزیع (گروه بندی ساختاری) به منظور برجسته سازی است خواص مشخصهو الگوهای جمعیت مورد مطالعه بسته به اینکه کدام ویژگی (کمی یا کیفی) به عنوان مبنای گروه بندی داده ها در نظر گرفته می شود، انواع سری های توزیع بر این اساس متمایز می شوند.

اگر یک مشخصه کیفی به عنوان مبنای گروه بندی در نظر گرفته شود، چنین سری توزیعی نامیده می شود نسبتی(توزیع بر اساس نوع کار، جنسیت، حرفه، مذهب، ملیت و غیره).

اگر یک سری توزیع بر اساس کمی ساخته شود، چنین سری نامیده می شود متغیر. ایجاد یک سری تغییرات به معنای سازماندهی توزیع کمی واحدهای جمعیتی بر اساس مقادیر مشخصه، و سپس شمارش تعداد واحدهای جمعیت با این مقادیر (ساخت یک جدول گروهی) است.

سه شکل سری تغییرات وجود دارد: سری های رتبه بندی شده، سری های گسسته و سری های بازه ای.

سریال های رتبه بندی شده- این توزیع واحدهای فردی جمعیت به ترتیب صعودی یا نزولی مشخصه مورد مطالعه است. رتبه بندی به شما این امکان را می دهد که به راحتی داده های کمی را به گروه ها تقسیم کنید، بلافاصله کوچکترین و بالاترین ارزشمشخصه، مقادیری را که اغلب تکرار می شوند برجسته کنید.

سایر اشکال سری تغییرات، جداول گروهی هستند که با توجه به ماهیت تغییرات در مقادیر مشخصه مورد مطالعه گردآوری شده‌اند. با توجه به ماهیت تنوع، ویژگی های گسسته (ناپیوسته) و پیوسته متمایز می شوند.

سری گسسته- این یک سری تغییرات است که ساخت آن بر اساس ویژگی هایی با تغییر ناپیوسته (ویژگی های گسسته) است. مورد دوم شامل دسته تعرفه، تعداد فرزندان خانواده، تعداد کارکنان شرکت و غیره است. این ویژگی ها فقط می توانند تعداد محدودی از مقادیر خاص را بگیرند.

یک سری تغییرات گسسته نشان دهنده جدولی است که از دو ستون تشکیل شده است. ستون اول مقدار خاص صفت را نشان می دهد و ستون دوم تعداد واحدهای جمعیت با مقدار مشخصی از ویژگی را نشان می دهد.

اگر یک مشخصه دارای تغییر مداوم باشد (مقدار درآمد، طول خدمت، هزینه دارایی های ثابت شرکت و غیره، که در محدوده خاصی می تواند هر مقداری را به خود بگیرد)، برای این مشخصه لازم است که ایجاد شود. سری تغییرات بازه ای.

جدول گروه در اینجا نیز دارای دو ستون است. اولی مقدار ویژگی را در بازه "از - به" (گزینه ها) نشان می دهد ، دومی تعداد واحدهای موجود در بازه (فرکانس) را نشان می دهد.

فرکانس (تکرار تکرار) - تعداد تکرارهای یک نوع خاص از مقادیر ویژگی، fi نشان داده می شود، و مجموع فرکانس ها برابر با حجم جامعه مورد مطالعه نشان داده می شود.

که در آن k تعداد گزینه ها برای مقادیر ویژگی است

اغلب، جدول با ستونی تکمیل می شود که در آن فرکانس های انباشته S محاسبه می شود، که نشان می دهد چند واحد در جمعیت دارای مقدار مشخصه ای هستند که بیشتر از این مقدار نیست.

فرکانس‌های سری f را می‌توان با فرکانس‌های w که در بیان می‌شوند جایگزین کرد اعداد نسبی(سهم یا درصد). آنها نشان دهنده نسبت فرکانس های هر بازه به آنها هستند مبلغ کل، یعنی:

هنگام ساخت یک سری تغییرات با مقادیر بازه، اول از همه لازم است مقدار بازه i تعیین شود، که به عنوان نسبت دامنه تغییرات R به تعداد گروه های m تعریف می شود:

که در آن R = xmax - xmin. m = 1 + 3.322 logn (فرمول استرجس)؛ n- تعداد کلواحدهای جمعیت

برای تعیین ساختار یک جمعیت از شاخص های میانگین ویژه ای استفاده می شود که شامل میانه و مد یا به اصطلاح میانگین های ساختاری است. اگر میانگین حسابی بر اساس استفاده از همه انواع مقادیر مشخصه محاسبه شود، آنگاه میانه و حالت مقدار متغیری را مشخص می کند که موقعیت متوسط ​​خاصی را در رتبه بندی اشغال می کند. سری تغییرات.

میانه (من)- این مقدار مربوط به گزینه ای است که در وسط سری رتبه بندی شده قرار دارد.

برای یک سری رتبه بندی شده با تعداد فرد مقادیر فردی (مثلاً 1، 2، 3، 3، 6، 7، 9، 9، 10)، میانه مقداری خواهد بود که در مرکز قرار دارد. سری، یعنی قدر پنجم

برای یک سری رتبه بندی شده با تعداد زوج مقادیر جداگانه (به عنوان مثال، 1، 5، 7، 10، 11، 14)، میانه مقدار میانگین حسابی خواهد بود که از دو مقدار مجاور محاسبه می شود.

یعنی برای یافتن میانه ابتدا باید شماره سریال آن (موقعیت آن در سری رتبه بندی شده) را با استفاده از فرمول تعیین کنید.

که در آن n تعداد واحدهای کل است.

مقدار عددی میانه از فرکانس های انباشته شده در یک سری تغییرات گسسته تعیین می شود. برای انجام این کار، ابتدا باید بازه‌ای را که میانه در سری بازه‌ای توزیع یافت می‌شود مشخص کنید. میانه اولین بازه ای است که مجموع فرکانس های انباشته شده از نصف مشاهدات از تعداد کل مشاهدات بیشتر می شود.

مقدار عددی میانه

که در آن xMe حد پایین بازه میانه است. i - مقدار فاصله؛ S-1 فرکانس انباشته شده بازه قبل از میانه است. f فرکانس بازه میانه است.

مد (Mo)آنها ارزش یک مشخصه را می نامند که اغلب در واحدهای جمعیت رخ می دهد. برای یک سری گسسته، حالت گزینه ای با بالاترین فرکانس خواهد بود. برای تعیین حالت یک سری بازه ای، ابتدا فاصله مودال (فاصله دارای بالاترین فرکانس) را تعیین کنید. سپس در این بازه مقدار ویژگی پیدا می شود که می تواند یک حالت باشد.

برای پیدا کردن یک مقدار حالت خاص، باید از فرمول استفاده کنید

که در آن xMo حد پایین بازه مودال است. iMo مقدار فاصله مودال است. fMo - فرکانس بازه مودال. fMo-1 - فرکانس فاصله قبل از مودال. fMo+1 - فرکانس بازه پس از مودال.

مد در هنگام مطالعه تقاضای مصرف کننده، به ویژه هنگام تعیین محبوب ترین اندازه های لباس و کفش، و هنگام تنظیم سیاست های قیمت گذاری، در فعالیت های بازاریابی گسترده است.

هدف اصلی تجزیه و تحلیل سری تغییرات، شناسایی الگوی توزیع است، در حالی که تأثیر عوامل تصادفی برای یک توزیع معین را حذف می کند. این امر با افزایش حجم جمعیت مورد مطالعه و کاهش همزمان فاصله سریال قابل دستیابی است. هنگامی که سعی می کنیم این داده ها را به صورت گرافیکی به تصویر بکشیم، مقداری خط منحنی صاف به دست می آوریم که محدودیت خاصی برای چند ضلعی فرکانس خواهد بود. به این خط منحنی توزیع می گویند.

به عبارت دیگر، منحنی توزیعیک نمایش گرافیکی به شکل یک خط پیوسته از تغییرات فرکانس در یک سری تغییرات وجود دارد که از نظر عملکردی با تغییر گزینه مرتبط است. منحنی توزیع منعکس کننده الگوی تغییرات فرکانس در غیاب عوامل تصادفی است. نمایش گرافیکی تجزیه و تحلیل سری های توزیع را تسهیل می کند.

شکل‌های کمی از منحنی‌های توزیع شناخته شده‌اند، که در امتداد آنها می‌توان یک سری تغییرات را تراز کرد، اما در عمل تحقیقات آماری، رایج‌ترین شکل‌ها توزیع نرمال و توزیع پواسون هستند.

توزیع نرمال به دو پارامتر بستگی دارد: میانگین حسابی و انحراف استاندارد. منحنی آن با معادله بیان می شود

جایی که y مختص منحنی است توزیع نرمال; - انحرافات استاندارد؛ e و π ثابت های ریاضی هستند. x - انواع سری تغییرات؛ - آنها مقدار متوسط; - انحراف معیار.

اگر هنگام تراز کردن سری تغییرات در امتداد منحنی توزیع نرمال نیاز به بدست آوردن فرکانس های نظری f" دارید، می توانید از فرمول استفاده کنید.

مجموع تمام فرکانس های تجربی سری تغییرات کجاست. h - اندازه فاصله در گروه ها؛ - انحراف معیار؛ - انحراف نرمال شده گزینه ها از میانگین حسابی. تمام مقادیر دیگر به راحتی با استفاده از جداول ویژه محاسبه می شوند.

با استفاده از این فرمول به دست می آوریم توزیع نظری (احتمال)، جایگزین آنها می شود توزیع تجربی (واقعی).، آنها نباید از نظر شخصیت با یکدیگر تفاوت داشته باشند.

با این حال، در تعدادی از موارد، اگر سری تغییرات توزیعی بر اساس یک مشخصه گسسته باشد، جایی که با افزایش مقادیر مشخصه x، فرکانس ها به شدت شروع به کاهش می کنند و میانگین حسابی نیز به نوبه خود برابر است. به یا نزدیک به مقدار پراکندگی ()، چنین سری با منحنی پواسون تراز می شود.

منحنی پواسونرا می توان با رابطه بیان کرد

که در آن Px احتمال وقوع مقادیر فردی x است. - میانگین حسابی سری.

هنگام یکسان سازی داده های تجربی، فرکانس های نظری را می توان با فرمول تعیین کرد

که در آن f فرکانس های نظری هستند؛ N تعداد کل واحدهای سری است.

با مقایسه مقادیر به‌دست‌آمده از فرکانس‌های نظری f" با فرکانس‌های تجربی (واقعی) f، متقاعد شدیم که تفاوت‌های آنها می‌تواند بسیار ناچیز باشد.

با استفاده از شاخص های آماری خاصی که معیارهای توافق نامیده می شوند، می توان یک مشخصه عینی از مطابقت بین فرکانس های نظری و تجربی را به دست آورد.

برای ارزیابی نزدیکی فرکانس‌های تجربی و نظری، از آزمون برازش پیرسون، آزمون برازش خوب رومانوفسکی و آزمون برازش کولموگروف استفاده می‌شود.

رایج ترین آن است تست تناسب خوب کی. پیرسون، که می تواند به عنوان مجموع نسبت های اختلاف مجذور بین f" و f به فرکانس های نظری نشان داده شود:

مقدار محاسبه شده معیار باید با مقدار جدول بندی شده (بحرانی) مقایسه شود. مقدار جدول بندی شده از یک جدول خاص تعیین می شود؛ این به احتمال پذیرفته شده P و تعداد درجات آزادی k بستگی دارد (که k = m - 3، که m تعداد گروه های سری توزیع برای توزیع نرمال است). هنگام محاسبه معیار توافق پیرسون، شرط زیر باید رعایت شود: تعداد مشاهدات باید به اندازه کافی بزرگ باشد (n 50)، و اگر در برخی بازه ها فرکانس های نظری< 5, то интервалы объединяют для условия > 5.

اگر، اختلاف بین توزیع‌های فراوانی تجربی و نظری ممکن است تصادفی باشد و این فرض که توزیع تجربی نزدیک به نرمال است را نمی‌توان رد کرد.

در صورتی که جدولی برای ارزیابی تصادفی بودن اختلاف بین فرکانس های نظری و تجربی وجود نداشته باشد، می توانید از معیار توافق V.I. رومانوفسکی KR، که با استفاده از مقدار، پیشنهاد کرد نزدیکی توزیع تجربی منحنی توزیع نرمال را با استفاده از نسبت ارزیابی کند.

که در آن m تعداد گروه ها است. k = (m - 3) - تعداد درجات آزادی هنگام محاسبه فرکانس های توزیع نرمال.

اگر رابطه فوق< 3, то расхождения эмпирических и теоретических частот можно считать случайными, а эмпирическое распределение - соответствующим нормальному. Если отношение >3، در این صورت اختلافات ممکن است کاملاً قابل توجه باشد و فرضیه توزیع نرمال باید رد شود.

ملاک توافق A.N. کولموگروفدر تعیین حداکثر اختلاف بین فرکانس های توزیع های تجربی و نظری، محاسبه شده با فرمول استفاده می شود.

که در آن D حداکثر مقدار تفاوت بین فرکانس های تجربی و نظری انباشته شده است. - مجموع فرکانس های تجربی.

با استفاده از جداول مقادیر احتمال، می توان از معیار برای یافتن مقدار مربوط به احتمال P استفاده کرد. اگر مقدار احتمال P نسبت به مقدار یافت شده معنی دار باشد، می توانیم فرض کنیم که اختلاف بین توزیع های نظری و تجربی وجود دارد. ناچیز.

شرط لازم هنگام استفاده از معیار تناسب خوب کولموگروف کافی است عدد بزرگمشاهدات (حداقل صد).

مرحله اول مطالعه آماری تغییرات، ساخت است سری تغییرات - توزیع منظم واحدهای جمعیت با توجه به افزایش (بیشتر) یا کاهش (کمتر) مقادیر مشخصه و شمارش تعداد واحدها با مقدار خاصی از مشخصه.

سه شکل سری تغییرات وجود دارد: سری های رتبه بندی شده، سری های گسسته، سری های بازه ای. سری تغییرات اغلب نامیده می شود نزدیک توزیعاین اصطلاح در بررسی تنوع در صفات کمی و غیر کمی استفاده می شود. سری توزیع است گروه بندی ساختاری(به فصل 6 مراجعه کنید).

ردیف رتبه بندی شده -این فهرستی از واحدهای فردی جمعیت به ترتیب صعودی (نزولی) مشخصه مورد مطالعه است.

نمونه ای از سری های رتبه بندی شده جدول است. 5.5.

جدول 5.5

بانک های بزرگ سن پترزبورگ، رتبه بندی شده بر اساس اندازهسرمایه از تاریخ 07/01/96

اگر تعداد واحدهای جمعیت به اندازه کافی زیاد باشد، سری رتبه بندی شده دست و پا گیر می شود و ساخت آن، حتی با کمک کامپیوتر، طول می کشد. مدت زمان طولانی. در چنین مواردی، یک سری تغییرات با گروه بندی واحدهای جمعیت بر اساس مقادیر مشخصه مورد مطالعه ساخته می شود.

اگر یک مشخصه تعداد کمی از مقادیر را بگیرد، یک سری تغییرات گسسته ساخته می شود. نمونه ای از این سری ها توزیع مسابقات فوتبال بر اساس تعداد گل های زده شده است (جدول 5.1). سری تغییرات گسسته -این یک جدول متشکل از دو خط یا ستون است: مقادیر خاص یک مشخصه متفاوت ایکسمنو تعداد واحدهای جمعیتی با مقدار مشخصه مشخص f iفرکانس ها (f حرف ابتدایی کلمه انگلیسی فرکانس است).

تعیین تعداد گروه ها

تعداد گروه ها در یک سری تغییرات گسسته با تعداد مقادیر واقعی موجود مشخصه متغیر تعیین می شود. اگر این ویژگی بتواند مقادیر گسسته ای به خود بگیرد، اما تعداد آنها بسیار زیاد باشد (به عنوان مثال، تعداد دام ها در اول ژانویه سال در شرکت های مختلف کشاورزی می تواند از صفر تا ده ها هزار راس باشد)، سپس یک سری تغییرات بازه ای وجود دارد. ساخته شده است. یک سری تغییرات بازه‌ای نیز برای مطالعه ویژگی‌هایی ساخته شده است که می‌توانند هر مقدار، اعم از عدد صحیح و کسری، را در ناحیه وجود خود بگیرند. اینها به عنوان مثال، سودآوری محصولات فروخته شده، هزینه هر واحد تولید، درآمد به ازای هر 1 ساکن شهر، سهم افراد با آموزش عالیدر میان جمعیت سرزمین های مختلف و به طور کلی، همه ویژگی های ثانویه، که مقادیر آنها با تقسیم ارزش یک ویژگی اصلی بر ارزش دیگری محاسبه می شود (به فصل 3 مراجعه کنید).

سری تغییرات فاصلهجدولی است (شامل دو ستون (یا ردیف) - فواصل مشخصه ای است که تغییرات آن در حال مطالعه است و تعداد واحدهای جمعیتی که در این بازه قرار می گیرند (فرکانس ها) یا نسبت این تعداد از تعداد کل جمعیت (فرکانس ها).

هنگام ساخت یک سری تغییرات بازه ای، لازم است تعداد بهینه گروه ها (فاصله های مشخصه) را انتخاب کرده و طول بازه را تنظیم کنید. از آنجایی که هنگام تجزیه و تحلیل یک سری تغییرات، فرکانس ها در بازه های مختلف با هم مقایسه می شوند، لازم است مقدار بازه ثابت باشد. تعداد بهینه گروه‌ها به گونه‌ای انتخاب می‌شود که تنوع مقادیر مشخصه در کل به اندازه کافی منعکس شود و در عین حال الگوی توزیع با نوسانات فرکانس تصادفی تحریف نشود. اگر گروه ها خیلی کم باشند، الگوی تنوع ظاهر نمی شود. اگر گروه‌ها خیلی زیاد باشند، جهش‌های فرکانس تصادفی شکل توزیع را مخدوش می‌کند.

اغلب، تعداد گروه ها در یک سری تغییرات با رعایت فرمول توصیه شده توسط آماردان آمریکایی استرجس تعیین می شود. (استرجس):

جایی که ک- تعداد گروه ها؛ n- میزان جمعیت.

این فرمول نشان می دهد که تعداد گروه ها تابعی از حجم داده ها است.

فرض کنید لازم است یک سری تنوع از توزیع بنگاه ها در منطقه با توجه به عملکرد محصولات غلات برای یک سال خاص ایجاد شود. تعداد شرکت های کشاورزی که محصولات غلات داشتند 143 بود. کمترین مقدار عملکرد 10.7 سانتی‌گراد در هکتار و بیشترین آن 53.1 سانتی‌گراد در هکتار است. ما داریم:

از آنجایی که تعداد گروه ها عدد صحیح است، توصیه می شود 8 یا 9 گروه بسازید.

تعیین اندازه فاصله

با دانستن تعداد گروه ها، اندازه فاصله را محاسبه کنید:

در مثال ما، مقدار بازه:

الف) با 8 گروه

ب) با 9 گروه

برای ساخت یک سری و تجزیه و تحلیل تغییرات، در صورت امکان، مقادیر گرد شده برای مقدار بازه و مرزهای آن بسیار بهتر است. بنابراین بهترین راه حل ساخت یک سری تغییرات با 9 گروه با فاصله 5 c/ha خواهد بود. این سری تغییرات در جدول آورده شده است. 5.6، و نمایش گرافیکی آن در شکل. 5.1.

می توان مرزهای فاصله ای را مشخص کرد به روش های مختلف: مرز بالایی بازه قبلی، مرز پایین بعدی را تکرار می کند، همانطور که در جدول نشان داده شده است. 5.6 یا تکرار نمی شود.

در مورد دوم، فاصله دوم به عنوان 15.1-20، سوم به عنوان 20.1-25، و غیره تعیین می شود، یعنی. فرض بر این است که تمام مقادیر بازده باید به یک دهم گرد شوند. علاوه بر این، یک عارضه نامطلوب با وسط فاصله 15.1-20 ایجاد می شود که، به طور دقیق، دیگر برابر با 17.5 نیست، بلکه 17.55 خواهد بود. بر این اساس، هنگام جایگزینی فاصله گرد شده 40-60 با 40.1-6.0 به جای مقدار گرد شده 50 وسط آن، 50.5 به دست می آید.بنابراین، ترجیح داده می شود که فواصل را با یک مرز گرد تکراری رها کنیم و موافقت کنیم که واحدهای جمعیتی دارای یک مشخصه باشند. مقدار برابر با مرز بازه، در بازه زمانی که در آن قرار دارد گنجانده شده است ارزش دقیقبرای اولین بار نشان داده شده است. به این ترتیب مزرعه ای با عملکرد 15 سی در هکتار در گروه اول، مقدار 20 سانتی متر در هکتار در گروه دوم و غیره قرار می گیرد.

برنج. 5.1. توزیع مزارع بر اساس عملکرد

جدول 5.6

توزیع مزارع منطقه بر اساس عملکرد دانه

گروه های مزارع بر اساس عملکرد،

c/ha ایکسj

تعداد مزارع

وسط فاصله

c/ha ایکسj"

فراوانی تجمعی f' j

نمایش گرافیکی سری تغییرات

یک نمایش گرافیکی کمک قابل توجهی در تجزیه و تحلیل سری تغییرات و ویژگی های آن ارائه می دهد. یک سری فاصله با یک نمودار میله ای نشان داده می شود که در آن پایه میله های واقع در محور آبسیسا فواصل مقادیر مشخصه متغیر است و ارتفاع میله ها فرکانس های مربوط به مقیاس در امتداد ارتین هستند. محور. یک نمایش گرافیکی از توزیع مزارع در منطقه بر اساس عملکرد دانه در شکل 1 نشان داده شده است. 5.1. این نوع نمودار اغلب نامیده می شود هیستوگرام(از کلمه یونانی "histos" - پارچه، ساختار).

داده های جدول 5.5 و شکل. 5.1 مشخصه شکل توزیع بسیاری از ویژگی ها را نشان می دهد: مقادیر میانگین فواصل مشخصه رایج تر هستند و مقادیر شدید کمتر رایج هستند. مقادیر کوچک و بزرگ مشخصه. شکل این توزیع نزدیک به آنچه در دوره مورد بحث قرار گرفت است آمار ریاضیقانون توزیع نرمال ریاضیدان بزرگ روسی A. M. Lyapunov (1857 - 1918) ثابت کرد که توزیع نرمال در صورتی تشکیل می شود که یک متغیر متغیر تحت تأثیر تعداد زیادی از عوامل قرار گیرد که هیچ یک از آنها تأثیر غالب ندارند. ترکیب تصادفی بسیاری از عوامل تقریباً مساوی مؤثر بر تغییر در عملکرد محصولات غلات، اعم از طبیعی و کشاورزی، اقتصادی، نزدیکی ایجاد می کند. قانون عادیتوزیع توزیع مزارع در منطقه بر اساس عملکرد.

اگر یک سری تغییرات گسسته وجود داشته باشد یا از نقاط میانی فواصل استفاده شود، نمایش گرافیکی چنین سری تغییرات نامیده می شود. چند ضلعی(از کلمه یونانی - چندضلعی). هر یک از شما به راحتی می توانید این نمودار را با اتصال نقاط با مختصات با خطوط مستقیم بسازید ایکس،و /.

نسبت توصیه شده ارتفاع چند ضلعی یا نمودار به پایه آن تقریباً 5:8 است.

مفهوم فرکانس

اگر در جدول 5.6 تعداد مزارع با سطح عملکرد معین را به عنوان درصدی از کل بیان می کند، با در نظر گرفتن تعداد کل مزارع (143) به عنوان 100٪، سپس میانگین عملکرد را می توان به صورت زیر محاسبه کرد:

جایی که w- فرکانس دسته هفتم سری تغییرات؛

توزیع تجمعی

شکل تبدیل شده سری تغییرات است تعدادی از فرکانس های انباشته شده،در جدول آورده شده است 5.6، ستون 5. این مجموعه ای از مقادیر برای تعداد واحدهای جمعیت با مقادیر مشخصه است که کوچکتر و برابر با حد پایین بازه مربوطه است. چنین سریالی نامیده می شود انباشته.شما می توانید یک توزیع تجمعی "نه کمتر از" بسازید یا می توانید یک توزیع "بیش از" بسازید. در حالت اول، نمودار توزیع تجمعی نامیده می شود انباشته کردن،در دوم - ogiva(شکل 5.2).

چگالی، توزیع

اگر باید با آن مقابله کنید سری تغییراتبا فواصل نابرابر، پس برای مقایسه باید فرکانس یا فرکانس را به واحد فاصله کاهش داد. رابطه حاصل نامیده می شود چگالی توزیع:

چگالی توزیع هم برای محاسبه شاخص های عمومی و هم برای محاسبه استفاده می شود تصویر گرافیکیسری تغییرات با فواصل نامساوی

برنج. 5.2. Ogiva و تجمع بر اساس عملکرد

5.7. ویژگی های ساختاری تغییرات ردیف

میانه توزیع

هنگام مطالعه تنوع، از چنین ویژگی های سری تغییرات استفاده می شود که ساختار و ساختار آن را به طور کمی توصیف می کند. این مثلاً میانهمقدار یک ویژگی متغیر که جمعیت را به دو قسمت مساوی تقسیم می کند ~ با مقادیر مشخصه کمتر از میانه و با مقادیر مشخصه بزرگتر از میانه (سومین بانک از پنج در جدول 5.5، یعنی 196 میلیارد روبل).

با استفاده از مثال جدول 5.5 قابل مشاهده است تفاوت اساسیبین مقدار متوسط ​​و میانگین میانه به مقادیر ویژگی در لبه های سری رتبه بندی شده بستگی ندارد. حتی اگر سرمایه بزرگترین بانک در سن پترزبورگ ده برابر بزرگتر بود، ارزش متوسط ​​تغییر نمی کرد. بنابراین، اگر سری مقادیر ناهمگن باشد و شامل انحرافات شدید از میانگین باشد، میانه اغلب به عنوان یک شاخص قابل اعتمادتر از مقدار معمولی یک مشخصه نسبت به میانگین حسابی استفاده می شود. که در این سریالمیانگین ارزش سهام، معادل 269 میلیارد روبل، تحت تأثیر بزرگ ترین گزینه ها شکل گرفت. 80 درصد بانک ها کمتر از متوسط ​​سرمایه دارند و تنها 20 درصد بیشتر. بعید است که چنین میانگینی را بتوان یک مقدار معمولی در نظر گرفت. اگر تعداد واحدهای زوج در جامعه وجود داشته باشد، میانگین حسابی دو گزینه مرکزی به عنوان مقدار میانه در نظر گرفته می شود، به عنوان مثال، با ده مقدار از ویژگی - میانگین مقادیر پنجم و ششم در سری رتبه بندی شده

در یک سری تغییرات بازه ای، از فرمول (5.14) برای یافتن میانه استفاده می شود.

جایی که من میانه است.

x 0 -حد پایین بازه ای که میانه در آن قرار دارد.

f M e-1 - فرکانس انباشته شده در فاصله قبل از میانه.

f Me- فرکانس در بازه میانه؛

من- اندازه فاصله؛

ک - تعداد گروه ها

روی میز میانه 5.6 میانگین 143 مقدار است، یعنی. ارزش بازدهی هفتاد و دوم از ابتدای سری. همانطور که از سری فرکانس های انباشته شده مشاهده می شود، در بازه چهارم قرار دارد. سپس

با تعداد فرد واحدهای جمعیت، عدد میانه، همانطور که می بینیم، برابر است , همانطور که در فرمول (5.14)، a ، اما این تفاوت غیر مادی است و معمولا در عمل نادیده گرفته می شود.

در یک سری تغییرات گسسته، میانه باید مقدار مشخصه در گروهی که در آن فرکانس انباشته شده در نظر گرفته شود.

بیش از نیمی از جمعیت به عنوان مثال، برای داده های جدول. 5.1 میانگین تعداد گل های زده شده در هر بازی 2 گل است.

چارک های توزیع

مشابه با میانه، مقادیر مشخصه محاسبه می شود و جمعیت را به چهار قسمت مساوی از نظر تعداد واحد تقسیم می کند. این مقادیر نامیده می شوند یک چهارمو با حروف بزرگ لاتین مشخص می شوند سبا نماد شماره چارک امضا. واضح است که س 2 با من مطابقت دارد. برای چارک اول و سوم ما فرمول ها و محاسبات را بر اساس داده های جدول ارائه می دهیم. 5.6.

زیرا س 2 = Me = 29.5 c/ha، واضح است که تفاوت بین چارک اول و میانه کمتر از چارک میانه و سوم است. این واقعیت نشان دهنده وجود مقداری عدم تقارن در ناحیه میانی توزیع است که در شکل 1 نیز قابل توجه است. 5.1.

مقادیر مشخصه ای که یک سری را به پنج قسمت مساوی تقسیم می کنند نامیده می شوند پنجک ها،به ده قسمت - دهک ها،در صد قسمت - صدک هااز آنجایی که این ویژگی ها تنها در مواقع ضروری اعمال می شوند مطالعه دقیقساختارهای سری تغییرات، فرمول ها و محاسبات آنها را ارائه نمی دهیم.

حالت توزیع

بی شک مهمدارای چنین ارزشی از ویژگی است که در مجموعه های مورد مطالعه رخ می دهد، در مجموع اغلب. این کمیت معمولا نامیده می شود روشو Mo را نشان می دهند. در یک سری گسسته، حالت بدون محاسبه به عنوان مقدار ویژگی با بالاترین فرکانس تعیین می شود. به عنوان مثال، طبق جدول. 5.1 اغلب 2 گل در یک مسابقه فوتبال به ثمر رسید - 71 بار. حالت شماره 2 است. معمولاً سری هایی با یک مقدار مودال صفت وجود دارد. اگر دو یا چند مقدار برابر (و حتی چندین مقدار متفاوت، اما بزرگتر از همسایه) یک مشخصه در یک سری تغییرات وجود داشته باشد، به ترتیب دو وجهی ("شتری شکل") یا چندوجهی در نظر گرفته می شود. این نشان دهنده ناهمگونی جمعیت است، که احتمالاً نشان دهنده مجموعه ای از چندین جمعیت با حالت های مختلف است.

بنابراین در ازدحام گردشگرانی که از آنجا آمده بودند کشورهای مختلف، به جای یکی که در بین ساکنان محلی غالب است لباس های مد روزشما می توانید ترکیبی از "مدهای" مختلف را که توسط مردمان مختلف جهان پذیرفته شده است، بیابید.

در یک سری تغییرات بازه ای، به ویژه با تغییرات مداوم یک مشخصه، به طور دقیق، هر مقدار مشخصه فقط یک بار رخ می دهد. بازه مودال بازه ای با بالاترین فرکانس است.در این بازه، مقدار شرطی صفت پیدا می شود که در نزدیکی آن چگالی توزیع، یعنی. تعداد واحدهای جمعیت در واحد اندازه گیری یک مشخصه متغیر به حداکثر می رسد. این یک مقدار شرطی است و در نظر گرفته می شود حالت نقطه ایمنطقی است که فرض کنیم چنین حالت نقطه‌ای نزدیک‌تر به مرزهای بازه‌ای است که فرکانس آن در بازه مجاور بیشتر از فرکانس در بازه فراتر از مرز دیگر بازه مودال است. از اینجا ما فرمول رایج (5.15) را داریم:

جایی که ایکس 0 - حد پایین بازه مودال؛

f Mo - فرکانس در بازه مودال;

f Mo -1 - فرکانس در بازه قبلی؛

f Mo +1 - فرکانس در بازه بعدی بعد از مدال.

من - اندازه فاصله

طبق جدول. 5.6 بیایید حالت را محاسبه کنیم:

محاسبه حالت در یک سری بازه ای بسیار مشروط است. Mo را می توان تقریباً به صورت گرافیکی تعیین کرد (شکل 5.1 را ببینید).

میانگین حسابی نیز به مطالعه ساختار یک سری تغییرات مربوط می شود، اگرچه معنای اصلی این شاخص تعمیم دهنده متفاوت است. در توزیع مزارع بر اساس عملکرد (جدول 5.6)، میانگین عملکرد به عنوان وسط فواصل وزنی فراوانی محاسبه می شود. ایکس(طبق فرمول (5.2)):

رابطه میانگین، میانه و حالت

تفاوت بین میانگین حسابی، میانه و مد در این توزیع کم است. اگر توزیع در شکل به قانون نرمال نزدیک باشد، میانه بین حالت و مقدار متوسط ​​است و به میانگین نزدیکتر از حالت است.

برای عدم تقارن سمت راست ایکس̅ > من > مو.

با عدم تقارن سمت چپ ایکس̅ < من< Mo.

برای توزیع های نامتقارن متوسط، برابری برقرار است:

5.8. شاخص های اندازه و شدت تغییرات

میانگین مطلق اندازه های تنوع

مرحله بعدی مطالعه تغییرات یک صفت به طور کامل، اندازه‌گیری ویژگی‌های قدرت و بزرگی تنوع است. ساده ترین آنها می تواند باشد محدودهیا دامنه تغییرات -تفاوت مطلق بین حداکثر و حداقل مقادیر یک مشخصه از مقادیر موجود در جامعه مورد مطالعه. بنابراین، دامنه تغییرات با فرمول محاسبه می شود

از آنجایی که بزرگی محدوده تنها حداکثر تفاوت در مقادیر یک مشخصه را مشخص می کند، نمی تواند قدرت طبیعی تغییرات آن را در کل جمعیت اندازه گیری کند. شاخصی که برای این منظور در نظر گرفته شده است باید تمام تفاوت های مقادیر یک مشخصه را در مجموع بدون استثنا در نظر گرفته و خلاصه کند. تعداد این تفاوت ها برابر است با تعداد ترکیبات دو نفره از همه واحدهای جمعیت. مطابق جدول 5.6 خواهد بود: C^= 10 153. با این حال، نیازی به در نظر گرفتن، محاسبه و میانگین تمام انحرافات وجود ندارد. استفاده از میانگین انحراف مقادیر مشخصه های فردی از میانگین آسان تر است مقدار حسابیمشخصه، و تنها 143 مورد وجود دارد. اما میانگین انحراف مقادیر مشخصه از مقدار میانگین حسابی، با توجه به ویژگی شناخته شده دومی، صفر است. بنابراین، شاخص قدرت تغییرات جبری نیست انحراف متوسط، آ ماژول انحراف متوسط:

طبق جدول. 5.6 ماژول وسط یا میانگین انحراف خطی،در قدر مطلق به عنوان مدول انحراف وزن دار فرکانس، نقاط میانی فواصل از میانگین حسابی محاسبه می شود، یعنی. طبق فرمول

به این معنی که به طور متوسط ​​عملکرد در مجموعه مزارع مورد مطالعه 6.85 سانتی‌گراد در هکتار از میانگین عملکرد منطقه انحراف داشت. سهولت محاسبه و تفسیر به مقدار جنبه های مثبتبا این حال، از این شاخص، ویژگی های ریاضی ماژول ها "بد" است: آنهارا نمی توان مطابق با هیچ قانون احتمالی، از جمله توزیع نرمال، که پارامتر آن مدول میانگین انحرافات نیست، قرار داد، اما انحراف معیار(در برنامه های کامپیوتری انگلیسی به نام «انحراف معیار»، به اختصار «s.d» یا به سادگی « س», به زبان های روسی زبان - SKO). در ادبیات آماری، انحراف استاندارد از مقدار متوسط ​​معمولاً کوچک (کوچک) نشان داده می شود. نامه یونانیسیگما (st) یا س(به فصل 7 مراجعه کنید):

برای سریال های رتبه بندی شده

برای سری های فاصله ای

طبق جدول. 5.6 انحراف معیار عملکرد دانه:

لازم به ذکر است که مقداری گرد کردن مقدار متوسط ​​و وسط فواصل، مثلاً به کل، تأثیر چندانی بر مقدار σ که 8.55 c/ha خواهد بود، ندارد.

انحراف استاندارد در بزرگی در جمعیت های واقعی همیشه بیشتر از مدول انحراف متوسط ​​است. نسبت (y: آبه وجود انحرافات شدید و برجسته در سنگدانه ها بستگی دارد و می تواند به عنوان شاخصی از "آلودگی" سنگدانه با عناصر ناهمگن با حجم عمل کند: هر چه این نسبت بیشتر باشد، "انسداد" این نوع قوی تر است. برای قانون توزیع نرمال σ: a = 1,2.

مفهوم واریانس

مربع انحراف معیار مقدار را می دهد پراکندگی σ 2.فرمول پراکندگی:

ساده (برای داده های گروه بندی نشده):

وزن دار (برای داده های گروه بندی شده):

تقریباً تمام روش های آمار ریاضی بر اساس پراکندگی است. قانون اضافه کردن واریانس ها از اهمیت عملی زیادی برخوردار است (به فصل 6 مراجعه کنید).

سایر معیارهای تغییر

یکی دیگر از شاخص های قدرت تنوع، که آن را نه به طور کامل، بلکه فقط در قسمت مرکزی آن مشخص می کند، است میانگین فاصله سه ماهه،آن ها میانگین اختلاف بین چارک ها که در زیر نشان داده شده است q:

برای توزیع شرکت های کشاورزی بر اساس عملکرد در جدول. 5.2

q= (36.25 - 25.09): 2 = 5.58 c/ha. قدرت تنوع در بخش مرکزی جمعیت معمولا کمتر از کل جمعیت است. رابطه بین میانگین مدول انحرافات و میانگین انحراف سه ماهه نیز برای مطالعه ساختار تغییرات مفید است: مقدار زیادی از چنین نسبتی نشان دهنده وجود یک "هسته" با متغیر ضعیف و یک محیط بسیار پراکنده یا "هاله" است. حول این هسته در جمعیت مورد مطالعه. برای داده های جدول نسبت 5.6 الف: ق= 1.23، که نشان دهنده تفاوت جزئی در قدرت تغییرات در بخش مرکزی جمعیت و در حاشیه آن است.

برای ارزیابی شدت تغییرات و مقایسه آن در جمعیت های مختلف و به ویژه برای ویژگی های مختلف، لازم است شاخص های نسبیتغییرات.آنها به صورت نسبت محاسبه می شوند شاخص های مطلقنقاط قوت تغییرات که قبلاً در مورد مقدار میانگین حسابی این صفت بحث شد. ما شاخص های زیر را دریافت می کنیم:

1) محدوده نسبی تغییرات p:

2) انحراف نسبی در مدول T:

3) ضریب تغییرات به عنوان انحراف مربع نسبی v:

4) فاصله نسبی سه ماهه د:

جایی که q - میانگین فاصله چارکی

برای تغییر عملکرد طبق داده های جدول. 5.6 این شاخص ها عبارتند از:

ρ = 42.4: 30.3 = 1.4 یا 140%؛

تی= 6.85: 30.3 = 0.226، یا 22.6٪.

v = 8.44: 30.3 = 0.279 یا 27.9%؛

د= 5.58: 30.3 = 0.184 یا 18.4%.

ارزیابی درجه شدت تغییرات فقط برای هر ویژگی فردی یک جمعیت از یک ترکیب خاص امکان پذیر است. بنابراین، برای مجموعه‌ای از شرکت‌های کشاورزی، تغییر عملکرد در همان منطقه طبیعی می‌تواند ضعیف ارزیابی شود اگر v < 10%, умеренная при 10% < v < 25% и сильная при v > 25%.

در مقابل، تغییر قد در جمعیتی از مردان یا زنان بالغ، حتی به میزان ۷ درصد، باید توسط افراد قوی ارزیابی و درک شود. بنابراین، ارزیابی شدت تغییرات شامل مقایسه تغییرات مشاهده شده با مقداری از شدت معمول آن است که به عنوان یک استاندارد در نظر گرفته شده است. ما به این واقعیت عادت کرده ایم که بهره وری، درآمد یا درآمد سرانه، تعداد اتاق های نشیمن در یک ساختمان می تواند چندین یا حتی ده ها بار متفاوت باشد، اما تفاوت قد افراد حداقل یک و نیم برابر در حال حاضر درک شده است. به عنوان بسیار قوی

قدرت، تغییرات شدت متفاوت به دلیل دلایل عینی. به عنوان مثال، قیمت فروش دلار آمریکا در بانک های تجاری در سن پترزبورگ در 24 ژانویه 1997 از 5675 تا 5640 روبل متغیر بود. در قیمت میانگین 5664 روبل. محدوده نسبی تنوع ρ = 35:5664 = 0.6%. چنین تغییر کوچکی به این دلیل است که اگر تفاوت قابل توجهی در نرخ دلار وجود داشت، بلافاصله خروج خریداران از بانک "گران قیمت" به بانک های "ارزان تر" رخ می داد. برعکس، قیمت یک کیلوگرم سیب زمینی یا گوشت گاو در مناطق مختلف روسیه بسیار متفاوت است - ده ها درصد یا بیشتر. این با هزینه های مختلف برای تحویل کالا از منطقه تولید کننده به منطقه مصرف کننده توضیح داده می شود. ضرب المثل "یک تلیسه از آن سوی دریا نیم روبل ارزش دارد، اما یک روبل حمل می شود."

5.9. لحظه ها و شاخص های توزیع شکل آن

لحظات مرکزی توزیع

برای مطالعه بیشتر ماهیت تغییرات، از مقادیر متوسط ​​درجات مختلف انحراف مقادیر فردی یک صفت از میانگین حسابی آن استفاده می شود. این شاخص ها نامیده می شوند نقاط مرکزیتوزیع‌های ترتیبی مربوط به درجه افزایش انحرافات (جدول 5.7)، یا به سادگی ممان‌ها (لمان‌های غیرمرکزی به ندرت استفاده می‌شوند و در اینجا در نظر گرفته نمی‌شوند). بزرگی لحظه سوم μ-، مانند علامت آن، به غلبه مکعب های مثبت انحراف بر مکعب های منفی یا بالعکس بستگی دارد. با توزیع نرمال و هر توزیع کاملاً متقارن دیگر، مجموع مکعب های مثبت کاملاً برابر با مجموع مکعب های منفی است.

شاخص های عدم تقارن

بر اساس ممان مرتبه سوم، می توان شاخصی ساخت که درجه عدم تقارن توزیع را مشخص می کند:

مانندتماس گرفت ضریب عدم تقارنمی توان آن را از داده های گروه بندی شده و گروه بندی نشده محاسبه کرد. طبق جدول. 5.6 شاخص عدم تقارن بود:

آن ها عدم تقارن ناچیز است. K. Pearson آماردان انگلیسی، بر اساس تفاوت بین مقدار متوسط ​​و حالت، شاخص دیگری از عدم تقارن را پیشنهاد کرد.

جدول 5.7

لحظات محوری

طبق جدول. 5.6 شاخص پیرسون:

شاخص پیرسون به درجه عدم تقارن در قسمت میانی سری توزیع بستگی دارد و شاخص عدم تقارن بر اساس گشتاور مرتبه سوم به مقادیر شدید مشخصه بستگی دارد. بنابراین، در مثال ما، همانطور که از نمودار مشاهده می شود، در قسمت میانی توزیع، عدم تقارن مهم تر است (شکل 5.1). توزیع هایی با عدم تقارن قوی سمت راست و چپ (مثبت و منفی) در شکل نشان داده شده است. 5.3.

ویژگی های کشش توزیع

با استفاده از گشتاور مرتبه چهارم، ویژگی پیچیده‌تر سری توزیع نسبت به عدم تقارن، فراخوانی شد اضافی.


برنج. 5.3. عدم تقارن، توزیع

شاخص کشش با استفاده از فرمول محاسبه می شود

(5.30)

Kurtosis اغلب به عنوان "تند بودن" توزیع تفسیر می شود، اما این نادقیق و ناقص است. نمودار توزیع بسته به قدرت تغییر صفت می‌تواند به‌طور دلخواه شیب‌دار به نظر برسد: هرچه این تغییرات ضعیف‌تر باشد، منحنی توزیع در یک مقیاس معین تندتر است. ناگفته نماند که با تغییر مقیاس ها در امتداد محور x و مختصات، می توان هر توزیعی را به طور مصنوعی "شیب" و "مسطح" کرد. برای نشان دادن اینکه کشش یک توزیع شامل چه چیزی است و برای تفسیر صحیح آن، لازم است سری‌هایی با قدرت تغییر یکسان (مقدار یکسان σ) و شاخص‌های کشیدگی متفاوت مقایسه شوند. برای اینکه کشیدگی با عدم تقارن اشتباه گرفته نشود، همه سری های مقایسه شده باید متقارن باشند. این مقایسه در شکل نشان داده شده است. 5.4.

شکل 5.4. کورتوز توزیع ها

برای یک سری تغییرات با توزیع نرمال مقادیر من شاخص کشیدگی که با استفاده از فرمول (5.30) محاسبه می شود، j برابر با سه است.

با این حال، چنین شاخصی را نباید اصطلاح "زیاد" نامید که به معنای "زیاد" است. اصطلاح "کورتوز" را نه باید به خود نسبت طبق فرمول (5.30) بلکه برای مقایسه چنین نسبتی برای توزیع مورد مطالعه با مقدار یک نسبت معین از یک توزیع نرمال به کار برد. با مقدار 3. از این رو فرمول های نهایی برای شاخص کشیدگی، i.e. مازاد در مقایسه با توزیع نرمال با قدرت تغییر یکسان به شکل زیر است:

برای سریال های رتبه بندی شده

برای سری تغییرات بازه ای و گسسته

وجود یک کشش مثبت و همچنین تفاوت قابل توجهی که قبلاً ذکر شد بین یک فاصله کوچک سه ماهه و یک انحراف استاندارد بزرگ به این معنی است که در انبوه پدیده های مورد مطالعه یک "هسته" وجود دارد که با توجه به این مشخصه کمی متفاوت است. توسط یک "هاله" پراکنده. با یک کشش منفی قابل توجه، چنین "هسته ای" به هیچ وجه وجود ندارد.

بر اساس مقادیر شاخص‌های عدم تقارن و کشیدگی توزیع، می‌توان نزدیکی توزیع به نرمال را قضاوت کرد که می‌تواند برای ارزیابی نتایج تحلیل همبستگی و رگرسیون و احتمالات ارزیابی احتمالی پیش‌بینی‌ها ضروری باشد. فصل های 7،8،9 را ببینید). اگر شاخص های عدم تقارن و کشش از انحراف استاندارد دوگانه Stz تجاوز نکنند، توزیع را می توان نرمال در نظر گرفت، یا به طور دقیق تر، فرضیه شباهت توزیع واقعی با توزیع نرمال را نمی توان رد کرد. این انحرافات استاندارد با استفاده از فرمول های زیر محاسبه می شوند:

5.10. حداکثر مقادیر ممکن شاخص های تنوع و کاربرد آنها

هنگام استفاده از هر نوع شاخص آماری، دانستن اینکه حداکثر مقادیر ممکن یک شاخص معین برای سیستم مورد مطالعه چقدر است و نسبت مقادیر واقعی مشاهده شده به حداکثر مقادیر ممکن چقدر است مفید است. این مشکل به ویژه هنگام مطالعه تغییرات در شاخص های حجمی، مانند حجم تولید یک نوع محصول خاص، در دسترس بودن منابع خاص، توزیع سرمایه گذاری های سرمایه، درآمد و سود بسیار مهم است. اجازه دهید با استفاده از مثال توزیع محصول سبزی بین بنگاه های کشاورزی منطقه این موضوع را به صورت نظری و عملی بررسی کنیم.

بدیهی است که حداقل مقدار ممکن شاخص های تغییرات با توزیع کاملاً یکنواخت مشخصه حجمی در بین همه واحدهای جمعیت به دست می آید، یعنی با حجم یکسان تولید در هر یک از شرکت های کشاورزی. در چنین توزیع محدود کننده (البته در عمل بسیار بعید) هیچ گونه تغییری وجود ندارد و همه شاخص ها و تغییرات برابر با صفر هستند.

حداکثر مقدار ممکن شاخص‌های تغییرات با چنین توزیع مشخصه حجمی در جمعیتی به دست می‌آید که کل حجم آن در یک واحد جمعیت متمرکز است. به عنوان مثال، کل حجم تولید سبزیجات در یک شرکت کشاورزی در منطقه است، در حالی که در سایر مزارع هیچ تولیدی وجود ندارد. احتمال چنین غلظت بسیار ممکنی از حجم یک مشخصه در یک واحد جمعیت چندان کم نیست. در هر صورت، بسیار بیشتر از احتمال توزیع کاملاً یکنواخت است.

اجازه دهید شاخص های تغییرات را برای حالت محدود کننده حداکثر آن در نظر بگیریم. اجازه دهید تعداد واحدهای جمعیت را مشخص کنیم پ،میانگین ارزش صفت ایکس̅ , سپس حجم کل ویژگی در مجموع به صورت بیان می شود ایکس̅ پ.کل این حجم در یک واحد از کل متمرکز شده است، بنابراین ایکسحداکثر= x̅ p.xدقیقه = 0, که از آن نتیجه می شود که حداکثر مقدار دامنه (محدوده تغییرات) برابر است با:

برای محاسبه حداکثر مقادیر مدول و درجه دوم انحرافات متوسط، جدولی از انحرافات می سازیم (جدول 5.8).

جدول 5.8

ماژول ها و مربع های انحراف از میانگین در حداکثرتنوع ممکن

اعداد واحد جمعیت

ارزش های مشخصه

انحراف از میانگین

x i - ایکس̅

ماژول های انحراف

|x i - x̅|

انحرافات مربعی

(ایکسمن- ایکس̅ ) 2

ایکس̅ پ

ایکس̅ (پ - 1)

-ایکس̅

-ایکس̅

-ایکس̅

ایکس̅ (پ - 1)

ایکس̅

ایکس̅

ایکس̅

ایکس̅ 2 (پ - 1) 2

ایکس̅ 2

ایکس̅ 2

ایکس̅ 2

ایکس̅ پ

2ایکس̅ (پ - 1)

ایکس̅ 2 [(پ - 1) 2 +(n-1)]

بر اساس عبارات خط پایانی جدول. 5.8، ما حداکثر مقادیر ممکن زیر را از شاخص های تغییرات بدست می آوریم.

مدول انحراف متوسط ​​یا انحراف خطی متوسط:

انحراف معیار:

انحراف مدولار نسبی (خطی):

ضریب تغییرات:

در مورد فاصله سه ماهه، سیستم با حداکثر تغییر ممکن ساختار توزیع منحط ویژگی دارد که در آن ویژگی های ساختار وجود ندارد ("کار نمی کند"): میانه، چارک ها و موارد مشابه.

بر اساس فرمول های به دست آمده برای حداکثر مقادیر ممکن شاخص های اصلی تغییرات، اول از همه، نتیجه گیری در مورد وابستگی این مقادیر به حجم جمعیت به دست می آید. پ.این وابستگی در جدول خلاصه شده است. 5.9.

باریک‌ترین محدودیت‌های تغییر و وابستگی ضعیف به اندازه جمعیت در مدول متوسط ​​و انحراف خطی نسبی یافت می‌شود. برعکس، انحراف معیار و ضریب تغییرات به شدت به تعداد واحدهای جمعیت بستگی دارد. این وابستگی باید در هنگام مقایسه شدت تنوع در جمعیت های با اندازه های مختلف در نظر گرفته شود. اگر در یک مجموعه 6 شرکتی ضریب تغییرات حجم تولید 0.58 و در مجموعه 20 شرکتی 0.72 بود، آیا منصفانه است که نتیجه بگیریم که حجم تولید در مجموعه دوم ناهموارتر است؟ در واقع، در اولین، کوچکتر، 0.58 بود: 2.24 = 25.9٪ از حداکثر ممکن، یعنی. حداکثر سطح تمرکز تولید در یک شرکت از شش شرکت و در دومین جمعیت بزرگتر، ضریب تغییرات مشاهده شده تنها 0.72 بود: 4.36 = 16.5٪ از حداکثر ممکن.

جدول 5.9

مقادیر حدی شاخص های تنوع یک صفت حجمی در اندازه های مختلف جمعیت

تعداد مصالح

حداکثر مقادیر شاخص ها

ایکس̅

ایکس̅

1,5ایکس̅

1,73ایکس̅

1,67ایکس̅

2,24ایکس̅

1,80ایکس̅

3ایکس̅

1,90ایکس̅

4,36ایکس̅

1,96ایکس̅

7ایکس̅

1,98ایکس̅

9,95ایکس̅

2ایکس̅

چنین شاخصی مانند نسبت میانگین مدول واقعی انحرافات به حداکثر ممکن نیز از اهمیت عملی برخوردار است. بنابراین، برای مجموعه ای از شش شرکت این نسبت: 0.47: 1.67 = 0.281 یا 28.1٪ بود. تفسیر شاخص به دست آمده به شرح زیر است: برای انتقال از توزیع مشاهده شده حجم تولید بین شرکت ها، به توزیع یکنواختباید دوباره توزیع شود

23.4 درصد از کل تولید در کل. اگر درجه غلظت واقعی تولید (مقدار واقعی σ یا v) هنگام انحصار تولید در یک شرکت، نسبت معینی از ارزش حدی را تشکیل می دهد، سپس نسبت شاخص واقعی به مقدار حدی می تواند میزان تمرکز (یا انحصار) تولید را مشخص کند.

نسبت مقادیر واقعی شاخص های تغییر یا تغییر ساختار به حداکثر موارد ممکن نیز در تجزیه و تحلیل تغییرات ساختاری استفاده می شود (به فصل 11 مراجعه کنید).

1. جین کی.مقادیر متوسط - م.: آمار، 1970.

2. Krivenkova L. N.، Yuzbashev M. M.حوزه وجود شاخص های تغییرات و کاربرد آن // بولتن آمار. - 1991. - شماره 6. - ص 66-70.

3. پسخاور I. S.مقادیر متوسط ​​در آمار - م.: آمار. 1979.

4. شوراکوف V.V.، Dayitbegov D.M. و همکاران.خودکار محل کارپردازش داده های آماری (فصل 4. پردازش داده های آماری اولیه). - م.: امور مالی و آمار، 1990.

مهم ترین مرحله در مطالعه پدیده ها و فرآیندهای اجتماعی-اقتصادی، نظام مند کردن داده های اولیه و بر این اساس، به دست آوردن ویژگی خلاصه ای از کل شی با استفاده از شاخص های کلی است که با جمع بندی و گروه بندی مواد اولیه آماری به دست می آید.

خلاصه آماری - این مجموعه ای از عملیات متوالی برای تعمیم حقایق فردی خاص است که مجموعه ای را به منظور شناسایی ویژگی ها و الگوهای معمولی ذاتی در پدیده مورد مطالعه به عنوان یک کل تشکیل می دهد. انجام خلاصه آماری شامل مراحل زیر می باشد :

  • انتخاب ویژگی های گروه بندی؛
  • تعیین ترتیب تشکیل گروه؛
  • توسعه یک سیستم از شاخص های آماری برای توصیف گروه ها و شی به عنوان یک کل؛
  • توسعه طرح بندی جدول های آماری برای ارائه نتایج خلاصه.

گروه بندی آماری تقسیم واحدهای جمعیت مورد مطالعه به گروه های همگن با توجه به ویژگی های خاصی که برای آنها ضروری است نامیده می شود. گروه بندی از همه مهمتر است روش آماریتعمیم ها داده های آماری، مبنای محاسبه صحیح شاخص های آماری.

انواع زیر از گروه بندی متمایز می شود: گونه شناسی، ساختاری، تحلیلی. همه این گروه بندی ها با این واقعیت متحد می شوند که واحدهای شیء بر اساس برخی ویژگی ها به گروه هایی تقسیم می شوند.

قابلیت گروه بندی مشخصه ای است که براساس آن واحدهای یک جمعیت به گروه های جداگانه تقسیم می شوند. از جانب انتخاب درستویژگی گروه بندی به نتیجه گیری بستگی دارد تحقیق آماری. به عنوان مبنایی برای گروه بندی، لازم است از ویژگی های مهم و مبتنی بر نظری (کمی یا کیفی) استفاده شود.

ویژگی های کمی گروه بندی دارای یک عبارت عددی (حجم معاملات، سن فرد، درآمد خانواده و غیره) و نشانه های کیفی گروه بندی منعکس کننده وضعیت یک واحد جمعیت (جنسیت، وضعیت خانوادگی، وابستگی صنعتی شرکت، شکل مالکیت آن و غیره).

پس از مشخص شدن مبنای گروه بندی، باید در مورد تعداد گروه هایی که جمعیت مورد مطالعه باید به آنها تقسیم شود، تصمیم گیری شود. تعداد گروه ها به اهداف مطالعه و نوع شاخص زیربنایی گروه بندی، حجم جمعیت و درجه تنوع مشخصه بستگی دارد.

به عنوان مثال، گروه بندی شرکت ها بر اساس نوع مالکیت، دارایی موضوع شهرداری، فدرال و فدرال را در نظر می گیرد. اگر گروه بندی بر اساس یک معیار کمی انجام شود، لازم است به تعداد واحدهای شی مورد مطالعه و درجه نوسانات مشخصه گروه بندی توجه ویژه ای شود.

پس از تعیین تعداد گروه ها، فواصل گروه بندی باید مشخص شود. فاصله - اینها مقادیر یک مشخصه متفاوت هستند که در محدوده خاصی قرار دارند. هر بازه مقدار خود را دارد، مرزهای بالا و پایین یا حداقل یکی از آنها.

حد پایین بازه کوچکترین مقدار مشخصه در بازه نامیده می شود و حد بالا - بالاترین مقدار مشخصه در بازه. مقدار فاصله، تفاوت بین مرزهای بالا و پایین است.

فواصل گروه بندی بسته به اندازه آنها عبارتند از: مساوی و نابرابر. اگر تنوع یک مشخصه خود را در محدوده های نسبتاً باریک نشان دهد و توزیع یکنواخت باشد، آنگاه یک گروه در فواصل مساوی ساخته می شود. مقدار فاصله برابر با فرمول زیر تعیین می شود :

که در آن Xmax، Xmin حداکثر و حداقل مقادیر مشخصه در مجموع هستند. n - تعداد گروه ها.

ساده ترین گروه بندی که در آن هر گروه انتخاب شده با یک شاخص مشخص می شود، یک سری توزیع را نشان می دهد.

سری های آماریتوزیع - این توزیع منظم واحدهای جمعیتی به گروه ها با توجه به یک ویژگی خاص است. بسته به ویژگی زیربنایی تشکیل سری توزیع، سری های توزیع اسنادی و متغیر متمایز می شوند.

اسنادی سری های توزیع نامیده می شوند که بر اساس ویژگی های کیفی ساخته شده اند، یعنی ویژگی هایی که بیان عددی ندارند (توزیع بر اساس نوع کار، جنسیت، حرفه و غیره). سری های توزیع اسنادی ترکیب جمعیت را با توجه به ویژگی های اساسی خاص مشخص می کند. این داده ها که طی چندین دوره گرفته شده اند، امکان مطالعه تغییرات در ساختار را فراهم می کنند.

سری های متغیر سری های توزیع ساخته شده بر اساس کمی نامیده می شوند. هر سری تغییرات از دو عنصر تشکیل شده است: گزینه ها و فرکانس ها. گزینه ها مقادیر فردی مشخصه ای که در سری تغییرات می گیرد، یعنی مقدار خاص مشخصه متغیر نامیده می شود.

فرکانس ها اعداد انواع مختلف یا هر گروه از یک سری تغییرات نامیده می‌شوند، یعنی این اعداد هستند که نشان می‌دهند هر چند وقت یک‌بار انواع خاصی در سری توزیع رخ می‌دهند. مجموع همه فرکانس ها اندازه کل جمعیت، حجم آن را تعیین می کند. فرکانس ها فرکانس هایی نامیده می شوند که در کسری از یک واحد یا به صورت درصدی از کل بیان می شوند. بر این اساس مجموع فرکانس ها برابر با 1 یا 100 درصد است.

بسته به ماهیت تغییرات یک مشخصه، سه شکل سری تغییرات متمایز می شود: سری رتبه بندی، سری گسسته و سری های فاصله.

سری تغییرات رتبه بندی شده - این توزیع واحدهای فردی جمعیت به ترتیب صعودی یا نزولی مشخصه مورد مطالعه است. رتبه بندی به شما امکان می دهد داده های کمی را به راحتی به گروه ها تقسیم کنید، بلافاصله کوچک ترین و بزرگترین مقادیر یک مشخصه را شناسایی کنید و مقادیری را که اغلب تکرار می شوند برجسته کنید.

سری تغییرات گسسته توزیع واحدهای جمعیت را بر اساس یک مشخصه گسسته مشخص می کند که فقط مقادیر صحیح را می گیرد. به عنوان مثال، دسته تعرفه، تعداد فرزندان در خانواده، تعداد کارکنان در شرکت و غیره.

اگر یک مشخصه دارای تغییر مداوم باشد که در محدوده خاصی می تواند هر مقدار را بگیرد ("از - به") ، برای این مشخصه لازم است ساخته شود سری تغییرات بازه ای . به عنوان مثال، میزان درآمد، طول خدمت، هزینه دارایی های ثابت شرکت و غیره.

نمونه هایی از حل مسائل با موضوع خلاصه آماری و گروه بندی

مشکل 1 . اطلاعاتی در مورد تعداد کتاب هایی که دانش آموزان از طریق اشتراک در سال تحصیلی گذشته دریافت کرده اند وجود دارد.

ساخت سری توزیع تنوع رتبه بندی شده و گسسته، تعیین عناصر سری.

راه حل

این مجموعه گزینه های زیادی را برای تعداد کتاب های دریافتی دانش آموزان نشان می دهد. بیایید تعداد این گزینه ها را بشماریم و آنها را به صورت رتبه بندی متغیر و متغیر مرتب کنیم سری گسستهتوزیع ها

مشکل 2 . داده هایی در مورد هزینه دارایی های ثابت برای 50 شرکت، هزار روبل وجود دارد.

ساخت یک سری توزیع، برجسته کردن 5 گروه از شرکت ها (در فواصل مساوی).

راه حل

برای حل، بزرگترین و را انتخاب می کنیم کوچکترین ارزشارزش دارایی های ثابت شرکت ها اینها 30.0 و 10.2 هزار روبل هستند.

بیایید اندازه فاصله را پیدا کنیم: h = (30.0-10.2): 5 = 3.96 هزار روبل.

سپس گروه اول شامل شرکت هایی می شود که دارایی های ثابت آنها از 10.2 هزار روبل است. تا 10.2 + 3.96 = 14.16 هزار روبل. 9 شرکت وجود خواهد داشت.گروه دوم شامل شرکت هایی است که دارایی های ثابت آنها از 14.16 هزار روبل می رسد. تا 14.16 + 3.96 = 18.12 هزار روبل. 16 بنگاه از این دست وجود خواهد داشت و به همین ترتیب، تعداد بنگاه های موجود در گروه های سوم، چهارم و پنجم را خواهیم یافت.

سری توزیع حاصل را در جدول قرار می دهیم.

مشکل 3 . برای تعدادی از شرکت ها صنعت سبکداده های زیر دریافت شد:

شرکت ها را بر اساس تعداد کارگران گروه بندی کنید و در فواصل مساوی 6 گروه تشکیل دهید. برای هر گروه محاسبه کنید:

1. تعداد شرکت ها
2. تعداد کارگران
3. حجم محصولات تولید شده در سال
4. میانگین تولید واقعی به ازای هر کارگر
5. حجم دارایی های ثابت
6. اندازه متوسط ​​دارایی های ثابت یک شرکت
7. میانگین ارزش محصولات تولید شده توسط یک شرکت

نتایج محاسبات را در جداول ارائه دهید. نتیجه گیری کن.

راه حل

برای حل، ما بزرگترین و کوچکترین مقادیر میانگین تعداد کارگران شرکت را انتخاب می کنیم. اینها 43 و 256 هستند.

بیایید اندازه فاصله را پیدا کنیم: h = (256-43): 6 = 35.5

سپس گروه اول شامل شرکت هایی خواهد بود که میانگین تعداد کارگران آنها از 43 تا 43 + 35.5 = 78.5 نفر است. از این قبیل 5 بنگاه وجود خواهد داشت که گروه دوم شامل بنگاه هایی می شود که میانگین تعداد کارگران آنها از 78.5 تا 78.5+35.5=114 نفر خواهد بود. از این دست 12 بنگاه وجود خواهد داشت و به همین ترتیب تعداد بنگاه های موجود در گروه های سوم، چهارم، پنجم و ششم را خواهیم یافت.

مجموعه توزیع حاصل را در جدول قرار می دهیم و شاخص های لازم را برای هر گروه محاسبه می کنیم:

نتیجه : همانطور که از جدول مشخص است، گروه دوم بنگاه ها بیشترین تعداد را دارند. شامل 12 شرکت است. کوچکترین گروهها گروه پنجم و ششم (هر کدام دو شرکت) هستند. اینها بزرگترین شرکتها (از نظر تعداد کارگران) هستند.

از آنجایی که گروه دوم بزرگ ترین است، حجم محصولات تولیدی در سال توسط بنگاه های این گروه و حجم دارایی های ثابت به طور قابل توجهی بیشتر از سایرین است. در عین حال، میانگین تولید واقعی هر کارگر در شرکت‌های این گروه بیشترین مقدار را ندارد. شرکت های گروه چهارم در اینجا پیشرو هستند. این گروه همچنین حجم نسبتاً زیادی از دارایی های ثابت را به خود اختصاص می دهد.

در خاتمه، ما متذکر می شویم که اندازه متوسط ​​دارایی های ثابت و مقدار متوسط ​​خروجی تولید شده توسط یک شرکت به طور مستقیم با اندازه شرکت (از نظر تعداد کارگران) متناسب است.

اولین مرحله از مطالعه آماری تغییرات، ساخت یک سری تغییرات است - توزیع مرتب واحدهای جمعیت با توجه به افزایش (بیشتر) یا کاهش (کمتر) مقادیر یک مشخصه و شمارش تعداد واحدها با یک مشخصه. ارزش خاص مشخصه

سه شکل از سری تغییرات وجود دارد: رتبه بندی، گسسته، فاصله. یک سری تغییرات اغلب سری توزیع نامیده می شود. این اصطلاح در بررسی تنوع در صفات کمی و غیر کمی استفاده می شود. سری توزیع یک گروه بندی ساختاری است (فصل 6).

سری رتبه‌بندی‌شده فهرستی از واحدهای فردی یک جمعیت به ترتیب صعودی (نزولی) مشخصه مورد مطالعه است.

در زیر جزئیات در مورد بانک های بزرگسن پترزبورگ، رتبه بندی شده بر اساس سرمایه سهام در 10/01/1999.

نام بانک سرمایه شخصی، میلیون روبل. بانک بالتونکسیم 169

بانک "سن پترزبورگ" 237

پتروفسکی 268

بالتیک 290

Promstroybank 1007

اگر تعداد واحدهای جمعیتی به اندازه کافی زیاد باشد، سری رتبه بندی شده دست و پا گیر می شود و ساخت آن، حتی با کمک کامپیوتر، زمان زیادی می برد. در چنین مواردی، یک سری تغییرات با گروه بندی واحدهای جمعیت بر اساس مقادیر مشخصه مورد مطالعه ساخته می شود.


تعیین تعداد گروه ها

تعداد گروه ها در یک سری تغییرات گسسته با تعداد مقادیر واقعی موجود مشخصه متغیر تعیین می شود. اگر یک مشخصه مقادیر گسسته ای داشته باشد، اما تعداد آنها بسیار زیاد باشد (به عنوان مثال، تعداد دام ها در اول ژانویه سال در شرکت های مختلف کشاورزی می تواند از صفر تا ده ها هزار راس باشد)، سپس یک سری تغییرات بازه ای ساخته می شود. . یک سری تغییرات بازه‌ای نیز برای مطالعه ویژگی‌هایی ساخته شده است که می‌توانند هر عدد صحیح و کسری را در

مناطق وجودی آن اینها به عنوان مثال، سودآوری محصولات فروخته شده، هزینه هر واحد تولید، درآمد به ازای هر ساکن شهر، سهم افراد دارای تحصیلات عالی در میان جمعیت مناطق مختلف و به طور کلی تمام ویژگی های ثانویه، ارزش های که با تقسیم مقدار یک مشخصه اولیه بر مقدار دیگری محاسبه می شوند (به فصل 3 مراجعه کنید).

سری تغییرات بازه‌ای جدولی است متشکل از دو ستون (یا ردیف) - فواصل مشخصه‌ای که تغییرات آن مورد مطالعه قرار می‌گیرد، و تعداد واحدهای جمعیتی که در یک بازه معین (فرکانس‌ها) قرار می‌گیرند، یا نسبت این تعداد از کل. جمعیت (فرکانس ها).

متداول ترین آنها دو نوع سری تغییرات بازه ای است: فاصله مساوی و فرکانس مساوی. اگر تغییر مشخصه خیلی قوی نباشد، از یک سری فاصله مساوی استفاده می شود، یعنی. برای یک جمعیت همگن که توزیع آن بر اساس این مشخصه نزدیک به قانون عادی است. (چنین سری در جدول 5.6 ارائه شده است.) اگر تغییر یک مشخصه بسیار قوی باشد، اما توزیع نرمال نباشد، اما مثلاً هذلولی باشد، از یک سری فرکانس مساوی استفاده می شود (جدول 5.5).

هنگام ساخت یک سری با فاصله مساوی، تعداد گروه ها به گونه ای انتخاب می شود که تنوع مقادیر مشخصه در مجموع به اندازه کافی منعکس شود و در عین حال، الگوی توزیع با نوسانات فرکانس تصادفی تحریف نشود. اگر گروه ها خیلی کم باشند، الگوی تنوع ظاهر نمی شود. اگر گروه‌ها خیلی زیاد باشند، جهش‌های فرکانس تصادفی شکل توزیع را مخدوش می‌کند.



مرزهای بازه ها را می توان به روش های مختلفی مشخص کرد: مرز بالایی بازه قبلی، مرز پایینی فاصله بعدی را تکرار می کند، همانطور که در جدول نشان داده شده است. 5.5 یا تکرار نمی شود.

در مورد دوم، فاصله دوم به عنوان 15.1-20 تعیین می شود، سوم - به عنوان 20.1-25، و غیره، یعنی. فرض بر این است که تمام مقادیر بازده باید به یک دهم گرد شوند. علاوه بر این، یک عارضه نامطلوب با وسط فاصله 15.1-20 ایجاد می شود که، به طور دقیق، دیگر برابر با 17.5 نیست، بلکه 17.55 خواهد بود. بر این اساس، هنگام جایگزینی فاصله گرد شده 40-60 با 40.1-60 به جای مقدار گرد شده 50 وسط آن، 50.5 به دست می آید. بنابراین، ترجیح داده می شود که فواصل با یک مرز گرد تکرار شونده باقی بماند و توافق شود که واحدهای جمعیتی دارای مقدار مشخصه برابر با مرز بازه زمانی در بازه ای که این مقدار دقیق برای اولین بار نشان داده می شود، لحاظ شود. به این ترتیب مزرعه ای با عملکرد برابر با 15 درجه سانتی گراد در گروه اول قرار می گیرد که مقدار آن 20 سانتی متر در هکتار است.

به دومی و غیره

یک سری تغییرات فرکانس مساوی زمانی ضروری است که یک تغییر بسیار قوی از یک مشخصه وجود داشته باشد زیرا، با توزیع فاصله مساوی، اکثر واحدهای جمعیت ظاهر می شوند.


جدول 5.5

توزیع 100 بانک روسیه بر اساس ارزیابی ترازنامه دارایی ها از 01/01/2000.


مرزهای فواصل برای توزیع فرکانس برابر، مقادیر واقعی دارایی های بانک های اول، دهم، یازدهم، بیستم و غیره است.

نمایش گرافیکی سری تغییرات

یک نمایش گرافیکی کمک قابل توجهی در تجزیه و تحلیل سری تغییرات و ویژگی های آن ارائه می دهد. یک سری فاصله با یک نمودار میله ای نشان داده می شود که در آن پایه میله های واقع در محور آبسیسا فواصل مقادیر مشخصه متغیر است و ارتفاع میله ها فرکانس های مربوط به مقیاس در امتداد ارتین هستند. محور. یک نمایش گرافیکی از توزیع مزارع در منطقه بر اساس عملکرد دانه در شکل 1 نشان داده شده است.

5.1. نموداری از این نوع اغلب هیستوگرام (gr. histos - بافت) نامیده می شود.

داده های جدول 5.6 و شکل. 5.1 یک شکل توزیع مشخصه بسیاری از ویژگی ها را نشان می دهد: مقادیر میانگین فواصل مشخصه رایج تر است و مقادیر شدید، کوچک و بزرگ مشخصه کمتر رایج است. شکل این توزیع نزدیک به قانون توزیع نرمال است که در درس آمار ریاضی مطرح شد. ریاضیدان بزرگ روسی A. M. Lyapunov (1857-1918) ثابت کرد که نرمال

جدول 5.6 توزیع مزارع منطقه بر اساس عملکرد دانه


اگر یک متغیر تحت تأثیر تعداد زیادی از عوامل قرار گیرد، توزیع کوچکی تشکیل می‌شود که هیچ یک از آنها تأثیر غالبی ندارند. ترکیب تصادفی بسیاری از عوامل تقریباً مساوی مؤثر بر تغییرات در عملکرد محصولات غلات، اعم از طبیعی و کشاورزی، اقتصادی، توزیعی از مزارع در منطقه را بر اساس عملکرد نزدیک به قانون توزیع عادی ایجاد می کند.


برنج. 5.2. انباشته و تخمین توزیع مزارع توسط

بهره وری

به چنین مجموعه ای تجمعی می گویند. شما می توانید یک توزیع تجمعی "نه کمتر از" بسازید، یا می توانید

"بیشتر از". در مورد اول، نمودار توزیع تجمعی تجمعی نامیده می شود، در حالت دوم - ogive (شکل 5.2).

چگالی توزیع

اگر باید با یک سری تغییرات با فواصل نامساوی مقابله کنید، برای مقایسه باید فرکانس یا فرکانس را به واحد بازه کاهش دهید. نسبت حاصل را چگالی توزیع می نامند:


چگالی توزیع هم برای محاسبه شاخص های کلی و هم برای نمایش گرافیکی سری تغییرات با فواصل نامساوی استفاده می شود.

در قالب سری های توزیع ارائه شده و در قالب ارائه می شوند.

سری توزیع یکی از انواع گروه بندی است.

محدوده توزیع- نشان دهنده یک توزیع منظم از واحدهای جمعیت مورد مطالعه به گروه ها بر اساس یک ویژگی متفاوت است.

بسته به ویژگی اساسی تشکیل سری توزیع، آنها متمایز می شوند اسنادی و متغیرردیف های توزیع:

  • اسنادی- سری های توزیعی نامیده می شوند که بر اساس ویژگی های کیفی ساخته شده اند.
  • سری های توزیع ساخته شده به ترتیب صعودی یا نزولی مقادیر یک مشخصه کمی نامیده می شوند. متغیر.
سری تغییرات توزیع شامل دو ستون است:

ستون اول مقادیر کمی از مشخصه های مختلف را ارائه می دهد که نامیده می شوند گزینه هاو تعیین شده اند. گزینه گسسته - به صورت یک عدد صحیح بیان می شود. گزینه interval از و تا متغیر است. بسته به نوع گزینه ها، می توانید یک سری تغییرات گسسته یا بازه ای بسازید.
ستون دوم شامل تعداد گزینه خاص، بر حسب فرکانس یا فرکانس بیان می شود:

فرکانس ها- این اعداد مطلق، نشان دادن تعداد دفعاتی که یک مقدار مشخص از یک مشخصه در مجموع رخ می دهد، که نشان دهنده . مجموع همه فرکانس ها باید برابر با تعداد واحدهای کل جمعیت باشد.

فرکانس ها() فرکانس هایی هستند که به صورت درصدی از کل بیان می شوند. مجموع همه فرکانس‌ها که به صورت درصد بیان می‌شوند باید برابر با 100% در کسری از یک باشد.

نمایش گرافیکی سری های توزیع

سری های توزیع به صورت بصری با استفاده از تصاویر گرافیکی ارائه می شوند.

سری های توزیع به شرح زیر است:
  • چند ضلعی
  • هیستوگرام ها
  • تجمع می کند
  • می دهد

چند ضلعی

هنگام ساخت یک چند ضلعی، مقادیر مشخصه متغیر در محور افقی (محور x) و فرکانس ها یا فرکانس ها در محور عمودی (محور y) رسم می شوند.

چند ضلعی در شکل 6.1 بر اساس داده های سرشماری خرد جمعیت روسیه در سال 1994 است.

6.1. توزیع اندازه خانوار

وضعیت: داده ها در مورد توزیع 25 کارمند یکی از شرکت ها بر اساس دسته های تعرفه ارائه شده است:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
وظیفه: یک سری تغییرات گسسته بسازید و آن را به صورت گرافیکی به صورت چندضلعی توزیع به تصویر بکشید.
راه حل:
در این مثال، گزینه ها درجه حقوق کارمند هستند. برای تعیین فرکانس ها، لازم است تعداد کارکنان با دسته تعرفه مربوطه محاسبه شود.

چند ضلعی برای سری تغییرات گسسته استفاده می شود.

برای ساختن یک چندضلعی توزیع (شکل 1)، مقادیر کمی مشخصه های متغیر - انواع - را در امتداد محور آبسیسا (X) و فرکانس ها یا فرکانس ها را در امتداد محور ارتین رسم می کنیم.

اگر مقادیر یک مشخصه به صورت فواصل بیان شود، چنین سری فاصله نامیده می شود.
سری فاصلهتوزیع ها به صورت گرافیکی در قالب هیستوگرام، تجمع یا ogive به تصویر کشیده می شوند.

جدول آماری

وضعیت: داده های مربوط به اندازه سپرده ها 20 داده شده است اشخاص حقیقیدر یک بانک (هزار روبل) 60؛ 25; 12; 10; 68; 35; 2 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
وظیفه: یک سری تغییرات بازه ای با فواصل مساوی بسازید.
راه حل:

  1. جمعیت اولیه شامل 20 واحد (N = 20) است.
  2. با استفاده از فرمول استرجس تعیین می کنیم مقدار مورد نیازگروه های مورد استفاده: n=1+3322*lg20=5
  3. بیایید مقدار فاصله مساوی را محاسبه کنیم: i=(152 - 2) /5 = 30 هزار روبل
  4. بیایید جمعیت اولیه را به 5 گروه با فاصله 30 هزار روبل تقسیم کنیم.
  5. ما نتایج گروه بندی را در جدول ارائه می دهیم:

با چنین ضبط یک مشخصه پیوسته، زمانی که یک مقدار دو بار اتفاق می افتد (به عنوان حد بالایی یک بازه و حد پایینی یک بازه دیگر)، آنگاه این مقدار متعلق به گروهی است که این مقدار به عنوان حد بالایی عمل می کند.

نمودار میله ای

برای ساختن هیستوگرام، مقادیر مرزهای فواصل در امتداد محور آبسیسا نشان داده شده و بر اساس آنها مستطیل هایی ساخته می شود که ارتفاع آنها متناسب با فرکانس ها (یا فرکانس ها) است.

در شکل 6.2. هیستوگرام توزیع جمعیت روسیه در سال 1997 بر اساس گروه سنی را نشان می دهد.

برنج. 6.2. توزیع جمعیت روسیه بر اساس گروه های سنی

وضعیت: توزیع 30 نفر از کارکنان شرکت بر اساس حقوق ماهانه داده شده است

وظیفه: سری تغییرات بازه را به صورت گرافیکی به صورت هیستوگرام نمایش داده و انباشته کنید.
راه حل:

  1. مرز ناشناخته بازه باز (اول) با مقدار فاصله دوم تعیین می شود: 7000 - 5000 = 2000 روبل. با همان مقدار، حد پایین بازه اول را پیدا می کنیم: 5000 - 2000 = 3000 روبل.
  2. برای ساختن یک هیستوگرام در یک سیستم مختصات مستطیلی، بخش هایی را در امتداد محور آبسیسا رسم می کنیم که مقادیر آنها با فواصل سری واریسی مطابقت دارد.
    این بخش ها خدمت می کنند پایه پایین، و فرکانس مربوطه (فرکانس) ارتفاع مستطیل های تشکیل شده است.
  3. بیایید یک هیستوگرام بسازیم:

برای ساخت انباشته ها باید فرکانس های انباشته شده (فرکانس ها) را محاسبه کرد. آنها با جمع کردن متوالی فرکانس‌ها (فرکانس‌های) بازه‌های قبلی تعیین می‌شوند و S تعیین می‌شوند.

تجمع می کند

توزیع یک مشخصه در یک سری تغییرات روی فرکانس‌های انباشته شده (فرکانس‌ها) با استفاده از یک تجمع نشان داده می‌شود.

تجمع می کندیا یک منحنی تجمعی، بر خلاف چند ضلعی، از فرکانس ها یا فرکانس های انباشته ساخته شده است. در این حالت، مقادیر مشخصه روی محور آبسیسا قرار می‌گیرند و فرکانس‌ها یا فرکانس‌های انباشته‌شده روی محور ارتین قرار می‌گیرند (شکل 6.3).

برنج. 6.3. انباشته توزیع اندازه خانوار

4. بیایید فرکانس های انباشته شده را محاسبه کنیم:
فرکانس تجمعی بازه اول به شرح زیر محاسبه می شود: 0 + 4 = 4، برای دوم: 4 + 12 = 16. برای سوم: 4 + 12 + 8 = 24 و غیره.

هنگام ساخت یک تجمع، فرکانس (فرکانس) انباشته بازه مربوطه به حد بالایی آن اختصاص داده می شود:

اوگیوا

اوگیوامشابه انباشته ساخته شده است با تنها تفاوت این که فرکانس های انباشته شده روی محور آبسیسا و مقادیر مشخصه روی محور ارتین قرار می گیرند.

یک نوع تجمع منحنی غلظت یا نمودار لورنتس است. برای ساخت منحنی غلظت، مقیاس مقیاس با درصد از 0 تا 100 بر روی هر دو محور سیستم مختصات مستطیلی رسم می شود و در عین حال، فرکانس های انباشته شده در محور آبسیسا و مقادیر انباشته سهم نشان داده می شود. (بر حسب درصد) بر حسب حجم مشخصه در محور ارتین نشان داده شده است.

توزیع یکنواخت مشخصه مطابق با مورب مربع در نمودار است (شکل 6.4). با توزیع ناهموار، نمودار بسته به سطح غلظت صفت، منحنی مقعر را نشان می دهد.

6.4. منحنی تمرکز
با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...