چگونه یک سری توزیع گسسته بسازیم. ساخت یک سری توزیع بازه ای

گروه بندی داده های آماری چیست و چگونه با سری های توزیع مرتبط است، در این سخنرانی مورد بررسی قرار گرفت، که در آن شما همچنین می توانید با چیستی سری های توزیع گسسته و متغیر آشنا شوید.

سری های توزیعی یکی از انواع سری های آماری هستند (علاوه بر آنها از سری های دینامیکی در آمار استفاده می شود) از آنها برای تجزیه و تحلیل داده های پدیده ها استفاده می شود. زندگی عمومی. ساختمان سری تغییراتیک کار کاملا عملی برای همه با این حال، قوانینی وجود دارد که باید به خاطر بسپارید.

چگونه یک سری توزیع متغیر گسسته بسازیم

مثال 1 اطلاعات در مورد تعداد فرزندان در 20 خانواده مورد بررسی موجود است. یک سری تغییرات گسسته بسازید توزیع خانواده هابر اساس تعداد فرزندان.

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

راه حل:

بیایید با چیدمان جدول شروع کنیم، که سپس داده ها را وارد می کنیم. از آنجایی که سطرهای توزیع دارای دو عنصر هستند، جدول از دو ستون تشکیل شده است. ستون اول همیشه یک نوع است - آنچه ما در حال مطالعه آن هستیم - نام آن را از تکلیف گرفته ایم (پایان جمله با تکلیف در شرایط) - بر اساس تعداد فرزندان- بنابراین نسخه ما تعداد فرزندان است.

ستون دوم بسامد است - هر چند وقت یکبار نوع ما در پدیده مورد مطالعه رخ می دهد - ما همچنین نام ستون را از کار می گیریم - توزیع خانواده ها - بنابراین فراوانی ما تعداد خانواده هایی است که تعداد فرزندان مربوطه را دارند.

اکنون، از داده های اولیه، مقادیری را انتخاب می کنیم که حداقل یک بار اتفاق می افتد. در مورد ما، این

و بیایید این داده ها را در ستون اول جدول به ترتیب منطقی مرتب کنیم، در این حالت از 0 به 4 افزایش می یابد.

و در پایان، بیایید محاسبه کنیم که هر مقدار از گزینه ها چند بار رخ می دهد.

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

در نتیجه یک جدول کامل یا سری مورد نیاز از توزیع خانواده ها بر اساس تعداد فرزندان بدست می آوریم.

ورزش . داده هایی در مورد دسته بندی تعرفه 30 کارگر شرکت وجود دارد. یک سری تغییرات گسسته برای توزیع کارگران بر اساس دسته دستمزد بسازید. 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

چگونه یک سری تغییرات بازه ای توزیع بسازیم

بیایید یک سری توزیع بازه ای بسازیم، و ببینیم که ساختار آن با یک سری گسسته چه تفاوتی دارد.

مثال 2 اطلاعاتی در مورد میزان سود دریافتی توسط 16 شرکت، میلیون روبل وجود دارد. — 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. یک سری متغیر بازه ای برای توزیع شرکت ها بر اساس حجم سود بسازید و 3 گروه را در فواصل مساوی انتخاب کنید.

اصل کلی ساخت یک سری البته حفظ خواهد شد، همان دو ستون، واریانت ها و فرکانس یکسان، اما در این صورت واریانت ها در بازه قرار می گیرند و فرکانس ها متفاوت شمارش می شوند.

راه حل:

بیایید مانند کار قبلی با ساختن یک طرح بندی جدول شروع کنیم، که سپس داده ها را در آن وارد می کنیم. از آنجایی که سطرهای توزیع دارای دو عنصر هستند، جدول از دو ستون تشکیل شده است. ستون اول همیشه یک نوع است - چیزی که ما مطالعه می کنیم - نام آن را از تکلیف (پایان جمله با تکلیف در شرایط) می گیریم - به میزان سود - یعنی نوع ما مقدار سود است. اخذ شده.

ستون دوم فراوانی است - هر چند وقت یکبار تغییر ما در پدیده مورد مطالعه رخ می دهد - ما همچنین نام ستون را از انتساب می گیریم - توزیع شرکت ها - این بدان معنی است که فراوانی ما تعداد شرکت هایی است که سود مربوطه را دارند، در این مورد در فاصله است.

در نتیجه، چیدمان جدول ما به این صورت خواهد بود:

جایی که i مقدار یا طول بازه است،

Xmax و Xmin - حداکثر و حداقل مقدار ویژگی،

n تعداد گروه های مورد نیاز با توجه به شرایط مسئله است.

بیایید مقدار بازه را برای مثال خود محاسبه کنیم. برای انجام این کار، در میان داده های اولیه، بزرگترین و کوچکترین را پیدا می کنیم

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 - حداکثر ارزش 118 میلیون روبل و حداقل 9 میلیون روبل است. بیایید فرمول را محاسبه کنیم.

در محاسبات، عدد 36، (3) سه را در دوره به دست آوردیم، در چنین شرایطی، مقدار بازه باید به سمت بالا گرد شود تا پس از انجام محاسبات، حداکثر داده از بین نرود، به همین دلیل است که مقدار فاصله در محاسبه 36.4 میلیون روبل است.

حالا بیایید فواصل را بسازیم - گزینه های ما در این مشکل. بازه اول از حداقل مقدار شروع می شود، مقدار بازه به آن اضافه می شود و حد بالایی فاصله اول به دست می آید. سپس حد بالایی بازه اول به حد پایین بازه دوم تبدیل می شود، مقدار فاصله به آن اضافه می شود و فاصله دوم به دست می آید. و به همین ترتیب به تعداد دفعات لازم برای ایجاد فواصل بر اساس شرایط.

بیایید توجه کنیم اگر مقدار بازه را به 36.4 گرد نکنیم، اما آن را 36.3 بگذاریم، سپس آخرین مقدارما 117.9 می گیریم. برای جلوگیری از از دست دادن داده ها، لازم است مقدار بازه به مقدار بزرگتر گرد شود.

بیایید تعداد شرکت هایی را که در هر بازه زمانی خاص قرار می گیرند، بشماریم. هنگام پردازش داده ها، باید به خاطر داشت که مقدار بالای بازه در این بازه در نظر گرفته نمی شود (در این بازه گنجانده نشده است)، اما در بازه بعدی در نظر گرفته می شود (حد پایین بازه شامل می شود). در این فاصله، و بالا شامل نمی شود)، به جز آخرین فاصله.

هنگام انجام پردازش داده ها، بهتر است داده های انتخاب شده را با نمادهای معمولی یا رنگ نشان دهید تا پردازش ساده تر شود.

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

اولین فاصله را نشان می دهیم رنگ زرد- و تعیین کنید چه مقدار داده در بازه 9 تا 45.4 قرار می گیرد، در حالی که این 45.4 در بازه دوم در نظر گرفته می شود (به شرطی که در داده ها باشد) - در نتیجه در بازه اول 7 شرکت دریافت می کنیم. و به همین ترتیب برای تمام فواصل.

(اقدام اضافی) مجموع سود دریافتی بنگاه ها را برای هر بازه زمانی و به طور کلی محاسبه می کنیم. برای این کار، داده های علامت گذاری شده را اضافه می کنیم رنگهای متفاوتو ارزش کل سود را بدست آورید.

برای فاصله اول 23 + 12 + 9 + 16 + 22 + 27 + 45 = 154 میلیون روبل

برای بازه دوم - 48 + 57 + 48 + 56 + 63 = 272 میلیون روبل.

برای بازه سوم - 118 + 87 + 98 + 88 = 391 میلیون روبل.

ورزش . اطلاعاتی در مورد اندازه سپرده در بانک 30 سپرده گذار، هزار روبل وجود دارد. 150، 120، 300، 650، 1500، 900، 450، 500، 380، 440،

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

ساختن سری تغییرات بازه ایتوزیع سپرده گذاران، بر اساس اندازه سهم، برجسته کردن 4 گروه در فواصل مساوی. برای هر گروه، کل مبلغ مشارکت را محاسبه کنید.

موضوع آمار ریاضی. جامعه عمومی و نمونه.

آمار ریاضی- شاخه‌ای از ریاضیات که روش‌های انتخاب، گروه‌بندی، نظام‌بندی و تجزیه و تحلیل داده‌های آماری را به منظور دستیابی به نتایج مبتنی بر علمی مطالعه می‌کند.

داده های آماری- مقادیر عددی ویژگی در نظر گرفته شده اشیاء مورد مطالعه که در نتیجه یک آزمایش تصادفی به دست آمده است.

آمار ریاضی ارتباط نزدیکی با نظریه احتمال دارد، اما برخلاف نظریه احتمال، مدل ریاضی آزمایش ناشناخته است. در آمار ریاضی، با توجه به داده های آماری، ایجاد یک توزیع احتمال ناشناخته یا ارزیابی عینی پارامترهای توزیع ضروری است.

روش های آمار ریاضی امکان ساخت بهینه را فراهم می کند مدل های ریاضیرویدادهای توده ای و تکراری حلقه اتصال بین نظریه احتمال و آمار ریاضی، قضایای حدی نظریه احتمال هستند.

در حال حاضر روش های آماریتقریباً در تمام شاخه های اقتصاد ملی استفاده می شود.

جمعیت- داده های آماری همه اشیاء مورد مطالعه (گاهی اوقات - خود اشیاء). اغلب جمعیت عمومی به عنوان RV X در نظر گرفته می شود.

نمونه(مجموعه نمونه) - داده های آماری اشیاء به طور تصادفی انتخاب شده اند جمعیت.

اندازهی نمونه n(حجم جمعیت عمومی ن) - تعداد اشیاء انتخاب شده برای مطالعه از جمعیت عمومی (تعداد اشیاء در جمعیت عمومی).

مثال ها.

آ) داده های آماریممکن است: رشد دانش آموزان; تعداد افعال (یا سایر بخش های گفتار) در یک متن با طول معین. معدلگواهی؛ سطح هوش؛ تعداد خطاهای ارسال کننده و غیره

ب) جمعیت عمومیشاید: قد همه افراد، درجات همه کارگران کارخانه، فراوانی استفاده از قسمت خاصی از گفتار در همه آثار نویسنده مورد مطالعه، میانگین نمره گواهینامه همه فارغ التحصیلان و غیره.

که در) نمونهشاید: - قد 20 دانش آموز، تعداد افعال در 50 قطعه متن همگن با طول 500 کلمه استفاده شده به طور تصادفی انتخاب شده، میانگین نمره گواهینامه 100 فارغ التحصیل به طور تصادفی از مدارس سطح شهر و غیره.

نمونه نامیده می شود نماینده،اگر به درستی منعکس کننده دارایی عموم مردم باشد. نمایندگی نمونه با انتخاب تصادفی به دست می آید، زمانی که همه اشیاء از جمعیت عمومی احتمال یکسانی برای انتخاب داشته باشند.

برای اینکه نمونه معرف باشد، راه های مختلفانتخاب موضوعات مورد مطالعه

انواع انتخاب: ساده، مکانیکی، سریالی، معمولی.

ساده. عناصر به طور تصادفی از کل جامعه انتخاب می شوند.

انتخاب مکانیکی. هر 10 (25، 30، و غیره) شی را از جمعیت عمومی انتخاب کنید.

سریال. یک مطالعه در هر مجموعه انجام می شود (به عنوان مثال، 10 قسمت از 500 کاربرد کلمه از متن انتخاب شده است - 10 سری).

معمول. جمعیت عمومی با توجه به ویژگی خاصی به گروه های معمولی تقسیم می شوند. تعداد سری های استخراج شده از هر گروه با نسبت این گروه در جمعیت عمومی تعیین می شود.

توزیع آماری نمونه و آن تصویر گرافیکی.

اجازه دهید SV X (جمعیت عمومی) با توجه به برخی ویژگی ها مورد مطالعه قرار گیرد. تعدادی از تست های مستقل. در نتیجه آزمایش‌ها، SV X مقادیری به خود می‌گیرد. مجموعه مقادیر به دست آمده یک نمونه است و مقادیر خود داده های آماری هستند.

در ابتدا، نمونه رتبه بندی می شود - ترتیب داده های آماری نمونه به ترتیب غیر نزولی. ما یک سری تغییرات دریافت می کنیم.

سری واریاسیون- نمونه رتبه بندی شده

گسسته سری های آماری

اگر جامعه یک CV گسسته باشد، یک سری آماری گسسته (توزیع آماری) ساخته می شود.

اجازه دهید مقدار در زمان های نمونه ظاهر شود،

زمان، …، - زمان.

آی-تایا گزینهنمونه ها؛ - فرکانسگزینه i-امین Frequency چند بار را نشان می دهد این گزینهدر نمونه ظاهر شد.

- فراوانی نسبیگزینه i-ام

(نشان می دهد که چه بخشی از نمونه است).

توزیع آماری مطابقت بین گزینه های نمونه و فرکانس یا فرکانس نسبی آنها است.

برای DSV، توزیع آماری را می توان در قالب یک جدول ارائه کرد - یک سری آماری از فرکانس ها یا یک سری آماری از فرکانس های نسبی.

سری آماری فرکانس ها سری آماری

فرکانس های نسبی

			........
			........

			........
			........

برای وضوح ارائه توزیع آمارینمونه ها نمودارهایی از توزیع آماری می سازند: یک چند ضلعی و یک هیستوگرام.

چند ضلعی فرکانس(فرکانس های نسبی) - یک نمایش گرافیکی از یک سری آماری گسسته - یک خط شکسته که نقاط را به صورت سری [برای چند ضلعی فرکانس های نسبی] به هم متصل می کند.

مثال.محقق به دانش متقاضیان در ریاضیات علاقه مند است. 10 متقاضی انتخاب و نمرات مدرسه آنها در این درس ثبت می شود. نمونه زیر دریافت شد: 5;4;4;3;2;5;4;3;4;5.

الف) نمونه را به عنوان یک سری تغییرات ارائه دهید.

ب) ساخت یک سری آماری از فرکانس ها و فرکانس های نسبی.

ج) چند ضلعی از فرکانس های نسبی را برای سری حاصل رسم کنید.

الف) بیایید نمونه را رتبه بندی کنیم، i.e. اعضای نمونه را به ترتیب غیر کاهشی مرتب کنید. ما یک سری متغیر دریافت می کنیم: 2; 3; 3; چهار چهار چهار چهار 5 5; 5.

ب) یک سری آماری از فرکانس ها (تطابق بین گزینه های نمونه و فرکانس آنها) و یک سری آماری از فرکانس های نسبی (تطابق بین گزینه های نمونه و فرکانس های نسبی آنها) ایجاد می کنیم.


	0,1	0,2	0,4	0,3

سری آماری فرکانس ها سری آماری rel. فرکانس ها

1+2+4+3=10=n 0.1+0.2+0.4+0.3=1.

چند ضلعی فرکانس های نسبی

هنگام پردازش مقادیر زیادی از اطلاعات، که به ویژه در هنگام انجام پیشرفت های علمی مدرن اهمیت دارد، محقق با وظیفه خطیر گروه بندی صحیح داده های اولیه روبرو است. اگر داده ها گسسته باشند، همانطور که دیدیم، هیچ مشکلی وجود ندارد - فقط باید فرکانس هر ویژگی را محاسبه کنید. اگر صفت مورد مطالعه داشته باشد مداومشخصیت (که در عمل رایج تر است)، پس انتخاب تعداد بهینه فواصل برای گروه بندی یک ویژگی به هیچ وجه کار بی اهمیتی نیست.

برای گروه بندی متغیرهای تصادفی پیوسته، کل محدوده تنوعویژگی به تعدادی فواصل تقسیم می شود به.

فاصله گروهی (مداوم) سری های متغیر به نام فواصل رتبه بندی شده توسط مقدار ویژگی () که همراه با فرکانس های مربوطه () تعداد مشاهداتی که در بازه r" یا فرکانس های نسبی () قرار می گیرند نشان داده شده است:

فواصل ارزش مشخصه
فرکانس مایل

نمودار میله ایو تجمع (ogiva)قبلاً به تفصیل توسط ما مورد بحث قرار گرفته است، ابزاری عالی برای تجسم داده است که به شما امکان می دهد درک اولیه ای از ساختار داده به دست آورید. چنین نمودارهایی (شکل 1.15) برای داده های پیوسته به همان روشی که برای داده های گسسته ساخته می شوند، تنها با در نظر گرفتن این واقعیت که داده های پیوسته به طور کامل منطقه مقادیر ممکن آن را پر می کنند، با گرفتن هر مقدار، ساخته می شوند.

برنج. 1.15.

از همین رو ستون های هیستوگرام و انباشته باید در تماس باشند، هیچ ناحیه ای ندارند که مقادیر مشخصه در همه موارد ممکن قرار نگیرد.(به عنوان مثال، هیستوگرام و تجمع نباید دارای "سوراخ" در امتداد محور آبسیسا باشد، که در آن مقادیر متغیر مورد مطالعه مانند شکل 1.16 سقوط نمی کند). ارتفاع میله مربوط به فرکانس - تعداد مشاهداتی است که در بازه داده شده قرار می گیرند یا بسامد نسبی - نسبت مشاهدات. فواصل نباید عبور کردو معمولاً هم عرض هستند.

برنج. 1.16.

هیستوگرام و چند ضلعی تقریبی از منحنی چگالی احتمال هستند (تابع دیفرانسیل) f(x)توزیع نظری که در دوره نظریه احتمال در نظر گرفته شده است. بنابراین، ساخت آنها است اهمیتدر ابتدایی پردازش آماریداده های پیوسته کمی - با شکل آنها می توان قانون توزیع فرضی را قضاوت کرد.

تجمع - منحنی فرکانس های انباشته شده (فرکانس ها) سری تغییرات بازه ای. نمودار تابع توزیع انتگرال با تجمع مقایسه شده است F(x)، در درس نظریه احتمال نیز در نظر گرفته شده است.

اساساً، مفاهیم هیستوگرام و تجمعات دقیقاً با داده های پیوسته و سری تغییرات بازه ای آنها مرتبط هستند، زیرا نمودارهای آنها به ترتیب برآوردهای تجربی تابع چگالی احتمال و تابع توزیع هستند.

ساخت یک سری تغییرات بازه ای با تعیین تعداد بازه ها آغاز می شود ک.و این کار شاید سخت ترین، مهم ترین و بحث برانگیزترین در موضوع مورد بررسی باشد.

تعداد فواصل نباید خیلی کم باشد، زیرا هیستوگرام خیلی صاف خواهد بود ( بیش از حد صاف شده)تمام ویژگی های تغییرپذیری داده های اولیه را از دست می دهد - در شکل. 1.17 می توانید ببینید که چگونه همان داده هایی که نمودارهای شکل 1. 1.15 برای ساختن هیستوگرام با تعداد بازه های کمتر (گراف سمت چپ) استفاده می شود.

در عین حال، تعداد فواصل نباید خیلی زیاد باشد - در غیر این صورت نمی توانیم چگالی توزیع داده های مورد مطالعه را در امتداد محور عددی تخمین بزنیم: هیستوگرام به نظر می رسد که کمتر هموار شده است. (غیر صاف)با فواصل پر نشده، ناهموار (نگاه کنید به شکل 1.17، نمودار سمت راست).

برنج. 1.17.

چگونه می توان ترجیح داده شده ترین تعداد فواصل را تعیین کرد؟

در سال 1926، هربرت استرجز فرمولی را برای محاسبه تعداد فواصلی که لازم است مجموعه اولیه مقادیر مشخصه مورد مطالعه را تقسیم کرد، ارائه کرد. این فرمول واقعاً بسیار محبوب شده است - بیشتر کتاب های درسی آماری آن را ارائه می دهند و بسیاری از بسته های آماری به طور پیش فرض از آن استفاده می کنند. این که آیا این موجه است و در همه موارد، یک سوال بسیار جدی است.

بنابراین فرمول استرجز بر چه اساسی است؟

در نظر گرفتن توزیع دو جمله ای }