ساخت یک سری تغییرات سری توزیع فاصله

هنگام پردازش مقادیر زیادی از اطلاعات، که به ویژه در هنگام انجام پیشرفت های علمی مدرن اهمیت دارد، محقق با وظیفه خطیر گروه بندی صحیح داده های اولیه روبرو است. اگر داده ها گسسته باشند، همانطور که دیدیم، هیچ مشکلی وجود ندارد - فقط باید فرکانس هر ویژگی را محاسبه کنید. اگر صفت مورد مطالعه داشته باشد مداومکاراکتر (که در عمل رایج تر است)، پس انتخاب تعداد بهینه فواصل برای گروه بندی یک ویژگی به هیچ وجه کار بی اهمیتی نیست.

برای گروه بندی متغیرهای تصادفی پیوسته، کل محدوده تنوعویژگی به تعدادی فواصل تقسیم می شود به.

فاصله گروهی (مداوم) سری های متغیر بازه‌هایی نامیده می‌شود که با مقدار ویژگی () رتبه‌بندی می‌شوند، که همراه با فرکانس‌های مربوطه () تعداد مشاهداتی که در بازه r" یا فرکانس‌های نسبی () قرار می‌گیرند نشان داده می‌شود:

فواصل ارزش مشخصه

فرکانس مایل

نمودار میله ایو تجمع (ogiva)قبلاً به تفصیل توسط ما مورد بحث قرار گرفته است، ابزاری عالی برای تجسم داده است که به شما امکان می دهد درک اولیه ای از ساختار داده به دست آورید. چنین نمودارهایی (شکل 1.15) برای داده های پیوسته به همان روشی که برای داده های گسسته ساخته می شوند، تنها با در نظر گرفتن این واقعیت که داده های پیوسته به طور کامل منطقه مقادیر ممکن آن را پر می کنند، با گرفتن هر مقدار، ساخته می شوند.

برنج. 1.15.

از همین رو ستون های هیستوگرام و انباشته باید در تماس باشند، هیچ ناحیه ای ندارند که مقادیر مشخصه در همه موارد ممکن قرار نگیرد.(به عنوان مثال، هیستوگرام و تجمع نباید دارای "سوراخ" در امتداد محور آبسیسا باشد، که در آن مقادیر متغیر مورد مطالعه مانند شکل 1.16 سقوط نمی کند). ارتفاع میله مربوط به فرکانس - تعداد مشاهداتی است که در بازه داده شده قرار می گیرند یا بسامد نسبی - نسبت مشاهدات. فواصل نباید عبور کردو معمولاً هم عرض هستند.

برنج. 1.16.

هیستوگرام و چند ضلعی تقریبی از منحنی چگالی احتمال هستند (تابع دیفرانسیل) f(x)توزیع نظری که در دوره نظریه احتمال در نظر گرفته شده است. بنابراین، ساخت آنها است اهمیتدر پردازش آماری اولیه داده های پیوسته کمی - با شکل آنها می توان قانون توزیع فرضی را قضاوت کرد.

تجمع - منحنی فرکانس های انباشته شده (فرکانس ها) سری تغییرات بازه ای. نمودار تابع توزیع انتگرال با تجمع مقایسه شده است F(x)، در درس نظریه احتمال نیز در نظر گرفته شده است.

اساساً، مفاهیم هیستوگرام و تجمعات دقیقاً با داده های پیوسته و سری تغییرات بازه ای آنها مرتبط هستند، زیرا نمودارهای آنها به ترتیب برآوردهای تجربی تابع چگالی احتمال و تابع توزیع هستند.

ساخت یک سری تغییرات بازه ای با تعیین تعداد بازه ها آغاز می شود ک.و این کار شاید سخت ترین، مهم ترین و بحث برانگیزترین در موضوع مورد بررسی باشد.

تعداد فواصل نباید خیلی کم باشد، زیرا هیستوگرام خیلی صاف خواهد بود ( بیش از حد صاف شده)تمام ویژگی های تغییرپذیری داده های اولیه را از دست می دهد - در شکل. 1.17 می توانید ببینید که چگونه همان داده هایی که نمودارهای شکل 1. 1.15 برای ساختن هیستوگرام با تعداد بازه های کمتر (گراف سمت چپ) استفاده می شود.

در عین حال، تعداد فواصل نباید خیلی زیاد باشد - در غیر این صورت نمی توانیم چگالی توزیع داده های مورد مطالعه را در امتداد محور عددی تخمین بزنیم: هیستوگرام به نظر می رسد که کمتر هموار شده است. (نزدیک)با فواصل پر نشده، ناهموار (نگاه کنید به شکل 1.17، نمودار سمت راست).

برنج. 1.17.

چگونه می توان ترجیح داده شده ترین تعداد فواصل را تعیین کرد؟

در سال 1926، هربرت استرجز فرمولی را برای محاسبه تعداد فواصلی که لازم است مجموعه اولیه مقادیر مشخصه مورد مطالعه را تقسیم کرد، ارائه کرد. این فرمول واقعاً بسیار محبوب شده است - بیشتر کتاب های درسی آماری آن را ارائه می دهند و بسیاری از بسته های آماری به طور پیش فرض از آن استفاده می کنند. این که آیا این موجه است و در همه موارد، یک سوال بسیار جدی است.

بنابراین فرمول استرجز بر چه اساسی است؟

در نظر گرفتن توزیع دو جمله ای }

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...