विविधता श्रृंखला बनाएँ। अंतराल वितरण श्रृंखला

बड़ी मात्रा में सूचनाओं को संसाधित करते समय, जो आधुनिक वैज्ञानिक विकास करते समय विशेष रूप से महत्वपूर्ण होता है, शोधकर्ता प्रारंभिक डेटा को सही ढंग से समूहीकृत करने के गंभीर कार्य का सामना करता है। यदि डेटा असतत है, तो, जैसा कि हमने देखा है, कोई समस्या नहीं है - आपको केवल प्रत्येक सुविधा की आवृत्ति की गणना करने की आवश्यकता है। यदि अध्ययन के तहत लक्षण है निरंतरचरित्र (जो व्यवहार में अधिक सामान्य है), तो किसी सुविधा को समूहीकृत करने के लिए अंतराल की इष्टतम संख्या का चुनाव किसी भी तरह से तुच्छ कार्य नहीं है।

निरंतर यादृच्छिक चर को समूहीकृत करने के लिए, संपूर्ण भिन्नता रेंजसुविधा को कई अंतरालों में विभाजित किया गया है प्रति।

समूहीकृत अंतराल (निरंतर) परिवर्तनशील श्रृंखला फीचर के मान द्वारा रैंक किए गए अंतराल कहा जाता है (), जहां संबंधित आवृत्तियों के साथ एक साथ संकेत दिया जाता है () अवलोकनों की संख्या जो आर "वें अंतराल, या सापेक्ष आवृत्तियों () में गिरती है:

विशेषता मूल्य अंतराल

मील आवृत्ति

बार चार्टतथा संचयी (ओगिवा),हमारे द्वारा पहले ही विस्तार से चर्चा की जा चुकी है, एक उत्कृष्ट डेटा विज़ुअलाइज़ेशन टूल है जो आपको डेटा संरचना की प्राथमिक समझ प्राप्त करने की अनुमति देता है। इस तरह के ग्राफ़ (चित्र। 1.15) निरंतर डेटा के लिए उसी तरह बनाए जाते हैं जैसे कि असतत डेटा के लिए, केवल इस तथ्य को ध्यान में रखते हुए कि निरंतर डेटा किसी भी मान को लेकर अपने संभावित मूल्यों के क्षेत्र को पूरी तरह से भर देता है।

चावल। 1.15।

इसीलिए हिस्टोग्राम और संचयी पर कॉलम संपर्क में होना चाहिए, ऐसे कोई क्षेत्र नहीं हैं जहां विशेषता मान सभी संभव के भीतर नहीं आते हैं(यानी, हिस्टोग्राम और संचयी में एब्सिस्सा अक्ष के साथ "छेद" नहीं होना चाहिए, जिसमें अध्ययन के तहत चर के मान नहीं गिरते हैं, जैसा कि चित्र 1.16 में है)। बार की ऊंचाई आवृत्ति से मेल खाती है - अवलोकनों की संख्या जो दिए गए अंतराल में आती है, या सापेक्ष आवृत्ति - अवलोकनों का अनुपात। अंतराल पार नहीं करना चाहिएऔर आमतौर पर समान चौड़ाई के होते हैं।

चावल। 1.16।

हिस्टोग्राम और बहुभुज संभाव्यता घनत्व वक्र (अंतर समारोह) के अनुमान हैं च (एक्स)सैद्धांतिक वितरण, संभाव्यता सिद्धांत के दौरान माना जाता है। इसलिए उनका निर्माण है महत्त्वमात्रात्मक निरंतर डेटा के प्राथमिक सांख्यिकीय प्रसंस्करण में - उनके रूप से कोई काल्पनिक वितरण कानून का न्याय कर सकता है।

संचयी - अंतराल भिन्नता श्रृंखला के संचित आवृत्तियों (आवृत्तियों) की वक्र। इंटीग्रल डिस्ट्रीब्यूशन फंक्शन के ग्राफ की तुलना क्यूम्युलेट से की जाती है एफ (एक्स), संभाव्यता सिद्धांत के दौरान भी माना जाता है।

मूल रूप से, हिस्टोग्राम और संचयी की अवधारणाएं निरंतर डेटा और उनकी अंतराल भिन्नता श्रृंखला के साथ ठीक से जुड़ी हुई हैं, क्योंकि उनके ग्राफ़ क्रमशः प्रायिकता घनत्व फ़ंक्शन और वितरण फ़ंक्शन के अनुभवजन्य अनुमान हैं।

अंतराल भिन्नता श्रृंखला का निर्माण अंतरालों की संख्या निर्धारित करने के साथ शुरू होता है क।और यह कार्य अध्ययन के तहत इस मुद्दे में शायद सबसे कठिन, महत्वपूर्ण और विवादास्पद है।

अंतरालों की संख्या बहुत कम नहीं होनी चाहिए, क्योंकि हिस्टोग्राम बहुत चिकना होगा ( ओवरस्मूथेड),प्रारंभिक डेटा की परिवर्तनशीलता की सभी विशेषताओं को खो देता है - अंजीर में। 1.17 आप देख सकते हैं कि कैसे वही डेटा जिस पर अंजीर के ग्राफ़। 1.15 का उपयोग कम संख्या में अंतराल (बाएं ग्राफ) के साथ एक हिस्टोग्राम बनाने के लिए किया जाता है।

इसी समय, अंतराल की संख्या बहुत बड़ी नहीं होनी चाहिए - अन्यथा हम संख्यात्मक अक्ष के साथ अध्ययन के तहत डेटा के वितरण घनत्व का अनुमान लगाने में सक्षम नहीं होंगे: हिस्टोग्राम अंडरस्मूथ हो जाएगा (अंडरस्मूथ)भरे हुए अंतराल के साथ, असमान (चित्र 1.17 देखें, सही ग्राफ)।

चावल। 1.17।

अंतराल की सबसे पसंदीदा संख्या कैसे निर्धारित करें?

1926 में वापस, हर्बर्ट स्टर्गेस ने अंतराल की संख्या की गणना के लिए एक सूत्र प्रस्तावित किया जिसमें अध्ययन किए गए विशेषता के मूल्यों के प्रारंभिक सेट को विभाजित करना आवश्यक है। यह सूत्र वास्तव में अत्यधिक लोकप्रिय हो गया है - अधिकांश सांख्यिकीय पाठ्यपुस्तकें इसकी पेशकश करती हैं, और कई सांख्यिकीय पैकेज डिफ़ॉल्ट रूप से इसका उपयोग करते हैं। क्या यह उचित है और सभी मामलों में एक बहुत ही गंभीर सवाल है।

तो स्टर्ज का सूत्र किस पर आधारित है?

विचार करना द्विपद वितरण }

दोस्तों के साथ साझा करें या अपने लिए बचाएं:

लोड हो रहा है...