सामान्य वितरण के लिए पियर्सन की अच्छाई का फिट परीक्षण। पियर्सन की कसौटी
अध्ययन के वितरण के नियम के बारे में परिकल्पना के परीक्षण के लिए अच्छाई-की-फिट मानदंड अनियमित चर।कई मे व्यावहारिक कार्यसटीक वितरण कानून अज्ञात है। इसलिए, मौजूदा अनुभवजन्य कानून के पत्राचार के बारे में एक परिकल्पना को आगे रखा गया है, जो टिप्पणियों के आधार पर बनाया गया है, कुछ सैद्धांतिक एक के लिए। इस परिकल्पना की आवश्यकता है सांख्यिकीय जांच, जिसके परिणामों के अनुसार या तो इसकी पुष्टि की जाएगी या खंडन किया जाएगा।
मान लीजिए X अध्ययनाधीन यादृच्छिक चर है। परिकल्पना H0 का परीक्षण करना आवश्यक है कि दिया गया यादृच्छिक चर वितरण नियम F(x) का पालन करता है। ऐसा करने के लिए, आपको n स्वतंत्र अवलोकनों का एक नमूना बनाने और एक अनुभवजन्य वितरण कानून F "(x) बनाने के लिए इसका उपयोग करने की आवश्यकता है। अनुभवजन्य और काल्पनिक कानूनों की तुलना करने के लिए, फिट की अच्छाई नामक एक नियम का उपयोग किया जाता है। इनमें से एक सबसे लोकप्रिय है के. पियर्सन की फिट की ची-स्क्वायर अच्छाई।
यह ची-स्क्वायर आँकड़ों की गणना करता है:
,
जहां एन अंतराल की संख्या है जिसके अनुसार अनुभवजन्य वितरण कानून बनाया गया था (संबंधित हिस्टोग्राम के स्तंभों की संख्या), मैं अंतराल की संख्या है, पी टी मैं संभावना है कि यादृच्छिक चर का मूल्य गिर जाएगा मैं-वें अंतरालसैद्धांतिक वितरण कानून के लिए, p e i संभावना है कि एक यादृच्छिक चर का मान अनुभवजन्य वितरण कानून के लिए i-वें अंतराल में आता है। इसे ची-स्क्वायर वितरण का पालन करना चाहिए।
यदि सांख्यिकीय का परिकलित मान किसी दिए गए महत्व स्तर के लिए k-p-1 डिग्री स्वतंत्रता के साथ ची-वर्ग वितरण मात्रा से अधिक है, तो परिकल्पना H 0 अस्वीकार कर दी जाती है। अन्यथा, इसे दिए गए महत्व स्तर पर स्वीकार किया जाता है। यहाँ k है अवलोकनों की संख्या, p वितरण कानून के अनुमानित मापदंडों की संख्या है।
पियर्सन आपको एक विशेषता के अनुभवजन्य और सैद्धांतिक (या अन्य अनुभवजन्य) वितरण का परीक्षण करने की अनुमति देता है। यह मानदंड मुख्य रूप से दो मामलों में लागू होता है:
एक सैद्धांतिक वितरण (सामान्य, घातीय, वर्दी, या कुछ अन्य कानून) के साथ एक विशेषता के अनुभवजन्य वितरण की तुलना करने के लिए;
एक ही विशेषता के दो अनुभवजन्य वितरणों की तुलना करना।
विधि का विचार संबंधित आवृत्तियों n i और के विचलन की डिग्री निर्धारित करना है; यह विसंगति जितनी अधिक होगी, मूल्य उतना ही अधिक होगा
नमूना आकार कम से कम 50 होना चाहिए और आवृत्तियों का योग बराबर होना चाहिए
शून्य परिकल्पना एच 0 = (दो वितरण व्यावहारिक रूप से एक दूसरे से भिन्न नहीं होते हैं); वैकल्पिक परिकल्पना - एच 1 = (वितरणों के बीच विसंगति महत्वपूर्ण है)।
दो अनुभवजन्य वितरणों की तुलना करने के लिए मानदंड लागू करने की एक योजना यहां दी गई है:
मानदंड - परिकल्पना के परीक्षण के लिए एक सांख्यिकीय मानदंड है कि मनाया यादृच्छिक चर कुछ सैद्धांतिक वितरण कानून का पालन करता है।
मानदंड के मूल्य के आधार पर, परिकल्पना को स्वीकार या अस्वीकार किया जा सकता है:
§ , परिकल्पना पूरी होती है।
(वितरण के बाएं "पूंछ" में पड़ता है)। इसलिए, सैद्धांतिक और व्यावहारिक मूल्य बहुत करीब हैं। यदि, उदाहरण के लिए, जनरेटर की जाँच की जाती है यादृच्छिक संख्या, जो खंड और परिकल्पना से n संख्याएँ उत्पन्न करता है: नमूना समान रूप से वितरित किया जाता है, फिर जनरेटर को यादृच्छिक नहीं कहा जा सकता है (यादृच्छिकता परिकल्पना संतुष्ट नहीं है), क्योंकि नमूना बहुत समान रूप से वितरित किया गया है, लेकिन परिकल्पना संतुष्ट है।
(वितरण के दाहिने "पूंछ" में पड़ता है) परिकल्पना को खारिज कर दिया जाता है।
परिभाषा: मान लीजिए कि एक यादृच्छिक चर X दिया गया है।
परिकल्पना: साथ। में। X वितरण के नियम का पालन करता है।
परिकल्पना का परीक्षण करने के लिए, एक नमूने पर विचार करें जिसमें r.v के n स्वतंत्र अवलोकन हों। एक्स: । नमूने के आधार पर, हम आरवी एक्स का एक अनुभवजन्य वितरण का निर्माण करते हैं। अनुभवजन्य और सैद्धांतिक वितरण (परिकल्पना में माना जाता है) की तुलना एक विशेष रूप से चयनित फ़ंक्शन - अच्छाई-की-फिट मानदंड का उपयोग करके की जाती है। पियर्सन की अच्छाई-की-फिट परीक्षा (मानदंड) पर विचार करें:
परिकल्पना: X n फ़ंक्शन द्वारा उत्पन्न होता है।
k गैर-अतिव्यापी अंतरालों में विभाजित करें ;
आज्ञा देना प्रेक्षणों की संख्या जे-वें अंतराल: ;
परिकल्पना के पूरा होने पर j-वें अंतराल में किसी प्रेक्षण के गिरने की प्रायिकता;
- j-वें अंतराल में हिट की अपेक्षित संख्या;
सांख्यिकी: - स्वतंत्रता के k-1 डिग्री के साथ ची-वर्ग वितरण।
कम-आवृत्ति (दुर्लभ) घटनाओं वाले नमूनों पर मानदंड गलत है। इस समस्या को कम-आवृत्ति घटनाओं को त्यागकर, या उन्हें अन्य घटनाओं के साथ जोड़कर हल किया जा सकता है। इस विधि को येट्स सुधार कहा जाता है।
पियर्सन की अच्छाई-की-फिट परीक्षण (χ 2) का उपयोग इस परिकल्पना का परीक्षण करने के लिए किया जाता है कि अनुभवजन्य वितरण बड़े नमूना आकार (एन ≥ 100) के साथ अपेक्षित सैद्धांतिक वितरण एफ (एक्स) से मेल खाता है। मानदंड किसी भी प्रकार के फ़ंक्शन F(x) के लिए लागू होता है, यहां तक कि उनके मापदंडों के अज्ञात मूल्यों के साथ, जो आमतौर पर यांत्रिक परीक्षणों के परिणामों का विश्लेषण करते समय होता है। यहीं इसकी बहुमुखी प्रतिभा है।
2 मानदंड के उपयोग में नमूना भिन्नता की सीमा को अंतराल में विभाजित करना और प्रत्येक के लिए अवलोकन (आवृत्ति) n j की संख्या निर्धारित करना शामिल है। इअंतराल। वितरण मापदंडों के आकलन की सुविधा के लिए, अंतरालों को समान लंबाई के लिए चुना जाता है।
अंतराल की संख्या नमूना आकार पर निर्भर करती है। आमतौर पर स्वीकृत: n = 100 . पर इ= 10 15, n = 200 . पर इ= 15 20, n = 400 . पर इ= 25 30, n = 1000 . पर इ= 35 40।
पाँच से कम प्रेक्षणों वाले अंतरालों को पडोसी प्रेक्षणों के साथ संयोजित किया जाता है। हालाँकि, यदि ऐसे अंतरालों की संख्या उनकी कुल संख्या के 20% से कम है, तो n j 2 की आवृत्ति वाले अंतरालों की अनुमति है।
पियर्सन परीक्षण आँकड़ा मूल्य है , (3.91)
जहां पी जे संभावना है कि अध्ययन के तहत यादृच्छिक चर जे-वें अंतराल में आता है, जिसकी गणना काल्पनिक वितरण कानून एफ (एक्स) के अनुसार की जाती है। प्रायिकता पी जे की गणना करते समय, यह ध्यान रखना चाहिए कि पहले अंतराल की बाईं सीमा और अंतिम की दाहिनी सीमा यादृच्छिक चर के संभावित मूल्यों के क्षेत्र की सीमाओं के साथ मेल खाना चाहिए। उदाहरण के लिए, जब सामान्य वितरणपहला अंतराल -∞ तक फैला हुआ है, और अंतिम - +∞ तक।
सैद्धांतिक कानून F(x) के साथ नमूना वितरण के अनुपालन के बारे में शून्य परिकल्पना की जाँच सूत्र (3.91) द्वारा गणना किए गए मान की तुलना तालिका से प्राप्त महत्वपूर्ण मान χ 2 α से की जाती है। महत्व स्तर α और स्वतंत्रता की डिग्री की संख्या के लिए आवेदन VI k = इ 1 - मी - 1. यहाँ इ 1 - विलय के बाद अंतराल की संख्या; एम माना नमूने से अनुमानित मापदंडों की संख्या है। यदि असमानता
2 2 α (3.92)
तो शून्य परिकल्पना अस्वीकार नहीं की जाती है। यदि संकेतित असमानता नहीं देखी जाती है, तो एक वैकल्पिक परिकल्पना स्वीकार की जाती है कि नमूना अज्ञात वितरण से संबंधित है।
पियर्सन गुडनेस-ऑफ-फिट परीक्षण का नुकसान अवलोकन परिणामों को अंतराल में समूहित करने और व्यक्तिगत अंतरालों को कम संख्या में टिप्पणियों के साथ संयोजित करने की आवश्यकता से जुड़ी कुछ प्रारंभिक जानकारी का नुकसान है। इस संबंध में, यह अनुशंसा की जाती है कि अन्य मानदंडों के साथ 2 मानदंड द्वारा वितरण के पत्राचार के सत्यापन को पूरक करें। यह अपेक्षाकृत कम मात्रा के नमूने (एन 100) के साथ विशेष रूप से आवश्यक है।
तालिका स्वतंत्रता की एक निश्चित संख्या के साथ ची-वर्ग वितरण के महत्वपूर्ण मूल्यों को दिखाती है। वांछित मूल्य स्तंभ के चौराहे पर संबंधित संभाव्यता मान और पंक्ति के साथ स्वतंत्रता की डिग्री की संख्या के साथ है। उदाहरण के लिए, 0.25 की संभावना के लिए 4 डिग्री स्वतंत्रता के साथ ची-वर्ग वितरण का महत्वपूर्ण मूल्य 5.38527 है। इसका मतलब यह है कि ची-वर्ग वितरण के घनत्व वक्र के नीचे का क्षेत्रफल 4 डिग्री स्वतंत्रता के साथ 5.38527 के मान के दाईं ओर 0.25 है।
कुछ मामलों में, शोधकर्ता को पहले से पता नहीं होता है कि अध्ययन के तहत विशेषता के देखे गए मूल्यों को किस कानून द्वारा वितरित किया जाता है। लेकिन उसके पास यह मानने के लिए पर्याप्त कारण हो सकते हैं कि वितरण एक या दूसरे कानून के अधीन है, उदाहरण के लिए, सामान्य या वर्दी। इस मामले में, निम्नलिखित रूप की मुख्य और वैकल्पिक सांख्यिकीय परिकल्पनाओं को सामने रखा गया है:
एच 0: देखी गई विशेषता का वितरण वितरण कानून के अधीन है ए,
एच 1: देखे गए फीचर का वितरण अलग है ए;
जबकि एएक या कोई अन्य वितरण कानून कार्य कर सकता है: सामान्य, समान, घातीय, आदि।
प्रस्तावित वितरण कानून के बारे में परिकल्पना का परीक्षण तथाकथित अच्छाई-की-फिट मानदंड का उपयोग करके किया जाता है। कई स्वीकृति मानदंड हैं। उनमें से सबसे सार्वभौमिक है पियर्सन - मानदंड, क्योंकि यह किसी भी प्रकार के वितरण पर लागू होता है।
-पियर्सन की कसौटी
आमतौर पर अनुभवजन्य और सैद्धांतिक आवृत्तियों में अंतर होता है। क्या विसंगति यादृच्छिक है? पियर्सन मानदंड इस प्रश्न का उत्तर देता है, हालांकि, किसी भी सांख्यिकीय मानदंड की तरह, यह परिकल्पना की वैधता को कड़ाई से गणितीय अर्थ में साबित नहीं करता है, बल्कि केवल एक निश्चित स्तर के महत्व पर अवलोकन संबंधी डेटा के साथ अपनी सहमति या असहमति स्थापित करता है।
तो, फीचर वैल्यू के सांख्यिकीय वितरण को वॉल्यूम सैंपल से प्राप्त करने दें, जहां देखे गए फीचर वैल्यूज हैं, संबंधित फ्रीक्वेंसी हैं:
पियर्सन मानदंड का सार निम्नलिखित सूत्र के अनुसार मानदंड की गणना करना है:
देखे गए मानों के अंकों की संख्या कहां है, और संबंधित मानों की सैद्धांतिक आवृत्तियां हैं।
यह स्पष्ट है कि अंतर जितना छोटा होता है, अनुभवजन्य वितरण उतना ही करीब होता है, इसलिए, मानदंड का मूल्य जितना छोटा होता है, उतना ही मज़बूती से यह तर्क दिया जा सकता है कि अनुभवजन्य और सैद्धांतिक वितरण एक ही कानून के अधीन हैं।
पियर्सन की कसौटी एल्गोरिथम
पियर्सन मानदंड एल्गोरिथ्म सरल है और इसमें निम्नलिखित चरण शामिल हैं:
तो, इस एल्गोरिथ्म में एकमात्र गैर-तुच्छ क्रिया सैद्धांतिक आवृत्तियों का निर्धारण है। वे, निश्चित रूप से, वितरण के कानून पर निर्भर करते हैं, इसलिए - अलग-अलग कानूनों के लिए अलग-अलग परिभाषित किए जाते हैं।
पियर्सन का ची-स्क्वायर परीक्षण एक गैर-पैरामीट्रिक विधि है जो आपको प्रत्येक श्रेणी में आने वाले नमूने के वास्तविक (अध्ययन के परिणामस्वरूप प्रकट) परिणामों की संख्या या गुणात्मक विशेषताओं के बीच अंतर के महत्व का मूल्यांकन करने की अनुमति देता है, और सैद्धांतिक अशक्त परिकल्पना सत्य होने पर अध्ययन किए गए समूहों में अपेक्षित संख्या। सरल शब्दों में, विधि किसी को अनुमान लगाने की अनुमति देती है आंकड़ों की महत्तादो या अधिक के बीच का अंतर सापेक्ष संकेतक(आवृत्ति, शेयर)।
1. 2 मानदंड . के विकास का इतिहास
आकस्मिक तालिकाओं के विश्लेषण के लिए ची-स्क्वायर परीक्षण 1900 में एक अंग्रेजी गणितज्ञ, सांख्यिकीविद्, जीवविज्ञानी और दार्शनिक द्वारा विकसित और प्रस्तावित किया गया था। गणितीय सांख्यिकीऔर बायोमेट्रिक्स के संस्थापकों में से एक कार्ल पियर्सन(1857-1936).
2. पियर्सन का 2 मानदंड किसके लिए प्रयोग किया जाता है?
विश्लेषण में ची-स्क्वायर परीक्षण लागू किया जा सकता है आकस्मिकता टेबल्सजोखिम कारक की उपस्थिति के आधार पर परिणामों की आवृत्ति के बारे में जानकारी युक्त। उदाहरण के लिए, चार-क्षेत्र आकस्मिक तालिकानिम्नलिखित नुसार:
पलायन है (1) | कोई निकास नहीं (0) | कुल | |
एक जोखिम कारक है (1) | ए | बी | ए+बी |
कोई जोखिम कारक नहीं (0) | सी | डी | सी+डी |
कुल | ए+सी | बी+डी | ए+बी+सी+डी |
ऐसी आकस्मिक तालिका कैसे भरें? आइए एक छोटे से उदाहरण पर विचार करें।
धमनी उच्च रक्तचाप के विकास के जोखिम पर धूम्रपान के प्रभाव पर एक अध्ययन चल रहा है। इसके लिए विषयों के दो समूहों का चयन किया गया था - पहले में 70 लोग शामिल थे जो रोजाना कम से कम 1 पैकेट सिगरेट पीते थे, दूसरे - एक ही उम्र के 80 धूम्रपान न करने वाले। पहले समूह में 40 लोगों को उच्च रक्तचाप था। दूसरे में - 32 लोगों में धमनी उच्च रक्तचाप देखा गया। तदनुसार, धूम्रपान करने वालों के समूह में सामान्य रक्तचाप 30 लोगों (70 - 40 = 30) और धूम्रपान न करने वालों के समूह में - 48 (80 - 32 = 48) में था।
हम प्रारंभिक डेटा के साथ चार-क्षेत्र की आकस्मिक तालिका भरते हैं:
परिणामी आकस्मिक तालिका में, प्रत्येक पंक्ति विषयों के एक विशिष्ट समूह से मेल खाती है। कॉलम - धमनी उच्च रक्तचाप वाले या सामान्य रक्तचाप वाले व्यक्तियों की संख्या दिखाएं।
शोधकर्ता के लिए चुनौती यह है: क्या धूम्रपान करने वालों और धूम्रपान न करने वालों के बीच रक्तचाप वाले लोगों की आवृत्ति के बीच सांख्यिकीय रूप से महत्वपूर्ण अंतर हैं? आप इस प्रश्न का उत्तर पियर्सन के ची-स्क्वायर परीक्षण की गणना करके और परिणामी मान की आलोचनात्मक परीक्षण से तुलना करके कर सकते हैं।
3. पियर्सन के ची-स्क्वायर टेस्ट के उपयोग पर शर्तें और प्रतिबंध
- तुलनीय संकेतकों को मापा जाना चाहिए नियुनतम स्तर(उदाहरण के लिए, रोगी का लिंग - पुरुष या महिला) या में क्रमवाचक(उदाहरण के लिए, धमनी उच्च रक्तचाप की डिग्री, 0 से 3 तक मान लेना)।
- यह विधिन केवल चार-फ़ील्ड तालिकाओं के विश्लेषण की अनुमति देता है, जब कारक और परिणाम दोनों द्विआधारी चर होते हैं, अर्थात, उनके पास केवल दो संभावित मान होते हैं (उदाहरण के लिए, पुरुष या महिला, एक निश्चित बीमारी की उपस्थिति या अनुपस्थिति इतिहास में ...)। पियर्सन के ची-स्क्वायर परीक्षण का उपयोग बहु-क्षेत्रीय तालिकाओं के विश्लेषण के मामले में भी किया जा सकता है, जब कारक और (या) परिणाम तीन या अधिक मान लेते हैं।
- मेल खाने वाले समूह स्वतंत्र होने चाहिए, यानी पहले-बाद के अवलोकनों की तुलना करते समय ची-स्क्वायर परीक्षण का उपयोग नहीं किया जाना चाहिए। मैकनेमर परीक्षण(दो संबंधित आबादी की तुलना करते समय) या परिकलित क्यू-टेस्ट कोचरन(तीन या अधिक समूहों की तुलना करने के मामले में)।
- चार-फ़ील्ड तालिकाओं का विश्लेषण करते समय अपेक्षित मूल्यप्रत्येक सेल में कम से कम 10 होना चाहिए। इस घटना में कि कम से कम एक सेल में अपेक्षित घटना 5 से 9 तक मान लेती है, ची-स्क्वायर टेस्ट की गणना की जानी चाहिए येट्स सुधार के साथ. यदि कम से कम एक सेल में अपेक्षित घटना 5 से कम है, तो विश्लेषण का उपयोग करना चाहिए फिशर का सटीक परीक्षण.
- बहु-क्षेत्रीय तालिकाओं के विश्लेषण के मामले में, प्रेक्षणों की अपेक्षित संख्या को 20% से अधिक कक्षों में 5 से कम मान नहीं लेना चाहिए।
4. पियर्सन के ची-स्क्वायर परीक्षण की गणना कैसे करें?
ची-स्क्वायर टेस्ट की गणना करने के लिए, आपको यह करना होगा:
![](https://i0.wp.com/medstatistic.ru/formulas/chi.png)
यह एल्गोरिथम चार-फ़ील्ड और मल्टी-फ़ील्ड टेबल दोनों के लिए लागू है।
5. पियर्सन के काई-स्क्वायर परीक्षण के मूल्य की व्याख्या कैसे करें?
इस घटना में कि मानदंड 2 का प्राप्त मूल्य महत्वपूर्ण एक से अधिक है, हम यह निष्कर्ष निकालते हैं कि अध्ययन किए गए जोखिम कारक और परिणाम के बीच एक सांख्यिकीय संबंध महत्व के उपयुक्त स्तर पर है।
6. पियर्सन ची-स्क्वायर टेस्ट की गणना का एक उदाहरण
आइए हम ऊपर दी गई तालिका के अनुसार धमनी उच्च रक्तचाप की घटनाओं पर धूम्रपान कारक के प्रभाव के सांख्यिकीय महत्व को निर्धारित करें:
- हम प्रत्येक सेल के लिए अपेक्षित मूल्यों की गणना करते हैं:
- पियर्सन के ची-स्क्वायर परीक्षण का मान ज्ञात कीजिए:
2 \u003d (40-33.6) 2/33.6 + (30-36.4) 2/36.4 + (32-38.4) 2 / 38.4 + (48-41.6) 2/41.6 \u003d 4.396।
- स्वतंत्रता की डिग्री की संख्या f = (2-1)*(2-1) = 1. हम तालिका से पियर्सन ची-स्क्वायर परीक्षण का महत्वपूर्ण मान पाते हैं, जो कि p=0.05 के महत्व स्तर पर है और स्वतंत्रता 1 की डिग्री की संख्या 3.841 है।
- हम ची-स्क्वायर परीक्षण के प्राप्त मूल्य की तुलना महत्वपूर्ण के साथ करते हैं: 4.396> 3.841, इसलिए, धूम्रपान की उपस्थिति पर धमनी उच्च रक्तचाप की घटनाओं की निर्भरता सांख्यिकीय रूप से महत्वपूर्ण है। इस संबंध का महत्व स्तर p . से मेल खाता है<0.05.
पहले, उन परिकल्पनाओं पर विचार किया जाता था जिनमें सामान्य जनसंख्या के वितरण के नियम को ज्ञात माना जाता था। अब आइए अज्ञात वितरण के कथित कानून के बारे में अनुमानों का परीक्षण करें, यानी, हम शून्य परिकल्पना का परीक्षण करेंगे कि जनसंख्या किसी ज्ञात कानून के अनुसार वितरित की जाती है। आमतौर पर, ऐसी परिकल्पनाओं के परीक्षण के लिए सांख्यिकीय परीक्षणों को कहा जाता है सहमति मानदंड।
समरूपता मानदंडअज्ञात वितरण के प्रस्तावित कानून की परिकल्पना के परीक्षण के लिए मानदंड कहा जाता है। यह अनुभवजन्य और सैद्धांतिक वितरण के बीच विसंगति का एक संख्यात्मक उपाय है।
मुख्य कार्य।अनुभवजन्य वितरण (नमूना) दिया गया है। सैद्धांतिक वितरण के प्रकार के बारे में एक धारणा बनाएं (एक परिकल्पना सामने रखें) और प्रस्तावित परिकल्पना को दिए गए महत्व स्तर α पर परीक्षण करें।
मुख्य समस्या के समाधान में दो भाग होते हैं:
1. एक परिकल्पना को सामने रखना।
2. महत्व के दिए गए स्तर पर परिकल्पना का परीक्षण करना।
आइए इन भागों को विस्तार से देखें।
1. एक परिकल्पना चुननाबहुभुज या आवृत्ति हिस्टोग्राम का उपयोग करके सैद्धांतिक वितरण के प्रकार के बारे में बात करना सुविधाजनक है। अनुभवजन्य बहुभुज (या हिस्टोग्राम) की तुलना ज्ञात वितरण कानूनों से की जाती है और सबसे उपयुक्त एक को चुना जाता है।
यहाँ सबसे महत्वपूर्ण वितरण कानूनों के रेखांकन हैं:
अनुभवजन्य वितरण कानूनों के उदाहरण आंकड़ों में दिखाए गए हैं:
![]() |
|||||||||
![]() |
|||||||||
मामले में (ए) सामान्य वितरण की परिकल्पना सामने रखी जाती है, मामले में (बी) समान वितरण की परिकल्पना, मामले में (सी) पॉइसन वितरण की परिकल्पना।
सैद्धांतिक वितरण के बारे में एक परिकल्पना को सामने रखने का आधार विशेषता में परिवर्तन की प्रकृति के बारे में सैद्धांतिक आधार हो सकता है। उदाहरण के लिए, लाइपुनोव प्रमेय की शर्तों की पूर्ति हमें सामान्य वितरण के बारे में एक परिकल्पना बनाने की अनुमति देती है। माध्य और विचरण की समानता पॉइसन वितरण की परिकल्पना की ओर ले जाती है।
व्यवहार में, हम अक्सर सामान्य वितरण का सामना करते हैं, इसलिए हमारी समस्याओं में हमें केवल सामान्य वितरण की परिकल्पना का परीक्षण करने की आवश्यकता होती है।
परिकल्पना परीक्षणसैद्धांतिक वितरण के बारे में प्रश्न का उत्तर देता है: क्या कथित सैद्धांतिक और अनुभवजन्य वितरण के बीच विसंगति को यादृच्छिक, महत्वहीन माना जा सकता है, कुछ वस्तुओं के नमूने में गिरने की यादृच्छिकता द्वारा समझाया जा सकता है, या क्या यह विसंगति वितरण के बीच एक महत्वपूर्ण विसंगति को इंगित करती है। जाँच करने के लिए विभिन्न तरीके हैं (फिटनेस मानदंड) - c 2 (ची-स्क्वायर), कोलमोगोरोव, रोमानोव्स्की और अन्य।
पियर्सन की कसौटी।
पियर्सन मानदंड का लाभ इसकी सार्वभौमिकता है: इसका उपयोग विभिन्न वितरण कानूनों के बारे में परिकल्पनाओं का परीक्षण करने के लिए किया जा सकता है।
1. सामान्य वितरण की परिकल्पना का परीक्षण करना।मान लीजिए कि पर्याप्त रूप से बड़े आकार का एक नमूना प्राप्त होता है पीविभिन्न प्रकार के मूल्यों के साथ। इसके प्रसंस्करण की सुविधा के लिए, हम अंतराल को सबसे छोटे से सबसे बड़े से भिन्न के मूल्यों में विभाजित करते हैं एसबराबर भागों और हम मान लेंगे कि प्रत्येक अंतराल में आने वाले विकल्पों के मान लगभग उस संख्या के बराबर हैं जो अंतराल के मध्य को निर्दिष्ट करता है। प्रत्येक अंतराल में आने वाले विकल्पों की संख्या की गणना करने के बाद, हम तथाकथित समूहीकृत नमूना बनाएंगे:
विकल्प……….. एक्स 1 एक्स 2 … एक्स एस
आवृत्तियों ……………. पी 1 पी 2 … n s ,
कहाँ पे एक्स मैंअंतराल के मध्यबिंदुओं के मान हैं, और मैंमें शामिल विकल्पों की संख्या है मैंवें अंतराल (अनुभवजन्य आवृत्तियों)। प्राप्त आंकड़ों के आधार पर, नमूना माध्य और नमूना मानक विचलन की गणना करना संभव है बी. आइए हम इस धारणा की जाँच करें कि सामान्य जनसंख्या को मापदंडों के साथ सामान्य कानून के अनुसार वितरित किया जाता है एम(एक्स) = , डी(एक्स) =। तब आप मात्रा के नमूने से संख्याओं की संख्या ज्ञात कर सकते हैं पी, जो इस धारणा (अर्थात सैद्धांतिक आवृत्तियों) के तहत प्रत्येक अंतराल में होना चाहिए। ऐसा करने के लिए, लाप्लास फ़ंक्शन के मूल्यों की तालिका का उपयोग करके, हम हिट की संभावना पाते हैं मैं-वें अंतराल:
,
कहाँ पे एक मैंतथा बी मैं- सीमाओं मैं-वें अंतराल। परिणामी संभावनाओं को नमूना आकार n से गुणा करने पर, हम सैद्धांतिक आवृत्तियों को पाते हैं: पी मैं =एन पी मैंहमारा लक्ष्य अनुभवजन्य और सैद्धांतिक आवृत्तियों की तुलना करना है, जो निश्चित रूप से एक दूसरे से भिन्न हैं, और यह पता लगाने के लिए कि क्या ये अंतर महत्वहीन हैं, अध्ययन के तहत यादृच्छिक चर के सामान्य वितरण की परिकल्पना को अस्वीकार नहीं करते हैं, या वे हैं इतना बड़ा कि वे इस परिकल्पना का खंडन करते हैं। इसके लिए यादृच्छिक चर के रूप में एक मानदंड का उपयोग किया जाता है
. (7)
इसका अर्थ स्पष्ट है: भागों को संक्षेप में प्रस्तुत किया जाता है, जो सैद्धांतिक से संबंधित सैद्धांतिक आवृत्तियों से अनुभवजन्य आवृत्तियों के विचलन के वर्ग हैं। यह साबित किया जा सकता है कि, सामान्य आबादी के वास्तविक वितरण कानून की परवाह किए बिना, यादृच्छिक चर (7) का वितरण कानून स्वतंत्रता की डिग्री की संख्या के साथ वितरण कानून की ओर जाता है। के = एस - 1 – आर, कहाँ पे आरनमूना डेटा से अनुमानित अनुमानित वितरण के मापदंडों की संख्या है। सामान्य वितरण दो मापदंडों की विशेषता है, इसलिए के = एस - 3. चयनित मानदंड के लिए, एक दाहिने हाथ के महत्वपूर्ण क्षेत्र का निर्माण किया जाता है, जो स्थिति द्वारा निर्धारित किया जाता है
(8)
कहाँ पे α
- सार्थक तल। इसलिए, महत्वपूर्ण क्षेत्र असमानता द्वारा दिया गया है और परिकल्पना का स्वीकृति क्षेत्र है
.
तो, शून्य परिकल्पना का परीक्षण करने के लिए एच 0: जनसंख्या सामान्य रूप से वितरित की जाती है - आपको नमूने से मानदंड के देखे गए मूल्य की गणना करने की आवश्यकता है:
, (7`)
और वितरण के महत्वपूर्ण बिंदुओं की तालिका के अनुसार 2 α और . के ज्ञात मूल्यों का उपयोग करके महत्वपूर्ण बिंदु खोजें के = एस - 3. यदि - शून्य परिकल्पना स्वीकार की जाती है, यदि इसे अस्वीकार कर दिया जाता है।
उदाहरण।माल की मांग के अध्ययन के परिणाम तालिका में प्रस्तुत किए गए हैं:
वितरण के प्रकार के बारे में एक परिकल्पना सामने रखें और महत्व स्तर a=0.01 पर इसका परीक्षण करें।
मैं परिकल्पना।
अनुभवजन्य वितरण के प्रकार को इंगित करने के लिए, हम एक हिस्टोग्राम बनाते हैं
![]() |
120 160 180 200 220 280
हिस्टोग्राम के रूप में, कोई सामान्य जनसंख्या में अध्ययन किए गए गुण के वितरण के सामान्य कानून के बारे में एक धारणा बना सकता है।
द्वितीय. आइए हम पियर्सन की अच्छाई-की-फिट परीक्षण का उपयोग करके सामान्य वितरण की प्रस्तावित परिकल्पना की जाँच करें।
1. गणना करें, s B. एक विकल्प के रूप में, अंतरालों के सिरों का अंकगणितीय माध्य लें:
2. अंतराल खोजें (Z i ; Z i+1): ;
.
आइए पहले अंतराल के बाएं छोर के लिए (-¥) लें, और अंतिम अंतराल के दाएं छोर के लिए (+¥) लें। परिणाम तालिका में प्रस्तुत किए गए हैं। चार।
3. सैद्धांतिक प्रायिकताएं P और सैद्धांतिक आवृत्तियों का पता लगाएं (तालिका 4 देखें)।
तालिका 4
मैं | अंतराल सीमा | (जेड मैं) | Ф(जेड आई+1) | पी मैं \u003d (जेड आई + 1) - Ф (जेड आई) | ![]() |
|||
एक्स मैं | एक्स मैं+1 | जेड आई | ज़ी+1 | |||||
-¥ | -1,14 | -0,5 | -0,3729 | 0,1271 | 6,36 | |||
-1,14 | -0,52 | -0,3729 | -0,1985 | 0,1744 | 8,72 | |||
-0,52 | 0,11 | -0,1985 | 0,0438 | 0,2423 | 12,12 | |||
0,11 | 0,73 | 0,0438 | 0,2673 | 0,2235 | 11,18 | |||
0,73 | +¥ | 0,2673 | 0,5 | 0,2327 | 11,64 |
4. आइए अनुभवजन्य और सैद्धांतिक आवृत्तियों की तुलना करें। इसके लिए:
ए) पियर्सन मानदंड के देखे गए मूल्य की गणना करें।
गणना तालिका 5 में प्रस्तुत की गई है।
तालिका 5
मैं | |||||
6,36 | -1,36 | 1,8496 | 0,291 | ||
8,72 | 1,28 | 1,6384 | 0,188 | ||
12,12 | 1,88 | 3,5344 | 0,292 | ||
11,18 | 0,82 | 0,6724 | 0,060 | ||
11,64 | -2,64 | 6,9696 | 0,599 | ||
एस |
बी) महत्वपूर्ण वितरण बिंदु सी 2 की तालिका के अनुसार दिए गए महत्व स्तर पर ए = 0.01 और स्वतंत्रता की डिग्री की संख्या के = एम -3 = 5–3 = 2, हम महत्वपूर्ण बिंदु पाते हैं; अपने पास .
सी की तुलना करें। .
इसलिए, सामान्य जनसंख्या की अध्ययन की गई विशेषता के सामान्य वितरण की परिकल्पना को अस्वीकार करने का कोई कारण नहीं है। वे। अनुभवजन्य और सैद्धांतिक आवृत्तियों के बीच विसंगति महत्वहीन (यादृच्छिक) है। मैं
टिप्पणी।कुछ अनुभवजन्य आवृत्तियों वाले अंतराल (n i .)<5), следует объединить, а частоты этих интервалов сложить. Если производилось объединение интервалов, то при определении числа степеней свободы по формуле K=m-3 следует в качестве m принять число оставшихся после объединения интервалов.
उदाहरण। 24 विकल्पों के नमूने के आधार पर, सामान्य जनसंख्या के सामान्य वितरण के बारे में एक परिकल्पना सामने रखी गई थी। दिए गए मूल्यों के बीच महत्व के स्तर पर पियर्सन के परीक्षण का उपयोग करना \u003d (34, 35, 36, 37, 38) इंगित करता है: ए) सबसे बड़ा जिसके लिए परिकल्पना को अस्वीकार करने का कोई कारण नहीं है; बी) सबसे छोटा मूल्य जिससे परिकल्पना को खारिज कर दिया जाना चाहिए।
आइए सूत्र का उपयोग करके स्वतंत्रता की डिग्री की संख्या ज्ञात करें:
जहां नमूना समूहों (विकल्प) की संख्या है, वितरण मापदंडों की संख्या है।
चूंकि सामान्य वितरण में 2 पैरामीटर (और) हैं, हम प्राप्त करते हैं
महत्वपूर्ण वितरण बिंदुओं की तालिका के अनुसार, दिए गए महत्व के स्तर और स्वतंत्रता की डिग्री की संख्या के अनुसार, हम महत्वपूर्ण बिंदु निर्धारित करते हैं।
मामले में a) 34 और 35 के बराबर मूल्यों के लिए, सामान्य वितरण की परिकल्पना को अस्वीकार करने का कोई कारण नहीं है, क्योंकि . और इन मूल्यों में सबसे बड़ा।
स्थिति b) 36, 37, 38 के मानों के लिए, परिकल्पना अस्वीकृत की जाती है, क्योंकि . उनमें से सबसे छोटा।◄
2. समान वितरण की परिकल्पना का परीक्षण. एक अनुमानित संभाव्यता घनत्व के साथ सामान्य जनसंख्या के समान वितरण की परिकल्पना का परीक्षण करने के लिए पियर्सन परीक्षण का उपयोग करते समय
मापदंडों का अनुमान लगाने के लिए, उपलब्ध नमूने से मूल्य की गणना करना आवश्यक है एकतथा बीसूत्रों के अनुसार:
कहाँ पे एक*तथा बी*- अनुमान एकतथा बी. दरअसल, एक समान वितरण के लिए एम(एक्स) = , , जहां से आप निर्धारित करने के लिए एक प्रणाली प्राप्त कर सकते हैं एक*तथा बी*:
, जिसका हल व्यंजक (9) है।
फिर, यह मानकर , आप सूत्रों का उपयोग करके सैद्धांतिक आवृत्तियों को पा सकते हैं
यहां एसअंतराल की संख्या है जिसमें नमूना विभाजित है।
पियर्सन मानदंड के देखे गए मूल्य की गणना सूत्र (7`) द्वारा की जाती है, और महत्वपूर्ण मूल्य की गणना तालिका से की जाती है, इस तथ्य को ध्यान में रखते हुए कि स्वतंत्रता की डिग्री की संख्या के = एस - 3. उसके बाद, महत्वपूर्ण क्षेत्र की सीमाएं उसी तरह निर्धारित की जाती हैं जैसे सामान्य वितरण की परिकल्पना के परीक्षण के लिए।
3. घातांकीय वितरण के बारे में परिकल्पना का परीक्षण करना।इस मामले में, मौजूदा नमूने को समान लंबाई के अंतराल में विभाजित करते हुए, हम एक दूसरे से समान दूरी पर विकल्पों के अनुक्रम पर विचार करते हैं (हम मानते हैं कि सभी विकल्प मैं-वें अंतराल, इसके मध्य से मेल खाने वाला मान लें), और उनकी संगत आवृत्तियाँ मैं(नमूना विकल्पों की संख्या में शामिल हैं मैं- वें अंतराल)। हम इन आंकड़ों से गणना करते हैं और पैरामीटर के अनुमान के रूप में लेते हैं λ मूल्य । फिर सैद्धांतिक आवृत्तियों की गणना सूत्र द्वारा की जाती है
फिर, पियर्सन मानदंड के देखे गए और महत्वपूर्ण मूल्यों की तुलना की जाती है, यह ध्यान में रखते हुए कि स्वतंत्रता की डिग्री की संख्या के = एस - 2.
पियर्सन अच्छाई-की-फिट परीक्षण:उदाहरण 1. पियर्सन परीक्षण का उपयोग करते हुए, 0.05 के महत्व स्तर पर, जाँच करें कि क्या जनसंख्या X के सामान्य वितरण की परिकल्पना आकार n = 200 के नमूने के अनुभवजन्य वितरण के अनुरूप है।
समाधानएक कैलकुलेटर के साथ खोजें।
एक्स मैं | मात्रा, फाई | एक्स आई * एफ आई | संचयी आवृत्ति, एस | (एक्स - एक्स एसआर) * एफ | (एक्स - एक्स एसआर) 2 * एफ | (एक्स - एक्स एसआर) 3 * एफ | आवृत्ति, च मैं /एन |
5 | 15 | 75 | 15 | 114.45 | 873.25 | -6662.92 | 0.075 |
7 | 26 | 182 | 41 | 146.38 | 824.12 | -4639.79 | 0.13 |
9 | 25 | 225 | 66 | 90.75 | 329.42 | -1195.8 | 0.13 |
11 | 30 | 330 | 96 | 48.9 | 79.71 | -129.92 | 0.15 |
13 | 26 | 338 | 122 | 9.62 | 3.56 | 1.32 | 0.13 |
15 | 21 | 315 | 143 | 49.77 | 117.95 | 279.55 | 0.11 |
17 | 24 | 408 | 167 | 104.88 | 458.33 | 2002.88 | 0.12 |
19 | 20 | 380 | 187 | 127.4 | 811.54 | 5169.5 | 0.1 |
21 | 13 | 273 | 200 | 108.81 | 910.74 | 7622.89 | 0.065 |
200 | 2526 | 800.96 | 4408.62 | 2447.7 | 1 |
.
भारित औसत
विविधता संकेतक.
.
आर = एक्स अधिकतम - एक्स मिनट
आर=21 - 5=16
फैलाव
विचरण का निष्पक्ष अनुमानक
मानक विचलन ।
श्रृंखला का प्रत्येक मान 12.63 के औसत मान से 4.7 . से अधिक नहीं होता है
.
.
सामान्य कानून
n = 200, h=2 (अंतराल की चौड़ाई), = 4.7, xav = 12.63
मैं | एक्स मैं | आप मैं | i | एन*आई |
1 | 5 | -1.63 | 0,1057 | 9.01 |
2 | 7 | -1.2 | 0,1942 | 16.55 |
3 | 9 | -0.77 | 0,2943 | 25.07 |
4 | 11 | -0.35 | 0,3752 | 31.97 |
5 | 13 | 0.0788 | 0,3977 | 33.88 |
6 | 15 | 0.5 | 0,3503 | 29.84 |
7 | 17 | 0.93 | 0,2565 | 21.85 |
8 | 19 | 1.36 | 0,1582 | 13.48 |
9 | 21 | 1.78 | 0,0804 | 6.85 |
मैं | मैं | एन*आई | एन मैं-एन* मैं | (एन मैं-एन* मैं) 2 | (एन मैं-एन* मैं) 2 /एन* मैं |
1 | 15 | 9.01 | -5.99 | 35.94 | 3.99 |
2 | 26 | 16.55 | -9.45 | 89.39 | 5.4 |
3 | 25 | 25.07 | 0.0734 | 0.00539 | 0.000215 |
4 | 30 | 31.97 | 1.97 | 3.86 | 0.12 |
5 | 26 | 33.88 | 7.88 | 62.14 | 1.83 |
6 | 21 | 29.84 | 8.84 | 78.22 | 2.62 |
7 | 24 | 21.85 | -2.15 | 4.61 | 0.21 |
8 | 20 | 13.48 | -6.52 | 42.53 | 3.16 |
9 | 13 | 6.85 | -6.15 | 37.82 | 5.52 |
∑ | 200 | 200 | 22.86 |
इसकी सीमा K kp = 2 (k-r-1;α) ची-वर्ग वितरण तालिकाओं से पाई जाती है और दिए गए मान σ, k = 9, r=2 (पैरामीटर x cp और नमूने से अनुमानित हैं) )
केकेपी(0.05;6) = 12.59159; कोब्स = 22.86
पियर्सन आँकड़ों का देखा गया मूल्य महत्वपूर्ण क्षेत्र में आता है: Knable> Kkp, इसलिए मुख्य परिकल्पना को अस्वीकार करने का कारण है। नमूना डेटा वितरित किया जाता है सामान्य कानून के अनुसार नहीं. दूसरे शब्दों में, अनुभवजन्य और सैद्धांतिक आवृत्तियों में काफी भिन्नता है।
उदाहरण 2. पियर्सन परीक्षण का उपयोग करते हुए, 0.05 के महत्व स्तर पर, जाँच करें कि क्या जनसंख्या X के सामान्य वितरण की परिकल्पना आकार n = 200 के नमूने के अनुभवजन्य वितरण के अनुरूप है।
समाधान.
संकेतकों की गणना के लिए तालिका।
एक्स मैं | मात्रा, फाई | एक्स आई * एफ आई | संचयी आवृत्ति, एस | (एक्स - एक्स एसआर) * एफ | (एक्स - एक्स एसआर) 2 * एफ | (एक्स - एक्स एसआर) 3 * एफ | आवृत्ति, च मैं /एन |
0.3 | 6 | 1.8 | 6 | 5.77 | 5.55 | -5.34 | 0.03 |
0.5 | 9 | 4.5 | 15 | 6.86 | 5.23 | -3.98 | 0.045 |
0.7 | 26 | 18.2 | 41 | 14.61 | 8.21 | -4.62 | 0.13 |
0.9 | 25 | 22.5 | 66 | 9.05 | 3.28 | -1.19 | 0.13 |
1.1 | 30 | 33 | 96 | 4.86 | 0.79 | -0.13 | 0.15 |
1.3 | 26 | 33.8 | 122 | 0.99 | 0.0375 | 0.00143 | 0.13 |
1.5 | 21 | 31.5 | 143 | 5 | 1.19 | 0.28 | 0.11 |
1.7 | 24 | 40.8 | 167 | 10.51 | 4.6 | 2.02 | 0.12 |
1.9 | 20 | 38 | 187 | 12.76 | 8.14 | 5.19 | 0.1 |
2.1 | 8 | 16.8 | 195 | 6.7 | 5.62 | 4.71 | 0.04 |
2.3 | 5 | 11.5 | 200 | 5.19 | 5.39 | 5.59 | 0.025 |
200 | 252.4 | 82.3 | 48.03 | 2.54 | 1 |
वितरण केंद्र मेट्रिक्स.
भारित औसत
विविधता संकेतक.
पूर्ण भिन्नता दर.
भिन्नता की सीमा प्राथमिक श्रृंखला की विशेषता के अधिकतम और न्यूनतम मूल्यों के बीच का अंतर है।
आर = एक्स अधिकतम - एक्स मिनट
आर = 2.3 - 0.3 = 2
फैलाव- इसके माध्य मान के चारों ओर फैलाव के माप की विशेषता है (फैलाव का माप, यानी माध्य से विचलन)।
विचरण का निष्पक्ष अनुमानकभिन्नता का एक सुसंगत अनुमान है।
मानक विचलन.
श्रृंखला का प्रत्येक मान 1.26 के औसत मान से 0.49 . से अधिक नहीं से भिन्न होता है
मानक विचलन का आकलन.
वितरण के प्रकार के बारे में परीक्षण परिकल्पना.
1. आइए इस परिकल्पना का परीक्षण करें कि X वितरित है सामान्य कानूनपियर्सन की अच्छाई-की-फिट परीक्षण का उपयोग करना।
जहाँ n* i - सैद्धांतिक आवृत्तियाँ:
हम सैद्धांतिक आवृत्तियों की गणना करते हैं, यह देखते हुए:
n = 200, h=0.2 (अंतराल की चौड़ाई), = 0.49, xav = 1.26
मैं | एक्स मैं | आप मैं | i | एन*आई |
1 | 0.3 | -1.96 | 0,0573 | 4.68 |
2 | 0.5 | -1.55 | 0,1182 | 9.65 |
3 | 0.7 | -1.15 | 0,2059 | 16.81 |
4 | 0.9 | -0.74 | 0,3034 | 24.76 |
5 | 1.1 | -0.33 | 0,3765 | 30.73 |
6 | 1.3 | 0.0775 | 0,3977 | 32.46 |
7 | 1.5 | 0.49 | 0,3538 | 28.88 |
8 | 1.7 | 0.89 | 0,2661 | 21.72 |
9 | 1.9 | 1.3 | 0,1691 | 13.8 |
10 | 2.1 | 1.71 | 0,0909 | 7.42 |
11 | 2.3 | 2.12 | 0,0422 | 3.44 |
आइए अनुभवजन्य और सैद्धांतिक आवृत्तियों की तुलना करें। आइए एक गणना तालिका बनाएं, जिसमें से हम मानदंड का प्रेक्षित मान प्राप्त करेंगे:
आइए हम महत्वपूर्ण क्षेत्र की सीमा को परिभाषित करें। चूंकि पियर्सन आँकड़ा अनुभवजन्य और सैद्धांतिक वितरण के बीच के अंतर को मापता है, K ऑब्स का इसका मनाया मूल्य जितना बड़ा होगा, मुख्य परिकल्पना के खिलाफ तर्क उतना ही मजबूत होगा।
इसलिए, इस आंकड़े के लिए महत्वपूर्ण क्षेत्र हमेशा दाएं हाथ का होता है :)