सामान्य वितरण के लिए पियर्सन की अच्छाई का फिट परीक्षण। पियर्सन की कसौटी

अध्ययन के वितरण के नियम के बारे में परिकल्पना के परीक्षण के लिए अच्छाई-की-फिट मानदंड अनियमित चर।कई मे व्यावहारिक कार्यसटीक वितरण कानून अज्ञात है। इसलिए, मौजूदा अनुभवजन्य कानून के पत्राचार के बारे में एक परिकल्पना को आगे रखा गया है, जो टिप्पणियों के आधार पर बनाया गया है, कुछ सैद्धांतिक एक के लिए। इस परिकल्पना की आवश्यकता है सांख्यिकीय जांच, जिसके परिणामों के अनुसार या तो इसकी पुष्टि की जाएगी या खंडन किया जाएगा।

मान लीजिए X अध्ययनाधीन यादृच्छिक चर है। परिकल्पना H0 का परीक्षण करना आवश्यक है कि दिया गया यादृच्छिक चर वितरण नियम F(x) का पालन करता है। ऐसा करने के लिए, आपको n स्वतंत्र अवलोकनों का एक नमूना बनाने और एक अनुभवजन्य वितरण कानून F "(x) बनाने के लिए इसका उपयोग करने की आवश्यकता है। अनुभवजन्य और काल्पनिक कानूनों की तुलना करने के लिए, फिट की अच्छाई नामक एक नियम का उपयोग किया जाता है। इनमें से एक सबसे लोकप्रिय है के. पियर्सन की फिट की ची-स्क्वायर अच्छाई।

यह ची-स्क्वायर आँकड़ों की गणना करता है:

,

जहां एन अंतराल की संख्या है जिसके अनुसार अनुभवजन्य वितरण कानून बनाया गया था (संबंधित हिस्टोग्राम के स्तंभों की संख्या), मैं अंतराल की संख्या है, पी टी मैं संभावना है कि यादृच्छिक चर का मूल्य गिर जाएगा मैं-वें अंतरालसैद्धांतिक वितरण कानून के लिए, p e i संभावना है कि एक यादृच्छिक चर का मान अनुभवजन्य वितरण कानून के लिए i-वें अंतराल में आता है। इसे ची-स्क्वायर वितरण का पालन करना चाहिए।

यदि सांख्यिकीय का परिकलित मान किसी दिए गए महत्व स्तर के लिए k-p-1 डिग्री स्वतंत्रता के साथ ची-वर्ग वितरण मात्रा से अधिक है, तो परिकल्पना H 0 अस्वीकार कर दी जाती है। अन्यथा, इसे दिए गए महत्व स्तर पर स्वीकार किया जाता है। यहाँ k है अवलोकनों की संख्या, p वितरण कानून के अनुमानित मापदंडों की संख्या है।

पियर्सन आपको एक विशेषता के अनुभवजन्य और सैद्धांतिक (या अन्य अनुभवजन्य) वितरण का परीक्षण करने की अनुमति देता है। यह मानदंड मुख्य रूप से दो मामलों में लागू होता है:

एक सैद्धांतिक वितरण (सामान्य, घातीय, वर्दी, या कुछ अन्य कानून) के साथ एक विशेषता के अनुभवजन्य वितरण की तुलना करने के लिए;

एक ही विशेषता के दो अनुभवजन्य वितरणों की तुलना करना।

विधि का विचार संबंधित आवृत्तियों n i और के विचलन की डिग्री निर्धारित करना है; यह विसंगति जितनी अधिक होगी, मूल्य उतना ही अधिक होगा

नमूना आकार कम से कम 50 होना चाहिए और आवृत्तियों का योग बराबर होना चाहिए

शून्य परिकल्पना एच 0 = (दो वितरण व्यावहारिक रूप से एक दूसरे से भिन्न नहीं होते हैं); वैकल्पिक परिकल्पना - एच 1 = (वितरणों के बीच विसंगति महत्वपूर्ण है)।

दो अनुभवजन्य वितरणों की तुलना करने के लिए मानदंड लागू करने की एक योजना यहां दी गई है:

मानदंड - परिकल्पना के परीक्षण के लिए एक सांख्यिकीय मानदंड है कि मनाया यादृच्छिक चर कुछ सैद्धांतिक वितरण कानून का पालन करता है।


मानदंड के मूल्य के आधार पर, परिकल्पना को स्वीकार या अस्वीकार किया जा सकता है:

§ , परिकल्पना पूरी होती है।

(वितरण के बाएं "पूंछ" में पड़ता है)। इसलिए, सैद्धांतिक और व्यावहारिक मूल्य बहुत करीब हैं। यदि, उदाहरण के लिए, जनरेटर की जाँच की जाती है यादृच्छिक संख्या, जो खंड और परिकल्पना से n संख्याएँ उत्पन्न करता है: नमूना समान रूप से वितरित किया जाता है, फिर जनरेटर को यादृच्छिक नहीं कहा जा सकता है (यादृच्छिकता परिकल्पना संतुष्ट नहीं है), क्योंकि नमूना बहुत समान रूप से वितरित किया गया है, लेकिन परिकल्पना संतुष्ट है।

(वितरण के दाहिने "पूंछ" में पड़ता है) परिकल्पना को खारिज कर दिया जाता है।

परिभाषा: मान लीजिए कि एक यादृच्छिक चर X दिया गया है।

परिकल्पना: साथ। में। X वितरण के नियम का पालन करता है।

परिकल्पना का परीक्षण करने के लिए, एक नमूने पर विचार करें जिसमें r.v के n स्वतंत्र अवलोकन हों। एक्स: । नमूने के आधार पर, हम आरवी एक्स का एक अनुभवजन्य वितरण का निर्माण करते हैं। अनुभवजन्य और सैद्धांतिक वितरण (परिकल्पना में माना जाता है) की तुलना एक विशेष रूप से चयनित फ़ंक्शन - अच्छाई-की-फिट मानदंड का उपयोग करके की जाती है। पियर्सन की अच्छाई-की-फिट परीक्षा (मानदंड) पर विचार करें:

परिकल्पना: X n फ़ंक्शन द्वारा उत्पन्न होता है।

k गैर-अतिव्यापी अंतरालों में विभाजित करें ;

आज्ञा देना प्रेक्षणों की संख्या जे-वें अंतराल: ;

परिकल्पना के पूरा होने पर j-वें अंतराल में किसी प्रेक्षण के गिरने की प्रायिकता;

- j-वें अंतराल में हिट की अपेक्षित संख्या;

सांख्यिकी: - स्वतंत्रता के k-1 डिग्री के साथ ची-वर्ग वितरण।

कम-आवृत्ति (दुर्लभ) घटनाओं वाले नमूनों पर मानदंड गलत है। इस समस्या को कम-आवृत्ति घटनाओं को त्यागकर, या उन्हें अन्य घटनाओं के साथ जोड़कर हल किया जा सकता है। इस विधि को येट्स सुधार कहा जाता है।

पियर्सन की अच्छाई-की-फिट परीक्षण (χ 2) का उपयोग इस परिकल्पना का परीक्षण करने के लिए किया जाता है कि अनुभवजन्य वितरण बड़े नमूना आकार (एन ≥ 100) के साथ अपेक्षित सैद्धांतिक वितरण एफ (एक्स) से मेल खाता है। मानदंड किसी भी प्रकार के फ़ंक्शन F(x) के लिए लागू होता है, यहां तक ​​​​कि उनके मापदंडों के अज्ञात मूल्यों के साथ, जो आमतौर पर यांत्रिक परीक्षणों के परिणामों का विश्लेषण करते समय होता है। यहीं इसकी बहुमुखी प्रतिभा है।

2 मानदंड के उपयोग में नमूना भिन्नता की सीमा को अंतराल में विभाजित करना और प्रत्येक के लिए अवलोकन (आवृत्ति) n j की संख्या निर्धारित करना शामिल है। अंतराल। वितरण मापदंडों के आकलन की सुविधा के लिए, अंतरालों को समान लंबाई के लिए चुना जाता है।

अंतराल की संख्या नमूना आकार पर निर्भर करती है। आमतौर पर स्वीकृत: n = 100 . पर = 10 15, n = 200 . पर = 15 20, n = 400 . पर = 25 30, n = 1000 . पर = 35 40।

पाँच से कम प्रेक्षणों वाले अंतरालों को पडोसी प्रेक्षणों के साथ संयोजित किया जाता है। हालाँकि, यदि ऐसे अंतरालों की संख्या उनकी कुल संख्या के 20% से कम है, तो n j 2 की आवृत्ति वाले अंतरालों की अनुमति है।

पियर्सन परीक्षण आँकड़ा मूल्य है
, (3.91)
जहां पी जे संभावना है कि अध्ययन के तहत यादृच्छिक चर जे-वें अंतराल में आता है, जिसकी गणना काल्पनिक वितरण कानून एफ (एक्स) के अनुसार की जाती है। प्रायिकता पी जे की गणना करते समय, यह ध्यान रखना चाहिए कि पहले अंतराल की बाईं सीमा और अंतिम की दाहिनी सीमा यादृच्छिक चर के संभावित मूल्यों के क्षेत्र की सीमाओं के साथ मेल खाना चाहिए। उदाहरण के लिए, जब सामान्य वितरणपहला अंतराल -∞ तक फैला हुआ है, और अंतिम - +∞ तक।

सैद्धांतिक कानून F(x) के साथ नमूना वितरण के अनुपालन के बारे में शून्य परिकल्पना की जाँच सूत्र (3.91) द्वारा गणना किए गए मान की तुलना तालिका से प्राप्त महत्वपूर्ण मान χ 2 α से की जाती है। महत्व स्तर α और स्वतंत्रता की डिग्री की संख्या के लिए आवेदन VI k = 1 - मी - 1. यहाँ 1 - विलय के बाद अंतराल की संख्या; एम माना नमूने से अनुमानित मापदंडों की संख्या है। यदि असमानता
2 2 α (3.92)
तो शून्य परिकल्पना अस्वीकार नहीं की जाती है। यदि संकेतित असमानता नहीं देखी जाती है, तो एक वैकल्पिक परिकल्पना स्वीकार की जाती है कि नमूना अज्ञात वितरण से संबंधित है।

पियर्सन गुडनेस-ऑफ-फिट परीक्षण का नुकसान अवलोकन परिणामों को अंतराल में समूहित करने और व्यक्तिगत अंतरालों को कम संख्या में टिप्पणियों के साथ संयोजित करने की आवश्यकता से जुड़ी कुछ प्रारंभिक जानकारी का नुकसान है। इस संबंध में, यह अनुशंसा की जाती है कि अन्य मानदंडों के साथ 2 मानदंड द्वारा वितरण के पत्राचार के सत्यापन को पूरक करें। यह अपेक्षाकृत कम मात्रा के नमूने (एन 100) के साथ विशेष रूप से आवश्यक है।

तालिका स्वतंत्रता की एक निश्चित संख्या के साथ ची-वर्ग वितरण के महत्वपूर्ण मूल्यों को दिखाती है। वांछित मूल्य स्तंभ के चौराहे पर संबंधित संभाव्यता मान और पंक्ति के साथ स्वतंत्रता की डिग्री की संख्या के साथ है। उदाहरण के लिए, 0.25 की संभावना के लिए 4 डिग्री स्वतंत्रता के साथ ची-वर्ग वितरण का महत्वपूर्ण मूल्य 5.38527 है। इसका मतलब यह है कि ची-वर्ग वितरण के घनत्व वक्र के नीचे का क्षेत्रफल 4 डिग्री स्वतंत्रता के साथ 5.38527 के मान के दाईं ओर 0.25 है।

कुछ मामलों में, शोधकर्ता को पहले से पता नहीं होता है कि अध्ययन के तहत विशेषता के देखे गए मूल्यों को किस कानून द्वारा वितरित किया जाता है। लेकिन उसके पास यह मानने के लिए पर्याप्त कारण हो सकते हैं कि वितरण एक या दूसरे कानून के अधीन है, उदाहरण के लिए, सामान्य या वर्दी। इस मामले में, निम्नलिखित रूप की मुख्य और वैकल्पिक सांख्यिकीय परिकल्पनाओं को सामने रखा गया है:

    एच 0: देखी गई विशेषता का वितरण वितरण कानून के अधीन है ,

    एच 1: देखे गए फीचर का वितरण अलग है ;

जबकि एक या कोई अन्य वितरण कानून कार्य कर सकता है: सामान्य, समान, घातीय, आदि।

प्रस्तावित वितरण कानून के बारे में परिकल्पना का परीक्षण तथाकथित अच्छाई-की-फिट मानदंड का उपयोग करके किया जाता है। कई स्वीकृति मानदंड हैं। उनमें से सबसे सार्वभौमिक है पियर्सन - मानदंड, क्योंकि यह किसी भी प्रकार के वितरण पर लागू होता है।

-पियर्सन की कसौटी

आमतौर पर अनुभवजन्य और सैद्धांतिक आवृत्तियों में अंतर होता है। क्या विसंगति यादृच्छिक है? पियर्सन मानदंड इस प्रश्न का उत्तर देता है, हालांकि, किसी भी सांख्यिकीय मानदंड की तरह, यह परिकल्पना की वैधता को कड़ाई से गणितीय अर्थ में साबित नहीं करता है, बल्कि केवल एक निश्चित स्तर के महत्व पर अवलोकन संबंधी डेटा के साथ अपनी सहमति या असहमति स्थापित करता है।

तो, फीचर वैल्यू के सांख्यिकीय वितरण को वॉल्यूम सैंपल से प्राप्त करने दें, जहां देखे गए फीचर वैल्यूज हैं, संबंधित फ्रीक्वेंसी हैं:

पियर्सन मानदंड का सार निम्नलिखित सूत्र के अनुसार मानदंड की गणना करना है:

देखे गए मानों के अंकों की संख्या कहां है, और संबंधित मानों की सैद्धांतिक आवृत्तियां हैं।

यह स्पष्ट है कि अंतर जितना छोटा होता है, अनुभवजन्य वितरण उतना ही करीब होता है, इसलिए, मानदंड का मूल्य जितना छोटा होता है, उतना ही मज़बूती से यह तर्क दिया जा सकता है कि अनुभवजन्य और सैद्धांतिक वितरण एक ही कानून के अधीन हैं।

पियर्सन की कसौटी एल्गोरिथम

पियर्सन मानदंड एल्गोरिथ्म सरल है और इसमें निम्नलिखित चरण शामिल हैं:

तो, इस एल्गोरिथ्म में एकमात्र गैर-तुच्छ क्रिया सैद्धांतिक आवृत्तियों का निर्धारण है। वे, निश्चित रूप से, वितरण के कानून पर निर्भर करते हैं, इसलिए - अलग-अलग कानूनों के लिए अलग-अलग परिभाषित किए जाते हैं।

पियर्सन का ची-स्क्वायर परीक्षण एक गैर-पैरामीट्रिक विधि है जो आपको प्रत्येक श्रेणी में आने वाले नमूने के वास्तविक (अध्ययन के परिणामस्वरूप प्रकट) परिणामों की संख्या या गुणात्मक विशेषताओं के बीच अंतर के महत्व का मूल्यांकन करने की अनुमति देता है, और सैद्धांतिक अशक्त परिकल्पना सत्य होने पर अध्ययन किए गए समूहों में अपेक्षित संख्या। सरल शब्दों में, विधि किसी को अनुमान लगाने की अनुमति देती है आंकड़ों की महत्तादो या अधिक के बीच का अंतर सापेक्ष संकेतक(आवृत्ति, शेयर)।

1. 2 मानदंड . के विकास का इतिहास

आकस्मिक तालिकाओं के विश्लेषण के लिए ची-स्क्वायर परीक्षण 1900 में एक अंग्रेजी गणितज्ञ, सांख्यिकीविद्, जीवविज्ञानी और दार्शनिक द्वारा विकसित और प्रस्तावित किया गया था। गणितीय सांख्यिकीऔर बायोमेट्रिक्स के संस्थापकों में से एक कार्ल पियर्सन(1857-1936).

2. पियर्सन का 2 मानदंड किसके लिए प्रयोग किया जाता है?

विश्लेषण में ची-स्क्वायर परीक्षण लागू किया जा सकता है आकस्मिकता टेबल्सजोखिम कारक की उपस्थिति के आधार पर परिणामों की आवृत्ति के बारे में जानकारी युक्त। उदाहरण के लिए, चार-क्षेत्र आकस्मिक तालिकानिम्नलिखित नुसार:

पलायन है (1) कोई निकास नहीं (0) कुल
एक जोखिम कारक है (1) बी ए+बी
कोई जोखिम कारक नहीं (0) सी डी सी+डी
कुल ए+सी बी+डी ए+बी+सी+डी

ऐसी आकस्मिक तालिका कैसे भरें? आइए एक छोटे से उदाहरण पर विचार करें।

धमनी उच्च रक्तचाप के विकास के जोखिम पर धूम्रपान के प्रभाव पर एक अध्ययन चल रहा है। इसके लिए विषयों के दो समूहों का चयन किया गया था - पहले में 70 लोग शामिल थे जो रोजाना कम से कम 1 पैकेट सिगरेट पीते थे, दूसरे - एक ही उम्र के 80 धूम्रपान न करने वाले। पहले समूह में 40 लोगों को उच्च रक्तचाप था। दूसरे में - 32 लोगों में धमनी उच्च रक्तचाप देखा गया। तदनुसार, धूम्रपान करने वालों के समूह में सामान्य रक्तचाप 30 लोगों (70 - 40 = 30) और धूम्रपान न करने वालों के समूह में - 48 (80 - 32 = 48) में था।

हम प्रारंभिक डेटा के साथ चार-क्षेत्र की आकस्मिक तालिका भरते हैं:

परिणामी आकस्मिक तालिका में, प्रत्येक पंक्ति विषयों के एक विशिष्ट समूह से मेल खाती है। कॉलम - धमनी उच्च रक्तचाप वाले या सामान्य रक्तचाप वाले व्यक्तियों की संख्या दिखाएं।

शोधकर्ता के लिए चुनौती यह है: क्या धूम्रपान करने वालों और धूम्रपान न करने वालों के बीच रक्तचाप वाले लोगों की आवृत्ति के बीच सांख्यिकीय रूप से महत्वपूर्ण अंतर हैं? आप इस प्रश्न का उत्तर पियर्सन के ची-स्क्वायर परीक्षण की गणना करके और परिणामी मान की आलोचनात्मक परीक्षण से तुलना करके कर सकते हैं।

3. पियर्सन के ची-स्क्वायर टेस्ट के उपयोग पर शर्तें और प्रतिबंध

  1. तुलनीय संकेतकों को मापा जाना चाहिए नियुनतम स्तर(उदाहरण के लिए, रोगी का लिंग - पुरुष या महिला) या में क्रमवाचक(उदाहरण के लिए, धमनी उच्च रक्तचाप की डिग्री, 0 से 3 तक मान लेना)।
  2. यह विधिन केवल चार-फ़ील्ड तालिकाओं के विश्लेषण की अनुमति देता है, जब कारक और परिणाम दोनों द्विआधारी चर होते हैं, अर्थात, उनके पास केवल दो संभावित मान होते हैं (उदाहरण के लिए, पुरुष या महिला, एक निश्चित बीमारी की उपस्थिति या अनुपस्थिति इतिहास में ...)। पियर्सन के ची-स्क्वायर परीक्षण का उपयोग बहु-क्षेत्रीय तालिकाओं के विश्लेषण के मामले में भी किया जा सकता है, जब कारक और (या) परिणाम तीन या अधिक मान लेते हैं।
  3. मेल खाने वाले समूह स्वतंत्र होने चाहिए, यानी पहले-बाद के अवलोकनों की तुलना करते समय ची-स्क्वायर परीक्षण का उपयोग नहीं किया जाना चाहिए। मैकनेमर परीक्षण(दो संबंधित आबादी की तुलना करते समय) या परिकलित क्यू-टेस्ट कोचरन(तीन या अधिक समूहों की तुलना करने के मामले में)।
  4. चार-फ़ील्ड तालिकाओं का विश्लेषण करते समय अपेक्षित मूल्यप्रत्येक सेल में कम से कम 10 होना चाहिए। इस घटना में कि कम से कम एक सेल में अपेक्षित घटना 5 से 9 तक मान लेती है, ची-स्क्वायर टेस्ट की गणना की जानी चाहिए येट्स सुधार के साथ. यदि कम से कम एक सेल में अपेक्षित घटना 5 से कम है, तो विश्लेषण का उपयोग करना चाहिए फिशर का सटीक परीक्षण.
  5. बहु-क्षेत्रीय तालिकाओं के विश्लेषण के मामले में, प्रेक्षणों की अपेक्षित संख्या को 20% से अधिक कक्षों में 5 से कम मान नहीं लेना चाहिए।

4. पियर्सन के ची-स्क्वायर परीक्षण की गणना कैसे करें?

ची-स्क्वायर टेस्ट की गणना करने के लिए, आपको यह करना होगा:

यह एल्गोरिथम चार-फ़ील्ड और मल्टी-फ़ील्ड टेबल दोनों के लिए लागू है।

5. पियर्सन के काई-स्क्वायर परीक्षण के मूल्य की व्याख्या कैसे करें?

इस घटना में कि मानदंड 2 का प्राप्त मूल्य महत्वपूर्ण एक से अधिक है, हम यह निष्कर्ष निकालते हैं कि अध्ययन किए गए जोखिम कारक और परिणाम के बीच एक सांख्यिकीय संबंध महत्व के उपयुक्त स्तर पर है।

6. पियर्सन ची-स्क्वायर टेस्ट की गणना का एक उदाहरण

आइए हम ऊपर दी गई तालिका के अनुसार धमनी उच्च रक्तचाप की घटनाओं पर धूम्रपान कारक के प्रभाव के सांख्यिकीय महत्व को निर्धारित करें:

  1. हम प्रत्येक सेल के लिए अपेक्षित मूल्यों की गणना करते हैं:
  2. पियर्सन के ची-स्क्वायर परीक्षण का मान ज्ञात कीजिए:

    2 \u003d (40-33.6) 2/33.6 + (30-36.4) 2/36.4 + (32-38.4) 2 / 38.4 + (48-41.6) 2/41.6 \u003d 4.396।

  3. स्वतंत्रता की डिग्री की संख्या f = (2-1)*(2-1) = 1. हम तालिका से पियर्सन ची-स्क्वायर परीक्षण का महत्वपूर्ण मान पाते हैं, जो कि p=0.05 के महत्व स्तर पर है और स्वतंत्रता 1 की डिग्री की संख्या 3.841 है।
  4. हम ची-स्क्वायर परीक्षण के प्राप्त मूल्य की तुलना महत्वपूर्ण के साथ करते हैं: 4.396> 3.841, इसलिए, धूम्रपान की उपस्थिति पर धमनी उच्च रक्तचाप की घटनाओं की निर्भरता सांख्यिकीय रूप से महत्वपूर्ण है। इस संबंध का महत्व स्तर p . से मेल खाता है<0.05.

पहले, उन परिकल्पनाओं पर विचार किया जाता था जिनमें सामान्य जनसंख्या के वितरण के नियम को ज्ञात माना जाता था। अब आइए अज्ञात वितरण के कथित कानून के बारे में अनुमानों का परीक्षण करें, यानी, हम शून्य परिकल्पना का परीक्षण करेंगे कि जनसंख्या किसी ज्ञात कानून के अनुसार वितरित की जाती है। आमतौर पर, ऐसी परिकल्पनाओं के परीक्षण के लिए सांख्यिकीय परीक्षणों को कहा जाता है सहमति मानदंड।

समरूपता मानदंडअज्ञात वितरण के प्रस्तावित कानून की परिकल्पना के परीक्षण के लिए मानदंड कहा जाता है। यह अनुभवजन्य और सैद्धांतिक वितरण के बीच विसंगति का एक संख्यात्मक उपाय है।

मुख्य कार्य।अनुभवजन्य वितरण (नमूना) दिया गया है। सैद्धांतिक वितरण के प्रकार के बारे में एक धारणा बनाएं (एक परिकल्पना सामने रखें) और प्रस्तावित परिकल्पना को दिए गए महत्व स्तर α पर परीक्षण करें।

मुख्य समस्या के समाधान में दो भाग होते हैं:

1. एक परिकल्पना को सामने रखना।

2. महत्व के दिए गए स्तर पर परिकल्पना का परीक्षण करना।

आइए इन भागों को विस्तार से देखें।

1. एक परिकल्पना चुननाबहुभुज या आवृत्ति हिस्टोग्राम का उपयोग करके सैद्धांतिक वितरण के प्रकार के बारे में बात करना सुविधाजनक है। अनुभवजन्य बहुभुज (या हिस्टोग्राम) की तुलना ज्ञात वितरण कानूनों से की जाती है और सबसे उपयुक्त एक को चुना जाता है।

यहाँ सबसे महत्वपूर्ण वितरण कानूनों के रेखांकन हैं:

अनुभवजन्य वितरण कानूनों के उदाहरण आंकड़ों में दिखाए गए हैं:



मामले में (ए) सामान्य वितरण की परिकल्पना सामने रखी जाती है, मामले में (बी) समान वितरण की परिकल्पना, मामले में (सी) पॉइसन वितरण की परिकल्पना।

सैद्धांतिक वितरण के बारे में एक परिकल्पना को सामने रखने का आधार विशेषता में परिवर्तन की प्रकृति के बारे में सैद्धांतिक आधार हो सकता है। उदाहरण के लिए, लाइपुनोव प्रमेय की शर्तों की पूर्ति हमें सामान्य वितरण के बारे में एक परिकल्पना बनाने की अनुमति देती है। माध्य और विचरण की समानता पॉइसन वितरण की परिकल्पना की ओर ले जाती है।

व्यवहार में, हम अक्सर सामान्य वितरण का सामना करते हैं, इसलिए हमारी समस्याओं में हमें केवल सामान्य वितरण की परिकल्पना का परीक्षण करने की आवश्यकता होती है।

परिकल्पना परीक्षणसैद्धांतिक वितरण के बारे में प्रश्न का उत्तर देता है: क्या कथित सैद्धांतिक और अनुभवजन्य वितरण के बीच विसंगति को यादृच्छिक, महत्वहीन माना जा सकता है, कुछ वस्तुओं के नमूने में गिरने की यादृच्छिकता द्वारा समझाया जा सकता है, या क्या यह विसंगति वितरण के बीच एक महत्वपूर्ण विसंगति को इंगित करती है। जाँच करने के लिए विभिन्न तरीके हैं (फिटनेस मानदंड) - c 2 (ची-स्क्वायर), कोलमोगोरोव, रोमानोव्स्की और अन्य।

पियर्सन की कसौटी।

पियर्सन मानदंड का लाभ इसकी सार्वभौमिकता है: इसका उपयोग विभिन्न वितरण कानूनों के बारे में परिकल्पनाओं का परीक्षण करने के लिए किया जा सकता है।

1. सामान्य वितरण की परिकल्पना का परीक्षण करना।मान लीजिए कि पर्याप्त रूप से बड़े आकार का एक नमूना प्राप्त होता है पीविभिन्न प्रकार के मूल्यों के साथ। इसके प्रसंस्करण की सुविधा के लिए, हम अंतराल को सबसे छोटे से सबसे बड़े से भिन्न के मूल्यों में विभाजित करते हैं एसबराबर भागों और हम मान लेंगे कि प्रत्येक अंतराल में आने वाले विकल्पों के मान लगभग उस संख्या के बराबर हैं जो अंतराल के मध्य को निर्दिष्ट करता है। प्रत्येक अंतराल में आने वाले विकल्पों की संख्या की गणना करने के बाद, हम तथाकथित समूहीकृत नमूना बनाएंगे:

विकल्प……….. एक्स 1 एक्स 2 … एक्स एस

आवृत्तियों ……………. पी 1 पी 2 … n s ,

कहाँ पे एक्स मैंअंतराल के मध्यबिंदुओं के मान हैं, और मैंमें शामिल विकल्पों की संख्या है मैंवें अंतराल (अनुभवजन्य आवृत्तियों)। प्राप्त आंकड़ों के आधार पर, नमूना माध्य और नमूना मानक विचलन की गणना करना संभव है बी. आइए हम इस धारणा की जाँच करें कि सामान्य जनसंख्या को मापदंडों के साथ सामान्य कानून के अनुसार वितरित किया जाता है एम(एक्स) = , डी(एक्स) =। तब आप मात्रा के नमूने से संख्याओं की संख्या ज्ञात कर सकते हैं पी, जो इस धारणा (अर्थात सैद्धांतिक आवृत्तियों) के तहत प्रत्येक अंतराल में होना चाहिए। ऐसा करने के लिए, लाप्लास फ़ंक्शन के मूल्यों की तालिका का उपयोग करके, हम हिट की संभावना पाते हैं मैं-वें अंतराल:

,

कहाँ पे एक मैंतथा बी मैं- सीमाओं मैं-वें अंतराल। परिणामी संभावनाओं को नमूना आकार n से गुणा करने पर, हम सैद्धांतिक आवृत्तियों को पाते हैं: पी मैं =एन पी मैंहमारा लक्ष्य अनुभवजन्य और सैद्धांतिक आवृत्तियों की तुलना करना है, जो निश्चित रूप से एक दूसरे से भिन्न हैं, और यह पता लगाने के लिए कि क्या ये अंतर महत्वहीन हैं, अध्ययन के तहत यादृच्छिक चर के सामान्य वितरण की परिकल्पना को अस्वीकार नहीं करते हैं, या वे हैं इतना बड़ा कि वे इस परिकल्पना का खंडन करते हैं। इसके लिए यादृच्छिक चर के रूप में एक मानदंड का उपयोग किया जाता है

. (7)

इसका अर्थ स्पष्ट है: भागों को संक्षेप में प्रस्तुत किया जाता है, जो सैद्धांतिक से संबंधित सैद्धांतिक आवृत्तियों से अनुभवजन्य आवृत्तियों के विचलन के वर्ग हैं। यह साबित किया जा सकता है कि, सामान्य आबादी के वास्तविक वितरण कानून की परवाह किए बिना, यादृच्छिक चर (7) का वितरण कानून स्वतंत्रता की डिग्री की संख्या के साथ वितरण कानून की ओर जाता है। के = एस - 1 – आर, कहाँ पे आरनमूना डेटा से अनुमानित अनुमानित वितरण के मापदंडों की संख्या है। सामान्य वितरण दो मापदंडों की विशेषता है, इसलिए के = एस - 3. चयनित मानदंड के लिए, एक दाहिने हाथ के महत्वपूर्ण क्षेत्र का निर्माण किया जाता है, जो स्थिति द्वारा निर्धारित किया जाता है

(8)

कहाँ पे α - सार्थक तल। इसलिए, महत्वपूर्ण क्षेत्र असमानता द्वारा दिया गया है और परिकल्पना का स्वीकृति क्षेत्र है .

तो, शून्य परिकल्पना का परीक्षण करने के लिए एच 0: जनसंख्या सामान्य रूप से वितरित की जाती है - आपको नमूने से मानदंड के देखे गए मूल्य की गणना करने की आवश्यकता है:

, (7`)

और वितरण के महत्वपूर्ण बिंदुओं की तालिका के अनुसार 2 α और . के ज्ञात मूल्यों का उपयोग करके महत्वपूर्ण बिंदु खोजें के = एस - 3. यदि - शून्य परिकल्पना स्वीकार की जाती है, यदि इसे अस्वीकार कर दिया जाता है।

उदाहरण।माल की मांग के अध्ययन के परिणाम तालिका में प्रस्तुत किए गए हैं:

वितरण के प्रकार के बारे में एक परिकल्पना सामने रखें और महत्व स्तर a=0.01 पर इसका परीक्षण करें।

मैं परिकल्पना।

अनुभवजन्य वितरण के प्रकार को इंगित करने के लिए, हम एक हिस्टोग्राम बनाते हैं


120 160 180 200 220 280

हिस्टोग्राम के रूप में, कोई सामान्य जनसंख्या में अध्ययन किए गए गुण के वितरण के सामान्य कानून के बारे में एक धारणा बना सकता है।

द्वितीय. आइए हम पियर्सन की अच्छाई-की-फिट परीक्षण का उपयोग करके सामान्य वितरण की प्रस्तावित परिकल्पना की जाँच करें।

1. गणना करें, s B. एक विकल्प के रूप में, अंतरालों के सिरों का अंकगणितीय माध्य लें:

2. अंतराल खोजें (Z i ; Z i+1): ; .

आइए पहले अंतराल के बाएं छोर के लिए (-¥) लें, और अंतिम अंतराल के दाएं छोर के लिए (+¥) लें। परिणाम तालिका में प्रस्तुत किए गए हैं। चार।

3. सैद्धांतिक प्रायिकताएं P और सैद्धांतिक आवृत्तियों का पता लगाएं (तालिका 4 देखें)।

तालिका 4

मैं अंतराल सीमा (जेड मैं) Ф(जेड आई+1) पी मैं \u003d (जेड आई + 1) - Ф (जेड आई)
एक्स मैं एक्स मैं+1 जेड आई ज़ी+1
-1,14 -0,5 -0,3729 0,1271 6,36
-1,14 -0,52 -0,3729 -0,1985 0,1744 8,72
-0,52 0,11 -0,1985 0,0438 0,2423 12,12
0,11 0,73 0,0438 0,2673 0,2235 11,18
0,73 0,2673 0,5 0,2327 11,64

4. आइए अनुभवजन्य और सैद्धांतिक आवृत्तियों की तुलना करें। इसके लिए:

ए) पियर्सन मानदंड के देखे गए मूल्य की गणना करें।

गणना तालिका 5 में प्रस्तुत की गई है।

तालिका 5

मैं
6,36 -1,36 1,8496 0,291
8,72 1,28 1,6384 0,188
12,12 1,88 3,5344 0,292
11,18 0,82 0,6724 0,060
11,64 -2,64 6,9696 0,599
एस

बी) महत्वपूर्ण वितरण बिंदु सी 2 की तालिका के अनुसार दिए गए महत्व स्तर पर ए = 0.01 और स्वतंत्रता की डिग्री की संख्या के = एम -3 = 5–3 = 2, हम महत्वपूर्ण बिंदु पाते हैं; अपने पास .

सी की तुलना करें। . इसलिए, सामान्य जनसंख्या की अध्ययन की गई विशेषता के सामान्य वितरण की परिकल्पना को अस्वीकार करने का कोई कारण नहीं है। वे। अनुभवजन्य और सैद्धांतिक आवृत्तियों के बीच विसंगति महत्वहीन (यादृच्छिक) है। मैं

टिप्पणी।कुछ अनुभवजन्य आवृत्तियों वाले अंतराल (n i .)<5), следует объединить, а частоты этих интервалов сложить. Если производилось объединение интервалов, то при определении числа степеней свободы по формуле K=m-3 следует в качестве m принять число оставшихся после объединения интервалов.

उदाहरण। 24 विकल्पों के नमूने के आधार पर, सामान्य जनसंख्या के सामान्य वितरण के बारे में एक परिकल्पना सामने रखी गई थी। दिए गए मूल्यों के बीच महत्व के स्तर पर पियर्सन के परीक्षण का उपयोग करना \u003d (34, 35, 36, 37, 38) इंगित करता है: ए) सबसे बड़ा जिसके लिए परिकल्पना को अस्वीकार करने का कोई कारण नहीं है; बी) सबसे छोटा मूल्य जिससे परिकल्पना को खारिज कर दिया जाना चाहिए।

आइए सूत्र का उपयोग करके स्वतंत्रता की डिग्री की संख्या ज्ञात करें:

जहां नमूना समूहों (विकल्प) की संख्या है, वितरण मापदंडों की संख्या है।

चूंकि सामान्य वितरण में 2 पैरामीटर (और) हैं, हम प्राप्त करते हैं

महत्वपूर्ण वितरण बिंदुओं की तालिका के अनुसार, दिए गए महत्व के स्तर और स्वतंत्रता की डिग्री की संख्या के अनुसार, हम महत्वपूर्ण बिंदु निर्धारित करते हैं।

मामले में a) 34 और 35 के बराबर मूल्यों के लिए, सामान्य वितरण की परिकल्पना को अस्वीकार करने का कोई कारण नहीं है, क्योंकि . और इन मूल्यों में सबसे बड़ा।

स्थिति b) 36, 37, 38 के मानों के लिए, परिकल्पना अस्वीकृत की जाती है, क्योंकि . उनमें से सबसे छोटा।◄

2. समान वितरण की परिकल्पना का परीक्षण. एक अनुमानित संभाव्यता घनत्व के साथ सामान्य जनसंख्या के समान वितरण की परिकल्पना का परीक्षण करने के लिए पियर्सन परीक्षण का उपयोग करते समय

मापदंडों का अनुमान लगाने के लिए, उपलब्ध नमूने से मूल्य की गणना करना आवश्यक है एकतथा बीसूत्रों के अनुसार:

कहाँ पे एक*तथा बी*- अनुमान एकतथा बी. दरअसल, एक समान वितरण के लिए एम(एक्स) = , , जहां से आप निर्धारित करने के लिए एक प्रणाली प्राप्त कर सकते हैं एक*तथा बी*: , जिसका हल व्यंजक (9) है।

फिर, यह मानकर , आप सूत्रों का उपयोग करके सैद्धांतिक आवृत्तियों को पा सकते हैं

यहां एसअंतराल की संख्या है जिसमें नमूना विभाजित है।

पियर्सन मानदंड के देखे गए मूल्य की गणना सूत्र (7`) द्वारा की जाती है, और महत्वपूर्ण मूल्य की गणना तालिका से की जाती है, इस तथ्य को ध्यान में रखते हुए कि स्वतंत्रता की डिग्री की संख्या के = एस - 3. उसके बाद, महत्वपूर्ण क्षेत्र की सीमाएं उसी तरह निर्धारित की जाती हैं जैसे सामान्य वितरण की परिकल्पना के परीक्षण के लिए।

3. घातांकीय वितरण के बारे में परिकल्पना का परीक्षण करना।इस मामले में, मौजूदा नमूने को समान लंबाई के अंतराल में विभाजित करते हुए, हम एक दूसरे से समान दूरी पर विकल्पों के अनुक्रम पर विचार करते हैं (हम मानते हैं कि सभी विकल्प मैं-वें अंतराल, इसके मध्य से मेल खाने वाला मान लें), और उनकी संगत आवृत्तियाँ मैं(नमूना विकल्पों की संख्या में शामिल हैं मैं- वें अंतराल)। हम इन आंकड़ों से गणना करते हैं और पैरामीटर के अनुमान के रूप में लेते हैं λ मूल्य । फिर सैद्धांतिक आवृत्तियों की गणना सूत्र द्वारा की जाती है

फिर, पियर्सन मानदंड के देखे गए और महत्वपूर्ण मूल्यों की तुलना की जाती है, यह ध्यान में रखते हुए कि स्वतंत्रता की डिग्री की संख्या के = एस - 2.

पियर्सन अच्छाई-की-फिट परीक्षण:

उदाहरण 1. पियर्सन परीक्षण का उपयोग करते हुए, 0.05 के महत्व स्तर पर, जाँच करें कि क्या जनसंख्या X के सामान्य वितरण की परिकल्पना आकार n = 200 के नमूने के अनुभवजन्य वितरण के अनुरूप है।

समाधानएक कैलकुलेटर के साथ खोजें।

एक्स मैंमात्रा, फाईएक्स आई * एफ आईसंचयी आवृत्ति, एस(एक्स - एक्स एसआर) * एफ(एक्स - एक्स एसआर) 2 * एफ(एक्स - एक्स एसआर) 3 * एफआवृत्ति, च मैं /एन
5 15 75 15 114.45 873.25 -6662.92 0.075
7 26 182 41 146.38 824.12 -4639.79 0.13
9 25 225 66 90.75 329.42 -1195.8 0.13
11 30 330 96 48.9 79.71 -129.92 0.15
13 26 338 122 9.62 3.56 1.32 0.13
15 21 315 143 49.77 117.95 279.55 0.11
17 24 408 167 104.88 458.33 2002.88 0.12
19 20 380 187 127.4 811.54 5169.5 0.1
21 13 273 200 108.81 910.74 7622.89 0.065
200 2526 800.96 4408.62 2447.7 1

.
भारित औसत


विविधता संकेतक.
.

आर = एक्स अधिकतम - एक्स मिनट
आर=21 - 5=16
फैलाव


विचरण का निष्पक्ष अनुमानक


मानक विचलन ।

श्रृंखला का प्रत्येक मान 12.63 के औसत मान से 4.7 . से अधिक नहीं होता है
.

.
सामान्य कानून




n = 200, h=2 (अंतराल की चौड़ाई), = 4.7, xav = 12.63

मैंएक्स मैंआप मैंiएन*आई
1 5 -1.63 0,1057 9.01
2 7 -1.2 0,1942 16.55
3 9 -0.77 0,2943 25.07
4 11 -0.35 0,3752 31.97
5 13 0.0788 0,3977 33.88
6 15 0.5 0,3503 29.84
7 17 0.93 0,2565 21.85
8 19 1.36 0,1582 13.48
9 21 1.78 0,0804 6.85
मैंमैंएन*आईएन मैं-एन* मैं(एन मैं-एन* मैं) 2(एन मैं-एन* मैं) 2 /एन* मैं
1 15 9.01 -5.99 35.94 3.99
2 26 16.55 -9.45 89.39 5.4
3 25 25.07 0.0734 0.00539 0.000215
4 30 31.97 1.97 3.86 0.12
5 26 33.88 7.88 62.14 1.83
6 21 29.84 8.84 78.22 2.62
7 24 21.85 -2.15 4.61 0.21
8 20 13.48 -6.52 42.53 3.16
9 13 6.85 -6.15 37.82 5.52
200 200 22.86



इसकी सीमा K kp = 2 (k-r-1;α) ची-वर्ग वितरण तालिकाओं से पाई जाती है और दिए गए मान σ, k = 9, r=2 (पैरामीटर x cp और नमूने से अनुमानित हैं) )
केकेपी(0.05;6) = 12.59159; कोब्स = 22.86
पियर्सन आँकड़ों का देखा गया मूल्य महत्वपूर्ण क्षेत्र में आता है: Knable> Kkp, इसलिए मुख्य परिकल्पना को अस्वीकार करने का कारण है। नमूना डेटा वितरित किया जाता है सामान्य कानून के अनुसार नहीं. दूसरे शब्दों में, अनुभवजन्य और सैद्धांतिक आवृत्तियों में काफी भिन्नता है।

उदाहरण 2. पियर्सन परीक्षण का उपयोग करते हुए, 0.05 के महत्व स्तर पर, जाँच करें कि क्या जनसंख्या X के सामान्य वितरण की परिकल्पना आकार n = 200 के नमूने के अनुभवजन्य वितरण के अनुरूप है।
समाधान.
संकेतकों की गणना के लिए तालिका।

एक्स मैंमात्रा, फाईएक्स आई * एफ आईसंचयी आवृत्ति, एस(एक्स - एक्स एसआर) * एफ(एक्स - एक्स एसआर) 2 * एफ(एक्स - एक्स एसआर) 3 * एफआवृत्ति, च मैं /एन
0.3 6 1.8 6 5.77 5.55 -5.34 0.03
0.5 9 4.5 15 6.86 5.23 -3.98 0.045
0.7 26 18.2 41 14.61 8.21 -4.62 0.13
0.9 25 22.5 66 9.05 3.28 -1.19 0.13
1.1 30 33 96 4.86 0.79 -0.13 0.15
1.3 26 33.8 122 0.99 0.0375 0.00143 0.13
1.5 21 31.5 143 5 1.19 0.28 0.11
1.7 24 40.8 167 10.51 4.6 2.02 0.12
1.9 20 38 187 12.76 8.14 5.19 0.1
2.1 8 16.8 195 6.7 5.62 4.71 0.04
2.3 5 11.5 200 5.19 5.39 5.59 0.025
200 252.4 82.3 48.03 2.54 1

वितरण केंद्र मेट्रिक्स.
भारित औसत


विविधता संकेतक.
पूर्ण भिन्नता दर.
भिन्नता की सीमा प्राथमिक श्रृंखला की विशेषता के अधिकतम और न्यूनतम मूल्यों के बीच का अंतर है।
आर = एक्स अधिकतम - एक्स मिनट
आर = 2.3 - 0.3 = 2
फैलाव- इसके माध्य मान के चारों ओर फैलाव के माप की विशेषता है (फैलाव का माप, यानी माध्य से विचलन)।


विचरण का निष्पक्ष अनुमानकभिन्नता का एक सुसंगत अनुमान है।


मानक विचलन.

श्रृंखला का प्रत्येक मान 1.26 के औसत मान से 0.49 . से अधिक नहीं से भिन्न होता है
मानक विचलन का आकलन.

वितरण के प्रकार के बारे में परीक्षण परिकल्पना.
1. आइए इस परिकल्पना का परीक्षण करें कि X वितरित है सामान्य कानूनपियर्सन की अच्छाई-की-फिट परीक्षण का उपयोग करना।

जहाँ n* i - सैद्धांतिक आवृत्तियाँ:

हम सैद्धांतिक आवृत्तियों की गणना करते हैं, यह देखते हुए:
n = 200, h=0.2 (अंतराल की चौड़ाई), = 0.49, xav = 1.26

मैंएक्स मैंआप मैंiएन*आई
1 0.3 -1.96 0,0573 4.68
2 0.5 -1.55 0,1182 9.65
3 0.7 -1.15 0,2059 16.81
4 0.9 -0.74 0,3034 24.76
5 1.1 -0.33 0,3765 30.73
6 1.3 0.0775 0,3977 32.46
7 1.5 0.49 0,3538 28.88
8 1.7 0.89 0,2661 21.72
9 1.9 1.3 0,1691 13.8
10 2.1 1.71 0,0909 7.42
11 2.3 2.12 0,0422 3.44

आइए अनुभवजन्य और सैद्धांतिक आवृत्तियों की तुलना करें। आइए एक गणना तालिका बनाएं, जिसमें से हम मानदंड का प्रेक्षित मान प्राप्त करेंगे:

21.72 -2.28 5.2 0.24 9 20 13.8 -6.2 38.41 2.78 10 8 7.42 -0.58 0.34 0.0454 11 5 3.44 -1.56 2.42 0.7 ∑ 200 200 12.67

आइए हम महत्वपूर्ण क्षेत्र की सीमा को परिभाषित करें। चूंकि पियर्सन आँकड़ा अनुभवजन्य और सैद्धांतिक वितरण के बीच के अंतर को मापता है, K ऑब्स का इसका मनाया मूल्य जितना बड़ा होगा, मुख्य परिकल्पना के खिलाफ तर्क उतना ही मजबूत होगा।
इसलिए, इस आंकड़े के लिए महत्वपूर्ण क्षेत्र हमेशा दाएं हाथ का होता है :)

दोस्तों के साथ शेयर करें या अपने लिए सेव करें:

लोड हो रहा है...