सामान्य वितरण के लिए पियर्सन की अच्छाई का फिट परीक्षण। पियर्सन की कसौटी

अध्ययन के वितरण के नियम के बारे में परिकल्पना के परीक्षण के लिए अच्छाई-की-फिट मानदंड अनियमित चर।कई मे व्यावहारिक कार्यसटीक वितरण कानून अज्ञात है। इसलिए, मौजूदा अनुभवजन्य कानून के पत्राचार के बारे में एक परिकल्पना को आगे रखा गया है, जो टिप्पणियों के आधार पर बनाया गया है, कुछ सैद्धांतिक एक के लिए। इस परिकल्पना की आवश्यकता है सांख्यिकीय जांच, जिसके परिणामों के अनुसार या तो इसकी पुष्टि की जाएगी या खंडन किया जाएगा।

मान लीजिए X अध्ययनाधीन यादृच्छिक चर है। परिकल्पना H0 का परीक्षण करना आवश्यक है कि दिया गया यादृच्छिक चर वितरण नियम F(x) का पालन करता है। ऐसा करने के लिए, आपको n स्वतंत्र अवलोकनों का एक नमूना बनाने और एक अनुभवजन्य वितरण कानून F "(x) बनाने के लिए इसका उपयोग करने की आवश्यकता है। अनुभवजन्य और काल्पनिक कानूनों की तुलना करने के लिए, फिट की अच्छाई नामक एक नियम का उपयोग किया जाता है। इनमें से एक सबसे लोकप्रिय है के. पियर्सन की फिट की ची-स्क्वायर अच्छाई।

यह ची-स्क्वायर आँकड़ों की गणना करता है:

जहां एन अंतराल की संख्या है जिसके अनुसार अनुभवजन्य वितरण कानून बनाया गया था (संबंधित हिस्टोग्राम के स्तंभों की संख्या), मैं अंतराल की संख्या है, पी टी मैं संभावना है कि यादृच्छिक चर का मूल्य गिर जाएगा मैं-वें अंतरालसैद्धांतिक वितरण कानून के लिए, p e i संभावना है कि एक यादृच्छिक चर का मान अनुभवजन्य वितरण कानून के लिए i-वें अंतराल में आता है। इसे ची-स्क्वायर वितरण का पालन करना चाहिए।

यदि सांख्यिकीय का परिकलित मान किसी दिए गए महत्व स्तर के लिए k-p-1 डिग्री स्वतंत्रता के साथ ची-वर्ग वितरण मात्रा से अधिक है, तो परिकल्पना H 0 अस्वीकार कर दी जाती है। अन्यथा, इसे दिए गए महत्व स्तर पर स्वीकार किया जाता है। यहाँ k है अवलोकनों की संख्या, p वितरण कानून के अनुमानित मापदंडों की संख्या है।

पियर्सन आपको एक विशेषता के अनुभवजन्य और सैद्धांतिक (या अन्य अनुभवजन्य) वितरण का परीक्षण करने की अनुमति देता है। यह मानदंड मुख्य रूप से दो मामलों में लागू होता है:

एक सैद्धांतिक वितरण (सामान्य, घातीय, वर्दी, या कुछ अन्य कानून) के साथ एक विशेषता के अनुभवजन्य वितरण की तुलना करने के लिए;

एक ही विशेषता के दो अनुभवजन्य वितरणों की तुलना करना।

विधि का विचार संबंधित आवृत्तियों n i और के विचलन की डिग्री निर्धारित करना है; यह विसंगति जितनी अधिक होगी, मूल्य उतना ही अधिक होगा

नमूना आकार कम से कम 50 होना चाहिए और आवृत्तियों का योग बराबर होना चाहिए

शून्य परिकल्पना एच 0 = (दो वितरण व्यावहारिक रूप से एक दूसरे से भिन्न नहीं होते हैं); वैकल्पिक परिकल्पना - एच 1 = (वितरणों के बीच विसंगति महत्वपूर्ण है)।

दो अनुभवजन्य वितरणों की तुलना करने के लिए मानदंड लागू करने की एक योजना यहां दी गई है:

मानदंड - परिकल्पना के परीक्षण के लिए एक सांख्यिकीय मानदंड है कि मनाया यादृच्छिक चर कुछ सैद्धांतिक वितरण कानून का पालन करता है।

मानदंड के मूल्य के आधार पर, परिकल्पना को स्वीकार या अस्वीकार किया जा सकता है:

§ , परिकल्पना पूरी होती है।

(वितरण के बाएं "पूंछ" में पड़ता है)। इसलिए, सैद्धांतिक और व्यावहारिक मूल्य बहुत करीब हैं। यदि, उदाहरण के लिए, जनरेटर की जाँच की जाती है यादृच्छिक संख्या, जो खंड और परिकल्पना से n संख्याएँ उत्पन्न करता है: नमूना समान रूप से वितरित किया जाता है, फिर जनरेटर को यादृच्छिक नहीं कहा जा सकता है (यादृच्छिकता परिकल्पना संतुष्ट नहीं है), क्योंकि नमूना बहुत समान रूप से वितरित किया गया है, लेकिन परिकल्पना संतुष्ट है।

(वितरण के दाहिने "पूंछ" में पड़ता है) परिकल्पना को खारिज कर दिया जाता है।

परिभाषा: मान लीजिए कि एक यादृच्छिक चर X दिया गया है।

परिकल्पना: साथ। में। X वितरण के नियम का पालन करता है।

परिकल्पना का परीक्षण करने के लिए, एक नमूने पर विचार करें जिसमें r.v के n स्वतंत्र अवलोकन हों। एक्स: । नमूने के आधार पर, हम आरवी एक्स का एक अनुभवजन्य वितरण का निर्माण करते हैं। अनुभवजन्य और सैद्धांतिक वितरण (परिकल्पना में माना जाता है) की तुलना एक विशेष रूप से चयनित फ़ंक्शन - अच्छाई-की-फिट मानदंड का उपयोग करके की जाती है। पियर्सन की अच्छाई-की-फिट परीक्षा (मानदंड) पर विचार करें:

परिकल्पना: X n फ़ंक्शन द्वारा उत्पन्न होता है।

k गैर-अतिव्यापी अंतरालों में विभाजित करें ;

आज्ञा देना प्रेक्षणों की संख्या जे-वें अंतराल: ;

परिकल्पना के पूरा होने पर j-वें अंतराल में किसी प्रेक्षण के गिरने की प्रायिकता;

- j-वें अंतराल में हिट की अपेक्षित संख्या;

सांख्यिकी: - स्वतंत्रता के k-1 डिग्री के साथ ची-वर्ग वितरण।

कम-आवृत्ति (दुर्लभ) घटनाओं वाले नमूनों पर मानदंड गलत है। इस समस्या को कम-आवृत्ति घटनाओं को त्यागकर, या उन्हें अन्य घटनाओं के साथ जोड़कर हल किया जा सकता है। इस विधि को येट्स सुधार कहा जाता है।

पियर्सन की अच्छाई-की-फिट परीक्षण (χ 2) का उपयोग इस परिकल्पना का परीक्षण करने के लिए किया जाता है कि अनुभवजन्य वितरण बड़े नमूना आकार (एन ≥ 100) के साथ अपेक्षित सैद्धांतिक वितरण एफ (एक्स) से मेल खाता है। मानदंड किसी भी प्रकार के फ़ंक्शन F(x) के लिए लागू होता है, यहां तक कि उनके मापदंडों के अज्ञात मूल्यों के साथ, जो आमतौर पर यांत्रिक परीक्षणों के परिणामों का विश्लेषण करते समय होता है। यहीं इसकी बहुमुखी प्रतिभा है।

2 मानदंड के उपयोग में नमूना भिन्नता की सीमा को अंतराल में विभाजित करना और प्रत्येक के लिए अवलोकन (आवृत्ति) n j की संख्या निर्धारित करना शामिल है। इअंतराल। वितरण मापदंडों के आकलन की सुविधा के लिए, अंतरालों को समान लंबाई के लिए चुना जाता है।

अंतराल की संख्या नमूना आकार पर निर्भर करती है। आमतौर पर स्वीकृत: n = 100 . पर इ= 10 15, n = 200 . पर इ= 15 20, n = 400 . पर इ= 25 30, n = 1000 . पर इ= 35 40।

पाँच से कम प्रेक्षणों वाले अंतरालों को पडोसी प्रेक्षणों के साथ संयोजित किया जाता है। हालाँकि, यदि ऐसे अंतरालों की संख्या उनकी कुल संख्या के 20% से कम है, तो n j 2 की आवृत्ति वाले अंतरालों की अनुमति है।

पियर्सन परीक्षण आँकड़ा मूल्य है
, (3.91)
जहां पी जे संभावना है कि अध्ययन के तहत यादृच्छिक चर जे-वें अंतराल में आता है, जिसकी गणना काल्पनिक वितरण कानून एफ (एक्स) के अनुसार की जाती है। प्रायिकता पी जे की गणना करते समय, यह ध्यान रखना चाहिए कि पहले अंतराल की बाईं सीमा और अंतिम की दाहिनी सीमा यादृच्छिक चर के संभावित मूल्यों के क्षेत्र की सीमाओं के साथ मेल खाना चाहिए। उदाहरण के लिए, जब सामान्य वितरणपहला अंतराल -∞ तक फैला हुआ है, और अंतिम - +∞ तक।

सैद्धांतिक कानून F(x) के साथ नमूना वितरण के अनुपालन के बारे में शून्य परिकल्पना की जाँच सूत्र (3.91) द्वारा गणना किए गए मान की तुलना तालिका से प्राप्त महत्वपूर्ण मान χ 2 α से की जाती है। महत्व स्तर α और स्वतंत्रता की डिग्री की संख्या के लिए आवेदन VI k = इ 1 - मी - 1. यहाँ इ 1 - विलय के बाद अंतराल की संख्या; एम माना नमूने से अनुमानित मापदंडों की संख्या है। यदि असमानता
2 2 α (3.92)
तो शून्य परिकल्पना अस्वीकार नहीं की जाती है। यदि संकेतित असमानता नहीं देखी जाती है, तो एक वैकल्पिक परिकल्पना स्वीकार की जाती है कि नमूना अज्ञात वितरण से संबंधित है।

पियर्सन गुडनेस-ऑफ-फिट परीक्षण का नुकसान अवलोकन परिणामों को अंतराल में समूहित करने और व्यक्तिगत अंतरालों को कम संख्या में टिप्पणियों के साथ संयोजित करने की आवश्यकता से जुड़ी कुछ प्रारंभिक जानकारी का नुकसान है। इस संबंध में, यह अनुशंसा की जाती है कि अन्य मानदंडों के साथ 2 मानदंड द्वारा वितरण के पत्राचार के सत्यापन को पूरक करें। यह अपेक्षाकृत कम मात्रा के नमूने (एन 100) के साथ विशेष रूप से आवश्यक है।

तालिका स्वतंत्रता की एक निश्चित संख्या के साथ ची-वर्ग वितरण के महत्वपूर्ण मूल्यों को दिखाती है। वांछित मूल्य स्तंभ के चौराहे पर संबंधित संभाव्यता मान और पंक्ति के साथ स्वतंत्रता की डिग्री की संख्या के साथ है। उदाहरण के लिए, 0.25 की संभावना के लिए 4 डिग्री स्वतंत्रता के साथ ची-वर्ग वितरण का महत्वपूर्ण मूल्य 5.38527 है। इसका मतलब यह है कि ची-वर्ग वितरण के घनत्व वक्र के नीचे का क्षेत्रफल 4 डिग्री स्वतंत्रता के साथ 5.38527 के मान के दाईं ओर 0.25 है।

कुछ मामलों में, शोधकर्ता को पहले से पता नहीं होता है कि अध्ययन के तहत विशेषता के देखे गए मूल्यों को किस कानून द्वारा वितरित किया जाता है। लेकिन उसके पास यह मानने के लिए पर्याप्त कारण हो सकते हैं कि वितरण एक या दूसरे कानून के अधीन है, उदाहरण के लिए, सामान्य या वर्दी। इस मामले में, निम्नलिखित रूप की मुख्य और वैकल्पिक सांख्यिकीय परिकल्पनाओं को सामने रखा गया है:

एच 0: देखी गई विशेषता का वितरण वितरण कानून के अधीन है ए,

एच 1: देखे गए फीचर का वितरण अलग है ए;

जबकि एएक या कोई अन्य वितरण कानून कार्य कर सकता है: सामान्य, समान, घातीय, आदि।

प्रस्तावित वितरण कानून के बारे में परिकल्पना का परीक्षण तथाकथित अच्छाई-की-फिट मानदंड का उपयोग करके किया जाता है। कई स्वीकृति मानदंड हैं। उनमें से सबसे सार्वभौमिक है पियर्सन - मानदंड, क्योंकि यह किसी भी प्रकार के वितरण पर लागू होता है।

-पियर्सन की कसौटी

आमतौर पर अनुभवजन्य और सैद्धांतिक आवृत्तियों में अंतर होता है। क्या विसंगति यादृच्छिक है? पियर्सन मानदंड इस प्रश्न का उत्तर देता है, हालांकि, किसी भी सांख्यिकीय मानदंड की तरह, यह परिकल्पना की वैधता को कड़ाई से गणितीय अर्थ में साबित नहीं करता है, बल्कि केवल एक निश्चित स्तर के महत्व पर अवलोकन संबंधी डेटा के साथ अपनी सहमति या असहमति स्थापित करता है।

तो, फीचर वैल्यू के सांख्यिकीय वितरण को वॉल्यूम सैंपल से प्राप्त करने दें, जहां देखे गए फीचर वैल्यूज हैं, संबंधित फ्रीक्वेंसी हैं:

पियर्सन मानदंड का सार निम्नलिखित सूत्र के अनुसार मानदंड की गणना करना है:

देखे गए मानों के अंकों की संख्या कहां है, और संबंधित मानों की सैद्धांतिक आवृत्तियां हैं।

यह स्पष्ट है कि अंतर जितना छोटा होता है, अनुभवजन्य वितरण उतना ही करीब होता है, इसलिए, मानदंड का मूल्य जितना छोटा होता है, उतना ही मज़बूती से यह तर्क दिया जा सकता है कि अनुभवजन्य और सैद्धांतिक वितरण एक ही कानून के अधीन हैं।

पियर्सन की कसौटी एल्गोरिथम

पियर्सन मानदंड एल्गोरिथ्म सरल है और इसमें निम्नलिखित चरण शामिल हैं:

तो, इस एल्गोरिथ्म में एकमात्र गैर-तुच्छ क्रिया सैद्धांतिक आवृत्तियों का निर्धारण है। वे, निश्चित रूप से, वितरण के कानून पर निर्भर करते हैं, इसलिए - अलग-अलग कानूनों के लिए अलग-अलग परिभाषित किए जाते हैं।

पियर्सन का ची-स्क्वायर परीक्षण एक गैर-पैरामीट्रिक विधि है जो आपको प्रत्येक श्रेणी में आने वाले नमूने के वास्तविक (अध्ययन के परिणामस्वरूप प्रकट) परिणामों की संख्या या गुणात्मक विशेषताओं के बीच अंतर के महत्व का मूल्यांकन करने की अनुमति देता है, और सैद्धांतिक अशक्त परिकल्पना सत्य होने पर अध्ययन किए गए समूहों में अपेक्षित संख्या। सरल शब्दों में, विधि किसी को अनुमान लगाने की अनुमति देती है आंकड़ों की महत्तादो या अधिक के बीच का अंतर सापेक्ष संकेतक(आवृत्ति, शेयर)।

1. 2 मानदंड . के विकास का इतिहास

आकस्मिक तालिकाओं के विश्लेषण के लिए ची-स्क्वायर परीक्षण 1900 में एक अंग्रेजी गणितज्ञ, सांख्यिकीविद्, जीवविज्ञानी और दार्शनिक द्वारा विकसित और प्रस्तावित किया गया था। गणितीय सांख्यिकीऔर बायोमेट्रिक्स के संस्थापकों में से एक कार्ल पियर्सन(1857-1936).

2. पियर्सन का 2 मानदंड किसके लिए प्रयोग किया जाता है?

विश्लेषण में ची-स्क्वायर परीक्षण लागू किया जा सकता है आकस्मिकता टेबल्सजोखिम कारक की उपस्थिति के आधार पर परिणामों की आवृत्ति के बारे में जानकारी युक्त। उदाहरण के लिए, चार-क्षेत्र आकस्मिक तालिकानिम्नलिखित नुसार:

	पलायन है (1)	कोई निकास नहीं (0)	कुल
एक जोखिम कारक है (1)	ए	बी	ए+बी
कोई जोखिम कारक नहीं (0)	सी	डी	सी+डी
कुल	ए+सी	बी+डी	ए+बी+सी+डी

ऐसी आकस्मिक तालिका कैसे भरें? आइए एक छोटे से उदाहरण पर विचार करें।

धमनी उच्च रक्तचाप के विकास के जोखिम पर धूम्रपान के प्रभाव पर एक अध्ययन चल रहा है। इसके लिए विषयों के दो समूहों का चयन किया गया था - पहले में 70 लोग शामिल थे जो रोजाना कम से कम 1 पैकेट सिगरेट पीते थे, दूसरे - एक ही उम्र के 80 धूम्रपान न करने वाले। पहले समूह में 40 लोगों को उच्च रक्तचाप था। दूसरे में - 32 लोगों में धमनी उच्च रक्तचाप देखा गया। तदनुसार, धूम्रपान करने वालों के समूह में सामान्य रक्तचाप 30 लोगों (70 - 40 = 30) और धूम्रपान न करने वालों के समूह में - 48 (80 - 32 = 48) में था।

हम प्रारंभिक डेटा के साथ चार-क्षेत्र की आकस्मिक तालिका भरते हैं:

परिणामी आकस्मिक तालिका में, प्रत्येक पंक्ति विषयों के एक विशिष्ट समूह से मेल खाती है। कॉलम - धमनी उच्च रक्तचाप वाले या सामान्य रक्तचाप वाले व्यक्तियों की संख्या दिखाएं।

शोधकर्ता के लिए चुनौती यह है: क्या धूम्रपान करने वालों और धूम्रपान न करने वालों के बीच रक्तचाप वाले लोगों की आवृत्ति के बीच सांख्यिकीय रूप से महत्वपूर्ण अंतर हैं? आप इस प्रश्न का उत्तर पियर्सन के ची-स्क्वायर परीक्षण की गणना करके और परिणामी मान की आलोचनात्मक परीक्षण से तुलना करके कर सकते हैं।

3. पियर्सन के ची-स्क्वायर टेस्ट के उपयोग पर शर्तें और प्रतिबंध

तुलनीय संकेतकों को मापा जाना चाहिए नियुनतम स्तर(उदाहरण के लिए, रोगी का लिंग - पुरुष या महिला) या में क्रमवाचक(उदाहरण के लिए, धमनी उच्च रक्तचाप की डिग्री, 0 से 3 तक मान लेना)।
यह विधिन केवल चार-फ़ील्ड तालिकाओं के विश्लेषण की अनुमति देता है, जब कारक और परिणाम दोनों द्विआधारी चर होते हैं, अर्थात, उनके पास केवल दो संभावित मान होते हैं (उदाहरण के लिए, पुरुष या महिला, एक निश्चित बीमारी की उपस्थिति या अनुपस्थिति इतिहास में ...)। पियर्सन के ची-स्क्वायर परीक्षण का उपयोग बहु-क्षेत्रीय तालिकाओं के विश्लेषण के मामले में भी किया जा सकता है, जब कारक और (या) परिणाम तीन या अधिक मान लेते हैं।
मेल खाने वाले समूह स्वतंत्र होने चाहिए, यानी पहले-बाद के अवलोकनों की तुलना करते समय ची-स्क्वायर परीक्षण का उपयोग नहीं किया जाना चाहिए। मैकनेमर परीक्षण(दो संबंधित आबादी की तुलना करते समय) या परिकलित क्यू-टेस्ट कोचरन(तीन या अधिक समूहों की तुलना करने के मामले में)।
चार-फ़ील्ड तालिकाओं का विश्लेषण करते समय अपेक्षित मूल्यप्रत्येक सेल में कम से कम 10 होना चाहिए। इस घटना में कि कम से कम एक सेल में अपेक्षित घटना 5 से 9 तक मान लेती है, ची-स्क्वायर टेस्ट की गणना की जानी चाहिए येट्स सुधार के साथ. यदि कम से कम एक सेल में अपेक्षित घटना 5 से कम है, तो विश्लेषण का उपयोग करना चाहिए फिशर का सटीक परीक्षण.
बहु-क्षेत्रीय तालिकाओं के विश्लेषण के मामले में, प्रेक्षणों की अपेक्षित संख्या को 20% से अधिक कक्षों में 5 से कम मान नहीं लेना चाहिए।

4. पियर्सन के ची-स्क्वायर परीक्षण की गणना कैसे करें?

ची-स्क्वायर टेस्ट की गणना करने के लिए, आपको यह करना होगा:

यह एल्गोरिथम चार-फ़ील्ड और मल्टी-फ़ील्ड टेबल दोनों के लिए लागू है।

5. पियर्सन के काई-स्क्वायर परीक्षण के मूल्य की व्याख्या कैसे करें?

इस घटना में कि मानदंड 2 का प्राप्त मूल्य महत्वपूर्ण एक से अधिक है, हम यह निष्कर्ष निकालते हैं कि अध्ययन किए गए जोखिम कारक और परिणाम के बीच एक सांख्यिकीय संबंध महत्व के उपयुक्त स्तर पर है।

6. पियर्सन ची-स्क्वायर टेस्ट की गणना का एक उदाहरण

आइए हम ऊपर दी गई तालिका के अनुसार धमनी उच्च रक्तचाप की घटनाओं पर धूम्रपान कारक के प्रभाव के सांख्यिकीय महत्व को निर्धारित करें:

हम प्रत्येक सेल के लिए अपेक्षित मूल्यों की गणना करते हैं:
पियर्सन के ची-स्क्वायर परीक्षण का मान ज्ञात कीजिए:
2 \u003d (40-33.6) 2/33.6 + (30-36.4) 2/36.4 + (32-38.4) 2 / 38.4 + (48-41.6) 2/41.6 \u003d 4.396।
स्वतंत्रता की डिग्री की संख्या f = (2-1)*(2-1) = 1. हम तालिका से पियर्सन ची-स्क्वायर परीक्षण का महत्वपूर्ण मान पाते हैं, जो कि p=0.05 के महत्व स्तर पर है और स्वतंत्रता 1 की डिग्री की संख्या 3.841 है।
हम ची-स्क्वायर परीक्षण के प्राप्त मूल्य की तुलना महत्वपूर्ण के साथ करते हैं: 4.396> 3.841, इसलिए, धूम्रपान की उपस्थिति पर धमनी उच्च रक्तचाप की घटनाओं की निर्भरता सांख्यिकीय रूप से महत्वपूर्ण है। इस संबंध का महत्व स्तर p . से मेल खाता है<0.05.

पहले, उन परिकल्पनाओं पर विचार किया जाता था जिनमें सामान्य जनसंख्या के वितरण के नियम को ज्ञात माना जाता था। अब आइए अज्ञात वितरण के कथित कानून के बारे में अनुमानों का परीक्षण करें, यानी, हम शून्य परिकल्पना का परीक्षण करेंगे कि जनसंख्या किसी ज्ञात कानून के अनुसार वितरित की जाती है। आमतौर पर, ऐसी परिकल्पनाओं के परीक्षण के लिए सांख्यिकीय परीक्षणों को कहा जाता है सहमति मानदंड।

समरूपता मानदंडअज्ञात वितरण के प्रस्तावित कानून की परिकल्पना के परीक्षण के लिए मानदंड कहा जाता है। यह अनुभवजन्य और सैद्धांतिक वितरण के बीच विसंगति का एक संख्यात्मक उपाय है।

मुख्य कार्य।अनुभवजन्य वितरण (नमूना) दिया गया है। सैद्धांतिक वितरण के प्रकार के बारे में एक धारणा बनाएं (एक परिकल्पना सामने रखें) और प्रस्तावित परिकल्पना को दिए गए महत्व स्तर α पर परीक्षण करें।

मुख्य समस्या के समाधान में दो भाग होते हैं:

1. एक परिकल्पना को सामने रखना।

2. महत्व के दिए गए स्तर पर परिकल्पना का परीक्षण करना।

आइए इन भागों को विस्तार से देखें।

1. एक परिकल्पना चुननाबहुभुज या आवृत्ति हिस्टोग्राम का उपयोग करके सैद्धांतिक वितरण के प्रकार के बारे में बात करना सुविधाजनक है। अनुभवजन्य बहुभुज (या हिस्टोग्राम) की तुलना ज्ञात वितरण कानूनों से की जाती है और सबसे उपयुक्त एक को चुना जाता है।

यहाँ सबसे महत्वपूर्ण वितरण कानूनों के रेखांकन हैं:

अनुभवजन्य वितरण कानूनों के उदाहरण आंकड़ों में दिखाए गए हैं:

मामले में (ए) सामान्य वितरण की परिकल्पना सामने रखी जाती है, मामले में (बी) समान वितरण की परिकल्पना, मामले में (सी) पॉइसन वितरण की परिकल्पना।

सैद्धांतिक वितरण के बारे में एक परिकल्पना को सामने रखने का आधार विशेषता में परिवर्तन की प्रकृति के बारे में सैद्धांतिक आधार हो सकता है। उदाहरण के लिए, लाइपुनोव प्रमेय की शर्तों की पूर्ति हमें सामान्य वितरण के बारे में एक परिकल्पना बनाने की अनुमति देती है। माध्य और विचरण की समानता पॉइसन वितरण की परिकल्पना की ओर ले जाती है।

व्यवहार में, हम अक्सर सामान्य वितरण का सामना करते हैं, इसलिए हमारी समस्याओं में हमें केवल सामान्य वितरण की परिकल्पना का परीक्षण करने की आवश्यकता होती है।

परिकल्पना परीक्षणसैद्धांतिक वितरण के बारे में प्रश्न का उत्तर देता है: क्या कथित सैद्धांतिक और अनुभवजन्य वितरण के बीच विसंगति को यादृच्छिक, महत्वहीन माना जा सकता है, कुछ वस्तुओं के नमूने में गिरने की यादृच्छिकता द्वारा समझाया जा सकता है, या क्या यह विसंगति वितरण के बीच एक महत्वपूर्ण विसंगति को इंगित करती है। जाँच करने के लिए विभिन्न तरीके हैं (फिटनेस मानदंड) - c 2 (ची-स्क्वायर), कोलमोगोरोव, रोमानोव्स्की और अन्य।

पियर्सन की कसौटी।

पियर्सन मानदंड का लाभ इसकी सार्वभौमिकता है: इसका उपयोग विभिन्न वितरण कानूनों के बारे में परिकल्पनाओं का परीक्षण करने के लिए किया जा सकता है।

1. सामान्य वितरण की परिकल्पना का परीक्षण करना।मान लीजिए कि पर्याप्त रूप से बड़े आकार का एक नमूना प्राप्त होता है पीविभिन्न प्रकार के मूल्यों के साथ। इसके प्रसंस्करण की सुविधा के लिए, हम अंतराल को सबसे छोटे से सबसे बड़े से भिन्न के मूल्यों में विभाजित करते हैं एसबराबर भागों और हम मान लेंगे कि प्रत्येक अंतराल में आने वाले विकल्पों के मान लगभग उस संख्या के बराबर हैं जो अंतराल के मध्य को निर्दिष्ट करता है। प्रत्येक अंतराल में आने वाले विकल्पों की संख्या की गणना करने के बाद, हम तथाकथित समूहीकृत नमूना बनाएंगे:

विकल्प……….. एक्स 1 एक्स 2 … एक्स एस

आवृत्तियों ……………. पी 1 पी 2 … n s ,

कहाँ पे एक्स मैंअंतराल के मध्यबिंदुओं के मान हैं, और मैंमें शामिल विकल्पों की संख्या है मैंवें अंतराल (अनुभवजन्य आवृत्तियों)। प्राप्त आंकड़ों के आधार पर, नमूना माध्य और नमूना मानक विचलन की गणना करना संभव है बी. आइए हम इस धारणा की जाँच करें कि सामान्य जनसंख्या को मापदंडों के साथ सामान्य कानून के अनुसार वितरित किया जाता है एम(एक्स) = , डी(एक्स) =। तब आप मात्रा के नमूने से संख्याओं की संख्या ज्ञात कर सकते हैं पी, जो इस धारणा (अर्थात सैद्धांतिक आवृत्तियों) के तहत प्रत्येक अंतराल में होना चाहिए। ऐसा करने के लिए, लाप्लास फ़ंक्शन के मूल्यों की तालिका का उपयोग करके, हम हिट की संभावना पाते हैं मैं-वें अंतराल:

कहाँ पे एक मैंतथा बी मैं- सीमाओं मैं-वें अंतराल। परिणामी संभावनाओं को नमूना आकार n से गुणा करने पर, हम सैद्धांतिक आवृत्तियों को पाते हैं: पी मैं =एन पी मैंहमारा लक्ष्य अनुभवजन्य और सैद्धांतिक आवृत्तियों की तुलना करना है, जो निश्चित रूप से एक दूसरे से भिन्न हैं, और यह पता लगाने के लिए कि क्या ये अंतर महत्वहीन हैं, अध्ययन के तहत यादृच्छिक चर के सामान्य वितरण की परिकल्पना को अस्वीकार नहीं करते हैं, या वे हैं इतना बड़ा कि वे इस परिकल्पना का खंडन करते हैं। इसके लिए यादृच्छिक चर के रूप में एक मानदंड का उपयोग किया जाता है

. (7)

इसका अर्थ स्पष्ट है: भागों को संक्षेप में प्रस्तुत किया जाता है, जो सैद्धांतिक से संबंधित सैद्धांतिक आवृत्तियों से अनुभवजन्य आवृत्तियों के विचलन के वर्ग हैं। यह साबित किया जा सकता है कि, सामान्य आबादी के वास्तविक वितरण कानून की परवाह किए बिना, यादृच्छिक चर (7) का वितरण कानून स्वतंत्रता की डिग्री की संख्या के साथ वितरण कानून की ओर जाता है। के = एस - 1 – आर, कहाँ पे आरनमूना डेटा से अनुमानित अनुमानित वितरण के मापदंडों की संख्या है। सामान्य वितरण दो मापदंडों की विशेषता है, इसलिए के = एस - 3. चयनित मानदंड के लिए, एक दाहिने हाथ के महत्वपूर्ण क्षेत्र का निर्माण किया जाता है, जो स्थिति द्वारा निर्धारित किया जाता है

(8)

कहाँ पे α - सार्थक तल। इसलिए, महत्वपूर्ण क्षेत्र असमानता द्वारा दिया गया है और परिकल्पना का स्वीकृति क्षेत्र है .

तो, शून्य परिकल्पना का परीक्षण करने के लिए एच 0: जनसंख्या सामान्य रूप से वितरित की जाती है - आपको नमूने से मानदंड के देखे गए मूल्य की गणना करने की आवश्यकता है:

, (7`)

और वितरण के महत्वपूर्ण बिंदुओं की तालिका के अनुसार 2 α और . के ज्ञात मूल्यों का उपयोग करके महत्वपूर्ण बिंदु खोजें के = एस - 3. यदि - शून्य परिकल्पना स्वीकार की जाती है, यदि इसे अस्वीकार कर दिया जाता है।

उदाहरण।माल की मांग के अध्ययन के परिणाम तालिका में प्रस्तुत किए गए हैं:

वितरण के प्रकार के बारे में एक परिकल्पना सामने रखें और महत्व स्तर a=0.01 पर इसका परीक्षण करें।

मैं परिकल्पना।

अनुभवजन्य वितरण के प्रकार को इंगित करने के लिए, हम एक हिस्टोग्राम बनाते हैं

120 160 180 200 220 280

हिस्टोग्राम के रूप में, कोई सामान्य जनसंख्या में अध्ययन किए गए गुण के वितरण के सामान्य कानून के बारे में एक धारणा बना सकता है।

द्वितीय. आइए हम पियर्सन की अच्छाई-की-फिट परीक्षण का उपयोग करके सामान्य वितरण की प्रस्तावित परिकल्पना की जाँच करें।

1. गणना करें, s B. एक विकल्प के रूप में, अंतरालों के सिरों का अंकगणितीय माध्य लें:

2. अंतराल खोजें (Z i ; Z i+1): ; .

आइए पहले अंतराल के बाएं छोर के लिए (-¥) लें, और अंतिम अंतराल के दाएं छोर के लिए (+¥) लें। परिणाम तालिका में प्रस्तुत किए गए हैं। चार।

3. सैद्धांतिक प्रायिकताएं P और सैद्धांतिक आवृत्तियों का पता लगाएं (तालिका 4 देखें)।

तालिका 4

मैं	अंतराल सीमा	(जेड मैं)	Ф(जेड आई+1)	पी मैं \u003d (जेड आई + 1) - Ф (जेड आई)
	एक्स मैं	एक्स मैं+1	जेड आई	ज़ी+1
			-¥	-1,14	-0,5	-0,3729	0,1271	6,36
			-1,14	-0,52	-0,3729	-0,1985	0,1744	8,72
			-0,52	0,11	-0,1985	0,0438	0,2423	12,12
			0,11	0,73	0,0438	0,2673	0,2235	11,18
			0,73	+¥	0,2673	0,5	0,2327	11,64

4. आइए अनुभवजन्य और सैद्धांतिक आवृत्तियों की तुलना करें। इसके लिए:

ए) पियर्सन मानदंड के देखे गए मूल्य की गणना करें।

गणना तालिका 5 में प्रस्तुत की गई है।

तालिका 5

मैं
	6,36	-1,36	1,8496	0,291
	8,72	1,28	1,6384	0,188
	12,12	1,88	3,5344	0,292
	11,18	0,82	0,6724	0,060
	11,64	-2,64	6,9696	0,599
एस

बी) महत्वपूर्ण वितरण बिंदु सी 2 की तालिका के अनुसार दिए गए महत्व स्तर पर ए = 0.01 और स्वतंत्रता की डिग्री की संख्या के = एम -3 = 5–3 = 2, हम महत्वपूर्ण बिंदु पाते हैं; अपने पास .

सी की तुलना करें। . इसलिए, सामान्य जनसंख्या की अध्ययन की गई विशेषता के सामान्य वितरण की परिकल्पना को अस्वीकार करने का कोई कारण नहीं है। वे। अनुभवजन्य और सैद्धांतिक आवृत्तियों के बीच विसंगति महत्वहीन (यादृच्छिक) है। मैं

टिप्पणी।कुछ अनुभवजन्य आवृत्तियों वाले अंतराल (n i .)<5), следует объединить, а частоты этих интервалов сложить. Если производилось объединение интервалов, то при определении числа степеней свободы по формуле K=m-3 следует в качестве m принять число оставшихся после объединения интервалов.

उदाहरण। 24 विकल्पों के नमूने के आधार पर, सामान्य जनसंख्या के सामान्य वितरण के बारे में एक परिकल्पना सामने रखी गई थी। दिए गए मूल्यों के बीच महत्व के स्तर पर पियर्सन के परीक्षण का उपयोग करना \u003d (34, 35, 36, 37, 38) इंगित करता है: ए) सबसे बड़ा जिसके लिए परिकल्पना को अस्वीकार करने का कोई कारण नहीं है; बी) सबसे छोटा मूल्य जिससे परिकल्पना को खारिज कर दिया जाना चाहिए।

आइए सूत्र का उपयोग करके स्वतंत्रता की डिग्री की संख्या ज्ञात करें:

जहां नमूना समूहों (विकल्प) की संख्या है, वितरण मापदंडों की संख्या है।

चूंकि सामान्य वितरण में 2 पैरामीटर (और) हैं, हम प्राप्त करते हैं

महत्वपूर्ण वितरण बिंदुओं की तालिका के अनुसार, दिए गए महत्व के स्तर और स्वतंत्रता की डिग्री की संख्या के अनुसार, हम महत्वपूर्ण बिंदु निर्धारित करते हैं।

मामले में a) 34 और 35 के बराबर मूल्यों के लिए, सामान्य वितरण की परिकल्पना को अस्वीकार करने का कोई कारण नहीं है, क्योंकि . और इन मूल्यों में सबसे बड़ा।

स्थिति b) 36, 37, 38 के मानों के लिए, परिकल्पना अस्वीकृत की जाती है, क्योंकि . उनमें से सबसे छोटा।◄

2. समान वितरण की परिकल्पना का परीक्षण. एक अनुमानित संभाव्यता घनत्व के साथ सामान्य जनसंख्या के समान वितरण की परिकल्पना का परीक्षण करने के लिए पियर्सन परीक्षण का उपयोग करते समय

मापदंडों का अनुमान लगाने के लिए, उपलब्ध नमूने से मूल्य की गणना करना आवश्यक है एकतथा बीसूत्रों के अनुसार:

कहाँ पे एक*तथा बी*- अनुमान एकतथा बी. दरअसल, एक समान वितरण के लिए एम(एक्स) = , , जहां से आप निर्धारित करने के लिए एक प्रणाली प्राप्त कर सकते हैं एक*तथा बी*: , जिसका हल व्यंजक (9) है।

फिर, यह मानकर , आप सूत्रों का उपयोग करके सैद्धांतिक आवृत्तियों को पा सकते हैं

यहां एसअंतराल की संख्या है जिसमें नमूना विभाजित है।

पियर्सन मानदंड के देखे गए मूल्य की गणना सूत्र (7`) द्वारा की जाती है, और महत्वपूर्ण मूल्य की गणना तालिका से की जाती है, इस तथ्य को ध्यान में रखते हुए कि स्वतंत्रता की डिग्री की संख्या के = एस - 3. उसके बाद, महत्वपूर्ण क्षेत्र की सीमाएं उसी तरह निर्धारित की जाती हैं जैसे सामान्य वितरण की परिकल्पना के परीक्षण के लिए।

3. घातांकीय वितरण के बारे में परिकल्पना का परीक्षण करना।इस मामले में, मौजूदा नमूने को समान लंबाई के अंतराल में विभाजित करते हुए, हम एक दूसरे से समान दूरी पर विकल्पों के अनुक्रम पर विचार करते हैं (हम मानते हैं कि सभी विकल्प मैं-वें अंतराल, इसके मध्य से मेल खाने वाला मान लें), और उनकी संगत आवृत्तियाँ मैं(नमूना विकल्पों की संख्या में शामिल हैं मैं- वें अंतराल)। हम इन आंकड़ों से गणना करते हैं और पैरामीटर के अनुमान के रूप में लेते हैं λ मूल्य । फिर सैद्धांतिक आवृत्तियों की गणना सूत्र द्वारा की जाती है

फिर, पियर्सन मानदंड के देखे गए और महत्वपूर्ण मूल्यों की तुलना की जाती है, यह ध्यान में रखते हुए कि स्वतंत्रता की डिग्री की संख्या के = एस - 2.

पियर्सन अच्छाई-की-फिट परीक्षण:

उदाहरण 1. पियर्सन परीक्षण का उपयोग करते हुए, 0.05 के महत्व स्तर पर, जाँच करें कि क्या जनसंख्या X के सामान्य वितरण की परिकल्पना आकार n = 200 के नमूने के अनुभवजन्य वितरण के अनुरूप है।

समाधानएक कैलकुलेटर के साथ खोजें।

एक्स मैं	मात्रा, फाई	एक्स आई * एफ आई	संचयी आवृत्ति, एस	(एक्स - एक्स एसआर) * एफ	(एक्स - एक्स एसआर) 2 * एफ	(एक्स - एक्स एसआर) 3 * एफ	आवृत्ति, च मैं /एन
5	15	75	15	114.45	873.25	-6662.92	0.075
7	26	182	41	146.38	824.12	-4639.79	0.13
9	25	225	66	90.75	329.42	-1195.8	0.13
11	30	330	96	48.9	79.71	-129.92	0.15
13	26	338	122	9.62	3.56	1.32	0.13
15	21	315	143	49.77	117.95	279.55	0.11
17	24	408	167	104.88	458.33	2002.88	0.12
19	20	380	187	127.4	811.54	5169.5	0.1
21	13	273	200	108.81	910.74	7622.89	0.065
	200	2526		800.96	4408.62	2447.7	1

.
भारित औसत

विविधता संकेतक.
.

आर = एक्स अधिकतम - एक्स मिनट
आर=21 - 5=16
फैलाव

विचरण का निष्पक्ष अनुमानक

मानक विचलन ।

श्रृंखला का प्रत्येक मान 12.63 के औसत मान से 4.7 . से अधिक नहीं होता है
.

.
सामान्य कानून

n = 200, h=2 (अंतराल की चौड़ाई), = 4.7, xav = 12.63

मैं	एक्स मैं	आप मैं	i	एन*आई
1	5	-1.63	0,1057	9.01
2	7	-1.2	0,1942	16.55
3	9	-0.77	0,2943	25.07
4	11	-0.35	0,3752	31.97
5	13	0.0788	0,3977	33.88
6	15	0.5	0,3503	29.84
7	17	0.93	0,2565	21.85
8	19	1.36	0,1582	13.48
9	21	1.78	0,0804	6.85

मैं	मैं	एन*आई	एन मैं-एन* मैं	(एन मैं-एन* मैं) 2	(एन मैं-एन* मैं) 2 /एन* मैं
1	15	9.01	-5.99	35.94	3.99
2	26	16.55	-9.45	89.39	5.4
3	25	25.07	0.0734	0.00539	0.000215
4	30	31.97	1.97	3.86	0.12
5	26	33.88	7.88	62.14	1.83
6	21	29.84	8.84	78.22	2.62
7	24	21.85	-2.15	4.61	0.21
8	20	13.48	-6.52	42.53	3.16
9	13	6.85	-6.15	37.82	5.52
∑	200	200			22.86

इसकी सीमा K kp = 2 (k-r-1;α) ची-वर्ग वितरण तालिकाओं से पाई जाती है और दिए गए मान σ, k = 9, r=2 (पैरामीटर x cp और नमूने से अनुमानित हैं) )
केकेपी(0.05;6) = 12.59159; कोब्स = 22.86
पियर्सन आँकड़ों का देखा गया मूल्य महत्वपूर्ण क्षेत्र में आता है: Knable> Kkp, इसलिए मुख्य परिकल्पना को अस्वीकार करने का कारण है। नमूना डेटा वितरित किया जाता है सामान्य कानून के अनुसार नहीं. दूसरे शब्दों में, अनुभवजन्य और सैद्धांतिक आवृत्तियों में काफी भिन्नता है।

उदाहरण 2. पियर्सन परीक्षण का उपयोग करते हुए, 0.05 के महत्व स्तर पर, जाँच करें कि क्या जनसंख्या X के सामान्य वितरण की परिकल्पना आकार n = 200 के नमूने के अनुभवजन्य वितरण के अनुरूप है।
समाधान.
संकेतकों की गणना के लिए तालिका।

एक्स मैं	मात्रा, फाई	एक्स आई * एफ आई	संचयी आवृत्ति, एस	(एक्स - एक्स एसआर) * एफ	(एक्स - एक्स एसआर) 2 * एफ	(एक्स - एक्स एसआर) 3 * एफ	आवृत्ति, च मैं /एन
0.3	6	1.8	6	5.77	5.55	-5.34	0.03
0.5	9	4.5	15	6.86	5.23	-3.98	0.045
0.7	26	18.2	41	14.61	8.21	-4.62	0.13
0.9	25	22.5	66	9.05	3.28	-1.19	0.13
1.1	30	33	96	4.86	0.79	-0.13	0.15
1.3	26	33.8	122	0.99	0.0375	0.00143	0.13
1.5	21	31.5	143	5	1.19	0.28	0.11
1.7	24	40.8	167	10.51	4.6	2.02	0.12
1.9	20	38	187	12.76	8.14	5.19	0.1
2.1	8	16.8	195	6.7	5.62	4.71	0.04
2.3	5	11.5	200	5.19	5.39	5.59	0.025
	200	252.4		82.3	48.03	2.54	1

वितरण केंद्र मेट्रिक्स.
भारित औसत

विविधता संकेतक.
पूर्ण भिन्नता दर.
भिन्नता की सीमा प्राथमिक श्रृंखला की विशेषता के अधिकतम और न्यूनतम मूल्यों के बीच का अंतर है।
आर = एक्स अधिकतम - एक्स मिनट
आर = 2.3 - 0.3 = 2
फैलाव- इसके माध्य मान के चारों ओर फैलाव के माप की विशेषता है (फैलाव का माप, यानी माध्य से विचलन)।

विचरण का निष्पक्ष अनुमानकभिन्नता का एक सुसंगत अनुमान है।

मानक विचलन.

श्रृंखला का प्रत्येक मान 1.26 के औसत मान से 0.49 . से अधिक नहीं से भिन्न होता है
मानक विचलन का आकलन.

वितरण के प्रकार के बारे में परीक्षण परिकल्पना.
1. आइए इस परिकल्पना का परीक्षण करें कि X वितरित है सामान्य कानूनपियर्सन की अच्छाई-की-फिट परीक्षण का उपयोग करना।

जहाँ n* i - सैद्धांतिक आवृत्तियाँ:

हम सैद्धांतिक आवृत्तियों की गणना करते हैं, यह देखते हुए:
n = 200, h=0.2 (अंतराल की चौड़ाई), = 0.49, xav = 1.26

मैं	एक्स मैं	आप मैं	i	एन*आई
1	0.3	-1.96	0,0573	4.68
2	0.5	-1.55	0,1182	9.65
3	0.7	-1.15	0,2059	16.81
4	0.9	-0.74	0,3034	24.76
5	1.1	-0.33	0,3765	30.73
6	1.3	0.0775	0,3977	32.46
7	1.5	0.49	0,3538	28.88
8	1.7	0.89	0,2661	21.72
9	1.9	1.3	0,1691	13.8
10	2.1	1.71	0,0909	7.42
11	2.3	2.12	0,0422	3.44

आइए अनुभवजन्य और सैद्धांतिक आवृत्तियों की तुलना करें। आइए एक गणना तालिका बनाएं, जिसमें से हम मानदंड का प्रेक्षित मान प्राप्त करेंगे:

21.72 -2.28 5.2 0.24 9 20 13.8 -6.2 38.41 2.78 10 8 7.42 -0.58 0.34 0.0454 11 5 3.44 -1.56 2.42 0.7 ∑ 200 200 12.67

आइए हम महत्वपूर्ण क्षेत्र की सीमा को परिभाषित करें। चूंकि पियर्सन आँकड़ा अनुभवजन्य और सैद्धांतिक वितरण के बीच के अंतर को मापता है, K ऑब्स का इसका मनाया मूल्य जितना बड़ा होगा, मुख्य परिकल्पना के खिलाफ तर्क उतना ही मजबूत होगा।
इसलिए, इस आंकड़े के लिए महत्वपूर्ण क्षेत्र हमेशा दाएं हाथ का होता है :)