छात्र का टी परीक्षण स्वचालित गणना। एमएस एक्सेल में माध्य की परिकल्पना के परीक्षण और आत्मविश्वास अंतराल की गणना के लिए छात्र का टी-टेस्ट वितरण

छात्र वितरण तालिका

प्रायिकता अभिन्न तालिकाओं का उपयोग बड़े नमूनों के लिए असीम रूप से बड़े से किया जाता है आबादी. लेकिन पहले से ही (एन)< 100 получается Несоответствие между

सारणीबद्ध डेटा और सीमा संभावना; पर (एन)< 30 погрешность становится значительной. Несоответствие вызывается главным образом характером распределения единиц генеральной совокупности. При большом объеме выборки особенность распределения в гене-

यह सामान्य आबादी के लिए कोई मायने नहीं रखता, क्योंकि एक बड़े नमूने के साथ सामान्य विशेषता से नमूना संकेतक के विचलन का वितरण हमेशा सामान्य होता है।

नाम छोटे आकार के नमूनों में (एन)< 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из со-

एक आबादी जिसके पास है सामान्य वितरण. छोटे नमूनों के सिद्धांत को अंग्रेजी सांख्यिकीविद् डब्ल्यू. गोसेट (जिन्होंने छद्म नाम से लिखा था) ने 20वीं सदी की शुरुआत में विकसित किया था। पर

1908 में, उन्होंने एक विशेष वितरण का निर्माण किया, जो छोटे नमूनों के साथ भी, सहसंबंध (टी) और आत्मविश्वास की संभावना एफ (टी) की अनुमति देता है। (n)> 100 के लिए, विद्यार्थी वितरण सारणी 30 . के लिए लैपलेस प्रायिकता समाकलन सारणी के समान परिणाम देती है< (n ) <

100 अंतर मामूली हैं। इसलिए, व्यवहार में, छोटे नमूनों में 30 इकाइयों से कम की मात्रा वाले नमूने शामिल होते हैं (बेशक, 100 इकाइयों से अधिक की मात्रा वाले नमूने को बड़ा माना जाता है)।

कुछ मामलों में छोटे नमूनों का उपयोग सर्वेक्षण की गई आबादी की प्रकृति के कारण होता है। इस प्रकार, प्रजनन कार्य में, "शुद्ध" अनुभव कम संख्या में प्राप्त करना आसान होता है

भूखंड आर्थिक लागत से जुड़े उत्पादन और आर्थिक प्रयोग भी कम संख्या में परीक्षणों पर किए जाते हैं। जैसा कि पहले ही उल्लेख किया गया है, एक छोटे नमूने के मामले में, विश्वास की संभावनाओं और सामान्य माध्य की विश्वास सीमा दोनों की गणना केवल सामान्य रूप से वितरित आबादी के लिए की जा सकती है।

विद्यार्थी के बंटन की प्रायिकता घनत्व को एक फलन द्वारा वर्णित किया जाता है।

1 + टी2

एफ (टी, एन): = बीएन

एन - 1

टी - वर्तमान चर; एन - नमूना आकार;

B एक मान है जो केवल (n) पर निर्भर करता है।

विद्यार्थी के वितरण में केवल एक पैरामीटर है: (d.f.) - स्वतंत्रता की डिग्री की संख्या (कभी-कभी (के) द्वारा निरूपित)। यह वितरण, सामान्य की तरह, बिंदु (टी) = 0 के संबंध में सममित है, लेकिन यह चापलूसी है। नमूना आकार में वृद्धि के साथ, और, परिणामस्वरूप, स्वतंत्रता की डिग्री की संख्या, छात्र का वितरण जल्दी से सामान्य हो जाता है। स्वतंत्रता की डिग्री की संख्या सुविधाओं के उन व्यक्तिगत मूल्यों की संख्या के बराबर होती है जिन्हें होना चाहिए

वांछित विशेषता निर्धारित करने के लिए मान लीजिए। तो, विचरण की गणना करने के लिए, औसत मूल्य ज्ञात होना चाहिए। इसलिए, फैलाव की गणना करते समय, (d.f.) = n - 1 का उपयोग किया जाता है।

छात्र वितरण तालिकाएँ दो संस्करणों में प्रकाशित होती हैं:

1. संभाव्यता अभिन्न की तालिकाओं के समान, मान (टी) और

स्वतंत्रता की डिग्री की विभिन्न संख्याओं के लिए संचयी संभावनाएं एफ (टी);

2. सबसे अधिक इस्तेमाल की जाने वाली आत्मविश्वास संभावनाओं के लिए मान (टी) दिए गए हैं

0.70; 0.75; 0.80; 0.85; 0.90; 0.95 और 0.99 या 1 के लिए - 0.70 = 0.3; 1 - 0.80 = 0.2; …… 1 - 0.99 = 0.01।

3. स्वतंत्रता की विभिन्न डिग्री के साथ। ऐसी तालिका परिशिष्ट में दी गई है।

(तालिका 1 - 20), साथ ही मूल्य (टी) - 0.7 . के महत्व स्तर पर छात्र का परीक्षण

एक सांख्यिकीय परिकल्पना का परीक्षण आपको नमूना डेटा के आधार पर सामान्य जनसंख्या की विशेषताओं के बारे में एक कठोर निष्कर्ष निकालने की अनुमति देता है। परिकल्पनाएं अलग हैं। उनमें से एक माध्य परिकल्पना है ( गणितीय अपेक्षा) इसका सार इस बारे में एक सही निष्कर्ष निकालना है कि सामान्य औसत केवल उपलब्ध नमूने पर आधारित हो सकता है या नहीं (हम कभी भी सटीक सत्य नहीं जान पाएंगे, लेकिन हम खोज सर्कल को संकीर्ण कर सकते हैं)।

परिकल्पना के परीक्षण के लिए सामान्य दृष्टिकोण का वर्णन किया गया है, इसलिए सीधे बिंदु पर। पहले मान लें कि नमूना यादृच्छिक चर के सामान्य सेट से लिया गया है एक्ससामान्य औसत के साथ μ और फैलाव 2(मुझे पता है, मुझे पता है कि ऐसा नहीं होता है, लेकिन आपको मुझे बाधित करने की आवश्यकता नहीं है!)। इस नमूने का अंकगणितीय माध्य स्पष्ट रूप से अपने आप में एक यादृच्छिक चर है। यदि हम ऐसे कई नमूने निकालते हैं और उनके लिए औसत की गणना करते हैं, तो वे भी गणितीय अपेक्षा के साथ होंगे μ तथा

फिर यादृच्छिक मूल्य

प्रश्न उठता है: क्या 95% की संभावना के साथ सामान्य माध्य ±1.96 . के भीतर होगा? एस x̅. दूसरे शब्दों में, यादृच्छिक चर के वितरण हैं

बराबर।

डबलिन (आयरलैंड) में गिनीज बियर फैक्ट्री में काम करने वाले एक रसायनज्ञ ने पहली बार यह सवाल उठाया (और हल किया)। रसायनज्ञ का नाम विलियम सीली गोसेट था, और उसने रासायनिक विश्लेषण के लिए बीयर के नमूने लिए। कुछ बिंदु पर, जाहिरा तौर पर, विलियम को औसत के वितरण के बारे में अस्पष्ट संदेह होने लगा। यह सामान्य वितरण की तुलना में थोड़ा अधिक फैला हुआ निकला।

एक गणितीय औचित्य एकत्र करने और उनके द्वारा खोजे गए वितरण फ़ंक्शन के मूल्यों की गणना करने के बाद, डबलिन केमिस्ट विलियम गोसेट ने एक नोट लिखा जो मार्च 1908 के बायोमेट्रिक्स (संपादक-इन-चीफ - कार्ल पियर्सन) पत्रिका के अंक में प्रकाशित हुआ था। . इसलिये गिनीज ने शराब बनाने के रहस्यों को बताने से सख्ती से मना किया, गॉसेट ने छद्म नाम छात्र के तहत हस्ताक्षर किए।

इस तथ्य के बावजूद कि के। पियर्सन ने पहले ही वितरण का आविष्कार कर लिया था, फिर भी, सामान्यता का सामान्य विचार अभी भी हावी है। कोई यह सोचने वाला नहीं था कि नमूना अनुमानों का वितरण सामान्य नहीं हो सकता है। इसलिए, डब्ल्यू। गोसेट का लेख व्यावहारिक रूप से किसी का ध्यान नहीं गया और भुला दिया गया। और केवल रोनाल्ड फिशर ने गोसेट की खोज की सराहना की। फिशर ने अपने काम में नए वितरण का इस्तेमाल किया और इसे नाम दिया छात्र का टी-वितरण. परिकल्पनाओं के परीक्षण की कसौटी क्रमशः बन गई छात्र का टी-टेस्ट. तो आंकड़ों में एक "क्रांति" आई, जिसने नमूना डेटा के विश्लेषण के युग में कदम रखा। यह इतिहास में एक संक्षिप्त विषयांतर था।

आइए देखें कि डब्ल्यू गोसेट क्या देख सकता है। आइए माध्य के साथ 6 अवलोकनों से 20 हजार सामान्य नमूने उत्पन्न करें ( एक्स) 50 और मानक विचलन ( σ ) 10. फिर हम नमूना का सामान्यीकरण करते हैं जिसका अर्थ है सामान्य विचरण:

हम परिणामी 20 हजार औसत को 0.1 लंबाई के अंतराल में समूहित करते हैं और आवृत्तियों की गणना करते हैं। आइए हम एक आरेख पर नमूने के वास्तविक (मानक) और सैद्धांतिक (ईनॉर्म) आवृत्ति वितरण की साजिश करें।

बिंदु (देखी गई आवृत्तियों) लगभग रेखा (सैद्धांतिक आवृत्तियों) के साथ मेल खाते हैं। यह समझ में आता है, क्योंकि डेटा एक ही सामान्य आबादी से लिया जाता है, और अंतर सिर्फ नमूनाकरण त्रुटियां हैं।

चलो एक नया प्रयोग करते हैं। हम औसत का उपयोग करके सामान्य करते हैं नमूना विचरण.

आइए फिर से आवृत्तियों की गणना करें और उन्हें आरेख पर बिंदुओं के रूप में प्लॉट करें, तुलना के लिए मानक सामान्य वितरण की रेखा को छोड़कर। आइए हम अक्षर के माध्यम से औसत की अनुभवजन्य आवृत्ति को निरूपित करें टी.

यह देखा जा सकता है कि इस बार वितरण बहुत समान नहीं है। बंद करें, हाँ, लेकिन वही नहीं। पूंछ अधिक "भारी" हो गई है।

गॉसेट-स्टूडेंट के पास एमएस एक्सेल का नवीनतम संस्करण नहीं था, लेकिन ठीक यही प्रभाव उसने देखा। ऐसा क्यों है? व्याख्या यह है कि यादृच्छिक चर

न केवल नमूना त्रुटि (अंश) पर निर्भर करता है, बल्कि माध्य (हर) की मानक त्रुटि पर भी निर्भर करता है, जो एक यादृच्छिक चर भी है।

आइए थोड़ा समझें कि ऐसे यादृच्छिक चर का वितरण क्या होना चाहिए। सबसे पहले, आपको गणितीय आँकड़ों से कुछ याद रखना (या सीखना) है। ऐसा फिशर प्रमेय है, जो कहता है कि सामान्य वितरण से नमूने में:

1. मध्यम एक्सऔर नमूना विचरण एस 2स्वतंत्र मात्राएँ हैं;

2. नमूना और सामान्य भिन्नता का अनुपात, स्वतंत्रता की डिग्री की संख्या से गुणा, एक वितरण है 2(ची-वर्ग) स्वतंत्रता की समान संख्या के साथ, अर्थात।

कहाँ पे - स्वतंत्रता की डिग्री की संख्या (अंग्रेजी में स्वतंत्रता की डिग्री (d.f.))

सामान्य मॉडल के आँकड़ों में कई अन्य परिणाम इस कानून पर आधारित हैं।

आइए माध्य के वितरण पर वापस आते हैं। व्यंजक के अंश और हर को विभाजित करें

पर एक्स̅. प्राप्त

अंश एक मानक सामान्य यादृच्छिक चर है (हम निरूपित करते हैं ξ (xi))। फिशर प्रमेय से हर को व्यक्त किया जा सकता है।

तब मूल व्यंजक रूप लेगा

यह सामान्य शब्दों में है (छात्र अनुपात)। इसके वितरण फलन को सीधे व्युत्पन्न करना पहले से ही संभव है, क्योंकि इस व्यंजक में दोनों यादृच्छिक चरों के वितरण ज्ञात हैं। आइए इस खुशी को गणितज्ञों पर छोड़ दें।

विद्यार्थी के t-वितरण फ़ंक्शन का एक सूत्र है जिसे समझना काफी कठिन है, इसलिए इसे पार्स करने का कोई मतलब नहीं है। वैसे भी, कोई भी इसका इस्तेमाल नहीं करता है, क्योंकि। संभावनाओं को छात्र के वितरण की विशेष तालिकाओं में दिया जाता है (कभी-कभी छात्र के गुणांक की तालिकाएं कहा जाता है), या उन्हें पीसी फ़ार्मुलों में अंकित किया जाता है।

तो, नए ज्ञान से लैस, आप छात्र के वितरण की आधिकारिक परिभाषा को समझने में सक्षम होंगे।
छात्र के वितरण का पालन करने वाला एक यादृच्छिक चर स्वतंत्रता की डिग्री स्वतंत्र यादृच्छिक चर का अनुपात है

कहाँ पे ξ मानक सामान्य कानून के अनुसार वितरित, और χ 2 केवितरण के अधीन 2सी स्वतंत्रता का दर्जा।

इस प्रकार, अंकगणित माध्य के लिए विद्यार्थी की कसौटी का सूत्र

छात्र संबंध का एक विशेष मामला है

यह सूत्र और परिभाषा से निकलता है कि छात्र के टी-टेस्ट का वितरण केवल स्वतंत्रता की डिग्री की संख्या पर निर्भर करता है।

पर > 30 टी-टेस्ट व्यावहारिक रूप से मानक सामान्य वितरण से अलग नहीं है।

ची-स्क्वायर के विपरीत, टी-टेस्ट एक या दो-पूंछ वाला हो सकता है। आमतौर पर दो तरफा प्रयोग किया जाता है, यह मानते हुए कि विचलन माध्य से दोनों दिशाओं में हो सकता है। लेकिन अगर समस्या की स्थिति केवल एक दिशा में विचलन की अनुमति देती है, तो एकतरफा मानदंड लागू करना उचित है। यह शक्ति को थोड़ा बढ़ाता है, tk। एक निश्चित महत्व स्तर पर, महत्वपूर्ण मूल्य थोड़ा शून्य के करीब पहुंच जाता है।

छात्र का टी-टेस्ट लागू करने की शर्तें

इस तथ्य के बावजूद कि एक समय में छात्र की खोज ने आँकड़ों में क्रांति ला दी थी, टी-टेस्ट अभी भी इसकी प्रयोज्यता में काफी सीमित है, क्योंकि मूल डेटा के सामान्य वितरण की धारणा से ही आता है। यदि डेटा सामान्य नहीं है (जो आमतौर पर ऐसा होता है), तो टी-टेस्ट में अब छात्र का वितरण नहीं होगा। हालांकि, केंद्रीय सीमा प्रमेय के संचालन के कारण, गैर-सामान्य डेटा के लिए भी माध्य, जल्दी से घंटी के आकार का वितरण प्राप्त कर लेता है।

उदाहरण के लिए, डेटा पर विचार करें, जिसमें दाईं ओर एक स्पष्ट तिरछा है, जैसे कि 5 डिग्री स्वतंत्रता के साथ ची-स्क्वायर वितरण।

अब आइए 20 हजार नमूने बनाएं और देखें कि उनके आकार के आधार पर साधनों का वितरण कैसे बदलता है।

15-20 अवलोकनों तक के छोटे नमूनों में अंतर काफी ध्यान देने योग्य है। लेकिन फिर यह जल्दी गायब हो जाता है। इस प्रकार, वितरण की असामान्यता, निश्चित रूप से, अच्छी नहीं है, लेकिन महत्वपूर्ण नहीं है।

सबसे बढ़कर, टी-मानदंड आउटलेर्स का "डर" है, अर्थात। असामान्य विचलन। आइए 15 प्रेक्षणों के 20 हजार सामान्य नमूने लें और उनमें से कुछ में एक यादृच्छिक बाहरी जोड़ दें।

तस्वीर दुखी है। औसत की वास्तविक आवृत्तियां सैद्धांतिक आवृत्तियों से बहुत भिन्न होती हैं। ऐसी स्थिति में टी-वितरण का उपयोग करना एक बहुत ही जोखिम भरा उपक्रम बन जाता है।

इसलिए, बहुत छोटे नमूनों में नहीं (15 अवलोकनों से), टी-परीक्षण प्रारंभिक डेटा के गैर-सामान्य वितरण के लिए अपेक्षाकृत प्रतिरोधी है। लेकिन डेटा में आउटलेयर टी-टेस्ट के वितरण को दृढ़ता से विकृत करते हैं, जो बदले में सांख्यिकीय अनुमान त्रुटियों को जन्म दे सकता है, इसलिए विसंगतिपूर्ण टिप्पणियों को समाप्त किया जाना चाहिए। अक्सर, माध्य से ±2 मानक विचलन के बाहर आने वाले सभी मान नमूने से हटा दिए जाते हैं।

एमएस एक्सेल में छात्र के टी-टेस्ट का उपयोग करके गणितीय अपेक्षा की परिकल्पना के परीक्षण का एक उदाहरण

एक्सेल में टी-वितरण से संबंधित कई कार्य हैं। आइए उन पर विचार करें।

STUDENT.DIST - "शास्त्रीय" बाएं तरफा छात्र का t-वितरण। इनपुट टी-मानदंड का मान है, स्वतंत्रता की डिग्री की संख्या और विकल्प (0 या 1) जो निर्धारित करता है कि क्या गणना की जानी चाहिए: घनत्व या फ़ंक्शन का मूल्य। आउटपुट पर, हम क्रमशः, घनत्व या संभावना प्राप्त करते हैं कि यादृच्छिक चर तर्क में निर्दिष्ट टी-मानदंड से कम होगा।

STUDENT.DIST.2X - दोतरफा वितरण। टी-मानदंड का निरपेक्ष मान (मॉड्यूलो) और स्वतंत्रता की डिग्री की संख्या एक तर्क के रूप में दी गई है। आउटपुट पर, हमें टी-मानदंड का यह या इससे भी अधिक मूल्य प्राप्त करने की संभावना मिलती है, अर्थात। वास्तविक महत्व स्तर (पी-स्तर)।

STUDENT.DIST.RH - दाएं हाथ का टी-वितरण। तो, 1-छात्र.डिस्ट(2;5;1) = छात्र.DIST.PX(2;5) = 0.05097। यदि टी-टेस्ट सकारात्मक है, तो परिणामी संभावना पी-स्तर है।

STUDENT.INV - t-वितरण के बाएँ हाथ के व्युत्क्रम की गणना करने के लिए उपयोग किया जाता है। तर्क संभावना और स्वतंत्रता की डिग्री की संख्या है। आउटपुट पर, हम इस संभावना के अनुरूप टी-मानदंड का मान प्राप्त करते हैं। संभावना को बाईं ओर गिना जाता है। इसलिए, बाईं पूंछ के लिए ही महत्व स्तर की आवश्यकता है α , और दाएँ 1 के लिए - α .

STUDENT.ORD.2X दो-पूंछ वाले छात्र के वितरण का पारस्परिक है, अर्थात। टी-टेस्ट वैल्यू (मॉड्यूलो)। महत्व स्तर को इनपुट के रूप में भी दिया जाता है। α . केवल इस बार, उलटी गिनती एक ही समय में दोनों तरफ से होती है, इसलिए संभावना दो पूंछों पर वितरित की जाती है। तो, छात्र। ओबीआर (1-0.025; 5) \u003d छात्र। ओबीआर। 2X (0.05; 5) \u003d 2.57058

STUDENT.TEST दो नमूनों में गणितीय अपेक्षाओं की समानता के बारे में परिकल्पना का परीक्षण करने के लिए एक कार्य है। गणनाओं का एक गुच्छा बदलता है, क्योंकि। यह डेटा के साथ केवल दो श्रेणियां और कुछ और पैरामीटर निर्दिष्ट करने के लिए पर्याप्त है। आउटपुट पी-लेवल है।

छात्र विश्वास - टी-वितरण को ध्यान में रखते हुए, माध्य के विश्वास अंतराल की गणना।

आइए ऐसे प्रशिक्षण उदाहरण पर विचार करें। कंपनी 50 किलो के बैग में सीमेंट पैक करती है। संयोग से, एक बैग में, अपेक्षित द्रव्यमान से कुछ विचलन की अनुमति है, लेकिन सामान्य औसत 50 किलो रहना चाहिए। गुणवत्ता नियंत्रण विभाग ने यादृच्छिक रूप से 9 बैगों का वजन किया और निम्नलिखित परिणाम प्राप्त किए: औसत वजन ( एक्स) 50.3 किग्रा, मानक विचलन ( एस) - 0.5 किग्रा।

क्या परिणाम शून्य परिकल्पना के अनुरूप है कि सामान्य औसत 50 किग्रा है? दूसरे शब्दों में, क्या ऐसा परिणाम शुद्ध संयोग से प्राप्त करना संभव है, यदि उपकरण ठीक से काम करता है और औसतन 50 किलो की फिलिंग पैदा करता है? यदि परिकल्पना को अस्वीकार नहीं किया जाता है, तो प्राप्त अंतर यादृच्छिक उतार-चढ़ाव की सीमा में फिट बैठता है, लेकिन यदि परिकल्पना को खारिज कर दिया जाता है, तो सबसे अधिक संभावना है कि बैग भरने वाले उपकरण की सेटिंग में विफलता हुई है। इसे जांचने और समायोजित करने की आवश्यकता है।

आम तौर पर स्वीकृत संकेतन में एक संक्षिप्त शर्त इस तरह दिखती है।

एच0: μ = 50 किग्रा

एच1: μ 50 किलो

यह मानने के कारण हैं कि बैग अधिभोग का वितरण एक सामान्य वितरण का अनुसरण करता है (या इससे बहुत अलग नहीं है)। इसलिए, गणितीय अपेक्षा की परिकल्पना का परीक्षण करने के लिए, आप विद्यार्थी के t-परीक्षण का उपयोग कर सकते हैं। यादृच्छिक विचलनकिसी भी दिशा में हो सकता है, इसलिए दो-पूंछ वाले टी-परीक्षण की आवश्यकता है।

सबसे पहले, हम एंटीडिलुवियन साधनों को लागू करते हैं: मैन्युअल रूप से टी-टेस्ट की गणना करना और इसे एक महत्वपूर्ण तालिका मान के साथ तुलना करना। अनुमानित टी-परीक्षण:

अब आइए निर्धारित करें कि क्या परिणामी संख्या महत्व स्तर पर महत्वपूर्ण स्तर से आगे जाती है α = 0.05. आइए छात्र की टी-वितरण तालिका (सांख्यिकी पर किसी भी पाठ्यपुस्तक में उपलब्ध) का उपयोग करें।

कॉलम वितरण के दाईं ओर की संभावना दिखाते हैं, पंक्तियाँ स्वतंत्रता की डिग्री की संख्या दर्शाती हैं। हम 0.05 के महत्व स्तर के साथ दो-तरफा टी-परीक्षण में रुचि रखते हैं, जो दाईं ओर महत्व स्तर के आधे के लिए टी-मान के बराबर है: 1 - 0.05 / 2 = 0.975। स्वतंत्रता की डिग्री की संख्या नमूना आकार माइनस 1 है, अर्थात। 9 - 1 = 8. चौराहे पर, हम टी-टेस्ट - 2.306 का सारणीबद्ध मान पाते हैं। यदि हम मानक सामान्य वितरण का उपयोग करते हैं, तो महत्वपूर्ण बिंदु 1.96 का मान होगा, लेकिन यहाँ यह अधिक है, क्योंकि छोटे नमूनों पर टी-वितरण का रूप अधिक चपटा होता है।

हम वास्तविक (1.8) और सारणीबद्ध मान (2.306) की तुलना करते हैं। परिकलित मानदंड सारणीबद्ध मानदंड से कम निकला। इसलिए, उपलब्ध डेटा एच 0 परिकल्पना का खंडन नहीं करता है कि सामान्य औसत 50 किलो है (लेकिन इसे साबित भी न करें)। तालिकाओं का उपयोग करके हम बस इतना ही पता लगा सकते हैं। बेशक, आप अभी भी पी-स्तर खोजने की कोशिश कर सकते हैं, लेकिन यह अनुमानित होगा। और, एक नियम के रूप में, पी-स्तर का उपयोग परिकल्पनाओं का परीक्षण करने के लिए किया जाता है। तो चलिए एक्सेल पर चलते हैं।

एक्सेल में टी-टेस्ट की गणना के लिए कोई तैयार फ़ंक्शन नहीं है। लेकिन यह डरावना नहीं है, क्योंकि छात्र का टी-टेस्ट फॉर्मूला काफी सरल है और इसे एक्सेल सेल में आसानी से बनाया जा सकता है।

वही 1.8 मिला। आइए पहले हम क्रांतिक मान ज्ञात करें। हम अल्फा 0.05 लेते हैं, मानदंड दो तरफा है। हमें दो-पुच्छीय परिकल्पना के लिए t-वितरण के व्युत्क्रम मान के एक फलन की आवश्यकता है STUDENT.OBR.2X।

परिणामी मूल्य महत्वपूर्ण क्षेत्र को काट देता है। प्रेक्षित टी-परीक्षण इसमें नहीं आता है, अतः परिकल्पना अस्वीकृत नहीं होती है।

हालाँकि, यह एक तालिका मान के साथ एक परिकल्पना का परीक्षण करने का एक ही तरीका है। पी-लेवल की गणना करना अधिक जानकारीपूर्ण होगा, अर्थात। यदि यह परिकल्पना सही है तो 50 किग्रा के माध्य से प्रेक्षित या उससे भी अधिक विचलन प्राप्त करने की प्रायिकता। दो-पुच्छीय परिकल्पना के लिए आपको विद्यार्थी के वितरण फलन की आवश्यकता होगी। STUDENT.DIST.2X।

पी-स्तर 0.1096 के बराबर है, जो 0.05 के स्वीकार्य महत्व स्तर से अधिक है - हम परिकल्पना को अस्वीकार नहीं करते हैं। लेकिन अब हम सबूत की डिग्री का न्याय कर सकते हैं। पी-लेवल उस स्तर के काफी करीब निकला जब परिकल्पना को खारिज कर दिया गया था, और इससे अलग-अलग विचार आते हैं। उदाहरण के लिए, कि एक महत्वपूर्ण विचलन का पता लगाने के लिए नमूना बहुत छोटा था।

मान लीजिए थोड़ी देर बाद नियंत्रण विभाग ने फिर से जांच करने का फैसला किया कि बैग भरने के मानक को कैसे बनाए रखा गया था। इस बार अधिक विश्वसनीयता के लिए 9 नहीं, बल्कि 25 बैगों का चयन किया गया। यह सहज रूप से स्पष्ट है कि औसत का प्रसार कम हो जाएगा, और इसलिए, सिस्टम में विफलता खोजने की संभावना अधिक हो जाती है।

मान लीजिए कि नमूने के लिए माध्य और मानक विचलन के समान मान पहली बार (क्रमशः 50.3 और 0.5) प्राप्त किए गए थे। आइए टी-टेस्ट की गणना करें।


स्वतंत्रता के 24 डिग्री और α = 0.05 के लिए महत्वपूर्ण मान 2.064 है। नीचे दी गई तस्वीर से पता चलता है कि टी-टेस्ट परिकल्पना अस्वीकृति के क्षेत्र में आता है।

यह निष्कर्ष निकाला जा सकता है कि 95% से अधिक की आत्मविश्वास संभावना के साथ, सामान्य औसत 50 किलोग्राम से भिन्न होता है। अधिक आश्वस्त होने के लिए, आइए पी-स्तर (तालिका में अंतिम पंक्ति) देखें। इसके साथ एक औसत या 50 से अधिक विचलन प्राप्त करने की संभावना, यदि परिकल्पना सही है, तो 0.0062, या 0.62% है, जो एक माप के साथ लगभग असंभव है। सामान्य तौर पर, हम परिकल्पना को असंभाव्य मानते हुए अस्वीकार करते हैं।

छात्र के t-वितरण का उपयोग करके एक विश्वास अंतराल की गणना करना

परिकल्पना परीक्षण से निकटता से संबंधित एक और है सांख्यिकीय विधिविश्वास अंतराल की गणना. यदि शून्य परिकल्पना के अनुरूप मूल्य प्राप्त अंतराल के भीतर आता है, तो यह इस तथ्य के बराबर है कि शून्य परिकल्पना अस्वीकार नहीं की जाती है। अन्यथा, परिकल्पना को उचित विश्वास स्तर के साथ खारिज कर दिया जाता है। कुछ मामलों में, विश्लेषक परिकल्पनाओं का बिल्कुल भी परीक्षण नहीं करते हैं शास्त्रीय रूप, लेकिन केवल विश्वास अंतराल की गणना की जाती है। यह दृष्टिकोण आपको और भी उपयोगी जानकारी निकालने की अनुमति देता है।

आइए 9 और 25 अवलोकनों पर औसत के लिए विश्वास अंतराल की गणना करें। इसके लिए हम उपयोग करते हैं एक्सेल फ़ंक्शनभरोसा। छात्र। यहाँ, अजीब तरह से, सब कुछ काफी सरल है। फ़ंक्शन तर्कों में, आपको केवल महत्व का स्तर निर्दिष्ट करने की आवश्यकता है α , मानक विचलननमूना और नमूना आकार द्वारा। आउटपुट पर, हमें कॉन्फिडेंस इंटरवल की आधी-चौड़ाई मिलती है, यानी वह मान जिसे औसत के दोनों तरफ अलग सेट करने की आवश्यकता होती है। गणना करने और एक दृश्य आरेख बनाने के बाद, हमें निम्नलिखित मिलता है।

जैसा कि आप देख सकते हैं, 9 अवलोकनों के नमूने के साथ, मान 50 में आता है विश्वास अंतराल(परिकल्पना अस्वीकृत नहीं है), और 25 टिप्पणियों के साथ यह गिरती नहीं है (परिकल्पना अस्वीकृत होती है)। उसी समय, 25 बैग के साथ प्रयोग में, यह तर्क दिया जा सकता है कि 97.5% की संभावना के साथ, सामान्य औसत 50.1 किलोग्राम से अधिक है (विश्वास अंतराल की निचली सीमा 50.094 किलोग्राम है)। और यह काफी मूल्यवान जानकारी है।

इस प्रकार, हमने एक ही समस्या को तीन तरीकों से हल किया:

1. एक प्राचीन दृष्टिकोण, t-मानदंड के परिकलित और सारणीबद्ध मान की तुलना करना
2. अधिक आधुनिक, पी-स्तर की गणना करके, परिकल्पना को खारिज करने में विश्वास की एक डिग्री जोड़कर।
3. विश्वास अंतराल की गणना करके और सामान्य औसत का न्यूनतम मान प्राप्त करके और भी अधिक जानकारीपूर्ण।

यह याद रखना महत्वपूर्ण है कि टी-टेस्ट का अर्थ है पैरामीट्रिक तरीके, इसलिये एक सामान्य वितरण के आधार पर (इसके दो पैरामीटर हैं: माध्य और विचरण)। इसलिए, इसके सफल अनुप्रयोग के लिए, कम से कम प्रारंभिक डेटा की अनुमानित सामान्यता और आउटलेर्स की अनुपस्थिति महत्वपूर्ण है।

अंत में, मैं एक्सेल में छात्र के टी-टेस्ट से संबंधित गणना करने के तरीके पर एक वीडियो देखने का प्रस्ताव करता हूं।

उदाहरण के दौरान, हम काल्पनिक जानकारी का उपयोग करेंगे ताकि पाठक अपने आप आवश्यक परिवर्तन कर सके।

इसलिए, उदाहरण के लिए, शोध के दौरान, हमने ऊतक सी में पदार्थ बी (एमएमओएल / जी में) की सामग्री पर दवा ए के प्रभाव और रोगियों में रक्त में पदार्थ डी की एकाग्रता (एमएमओएल / एल में) का अध्ययन किया। कुछ मानदंड E के अनुसार समान आयतन (n = 10) के 3 समूहों में विभाजित। इस काल्पनिक अध्ययन के परिणाम तालिका में दिखाए गए हैं:

पदार्थ बी सामग्री, मिमीोल / जी

पदार्थ डी, एमएमओएल / एल

एकाग्रता में वृद्धि


हम आपको चेतावनी देना चाहते हैं कि डेटा और गणना की प्रस्तुति में आसानी के लिए आकार 10 के नमूनों पर हमारे द्वारा विचार किया जाता है; व्यवहार में, ऐसा नमूना आकार आमतौर पर सांख्यिकीय निष्कर्ष बनाने के लिए पर्याप्त नहीं होता है।

एक उदाहरण के रूप में, तालिका के पहले कॉलम के डेटा पर विचार करें।

वर्णनात्मक आँकड़े

नमूना माध्य

अंकगणित माध्य, जिसे अक्सर "औसत" के रूप में संदर्भित किया जाता है, सभी मानों को जोड़कर और इस योग को सेट में मानों की संख्या से विभाजित करके प्राप्त किया जाता है। यह एक बीजीय सूत्र का उपयोग करके दिखाया जा सकता है। चर x के n प्रेक्षणों के समुच्चय को x 1 , x 2 , x 3 , ..., x n के रूप में दर्शाया जा सकता है।

प्रेक्षणों के अंकगणितीय माध्य को निर्धारित करने का सूत्र (उच्चारण "X एक डैश के साथ"):

\u003d (एक्स 1 + एक्स 2 + ... + एक्स एन) / एन

= (12 + 13 + 14 + 15 + 14 + 13 + 13 + 10 + 11 + 16) / 10 = 13,1;

नमूना विचरण

डेटा के बिखराव को मापने का एक तरीका यह निर्धारित करना है कि प्रत्येक अवलोकन अंकगणितीय माध्य से कितनी दूर है। जाहिर है, विचलन जितना अधिक होगा, परिवर्तनशीलता उतनी ही अधिक होगी, अवलोकनों की परिवर्तनशीलता। हालाँकि, हम इन विचलनों के औसत का उपयोग नहीं कर सकते हैं फैलाव के एक उपाय के रूप में, क्योंकि सकारात्मक विचलन नकारात्मक विचलन के लिए क्षतिपूर्ति करते हैं (उनका योग शून्य है)। इस समस्या को हल करने के लिए, हम प्रत्येक विचलन का वर्ग करते हैं और वर्ग विचलन का औसत ज्ञात करते हैं; इस मात्रा को विचरण या परिक्षेपण कहते हैं। n अवलोकन करेंएक्स 1, एक्स 2, एक्स 3, ..., एक्स एन, औसत जो बराबर है. हम फैलाव की गणना करते हैं यह एक, जिसे आमतौर पर के रूप में जाना जाता हैs2,ये अवलोकन:

इस सूचक का नमूना विचरण s 2 = 3.2 है।

मानक विचलन

मानक (मूल माध्य वर्ग) विचलन सकारात्मक है वर्गमूलफैलाव से। उदाहरण के लिए, n अवलोकन, यह इस तरह दिखता है:

हम मानक विचलन को माध्य से प्रेक्षणों के माध्य विचलन के रूप में सोच सकते हैं। इसकी गणना मूल डेटा के समान इकाइयों (आयामों) में की जाती है।

एस = वर्ग (एस 2) = वर्ग (3.2) = 1.79।

भिन्नता का गुणांक

यदि आप मानक विचलन को अंकगणितीय माध्य से विभाजित करते हैं और परिणाम को प्रतिशत के रूप में व्यक्त करते हैं, तो आपको भिन्नता का गुणांक प्राप्त होता है।

सीवी = (1.79 / 13.1) * 100% = 13.7

नमूना माध्य त्रुटि

1.79/वर्ग(10) = 0.57;

छात्र का गुणांक t (एक-नमूना t-परीक्षण)

इसका उपयोग माध्य मान और कुछ के बीच अंतर के बारे में परिकल्पना का परीक्षण करने के लिए किया जाता है ज्ञात मूल्यएम

स्वतंत्रता की डिग्री की संख्या की गणना f=n-1 के रूप में की जाती है।

इस मामले में, माध्य के लिए विश्वास अंतराल 11.87 और 14.39 की सीमा के बीच है।

स्तर के लिए आत्मविश्वास का स्तर 95% मी=11.87 या मी=14.39, यानी = |13.1-11.82| = |13.1-14.38| = 1.28

तदनुसार, इस मामले में, स्वतंत्रता की डिग्री की संख्या के लिए f = 10 - 1 = 9 और आत्मविश्वास का स्तर 95% t=2.26 है।

डायलॉग बेसिक स्टैटिस्टिक्स एंड टेबल्स

मॉड्यूल में बुनियादी आँकड़े और तालिकाएँचुनें वर्णनात्मक आँकड़े.

एक डायलॉग बॉक्स खुलेगा वर्णनात्मक आँकड़े.

खेत मेँ चरचुनें समूह 1.

दबाना ठीक है, हम चयनित चरों के वर्णनात्मक आँकड़ों के साथ परिणामों की तालिकाएँ प्राप्त करते हैं।

एक डायलॉग बॉक्स खुलेगा एक-नमूना टी-परीक्षण.

मान लीजिए कि हम जानते हैं कि ऊतक C में पदार्थ B की औसत सामग्री 11 है।

वर्णनात्मक आंकड़ों और छात्र के टी-टेस्ट के साथ परिणाम तालिका इस प्रकार है:

हमें इस परिकल्पना को खारिज करना पड़ा कि ऊतक सी में पदार्थ बी की औसत सामग्री 11 है।

चूंकि मानदंड का परिकलित मान सारणीबद्ध मान (2.26) से अधिक है, इसलिए शून्य परिकल्पना को चुने गए महत्व स्तर पर खारिज कर दिया जाता है, और नमूना और ज्ञात मूल्य के बीच के अंतर को सांख्यिकीय रूप से महत्वपूर्ण माना जाता है। इस प्रकार, छात्र की कसौटी का उपयोग करके किए गए मतभेदों के अस्तित्व के बारे में निष्कर्ष की पुष्टि इस पद्धति का उपयोग करके की जाती है।

​विधियों के एक वर्ग के लिए विद्यार्थी का टी-टेस्ट एक सामान्य नाम है सांख्यिकीय जांचछात्र के वितरण के आधार पर परिकल्पना (सांख्यिकीय परीक्षण)। टी-टेस्ट को लागू करने के सबसे आम मामले दो नमूनों में साधनों की समानता की जाँच से संबंधित हैं।

1. टी-टेस्ट के विकास का इतिहास

यह मानदंड विकसित किया गया था विलियम गोसेटगिनीज में बियर की गुणवत्ता का आकलन करने के लिए। व्यापार रहस्यों का खुलासा नहीं करने के लिए कंपनी के दायित्वों के संबंध में, गोसेट का लेख 1908 में छद्म नाम "स्टूडेंट" (छात्र) के तहत बायोमेट्रिक्स पत्रिका में प्रकाशित हुआ था।

2. विद्यार्थी के टी-परीक्षण का प्रयोग किसके लिए किया जाता है?

विद्यार्थी का t-परीक्षण निर्धारित करने के लिए प्रयोग किया जाता है आंकड़ों की महत्ताऔसत मूल्यों में अंतर। इसका उपयोग स्वतंत्र नमूनों की तुलना करने के मामलों में दोनों में किया जा सकता है ( उदाहरण के लिए, मधुमेह मेलिटस वाले रोगियों के समूह और स्वस्थ लोगों के समूह), और संबंधित सेटों की तुलना करते समय ( उदाहरण के लिए, एक ही रोगियों में एक एंटीरैडमिक दवा लेने से पहले और बाद में औसत हृदय गति).

3. विद्यार्थी के टी-टेस्ट का उपयोग कब किया जा सकता है?

छात्र के टी-टेस्ट को लागू करने के लिए, यह आवश्यक है कि मूल डेटा हो सामान्य वितरण. स्वतंत्र नमूनों के लिए दो-नमूना परीक्षण लागू करने के मामले में, शर्त को पूरा करना भी आवश्यक है भिन्नताओं की समानता (समरूपता).

यदि ये शर्तें पूरी नहीं होती हैं, तो नमूना साधनों की तुलना करते समय समान विधियों का उपयोग किया जाना चाहिए। गैर-पैरामीट्रिक आँकड़े, जिनमें से सबसे प्रसिद्ध हैं मान-व्हिटनी यू-टेस्ट(स्वतंत्र नमूनों के लिए दो-नमूना परीक्षण के रूप में), और संकेत मानदंडतथा विलकॉक्सन परीक्षण(आश्रित नमूनों के मामलों में प्रयुक्त)।

4. विद्यार्थी के टी-टेस्ट की गणना कैसे करें?

साधनों की तुलना करने के लिए, छात्र के टी-टेस्ट की गणना निम्न सूत्र का उपयोग करके की जाती है:

कहाँ पे एम 1- पहली तुलना की गई जनसंख्या (समूह) का अंकगणितीय माध्य, एम 2- दूसरी तुलना की गई जनसंख्या (समूह) का अंकगणितीय माध्य, एम 1 - मतलब त्रुटिपहला अंकगणितीय माध्य, एम2- दूसरे अंकगणितीय माध्य की औसत त्रुटि।

5. विद्यार्थी के टी-टेस्ट के मूल्य की व्याख्या कैसे करें?

छात्र के टी-टेस्ट के परिणामी मूल्य की सही व्याख्या की जानी चाहिए। ऐसा करने के लिए, हमें प्रत्येक समूह (एन 1 और एन 2) में विषयों की संख्या जानने की जरूरत है। स्वतंत्रता की डिग्री की संख्या ढूँढना एफनिम्नलिखित सूत्र के अनुसार:

च \u003d (एन 1 + एन 2) - 2

उसके बाद, हम आवश्यक स्तर के महत्व के लिए छात्र के टी-टेस्ट का महत्वपूर्ण मूल्य निर्धारित करते हैं (उदाहरण के लिए, पी = 0.05) और स्वतंत्रता की एक निश्चित संख्या के लिए एफतालिका के अनुसार ( नीचे देखें).

हम मानदंड के महत्वपूर्ण और परिकलित मूल्यों की तुलना करते हैं:

  • यदि विद्यार्थी के t-परीक्षण का परिकलित मान बराबर या अधिकमहत्वपूर्ण, तालिका में पाया गया, हम यह निष्कर्ष निकालते हैं कि तुलनात्मक मूल्यों के बीच अंतर सांख्यिकीय रूप से महत्वपूर्ण हैं।
  • यदि परिकलित विद्यार्थी के t-परीक्षण का मान कमसारणीबद्ध, जिसका अर्थ है कि तुलनात्मक मूल्यों के बीच अंतर सांख्यिकीय रूप से महत्वपूर्ण नहीं हैं।

6. विद्यार्थी के t-परीक्षण की गणना का एक उदाहरण

लोहे की एक नई तैयारी की प्रभावशीलता का अध्ययन करने के लिए, एनीमिया के रोगियों के दो समूहों का चयन किया गया था। पहले समूह में, रोगियों को मिला नई दवाऔर दूसरे समूह को एक प्लेसबो मिला। उसके बाद, परिधीय रक्त में हीमोग्लोबिन का स्तर मापा गया। पहले समूह में, औसत हीमोग्लोबिन स्तर 115.4 ± 1.2 g/l था, और दूसरे में - 103.7 ± 2.3 g/l (डेटा प्रारूप में प्रस्तुत किए गए हैं) एम ± एम), तुलनात्मक आबादी का सामान्य वितरण होता है। पहले समूह की संख्या 34 थी, और दूसरी - 40 रोगी। प्राप्त मतभेदों के सांख्यिकीय महत्व और नई लोहे की तैयारी की प्रभावशीलता के बारे में निष्कर्ष निकालना आवश्यक है।

समाधान:अंतर के महत्व का आकलन करने के लिए, हम छात्र के टी-टेस्ट का उपयोग करते हैं, जिसकी गणना वर्ग त्रुटियों के योग से विभाजित साधनों के बीच अंतर के रूप में की जाती है:

गणना करने के बाद, t-परीक्षण का मान 4.51 के बराबर था। हम स्वतंत्रता की डिग्री की संख्या (34 + 40) - 2 = 72 के रूप में पाते हैं। हम छात्र के टी-टेस्ट 4.51 के प्राप्त मूल्य की तुलना पी = 0.05 पर महत्वपूर्ण मान के साथ करते हैं जो तालिका में दर्शाया गया है: 1.993। चूंकि मानदंड का परिकलित मान क्रांतिक मान से अधिक है, इसलिए हम यह निष्कर्ष निकालते हैं कि देखे गए अंतर सांख्यिकीय रूप से महत्वपूर्ण हैं (महत्व स्तर p<0,05).

दोस्तों के साथ शेयर करें या अपने लिए सेव करें:

लोड हो रहा है...