रैखिक प्रतिगमन परिणामों का मूल्यांकन। एकाधिक सहसंबंध गुणांक और निर्धारण के एकाधिक गुणांक

तीन चरों का बहु सहसंबंध गुणांक किसी एक विशेषता (डैश से पहले सूचकांक पत्र) और दो अन्य विशेषताओं (डैश के बाद सूचकांक अक्षर) के संयोजन के बीच एक रैखिक संबंध की निकटता का संकेतक है:

; (12.7)

(12.8)

ये फ़ार्मुलों के लिए एकाधिक सहसंबंध गुणांकों की गणना करना आसान बनाते हैं ज्ञात मूल्यजोड़ी सहसंबंध गुणांक r xy , r xz और r yz.

गुणक आरनकारात्मक नहीं है और हमेशा 0 और 1 के बीच होता है। पास आने पर आरएकता के लिए, तीन विशेषताओं के रैखिक संबंध की डिग्री बढ़ जाती है। अनुपात के बीच एकाधिक सहसंबंध, उदाहरण के लिए आर y-xz, और दो जोड़ी सहसंबंध गुणांक आर वाईएक्सतथा आर yzनिम्नलिखित संबंध हैं: प्रत्येक युग्म गुणांक निरपेक्ष मान से अधिक नहीं हो सकता आर y-xz.

बहु सहसंबंध गुणांक का वर्ग R2बहु निर्धारण का गुणांक कहलाता है। यह अध्ययन किए गए कारकों के प्रभाव में आश्रित चर में भिन्नता के अनुपात को दर्शाता है।

बहु सहसंबंध के महत्व का अनुमान लगाया जाता है
एफ- मानदंड:

, (12.9)

एननमूना आकार है,

- सुविधाओं की संख्या; हमारे मामले में = 3.

सैद्धांतिक मूल्य एफ- मानदंड आवेदन तालिका से लिए गए हैं 1 = के-1 और ν 2 \u003d n–kस्वतंत्रता की डिग्री और महत्व के स्वीकृत स्तर। जनसंख्या में शून्य से बहु सहसंबंध गुणांक की समानता के बारे में शून्य परिकल्पना ( एच0: आर= 0) स्वीकार किया जाता है यदि एफ तथ्य।< F табл . और खारिज कर दिया अगर एफ तथ्य। ≥ एफ टेबल.

काम का अंत -

यह विषय संबंधित है:

गणित के आँकड़े

शैक्षणिक संस्थान .. गोमेली स्टेट यूनिवर्सिटी.. फ्रांसिस स्केरीना यू एम ज़ुचेंको के नाम पर ..

अगर आपको चाहिये अतिरिक्त सामग्रीइस विषय पर, या आपको वह नहीं मिला जिसकी आप तलाश कर रहे थे, हम अपने काम के डेटाबेस में खोज का उपयोग करने की सलाह देते हैं:

प्राप्त सामग्री का हम क्या करेंगे:

यदि यह सामग्री आपके लिए उपयोगी साबित हुई, तो आप इसे सामाजिक नेटवर्क पर अपने पेज पर सहेज सकते हैं:

इस खंड के सभी विषय:

ट्यूटोरियल
विशेषता 1-31 01 01 "जीव विज्ञान" गोमेल 2010 . में अध्ययन कर रहे विश्वविद्यालय के छात्रों के लिए

गणितीय आँकड़ों का विषय और विधि
गणितीय आँकड़ों का विषय जीव विज्ञान, अर्थशास्त्र, प्रौद्योगिकी और अन्य क्षेत्रों में सामूहिक घटनाओं के गुणों का अध्ययन है। विविधता के कारण ये घटनाएं आमतौर पर जटिल होती हैं (भिन्नता

एक यादृच्छिक घटना की अवधारणा
मुख्य के रूप में सांख्यिकीय प्रेरण या सांख्यिकीय अनुमान अवयवसामूहिक परिघटनाओं का अध्ययन करने का तरीका, उनका अपना है विशिष्ट सुविधाएं. सांख्यिकीय निष्कर्ष संख्यात्मक . के साथ किए जाते हैं

यादृच्छिक घटना की प्रायिकता
संख्यात्मक विशेषतायादृच्छिक घटना, जिसमें यह गुण होता है कि परीक्षणों की किसी भी पर्याप्त बड़ी श्रृंखला के लिए, घटना की आवृत्ति इस विशेषता से केवल थोड़ी भिन्न होती है, कहलाती है

संभावनाओं की गणना
अक्सर संभावनाओं को एक साथ जोड़ने और गुणा करने की आवश्यकता होती है। उदाहरण के लिए, आप एक ही समय में 2 पासे फेंकने पर 5 अंक प्राप्त करने की संभावना निर्धारित करना चाहते हैं। आवश्यक राशि होने की संभावना है

एक यादृच्छिक चर की अवधारणा
संभाव्यता की अवधारणा को परिभाषित करने और इसके मुख्य गुणों को स्पष्ट करने के बाद, आइए संभाव्यता सिद्धांत की सबसे महत्वपूर्ण अवधारणाओं में से एक पर विचार करें - एक यादृच्छिक चर की अवधारणा। आइए मान लें कि परिणामस्वरूप

असतत यादृच्छिक चर
एक यादृच्छिक चर असतत है यदि इसके संभावित मूल्यों का सेट परिमित है, या, के अनुसार कम से कम, गणनीय है। मान लें कि एक यादृच्छिक चर X मान x1 . ले सकता है

सतत यादृच्छिक चर
पिछले उपखंड में चर्चा किए गए असतत यादृच्छिक चर के विपरीत, एक सतत यादृच्छिक चर के लिए संभावित मूल्यों का सेट न केवल परिमित है, बल्कि इसके लिए उत्तरदायी भी नहीं है

गणितीय अपेक्षा और विचरण
अक्सर एक या दो संख्यात्मक संकेतकों का उपयोग करके एक यादृच्छिक चर के वितरण को चिह्नित करने की आवश्यकता होती है जो इस वितरण के सबसे महत्वपूर्ण गुणों को व्यक्त करते हैं। ऐसा करने के लिए

लम्हें
गणितीय आँकड़ों में एक यादृच्छिक चर के वितरण के तथाकथित क्षण बहुत महत्वपूर्ण हैं। पर गणितीय अपेक्षाएक यादृच्छिक चर के बड़े मूल्यों को अपर्याप्त रूप से ध्यान में रखा जाता है।

द्विपद वितरण और संभावनाओं की माप
इस विषय में, हम असतत यादृच्छिक चर के वितरण के मुख्य प्रकारों पर विचार करेंगे। आइए मान लें कि किसी एकल परीक्षण में किसी यादृच्छिक घटना A के घटित होने की प्रायिकता के बराबर है

आयताकार (समान) वितरण
एक आयताकार (समान) वितरण निरंतर वितरण का सबसे सरल प्रकार है। यदि एक यादृच्छिक चर एक्स अंतराल (ए, बी) में कोई वास्तविक मान ले सकता है, जहां ए और बी वास्तविक हैं

सामान्य वितरण
सामान्य वितरण गणितीय आँकड़ों में एक प्रमुख भूमिका निभाता है। यह कम से कम यादृच्छिक नहीं है: वस्तुनिष्ठ वास्तविकता में, विभिन्न संकेत बहुत बार सामने आते हैं।

लॉग-सामान्य वितरण
यादृच्छिक चर Y का लघुगणक है सामान्य वितरणपैरामीटर μ और σ के साथ यदि यादृच्छिक चर X = lnY का समान पैरामीटर μ और & के साथ एक सामान्य वितरण है

औसत मान
सभी समूह गुणों में, औसत स्तर, विशेषता के औसत मूल्य से मापा जाता है, का सबसे बड़ा सैद्धांतिक और व्यावहारिक महत्व है। किसी विशेषता का औसत मान एक बहुत गहरी अवधारणा है,

औसत के सामान्य गुण
औसत मूल्यों के सही उपयोग के लिए, इन संकेतकों के गुणों को जानना आवश्यक है: औसत स्थान, अमूर्तता और कुल क्रिया की एकता। इसके संख्यात्मक मान से

अंकगणित औसत
अंकगणित माध्य, होना सामान्य गुणऔसत मूल्यों की अपनी विशेषताएं होती हैं, जिन्हें निम्नलिखित सूत्रों द्वारा व्यक्त किया जा सकता है:

औसत रैंक (गैर-पैरामीट्रिक माध्य)
औसत रैंक ऐसी विशेषताओं के लिए निर्धारित की जाती है जिनके लिए मात्रात्मक माप के तरीके अभी तक नहीं मिले हैं। ऐसी विशेषताओं के प्रकट होने की डिग्री के अनुसार, वस्तुओं को स्थान दिया जा सकता है, अर्थात, स्थित

भारित अंकगणित माध्य
आमतौर पर, अंकगणितीय माध्य की गणना करने के लिए, सभी जोड़ें विशेषता मानऔर परिणामी राशि को विकल्पों की संख्या से विभाजित किया जाता है। इस मामले में, प्रत्येक मान, योग में प्रवेश करने पर, इसे पूर्ण से बढ़ा देता है

वर्गमूल औसत का वर्ग
मूल माध्य वर्ग की गणना सूत्र द्वारा की जाती है: , (6.5) यह योग के वर्गमूल के बराबर होता है

मंझला
माध्यिका एक ऐसा विशेषता मान है जो पूरे समूह को दो समान भागों में विभाजित करता है: एक भाग का विशेषता मान माध्यिका से कम होता है, और दूसरे का मान अधिक होता है। उदाहरण के लिए, यदि मेरे पास

जियोमेट्रिक माध्य
n डेटा वाले समूह के लिए ज्यामितीय माध्य प्राप्त करने के लिए, आपको सभी विकल्पों को गुणा करना होगा और परिणामी उत्पाद से निकालना होगा nth रूटडिग्री:

औसत हार्मोनिक
हार्मोनिक माध्य की गणना सूत्र द्वारा की जाती है। (6.14) पांच विकल्पों के लिए: 1, 4, 5, 5 माध्यम

स्वतंत्रता की डिग्री की संख्या
स्वतंत्रता की डिग्री की संख्या समूह में मुक्त विविधता तत्वों की संख्या के बराबर है। यह विविधता बाधाओं की संख्या के बिना सभी उपलब्ध अध्ययन मदों की संख्या के बराबर है। उदाहरण के लिए, अनुसंधान के लिए

भिन्नता का गुणांक
मानक विचलन एक नामित मान है, जिसे अंकगणित माध्य के समान इकाइयों में व्यक्त किया जाता है। इसलिए, विभिन्न इकाइयों में व्यक्त विभिन्न विशेषताओं की तुलना करने के लिए

सीमाएं और दायरा
विविधता की डिग्री के त्वरित और अनुमानित आकलन के लिए, सबसे सरल संकेतकों का अक्सर उपयोग किया जाता है: लिम = (न्यूनतम अधिकतम) - सीमाएं, यानी सबसे छोटी और सबसे बड़ा मूल्यफ़ीचर, पी =

सामान्यीकृत विचलन
आमतौर पर, एक विशेषता के विकास की डिग्री इसे मापकर निर्धारित की जाती है और एक निश्चित नामित संख्या द्वारा व्यक्त की जाती है: 3 किलो वजन, 15 सेमी लंबाई, मधुमक्खियों के पंख पर 20 हुक, दूध में 4% वसा, 15 किलो वजन कतरन

सारांश समूह का माध्य और सिग्मा
कभी-कभी कई वितरणों से बने योग वितरण के लिए माध्य और सिग्मा निर्धारित करना आवश्यक होता है। इस मामले में, वितरण स्वयं ज्ञात नहीं हैं, बल्कि केवल उनके साधन और सिग्मा हैं।

वितरण वक्र का तिरछापन (तिरछापन) और खड़ीपन (कुर्टोसिस)
बड़े नमूनों (n > 100) के लिए, दो और आँकड़ों की गणना की जाती है। वक्र की विषमता को विषमता कहते हैं:

विविधता श्रृंखला
जैसे-जैसे अध्ययन किए गए समूहों का आकार बढ़ता है, विविधता में नियमितता अधिक से अधिक स्पष्ट होती जाती है, जो छोटे समूहों में इसके प्रकट होने के यादृच्छिक रूप से छिपी हुई थी।

हिस्टोग्राम और भिन्नता वक्र
हिस्टोग्राम है विविधता श्रृंखला, एक आरेख के रूप में प्रस्तुत किया जाता है जिसमें एक भिन्न बारंबारता मान को अलग-अलग बार ऊँचाइयों द्वारा दर्शाया जाता है। डेटा वितरण हिस्टोग्राम p . में दिखाया गया है

वितरण अंतर का महत्व
एक सांख्यिकीय परिकल्पना डेटा के देखे गए नमूने के अंतर्निहित संभाव्यता वितरण के बारे में एक विशिष्ट धारणा है। इंतिहान सांख्यिकीय परिकल्पनास्वीकृति की एक प्रक्रिया है

तिरछापन और कुर्टोसिस के लिए मानदंड
पौधों, जानवरों और सूक्ष्मजीवों के कुछ लक्षण, जब वस्तुओं को समूहों में जोड़ा जाता है, तो वे वितरण देते हैं जो सामान्य से काफी भिन्न होते हैं। ऐसे मामलों में जहां कोई

सामान्य जनसंख्या और नमूना
एक निश्चित श्रेणी के व्यक्तियों के पूरे समूह को सामान्य जनसंख्या कहा जाता है। मात्रा आबादीअध्ययन के उद्देश्यों से निर्धारित होता है। यदि जंगली जानवरों की किसी प्रजाति का अध्ययन किया जाता है

प्रातिनिधिकता
चयनित वस्तुओं के समूह का प्रत्यक्ष अध्ययन सबसे पहले देता है, प्राथमिक सामग्रीऔर नमूने की विशेषताएं। सभी नमूना डेटा और सारांश आंकड़े प्रासंगिक हैं:

प्रतिनिधित्व त्रुटियाँ और अन्य शोध त्रुटियाँ
चयनात्मक संकेतकों के आधार पर सामान्य मापदंडों के मूल्यांकन की अपनी विशेषताएं हैं। एक हिस्सा कभी भी पूरी तरह से पूरी तरह से विशेषता नहीं हो सकता है, इसलिए सामान्य आबादी की विशेषता

आत्मविश्वास की सीमा
सामान्य मापदंडों के संभावित मूल्यों को खोजने के लिए नमूना संकेतकों का उपयोग करने के लिए भी प्रतिनिधित्व त्रुटियों के मूल्य को निर्धारित करना आवश्यक है। इस प्रक्रिया को o . कहा जाता है

सामान्य मूल्यांकन प्रक्रिया
सामान्य पैरामीटर का आकलन करने के लिए आवश्यक तीन मान - नमूना संकेतक (), विश्वसनीयता मानदंड

अंकगणित माध्य का अनुमान
श्रेणी मध्यम आकारवस्तुओं की अध्ययन की गई श्रेणी के लिए सामान्य औसत के मूल्य को स्थापित करना है। इस उद्देश्य के लिए आवश्यक प्रतिनिधित्व त्रुटि सूत्र द्वारा निर्धारित की जाती है:

माध्य अंतर अनुमान
कुछ अध्ययनों में, दो मापों के बीच के अंतर को प्राथमिक डेटा के रूप में लिया जाता है। यह तब हो सकता है जब नमूने के प्रत्येक व्यक्ति का दो राज्यों में अध्ययन किया जाता है - या में अलग अलग उम्र, या पी

औसत अंतर का अविश्वसनीय और विश्वसनीय अनुमान
चयनात्मक अध्ययनों के ऐसे परिणाम, जिनके अनुसार सामान्य पैरामीटर का कोई निश्चित अनुमान प्राप्त करना असंभव है (या तो यह शून्य से अधिक है, या शून्य से कम या बराबर है), अविश्वसनीय कहा जाता है।

सामान्य साधनों के अंतर का अनुमान
जैविक अनुसंधान में दो मात्राओं के बीच के अंतर का विशेष महत्व है। अंतर से, विभिन्न आबादी, नस्लों, नस्लों, किस्मों, रेखाओं, परिवारों, प्रयोगात्मक और नियंत्रण समूहों की तुलना की जाती है (विधि जीआर

अंतर विश्वसनीयता मानदंड
एक ही समय पर बहुत महत्व, जिसमें शोधकर्ताओं के लिए विश्वसनीय मतभेदों की प्राप्ति है, यह निर्धारित करने के लिए कि क्या प्राप्त विश्वसनीय है, वास्तविक रूप से मास्टर तरीकों की आवश्यकता है

गुणात्मक विशेषताओं के अध्ययन में प्रतिनिधित्व
गुणात्मक लक्षणों में आमतौर पर अभिव्यक्ति के क्रम नहीं हो सकते हैं: वे या तो मौजूद हैं या प्रत्येक व्यक्ति में मौजूद नहीं हैं, उदाहरण के लिए, लिंग, परागण, किसी भी विशेषता की उपस्थिति या अनुपस्थिति, कुरूपता

शेयरों में अंतर की विश्वसनीयता
नमूना शेयरों के अंतर की विश्वसनीयता उसी तरह निर्धारित की जाती है जैसे साधनों के अंतर के लिए: (10.34)

सहसंबंध गुणांक
कई अध्ययनों में, उनके आपसी संबंधों में कई संकेतों का अध्ययन करना आवश्यक है। यदि हम दो लक्षणों के संबंध में ऐसा अध्ययन करते हैं, तो हम देख सकते हैं कि एक विशेषता की परिवर्तनशीलता नहीं है

सहसंबंध गुणांक त्रुटि
किसी भी नमूना मान की तरह, सहसंबंध गुणांक की अपनी प्रतिनिधित्व त्रुटि होती है, जिसकी गणना सूत्र का उपयोग करके बड़े नमूनों के लिए की जाती है:

नमूना सहसंबंध गुणांक का विश्वास
नमूना सहसंबंध गुणांक की कसौटी सूत्र द्वारा निर्धारित की जाती है: (11.9) जहां:

सहसंबंध गुणांक की विश्वास सीमा
सहसंबंध गुणांक के सामान्य मूल्य की विश्वास सीमाएँ पाई जाती हैं सामान्य तरीके सेसूत्र के अनुसार:

दो सहसंबंध गुणांकों के बीच अंतर की विश्वसनीयता
सहसंबंध गुणांक में अंतर की विश्वसनीयता उसी तरह निर्धारित की जाती है जैसे कि सामान्य सूत्र के अनुसार, साधनों में अंतर की विश्वसनीयता।

सीधी रेखा प्रतिगमन समीकरण
रेक्टिलिनियर सहसंबंध इस मायने में भिन्न है कि कनेक्शन के इस रूप के साथ, पहली विशेषता में समान परिवर्तनों में से प्रत्येक एक अच्छी तरह से परिभाषित और अन्य पीआर में समान औसत परिवर्तन से मेल खाता है।

रेक्टिलिनियर रिग्रेशन समीकरण के तत्वों की त्रुटियां
समीकरण में एक साधारण सीधा रेखीय प्रतिगमन: y = a + bx तीन प्रतिनिधित्व त्रुटियाँ हैं। 1 प्रतिगमन गुणांक त्रुटि:

आंशिक सहसंबंध गुणांक
आंशिक सहसंबंध गुणांक एक संकेतक है जो दो विशेषताओं के संयुग्मन की डिग्री को मापता है जब नियत मानतीसरा। गणितीय आँकड़े आपको एक सहसंबंध स्थापित करने की अनुमति देते हैं

रेखीय बहु समाश्रयण समीकरण
तीन चरों के बीच एक सीधी रेखा संबंध के गणितीय समीकरण को समाश्रयण तल का बहु रेखीय समीकरण कहा जाता है। इसका निम्नलिखित सामान्य रूप है:

सहसंबंध संबंध
यदि अध्ययन के तहत परिघटनाओं के बीच संबंध एक रेखीय से महत्वपूर्ण रूप से विचलित होता है, जिसे ग्राफ से स्थापित करना आसान है, तो संबंध के माप के रूप में सहसंबंध गुणांक अनुपयुक्त है। यह अनुपस्थिति का संकेत दे सकता है

सहसंबंध संबंध गुण
सहसंबंध अनुपात इसके किसी भी रूप में सहसंबंध की डिग्री को मापता है। इसके अलावा, सहसंबंध अनुपात में कई अन्य गुण हैं जो सांख्यिकीय में बहुत रुचि रखते हैं

सहसंबंध अनुपात प्रतिनिधित्व त्रुटि
प्रतिनिधित्व त्रुटि के लिए एक सटीक सूत्र अभी तक विकसित नहीं किया गया है। सहसंबंध संबंध. आमतौर पर पाठ्यपुस्तकों में दिए गए फॉर्मूले में कमियां होती हैं जिन्हें हमेशा नजरअंदाज नहीं किया जा सकता है। यह सूत्र नहीं

सहसंबंध रैखिकता मानदंड
एक रेक्टिलिनियर के लिए एक वक्रतापूर्ण निर्भरता के सन्निकटन की डिग्री निर्धारित करने के लिए, मानदंड F का उपयोग किया जाता है, जिसकी गणना सूत्र द्वारा की जाती है:

फैलाव परिसर
फैलाव परिसर अध्ययन के लिए शामिल डेटा और प्रत्येक ग्रेडेशन (निजी औसत) और संपूर्ण परिसर (सामान्य औसत) के लिए डेटा के औसत के साथ ग्रेडेशन का एक सेट है।

सांख्यिकीय प्रभाव
सांख्यिकीय प्रभाव कारक की विविधता (इसके उन्नयन) की परिणामी विशेषता की विविधता में एक प्रतिबिंब है, जो अध्ययन में आयोजित किया जाता है। नव के प्रभाव का आकलन करने के लिए

तथ्यात्मक प्रभाव
तथ्यात्मक प्रभाव अध्ययन किए गए कारकों का एक सरल या संयुक्त सांख्यिकीय प्रभाव है। एक-कारक परिसरों में, कुछ संगठनात्मक स्तरों पर एक कारक के सरल प्रभाव का अध्ययन किया जाता है।

एक-कारक फैलाव परिसर
विचरण का विश्लेषण अंग्रेजी वैज्ञानिक आर ए फिशर द्वारा कृषि और जैविक अनुसंधान के अभ्यास में विकसित और पेश किया गया था, जिन्होंने माध्य वर्गों के अनुपात के वितरण कानून की खोज की थी।

बहुकारक फैलाव परिसर
का स्पष्ट विचार गणित का मॉडलविचरण का विश्लेषण आवश्यक कम्प्यूटेशनल संचालन को समझना आसान बनाता है, खासकर जब बहुभिन्नरूपी प्रयोगों से डेटा संसाधित करते हैं, जिसमें अधिक होते हैं

परिवर्तनों
प्रायोगिक सामग्री के प्रसंस्करण के लिए विचरण के विश्लेषण का सही उपयोग वेरिएंट (नमूने) के लिए भिन्नता की समरूपता को मानता है, एक सामान्य या इसके करीब वितरण

प्रभावों की ताकत के संकेतक
उनके परिणामों द्वारा प्रभावों की ताकत का निर्धारण जीव विज्ञान में आवश्यक है, कृषि, सबसे अधिक चुनने के लिए दवा प्रभावी साधनएक्सपोजर, भौतिक और रासायनिक एजेंटों की खुराक के लिए - एसटी

प्रभाव की शक्ति के मुख्य संकेतक के प्रतिनिधित्व की त्रुटि
प्रभाव की ताकत के मुख्य संकेतक की त्रुटि का सटीक सूत्र अभी तक नहीं मिला है। एक-कारक परिसरों में, जब प्रतिनिधित्व त्रुटि केवल भाज्य के एक संकेतक के लिए निर्धारित की जाती है

प्रभाव की शक्ति के संकेतकों के मूल्यों को सीमित करें
प्रभाव की शक्ति का मुख्य संकेतक शर्तों के कुल योग से एक पद के हिस्से के बराबर है। इसके अलावा, यह सूचक वर्ग के बराबर हैसहसंबंध संबंध। इन दो कारणों से पावर इंडिकेटर

प्रभावों की विश्वसनीयता
एक चयनात्मक अध्ययन में प्राप्त प्रभाव की शक्ति का मुख्य संकेतक, सबसे पहले, प्रभाव की डिग्री की विशेषता है, जो वास्तव में, अध्ययन की गई वस्तुओं के समूह में खुद को प्रकट करता है।

विभेदक विश्लेषण
विभेदक विश्लेषण बहुभिन्नरूपी सांख्यिकीय विश्लेषण के तरीकों में से एक है। विभेदक विश्लेषण का उद्देश्य विभिन्न विशेषताओं (विशेषताओं, जोड़े .) के मापन के आधार पर है

समस्या कथन, समाधान के तरीके, प्रतिबंध
मान लीजिए कि m विशेषताओं वाली n वस्तुएं हैं। माप के परिणामस्वरूप, प्रत्येक वस्तु को सदिश x1 ... xm, m >1 द्वारा अभिलक्षित किया जाता है। कार्य यह है कि

धारणाएं और प्रतिबंध
विभेदक विश्लेषण कई मान्यताओं के तहत "काम करता है"। यह धारणा कि प्रेक्षित मात्राएँ - वस्तु की मापी गई विशेषताएँ - का सामान्य वितरण होता है। यह

विभेदक विश्लेषण एल्गोरिथम
भेदभाव की समस्याओं (विभेदक विश्लेषण) के समाधान में संपूर्ण नमूना स्थान (सभी बहुआयामी मानी जाने वाली प्राप्तियों का सेट) को विभाजित करना शामिल है। यादृच्छिक चर) कुछ संख्या के लिए

क्लस्टर विश्लेषण
क्लस्टर विश्लेषण वर्गीकरण करने के लिए उपयोग की जाने वाली विभिन्न प्रक्रियाओं को जोड़ता है। इन प्रक्रियाओं को लागू करने के परिणामस्वरूप, वस्तुओं के प्रारंभिक सेट को समूहों या समूहों में विभाजित किया जाता है

क्लस्टर विश्लेषण के तरीके
व्यवहार में, सामूहिक क्लस्टरिंग विधियों को आमतौर पर लागू किया जाता है। आमतौर पर, वर्गीकरण शुरू करने से पहले, डेटा को मानकीकृत किया जाता है (माध्य घटाया जाता है और वर्गमूल को विभाजित किया जाता है)।

क्लस्टर विश्लेषण एल्गोरिथ्म
क्लस्टर विश्लेषण वस्तुओं के बीच की दूरी की अवधारणा की परिभाषा के आधार पर बहुआयामी प्रेक्षणों या वस्तुओं को वर्गीकृत करने के तरीकों का एक समूह है, जिसके बाद उनसे समूहों का चयन किया जाता है, और

एकाधिक सहसंबंध गुणांकएक चर और विचाराधीन अन्य चरों के समूह के बीच रैखिक संबंध की जकड़न की विशेषता है।
बहु सहसंबंध गुणांक की गणना का विशेष महत्व है गुणनखंड x 1 , x 2 ,…, x m , के साथ परिणामी विशेषता yयह निर्धारित करने के लिए सूत्र सामान्य मामलारूप है

जहां r सहसंबंध मैट्रिक्स का निर्धारक है; 11 सहसंबंध मैट्रिक्स के तत्व r yy का बीजगणितीय पूरक है।
यदि केवल दो कारक चिह्नों पर विचार किया जाता है, तो बहु सहसंबंध गुणांक की गणना के लिए निम्न सूत्र का उपयोग किया जा सकता है:

एक बहु सहसंबंध गुणांक का निर्माण केवल तभी उचित होता है जब आंशिक सहसंबंध गुणांक महत्वपूर्ण हो, और परिणामी विशेषता और मॉडल में शामिल कारकों के बीच संबंध वास्तव में मौजूद हो।

निर्धारण गुणांक

सामान्य सूत्र: R 2 = RSS/TSS=1-ESS/TSS
जहां आरएसएस वर्ग विचलन का समझाया गया योग है, ईएसएस वर्ग विचलन का अस्पष्टीकृत (अवशिष्ट) योग है, टीएसएस है कुल राशिवर्ग विचलन (TSS=RSS+ESS)

,
जहाँ r ij - प्रतिगामी x i और x j के बीच युग्म सहसंबंध गुणांक, a r i 0 - प्रतिगामी x i और y के बीच युग्म सहसंबंध गुणांक;
- निर्धारण का सही (सामान्यीकृत) गुणांक।

बहु सहसंबंध गुणांक का वर्ग बुलाया निर्धारण के कई गुणांक; यह दर्शाता है कि परिणामी विशेषता के विचरण का अनुपात क्या है आपकारक चिह्नों x 1, x 2, …, x m के प्रभाव से समझाया गया है। ध्यान दें कि अवशिष्ट और . के अनुपात के माध्यम से निर्धारण के गुणांक की गणना के लिए सूत्र कुल विचरणपरिणामी सुविधा एक ही परिणाम देगी।
बहु सहसंबंध गुणांक और निर्धारण का गुणांक 0 से 1 तक भिन्न होता है। 1 के करीब, संबंध जितना मजबूत होगा और, तदनुसार, उतना ही सटीक रूप से नीचे निर्मित प्रतिगमन समीकरण निर्भरता का वर्णन करेगा। आप x 1 , x 2 , …, x m से। यदि बहु सहसंबंध गुणांक का मान छोटा है (0.3 से कम), तो इसका मतलब है कि कारक विशेषताओं का चयनित सेट परिणामी विशेषता की भिन्नता का पर्याप्त रूप से वर्णन नहीं करता है, या कारक और परिणाम चर के बीच संबंध गैर-रैखिक है।

एकाधिक सहसंबंध गुणांक की गणना कैलकुलेटर का उपयोग करके की जाती है। एकाधिक सहसंबंध गुणांक और निर्धारण के गुणांक का महत्वफिशर के परीक्षण का उपयोग करके जाँच की गई।

निम्नलिखित में से कौन सी संख्या बहु निर्धारण के गुणांक का मान हो सकती है:
ए) 0.4;
बी) -1;
ग) -2.7;
घ) 2.7।

विभिन्न रैखिक गुणांकसहसंबंध 0.75 है। मॉडल में आश्रित चर y की भिन्नता का कितना प्रतिशत ध्यान में रखा जाता है और यह कारकों x 1 और x 2 के प्रभाव के कारण होता है।
ए) 56.2 (आर 2 = 0.75 2 = 0.5625);


  1. निर्मित मॉडल की गुणवत्ता का मूल्यांकन करें। क्या एक-कारक मॉडल की तुलना में मॉडल की गुणवत्ता में सुधार हुआ है? लोच गुणांक, - और -गुणांक का उपयोग करके परिणाम पर महत्वपूर्ण कारकों के प्रभाव का आकलन करें।
चयनित की गुणवत्ता का आकलन करने के लिए एकाधिक मॉडल(6) इसी तरह, इस समस्या के आइटम 1.4 के लिए, हम निर्धारण के गुणांक का उपयोग करते हैं आर- चुकता, माध्य सापेक्ष सन्निकटन त्रुटि, और एफ- फिशर की कसौटी।

निर्धारण गुणांक आर- हम "रिग्रेशन" (तालिका ") के परिणामों से वर्ग लेते हैं प्रतिगमन आँकड़े» मॉडल (6) के लिए)।

इसलिए, एक अपार्टमेंट की कीमत में भिन्नता (परिवर्तन) यू 76.77% इस समीकरण द्वारा क्षेत्र के शहर की भिन्नता द्वारा समझाया गया है एक्स 1 , अपार्टमेंट में कमरों की संख्या एक्स 2 और रहने की जगह एक्स 4 .

हम मूल डेटा का उपयोग करते हैं यू मैंऔर रिग्रेशन टूल द्वारा पाए गए अवशेष (मॉडल (6) के लिए तालिका "शेष का निष्कर्ष")। सापेक्ष त्रुटियों की गणना करें और औसत मान ज्ञात करें
.

शेष आहरण


अवलोकन

भविष्यवाणी Y

खंडहर

रिले. गलती

1

45,95089273

-7,95089273

20,92340192

2

86,10296493

-23,90296493

38,42920407

3

94,84442678

30,15557322

24,12445858

4

84,17648426

-23,07648426

37,76838667

5

40,2537216

26,7462784

39,91981851

6

68,70572376

24,29427624

26,12287768

7

143,7464899

-25,7464899

21,81905923

8

106,0907598

25,90924022

19,62821228

9

135,357993

-42,85799303

46,33296544

10

114,4792566

-9,47925665

9,027863476

11

41,48765602

0,512343975

1,219866607

12

103,2329236

21,76707636

17,41366109

13

130,3567798

39,64322022

23,3195413

14

35,41901876

2,580981242

6,7920559

15

155,4129693

-24,91296925

19,0903979

16

84,32108188

0,678918123

0,798727204

17

98,0552279

-0,055227902

0,056355002

18

144,2104618

-16,21046182

12,66442329

19

122,8677535

-37,86775351

44,55029825

20

100,0221225

59,97787748

37,48617343

21

53,27196558

6,728034423

11,21339071

22

35,06605378

5,933946225

14,47303957

23

114,4792566

-24,47925665

27,19917406

24

113,1343153

-30,13431529

36,30640396

25

40,43190991

4,568090093

10,15131132

26

39,34427892

-0,344278918

0,882766457

27

144,4794501

-57,57945009

66,25943623

28

56,4827667

-16,4827667

41,20691675

29

95,38240332

-15,38240332

19,22800415

30

228,6988826

-1,698882564

0,748406416

31

222,8067278

12,19327221

5,188626473

32

38,81483144

1,185168555

2,962921389

33

48,36325811

18,63674189

27,81603267

34

126,6080021

-3,608002113

2,933335051

35

84,85052935

15,14947065

15,14947065

36

116,7991162

-11,79911625

11,23725357

37

84,17648426

-13,87648426

19,73895342

38

113,9412801

-31,94128011

38,95278062

39

215,494184

64,50581599

23,03779142

40

141,7795953

58,22040472

29,11020236

औसत

101,2375

22,51770962

कॉलम के अनुसार सापेक्ष त्रुटियांऔसत मूल्य पाएं =22.51% (औसत फ़ंक्शन का उपयोग करके)।

तुलना से पता चलता है कि 22.51%>7%। इसलिए, मॉडल की सटीकता असंतोषजनक है।

का उपयोग करके एफ - फिशर मानदंड आइए समग्र रूप से मॉडल के महत्व की जांच करें। ऐसा करने के लिए, हम "रिग्रेशन" टूल (तालिका " भिन्नता का विश्लेषण» मॉडल के लिए (6)) एफ= 39,6702.

FDISP फ़ंक्शन का उपयोग करके, हम मान पाते हैं एफ कृ =3.252 महत्व स्तर के लिए α = 5%, और स्वतंत्रता की डिग्री की संख्या 1 = 2 , 2 = 37 .

एफ> एफ कृ, इसलिए, मॉडल समीकरण (6) महत्वपूर्ण है, इसका उपयोग समीचीन है, आश्रित चर यूमॉडल (6) में शामिल कारक चर द्वारा काफी अच्छी तरह से वर्णित किया गया है एक्स 1 , एक्स 2. तथा एक्स 4 .

इसके अतिरिक्त उपयोग करना टी -छात्र की कसौटी आइए हम मॉडल के व्यक्तिगत गुणांकों के महत्व की जाँच करें।

टी-प्रतिगमन समीकरण के गुणांकों के लिए आंकड़े "प्रतिगमन" उपकरण के परिणामों में दिए गए हैं। प्राप्त हुआ निम्नलिखित मानचयनित मॉडल (6) के लिए:


कठिनाइयाँ

मानक त्रुटि

टी आंकड़ा

पी-वैल्यू

नीचे 95%

शीर्ष 95%

कम 95.0%

शीर्ष 95.0%

वाई-चौराहा

-5,643572321

12,07285417

-0,46745966

0,642988

-30,1285

18,84131

-30,1285

18,84131

X4

2,591405557

0,461440597

5,61590284

2.27ई-06

1,655561

3,52725

1,655561

3,52725

X1

6,85963077

9,185748512

0,74676884

0,460053

-11,7699

25,48919

-11,7699

25,48919

X2

-1,985156991

7,795346067

-0,25465925

0,800435

-17,7949

13,82454

-17,7949

13,82454

महत्वपूर्ण मान टी कृमहत्व स्तर के लिए पाया गया α=5%और स्वतंत्रता की डिग्री की संख्या =40–2–1=37 . टी कृ =2.026 (फ़ंक्शन स्टूड्रेस्पो)।

मुक्त गुणांक के लिए α =–5.643 परिभाषित आंकड़े
, टी कृ, इसलिए, मुक्त गुणांक महत्वपूर्ण नहीं है, इसे मॉडल से बाहर रखा जा सकता है।

प्रतिगमन गुणांक के लिए β 1 =6.859 परिभाषित आंकड़े
, β 1 महत्वपूर्ण नहीं है, इसे और क्षेत्र के शहर के कारक को मॉडल से हटाया जा सकता है।

प्रतिगमन गुणांक के लिए β 2 =-1,985 परिभाषित आंकड़े
, टी कृ, इसलिए प्रतिगमन गुणांक β 2 महत्वपूर्ण नहीं है, यह और अपार्टमेंट में कमरों की संख्या के कारक को मॉडल से बाहर रखा जा सकता है।

प्रतिगमन गुणांक के लिए β 4 =2.591 परिभाषित आंकड़े
, >t करोड़, इसलिए, प्रतीपगमन गुणांक β 4 महत्वपूर्ण है, यह और अपार्टमेंट के रहने वाले क्षेत्र का कारक मॉडल में संग्रहीत किया जा सकता है।

मॉडल के गुणांकों के महत्व के बारे में निष्कर्ष महत्व के स्तर पर किए जाते हैं α=5%. "पी-वैल्यू" कॉलम को ध्यान में रखते हुए, ध्यान दें कि मुक्त गुणांक α 0.64 = 64% के स्तर पर महत्वपूर्ण माना जा सकता है; प्रतिगमन गुणांक β 1 - 0.46 = 46% के स्तर पर; प्रतिगमन गुणांक β 2 - 0.8 = 80% के स्तर पर; और प्रतिगमन गुणांक β 4 - 2.27ई-06 = 2.26691790951854 ई-06 = 0.0000002% के स्तर पर।

समीकरण में नए कारक चर जोड़ने पर, निर्धारण का गुणांक स्वतः बढ़ जाता है आर 2 और घटता है मतलब त्रुटिसन्निकटन, हालांकि यह हमेशा मॉडल की गुणवत्ता में सुधार नहीं करता है। इसलिए, मॉडल (3) और चयनित एकाधिक मॉडल (6) की गुणवत्ता की तुलना करने के लिए, हम सामान्यीकृत निर्धारण गुणांक का उपयोग करते हैं।

इस प्रकार, प्रतिगमन समीकरण में कारक "क्षेत्र का शहर" जोड़ते समय एक्स 1 और कारक "अपार्टमेंट में कमरों की संख्या" एक्स 2, मॉडल की गुणवत्ता खराब हो गई है, जो कारकों को हटाने के पक्ष में बोलती है एक्स 1 और एक्समॉडल से 2.

आइए आगे की गणना करें।

लोच के औसत गुणांक एक रैखिक मॉडल के मामले में सूत्रों द्वारा निर्धारित किया जाता है
.

AVERAGE फ़ंक्शन का उपयोग करते हुए, हम पाते हैं: S यू, केवल कारक में वृद्धि के साथ एक्स 4 उसके एक के लिए मानक विचलन- 0.914 . की वृद्धि एस यू

डेल्टा गुणांक सूत्रों द्वारा परिभाषित किया गया है
.

आइए एक्सेल में "डेटा विश्लेषण" पैकेज के "सहसंबंध" टूल का उपयोग करके जोड़ी सहसंबंध गुणांक खोजें।


यू

X1

X2

X4

यू

1

X1

-0,01126

1

X2

0,751061

-0,0341

1

X4

0,874012

-0,0798

0,868524

1

निर्धारण का गुणांक पहले निर्धारित किया गया था और 0.7677 के बराबर है।

आइए डेल्टा गुणांक की गणना करें:

;

1 . के बाद से 1 तथा एक्स 2 खराब तरीके से चुना गया है, और उन्हें मॉडल से निकालने की आवश्यकता है। इसलिए, प्राप्त रैखिक तीन-कारक मॉडल के समीकरण के अनुसार, परिणामी कारक में परिवर्तन यू(अपार्टमेंट की कीमत) कारक के प्रभाव के कारण 104% है एक्स 4 (अपार्टमेंट का रहने का क्षेत्र), कारक के प्रभाव से 4% तक एक्स 2 (कमरों की संख्या), कारक के प्रभाव से 0.0859% तक एक्स 1 (क्षेत्र का शहर)।

जटिल घटनाओं का अध्ययन करते समय, दो से अधिक यादृच्छिक कारकों को ध्यान में रखा जाना चाहिए। इन कारकों के बीच संबंध की प्रकृति का एक सही विचार तभी प्राप्त किया जा सकता है जब सभी माने गए यादृच्छिक कारकों की एक ही बार में जांच की जाए। तीन या अधिक यादृच्छिक कारकों का एक संयुक्त अध्ययन शोधकर्ता को अध्ययन की गई घटनाओं के बीच कारण संबंधों के बारे में कम या ज्यादा उचित मान्यताओं को स्थापित करने की अनुमति देगा। एकाधिक संबंधों का एक सरल रूप तीन विशेषताओं के बीच एक रैखिक संबंध है। यादृच्छिक कारकों को के रूप में दर्शाया गया है एक्स 1 , एक्स 2 और एक्स 3. के बीच जोड़ीवार सहसंबंध गुणांक एक्स 1 और एक्स 2 को के रूप में दर्शाया गया है आर 12 , क्रमशः . के बीच एक्स 1 और एक्स 3 - आर 12, बीच एक्स 2 और एक्स 3 - आर 23. तीन विशेषताओं के रैखिक संबंध की जकड़न के माप के रूप में, कई सहसंबंध गुणांक का उपयोग किया जाता है, निरूपित आर 1-23, आर 2 13, आर 3 ּ 12 और आंशिक सहसंबंध गुणांक निरूपित आर 12.3 , आर 13.2 , आर 23.1 .

तीन कारकों में से कई सहसंबंध गुणांक आर 1.23 कारकों में से एक (बिंदु से पहले सूचकांक) और दो अन्य कारकों (बिंदु के बाद सूचकांक) के संयोजन के बीच एक रैखिक संबंध की निकटता का संकेतक है।

गुणांक R का मान हमेशा 0 से 1 की सीमा में होता है। जैसे ही R एक के करीब पहुंचता है, तीन विशेषताओं के रैखिक संबंध की डिग्री बढ़ जाती है।

एकाधिक सहसंबंध गुणांक के बीच, उदाहरण के लिए आर 2 ּ 13 , और दो जोड़ी सहसंबंध गुणांक आर 12 और आर 23 एक संबंध है: प्रत्येक युग्म गुणांक निरपेक्ष मान से अधिक नहीं हो सकता आर 2 13.

जोड़ी सहसंबंध गुणांक r 12 , r 13 और r 23 के ज्ञात मूल्यों के साथ कई सहसंबंध गुणांक की गणना के लिए सूत्र हैं:

बहु सहसंबंध गुणांक का वर्ग आर 2 कहा जाता है एकाधिक निर्धारण का गुणांक।यह अध्ययन किए गए कारकों के प्रभाव में आश्रित चर में भिन्नता के अनुपात को दर्शाता है।

बहु सहसंबंध के महत्व का अनुमान लगाया जाता है एफ- मानदंड:

एन-नमूने का आकार; क-कारकों की संख्या। हमारे मामले में = 3.

जनसंख्या में शून्य से बहु सहसंबंध गुणांक की समानता के बारे में शून्य परिकल्पना ( एच ओ:आर= 0) स्वीकार किया जाता है यदि एफएफ<च तो, और अस्वीकार कर दिया जाता है यदि
एफएफटी।

सैद्धांतिक मूल्य एफ-मानदंड परिभाषित किया गया है वी 1 = - 1 और वी 2 = एन - स्वतंत्रता की डिग्री और महत्व के स्वीकृत स्तर (परिशिष्ट 1)।

बहु सहसंबंध गुणांक की गणना का एक उदाहरण. कारकों के बीच संबंध का अध्ययन करते समय, युग्म सहसंबंध गुणांक प्राप्त किए गए थे ( एन =15): आर 12 ==0.6; आर 13 = 0.3; आर 23 = - 0,2.

संकेत की निर्भरता का पता लगाना आवश्यक है एक्स 2 ऑफ साइन एक्स 1 और एक्स 3 , यानी बहु सहसंबंध गुणांक की गणना करें:

तालिका मूल्य एफ n 1 = 2 और n 2 = 15 - 3 = 12 डिग्री पर स्वतंत्रता का मानदंड = 0.05 एफ 0.05 = 3.89 और a = 0.01 . पर एफ 0,01 = 6,93.

इस प्रकार, सुविधाओं के बीच संबंध आर 2.13 = 0.74 पर सार्थक
1% महत्व स्तर एफच > एफ 0,01 .

एकाधिक निर्धारण के गुणांक को देखते हुए आर 2 = (0.74) 2 = 0.55, विशेषता भिन्नता एक्स 2 अध्ययन किए गए कारकों के प्रभाव से संबंधित 55% है, और 45% भिन्नता (1-R 2) को इन चरों के प्रभाव से नहीं समझाया जा सकता है।

आंशिक रैखिक सहसंबंध

आंशिक सहसंबंध गुणांकएक संकेतक है जो दो विशेषताओं के संयुग्मन की डिग्री को मापता है।

गणितीय आंकड़े आपको एक विशेष प्रयोग स्थापित किए बिना, लेकिन युग्मित सहसंबंध गुणांक का उपयोग किए बिना, तीसरे के निरंतर मूल्य के साथ दो विशेषताओं के बीच संबंध स्थापित करने की अनुमति देते हैं। आर 12 , आर 13 , आर 23 .

आंशिक सहसंबंध गुणांक की गणना सूत्रों का उपयोग करके की जाती है:

डॉट से पहले की संख्याएं इंगित करती हैं कि किन विशेषताओं के बीच निर्भरता का अध्ययन किया जा रहा है, और डॉट के बाद की संख्या इंगित करती है कि किस सुविधा के प्रभाव को बाहर रखा गया है (समाप्त)। आंशिक सहसंबंध के महत्व की त्रुटि और मानदंड समान सूत्रों द्वारा निर्धारित किए जाते हैं जैसे कि जोड़ीदार सहसंबंध के लिए:

.

सैद्धांतिक मूल्य टी-के लिए मानदंड निर्धारित किया गया है वी = एन- स्वतंत्रता की 2 डिग्री और स्वीकृत महत्व स्तर ए (परिशिष्ट 1)।

शून्य में कुल मिलाकर आंशिक सहसंबंध गुणांक की समानता के बारे में शून्य परिकल्पना ( हो: आर= 0) स्वीकार किया जाता है यदि टीएफ< टी t, और अस्वीकार कर दिया जाता है यदि
टीटीटी।

आंशिक गुणांक -1 और +1 के बीच मान ले सकते हैं। निजी निर्धारण गुणांकआंशिक सहसंबंध गुणांकों को चुकता करके पाया जाता है:

डी 12.3 = आर 2 12ּ3 ;डी 13.2 = आर 2 13ּ2 ;डी 23ּ1 =आर 2 23ּ1।

परिणामी विशेषता पर अलग-अलग कारकों के विशेष प्रभाव की डिग्री निर्धारित करना, जबकि इस सहसंबंध को विकृत करने वाली अन्य विशेषताओं के साथ इसके संबंध को बाहर करना (समाप्त करना) अक्सर बहुत रुचि का होता है। कभी-कभी ऐसा होता है कि समाप्त विशेषता के निरंतर मूल्य के साथ, अन्य लक्षणों की परिवर्तनशीलता पर इसके सांख्यिकीय प्रभाव को नोटिस करना असंभव है। आंशिक सहसंबंध गुणांक की गणना के लिए तकनीक को समझने के लिए, एक उदाहरण पर विचार करें। तीन विकल्प हैं एक्स, यूतथा जेड. नमूना आकार के लिए एन= 180 युग्मित सहसंबंध गुणांक निर्धारित

आरएक्सवाई = 0,799; rxz = 0,57; आर yz = 0,507.

आइए आंशिक सहसंबंध गुणांक परिभाषित करें:

पैरामीटर के बीच आंशिक सहसंबंध गुणांक एक्सतथा यू जेड (आर xyz = 0.720) से पता चलता है कि समग्र सहसंबंध में इन विशेषताओं के संबंध का केवल एक छोटा सा हिस्सा ( आरएक्सवाई= 0.799) तीसरी विशेषता के प्रभाव के कारण है ( जेड) पैरामीटर के बीच आंशिक सहसंबंध गुणांक के संबंध में एक समान निष्कर्ष निकाला जाना चाहिए एक्सऔर पैरामीटर जेडनिरंतर पैरामीटर मान के साथ यू (आरएक्स जेड y = 0.318 और rxz= 0.57)। इसके विपरीत, मापदंडों के बीच आंशिक सहसंबंध गुणांक यूतथा जेडनिरंतर पैरामीटर मान के साथ एक्स आर yz ּ एक्स= 0.105 समग्र सहसंबंध गुणांक r . से काफी अलग है जेड = 0.507. इससे यह देखा जा सकता है कि यदि आप समान पैरामीटर मान वाली वस्तुओं का चयन करते हैं एक्स, फिर सुविधाओं के बीच संबंध यूतथा जेडवे बहुत कमजोर होंगे, क्योंकि इस संबंध का एक महत्वपूर्ण हिस्सा पैरामीटर की भिन्नता के कारण है एक्स.

कुछ परिस्थितियों में, आंशिक सहसंबंध गुणांक युग्मित एक के संकेत में विपरीत हो सकता है।

उदाहरण के लिए, सुविधाओं के बीच संबंध का अध्ययन करते समय एक्स, वाईतथा जेड- युग्मित सहसंबंध गुणांक प्राप्त किए गए (साथ .) एन = 100): आरएक्सवाई = 0.6; आरएक्स जेड= 0,9;
आर जेड = 0,4.

तीसरी विशेषता के प्रभाव को छोड़कर आंशिक सहसंबंध गुणांक:

उदाहरण से पता चलता है कि मान जोड़ी गुणांकऔर आंशिक सहसंबंध गुणांक संकेत में भिन्न होता है।

आंशिक सहसंबंध विधि दूसरे क्रम के आंशिक सहसंबंध गुणांक की गणना करना संभव बनाती है। यह गुणांक तीसरे और चौथे के स्थिर मान के साथ पहली और दूसरी विशेषता के बीच संबंध को इंगित करता है। दूसरा क्रम आंशिक गुणांक सूत्र के अनुसार पहले क्रम के आंशिक गुणांक के आधार पर निर्धारित किया जाता है:

कहाँ पे आर 12 . 4 , आर 13-4, आर 23 ּ4 - आंशिक गुणांक, जिसका मान आंशिक गुणांक सूत्र द्वारा निर्धारित किया जाता है, जोड़ी सहसंबंध गुणांक का उपयोग करके आर 12 , आर 13 , आर 14 , आर 23 , आर 24 , आर 34 .

प्रतिगमन विश्लेषण- यह एक सांख्यिकीय शोध पद्धति है जो आपको एक या अधिक स्वतंत्र चर पर एक पैरामीटर की निर्भरता दिखाने की अनुमति देती है। प्री-कंप्यूटर युग में, इसका उपयोग काफी कठिन था, खासकर जब यह बड़ी मात्रा में डेटा की बात आती थी। आज, एक्सेल में रिग्रेशन बनाने का तरीका जानने के बाद, आप कॉम्प्लेक्स को हल कर सकते हैं सांख्यिकीय कार्यसचमुच कुछ ही मिनटों में। अर्थशास्त्र के क्षेत्र से विशिष्ट उदाहरण नीचे दिए गए हैं।

प्रतिगमन के प्रकार

इस अवधारणा को ही 1886 में गणित में पेश किया गया था। प्रतिगमन होता है:

  • रैखिक;
  • परवलयिक;
  • शक्ति;
  • घातीय;
  • अतिपरवलिक;
  • प्रदर्शनकारी;
  • लघुगणक

उदाहरण 1

सेवानिवृत्त टीम के सदस्यों की संख्या की निर्भरता का निर्धारण करने की समस्या पर विचार करें औसत वेतन 6 औद्योगिक उद्यमों में।

एक कार्य। छह उद्यमों ने औसत मासिक का विश्लेषण किया वेतनऔर छोड़ने वाले कर्मचारियों की संख्या अपनी मर्जी. सारणीबद्ध रूप में हमारे पास है:

छोड़ने वालों की संख्या

वेतन

30000 रूबल

35000 रूबल

40000 रूबल

45000 रूबल

50000 रूबल

55000 रूबल

60000 रूबल

6 उद्यमों में औसत वेतन पर सेवानिवृत्त श्रमिकों की संख्या की निर्भरता निर्धारित करने की समस्या के लिए, प्रतिगमन मॉडल में समीकरण Y = a 0 + a 1 x 1 +…+a k x k का रूप होता है, जहां x i प्रभावित करने वाले चर हैं , a i प्रतिगमन गुणांक हैं, a k कारकों की संख्या है।

इस कार्य के लिए, Y छोड़ने वाले कर्मचारियों का संकेतक है, और प्रभावित करने वाला कारक वेतन है, जिसे हम X से दर्शाते हैं।

स्प्रेडशीट "एक्सेल" की क्षमताओं का उपयोग करना

एक्सेल में रिग्रेशन विश्लेषण उपलब्ध सारणीबद्ध डेटा के लिए अंतर्निहित कार्यों के आवेदन से पहले होना चाहिए। हालांकि, इन उद्देश्यों के लिए, बहुत उपयोगी ऐड-इन "विश्लेषण टूलकिट" का उपयोग करना बेहतर है। इसे सक्रिय करने के लिए आपको चाहिए:

  • "फ़ाइल" टैब से, "विकल्प" अनुभाग पर जाएं;
  • खुलने वाली विंडो में, "ऐड-ऑन" लाइन का चयन करें;
  • "प्रबंधन" लाइन के दाईं ओर नीचे स्थित "गो" बटन पर क्लिक करें;
  • "विश्लेषण पैकेज" नाम के बगल में स्थित बॉक्स को चेक करें और "ओके" पर क्लिक करके अपने कार्यों की पुष्टि करें।

यदि सब कुछ सही ढंग से किया जाता है, तो वांछित बटन एक्सेल वर्कशीट के ऊपर स्थित डेटा टैब के दाईं ओर दिखाई देगा।

एक्सेल में

अब जब हमारे पास अर्थमितीय गणना करने के लिए सभी आवश्यक आभासी उपकरण हैं, तो हम अपनी समस्या को हल करना शुरू कर सकते हैं। इसके लिए:

  • "डेटा विश्लेषण" बटन पर क्लिक करें;
  • खुलने वाली विंडो में, "रिग्रेशन" बटन पर क्लिक करें;
  • दिखाई देने वाले टैब में, Y (छोड़ने वाले कर्मचारियों की संख्या) और X (उनका वेतन) के लिए मानों की श्रेणी दर्ज करें;
  • हम "ओके" बटन दबाकर अपने कार्यों की पुष्टि करते हैं।

परिणामस्वरूप, प्रोग्राम स्वचालित रूप से प्रतिगमन विश्लेषण डेटा के साथ स्प्रेडशीट की एक नई शीट को पॉप्युलेट करेगा। टिप्पणी! एक्सेल में इस उद्देश्य के लिए आपके द्वारा पसंद किए जाने वाले स्थान को मैन्युअल रूप से सेट करने की क्षमता है। उदाहरण के लिए, यह वही शीट हो सकती है जहां वाई और एक्स मान हैं, या यहां तक ​​​​कि एक नई किताब, विशेष रूप से ऐसे डेटा को संग्रहीत करने के लिए डिज़ाइन किया गया है।

आर-स्क्वायर के लिए प्रतिगमन परिणामों का विश्लेषण

एक्सेल में, माना उदाहरण के डेटा के प्रसंस्करण के दौरान प्राप्त डेटा इस तरह दिखता है:

सबसे पहले आपको आर-स्क्वायर की वैल्यू पर ध्यान देना चाहिए। यह निर्धारण का गुणांक है। इस उदाहरण में, आर-वर्ग = 0.755 (75.5%), यानी, मॉडल के परिकलित पैरामीटर 75.5% द्वारा माने गए मापदंडों के बीच संबंध की व्याख्या करते हैं। निर्धारण गुणांक का मान जितना अधिक होगा, किसी विशेष कार्य के लिए चुना गया मॉडल उतना ही अधिक लागू होगा। ऐसा माना जाता है कि यह 0.8 से ऊपर के आर-वर्ग मान के साथ वास्तविक स्थिति का सही वर्णन करता है। अगर R-वर्ग<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

अनुपात विश्लेषण

संख्या 64.1428 दर्शाती है कि Y का मान क्या होगा यदि हम जिस मॉडल पर विचार कर रहे हैं उसमें सभी चर xi शून्य पर सेट हैं। दूसरे शब्दों में, यह तर्क दिया जा सकता है कि विश्लेषण किए गए पैरामीटर का मूल्य अन्य कारकों से भी प्रभावित होता है जो किसी विशिष्ट मॉडल में वर्णित नहीं हैं।

सेल B18 में स्थित अगला गुणांक -0.16285, Y पर चर X के प्रभाव के भार को दर्शाता है। इसका मतलब है कि विचाराधीन मॉडल के भीतर कर्मचारियों का औसत मासिक वेतन -0.16285 के वजन के साथ छोड़ने वालों की संख्या को प्रभावित करता है, अर्थात। इसके प्रभाव की डिग्री बिल्कुल छोटी है। "-" चिह्न इंगित करता है कि गुणांक का ऋणात्मक मान है। यह स्पष्ट है, क्योंकि हर कोई जानता है कि उद्यम में वेतन जितना अधिक होता है, उतने ही कम लोग रोजगार अनुबंध को समाप्त करने या छोड़ने की इच्छा व्यक्त करते हैं।

एकाधिक प्रतिगमन

यह शब्द फॉर्म के कई स्वतंत्र चर के साथ एक कनेक्शन समीकरण को संदर्भित करता है:

y \u003d f (x 1 + x 2 + ... x m) + , जहां y प्रभावी विशेषता (आश्रित चर) है, और x 1 , x 2 , ... x m कारक कारक (स्वतंत्र चर) हैं।

पैरामीटर अनुमान

के लिये एकाधिक प्रतिगमन(MR) यह कम से कम वर्गों (LSM) की विधि का उपयोग करके किया जाता है। Y = a + b 1 x 1 +…+b m x m + के रूप के रैखिक समीकरणों के लिए, हम सामान्य समीकरणों की एक प्रणाली का निर्माण करते हैं (नीचे देखें)

विधि के सिद्धांत को समझने के लिए, दो-कारक मामले पर विचार करें। तब हमारे पास सूत्र द्वारा वर्णित स्थिति होती है

यहाँ से हमें मिलता है:

जहां सूचकांक में परिलक्षित संबंधित विशेषता का प्रसरण है।

एलएसएम एक मानक पैमाने पर एमपी समीकरण पर लागू होता है। इस मामले में, हमें समीकरण मिलता है:

जहाँ t y , t x 1,… t xm मानकीकृत चर हैं जिनके लिए माध्य मान 0 हैं; β मैं मानकीकृत प्रतिगमन गुणांक हैं, और मानक विचलन 1 है।

कृपया ध्यान दें कि इस मामले में सभी β i को सामान्यीकृत और केंद्रीकृत के रूप में सेट किया गया है, इसलिए एक दूसरे के साथ उनकी तुलना को सही और स्वीकार्य माना जाता है। इसके अलावा, यह βi के सबसे छोटे मूल्यों वाले कारकों को छोड़कर, कारकों को फ़िल्टर करने के लिए प्रथागत है।

रैखिक प्रतिगमन समीकरण का उपयोग करने में समस्या

मान लीजिए कि पिछले 8 महीनों के दौरान किसी विशेष उत्पाद एन की कीमत की गतिशीलता की एक तालिका है। 1850 रूबल / टी की कीमत पर इसके बैच को खरीदने की सलाह पर निर्णय लेना आवश्यक है।

माह संख्या

महीने का नाम

आइटम नंबर की कीमत

1750 रूबल प्रति टन

1755 रूबल प्रति टन

1767 रूबल प्रति टन

1760 रूबल प्रति टन

1770 रूबल प्रति टन

1790 रूबल प्रति टन

1810 रूबल प्रति टन

1840 रूबल प्रति टन

एक्सेल स्प्रेडशीट में इस समस्या को हल करने के लिए, आपको उपरोक्त उदाहरण से पहले से ज्ञात डेटा विश्लेषण टूल का उपयोग करने की आवश्यकता है। अगला, "रिग्रेशन" अनुभाग चुनें और पैरामीटर सेट करें। यह याद रखना चाहिए कि "इनपुट अंतराल Y" फ़ील्ड में, आश्रित चर के लिए मानों की एक श्रेणी (इस मामले में, वर्ष के विशिष्ट महीनों में उत्पाद की कीमत) दर्ज की जानी चाहिए, और "इनपुट" में अंतराल X" - स्वतंत्र चर (माह संख्या) के लिए। "ओके" पर क्लिक करके कार्रवाई की पुष्टि करें। एक नई शीट पर (यदि ऐसा संकेत दिया गया था), हमें प्रतिगमन के लिए डेटा मिलता है।

उनके आधार पर, हम y=ax+b फॉर्म का एक रैखिक समीकरण बनाते हैं, जहां पैरामीटर ए और बी महीने की संख्या के नाम के साथ पंक्ति के गुणांक हैं और गुणांक और "वाई-चौराहे" पंक्ति से प्रतिगमन विश्लेषण के परिणामों के साथ शीट। इस प्रकार, समस्या 3 के लिए रैखिक समाश्रयण समीकरण (LE) को इस प्रकार लिखा जाता है:

उत्पाद की कीमत एन = 11.714* माह संख्या + 1727.54।

या बीजीय संकेतन में

वाई = 11.714 एक्स + 1727.54

परिणामों का विश्लेषण

यह तय करने के लिए कि परिणामी रैखिक प्रतिगमन समीकरण पर्याप्त है, एकाधिक सहसंबंध गुणांक (एमसीसी) और निर्धारण गुणांक का उपयोग किया जाता है, साथ ही फिशर का परीक्षण और छात्र का परीक्षण। प्रतिगमन परिणामों के साथ एक्सेल तालिका में, वे क्रमशः एकाधिक आर, आर-वर्ग, एफ-सांख्यिकी और टी-सांख्यिकी के नामों के तहत दिखाई देते हैं।

केएमसी आर स्वतंत्र और आश्रित चर के बीच संभाव्य संबंध की मजबूती का आकलन करना संभव बनाता है। इसका उच्च मूल्य चर "महीने की संख्या" और "माल की कीमत एन प्रति 1 टन रूबल में" के बीच काफी मजबूत संबंध को इंगित करता है। हालाँकि, इस रिश्ते की प्रकृति अज्ञात बनी हुई है।

निर्धारण गुणांक का वर्ग R 2 (RI) कुल प्रकीर्णन के हिस्से की एक संख्यात्मक विशेषता है और प्रयोगात्मक डेटा के किस भाग के बिखराव को दर्शाता है, अर्थात। आश्रित चर के मान रैखिक प्रतिगमन समीकरण से मेल खाते हैं। विचाराधीन समस्या में, यह मान 84.8% के बराबर है, अर्थात्, प्राप्त एसडी द्वारा सांख्यिकीय डेटा को उच्च स्तर की सटीकता के साथ वर्णित किया गया है।

एफ-सांख्यिकी, जिसे फिशर का परीक्षण भी कहा जाता है, का उपयोग एक रैखिक संबंध के महत्व का आकलन करने के लिए किया जाता है, इसके अस्तित्व की परिकल्पना का खंडन या पुष्टि करता है।

(छात्र की कसौटी) एक रैखिक संबंध के अज्ञात या मुक्त पद के साथ गुणांक के महत्व का मूल्यांकन करने में मदद करता है। यदि t-मानदंड का मान > t करोड़, तो मुक्त पद के महत्व की परिकल्पना रेखीय समीकरणअस्वीकृत।

मुक्त सदस्य के लिए विचाराधीन समस्या में, एक्सेल टूल्स का उपयोग करके, यह प्राप्त किया गया था कि t = 169.20903, और p = 2.89E-12, यानी, हमारे पास एक शून्य संभावना है कि स्वतंत्र सदस्य के महत्व के बारे में सही परिकल्पना होगी खारिज किया जाए। अज्ञात t=5.79405, और p=0.001158 पर गुणांक के लिए। दूसरे शब्दों में, अज्ञात के लिए गुणांक के महत्व के बारे में सही परिकल्पना के खारिज होने की संभावना 0.12% है।

इस प्रकार, यह तर्क दिया जा सकता है कि परिणामी रैखिक प्रतिगमन समीकरण पर्याप्त है।

शेयरों का एक ब्लॉक खरीदने की समीचीनता की समस्या

एक्सेल में मल्टीपल रिग्रेशन एक ही डेटा एनालिसिस टूल का उपयोग करके किया जाता है। एक विशिष्ट लागू समस्या पर विचार करें।

NNN के प्रबंधन को MMM SA में 20% हिस्सेदारी खरीदने की उपयुक्तता पर निर्णय लेना चाहिए। पैकेज की लागत (जेवी) 70 मिलियन अमेरिकी डॉलर है। एनएनएन विशेषज्ञों ने समान लेनदेन पर डेटा एकत्र किया। लाखों अमेरिकी डॉलर में व्यक्त किए गए ऐसे मापदंडों के अनुसार शेयरों के ब्लॉक के मूल्य का मूल्यांकन करने का निर्णय लिया गया, जैसे:

  • देय खाते (वीके);
  • वार्षिक कारोबार (वीओ);
  • प्राप्य खाते (वीडी);
  • अचल संपत्तियों की लागत (एसओएफ)।

इसके अलावा, हजारों अमेरिकी डॉलर में उद्यम (V3 P) के पैरामीटर पेरोल बकाया का उपयोग किया जाता है।

एक्सेल स्प्रेडशीट का उपयोग कर समाधान

सबसे पहले, आपको प्रारंभिक डेटा की एक तालिका बनाने की आवश्यकता है। यह इस तरह दिख रहा है:

  • "डेटा विश्लेषण" विंडो को कॉल करें;
  • "प्रतिगमन" अनुभाग का चयन करें;
  • बॉक्स में "इनपुट अंतराल वाई" कॉलम जी से आश्रित चर के मूल्यों की श्रेणी दर्ज करें;
  • "इनपुट अंतराल एक्स" बॉक्स के दाईं ओर एक लाल तीर के साथ आइकन पर क्लिक करें और शीट पर सभी मानों की एक श्रेणी का चयन करें कॉलम बी, सी, डी, एफ।

"नई वर्कशीट" चुनें और "ओके" पर क्लिक करें।

दी गई समस्या के लिए प्रतिगमन विश्लेषण प्राप्त करें।

परिणामों और निष्कर्षों की जांच

एक्सेल स्प्रेडशीट शीट पर ऊपर प्रस्तुत गोल डेटा से "हम एकत्र करते हैं", प्रतिगमन समीकरण:

एसपी \u003d 0.103 * एसओएफ + 0.541 * वीओ - 0.031 * वीके + 0.405 * वीडी + 0.691 * वीजेडपी - 265.844।

अधिक परिचित गणितीय रूप में, इसे इस प्रकार लिखा जा सकता है:

वाई = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

JSC "MMM" के लिए डेटा तालिका में प्रस्तुत किया गया है:

उन्हें प्रतिगमन समीकरण में प्रतिस्थापित करने पर, उन्हें 64.72 मिलियन अमेरिकी डॉलर का आंकड़ा मिलता है। इसका मतलब है कि जेएससी एमएमएम के शेयर नहीं खरीदे जाने चाहिए, क्योंकि उनका मूल्य 70 मिलियन अमेरिकी डॉलर अधिक है।

जैसा कि आप देख सकते हैं, एक्सेल स्प्रेडशीट और रिग्रेशन समीकरण के उपयोग ने एक बहुत ही विशिष्ट लेनदेन की व्यवहार्यता के बारे में एक सूचित निर्णय लेना संभव बना दिया है।

अब आप जानते हैं कि प्रतिगमन क्या है। एक्सेल में ऊपर चर्चा किए गए उदाहरण आपको निर्णय लेने में मदद करेंगे। व्यावहारिक कार्यअर्थमिति के क्षेत्र से।

दोस्तों के साथ शेयर करें या अपने लिए सेव करें:

लोड हो रहा है...