रैखिक प्रतिगमन परिणामों का मूल्यांकन। एकाधिक सहसंबंध गुणांक और निर्धारण के एकाधिक गुणांक

तीन चरों का बहु सहसंबंध गुणांक किसी एक विशेषता (डैश से पहले सूचकांक पत्र) और दो अन्य विशेषताओं (डैश के बाद सूचकांक अक्षर) के संयोजन के बीच एक रैखिक संबंध की निकटता का संकेतक है:

; (12.7)

(12.8)

ये फ़ार्मुलों के लिए एकाधिक सहसंबंध गुणांकों की गणना करना आसान बनाते हैं ज्ञात मूल्यजोड़ी सहसंबंध गुणांक r xy , r xz और r yz.

गुणक आरनकारात्मक नहीं है और हमेशा 0 और 1 के बीच होता है। पास आने पर आरएकता के लिए, तीन विशेषताओं के रैखिक संबंध की डिग्री बढ़ जाती है। अनुपात के बीच एकाधिक सहसंबंध, उदाहरण के लिए आर y-xz, और दो जोड़ी सहसंबंध गुणांक आर वाईएक्सतथा आर yzनिम्नलिखित संबंध हैं: प्रत्येक युग्म गुणांक निरपेक्ष मान से अधिक नहीं हो सकता आर y-xz.

बहु सहसंबंध गुणांक का वर्ग R2बहु निर्धारण का गुणांक कहलाता है। यह अध्ययन किए गए कारकों के प्रभाव में आश्रित चर में भिन्नता के अनुपात को दर्शाता है।

बहु सहसंबंध के महत्व का अनुमान लगाया जाता है
एफ- मानदंड:

, (12.9)

एननमूना आकार है,

क- सुविधाओं की संख्या; हमारे मामले में क = 3.

सैद्धांतिक मूल्य एफ- मानदंड आवेदन तालिका से लिए गए हैं 1 = के-1 और ν 2 \u003d n–kस्वतंत्रता की डिग्री और महत्व के स्वीकृत स्तर। जनसंख्या में शून्य से बहु सहसंबंध गुणांक की समानता के बारे में शून्य परिकल्पना ( एच0: आर= 0) स्वीकार किया जाता है यदि एफ तथ्य।< F табл . और खारिज कर दिया अगर एफ तथ्य। ≥ एफ टेबल.

काम का अंत -

यह विषय संबंधित है:

गणित के आँकड़े

शैक्षणिक संस्थान .. गोमेली स्टेट यूनिवर्सिटी.. फ्रांसिस स्केरीना यू एम ज़ुचेंको के नाम पर ..

अगर आपको चाहिये अतिरिक्त सामग्रीइस विषय पर, या आपको वह नहीं मिला जिसकी आप तलाश कर रहे थे, हम अपने काम के डेटाबेस में खोज का उपयोग करने की सलाह देते हैं:

प्राप्त सामग्री का हम क्या करेंगे:

यदि यह सामग्री आपके लिए उपयोगी साबित हुई, तो आप इसे सामाजिक नेटवर्क पर अपने पेज पर सहेज सकते हैं:

इस खंड के सभी विषय:

ट्यूटोरियल
विशेषता 1-31 01 01 "जीव विज्ञान" गोमेल 2010 . में अध्ययन कर रहे विश्वविद्यालय के छात्रों के लिए

गणितीय आँकड़ों का विषय और विधि
गणितीय आँकड़ों का विषय जीव विज्ञान, अर्थशास्त्र, प्रौद्योगिकी और अन्य क्षेत्रों में सामूहिक घटनाओं के गुणों का अध्ययन है। विविधता के कारण ये घटनाएं आमतौर पर जटिल होती हैं (भिन्नता

एक यादृच्छिक घटना की अवधारणा
मुख्य के रूप में सांख्यिकीय प्रेरण या सांख्यिकीय अनुमान अवयवसामूहिक परिघटनाओं का अध्ययन करने का तरीका, उनका अपना है विशिष्ट सुविधाएं. सांख्यिकीय निष्कर्ष संख्यात्मक . के साथ किए जाते हैं

यादृच्छिक घटना की प्रायिकता
संख्यात्मक विशेषतायादृच्छिक घटना, जिसमें यह गुण होता है कि परीक्षणों की किसी भी पर्याप्त बड़ी श्रृंखला के लिए, घटना की आवृत्ति इस विशेषता से केवल थोड़ी भिन्न होती है, कहलाती है

संभावनाओं की गणना
अक्सर संभावनाओं को एक साथ जोड़ने और गुणा करने की आवश्यकता होती है। उदाहरण के लिए, आप एक ही समय में 2 पासे फेंकने पर 5 अंक प्राप्त करने की संभावना निर्धारित करना चाहते हैं। आवश्यक राशि होने की संभावना है

एक यादृच्छिक चर की अवधारणा
संभाव्यता की अवधारणा को परिभाषित करने और इसके मुख्य गुणों को स्पष्ट करने के बाद, आइए संभाव्यता सिद्धांत की सबसे महत्वपूर्ण अवधारणाओं में से एक पर विचार करें - एक यादृच्छिक चर की अवधारणा। आइए मान लें कि परिणामस्वरूप

असतत यादृच्छिक चर
एक यादृच्छिक चर असतत है यदि इसके संभावित मूल्यों का सेट परिमित है, या, के अनुसार कम से कम, गणनीय है। मान लें कि एक यादृच्छिक चर X मान x1 . ले सकता है

सतत यादृच्छिक चर
पिछले उपखंड में चर्चा किए गए असतत यादृच्छिक चर के विपरीत, एक सतत यादृच्छिक चर के लिए संभावित मूल्यों का सेट न केवल परिमित है, बल्कि इसके लिए उत्तरदायी भी नहीं है

गणितीय अपेक्षा और विचरण
अक्सर एक या दो संख्यात्मक संकेतकों का उपयोग करके एक यादृच्छिक चर के वितरण को चिह्नित करने की आवश्यकता होती है जो इस वितरण के सबसे महत्वपूर्ण गुणों को व्यक्त करते हैं। ऐसा करने के लिए

लम्हें
गणितीय आँकड़ों में एक यादृच्छिक चर के वितरण के तथाकथित क्षण बहुत महत्वपूर्ण हैं। पर गणितीय अपेक्षाएक यादृच्छिक चर के बड़े मूल्यों को अपर्याप्त रूप से ध्यान में रखा जाता है।

द्विपद वितरण और संभावनाओं की माप
इस विषय में, हम असतत यादृच्छिक चर के वितरण के मुख्य प्रकारों पर विचार करेंगे। आइए मान लें कि किसी एकल परीक्षण में किसी यादृच्छिक घटना A के घटित होने की प्रायिकता के बराबर है

आयताकार (समान) वितरण
एक आयताकार (समान) वितरण निरंतर वितरण का सबसे सरल प्रकार है। यदि एक यादृच्छिक चर एक्स अंतराल (ए, बी) में कोई वास्तविक मान ले सकता है, जहां ए और बी वास्तविक हैं

सामान्य वितरण
सामान्य वितरण गणितीय आँकड़ों में एक प्रमुख भूमिका निभाता है। यह कम से कम यादृच्छिक नहीं है: वस्तुनिष्ठ वास्तविकता में, विभिन्न संकेत बहुत बार सामने आते हैं।

लॉग-सामान्य वितरण
यादृच्छिक चर Y का लघुगणक है सामान्य वितरणपैरामीटर μ और σ के साथ यदि यादृच्छिक चर X = lnY का समान पैरामीटर μ और & के साथ एक सामान्य वितरण है

औसत मान
सभी समूह गुणों में, औसत स्तर, विशेषता के औसत मूल्य से मापा जाता है, का सबसे बड़ा सैद्धांतिक और व्यावहारिक महत्व है। किसी विशेषता का औसत मान एक बहुत गहरी अवधारणा है,

औसत के सामान्य गुण
औसत मूल्यों के सही उपयोग के लिए, इन संकेतकों के गुणों को जानना आवश्यक है: औसत स्थान, अमूर्तता और कुल क्रिया की एकता। इसके संख्यात्मक मान से

अंकगणित औसत
अंकगणित माध्य, होना सामान्य गुणऔसत मूल्यों की अपनी विशेषताएं होती हैं, जिन्हें निम्नलिखित सूत्रों द्वारा व्यक्त किया जा सकता है:

औसत रैंक (गैर-पैरामीट्रिक माध्य)
औसत रैंक ऐसी विशेषताओं के लिए निर्धारित की जाती है जिनके लिए मात्रात्मक माप के तरीके अभी तक नहीं मिले हैं। ऐसी विशेषताओं के प्रकट होने की डिग्री के अनुसार, वस्तुओं को स्थान दिया जा सकता है, अर्थात, स्थित

भारित अंकगणित माध्य
आमतौर पर, अंकगणितीय माध्य की गणना करने के लिए, सभी जोड़ें विशेषता मानऔर परिणामी राशि को विकल्पों की संख्या से विभाजित किया जाता है। इस मामले में, प्रत्येक मान, योग में प्रवेश करने पर, इसे पूर्ण से बढ़ा देता है

वर्गमूल औसत का वर्ग
मूल माध्य वर्ग की गणना सूत्र द्वारा की जाती है: , (6.5) यह योग के वर्गमूल के बराबर होता है

मंझला
माध्यिका एक ऐसा विशेषता मान है जो पूरे समूह को दो समान भागों में विभाजित करता है: एक भाग का विशेषता मान माध्यिका से कम होता है, और दूसरे का मान अधिक होता है। उदाहरण के लिए, यदि मेरे पास

जियोमेट्रिक माध्य
n डेटा वाले समूह के लिए ज्यामितीय माध्य प्राप्त करने के लिए, आपको सभी विकल्पों को गुणा करना होगा और परिणामी उत्पाद से निकालना होगा nth रूटडिग्री:

औसत हार्मोनिक
हार्मोनिक माध्य की गणना सूत्र द्वारा की जाती है। (6.14) पांच विकल्पों के लिए: 1, 4, 5, 5 माध्यम

स्वतंत्रता की डिग्री की संख्या
स्वतंत्रता की डिग्री की संख्या समूह में मुक्त विविधता तत्वों की संख्या के बराबर है। यह विविधता बाधाओं की संख्या के बिना सभी उपलब्ध अध्ययन मदों की संख्या के बराबर है। उदाहरण के लिए, अनुसंधान के लिए

भिन्नता का गुणांक
मानक विचलन एक नामित मान है, जिसे अंकगणित माध्य के समान इकाइयों में व्यक्त किया जाता है। इसलिए, विभिन्न इकाइयों में व्यक्त विभिन्न विशेषताओं की तुलना करने के लिए

सीमाएं और दायरा
विविधता की डिग्री के त्वरित और अनुमानित आकलन के लिए, सबसे सरल संकेतकों का अक्सर उपयोग किया जाता है: लिम = (न्यूनतम अधिकतम) - सीमाएं, यानी सबसे छोटी और सबसे बड़ा मूल्यफ़ीचर, पी =

सामान्यीकृत विचलन
आमतौर पर, एक विशेषता के विकास की डिग्री इसे मापकर निर्धारित की जाती है और एक निश्चित नामित संख्या द्वारा व्यक्त की जाती है: 3 किलो वजन, 15 सेमी लंबाई, मधुमक्खियों के पंख पर 20 हुक, दूध में 4% वसा, 15 किलो वजन कतरन

सारांश समूह का माध्य और सिग्मा
कभी-कभी कई वितरणों से बने योग वितरण के लिए माध्य और सिग्मा निर्धारित करना आवश्यक होता है। इस मामले में, वितरण स्वयं ज्ञात नहीं हैं, बल्कि केवल उनके साधन और सिग्मा हैं।

वितरण वक्र का तिरछापन (तिरछापन) और खड़ीपन (कुर्टोसिस)
बड़े नमूनों (n > 100) के लिए, दो और आँकड़ों की गणना की जाती है। वक्र की विषमता को विषमता कहते हैं:

विविधता श्रृंखला
जैसे-जैसे अध्ययन किए गए समूहों का आकार बढ़ता है, विविधता में नियमितता अधिक से अधिक स्पष्ट होती जाती है, जो छोटे समूहों में इसके प्रकट होने के यादृच्छिक रूप से छिपी हुई थी।

हिस्टोग्राम और भिन्नता वक्र
हिस्टोग्राम है विविधता श्रृंखला, एक आरेख के रूप में प्रस्तुत किया जाता है जिसमें एक भिन्न बारंबारता मान को अलग-अलग बार ऊँचाइयों द्वारा दर्शाया जाता है। डेटा वितरण हिस्टोग्राम p . में दिखाया गया है

वितरण अंतर का महत्व
एक सांख्यिकीय परिकल्पना डेटा के देखे गए नमूने के अंतर्निहित संभाव्यता वितरण के बारे में एक विशिष्ट धारणा है। इंतिहान सांख्यिकीय परिकल्पनास्वीकृति की एक प्रक्रिया है

तिरछापन और कुर्टोसिस के लिए मानदंड
पौधों, जानवरों और सूक्ष्मजीवों के कुछ लक्षण, जब वस्तुओं को समूहों में जोड़ा जाता है, तो वे वितरण देते हैं जो सामान्य से काफी भिन्न होते हैं। ऐसे मामलों में जहां कोई

सामान्य जनसंख्या और नमूना
एक निश्चित श्रेणी के व्यक्तियों के पूरे समूह को सामान्य जनसंख्या कहा जाता है। मात्रा आबादीअध्ययन के उद्देश्यों से निर्धारित होता है। यदि जंगली जानवरों की किसी प्रजाति का अध्ययन किया जाता है

प्रातिनिधिकता
चयनित वस्तुओं के समूह का प्रत्यक्ष अध्ययन सबसे पहले देता है, प्राथमिक सामग्रीऔर नमूने की विशेषताएं। सभी नमूना डेटा और सारांश आंकड़े प्रासंगिक हैं:

प्रतिनिधित्व त्रुटियाँ और अन्य शोध त्रुटियाँ
चयनात्मक संकेतकों के आधार पर सामान्य मापदंडों के मूल्यांकन की अपनी विशेषताएं हैं। एक हिस्सा कभी भी पूरी तरह से पूरी तरह से विशेषता नहीं हो सकता है, इसलिए सामान्य आबादी की विशेषता

आत्मविश्वास की सीमा
सामान्य मापदंडों के संभावित मूल्यों को खोजने के लिए नमूना संकेतकों का उपयोग करने के लिए भी प्रतिनिधित्व त्रुटियों के मूल्य को निर्धारित करना आवश्यक है। इस प्रक्रिया को o . कहा जाता है

सामान्य मूल्यांकन प्रक्रिया
सामान्य पैरामीटर का आकलन करने के लिए आवश्यक तीन मान - नमूना संकेतक (), विश्वसनीयता मानदंड

अंकगणित माध्य का अनुमान
श्रेणी मध्यम आकारवस्तुओं की अध्ययन की गई श्रेणी के लिए सामान्य औसत के मूल्य को स्थापित करना है। इस उद्देश्य के लिए आवश्यक प्रतिनिधित्व त्रुटि सूत्र द्वारा निर्धारित की जाती है:

माध्य अंतर अनुमान
कुछ अध्ययनों में, दो मापों के बीच के अंतर को प्राथमिक डेटा के रूप में लिया जाता है। यह तब हो सकता है जब नमूने के प्रत्येक व्यक्ति का दो राज्यों में अध्ययन किया जाता है - या में अलग अलग उम्र, या पी

औसत अंतर का अविश्वसनीय और विश्वसनीय अनुमान
चयनात्मक अध्ययनों के ऐसे परिणाम, जिनके अनुसार सामान्य पैरामीटर का कोई निश्चित अनुमान प्राप्त करना असंभव है (या तो यह शून्य से अधिक है, या शून्य से कम या बराबर है), अविश्वसनीय कहा जाता है।

सामान्य साधनों के अंतर का अनुमान
जैविक अनुसंधान में दो मात्राओं के बीच के अंतर का विशेष महत्व है। अंतर से, विभिन्न आबादी, नस्लों, नस्लों, किस्मों, रेखाओं, परिवारों, प्रयोगात्मक और नियंत्रण समूहों की तुलना की जाती है (विधि जीआर

अंतर विश्वसनीयता मानदंड
एक ही समय पर बहुत महत्व, जिसमें शोधकर्ताओं के लिए विश्वसनीय मतभेदों की प्राप्ति है, यह निर्धारित करने के लिए कि क्या प्राप्त विश्वसनीय है, वास्तविक रूप से मास्टर तरीकों की आवश्यकता है

गुणात्मक विशेषताओं के अध्ययन में प्रतिनिधित्व
गुणात्मक लक्षणों में आमतौर पर अभिव्यक्ति के क्रम नहीं हो सकते हैं: वे या तो मौजूद हैं या प्रत्येक व्यक्ति में मौजूद नहीं हैं, उदाहरण के लिए, लिंग, परागण, किसी भी विशेषता की उपस्थिति या अनुपस्थिति, कुरूपता

शेयरों में अंतर की विश्वसनीयता
नमूना शेयरों के अंतर की विश्वसनीयता उसी तरह निर्धारित की जाती है जैसे साधनों के अंतर के लिए: (10.34)

सहसंबंध गुणांक
कई अध्ययनों में, उनके आपसी संबंधों में कई संकेतों का अध्ययन करना आवश्यक है। यदि हम दो लक्षणों के संबंध में ऐसा अध्ययन करते हैं, तो हम देख सकते हैं कि एक विशेषता की परिवर्तनशीलता नहीं है

सहसंबंध गुणांक त्रुटि
किसी भी नमूना मान की तरह, सहसंबंध गुणांक की अपनी प्रतिनिधित्व त्रुटि होती है, जिसकी गणना सूत्र का उपयोग करके बड़े नमूनों के लिए की जाती है:

नमूना सहसंबंध गुणांक का विश्वास
नमूना सहसंबंध गुणांक की कसौटी सूत्र द्वारा निर्धारित की जाती है: (11.9) जहां:

सहसंबंध गुणांक की विश्वास सीमा
सहसंबंध गुणांक के सामान्य मूल्य की विश्वास सीमाएँ पाई जाती हैं सामान्य तरीके सेसूत्र के अनुसार:

दो सहसंबंध गुणांकों के बीच अंतर की विश्वसनीयता
सहसंबंध गुणांक में अंतर की विश्वसनीयता उसी तरह निर्धारित की जाती है जैसे कि सामान्य सूत्र के अनुसार, साधनों में अंतर की विश्वसनीयता।

सीधी रेखा प्रतिगमन समीकरण
रेक्टिलिनियर सहसंबंध इस मायने में भिन्न है कि कनेक्शन के इस रूप के साथ, पहली विशेषता में समान परिवर्तनों में से प्रत्येक एक अच्छी तरह से परिभाषित और अन्य पीआर में समान औसत परिवर्तन से मेल खाता है।

रेक्टिलिनियर रिग्रेशन समीकरण के तत्वों की त्रुटियां
समीकरण में एक साधारण सीधा रेखीय प्रतिगमन: y = a + bx तीन प्रतिनिधित्व त्रुटियाँ हैं। 1 प्रतिगमन गुणांक त्रुटि:

आंशिक सहसंबंध गुणांक
आंशिक सहसंबंध गुणांक एक संकेतक है जो दो विशेषताओं के संयुग्मन की डिग्री को मापता है जब नियत मानतीसरा। गणितीय आँकड़े आपको एक सहसंबंध स्थापित करने की अनुमति देते हैं

रेखीय बहु समाश्रयण समीकरण
तीन चरों के बीच एक सीधी रेखा संबंध के गणितीय समीकरण को समाश्रयण तल का बहु रेखीय समीकरण कहा जाता है। इसका निम्नलिखित सामान्य रूप है:

सहसंबंध संबंध
यदि अध्ययन के तहत परिघटनाओं के बीच संबंध एक रेखीय से महत्वपूर्ण रूप से विचलित होता है, जिसे ग्राफ से स्थापित करना आसान है, तो संबंध के माप के रूप में सहसंबंध गुणांक अनुपयुक्त है। यह अनुपस्थिति का संकेत दे सकता है

सहसंबंध संबंध गुण
सहसंबंध अनुपात इसके किसी भी रूप में सहसंबंध की डिग्री को मापता है। इसके अलावा, सहसंबंध अनुपात में कई अन्य गुण हैं जो सांख्यिकीय में बहुत रुचि रखते हैं

सहसंबंध अनुपात प्रतिनिधित्व त्रुटि
प्रतिनिधित्व त्रुटि के लिए एक सटीक सूत्र अभी तक विकसित नहीं किया गया है। सहसंबंध संबंध. आमतौर पर पाठ्यपुस्तकों में दिए गए फॉर्मूले में कमियां होती हैं जिन्हें हमेशा नजरअंदाज नहीं किया जा सकता है। यह सूत्र नहीं

सहसंबंध रैखिकता मानदंड
एक रेक्टिलिनियर के लिए एक वक्रतापूर्ण निर्भरता के सन्निकटन की डिग्री निर्धारित करने के लिए, मानदंड F का उपयोग किया जाता है, जिसकी गणना सूत्र द्वारा की जाती है:

फैलाव परिसर
फैलाव परिसर अध्ययन के लिए शामिल डेटा और प्रत्येक ग्रेडेशन (निजी औसत) और संपूर्ण परिसर (सामान्य औसत) के लिए डेटा के औसत के साथ ग्रेडेशन का एक सेट है।

सांख्यिकीय प्रभाव
सांख्यिकीय प्रभाव कारक की विविधता (इसके उन्नयन) की परिणामी विशेषता की विविधता में एक प्रतिबिंब है, जो अध्ययन में आयोजित किया जाता है। नव के प्रभाव का आकलन करने के लिए

तथ्यात्मक प्रभाव
तथ्यात्मक प्रभाव अध्ययन किए गए कारकों का एक सरल या संयुक्त सांख्यिकीय प्रभाव है। एक-कारक परिसरों में, कुछ संगठनात्मक स्तरों पर एक कारक के सरल प्रभाव का अध्ययन किया जाता है।

एक-कारक फैलाव परिसर
विचरण का विश्लेषण अंग्रेजी वैज्ञानिक आर ए फिशर द्वारा कृषि और जैविक अनुसंधान के अभ्यास में विकसित और पेश किया गया था, जिन्होंने माध्य वर्गों के अनुपात के वितरण कानून की खोज की थी।

बहुकारक फैलाव परिसर
का स्पष्ट विचार गणित का मॉडलविचरण का विश्लेषण आवश्यक कम्प्यूटेशनल संचालन को समझना आसान बनाता है, खासकर जब बहुभिन्नरूपी प्रयोगों से डेटा संसाधित करते हैं, जिसमें अधिक होते हैं

परिवर्तनों
प्रायोगिक सामग्री के प्रसंस्करण के लिए विचरण के विश्लेषण का सही उपयोग वेरिएंट (नमूने) के लिए भिन्नता की समरूपता को मानता है, एक सामान्य या इसके करीब वितरण

प्रभावों की ताकत के संकेतक
उनके परिणामों द्वारा प्रभावों की ताकत का निर्धारण जीव विज्ञान में आवश्यक है, कृषि, सबसे अधिक चुनने के लिए दवा प्रभावी साधनएक्सपोजर, भौतिक और रासायनिक एजेंटों की खुराक के लिए - एसटी

प्रभाव की शक्ति के मुख्य संकेतक के प्रतिनिधित्व की त्रुटि
प्रभाव की ताकत के मुख्य संकेतक की त्रुटि का सटीक सूत्र अभी तक नहीं मिला है। एक-कारक परिसरों में, जब प्रतिनिधित्व त्रुटि केवल भाज्य के एक संकेतक के लिए निर्धारित की जाती है

प्रभाव की शक्ति के संकेतकों के मूल्यों को सीमित करें
प्रभाव की शक्ति का मुख्य संकेतक शर्तों के कुल योग से एक पद के हिस्से के बराबर है। इसके अलावा, यह सूचक वर्ग के बराबर हैसहसंबंध संबंध। इन दो कारणों से पावर इंडिकेटर

प्रभावों की विश्वसनीयता
एक चयनात्मक अध्ययन में प्राप्त प्रभाव की शक्ति का मुख्य संकेतक, सबसे पहले, प्रभाव की डिग्री की विशेषता है, जो वास्तव में, अध्ययन की गई वस्तुओं के समूह में खुद को प्रकट करता है।

विभेदक विश्लेषण
विभेदक विश्लेषण बहुभिन्नरूपी सांख्यिकीय विश्लेषण के तरीकों में से एक है। विभेदक विश्लेषण का उद्देश्य विभिन्न विशेषताओं (विशेषताओं, जोड़े .) के मापन के आधार पर है

समस्या कथन, समाधान के तरीके, प्रतिबंध
मान लीजिए कि m विशेषताओं वाली n वस्तुएं हैं। माप के परिणामस्वरूप, प्रत्येक वस्तु को सदिश x1 ... xm, m >1 द्वारा अभिलक्षित किया जाता है। कार्य यह है कि

धारणाएं और प्रतिबंध
विभेदक विश्लेषण कई मान्यताओं के तहत "काम करता है"। यह धारणा कि प्रेक्षित मात्राएँ - वस्तु की मापी गई विशेषताएँ - का सामान्य वितरण होता है। यह

विभेदक विश्लेषण एल्गोरिथम
भेदभाव की समस्याओं (विभेदक विश्लेषण) के समाधान में संपूर्ण नमूना स्थान (सभी बहुआयामी मानी जाने वाली प्राप्तियों का सेट) को विभाजित करना शामिल है। यादृच्छिक चर) कुछ संख्या के लिए

क्लस्टर विश्लेषण
क्लस्टर विश्लेषण वर्गीकरण करने के लिए उपयोग की जाने वाली विभिन्न प्रक्रियाओं को जोड़ता है। इन प्रक्रियाओं को लागू करने के परिणामस्वरूप, वस्तुओं के प्रारंभिक सेट को समूहों या समूहों में विभाजित किया जाता है

क्लस्टर विश्लेषण के तरीके
व्यवहार में, सामूहिक क्लस्टरिंग विधियों को आमतौर पर लागू किया जाता है। आमतौर पर, वर्गीकरण शुरू करने से पहले, डेटा को मानकीकृत किया जाता है (माध्य घटाया जाता है और वर्गमूल को विभाजित किया जाता है)।

क्लस्टर विश्लेषण एल्गोरिथ्म
क्लस्टर विश्लेषण वस्तुओं के बीच की दूरी की अवधारणा की परिभाषा के आधार पर बहुआयामी प्रेक्षणों या वस्तुओं को वर्गीकृत करने के तरीकों का एक समूह है, जिसके बाद उनसे समूहों का चयन किया जाता है, और

एकाधिक सहसंबंध गुणांकएक चर और विचाराधीन अन्य चरों के समूह के बीच रैखिक संबंध की जकड़न की विशेषता है।
बहु सहसंबंध गुणांक की गणना का विशेष महत्व है गुणनखंड x 1 , x 2 ,…, x m , के साथ परिणामी विशेषता yयह निर्धारित करने के लिए सूत्र सामान्य मामलारूप है

जहां r सहसंबंध मैट्रिक्स का निर्धारक है; 11 सहसंबंध मैट्रिक्स के तत्व r yy का बीजगणितीय पूरक है।
यदि केवल दो कारक चिह्नों पर विचार किया जाता है, तो बहु सहसंबंध गुणांक की गणना के लिए निम्न सूत्र का उपयोग किया जा सकता है:

एक बहु सहसंबंध गुणांक का निर्माण केवल तभी उचित होता है जब आंशिक सहसंबंध गुणांक महत्वपूर्ण हो, और परिणामी विशेषता और मॉडल में शामिल कारकों के बीच संबंध वास्तव में मौजूद हो।

निर्धारण गुणांक

सामान्य सूत्र: R 2 = RSS/TSS=1-ESS/TSS
जहां आरएसएस वर्ग विचलन का समझाया गया योग है, ईएसएस वर्ग विचलन का अस्पष्टीकृत (अवशिष्ट) योग है, टीएसएस है कुल राशिवर्ग विचलन (TSS=RSS+ESS)

,
जहाँ r ij - प्रतिगामी x i और x j के बीच युग्म सहसंबंध गुणांक, a r i 0 - प्रतिगामी x i और y के बीच युग्म सहसंबंध गुणांक;
- निर्धारण का सही (सामान्यीकृत) गुणांक।

बहु सहसंबंध गुणांक का वर्ग बुलाया निर्धारण के कई गुणांक; यह दर्शाता है कि परिणामी विशेषता के विचरण का अनुपात क्या है आपकारक चिह्नों x 1, x 2, …, x m के प्रभाव से समझाया गया है। ध्यान दें कि अवशिष्ट और . के अनुपात के माध्यम से निर्धारण के गुणांक की गणना के लिए सूत्र कुल विचरणपरिणामी सुविधा एक ही परिणाम देगी।
बहु सहसंबंध गुणांक और निर्धारण का गुणांक 0 से 1 तक भिन्न होता है। 1 के करीब, संबंध जितना मजबूत होगा और, तदनुसार, उतना ही सटीक रूप से नीचे निर्मित प्रतिगमन समीकरण निर्भरता का वर्णन करेगा। आप x 1 , x 2 , …, x m से। यदि बहु सहसंबंध गुणांक का मान छोटा है (0.3 से कम), तो इसका मतलब है कि कारक विशेषताओं का चयनित सेट परिणामी विशेषता की भिन्नता का पर्याप्त रूप से वर्णन नहीं करता है, या कारक और परिणाम चर के बीच संबंध गैर-रैखिक है।

एकाधिक सहसंबंध गुणांक की गणना कैलकुलेटर का उपयोग करके की जाती है। एकाधिक सहसंबंध गुणांक और निर्धारण के गुणांक का महत्वफिशर के परीक्षण का उपयोग करके जाँच की गई।

निम्नलिखित में से कौन सी संख्या बहु निर्धारण के गुणांक का मान हो सकती है:
ए) 0.4;
बी) -1;
ग) -2.7;
घ) 2.7।

विभिन्न रैखिक गुणांकसहसंबंध 0.75 है। मॉडल में आश्रित चर y की भिन्नता का कितना प्रतिशत ध्यान में रखा जाता है और यह कारकों x 1 और x 2 के प्रभाव के कारण होता है।
ए) 56.2 (आर 2 = 0.75 2 = 0.5625);

निर्मित मॉडल की गुणवत्ता का मूल्यांकन करें। क्या एक-कारक मॉडल की तुलना में मॉडल की गुणवत्ता में सुधार हुआ है? लोच गुणांक, - और -गुणांक का उपयोग करके परिणाम पर महत्वपूर्ण कारकों के प्रभाव का आकलन करें।

चयनित की गुणवत्ता का आकलन करने के लिए एकाधिक मॉडल(6) इसी तरह, इस समस्या के आइटम 1.4 के लिए, हम निर्धारण के गुणांक का उपयोग करते हैं आर- चुकता, माध्य सापेक्ष सन्निकटन त्रुटि, और एफ- फिशर की कसौटी।

निर्धारण गुणांक आर- हम "रिग्रेशन" (तालिका ") के परिणामों से वर्ग लेते हैं प्रतिगमन आँकड़े» मॉडल (6) के लिए)।

इसलिए, एक अपार्टमेंट की कीमत में भिन्नता (परिवर्तन) यू 76.77% इस समीकरण द्वारा क्षेत्र के शहर की भिन्नता द्वारा समझाया गया है एक्स 1 , अपार्टमेंट में कमरों की संख्या एक्स 2 और रहने की जगह एक्स 4 .

हम मूल डेटा का उपयोग करते हैं यू मैंऔर रिग्रेशन टूल द्वारा पाए गए अवशेष (मॉडल (6) के लिए तालिका "शेष का निष्कर्ष")। सापेक्ष त्रुटियों की गणना करें और औसत मान ज्ञात करें
.

शेष आहरण

अवलोकन	भविष्यवाणी Y	खंडहर	रिले. गलती
1	45,95089273	-7,95089273	20,92340192
2	86,10296493	-23,90296493	38,42920407
3	94,84442678	30,15557322	24,12445858
4	84,17648426	-23,07648426	37,76838667
5	40,2537216	26,7462784	39,91981851
6	68,70572376	24,29427624	26,12287768
7	143,7464899	-25,7464899	21,81905923
8	106,0907598	25,90924022	19,62821228
9	135,357993	-42,85799303	46,33296544
10	114,4792566	-9,47925665	9,027863476
11	41,48765602	0,512343975	1,219866607
12	103,2329236	21,76707636	17,41366109
13	130,3567798	39,64322022	23,3195413
14	35,41901876	2,580981242	6,7920559
15	155,4129693	-24,91296925	19,0903979
16	84,32108188	0,678918123	0,798727204
17	98,0552279	-0,055227902	0,056355002
18	144,2104618	-16,21046182	12,66442329
19	122,8677535	-37,86775351	44,55029825
20	100,0221225	59,97787748	37,48617343
21	53,27196558	6,728034423	11,21339071
22	35,06605378	5,933946225	14,47303957
23	114,4792566	-24,47925665	27,19917406
24	113,1343153	-30,13431529	36,30640396
25	40,43190991	4,568090093	10,15131132
26	39,34427892	-0,344278918	0,882766457
27	144,4794501	-57,57945009	66,25943623
28	56,4827667	-16,4827667	41,20691675
29	95,38240332	-15,38240332	19,22800415
30	228,6988826	-1,698882564	0,748406416
31	222,8067278	12,19327221	5,188626473
32	38,81483144	1,185168555	2,962921389
33	48,36325811	18,63674189	27,81603267
34	126,6080021	-3,608002113	2,933335051
35	84,85052935	15,14947065	15,14947065
36	116,7991162	-11,79911625	11,23725357
37	84,17648426	-13,87648426	19,73895342
38	113,9412801	-31,94128011	38,95278062
39	215,494184	64,50581599	23,03779142
40	141,7795953	58,22040472	29,11020236
औसत	101,2375		22,51770962

कॉलम के अनुसार सापेक्ष त्रुटियांऔसत मूल्य पाएं =22.51% (औसत फ़ंक्शन का उपयोग करके)।

तुलना से पता चलता है कि 22.51%>7%। इसलिए, मॉडल की सटीकता असंतोषजनक है।

का उपयोग करके एफ - फिशर मानदंड आइए समग्र रूप से मॉडल के महत्व की जांच करें। ऐसा करने के लिए, हम "रिग्रेशन" टूल (तालिका " भिन्नता का विश्लेषण» मॉडल के लिए (6)) एफ= 39,6702.

FDISP फ़ंक्शन का उपयोग करके, हम मान पाते हैं एफ कृ =3.252 महत्व स्तर के लिए α = 5%, और स्वतंत्रता की डिग्री की संख्या क 1 = 2 , क 2 = 37 .

एफ> एफ कृ, इसलिए, मॉडल समीकरण (6) महत्वपूर्ण है, इसका उपयोग समीचीन है, आश्रित चर यूमॉडल (6) में शामिल कारक चर द्वारा काफी अच्छी तरह से वर्णित किया गया है एक्स 1 , एक्स 2. तथा एक्स 4 .

इसके अतिरिक्त उपयोग करना टी -छात्र की कसौटी आइए हम मॉडल के व्यक्तिगत गुणांकों के महत्व की जाँच करें।

टी-प्रतिगमन समीकरण के गुणांकों के लिए आंकड़े "प्रतिगमन" उपकरण के परिणामों में दिए गए हैं। प्राप्त हुआ निम्नलिखित मानचयनित मॉडल (6) के लिए:

	कठिनाइयाँ	मानक त्रुटि	टी आंकड़ा	पी-वैल्यू	नीचे 95%	शीर्ष 95%	कम 95.0%	शीर्ष 95.0%
वाई-चौराहा	-5,643572321	12,07285417	-0,46745966	0,642988	-30,1285	18,84131	-30,1285	18,84131
X4	2,591405557	0,461440597	5,61590284	2.27ई-06	1,655561	3,52725	1,655561	3,52725
X1	6,85963077	9,185748512	0,74676884	0,460053	-11,7699	25,48919	-11,7699	25,48919
X2	-1,985156991	7,795346067	-0,25465925	0,800435	-17,7949	13,82454	-17,7949	13,82454

महत्वपूर्ण मान टी कृमहत्व स्तर के लिए पाया गया α=5%और स्वतंत्रता की डिग्री की संख्या क=40–2–1=37 . टी कृ =2.026 (फ़ंक्शन स्टूड्रेस्पो)।

मुक्त गुणांक के लिए α =–5.643 परिभाषित आंकड़े
, टी कृ, इसलिए, मुक्त गुणांक महत्वपूर्ण नहीं है, इसे मॉडल से बाहर रखा जा सकता है।

प्रतिगमन गुणांक के लिए β 1 =6.859 परिभाषित आंकड़े
, β 1 महत्वपूर्ण नहीं है, इसे और क्षेत्र के शहर के कारक को मॉडल से हटाया जा सकता है।

प्रतिगमन गुणांक के लिए β 2 =-1,985 परिभाषित आंकड़े
, टी कृ, इसलिए प्रतिगमन गुणांक β 2 महत्वपूर्ण नहीं है, यह और अपार्टमेंट में कमरों की संख्या के कारक को मॉडल से बाहर रखा जा सकता है।

प्रतिगमन गुणांक के लिए β 4 =2.591 परिभाषित आंकड़े
, >t करोड़, इसलिए, प्रतीपगमन गुणांक β 4 महत्वपूर्ण है, यह और अपार्टमेंट के रहने वाले क्षेत्र का कारक मॉडल में संग्रहीत किया जा सकता है।

मॉडल के गुणांकों के महत्व के बारे में निष्कर्ष महत्व के स्तर पर किए जाते हैं α=5%. "पी-वैल्यू" कॉलम को ध्यान में रखते हुए, ध्यान दें कि मुक्त गुणांक α 0.64 = 64% के स्तर पर महत्वपूर्ण माना जा सकता है; प्रतिगमन गुणांक β 1 - 0.46 = 46% के स्तर पर; प्रतिगमन गुणांक β 2 - 0.8 = 80% के स्तर पर; और प्रतिगमन गुणांक β 4 - 2.27ई-06 = 2.26691790951854 ई-06 = 0.0000002% के स्तर पर।

समीकरण में नए कारक चर जोड़ने पर, निर्धारण का गुणांक स्वतः बढ़ जाता है आर 2 और घटता है मतलब त्रुटिसन्निकटन, हालांकि यह हमेशा मॉडल की गुणवत्ता में सुधार नहीं करता है। इसलिए, मॉडल (3) और चयनित एकाधिक मॉडल (6) की गुणवत्ता की तुलना करने के लिए, हम सामान्यीकृत निर्धारण गुणांक का उपयोग करते हैं।

इस प्रकार, प्रतिगमन समीकरण में कारक "क्षेत्र का शहर" जोड़ते समय एक्स 1 और कारक "अपार्टमेंट में कमरों की संख्या" एक्स 2, मॉडल की गुणवत्ता खराब हो गई है, जो कारकों को हटाने के पक्ष में बोलती है एक्स 1 और एक्समॉडल से 2.

आइए आगे की गणना करें।

लोच के औसत गुणांक एक रैखिक मॉडल के मामले में सूत्रों द्वारा निर्धारित किया जाता है
.

AVERAGE फ़ंक्शन का उपयोग करते हुए, हम पाते हैं: S यू, केवल कारक में वृद्धि के साथ एक्स 4 उसके एक के लिए मानक विचलन- 0.914 . की वृद्धि एस यू

डेल्टा गुणांक सूत्रों द्वारा परिभाषित किया गया है
.

आइए एक्सेल में "डेटा विश्लेषण" पैकेज के "सहसंबंध" टूल का उपयोग करके जोड़ी सहसंबंध गुणांक खोजें।

	यू	X1	X2	X4
यू	1
X1	-0,01126	1
X2	0,751061	-0,0341	1
X4	0,874012	-0,0798	0,868524	1

निर्धारण का गुणांक पहले निर्धारित किया गया था और 0.7677 के बराबर है।

आइए डेल्टा गुणांक की गणना करें:

;

1 . के बाद से 1 तथा एक्स 2 खराब तरीके से चुना गया है, और उन्हें मॉडल से निकालने की आवश्यकता है। इसलिए, प्राप्त रैखिक तीन-कारक मॉडल के समीकरण के अनुसार, परिणामी कारक में परिवर्तन यू(अपार्टमेंट की कीमत) कारक के प्रभाव के कारण 104% है एक्स 4 (अपार्टमेंट का रहने का क्षेत्र), कारक के प्रभाव से 4% तक एक्स 2 (कमरों की संख्या), कारक के प्रभाव से 0.0859% तक एक्स 1 (क्षेत्र का शहर)।

जटिल घटनाओं का अध्ययन करते समय, दो से अधिक यादृच्छिक कारकों को ध्यान में रखा जाना चाहिए। इन कारकों के बीच संबंध की प्रकृति का एक सही विचार तभी प्राप्त किया जा सकता है जब सभी माने गए यादृच्छिक कारकों की एक ही बार में जांच की जाए। तीन या अधिक यादृच्छिक कारकों का एक संयुक्त अध्ययन शोधकर्ता को अध्ययन की गई घटनाओं के बीच कारण संबंधों के बारे में कम या ज्यादा उचित मान्यताओं को स्थापित करने की अनुमति देगा। एकाधिक संबंधों का एक सरल रूप तीन विशेषताओं के बीच एक रैखिक संबंध है। यादृच्छिक कारकों को के रूप में दर्शाया गया है एक्स 1 , एक्स 2 और एक्स 3. के बीच जोड़ीवार सहसंबंध गुणांक एक्स 1 और एक्स 2 को के रूप में दर्शाया गया है आर 12 , क्रमशः . के बीच एक्स 1 और एक्स 3 - आर 12, बीच एक्स 2 और एक्स 3 - आर 23. तीन विशेषताओं के रैखिक संबंध की जकड़न के माप के रूप में, कई सहसंबंध गुणांक का उपयोग किया जाता है, निरूपित आर 1-23, आर 2 13, आर 3 ּ 12 और आंशिक सहसंबंध गुणांक निरूपित आर 12.3 , आर 13.2 , आर 23.1 .

तीन कारकों में से कई सहसंबंध गुणांक आर 1.23 कारकों में से एक (बिंदु से पहले सूचकांक) और दो अन्य कारकों (बिंदु के बाद सूचकांक) के संयोजन के बीच एक रैखिक संबंध की निकटता का संकेतक है।

गुणांक R का मान हमेशा 0 से 1 की सीमा में होता है। जैसे ही R एक के करीब पहुंचता है, तीन विशेषताओं के रैखिक संबंध की डिग्री बढ़ जाती है।

एकाधिक सहसंबंध गुणांक के बीच, उदाहरण के लिए आर 2 ּ 13 , और दो जोड़ी सहसंबंध गुणांक आर 12 और आर 23 एक संबंध है: प्रत्येक युग्म गुणांक निरपेक्ष मान से अधिक नहीं हो सकता आर 2 13.

जोड़ी सहसंबंध गुणांक r 12 , r 13 और r 23 के ज्ञात मूल्यों के साथ कई सहसंबंध गुणांक की गणना के लिए सूत्र हैं:

बहु सहसंबंध गुणांक का वर्ग आर 2 कहा जाता है एकाधिक निर्धारण का गुणांक।यह अध्ययन किए गए कारकों के प्रभाव में आश्रित चर में भिन्नता के अनुपात को दर्शाता है।

बहु सहसंबंध के महत्व का अनुमान लगाया जाता है एफ- मानदंड:

एन-नमूने का आकार; क-कारकों की संख्या। हमारे मामले में क = 3.

जनसंख्या में शून्य से बहु सहसंबंध गुणांक की समानता के बारे में शून्य परिकल्पना ( एच ओ:आर= 0) स्वीकार किया जाता है यदि एफएफ<च तो, और अस्वीकार कर दिया जाता है यदि
एफच एफटी।

सैद्धांतिक मूल्य एफ-मानदंड परिभाषित किया गया है वी 1 = क- 1 और वी 2 = एन - कस्वतंत्रता की डिग्री और महत्व के स्वीकृत स्तर (परिशिष्ट 1)।

बहु सहसंबंध गुणांक की गणना का एक उदाहरण. कारकों के बीच संबंध का अध्ययन करते समय, युग्म सहसंबंध गुणांक प्राप्त किए गए थे ( एन =15): आर 12 ==0.6; आर 13 = 0.3; आर 23 = - 0,2.

संकेत की निर्भरता का पता लगाना आवश्यक है एक्स 2 ऑफ साइन एक्स 1 और एक्स 3 , यानी बहु सहसंबंध गुणांक की गणना करें:

तालिका मूल्य एफ n 1 = 2 और n 2 = 15 - 3 = 12 डिग्री पर स्वतंत्रता का मानदंड = 0.05 एफ 0.05 = 3.89 और a = 0.01 . पर एफ 0,01 = 6,93.

इस प्रकार, सुविधाओं के बीच संबंध आर 2.13 = 0.74 पर सार्थक
1% महत्व स्तर एफच > एफ 0,01 .

एकाधिक निर्धारण के गुणांक को देखते हुए आर 2 = (0.74) 2 = 0.55, विशेषता भिन्नता एक्स 2 अध्ययन किए गए कारकों के प्रभाव से संबंधित 55% है, और 45% भिन्नता (1-R 2) को इन चरों के प्रभाव से नहीं समझाया जा सकता है।

आंशिक रैखिक सहसंबंध

आंशिक सहसंबंध गुणांकएक संकेतक है जो दो विशेषताओं के संयुग्मन की डिग्री को मापता है।

गणितीय आंकड़े आपको एक विशेष प्रयोग स्थापित किए बिना, लेकिन युग्मित सहसंबंध गुणांक का उपयोग किए बिना, तीसरे के निरंतर मूल्य के साथ दो विशेषताओं के बीच संबंध स्थापित करने की अनुमति देते हैं। आर 12 , आर 13 , आर 23 .

आंशिक सहसंबंध गुणांक की गणना सूत्रों का उपयोग करके की जाती है:

डॉट से पहले की संख्याएं इंगित करती हैं कि किन विशेषताओं के बीच निर्भरता का अध्ययन किया जा रहा है, और डॉट के बाद की संख्या इंगित करती है कि किस सुविधा के प्रभाव को बाहर रखा गया है (समाप्त)। आंशिक सहसंबंध के महत्व की त्रुटि और मानदंड समान सूत्रों द्वारा निर्धारित किए जाते हैं जैसे कि जोड़ीदार सहसंबंध के लिए:

सैद्धांतिक मूल्य टी-के लिए मानदंड निर्धारित किया गया है वी = एन- स्वतंत्रता की 2 डिग्री और स्वीकृत महत्व स्तर ए (परिशिष्ट 1)।

शून्य में कुल मिलाकर आंशिक सहसंबंध गुणांक की समानता के बारे में शून्य परिकल्पना ( हो: आर= 0) स्वीकार किया जाता है यदि टीएफ< टी t, और अस्वीकार कर दिया जाता है यदि
टीच टीटी।

आंशिक गुणांक -1 और +1 के बीच मान ले सकते हैं। निजी निर्धारण गुणांकआंशिक सहसंबंध गुणांकों को चुकता करके पाया जाता है:

डी 12.3 = आर 2 12ּ3 ;डी 13.2 = आर 2 13ּ2 ;डी 23ּ1 =आर 2 23ּ1।

परिणामी विशेषता पर अलग-अलग कारकों के विशेष प्रभाव की डिग्री निर्धारित करना, जबकि इस सहसंबंध को विकृत करने वाली अन्य विशेषताओं के साथ इसके संबंध को बाहर करना (समाप्त करना) अक्सर बहुत रुचि का होता है। कभी-कभी ऐसा होता है कि समाप्त विशेषता के निरंतर मूल्य के साथ, अन्य लक्षणों की परिवर्तनशीलता पर इसके सांख्यिकीय प्रभाव को नोटिस करना असंभव है। आंशिक सहसंबंध गुणांक की गणना के लिए तकनीक को समझने के लिए, एक उदाहरण पर विचार करें। तीन विकल्प हैं एक्स, यूतथा जेड. नमूना आकार के लिए एन= 180 युग्मित सहसंबंध गुणांक निर्धारित

आरएक्सवाई = 0,799; rxz = 0,57; आर yz = 0,507.

आइए आंशिक सहसंबंध गुणांक परिभाषित करें:

पैरामीटर के बीच आंशिक सहसंबंध गुणांक एक्सतथा यू जेड (आर xyz = 0.720) से पता चलता है कि समग्र सहसंबंध में इन विशेषताओं के संबंध का केवल एक छोटा सा हिस्सा ( आरएक्सवाई= 0.799) तीसरी विशेषता के प्रभाव के कारण है ( जेड) पैरामीटर के बीच आंशिक सहसंबंध गुणांक के संबंध में एक समान निष्कर्ष निकाला जाना चाहिए एक्सऔर पैरामीटर जेडनिरंतर पैरामीटर मान के साथ यू (आरएक्स जेड y = 0.318 और rxz= 0.57)। इसके विपरीत, मापदंडों के बीच आंशिक सहसंबंध गुणांक यूतथा जेडनिरंतर पैरामीटर मान के साथ एक्स आर yz ּ एक्स= 0.105 समग्र सहसंबंध गुणांक r . से काफी अलग है जेड = 0.507. इससे यह देखा जा सकता है कि यदि आप समान पैरामीटर मान वाली वस्तुओं का चयन करते हैं एक्स, फिर सुविधाओं के बीच संबंध यूतथा जेडवे बहुत कमजोर होंगे, क्योंकि इस संबंध का एक महत्वपूर्ण हिस्सा पैरामीटर की भिन्नता के कारण है एक्स.

कुछ परिस्थितियों में, आंशिक सहसंबंध गुणांक युग्मित एक के संकेत में विपरीत हो सकता है।

उदाहरण के लिए, सुविधाओं के बीच संबंध का अध्ययन करते समय एक्स, वाईतथा जेड- युग्मित सहसंबंध गुणांक प्राप्त किए गए (साथ .) एन = 100): आरएक्सवाई = 0.6; आरएक्स जेड= 0,9;
आर जेड = 0,4.

तीसरी विशेषता के प्रभाव को छोड़कर आंशिक सहसंबंध गुणांक:

उदाहरण से पता चलता है कि मान जोड़ी गुणांकऔर आंशिक सहसंबंध गुणांक संकेत में भिन्न होता है।

आंशिक सहसंबंध विधि दूसरे क्रम के आंशिक सहसंबंध गुणांक की गणना करना संभव बनाती है। यह गुणांक तीसरे और चौथे के स्थिर मान के साथ पहली और दूसरी विशेषता के बीच संबंध को इंगित करता है। दूसरा क्रम आंशिक गुणांक सूत्र के अनुसार पहले क्रम के आंशिक गुणांक के आधार पर निर्धारित किया जाता है:

कहाँ पे आर 12 . 4 , आर 13-4, आर 23 ּ4 - आंशिक गुणांक, जिसका मान आंशिक गुणांक सूत्र द्वारा निर्धारित किया जाता है, जोड़ी सहसंबंध गुणांक का उपयोग करके आर 12 , आर 13 , आर 14 , आर 23 , आर 24 , आर 34 .

प्रतिगमन विश्लेषण- यह एक सांख्यिकीय शोध पद्धति है जो आपको एक या अधिक स्वतंत्र चर पर एक पैरामीटर की निर्भरता दिखाने की अनुमति देती है। प्री-कंप्यूटर युग में, इसका उपयोग काफी कठिन था, खासकर जब यह बड़ी मात्रा में डेटा की बात आती थी। आज, एक्सेल में रिग्रेशन बनाने का तरीका जानने के बाद, आप कॉम्प्लेक्स को हल कर सकते हैं सांख्यिकीय कार्यसचमुच कुछ ही मिनटों में। अर्थशास्त्र के क्षेत्र से विशिष्ट उदाहरण नीचे दिए गए हैं।

प्रतिगमन के प्रकार

इस अवधारणा को ही 1886 में गणित में पेश किया गया था। प्रतिगमन होता है:

रैखिक;
परवलयिक;
शक्ति;
घातीय;
अतिपरवलिक;
प्रदर्शनकारी;
लघुगणक

उदाहरण 1

सेवानिवृत्त टीम के सदस्यों की संख्या की निर्भरता का निर्धारण करने की समस्या पर विचार करें औसत वेतन 6 औद्योगिक उद्यमों में।

एक कार्य। छह उद्यमों ने औसत मासिक का विश्लेषण किया वेतनऔर छोड़ने वाले कर्मचारियों की संख्या अपनी मर्जी. सारणीबद्ध रूप में हमारे पास है:


		छोड़ने वालों की संख्या	वेतन
			30000 रूबल
			35000 रूबल
			40000 रूबल
			45000 रूबल
			50000 रूबल
			55000 रूबल
			60000 रूबल

6 उद्यमों में औसत वेतन पर सेवानिवृत्त श्रमिकों की संख्या की निर्भरता निर्धारित करने की समस्या के लिए, प्रतिगमन मॉडल में समीकरण Y = a 0 + a 1 x 1 +…+a k x k का रूप होता है, जहां x i प्रभावित करने वाले चर हैं , a i प्रतिगमन गुणांक हैं, a k कारकों की संख्या है।

इस कार्य के लिए, Y छोड़ने वाले कर्मचारियों का संकेतक है, और प्रभावित करने वाला कारक वेतन है, जिसे हम X से दर्शाते हैं।

स्प्रेडशीट "एक्सेल" की क्षमताओं का उपयोग करना

एक्सेल में रिग्रेशन विश्लेषण उपलब्ध सारणीबद्ध डेटा के लिए अंतर्निहित कार्यों के आवेदन से पहले होना चाहिए। हालांकि, इन उद्देश्यों के लिए, बहुत उपयोगी ऐड-इन "विश्लेषण टूलकिट" का उपयोग करना बेहतर है। इसे सक्रिय करने के लिए आपको चाहिए:

"फ़ाइल" टैब से, "विकल्प" अनुभाग पर जाएं;
खुलने वाली विंडो में, "ऐड-ऑन" लाइन का चयन करें;
"प्रबंधन" लाइन के दाईं ओर नीचे स्थित "गो" बटन पर क्लिक करें;
"विश्लेषण पैकेज" नाम के बगल में स्थित बॉक्स को चेक करें और "ओके" पर क्लिक करके अपने कार्यों की पुष्टि करें।

यदि सब कुछ सही ढंग से किया जाता है, तो वांछित बटन एक्सेल वर्कशीट के ऊपर स्थित डेटा टैब के दाईं ओर दिखाई देगा।

एक्सेल में

अब जब हमारे पास अर्थमितीय गणना करने के लिए सभी आवश्यक आभासी उपकरण हैं, तो हम अपनी समस्या को हल करना शुरू कर सकते हैं। इसके लिए:

"डेटा विश्लेषण" बटन पर क्लिक करें;
खुलने वाली विंडो में, "रिग्रेशन" बटन पर क्लिक करें;
दिखाई देने वाले टैब में, Y (छोड़ने वाले कर्मचारियों की संख्या) और X (उनका वेतन) के लिए मानों की श्रेणी दर्ज करें;
हम "ओके" बटन दबाकर अपने कार्यों की पुष्टि करते हैं।

परिणामस्वरूप, प्रोग्राम स्वचालित रूप से प्रतिगमन विश्लेषण डेटा के साथ स्प्रेडशीट की एक नई शीट को पॉप्युलेट करेगा। टिप्पणी! एक्सेल में इस उद्देश्य के लिए आपके द्वारा पसंद किए जाने वाले स्थान को मैन्युअल रूप से सेट करने की क्षमता है। उदाहरण के लिए, यह वही शीट हो सकती है जहां वाई और एक्स मान हैं, या यहां तक कि एक नई किताब, विशेष रूप से ऐसे डेटा को संग्रहीत करने के लिए डिज़ाइन किया गया है।

आर-स्क्वायर के लिए प्रतिगमन परिणामों का विश्लेषण

एक्सेल में, माना उदाहरण के डेटा के प्रसंस्करण के दौरान प्राप्त डेटा इस तरह दिखता है:

सबसे पहले आपको आर-स्क्वायर की वैल्यू पर ध्यान देना चाहिए। यह निर्धारण का गुणांक है। इस उदाहरण में, आर-वर्ग = 0.755 (75.5%), यानी, मॉडल के परिकलित पैरामीटर 75.5% द्वारा माने गए मापदंडों के बीच संबंध की व्याख्या करते हैं। निर्धारण गुणांक का मान जितना अधिक होगा, किसी विशेष कार्य के लिए चुना गया मॉडल उतना ही अधिक लागू होगा। ऐसा माना जाता है कि यह 0.8 से ऊपर के आर-वर्ग मान के साथ वास्तविक स्थिति का सही वर्णन करता है। अगर R-वर्ग<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

अनुपात विश्लेषण

संख्या 64.1428 दर्शाती है कि Y का मान क्या होगा यदि हम जिस मॉडल पर विचार कर रहे हैं उसमें सभी चर xi शून्य पर सेट हैं। दूसरे शब्दों में, यह तर्क दिया जा सकता है कि विश्लेषण किए गए पैरामीटर का मूल्य अन्य कारकों से भी प्रभावित होता है जो किसी विशिष्ट मॉडल में वर्णित नहीं हैं।

सेल B18 में स्थित अगला गुणांक -0.16285, Y पर चर X के प्रभाव के भार को दर्शाता है। इसका मतलब है कि विचाराधीन मॉडल के भीतर कर्मचारियों का औसत मासिक वेतन -0.16285 के वजन के साथ छोड़ने वालों की संख्या को प्रभावित करता है, अर्थात। इसके प्रभाव की डिग्री बिल्कुल छोटी है। "-" चिह्न इंगित करता है कि गुणांक का ऋणात्मक मान है। यह स्पष्ट है, क्योंकि हर कोई जानता है कि उद्यम में वेतन जितना अधिक होता है, उतने ही कम लोग रोजगार अनुबंध को समाप्त करने या छोड़ने की इच्छा व्यक्त करते हैं।

एकाधिक प्रतिगमन

यह शब्द फॉर्म के कई स्वतंत्र चर के साथ एक कनेक्शन समीकरण को संदर्भित करता है:

y \u003d f (x 1 + x 2 + ... x m) + , जहां y प्रभावी विशेषता (आश्रित चर) है, और x 1 , x 2 , ... x m कारक कारक (स्वतंत्र चर) हैं।

पैरामीटर अनुमान

के लिये एकाधिक प्रतिगमन(MR) यह कम से कम वर्गों (LSM) की विधि का उपयोग करके किया जाता है। Y = a + b 1 x 1 +…+b m x m + के रूप के रैखिक समीकरणों के लिए, हम सामान्य समीकरणों की एक प्रणाली का निर्माण करते हैं (नीचे देखें)

विधि के सिद्धांत को समझने के लिए, दो-कारक मामले पर विचार करें। तब हमारे पास सूत्र द्वारा वर्णित स्थिति होती है

यहाँ से हमें मिलता है:

जहां सूचकांक में परिलक्षित संबंधित विशेषता का प्रसरण है।

एलएसएम एक मानक पैमाने पर एमपी समीकरण पर लागू होता है। इस मामले में, हमें समीकरण मिलता है:

जहाँ t y , t x 1,… t xm मानकीकृत चर हैं जिनके लिए माध्य मान 0 हैं; β मैं मानकीकृत प्रतिगमन गुणांक हैं, और मानक विचलन 1 है।

कृपया ध्यान दें कि इस मामले में सभी β i को सामान्यीकृत और केंद्रीकृत के रूप में सेट किया गया है, इसलिए एक दूसरे के साथ उनकी तुलना को सही और स्वीकार्य माना जाता है। इसके अलावा, यह βi के सबसे छोटे मूल्यों वाले कारकों को छोड़कर, कारकों को फ़िल्टर करने के लिए प्रथागत है।

रैखिक प्रतिगमन समीकरण का उपयोग करने में समस्या

मान लीजिए कि पिछले 8 महीनों के दौरान किसी विशेष उत्पाद एन की कीमत की गतिशीलता की एक तालिका है। 1850 रूबल / टी की कीमत पर इसके बैच को खरीदने की सलाह पर निर्णय लेना आवश्यक है।


माह संख्या	महीने का नाम	आइटम नंबर की कीमत
		1750 रूबल प्रति टन
		1755 रूबल प्रति टन
		1767 रूबल प्रति टन
		1760 रूबल प्रति टन
		1770 रूबल प्रति टन
		1790 रूबल प्रति टन
		1810 रूबल प्रति टन
		1840 रूबल प्रति टन

एक्सेल स्प्रेडशीट में इस समस्या को हल करने के लिए, आपको उपरोक्त उदाहरण से पहले से ज्ञात डेटा विश्लेषण टूल का उपयोग करने की आवश्यकता है। अगला, "रिग्रेशन" अनुभाग चुनें और पैरामीटर सेट करें। यह याद रखना चाहिए कि "इनपुट अंतराल Y" फ़ील्ड में, आश्रित चर के लिए मानों की एक श्रेणी (इस मामले में, वर्ष के विशिष्ट महीनों में उत्पाद की कीमत) दर्ज की जानी चाहिए, और "इनपुट" में अंतराल X" - स्वतंत्र चर (माह संख्या) के लिए। "ओके" पर क्लिक करके कार्रवाई की पुष्टि करें। एक नई शीट पर (यदि ऐसा संकेत दिया गया था), हमें प्रतिगमन के लिए डेटा मिलता है।

उनके आधार पर, हम y=ax+b फॉर्म का एक रैखिक समीकरण बनाते हैं, जहां पैरामीटर ए और बी महीने की संख्या के नाम के साथ पंक्ति के गुणांक हैं और गुणांक और "वाई-चौराहे" पंक्ति से प्रतिगमन विश्लेषण के परिणामों के साथ शीट। इस प्रकार, समस्या 3 के लिए रैखिक समाश्रयण समीकरण (LE) को इस प्रकार लिखा जाता है:

उत्पाद की कीमत एन = 11.714* माह संख्या + 1727.54।

या बीजीय संकेतन में

वाई = 11.714 एक्स + 1727.54

परिणामों का विश्लेषण

यह तय करने के लिए कि परिणामी रैखिक प्रतिगमन समीकरण पर्याप्त है, एकाधिक सहसंबंध गुणांक (एमसीसी) और निर्धारण गुणांक का उपयोग किया जाता है, साथ ही फिशर का परीक्षण और छात्र का परीक्षण। प्रतिगमन परिणामों के साथ एक्सेल तालिका में, वे क्रमशः एकाधिक आर, आर-वर्ग, एफ-सांख्यिकी और टी-सांख्यिकी के नामों के तहत दिखाई देते हैं।

केएमसी आर स्वतंत्र और आश्रित चर के बीच संभाव्य संबंध की मजबूती का आकलन करना संभव बनाता है। इसका उच्च मूल्य चर "महीने की संख्या" और "माल की कीमत एन प्रति 1 टन रूबल में" के बीच काफी मजबूत संबंध को इंगित करता है। हालाँकि, इस रिश्ते की प्रकृति अज्ञात बनी हुई है।

निर्धारण गुणांक का वर्ग R 2 (RI) कुल प्रकीर्णन के हिस्से की एक संख्यात्मक विशेषता है और प्रयोगात्मक डेटा के किस भाग के बिखराव को दर्शाता है, अर्थात। आश्रित चर के मान रैखिक प्रतिगमन समीकरण से मेल खाते हैं। विचाराधीन समस्या में, यह मान 84.8% के बराबर है, अर्थात्, प्राप्त एसडी द्वारा सांख्यिकीय डेटा को उच्च स्तर की सटीकता के साथ वर्णित किया गया है।

एफ-सांख्यिकी, जिसे फिशर का परीक्षण भी कहा जाता है, का उपयोग एक रैखिक संबंध के महत्व का आकलन करने के लिए किया जाता है, इसके अस्तित्व की परिकल्पना का खंडन या पुष्टि करता है।

(छात्र की कसौटी) एक रैखिक संबंध के अज्ञात या मुक्त पद के साथ गुणांक के महत्व का मूल्यांकन करने में मदद करता है। यदि t-मानदंड का मान > t करोड़, तो मुक्त पद के महत्व की परिकल्पना रेखीय समीकरणअस्वीकृत।

मुक्त सदस्य के लिए विचाराधीन समस्या में, एक्सेल टूल्स का उपयोग करके, यह प्राप्त किया गया था कि t = 169.20903, और p = 2.89E-12, यानी, हमारे पास एक शून्य संभावना है कि स्वतंत्र सदस्य के महत्व के बारे में सही परिकल्पना होगी खारिज किया जाए। अज्ञात t=5.79405, और p=0.001158 पर गुणांक के लिए। दूसरे शब्दों में, अज्ञात के लिए गुणांक के महत्व के बारे में सही परिकल्पना के खारिज होने की संभावना 0.12% है।

इस प्रकार, यह तर्क दिया जा सकता है कि परिणामी रैखिक प्रतिगमन समीकरण पर्याप्त है।

शेयरों का एक ब्लॉक खरीदने की समीचीनता की समस्या

एक्सेल में मल्टीपल रिग्रेशन एक ही डेटा एनालिसिस टूल का उपयोग करके किया जाता है। एक विशिष्ट लागू समस्या पर विचार करें।

NNN के प्रबंधन को MMM SA में 20% हिस्सेदारी खरीदने की उपयुक्तता पर निर्णय लेना चाहिए। पैकेज की लागत (जेवी) 70 मिलियन अमेरिकी डॉलर है। एनएनएन विशेषज्ञों ने समान लेनदेन पर डेटा एकत्र किया। लाखों अमेरिकी डॉलर में व्यक्त किए गए ऐसे मापदंडों के अनुसार शेयरों के ब्लॉक के मूल्य का मूल्यांकन करने का निर्णय लिया गया, जैसे:

देय खाते (वीके);
वार्षिक कारोबार (वीओ);
प्राप्य खाते (वीडी);
अचल संपत्तियों की लागत (एसओएफ)।

इसके अलावा, हजारों अमेरिकी डॉलर में उद्यम (V3 P) के पैरामीटर पेरोल बकाया का उपयोग किया जाता है।

एक्सेल स्प्रेडशीट का उपयोग कर समाधान

सबसे पहले, आपको प्रारंभिक डेटा की एक तालिका बनाने की आवश्यकता है। यह इस तरह दिख रहा है:

"डेटा विश्लेषण" विंडो को कॉल करें;
"प्रतिगमन" अनुभाग का चयन करें;
बॉक्स में "इनपुट अंतराल वाई" कॉलम जी से आश्रित चर के मूल्यों की श्रेणी दर्ज करें;
"इनपुट अंतराल एक्स" बॉक्स के दाईं ओर एक लाल तीर के साथ आइकन पर क्लिक करें और शीट पर सभी मानों की एक श्रेणी का चयन करें कॉलम बी, सी, डी, एफ।

"नई वर्कशीट" चुनें और "ओके" पर क्लिक करें।

दी गई समस्या के लिए प्रतिगमन विश्लेषण प्राप्त करें।

परिणामों और निष्कर्षों की जांच

एक्सेल स्प्रेडशीट शीट पर ऊपर प्रस्तुत गोल डेटा से "हम एकत्र करते हैं", प्रतिगमन समीकरण:

एसपी \u003d 0.103 * एसओएफ + 0.541 * वीओ - 0.031 * वीके + 0.405 * वीडी + 0.691 * वीजेडपी - 265.844।

अधिक परिचित गणितीय रूप में, इसे इस प्रकार लिखा जा सकता है:

वाई = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

JSC "MMM" के लिए डेटा तालिका में प्रस्तुत किया गया है:

उन्हें प्रतिगमन समीकरण में प्रतिस्थापित करने पर, उन्हें 64.72 मिलियन अमेरिकी डॉलर का आंकड़ा मिलता है। इसका मतलब है कि जेएससी एमएमएम के शेयर नहीं खरीदे जाने चाहिए, क्योंकि उनका मूल्य 70 मिलियन अमेरिकी डॉलर अधिक है।

जैसा कि आप देख सकते हैं, एक्सेल स्प्रेडशीट और रिग्रेशन समीकरण के उपयोग ने एक बहुत ही विशिष्ट लेनदेन की व्यवहार्यता के बारे में एक सूचित निर्णय लेना संभव बना दिया है।

अब आप जानते हैं कि प्रतिगमन क्या है। एक्सेल में ऊपर चर्चा किए गए उदाहरण आपको निर्णय लेने में मदद करेंगे। व्यावहारिक कार्यअर्थमिति के क्षेत्र से।