प्रतिगमन समीकरण प्लॉट करें। समस्या समाधान: रैखिक प्रतिगमन और सहसंबंध गुणांक

सेवा असाइनमेंट. ऑनलाइन सेवा की मदद से आप पा सकते हैं:
  • रैखिक प्रतिगमन समीकरण के पैरामीटर y=a+bx , रैखिक गुणांकइसके महत्व के परीक्षण के साथ सहसंबंध;
  • सहसंबंध और निर्धारण के संकेतकों का उपयोग करके कनेक्शन की जकड़न, ओएलएस-आकलन, फिशर के एफ-टेस्ट का उपयोग करके प्रतिगमन मॉडलिंग की स्थिर विश्वसनीयता और छात्र के टी-टेस्ट का उपयोग करना, विश्वास अंतरालमहत्व स्तर α . के लिए पूर्वानुमान

जोड़ीदार समाश्रयण समीकरण संदर्भित करता है प्रथम कोटि समाश्रयण समीकरण. यदि एक अर्थमितीय मॉडल में केवल एक व्याख्यात्मक चर होता है, तो इसे एक जोड़ीदार प्रतिगमन कहा जाता है। दूसरा क्रम प्रतिगमन समीकरणतथा तीसरा क्रम प्रतिगमन समीकरणगैर-रैखिक प्रतिगमन समीकरणों का संदर्भ लें।

उदाहरण। युग्मित प्रतिगमन मॉडल बनाने के लिए आश्रित (व्याख्या) और व्याख्यात्मक चर का चयन करें। देना । सैद्धांतिक जोड़ी प्रतिगमन समीकरण का निर्धारण करें। निर्मित मॉडल की पर्याप्तता का आकलन करें (आर-स्क्वायर, टी-सांख्यिकी, एफ-सांख्यिकी की व्याख्या करें)।
समाधानपर आधारित होगा अर्थमितीय मॉडलिंग प्रक्रिया.
स्टेज 1 (स्टेजिंग) - मॉडलिंग के अंतिम लक्ष्यों का निर्धारण, मॉडल में भाग लेने वाले कारकों और संकेतकों का एक सेट और उनकी भूमिका।
मॉडल विनिर्देश - अध्ययन के उद्देश्य की परिभाषा और मॉडल के आर्थिक चर की पसंद।
स्थितिजन्य (व्यावहारिक) कार्य। क्षेत्र में 10 उद्यमों के लिए, हम श्रमिकों की कुल संख्या x (% में) में अत्यधिक कुशल श्रमिकों की हिस्सेदारी पर प्रति कार्यकर्ता y (हजार रूबल) उत्पादन की निर्भरता का अध्ययन करते हैं।
चरण 2 (एक प्राथमिकता) - पूर्व-मॉडल विश्लेषण आर्थिक सारअध्ययन के तहत घटना की, प्राथमिक जानकारी और प्रारंभिक मान्यताओं का गठन और औपचारिकता, विशेष रूप से, प्रारंभिक सांख्यिकीय डेटा की प्रकृति और उत्पत्ति और कई परिकल्पनाओं के रूप में यादृच्छिक अवशिष्ट घटकों से संबंधित।
पहले से ही इस स्तर पर, हम कार्यकर्ता के कौशल स्तर और उसके उत्पादन की स्पष्ट निर्भरता के बारे में बात कर सकते हैं, क्योंकि कार्यकर्ता जितना अधिक अनुभवी होगा, उसकी उत्पादकता उतनी ही अधिक होगी। लेकिन इस निर्भरता का मूल्यांकन कैसे करें?
जोड़ी प्रतिगमनदो चरों के बीच एक प्रतिगमन है - y और x, यानी फॉर्म का एक मॉडल:

जहाँ y आश्रित चर (परिणामी चिन्ह) है; x एक स्वतंत्र, या व्याख्यात्मक, चर (संकेत-कारक) है। "^" चिन्ह का अर्थ है कि चर x और y के बीच कोई सख्त कार्यात्मक निर्भरता नहीं है, इसलिए, लगभग हर व्यक्तिगत मामले में, y के मान में दो शब्द होते हैं:

जहाँ y प्रभावी विशेषता का वास्तविक मूल्य है; y x प्रतीपगमन समीकरण के आधार पर पाए जाने वाले प्रभावी गुण का सैद्धांतिक मान है; - यादृच्छिक मूल्य, जो प्रतिगमन समीकरण द्वारा प्राप्त सैद्धांतिक मूल्य से प्रभावी विशेषता के वास्तविक मूल्य के विचलन की विशेषता है।
हम प्रति श्रमिक उत्पादन और अत्यधिक कुशल श्रमिकों के अनुपात के बीच प्रतिगमन निर्भरता को ग्राफिक रूप से दिखाएंगे।


तीसरा चरण (पैरामीट्रिजेशन) - वास्तविक मॉडलिंग, यानी। मॉडल के सामान्य रूप का चुनाव, इसमें शामिल चर के बीच संबंधों की संरचना और रूप शामिल है। प्रतिगमन समीकरण में कार्यात्मक निर्भरता के प्रकार के चुनाव को मॉडल पैरामीट्रिजेशन कहा जाता है। चुनना जोड़ी प्रतिगमन समीकरण, अर्थात। केवल एक कारक अंतिम परिणाम y को प्रभावित करेगा।
चौथा चरण (सूचनात्मक) - आवश्यक सांख्यिकीय जानकारी का संग्रह, अर्थात। मॉडल में भाग लेने वाले कारकों और संकेतकों के मूल्यों का पंजीकरण। नमूने में 10 उद्योग उद्यम शामिल हैं।
चरण 5 (मॉडल पहचान) - उपलब्ध सांख्यिकीय डेटा का उपयोग करके अज्ञात मॉडल मापदंडों का अनुमान।
मॉडल के मापदंडों को निर्धारित करने के लिए, हम उपयोग करते हैं बहुराष्ट्रीय कंपनी - विधि कम से कम वर्गों . व्यवस्था सामान्य समीकरणइस तरह दिखेगा:
एक n + b∑x = y
a∑x + b∑x 2 = y x
प्रतिगमन मापदंडों की गणना करने के लिए, हम एक गणना तालिका (तालिका 1) का निर्माण करेंगे।
एक्सआपx2y2एक्स वाई
10 6 100 36 60
12 6 144 36 72
15 7 225 49 105
17 7 289 49 119
18 7 324 49 126
19 8 361 64 152
19 8 361 64 152
20 9 400 81 180
20 9 400 81 180
21 10 441 100 210
171 77 3045 609 1356

हम तालिका 1 (अंतिम पंक्ति) से डेटा लेते हैं, जिसके परिणामस्वरूप हमारे पास है:
10a + 171b = 77
171 ए + 3045 बी = 1356
यह एसएलएई क्रैमर विधि या उलटा मैट्रिक्स विधि द्वारा हल किया जाता है।
हमें अनुभवजन्य प्रतिगमन गुणांक मिलते हैं: b = 0.3251, a = 2.1414
अनुभवजन्य प्रतिगमन समीकरण का रूप है:
वाई = 0.3251 एक्स + 2.1414
चरण 6 (मॉडल सत्यापन) - वास्तविक और मॉडल डेटा की तुलना, मॉडल की पर्याप्तता का सत्यापन, मॉडल डेटा की सटीकता का आकलन।
विश्लेषण का उपयोग करके किया जाता है

पिछले नोटों में, ध्यान अक्सर एक ही संख्यात्मक चर पर रहा है, जैसे कि म्यूचुअल फंड रिटर्न, वेब पेज लोड समय, या शीतल पेय की खपत। इस और निम्नलिखित नोट्स में, हम एक या अधिक अन्य संख्यात्मक चर के मूल्यों के आधार पर एक संख्यात्मक चर के मूल्यों की भविष्यवाणी करने के तरीकों पर विचार करेंगे।

सामग्री को उदाहरण के माध्यम से चित्रित किया जाएगा। एक कपड़े की दुकान में बिक्री की मात्रा का पूर्वानुमान।डिस्काउंट कपड़ों की दुकानों की सूरजमुखी श्रृंखला 25 वर्षों से लगातार विस्तार कर रही है। हालांकि, कंपनी के पास वर्तमान में नए आउटलेट्स के चयन के लिए एक व्यवस्थित दृष्टिकोण नहीं है। वह स्थान जहां कंपनी एक नया स्टोर खोलने का इरादा रखती है, व्यक्तिपरक विचारों के आधार पर निर्धारित की जाती है। चयन मानदंड अनुकूल किराये की स्थिति या स्टोर के आदर्श स्थान के प्रबंधक के विचार हैं। कल्पना कीजिए कि आप विशेष परियोजना और योजना विभाग के प्रमुख हैं। आपको नए स्टोर खोलने के लिए एक रणनीतिक योजना विकसित करने का काम सौंपा गया है। इस योजना में नए खुले स्टोरों में वार्षिक बिक्री का पूर्वानुमान होना चाहिए। आप मानते हैं कि बिक्री की जगह का सीधा संबंध राजस्व से है और आप उस तथ्य को अपनी निर्णय लेने की प्रक्रिया में शामिल करना चाहते हैं। कैसे विकसित करें सांख्यिकीय मॉडलनए स्टोर आकार के आधार पर वार्षिक बिक्री की भविष्यवाणी करने के लिए?

आमतौर पर, प्रतिगमन विश्लेषण का उपयोग चर के मूल्यों की भविष्यवाणी करने के लिए किया जाता है। इसका लक्ष्य एक सांख्यिकीय मॉडल विकसित करना है जो मूल्यों से निर्भर चर, या प्रतिक्रिया के मूल्यों की भविष्यवाणी कर सकता है कम से कमएक स्वतंत्र या व्याख्यात्मक चर। इस नोट में, हम एक साधारण रेखीय प्रतिगमन पर विचार करेंगे - एक सांख्यिकीय विधि जो आपको आश्रित चर के मूल्यों की भविष्यवाणी करने की अनुमति देती है यूस्वतंत्र चर के मूल्यों से एक्स. निम्नलिखित नोट्स मॉडल का वर्णन करेंगे एकाधिक प्रतिगमन, स्वतंत्र चर के मूल्यों की भविष्यवाणी करने के लिए डिज़ाइन किया गया यूकई आश्रित चर के मूल्यों से ( एक्स 1 , एक्स 2 ,…, एक्स के).

नोट या प्रारूप में डाउनलोड करें, प्रारूप में उदाहरण

प्रतिगमन मॉडल के प्रकार

कहाँ पे ρ 1 स्वसहसंबंध गुणांक है; यदि ρ 1 = 0 (कोई स्वत: सहसंबंध नहीं), डी 2; यदि ρ 1 1 (सकारात्मक ऑटोसहसंबंध), डी 0; यदि ρ 1 = -1 (ऋणात्मक स्वसहसंबंध), डी ≈ 4.

व्यवहार में, डर्बिन-वाटसन मानदंड का अनुप्रयोग मूल्य की तुलना पर आधारित है डीमहत्वपूर्ण सैद्धांतिक मूल्यों के साथ घ लतथा डी यूप्रेक्षणों की दी गई संख्या के लिए एन, मॉडल के स्वतंत्र चर की संख्या (सरल रैखिक प्रतिगमन के लिए = 1) और महत्व स्तर α। यदि एक डी< d L , स्वतंत्रता परिकल्पना यादृच्छिक विचलनअस्वीकृत (इसलिए सकारात्मक ऑटोसहसंबंध मौजूद है); यदि डी > डीयू, परिकल्पना अस्वीकृत नहीं है (अर्थात, कोई स्वसंबंध नहीं है); यदि घ ल< D < d U निर्णय लेने के लिए पर्याप्त कारण नहीं है। जब परिकलित मान डी 2 से अधिक है, तो घ लतथा डी यूयह गुणांक ही नहीं है जिसकी तुलना की जा रही है डी, और व्यंजक (4 - डी).

एक्सेल में डर्बिन-वाटसन आँकड़ों की गणना करने के लिए, हम अंजीर में नीचे की तालिका की ओर मुड़ते हैं। चौदह शेष राशि निकासी. अभिव्यक्ति में अंश (10) की गणना फ़ंक्शन = SUMMQDIFF(array1, array2), और हर = SUMMQ(array) (चित्र 16) का उपयोग करके की जाती है।

चावल। 16. डर्बिन-वाटसन आँकड़ों की गणना के लिए सूत्र

हमारे उदाहरण में डी= 0.883। मुख्य प्रश्न यह है: डर्बिन-वाटसन आंकड़े के किस मूल्य को इतना छोटा माना जाना चाहिए कि यह निष्कर्ष निकाला जा सके कि एक सकारात्मक ऑटोसहसंबंध है? महत्वपूर्ण मूल्यों के साथ डी के मूल्य को सहसंबंधित करना आवश्यक है ( घ लतथा डी यू) प्रेक्षणों की संख्या के आधार पर एनऔर महत्व स्तर α (चित्र। 17)।

चावल। 17. डर्बिन-वाटसन सांख्यिकी के महत्वपूर्ण मूल्य (तालिका खंड)

इस प्रकार, आपके घर तक सामान पहुंचाने वाले स्टोर में बिक्री की मात्रा की समस्या में, एक स्वतंत्र चर है ( = 1), 15 अवलोकन ( एन= 15) और महत्व स्तर α = 0.05। फलस्वरूप, घ ल= 1.08 और डीयू= 1.36. क्यों कि डी = 0,883 < घ ल= 1.08, अवशेषों के बीच एक सकारात्मक स्वत: सहसंबंध है, कम से कम वर्ग विधि लागू नहीं की जा सकती है।

ढलान और सहसंबंध गुणांक के बारे में परीक्षण परिकल्पना

उपरोक्त प्रतिगमन केवल पूर्वानुमान के लिए लागू किया गया था। प्रतिगमन गुणांक निर्धारित करने और एक चर के मूल्य की भविष्यवाणी करने के लिए यूकिसी दिए गए चर मान के लिए एक्सकम से कम वर्ग की विधि का उपयोग किया गया था। इसके अलावा, हमने अनुमान की मानक त्रुटि और मिश्रित सहसंबंध के गुणांक पर विचार किया। यदि अवशिष्ट विश्लेषण पुष्टि करता है कि कम से कम वर्ग विधि की प्रयोज्यता शर्तों का उल्लंघन नहीं किया गया है, और नमूना डेटा के आधार पर सरल रैखिक प्रतिगमन मॉडल पर्याप्त है, तो यह तर्क दिया जा सकता है कि चर के बीच में आबादीएक रैखिक संबंध है।

आवेदन पत्रटी ढलान के लिए मानदंड।यह जाँच कर कि क्या जनसंख्या ढलान β 1 शून्य के बराबर है, कोई यह निर्धारित कर सकता है कि चरों के बीच सांख्यिकीय रूप से महत्वपूर्ण संबंध है या नहीं एक्सतथा यू. यदि इस परिकल्पना को खारिज कर दिया जाता है, तो यह तर्क दिया जा सकता है कि चरों के बीच एक्सतथा यूएक रैखिक संबंध है। शून्य और वैकल्पिक परिकल्पनाएं निम्नानुसार तैयार की जाती हैं: एच 0: β 1 = 0 (कोई रैखिक संबंध नहीं), एच 1: β 1 ≠ 0 (एक रैखिक संबंध है)। परिभाषा से टी-सांख्यिकी ढलान अनुमान की मानक त्रुटि से विभाजित नमूना ढलान और काल्पनिक जनसंख्या ढलान के बीच के अंतर के बराबर है:

(11) टी = (बी 1 β 1 ) / एसबी 1

कहाँ पे बी 1 नमूना डेटा के आधार पर प्रत्यक्ष प्रतिगमन का ढलान है, β1 प्रत्यक्ष सामान्य जनसंख्या का काल्पनिक ढलान है, , और परीक्षण आँकड़े टीयह है टी- वितरण के साथ एन - 2स्वतंत्रता का दर्जा।

आइए देखें कि α = 0.05 पर स्टोर के आकार और वार्षिक बिक्री के बीच सांख्यिकीय रूप से महत्वपूर्ण संबंध है या नहीं। टी- मानदंड का उपयोग करते समय अन्य मापदंडों के साथ प्रदर्शित किया जाता है विश्लेषण पैकेज(विकल्प वापसी) विश्लेषण पैकेज के पूर्ण परिणाम अंजीर में दिखाए गए हैं। 4, टी-सांख्यिकी से संबंधित एक टुकड़ा - अंजीर में। अठारह।

चावल। 18. आवेदन परिणाम टी

क्योंकि दुकानों की संख्या एन= 14 (चित्र 3 देखें), क्रांतिक मान टीमहत्व स्तर α = 0.05 पर -सांख्यिकी सूत्र द्वारा पाया जा सकता है: टी ली=STUDENT.INV(0.025;12) = -2.1788 जहां 0.025 महत्व स्तर का आधा है और 12 = एन – 2; टी यू\u003d STUDENT.INV (0.975, 12) \u003d +2.1788।

क्यों कि टी-सांख्यिकी = 10.64 > टी यू= 2.1788 (चित्र 19), शून्य परिकल्पना एच 0खारिज किया जाता है। दूसरी ओर, आर-के लिए मूल्य एक्स\u003d 10.6411, सूत्र द्वारा गणना \u003d 1-STUDENT.DIST (D3, 12, TRUE), लगभग शून्य के बराबर है, इसलिए परिकल्पना एच 0फिर से खारिज कर दिया जाता है। यह तथ्य कि आर-वैल्यू लगभग शून्य है, जिसका अर्थ है कि यदि स्टोर के आकार और वार्षिक बिक्री के बीच कोई वास्तविक रैखिक संबंध नहीं होता, तो रैखिक प्रतिगमन का उपयोग करके इसका पता लगाना लगभग असंभव होगा। इसलिए, औसत वार्षिक स्टोर बिक्री और स्टोर आकार के बीच सांख्यिकीय रूप से महत्वपूर्ण रैखिक संबंध है।

चावल। 19. सामान्य जनसंख्या के ढलान के बारे में परिकल्पना का परीक्षण 0.05 और 12 डिग्री स्वतंत्रता के महत्व स्तर पर करना

आवेदन पत्रएफ ढलान के लिए मानदंड।एक साधारण रेखीय प्रतिगमन के ढलान के बारे में परिकल्पना का परीक्षण करने के लिए एक वैकल्पिक दृष्टिकोण का उपयोग करना है एफ-मानदंड। याद करें कि एफ- मानदंड का उपयोग दो भिन्नताओं के बीच संबंध का परीक्षण करने के लिए किया जाता है (विवरण देखें)। ढलान परिकल्पना का परीक्षण करते समय, यादृच्छिक त्रुटियों का माप त्रुटि विचरण (वर्ग त्रुटियों का योग स्वतंत्रता की डिग्री की संख्या से विभाजित) होता है, इसलिए एफ-परीक्षण प्रतिगमन द्वारा समझाया गया विचरण के अनुपात का उपयोग करता है (अर्थात, मान एसएसआरस्वतंत्र चर की संख्या से विभाजित ), त्रुटि विचरण के लिए ( एमएसई = एसवाईएक्स 2 ).

परिभाषा से एफ-सांख्यिकी त्रुटि विचरण (MSE) द्वारा विभाजित प्रतिगमन (MSR) के कारण माध्य वर्ग विचलन के बराबर है: एफ = एमएसआर/ एमएसई, कहाँ पे एमएसआर =एसएसआर / , एमएसई =एसएसई/(एन- के - 1), केप्रतिगमन मॉडल में स्वतंत्र चर की संख्या है। टेस्ट आँकड़े एफयह है एफ- वितरण के साथ तथा एन- कश्मीर - 1स्वतंत्रता का दर्जा।

किसी दिए गए महत्व स्तर के लिए α निर्णय नियमनिम्नानुसार तैयार किया गया है: यदि एफ > एफयूशून्य परिकल्पना अस्वीकृत की जाती है; अन्यथा, इसे अस्वीकार नहीं किया जाता है। पिवट टेबल के रूप में प्रस्तुत किए गए परिणाम भिन्नता का विश्लेषणअंजीर में दिखाए गए हैं। बीस।

चावल। 20. एनोवा तालिका के बारे में परिकल्पना का परीक्षण करने के लिए आंकड़ों की महत्ताप्रतिगमन गुणांक

उसी प्रकार टी-मानदंड एफ-मानदंड का उपयोग करते समय तालिका में प्रदर्शित किया जाता है विश्लेषण पैकेज(विकल्प वापसी) कार्य के पूर्ण परिणाम विश्लेषण पैकेजअंजीर में दिखाया गया है। 4, से संबंधित टुकड़ा एफ-सांख्यिकी - अंजीर में। 21.

चावल। 21. आवेदन परिणाम एफ- एक्सेल एनालिसिस टूलपैक का उपयोग करके प्राप्त मानदंड

एफ-सांख्यिकी 113.23 है और आर-मान शून्य के करीब (सेल .) महत्वएफ) यदि महत्व स्तर α 0.05 है, तो महत्वपूर्ण मान निर्धारित करें एफ-एक और 12 डिग्री स्वतंत्रता के साथ वितरण सूत्र से प्राप्त किया जा सकता है एफ यू\u003d एफ। ओबीआर (1-0.05; 1; 12) \u003d 4.7472 (चित्र। 22)। क्यों कि एफ = 113,23 > एफ यू= 4.7472, और आर-मान 0 . के करीब< 0,05, нулевая гипотеза एच 0विचलन, अर्थात्। एक स्टोर का आकार उसकी वार्षिक बिक्री की मात्रा से निकटता से संबंधित है।

चावल। 22. एक और 12 डिग्री स्वतंत्रता के साथ 0.05 के महत्व स्तर पर सामान्य जनसंख्या के ढलान के बारे में परिकल्पना का परीक्षण करना

कॉन्फिडेंस इंटरवल जिसमें ढलान β 1 है।चरों के बीच एक रैखिक संबंध के अस्तित्व के बारे में परिकल्पना का परीक्षण करने के लिए, आप ढलान β 1 युक्त एक विश्वास अंतराल बना सकते हैं और सुनिश्चित कर सकते हैं कि काल्पनिक मान β 1 = 0 इस अंतराल से संबंधित है। आत्मविश्वास अंतराल का केंद्र ढलान β 1 वाला नमूना ढलान है बी 1 , और इसकी सीमाएँ मात्राएँ हैं बी 1 ±टी नहीं –2 एसबी 1

जैसा कि अंजीर में दिखाया गया है। अठारह, बी 1 = +1,670, एन = 14, एसबी 1 = 0,157. टी 12 \u003d छात्र। ओबीआर (0.975, 12) \u003d 2.1788। फलस्वरूप, बी 1 ±टी नहीं –2 एसबी 1 = +1.670 ± 2.1788 * 0.157 = +1.670 ± 0.342, या + 1.328 β 1 ≤ +2.012। इस प्रकार, 0.95 की संभावना वाली जनसंख्या का ढलान +1.328 से +2.012 (यानी, $1,328,000 से $2,012,000) की सीमा में है। क्योंकि ये मान शून्य से अधिक हैं, वार्षिक बिक्री और स्टोर क्षेत्र के बीच सांख्यिकीय रूप से महत्वपूर्ण रैखिक संबंध है। यदि विश्वास अंतराल में शून्य है, तो चरों के बीच कोई संबंध नहीं होगा। इसके अलावा, कॉन्फिडेंस इंटरवल का मतलब है कि हर 1,000 sq. फ़ीट के परिणामस्वरूप औसत बिक्री $1,328,000 से $2,012,000 तक बढ़ जाती है।

प्रयोगटी सहसंबंध गुणांक के लिए मानदंड।सहसंबंध गुणांक पेश किया गया था आर, जो दो संख्यात्मक चर के बीच संबंध का एक उपाय है। इसका उपयोग यह निर्धारित करने के लिए किया जा सकता है कि दो चर के बीच सांख्यिकीय रूप से महत्वपूर्ण संबंध है या नहीं। आइए हम प्रतीक द्वारा दोनों चरों की आबादी के बीच सहसंबंध गुणांक को निरूपित करें। शून्य और वैकल्पिक परिकल्पनाएँ निम्नानुसार तैयार की जाती हैं: एच 0: = 0 (कोई सहसंबंध नहीं), एच 1: 0 (एक सहसंबंध है)। सहसंबंध के अस्तित्व की जाँच करना:

कहाँ पे आर = + , यदि बी 1 > 0, आर = – , यदि बी 1 < 0. Тестовая статистика टीयह है टी- वितरण के साथ एन - 2स्वतंत्रता का दर्जा।

सूरजमुखी भंडार श्रृंखला की समस्या में r2= 0.904, और ख 1- +1.670 (चित्र 4 देखें)। क्यों कि ख 1> 0, वार्षिक बिक्री और स्टोर आकार के बीच सहसंबंध गुणांक है आर= +√0.904 = +0.951। आइए शून्य परिकल्पना का परीक्षण करें कि इन चरों के बीच कोई संबंध नहीं है टी- आँकड़े:

α = 0.05 के महत्व स्तर पर, शून्य परिकल्पना को अस्वीकार कर दिया जाना चाहिए क्योंकि टी= 10.64 > 2.1788। इस प्रकार, यह तर्क दिया जा सकता है कि वार्षिक बिक्री और स्टोर आकार के बीच सांख्यिकीय रूप से महत्वपूर्ण संबंध है।

जनसंख्या ढलानों के बारे में अनुमानों पर चर्चा करते समय, विश्वास अंतराल और परीक्षण परिकल्पना के मानदंड विनिमेय उपकरण हैं। हालांकि, सहसंबंध गुणांक वाले विश्वास अंतराल की गणना अधिक कठिन हो जाती है, क्योंकि आंकड़ों के नमूना वितरण के रूप में आरवास्तविक सहसंबंध गुणांक पर निर्भर करता है।

गणितीय अपेक्षा का अनुमान और व्यक्तिगत मूल्यों की भविष्यवाणी

यह खंड अपेक्षित प्रतिक्रिया का अनुमान लगाने के तरीकों पर चर्चा करता है यूऔर व्यक्तिगत मूल्यों की भविष्यवाणी यूचर के दिए गए मानों के लिए एक्स.

एक विश्वास अंतराल का निर्माण।उदाहरण 2 में (उपरोक्त अनुभाग देखें कम से कम वर्ग विधि) प्रतिगमन समीकरणचर के मूल्य की भविष्यवाणी करने की अनुमति दी यू एक्स. रिटेल आउटलेट के लिए स्थान चुनने की समस्या में, एक स्टोर में 4000 वर्ग मीटर के क्षेत्र में औसत वार्षिक बिक्री। फ़ीट 7.644 मिलियन डॉलर के बराबर था। हालाँकि, सामान्य जनसंख्या की गणितीय अपेक्षा का यह अनुमान एक बिंदु है। सामान्य जनसंख्या की गणितीय अपेक्षा का अनुमान लगाने के लिए, एक विश्वास अंतराल की अवधारणा प्रस्तावित की गई थी। इसी तरह, कोई अवधारणा पेश कर सकता है प्रतिक्रिया की गणितीय अपेक्षा के लिए विश्वास अंतरालएक चर के दिए गए मान के लिए एक्स:

कहाँ पे , = बी 0 + बी 1 एक्स मैं- अनुमानित मूल्य चर यूपर एक्स = एक्स मैं, एस वाईएक्समाध्य वर्ग त्रुटि है, एननमूना आकार है, एक्समैं- चर का दिया गया मान एक्स, µ यू|एक्स = एक्समैंअपेक्षित मूल्यचर यूपर एक्स = मैं,एसएसएक्स=

सूत्र (13) के विश्लेषण से पता चलता है कि विश्वास अंतराल की चौड़ाई कई कारकों पर निर्भर करती है। महत्व के दिए गए स्तर पर, प्रतिगमन रेखा के चारों ओर उतार-चढ़ाव के आयाम में वृद्धि, माध्य वर्ग त्रुटि का उपयोग करके मापा जाता है, जिससे अंतराल की चौड़ाई में वृद्धि होती है। दूसरी ओर, जैसा कि अपेक्षित था, नमूना आकार में वृद्धि के साथ अंतराल का संकुचन होता है। इसके अलावा, अंतराल की चौड़ाई मूल्यों के आधार पर बदलती है एक्समैं. यदि चर का मान यूमात्रा के लिए अनुमानित एक्स, औसत मूल्य के करीब , माध्य से दूर मूल्यों के लिए प्रतिक्रिया की भविष्यवाणी करने की तुलना में विश्वास अंतराल संकरा हो जाता है।

मान लें कि किसी स्टोर के लिए स्थान चुनते समय, हम 4000 वर्ग मीटर के क्षेत्र के साथ सभी दुकानों में औसत वार्षिक बिक्री के लिए 95% विश्वास अंतराल बनाना चाहते हैं। पैर:

इसलिए, 4,000 वर्ग मीटर के क्षेत्र के साथ सभी दुकानों में औसत वार्षिक बिक्री की मात्रा। फीट, 95% संभावना के साथ 6.971 से 8.317 मिलियन डॉलर की सीमा में है।

अनुमानित मूल्य के लिए विश्वास अंतराल की गणना करें।चर के दिए गए मान के लिए प्रतिक्रिया की गणितीय अपेक्षा के लिए विश्वास अंतराल के अलावा एक्स, अनुमानित मूल्य के लिए विश्वास अंतराल को जानना अक्सर आवश्यक होता है। हालांकि इस तरह के विश्वास अंतराल की गणना के लिए सूत्र सूत्र (13) के समान है, इस अंतराल में एक अनुमानित मान होता है न कि पैरामीटर का अनुमान। अनुमानित प्रतिक्रिया के लिए अंतराल यूएक्स = क्सीचर के एक विशिष्ट मूल्य के लिए एक्समैंसूत्र द्वारा निर्धारित किया जाता है:

आइए मान लें कि खुदरा आउटलेट के लिए स्थान चुनते समय, हम 4000 वर्ग मीटर के क्षेत्र के साथ एक स्टोर में अनुमानित वार्षिक बिक्री मात्रा के लिए 95% विश्वास अंतराल बनाना चाहते हैं। पैर:

इसलिए, 4,000 वर्ग फुट के लिए अनुमानित वार्षिक बिक्री की मात्रा। फीट, 95% संभावना के साथ 5.433 से 9.854 मिलियन डॉलर की सीमा में है। जैसा कि आप देख सकते हैं, अनुमानित प्रतिक्रिया मूल्य के लिए आत्मविश्वास अंतराल इसकी गणितीय अपेक्षा के लिए आत्मविश्वास अंतराल से कहीं अधिक व्यापक है। ऐसा इसलिए है क्योंकि व्यक्तिगत मूल्यों की भविष्यवाणी करने में परिवर्तनशीलता अपेक्षित मूल्य के आकलन की तुलना में बहुत अधिक है।

प्रतिगमन के उपयोग से जुड़े नुकसान और नैतिक मुद्दे

प्रतिगमन विश्लेषण से जुड़ी कठिनाइयाँ:

  • कम से कम वर्गों की विधि की प्रयोज्यता की शर्तों को अनदेखा करना।
  • कम से कम वर्गों की विधि की प्रयोज्यता के लिए शर्तों का गलत अनुमान।
  • कम से कम वर्ग विधि की प्रयोज्यता की शर्तों के उल्लंघन में वैकल्पिक तरीकों का गलत चुनाव।
  • अध्ययन के विषय के गहन ज्ञान के बिना प्रतिगमन विश्लेषण का अनुप्रयोग।
  • व्याख्यात्मक चर की सीमा से परे प्रतिगमन का एक्सट्रपलेशन।
  • सांख्यिकीय और कारण संबंधों के बीच भ्रम।

स्प्रैडशीट्स और सांख्यिकीय सॉफ़्टवेयर के व्यापक उपयोग ने उन कम्प्यूटेशनल समस्याओं को समाप्त कर दिया है जो प्रतिगमन विश्लेषण के उपयोग को रोकते थे। हालांकि, इससे यह तथ्य सामने आया कि प्रतिगमन विश्लेषण का उपयोग उन उपयोगकर्ताओं द्वारा किया जाने लगा जिनके पास पर्याप्त योग्यता और ज्ञान नहीं है। उपयोगकर्ताओं को वैकल्पिक तरीकों के बारे में कैसे पता चलता है, यदि उनमें से कई को कम से कम वर्ग विधि की प्रयोज्यता की शर्तों के बारे में बिल्कुल भी जानकारी नहीं है और यह नहीं पता कि उनके कार्यान्वयन की जांच कैसे करें?

शोधकर्ता को संख्याओं को पीसकर दूर नहीं ले जाना चाहिए - शिफ्ट, ढलान और मिश्रित सहसंबंध गुणांक की गणना करना। उसे गहन ज्ञान की आवश्यकता है। आइए इसे पाठ्यपुस्तकों से लिए गए एक उत्कृष्ट उदाहरण से स्पष्ट करें। Anscombe ने दिखाया कि सभी चार डेटासेट अंजीर में दिखाए गए हैं। 23 में समान प्रतिगमन पैरामीटर हैं (चित्र 24)।

चावल। 23. चार कृत्रिम डेटा सेट

चावल। 24. चार कृत्रिम डेटा सेट का रिग्रेशन विश्लेषण; पूर्ण हो गया विश्लेषण पैकेज(छवि को बड़ा करने के लिए छवि पर क्लिक करें)

इसलिए, प्रतिगमन विश्लेषण के दृष्टिकोण से, ये सभी डेटा सेट पूरी तरह से समान हैं। अगर इस पर विश्लेषण खत्म हो जाता तो हमें बहुत कुछ गंवाना पड़ता उपयोगी जानकारी. इसका सबूत इन डेटा सेटों के लिए बनाए गए स्कैटर प्लॉट (चित्र 25) और अवशिष्ट प्लॉट (चित्र 26) से है।

चावल। 25. चार डेटासेट के लिए स्कैटर प्लॉट

स्कैटर प्लॉट और अवशिष्ट प्लॉट बताते हैं कि ये डेटा एक दूसरे से अलग हैं। एक सीधी रेखा के साथ वितरित एकमात्र सेट सेट ए है। सेट ए से गणना किए गए अवशिष्टों के प्लॉट में कोई पैटर्न नहीं है। सेट बी, सी और डी के लिए भी ऐसा नहीं कहा जा सकता है। सेट बी के लिए प्लॉट किया गया स्कैटर प्लॉट एक स्पष्ट द्विघात पैटर्न दिखाता है। इस निष्कर्ष की पुष्टि अवशेषों की साजिश से होती है, जिसमें एक परवलयिक आकार होता है। स्कैटर प्लॉट और अवशिष्ट प्लॉट बताते हैं कि डेटासेट बी में एक बाहरी है। इस स्थिति में, डेटा सेट से बाहरी को बाहर करना और विश्लेषण को दोहराना आवश्यक है। प्रेक्षणों से बाह्य कारकों का पता लगाने और उन्हें समाप्त करने की तकनीक को प्रभाव विश्लेषण कहा जाता है। बाहरी को खत्म करने के बाद, मॉडल के पुनर्मूल्यांकन का परिणाम पूरी तरह से अलग हो सकता है। डेटा सेट डी से प्लॉट किया गया स्कैटरप्लॉट एक असामान्य स्थिति को दर्शाता है जिसमें अनुभवजन्य मॉडल एक प्रतिक्रिया पर अत्यधिक निर्भर है ( एक्स 8 = 19, यू 8 = 12.5)। ऐसे प्रतिगमन मॉडल की गणना विशेष रूप से सावधानीपूर्वक करने की आवश्यकता है। तो, बिखराव और अवशिष्ट भूखंड अत्यंत हैं आवश्यक उपकरणप्रतिगमन विश्लेषण और इसका एक अभिन्न अंग होना चाहिए। उनके बिना, प्रतिगमन विश्लेषण विश्वसनीय नहीं है।

चावल। 26. चार डेटासेट के लिए अवशिष्ट के प्लॉट

प्रतिगमन विश्लेषण में नुकसान से कैसे बचें:

  • चरों के बीच संभावित संबंध का विश्लेषण एक्सतथा यूहमेशा स्कैटरप्लॉट से शुरू करें।
  • प्रतिगमन विश्लेषण के परिणामों की व्याख्या करने से पहले, इसकी प्रयोज्यता के लिए शर्तों की जांच करें।
  • अवशिष्ट बनाम स्वतंत्र चर प्लॉट करें। यह यह निर्धारित करने की अनुमति देगा कि अनुभवजन्य मॉडल अवलोकन के परिणामों से कैसे मेल खाता है, और विचरण की स्थिरता के उल्लंघन का पता लगाने के लिए।
  • के बारे में धारणा का परीक्षण करने के लिए सामान्य वितरणत्रुटियां, हिस्टोग्राम, स्टेम-एंड-लीफ प्लॉट, बॉक्स प्लॉट और सामान्य वितरण प्लॉट का उपयोग करें।
  • यदि कम से कम वर्ग विधि की प्रयोज्यता शर्तें पूरी नहीं होती हैं, तो वैकल्पिक विधियों का उपयोग करें (उदाहरण के लिए, द्विघात या एकाधिक प्रतिगमन मॉडल)।
  • यदि कम से कम वर्ग विधि की प्रयोज्यता शर्तों को पूरा किया जाता है, तो प्रतिगमन गुणांक के सांख्यिकीय महत्व के बारे में परिकल्पना का परीक्षण करना और गणितीय अपेक्षा और अनुमानित प्रतिक्रिया मूल्य वाले आत्मविश्वास अंतराल का निर्माण करना आवश्यक है।
  • स्वतंत्र चर की सीमा के बाहर आश्रित चर के मूल्यों की भविष्यवाणी करने से बचें।
  • ध्यान रखें कि सांख्यिकीय निर्भरता हमेशा कारण नहीं होती है। याद रखें कि चरों के बीच सहसंबंध का मतलब यह नहीं है कि उनके बीच एक कारण संबंध है।

सारांश।जैसा कि ब्लॉक आरेख (चित्र 27) में दिखाया गया है, नोट एक सरल रैखिक प्रतिगमन मॉडल, इसकी प्रयोज्यता की शर्तों और इन स्थितियों का परीक्षण करने के तरीकों का वर्णन करता है। सोच-विचार किया हुआ टी-प्रतिगमन के ढलान के सांख्यिकीय महत्व के परीक्षण के लिए मानदंड। आश्रित चर के मूल्यों की भविष्यवाणी करने के लिए एक प्रतिगमन मॉडल का उपयोग किया गया था। एक खुदरा आउटलेट के लिए एक जगह के चुनाव से संबंधित एक उदाहरण माना जाता है, जिसमें स्टोर क्षेत्र पर वार्षिक बिक्री की मात्रा की निर्भरता का अध्ययन किया जाता है। प्राप्त जानकारी से आप स्टोर के लिए अधिक सटीक रूप से स्थान का चयन कर सकते हैं और इसकी वार्षिक बिक्री का अनुमान लगा सकते हैं। निम्नलिखित नोटों में, प्रतिगमन विश्लेषण की चर्चा जारी रहेगी, साथ ही साथ कई प्रतिगमन मॉडल भी।

चावल। 27. एक नोट का ब्लॉक आरेख

लेविन एट अल पुस्तक से सामग्री प्रबंधकों के लिए सांख्यिकी का उपयोग किया जाता है। - एम .: विलियम्स, 2004. - पी। 792-872

यदि आश्रित चर श्रेणीबद्ध है, तो लॉजिस्टिक प्रतिगमन लागू किया जाना चाहिए।

प्रतिगमन रेखा घटना के बीच संबंध का एक चित्रमय प्रतिबिंब है। आप एक्सेल में आसानी से रिग्रेशन लाइन बना सकते हैं।

इसके लिए आपको चाहिए:

1. एक्सेल प्रोग्राम खोलें

2. डेटा के साथ कॉलम बनाएं। हमारे उदाहरण में, हम प्रथम-ग्रेडर में आक्रामकता और आत्म-संदेह के बीच एक प्रतिगमन रेखा, या संबंध बनाएंगे। प्रयोग में 30 बच्चे शामिल थे, डेटा एक्सेल तालिका में प्रस्तुत किया गया है:

1 कॉलम - विषय की संख्या

2 कॉलम - आक्रामकताअंक में

3 कॉलम - आत्मसम्मान की कमीअंक में

3. फिर आपको दोनों कॉलम (कॉलम के नाम के बिना) का चयन करना होगा, टैब दबाएं डालना , चुनें बिंदु , और प्रस्तावित लेआउट में से सबसे पहले चुनें मार्करों के साथ डॉट .

4. तो हमें प्रतिगमन रेखा के लिए एक रिक्त स्थान मिला - तथाकथित - स्कैटर प्लॉट. प्रतिगमन रेखा पर जाने के लिए, आपको परिणामी आकृति पर क्लिक करना होगा, टैब पर क्लिक करना होगा निर्माता, पैनल पर खोजें चार्ट लेआउट और चुनें एम एककेट9 , यह भी कहता है एफ (एक्स)

5. तो, हमारे पास एक प्रतिगमन रेखा है। ग्राफ इसके समीकरण और सहसंबंध गुणांक के वर्ग को भी दर्शाता है

6. इसमें ग्राफ का नाम, अक्षों का नाम जोड़ना बाकी है। इसके अलावा, यदि वांछित है, तो आप किंवदंती को हटा सकते हैं, संख्या कम कर सकते हैं क्षैतिज रेखाएंग्रिड (टैब विन्यास , फिर जाल ) मुख्य परिवर्तन और सेटिंग्स टैब में किए गए हैं विन्यास

प्रतिगमन रेखा MS Excel में निर्मित होती है। अब इसे कार्य के पाठ में जोड़ा जा सकता है।

क्षेत्र के क्षेत्रों के लिए, डेटा 200X के लिए दिया गया है।

क्षेत्र संख्या औसत प्रति व्यक्ति निर्वाह न्यूनतम प्रति दिन एक सक्षम व्यक्ति के लिए, रगड़।, x औसत दैनिक वेतन, रगड़।, पर
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

व्यायाम:

1. एक सहसंबंध क्षेत्र बनाएं और संबंध के रूप के बारे में एक परिकल्पना तैयार करें।

2. रैखिक प्रतिगमन समीकरण के मापदंडों की गणना करें

4. लोच के औसत (सामान्य) गुणांक का उपयोग करते हुए, कारक और परिणाम के बीच संबंध की ताकत का तुलनात्मक मूल्यांकन दें।

7. परिणाम के अनुमानित मूल्य की गणना करें यदि कारक का अनुमानित मूल्य उसके औसत स्तर से 10% बढ़ जाता है। महत्व स्तर के लिए भविष्यवाणी का विश्वास अंतराल निर्धारित करें।

समाधान:

आइए एक्सेल का उपयोग करके इस समस्या को हल करें।

1. उपलब्ध डेटा x और y की तुलना करना, उदाहरण के लिए, उन्हें x कारक के आरोही क्रम में क्रमबद्ध करना, कोई भी संकेतों के बीच प्रत्यक्ष संबंध की उपस्थिति का निरीक्षण कर सकता है जब प्रति व्यक्ति निर्वाह न्यूनतम में वृद्धि से औसत दैनिक मजदूरी बढ़ जाती है। इसके आधार पर, यह माना जा सकता है कि संकेतों के बीच संबंध प्रत्यक्ष है और इसे एक सीधी रेखा के समीकरण द्वारा वर्णित किया जा सकता है। चित्रमय विश्लेषण के आधार पर उसी निष्कर्ष की पुष्टि की जाती है।

सहसंबंध क्षेत्र बनाने के लिए, आप एक्सेल पीपीपी का उपयोग कर सकते हैं। अनुक्रम में प्रारंभिक डेटा दर्ज करें: पहले x, फिर y।

डेटा युक्त कोशिकाओं के क्षेत्र का चयन करें।

उसके बाद चुनो: मार्करों के साथ डालें / स्कैटर / स्कैटरजैसा कि चित्र एक में दिखाया गया है।

चित्र 1 सहसंबंध क्षेत्र निर्माण

सहसंबंध क्षेत्र का विश्लेषण रेक्टिलिनियर के करीब एक निर्भरता की उपस्थिति को दर्शाता है, क्योंकि बिंदु लगभग एक सीधी रेखा में स्थित होते हैं।

2. रेखीय प्रतीपगमन समीकरण के प्राचलों की गणना करने के लिए
अंतर्निहित सांख्यिकीय फ़ंक्शन का उपयोग करें लाइनस्ट.

इसके लिए:

1) विश्लेषण किए जाने वाले डेटा वाली मौजूदा फ़ाइल खोलें;
2) प्रतिगमन आँकड़ों के परिणामों को प्रदर्शित करने के लिए खाली सेल 5×2 (5 पंक्तियाँ, 2 कॉलम) के क्षेत्र का चयन करें।
3) सक्रिय करें फंक्शन विजार्ड: मुख्य मेनू में, चुनें सूत्र / सम्मिलित कार्य.
4) खिड़की में श्रेणीआप लीजिए सांख्यिकीय, फंक्शन विंडो में - लाइनस्ट. बटन पर क्लिक करें ठीक हैजैसा कि चित्र 2 में दिखाया गया है;

चित्र 2 फंक्शन विजार्ड डायलॉग बॉक्स

5) फ़ंक्शन तर्क भरें:

ज्ञात मान

ज्ञात x मान

नियत- एक तार्किक मान जो समीकरण में एक मुक्त पद की उपस्थिति या अनुपस्थिति को इंगित करता है; यदि स्थिरांक = 1 है, तो मुक्त पद की गणना सामान्य तरीके से की जाती है, यदि स्थिरांक = 0 है, तो मुक्त पद 0 है;

आंकड़े- एक बूलियन मान जो इंगित करता है कि प्रतिगमन विश्लेषण पर अतिरिक्त जानकारी प्रदर्शित करना है या नहीं। यदि सांख्यिकी = 1, तो अतिरिक्त जानकारीप्रदर्शित किया जाता है, यदि सांख्यिकी = 0 है, तो केवल समीकरण के मापदंडों के अनुमान प्रदर्शित किए जाते हैं।

बटन पर क्लिक करें ठीक है;

चित्र 3 LINEST तर्क संवाद बॉक्स

6) अंतिम तालिका का पहला तत्व चयनित क्षेत्र के ऊपरी बाएँ कक्ष में दिखाई देगा। संपूर्ण तालिका का विस्तार करने के लिए, बटन दबाएं और फिर कीबोर्ड शॉर्टकट पर ++ .

अतिरिक्त प्रतिगमन आँकड़े निम्न स्कीमा में दिखाए गए क्रम में आउटपुट होंगे:

गुणांक b . का मान गुणांक का मान a
बी मानक त्रुटि मानक त्रुटि a
मानक त्रुटि y
एफ आंकड़ा
वर्गों का प्रतिगमन योग

चित्र 4 LINEST फ़ंक्शन की गणना का परिणाम

हमें प्रतिगमन समीकरण मिला:

हम निष्कर्ष निकालते हैं: प्रति व्यक्ति निर्वाह में न्यूनतम 1 रगड़ की वृद्धि के साथ। औसत दैनिक वेतन में औसतन 0.92 रूबल की वृद्धि होती है।

मतलब 52% भिन्नता वेतन(y) मॉडल में शामिल नहीं किए गए अन्य कारकों की कार्रवाई द्वारा x कारक - औसत प्रति व्यक्ति निर्वाह न्यूनतम, और 48% - की भिन्नता द्वारा समझाया गया है।

निर्धारण के परिकलित गुणांक के अनुसार, सहसंबंध गुणांक की गणना करना संभव है: .

रिश्ते को करीब का दर्जा दिया गया है।

4. लोच के औसत (सामान्य) गुणांक का उपयोग करके, हम परिणाम पर कारक के प्रभाव की ताकत निर्धारित करते हैं।

सीधी रेखा समीकरण के लिए, औसत (सामान्य) लोच गुणांक सूत्र द्वारा निर्धारित किया जाता है:

हम x मान वाले कक्षों के क्षेत्र का चयन करके औसत मान ज्ञात करते हैं, और चयन करते हैं सूत्र / ऑटोसम / औसत, और y के मानों के साथ भी ऐसा ही करें।

चित्र 5 किसी फ़ंक्शन और तर्क के माध्य मानों की गणना

इस प्रकार, यदि औसत प्रति व्यक्ति निर्वाह न्यूनतम अपने औसत मूल्य से 1% बदलता है, तो औसत दैनिक वेतन औसतन 0.51% बदल जाएगा।

डेटा विश्लेषण उपकरण का उपयोग करना वापसीउपलब्ध:
- प्रतिगमन आँकड़ों के परिणाम,
- फैलाव विश्लेषण के परिणाम,
- विश्वास अंतराल के परिणाम,
- अवशिष्ट और प्रतिगमन रेखा चार्ट फिट होते हैं,
- अवशिष्ट और सामान्य संभावना।

प्रक्रिया निम्नलिखित है:

1) तक पहुंच की जांच करें विश्लेषण पैकेज. मुख्य मेनू में, क्रम में चयन करें: फ़ाइल/सेटिंग्स/ऐड-ऑन.

2) ड्रॉप नियंत्रणवस्तु चुनें एक्सेल ऐड-इन्सऔर बटन दबाएं जाओ।

3) खिड़की में ऐड-ऑनबॉक्स को चेक करें विश्लेषण पैकेज, और फिर बटन पर क्लिक करें ठीक है.

यदि एक विश्लेषण पैकेजक्षेत्र सूची से गायब उपलब्ध ऐड-ऑन, बटन दबाएँ समीक्षाखोजना।

यदि आपको यह संदेश मिलता है कि आपके कंप्यूटर पर विश्लेषण पैक स्थापित नहीं है, तो क्लिक करें हाँइसे स्थापित करने के लिए।

4) मुख्य मेनू में, क्रम में चयन करें: डेटा / डेटा विश्लेषण / विश्लेषण उपकरण / प्रतिगमन, और फिर बटन पर क्लिक करें ठीक है.

5) डेटा प्रविष्टि और आउटपुट विकल्प संवाद बॉक्स भरें:

इनपुट अंतराल Y- प्रभावी विशेषता के डेटा वाली श्रेणी;

इनपुट अंतराल X- कारक विशेषता के डेटा वाली श्रेणी;

टैग- एक ध्वज जो इंगित करता है कि पहली पंक्ति में स्तंभों के नाम हैं या नहीं;

स्थिर - शून्य- समीकरण में एक मुक्त पद की उपस्थिति या अनुपस्थिति का संकेत देने वाला ध्वज;

आउटपुट अंतराल- यह भविष्य की सीमा के ऊपरी बाएँ सेल को इंगित करने के लिए पर्याप्त है;

6) नई वर्कशीट - आप नई शीट के लिए मनमाना नाम सेट कर सकते हैं।

फिर बटन दबाएं ठीक है.

चित्र 6 रिग्रेशन टूल के पैरामीटर दर्ज करने के लिए डायलॉग बॉक्स

समस्या डेटा के लिए प्रतिगमन विश्लेषण के परिणाम चित्र 7 में दिखाए गए हैं।

चित्र 7 प्रतिगमन उपकरण लागू करने का परिणाम

5. का उपयोग करके अनुमान लगाएं औसत त्रुटिसमीकरणों की सन्निकटन गुणवत्ता। आइए चित्र 8 में प्रस्तुत प्रतीपगमन विश्लेषण के परिणामों का उपयोग करें।

चित्र 8 प्रतिगमन उपकरण "अवशिष्ट अनुमान" को लागू करने का परिणाम

आइए एक नई तालिका बनाएं जैसा कि चित्र 9 में दिखाया गया है। कॉलम C में, गणना करें रिश्तेदारों की गलतीसूत्र द्वारा अनुमान:

चित्र 9 औसत सन्निकटन त्रुटि की गणना

औसत सन्निकटन त्रुटि की गणना सूत्र द्वारा की जाती है:

निर्मित मॉडल की गुणवत्ता का मूल्यांकन अच्छे के रूप में किया जाता है, क्योंकि यह 8 - 10% से अधिक नहीं होता है।

6. तालिका से प्रतिगमन आँकड़े(चित्र 4) आइए फिशर के एफ-मानदंड का वास्तविक मूल्य लिखें:

क्यों कि 5% महत्व स्तर पर, तो हम यह निष्कर्ष निकाल सकते हैं कि प्रतिगमन समीकरण महत्वपूर्ण है (संबंध सिद्ध होता है)।

8. हम छात्र के टी-सांख्यिकी का उपयोग करके और प्रत्येक संकेतक के लिए विश्वास अंतराल की गणना करके प्रतिगमन मापदंडों के सांख्यिकीय महत्व का मूल्यांकन करेंगे।

हम शून्य से संकेतकों के सांख्यिकीय रूप से महत्वहीन अंतर के बारे में परिकल्पना एच 0 को सामने रखते हैं:

.

स्वतंत्रता की डिग्री की संख्या के लिए

चित्र 7 में t-सांख्यिकी के वास्तविक मान हैं:

सहसंबंध गुणांक के लिए टी-परीक्षण की गणना दो तरीकों से की जा सकती है:

मेरा तरीका:

कहाँ पे - सहसंबंध गुणांक की यादृच्छिक त्रुटि।

हम चित्र 7 में तालिका से गणना के लिए डेटा लेते हैं।

दूसरा रास्ता:

वास्तविक टी-सांख्यिकीय मान तालिका मानों से बेहतर हैं:

इसलिए, परिकल्पना एच 0 को खारिज कर दिया जाता है, यानी प्रतिगमन पैरामीटर और सहसंबंध गुणांक शून्य से यादृच्छिक रूप से भिन्न नहीं होते हैं, लेकिन सांख्यिकीय रूप से महत्वपूर्ण होते हैं।

पैरामीटर a के लिए विश्वास अंतराल को इस प्रकार परिभाषित किया गया है

पैरामीटर ए के लिए, 95% सीमाएं, जैसा कि चित्र 7 में दिखाया गया है:

प्रतिगमन गुणांक के लिए विश्वास अंतराल को परिभाषित किया गया है

प्रतीपगमन गुणांक b के लिए, चित्र 7 में दर्शाए अनुसार 95% सीमाएँ थीं:

विश्वास अंतराल की ऊपरी और निचली सीमाओं के विश्लेषण से यह निष्कर्ष निकलता है कि संभावना के साथ पैरामीटर ए और बी, निर्दिष्ट सीमाओं के भीतर होने के कारण, शून्य मान नहीं लेते हैं, अर्थात। सांख्यिकीय रूप से महत्वपूर्ण नहीं हैं और शून्य से काफी भिन्न हैं।

7. प्रतिगमन समीकरण के प्राप्त अनुमान हमें पूर्वानुमान के लिए इसका उपयोग करने की अनुमति देते हैं। यदि निर्वाह का पूर्वानुमान मूल्य न्यूनतम है:

तब निर्वाह का अनुमानित मूल्य न्यूनतम होगा:

हम सूत्र का उपयोग करके पूर्वानुमान त्रुटि की गणना करते हैं:

कहाँ पे

हम एक्सेल पीपीपी का उपयोग करके विचरण की गणना भी करते हैं। इसके लिए:

1) सक्रिय करें फंक्शन विजार्ड: मुख्य मेनू में, चुनें सूत्र / सम्मिलित कार्य.

3) कारक विशेषता के संख्यात्मक डेटा वाले श्रेणी को भरें। क्लिक ठीक है.

चित्र 10 प्रसरण गणना

विचरण मान प्राप्त करें

प्रति एक डिग्री स्वतंत्रता के अवशिष्ट विचरण की गणना करने के लिए, हम विचरण के विश्लेषण के परिणामों का उपयोग करते हैं जैसा कि चित्र 7 में दिखाया गया है।

0.95 की संभावना के साथ y के व्यक्तिगत मूल्यों की भविष्यवाणी के लिए विश्वास अंतराल अभिव्यक्ति द्वारा निर्धारित किया जाता है:

अंतराल काफी व्यापक है, मुख्यतः टिप्पणियों की छोटी मात्रा के कारण। सामान्य तौर पर, औसत मासिक वेतन का पूरा पूर्वानुमान विश्वसनीय निकला।

समस्या की स्थिति से लिया गया है: अर्थमिति पर कार्यशाला: प्रोक। भत्ता / आई.आई. एलिसेवा, एस.वी. कुरीशेवा, एन.एम. गोर्डिन्को और अन्य; ईडी। आई.आई. एलिसेवा। - एम .: वित्त और सांख्यिकी, 2003. - 192 पी .: बीमार।

भाप से भरा कमरा रेखीय प्रतिगमन एक चर और दूसरे चर के माध्य के बीच संबंध है। अक्सर, मॉडल को $y=ax+b+e$ के रूप में लिखा जाता है, जहां $x$ एक कारक चर है, $y$ परिणामी (आश्रित) है, $e$ एक यादृच्छिक घटक (अवशिष्ट, विचलन) है।

गणितीय आँकड़ों में शैक्षिक समस्याओं में आमतौर पर निम्नलिखित का उपयोग किया जाता है: कलन विधिप्रतिगमन समीकरण खोजने के लिए।

  1. मॉडल (समीकरण) की पसंद। अक्सर मॉडल पूर्व निर्धारित होता है (ढूंढें रेखीय प्रतिगमन) या चयन उपयोग के लिए ग्राफिक विधि: एक स्कैटरप्लॉट बनाएं और उसके आकार का विश्लेषण करें।
  2. प्रतिगमन समीकरण के गुणांक (पैरामीटर) की गणना। यह अक्सर कम से कम वर्ग विधि का उपयोग करके किया जाता है।
  3. फिशर मानदंड का उपयोग करके मॉडल की गुणवत्ता का आकलन करते हुए सहसंबंध गुणांक और मॉडल मापदंडों (उनके लिए आत्मविश्वास अंतराल भी बनाया जा सकता है) के महत्व की जांच करना।
  4. अवशिष्ट विश्लेषण, प्रतिगमन मानक त्रुटि गणना, मॉडल भविष्यवाणी (वैकल्पिक)।

नीचे आपको युग्मित प्रतिगमन (डेटा श्रृंखला या सहसंबंध तालिका पर, विभिन्न अतिरिक्त कार्यों के साथ) और सहसंबंध गुणांक को निर्धारित करने और जांचने के लिए कुछ कार्यों के समाधान मिलेंगे।


पसंद किया? बुकमार्क

उदाहरण समाधान ऑनलाइन: रैखिक प्रतिगमन

सरल चयन

उदाहरण 1प्रति तिमाही 20 दुकानों में औसत आउटपुट प्रति कर्मचारी वाई (हजार रूबल) और टर्नओवर एक्स (हजार रूबल) पर डेटा है। निर्दिष्ट डेटा के आधार पर यह आवश्यक है:
1) टर्नओवर पर प्रति कर्मचारी औसत उत्पादन की निर्भरता (सहसंबंध गुणांक) निर्धारित करें,
2) इस निर्भरता के प्रत्यक्ष प्रतिगमन का समीकरण बनाने के लिए।

उदाहरण 2समान संख्या में कर्मचारियों के साथ एक ही प्रकार की पांच फर्मों में मजदूरी और श्रम कारोबार के पारस्परिक प्रभाव का विश्लेषण करने के लिए, स्तर का मापन मासिक वेतन X और वर्ष Y के दौरान छोड़ने वाले श्रमिकों की संख्या:
एक्स 100 150 200 250 300
वाई 60 35 20 20 15
X पर Y का रैखिक समाश्रयण ज्ञात कीजिए, प्रतिदर्श सहसंबंध गुणांक।

उदाहरण 3चयनात्मक खोजें संख्यात्मक विशेषताएंऔर नमूना रैखिक प्रतिगमन समीकरण $y_x=ax+b$। एक समाश्रयण रेखा बनाएँ और समतल पर तालिका से अंक $(x,y)$ ड्रा करें। गणना अवशिष्ट फैलाव. निर्धारण के गुणांक द्वारा रेखीय प्रतिगमन मॉडल की पर्याप्तता की जाँच करें।

उदाहरण 4प्रतिगमन समीकरण के गुणांकों की गणना करें। मंचूरियन राख की लकड़ी के घनत्व और उसकी ताकत के बीच नमूना सहसंबंध गुणांक निर्धारित करें।
समस्या को हल करने के लिए, एक सहसंबंध क्षेत्र बनाना आवश्यक है, क्षेत्र के प्रकार से निर्भरता के प्रकार का निर्धारण करें, लिखें सामान्य फ़ॉर्म X पर समाश्रयण समीकरण Y, समाश्रयण समीकरण के गुणांकों का निर्धारण करें और दिए गए दो मानों के बीच सहसंबंध गुणांकों की गणना करें।

उदाहरण 5एक कार रेंटल कंपनी X कारों के माइलेज और प्रति माह लागत के बीच संबंध में रुचि रखती है। रखरखाव Y. इस संबंध की प्रकृति को निर्धारित करने के लिए, 15 वाहनों का चयन किया गया था। प्रारंभिक डेटा का एक ग्राफ बनाएं और उस पर निर्भरता की प्रकृति का निर्धारण करें। नमूना पियर्सन रैखिक सहसंबंध गुणांक की गणना करें, 0.05 पर इसके महत्व की जांच करें । प्रतिगमन समीकरण बनाएं और परिणामों की व्याख्या करें।

सहसंबंध तालिका

उदाहरण 6एक सहसंबंध तालिका दी गई एक्स पर एक नमूना प्रत्यक्ष प्रतिगमन समीकरण वाई खोजें

उदाहरण 7तालिका 2 कुछ घरों के लिए आय X (r.u.) पर खपत Y (r.u.) की निर्भरता पर डेटा दिखाती है।
1. यह मानते हुए कि X और Y के बीच एक रैखिक संबंध है, ज्ञात कीजिए बिंदु अनुमानरैखिक प्रतिगमन गुणांक।
2. खोजें मानक विचलन$s$ और निर्धारण गुणांक $R^2$।
3. प्रतिगमन मॉडल के यादृच्छिक घटक की सामान्यता मानते हुए, इस परिकल्पना का परीक्षण करें कि Y और X के बीच कोई रैखिक संबंध नहीं है।
4. $x_n=7$ arb की आय वाले परिवार की अपेक्षित खपत क्या है। इकाइयों? भविष्यवाणी के लिए विश्वास अंतराल खोजें।
प्राप्त परिणामों की व्याख्या कीजिए। सभी मामलों में महत्व स्तर 0.05 के बराबर माना जाता है।

उदाहरण 8सभी ज्ञात मोबाइल सिस्टम X (मनी यूनिट्स) के सेल्युलर संचार के लिए 100 नए प्रकार के टैरिफ का वितरण और उनसे Y (मनी यूनिट) राजस्व तालिका में दिया गया है:
ज़रूरी:
1) समूह साधनों की गणना करें और अनुभवजन्य प्रतिगमन रेखाएँ बनाएँ;
2) यह मानते हुए कि चर X और Y के बीच एक रैखिक सहसंबंध है:
क) समाश्रयण रेखाओं के समीकरण ज्ञात कीजिए, उनके आलेखों को आनुभविक समाश्रयण रेखाओं के साथ उसी रेखाचित्र पर आलेखित कीजिए और प्राप्त समीकरणों की आर्थिक व्याख्या कीजिए;
बी) सहसंबंध गुणांक की गणना करें, 0.05 के महत्व स्तर पर इसके महत्व का मूल्यांकन करें और चर एक्स और वाई के बीच संबंधों की मजबूती और दिशा के बारे में निष्कर्ष निकालें;
सी) उपयुक्त प्रतिगमन समीकरण का उपयोग करते हुए, 20 नए प्रकार के टैरिफ के साथ मोबाइल सिस्टम से औसत राजस्व का अनुमान लगाएं।

दोस्तों के साथ शेयर करें या अपने लिए सेव करें:

लोड हो रहा है...