ماتریس ضرایب همبستگی جفتی را بیابید. ضریب همبستگی جفت در اکسل

عواملی که خطی هستند ...

و خطی.

4. در مدل رگرسیون چندگانهتعیین کننده ماتریس ضرایب همبستگی زوجی بین عوامل و نزدیک به صفر است. این بدان معناست که عوامل، و ... چند خطی بودن عوامل.

5. برای مدل اقتصادسنجی معادله خطیرگرسیون چندگانه از نوع، ماتریسی از ضرایب زوج ساخته شد همبستگی خطی (y- متغیر وابسته؛ x (1),x (2), x (3), x (4)- متغیرهای مستقل):


متغیرهای مستقل (تبیینی) خطی (مرتبط نزدیک). نیستندx(2)و x (3)

1. جدول داده های اولیه برای ساخت اقتصاد سنجی مدل رگرسیون:

متغیرهای ساختگی نیستند

تجربه کاری

بهره وری نیروی کار

2. هنگام مطالعه وابستگی مصرف گوشت به سطح درآمد و جنسیت مصرف کننده می توان توصیه ...

از یک متغیر ساختگی استفاده کنید - جنسیت مصرف کننده

جمعیت را به دو دسته تقسیم کنید: برای مصرف کنندگان زن و برای مصرف کنندگان مرد

3. ما وابستگی قیمت یک آپارتمان را مطالعه می کنیم ( در) از محل زندگی او ( ایکس) و نوع خانه. این مدل شامل متغیرهای ساختگی است که منعکس کننده انواع خانه های مورد نظر است: یکپارچه، پانل، آجر. معادله رگرسیون به دست آمد:
جایی که ,
معادلات رگرسیون خاص برای آجر و یکپارچه ...

برای آجر نوع خانه

برای نوع خانه یکپارچه

4. هنگام تجزیه و تحلیل شرکت های صنعتیدر سه منطقه (جمهوری ماری ال، جمهوری چوواشیا، جمهوری تاتارستان) سه معادله رگرسیون جزئی ساخته شد:

برای جمهوری ماری ال؛

برای جمهوری چوواشیا؛

برای جمهوری تاتارستان

نوع متغیرهای ساختگی و معادله با متغیرهای ساختگی که سه معادله رگرسیون جزئی را تعمیم می دهد را مشخص کنید.

5. در اقتصاد سنجی معمولا یک متغیر ساختگی در نظر گرفته می شود...

متغیری که مقادیر 0 و 1 را می گیرد

توصیف کمی یک ویژگی کیفی

1. برای مدل رگرسیونی وابستگی متوسط ​​درآمد سرانه پولی جمعیت (RUB، در) از حجم تولید ناخالص منطقه ای (هزار روبل، x 1) و نرخ بیکاری در موضوع (%) x 2) معادله به دست می آید. مقدار ضریب رگرسیون برای متغیر x 2نشان می دهد که وقتی نرخ بیکاری 1٪ تغییر می کند، متوسط ​​درآمد نقدی سرانه ______ روبل با مقدار ثابتی از تولید ناخالص منطقه ای است.

به (-1.67) تغییر خواهد کرد

2. در معادله رگرسیون چندگانه خطی: ، هزینه دارایی های ثابت (هزار روبل) کجاست. - تعداد کارمندان (هزار نفر)؛ y- پارامتر حجم تولید صنعتی (هزار روبل) با متغیر x 1برابر با 10.8 به این معنی است که با افزایش حجم دارایی های ثابت به میزان _____، حجم تولیدات صنعتی _____ با تعداد کارکنان ثابت می شود.


برای 1 هزار روبل. ... 10.8 هزار روبل افزایش می یابد.

3. مشخص است که سهم واریانس باقیمانده متغیر وابسته در آن واریانس کلبرابر با 0.2 سپس مقدار ضریب تعیین ... 0.8 است

4. یک مدل اقتصادسنجی برای وابستگی سود ساخته شدفروش یک واحد تولیدی (روش، در) از مقدار سرمایه در گردش شرکت (هزار روبل، x 1): . در نتیجه، متوسط ​​سود حاصل از فروش، که به حجم سرمایه در گردش شرکت بستگی ندارد، _____ روبل است. 10.75

5. آماره F به عنوان نسبت واریانس ______ به واریانس ________ محاسبه می شود که به ازای درجه آزادی محاسبه می شود. فاکتوریل ... باقیمانده

1. برای یک مدل معادله رگرسیون اقتصادسنجی، خطای مدل به صورت ______ بین مقدار واقعی متغیر وابسته و مقدار تخمینی آن تعریف می شود. تفاوت

2. کمیت نامیده می شود ...جزء تصادفی

3. در مدل اقتصاد سنجی معادله رگرسیون، انحراف مقدار واقعی متغیر وابسته از مقدار محاسبه شده آن مشخص کننده ... خطای مدل است.

4. مشخص است که سهم واریانس تبیین شده در کل واریانس 0.2 است. سپس مقدار ضریب تعیین ... 0.2 است

5. با روش کمترین مربعاتپارامترهای معادله زوجی رگرسیون خطی از توازن های شرط ______ تعیین می شود.به حداقل رساندن مجموع مربع ها

1. برای تشخیص خودهمبستگی در باقیمانده ها، از ...

آمار دوربین واتسون

2. مشخص است که ضریب خود همبستگی باقیمانده های مرتبه اولبرابر با -0.3. همچنین مقادیر بحرانی آمار دوربین-واتسون برای تعداد معینی از پارامترها با تعداد ناشناخته مشاهدات ارائه شده است. بر اساس این ویژگی‌ها، می‌توان نتیجه گرفت که ... هیچ همبستگی خودکاری بین باقیمانده‌ها وجود ندارد

1. محاسبه ماتریس ضرایب همبستگی جفت. نزدیکی و جهت اتصال مشخصه حاصل را تجزیه و تحلیل کنید Yبا هر عامل ایکس; تخمین زدن اهمیت آماریضرایب همبستگی r(Y,ایکسمن)؛ آموزنده ترین عامل را انتخاب کنید

2. یک مدل رگرسیون زوجی با آموزنده ترین عامل بسازید. یک تفسیر اقتصادی از ضریب رگرسیون ارائه دهید.

3. کیفیت مدل را با استفاده از میانگین خطای نسبی تقریب، ضریب تعیین و آزمون F فیشر ارزیابی کنید (05/0=α سطح معناداری را قبول کنید).

4. با احتمال اطمینان 80% γ = میانگین مقدار اندیکاتور را پیش بینی کنید Y(مقادیر پیش بینی عوامل در پیوست 6 آورده شده است). مقادیر واقعی و مدل را به صورت گرافیکی ارائه دهید Y، نتایج پیش بینی

5. با استفاده از روش گنجاندن، مدل های دوعاملی بسازید و اطلاعاتی ترین عامل را در آنها حفظ کنید. یک مدل سه عاملی با لیست کاملی از عوامل بسازید.

6. بهترین مدل از چند مدل ساخته شده را انتخاب کنید. یک تفسیر اقتصادی از ضرایب آن ارائه دهید.

7. اهمیت ضرایب رگرسیون چندگانه را با استفاده از آن بررسی کنید تی-آزمون دانشجویی (سطح معناداری قبولی 05/0=α). آیا کیفیت بهتر شده است؟ مدل چندگانهدر مقایسه با اتاق بخار؟

8. تأثیر عوامل بر نتیجه را با استفاده از ضرایب کشسانی، ضرایب بتا و دلتا ارزیابی کنید.

وظیفه 2. مدلسازی یک سری زمانی تک متغیره

ضمیمه 7 سری های زمانی را نشان می دهد Y(t)شاخص های اجتماعی-اقتصادی برای منطقه آلتایبرای دوره 2000 تا 2011. لازم است پویایی شاخص مربوط به گزینه وظیفه را مطالعه کنید.

گزینه تعیین، نام، واحد اندازه گیری نشانگر
Y1 میانگین هزینه مصرف کننده سرانه (در ماه)، مالش.
Y2 انتشار آلاینده ها به هوای جو، هزار تن
Y3 میانگین قیمت ها در بازار دوم مسکن (در پایان سال برای متر مربعمساحت کل)، مالش
Y4 حجم خدمات پرداختی سرانه، روبل
Y5 میانگین سالانه افراد شاغل در اقتصاد، هزار نفر
Y6 تعداد خودروهای سواری شخصی به ازای هر 1000 نفر جمعیت (در پایان سال)، واحد
Y7 متوسط ​​درآمد نقدی سرانه (در ماه)، روبل.
Y8 شاخص بهای مصرف کننده (دی ماه نسبت به آذرماه سال قبل)، درصد
Y9 سرمایه گذاری در دارایی های ثابت (به قیمت واقعی)، میلیون روبل
Y10 حجم معاملات خرده فروشیسرانه (به قیمت واقعی)، مالش


سفارش کار

1. یک مدل سری زمانی خطی بسازید که پارامترهای آن را می توان با حداقل مربعات تخمین زد. معنی ضریب رگرسیون را توضیح دهید.

2. ارزیابی کفایت مدل ساخته شده با استفاده از ویژگی های تصادفی، استقلال و مطابقت جزء باقیمانده قانون عادیتوزیع ها

3. دقت مدل را بر اساس استفاده از میانگین خطای نسبی تقریب ارزیابی کنید.

4. شاخص مورد نظر را برای یک سال قبل پیش بینی کنید (فاصله پیش بینی را در احتمال اطمینان 70%).

5. مقادیر واقعی اندیکاتور، نتایج مدل سازی و پیش بینی را به صورت گرافیکی ارائه دهید.

6. پارامترهای روندهای لگاریتمی، چند جمله ای (چند جمله ای درجه 2)، توان، نمایی و هذلولی را محاسبه کنید. مستقر تصویر گرافیکیو مقادیر شاخص تعیین برای انتخاب بیشتر ظاهر مناسبروند.

7. با استفاده از بهترین مدل غیرخطی، یک پیش بینی نقطه ای از شاخص مورد نظر برای سال آینده انجام دهید. نتیجه به دست آمده را با فاصله پیش بینی اطمینان ساخته شده با استفاده از یک مدل خطی مقایسه کنید.

مثال

اعدام ها کار آزمایشی

مشکل 1

این شرکت خودروهای دست دوم می فروشد. نام شاخص ها و داده های اولیه برای مدل سازی اقتصاد سنجی در جدول ارائه شده است:

قیمت فروش هزار تومان ( Y) قیمت ماشین نو هزار تومان ( X1) عمر سرویس، سالها ( X2) درایو چپ - 1، دست راست - 0، ( X3)
8,33 13,99 3,8
10,40 19,05 2,4
10,60 17,36 4,5
16,58 25,00 3,5
20,94 25,45 3,0
19,13 31,81 3,5
13,88 22,53 3,0
8,80 16,24 5,0
13,89 16,54 2,0
11,03 19,04 4,5
14,88 22,61 4,6
20,43 27,56 4,0
14,80 22,51 3,3
26,05 31,75 2,3

ضروری:

1. محاسبه ماتریس ضرایب همبستگی جفت. نزدیکی و جهت ارتباط بین مشخصه حاصل از Y و هر یک از عوامل X را تجزیه و تحلیل کنید. ارزیابی اهمیت آماری ضرایب همبستگی r(Y, X i). آموزنده ترین عامل را انتخاب کنید

ما از Excel (داده ها / تجزیه و تحلیل داده ها / CORRELATION) استفاده می کنیم:

ماتریسی از ضرایب همبستگی زوجی بین همه متغیرهای موجود بدست می آوریم:

U X1 X2 X3
U
X1 0,910987
X2 -0,4156 -0,2603
X3 0,190785 0,221927 -0,30308

بیایید ضرایب همبستگی بین مشخصه حاصل را تجزیه و تحلیل کنیم Yو هر یک از عوامل ایکس j:

> 0، بنابراین، بین متغیرها Yو ایکس 1 یک همبستگی مستقیم وجود دارد: هر چه قیمت یک ماشین جدید بیشتر باشد، قیمت فروش بالاتر است.

> 0.7 - این وابستگی نزدیک است.

< 0, значит, между переменными Yو ایکس 2 مشاهده شد

همبستگی معکوس: قیمت فروش برای خودروها کمتر است

تلفن های همراه با عمر طولانی

- این وابستگی متوسط، نزدیک به ضعیف است.

> 0 که به معنی بین متغیرها است Yو ایکس 3 یک همبستگی مستقیم وجود دارد: قیمت فروش برای خودروهای فرمان چپ بالاتر است.

< 0,4 – эта зависимость слабая.

برای بررسی معناداری ضرایب همبستگی یافت شده از آزمون Student استفاده می کنیم.

برای هر ضریب همبستگی بیایید محاسبه کنیم تی-آمار طبق فرمول و نتایج محاسبه را در یک ستون اضافی از جدول همبستگی وارد کنید:

U X1 X2 X3 آمار t
U
X1 0,910987 7,651524603
X2 -0,4156 -0,2603 1,582847988
X3 0,190785 0,221927 -0,30308 0,673265587

طبق جدول نقاط بحرانیتوزیع دانش آموز در سطح معنی داری و تعداد درجات آزادی، مقدار بحرانی را تعیین می کنیم (پیوست 1 یا تابع STUDARSOBR).Y و عمر مفید ایکس 2 قابل اعتماد است.

< , следовательно, коэффициент не является значимым. На основании выборочных данных нет оснований утверждать, что зависимость между ценой реализации Yو موقعیت فرمان ایکس 3 قابل اعتماد است.

بنابراین نزدیک ترین و معنی دارترین رابطه بین قیمت فروش مشاهده می شود Yو قیمت ماشین نو ایکس 1 ; عامل ایکس 1 آموزنده ترین است.

ماتریس ضرایب همبستگی جفت

Y X1 X2 X3 X4 X5
Y
X1 0,732705
X2 0,785156 0,706287
X3 0,179211 -0,29849 0,208514
X4 0,667343 0,924333 0,70069 0,299583
X5 0,709204 0,940488 0,691809 0,326602 0,992945

گره های ماتریس حاوی ضرایب همبستگی زوجی هستند که رابطه نزدیک بین ویژگی های عامل را مشخص می کند. با تجزیه و تحلیل این ضرایب، توجه می کنیم که هر چه قدر مطلق آنها بیشتر باشد، تأثیر مشخصه عامل مربوطه بر ضرایب حاصل بیشتر است. تجزیه و تحلیل ماتریس حاصل در دو مرحله انجام می شود:

1. اگر در ستون اول ماتریس ضرایب همبستگی وجود داشته باشد که برای آنها /r /< 0,5, то соответствующие признаки из модели исключаются. В данном случае в первом столбце матрицы коэффициентов корреляции исключается фактор или коэффициент роста уровня инфляции. Данный фактор оказывает меньшее влияние на результативный признак, нежели оставшиеся четыре признака.

2. تجزیه و تحلیل ضرایب همبستگی زوجی ویژگی های عامل با یکدیگر، (r XiXj)، مشخص کردن نزدیکی رابطه آنها، لازم است استقلال آنها از یکدیگر ارزیابی شود، زیرا این شرط لازم برای تحلیل رگرسیون بیشتر است. با توجه به اینکه هیچ ویژگی مطلقاً مستقلی در اقتصاد وجود ندارد، لازم است در صورت امکان مستقل ترین آنها برجسته شود. ویژگی های عاملی که ارتباط نزدیکی با یکدیگر دارند، چند خطی نامیده می شوند. گنجاندن ویژگی های چند خطی در مدل، تفسیر اقتصادی مدل رگرسیون را غیرممکن می کند، زیرا تغییر در یک عامل مستلزم تغییر در عوامل مرتبط با آن است که می تواند منجر به "تجزیه" مدل به عنوان یک کل شود.

ملاک چندجانبه بودن عوامل به شرح زیر است:

/r XiXj / > 0.8

در ماتریس حاصل از ضرایب همبستگی زوجی، این معیار توسط دو شاخص واقع در تقاطع ردیف ها برآورده می شود. و . از هر جفت از این ویژگی ها، یکی باید در مدل باقی بماند؛ این باید تأثیر بیشتری بر ویژگی به دست آمده داشته باشد. در نتیجه عوامل و از مدل حذف می شوند، یعنی. نرخ رشد بهای تمام شده کالای فروخته شده و نرخ رشد حجم فروش آن.

بنابراین، عوامل X1 و X2 را وارد مدل رگرسیونی می‌کنیم.

در مرحله بعد، تحلیل رگرسیون (سرویس، تجزیه و تحلیل داده ها، رگرسیون) انجام می شود. مجدداً جدولی از داده های اولیه با عوامل X1 و X2 گردآوری شده است. رگرسیون به طور کلی برای تجزیه و تحلیل تأثیر مقادیر متغیرهای مستقل (عوامل) بر روی یک متغیر وابسته جداگانه استفاده می شود و اجازه می دهد تا همبستگی بین ویژگی ها در قالب برخی وابستگی عملکردی به نام معادله رگرسیون یا همبستگی-رگرسیون نمایش داده شود. مدل.

در نتیجه تحلیل رگرسیون، نتایج محاسبه رگرسیون چند متغیره را به دست می آوریم. بیایید نتایج به دست آمده را تجزیه و تحلیل کنیم.

تمامی ضرایب رگرسیون بر اساس آزمون t استیودنت معنادار هستند. ضریب همبستگی چندگانه R 0.925 بود، مجذور این مقدار (ضریب تعیین) به این معنی است که به طور متوسط ​​85.5٪ از تغییرات در مشخصه موثر با تغییر در ویژگی های عاملی موجود در مدل توضیح داده می شود. ضریب جبر رابطه نزدیک بین مجموعه ویژگی های عامل و شاخص موثر را مشخص می کند. هر چه مقدار R-squared به 1 نزدیکتر باشد، رابطه قوی تر است. در مورد ما، اندیکاتوری برابر با 0.855 نشان دهنده انتخاب صحیح عوامل و وجود رابطه بین عوامل و شاخص مؤثر است.

مدل مورد بررسی مناسب است، زیرا مقدار محاسبه شده آزمون F فیشر به طور قابل توجهی از مقدار جدول بندی شده آن بیشتر است (F obs = 52.401؛ F tab = 1.53).

نتیجه کلی تحلیل همبستگی و رگرسیون است معادله چندگانهرگرسیون، که به نظر می رسد:

معادله رگرسیون حاصل هدف تحلیل همبستگی-رگرسیون را برآورده می کند و یک مدل خطی از وابستگی سود ترازنامه شرکت به دو عامل است: ضریب رشد بهره وری نیروی کار و ضریب مالکیت صنعتی.

بر اساس مدل به دست آمده، می توان نتیجه گرفت که با افزایش 1 درصدی سطح بهره وری نیروی کار نسبت به سطح دوره قبل، میزان سود ترازنامه 0.95 واحد درصد افزایش می یابد. افزایش 1 درصدی ضریب مالکیت صنعتی منجر به افزایش خواهد شد شاخص عملکردتوسط 27.9 p.p. در نتیجه، تأثیر غالب بر رشد سود ترازنامه از طریق افزایش ارزش دارایی برای اهداف تولیدی (تجدید و رشد دارایی های ثابت شرکت) اعمال می شود.

با استفاده از یک مدل رگرسیون چندگانه، یک پیش‌بینی چندعاملی از مشخصه مؤثر انجام می‌شود. بگذارید بدانیم که X1 = 3.0 و X3 = 0.7. بیایید مقادیر ویژگی های عامل را در مدل جایگزین کنیم، کنترل = 0.95 * 3.0 + 27.9 * 0.7 - 19.4 = 2.98 را دریافت می کنیم. بنابراین، با افزایش بهره وری نیروی کار و نوسازی دارایی های ثابت در شرکت، سود ترازنامه در سه ماهه اول سال 2005 نسبت به دوره قبل (سه ماهه چهارم 2004) 2.98 درصد افزایش می یابد.

در ابتدا در مدل درشامل تمام اجزای اصلی (مقادیر محاسبه شده در پرانتز نشان داده شده است تی-شاخص):

کیفیت مدل با ضریب تعیین چندگانه مشخص می شود r = 0.517، میانگین خطای نسبی تقریب = 10.4٪، واریانس باقیمانده s 2= 1.79 و افقابل مشاهده = 121. با توجه به اینکه اف obs > اف kr = 2.85 در α = 0.05، v 1 = 6, v 2= 14، معادله رگرسیون معنی دار است و حداقل یکی از ضرایب رگرسیون - β 1، β 2، β 3، β 4 - برابر با صفر نیست.

اگر معناداری معادله رگرسیون (فرضیه H 0:β 1 = β 2 = β 3 = β 4 = 0 در α = 0.05 بررسی شد، سپس اهمیت ضرایب رگرسیون، یعنی. فرضیه ها H0: β j = 0 (j = 1، 2، 3، 4)، باید در سطح معنی داری بیشتر از 0.05 آزمایش شوند، به عنوان مثال در α = 0.1. سپس در α = 0.1، v= 14 ریشتر تی cr = 1.76، و به شرح زیر از معادله (53.41)، ضرایب رگرسیون β1، β2، β3 هستند.

با توجه به اینکه مولفه های اصلی با یکدیگر همبستگی ندارند، می توانیم بلافاصله تمام ضرایب ناچیز را از معادله حذف کنیم و معادله شکل خواهد گرفت.

(53.42)

با مقایسه معادلات (41/53) و (42/53)، مشاهده می کنیم که مولفه های اصلی ناچیز را حذف می کنیم. f 4و f 5، بر مقادیر ضرایب معادله تأثیری نداشت b 0 = 9,52, b 1 = 0,93, b 2 = 0.66 و مربوطه تی جی (j = 0, 1, 2, 3).

این به دلیل ماهیت نامرتبط اجزای اصلی است. آنچه در اینجا جالب است، موازی معادلات رگرسیون برای شاخص های اولیه (53.22)، (53.23) و مولفه های اصلی (53.41)، (53.42) است.

معادله (53.42) معنی دار است زیرا اف obs = 194 > اف cr = 3.01، یافت شده در α = 0.05، v 1 = 4, v 2= 16. ضرایب معادله نیز معنی دار هستند، زیرا t j > t cr . = 1.746، مربوط به α = 0.01، v= 16 برای j= 0، 1، 2، 3. ضریب تعیین r= 0.486 نشان می دهد که 48.6٪ از تغییرات دربه دلیل تأثیر سه مؤلفه اصلی اول.

معادله (53.42) با میانگین خطای نسبی تقریب = 9.99٪ مشخص می شود و واریانس باقیمانده s 2 = 1,91.

معادله رگرسیون بر روی مولفه‌های اصلی (42/53) در مقایسه با مدل رگرسیون (23/53) بر اساس شاخص‌های اولیه، ویژگی‌های تقریبی کمی بهتری دارد: r= 0,486 > r= 0,469; = 9,99% < (ایکس) = 10.5% و s 2 (f) = 1,91 < s 2 (x) = 1.97. علاوه بر این، در معادله (53.42)، اجزای اصلی هستند توابع خطیتمام شاخص های اولیه، در حالی که معادله (53.23) تنها شامل دو متغیر ( x 1و x 4). در تعدادی از موارد، باید در نظر گرفت که تفسیر مدل (53.42) دشوار است، زیرا شامل یک جزء اصلی سوم است. f 3، که ما تفسیر نکرده ایم و سهم آنها در پراکندگی کل شاخص های اولیه ( x 1، ..., x 5)تنها 8.6 درصد است. با این حال، استثنا f 3از معادله (53.42) به طور قابل توجهی خواص تقریبی مدل را بدتر می کند: r= 0.349; = 12.4٪ و s 2(f) = 2.41. سپس توصیه می شود معادله (23/53) را به عنوان مدل رگرسیونی بازده انتخاب کنید.

آنالیز خوشه ای

که در تحقیق آماریگروه بندی داده های اولیه روش اصلی راه حل است مشکلات طبقه بندی،و بنابراین مبنایی برای تمام کارهای بعدی با اطلاعات جمع آوری شده است.

به طور سنتی، این مشکل به شرح زیر حل می شود. از میان بسیاری از ویژگی‌هایی که یک شی را توصیف می‌کنند، یکی انتخاب می‌شود که آموزنده‌ترین آنها از دیدگاه محقق است و داده‌ها مطابق با مقادیر این ویژگی گروه‌بندی می‌شوند. اگر لازم است یک طبقه بندی بر اساس چندین معیار انجام شود، که در بین خود بر اساس درجه اهمیت رتبه بندی شده اند، ابتدا طبقه بندی بر اساس مشخصه اول انجام می شود، سپس هر یک از طبقات حاصل بر اساس ویژگی دوم به زیر کلاس ها تقسیم می شوند. ، و غیره. اکثر گروه بندی های آماری ترکیبی به روشی مشابه ساخته می شوند.

در مواردی که امکان سازماندهی ویژگی های طبقه بندی وجود ندارد، از ساده ترین روش گروه بندی چند بعدی استفاده می شود - ایجاد یک شاخص انتگرال (شاخص)، از نظر عملکردی وابسته به ویژگی های اولیه، و به دنبال آن طبقه بندی بر اساس این شاخص.

توسعه این رویکرد یک گزینه طبقه بندی بر اساس چندین شاخص کلی (مولفه های اصلی) است که با استفاده از روش های تحلیل عاملی یا مؤلفه ای به دست آمده است.

اگر چندین ویژگی (اولیه یا تعمیم‌یافته) وجود داشته باشد، مشکل طبقه‌بندی را می‌توان با روش‌های تحلیل خوشه‌ای حل کرد، که با دیگر روش‌های طبقه‌بندی چند بعدی با عدم وجود نمونه‌های آموزشی متفاوت است، به عنوان مثال. اطلاعات پیشینی در مورد توزیع جمعیت.

تفاوت بین طرح‌ها برای حل مسئله طبقه‌بندی تا حد زیادی با مفهوم «شباهت» و «درجه شباهت» مشخص می‌شود.

هنگامی که هدف کار فرموله شد، طبیعی است که سعی کنیم معیارهای کیفی را تعیین کنیم، یک تابع هدف، که مقادیر آن به فرد امکان مقایسه طرح های طبقه بندی مختلف را می دهد.

در تحقیقات اقتصادی تابع هدفبه عنوان یک قاعده، باید برخی از پارامترهای تعیین شده بر روی مجموعه ای از اشیاء را به حداقل برساند (به عنوان مثال، هدف از طبقه بندی تجهیزات ممکن است گروهی باشد که هزینه کل زمان و هزینه برای کار تعمیر را به حداقل می رساند).

در مواردی که امکان رسمیت بخشیدن به هدف تکلیف وجود ندارد، ملاک کیفیت طبقه بندی می تواند امکان تفسیر معنادار از گروه های یافت شده باشد.

بیایید مشکل زیر را در نظر بگیریم. بگذارید مجموعه مورد مطالعه قرار گیرد پاشیایی که هر کدام مشخص می شوند کعلائم اندازه گیری شده لازم است این کلیت را به گروه هایی (طبقات) که به معنای معینی همگن هستند، تقسیم کنیم. در عین حال، عملاً هیچ اطلاعات پیشینی در مورد ماهیت توزیع وجود ندارد ک-بردار بعدی ایکسداخل کلاس ها

گروه‌هایی که در نتیجه تقسیم‌بندی به‌دست می‌آیند معمولاً خوشه* (تکنیک**، تصاویر) نامیده می‌شوند، روش‌های یافتن آنها را تحلیل خوشه‌ای می‌نامند (به ترتیب، طبقه‌بندی عددی یا تشخیص الگو با خودآموزی).

* خوشه(انگلیسی) - گروهی از عناصر که با خاصیت مشترک مشخص می شوند.

**تاهوپ(انگلیسی) - یک گروه سیستماتیک از هر دسته.

لازم است از همان ابتدا به وضوح بفهمیم که کدام یک از دو مشکل طبقه بندی باید حل شود. اگر مشکل معمول تایپ حل شود، مجموعه مشاهدات به تعداد نسبتاً کمی از مناطق گروه بندی تقسیم می شود (مثلاً فاصله سری تغییراتدر مورد مشاهدات یک بعدی) به طوری که عناصر یک منطقه تا حد امکان به یکدیگر نزدیک باشند.

راه حل مشکل دیگر، تعیین طبقه بندی طبیعی نتایج مشاهداتی به خوشه های کاملاً مشخص است که در فاصله معینی از یکدیگر قرار دارند.

اگر اولین مشکل نوع‌بندی همیشه راه‌حلی داشته باشد، در مورد دوم ممکن است معلوم شود که مجموعه مشاهدات یک طبقه‌بندی طبیعی به خوشه‌ها را نشان نمی‌دهد، یعنی. یک خوشه را تشکیل می دهد.

اگرچه بسیاری از روش‌های تحلیل خوشه‌ای کاملاً ابتدایی هستند، بخش عمده‌ای از کارهایی که در آن پیشنهاد شده‌اند مربوط به دهه گذشته. این با این واقعیت توضیح داده می شود که یک راه حل موثر برای مشکلات جستجوی خوشه ای که نیاز دارد تعداد زیادیعملیات حسابی و منطقی تنها با ظهور و توسعه فناوری رایانه امکان پذیر شد.

شکل معمول نمایش داده های اولیه در مسائل تحلیل خوشه ای یک ماتریس است

که هر خط نشان دهنده نتایج اندازه گیری است کعلائم در نظر گرفته شده در یکی از اشیاء مورد بررسی. در موقعیت های خاص، هم گروه بندی اشیا و هم گروه بندی ویژگی ها ممکن است مورد توجه باشند. در مواردی که تفاوت بین این دو کار مهم نیست، به عنوان مثال، در هنگام توصیف برخی از الگوریتم‌ها، فقط از عبارت «شی» استفاده می‌کنیم که عبارت «ویژگی» را در این مفهوم شامل می‌شود.

ماتریس ایکستنها راه ارائه داده ها در مسائل تحلیل خوشه ای نیست. گاهی اوقات اطلاعات اولیه در قالب یک ماتریس مربع داده می شود

عنصر r ijکه میزان مجاورت را مشخص می کند من-ام شی به j-مو

اکثر الگوریتم های تحلیل خوشه ای کاملاً بر اساس ماتریسی از فواصل (یا مجاورت) هستند یا نیاز به محاسبه عناصر جداگانه آن دارند، بنابراین اگر داده ها به شکل ارائه شوند ایکس،سپس اولین مرحله از حل مشکل جستجوی خوشه ها، انتخاب روشی برای محاسبه فواصل یا مجاورت بین اشیا یا ویژگی ها خواهد بود.

حل مسئله تعیین مجاورت بین ویژگی ها تا حدودی ساده تر است. به عنوان یک قاعده، تجزیه و تحلیل خوشه ای ویژگی ها همان اهدافی را دنبال می کند که تجزیه و تحلیل عاملی: شناسایی گروه هایی از ویژگی های مرتبط که جنبه خاصی از اشیاء مورد مطالعه را منعکس می کنند. معیار مجاورت در این مورد، ضرایب مختلف آماری اتصال است.


اطلاعات مربوطه.


1. یک ماتریس از ضرایب همبستگی زوجی بسازید.

برای انجام این کار، ضرایب همبستگی جفت را با استفاده از فرمول محاسبه می کنیم:

محاسبات لازم در جدول 9 ارائه شده است.

-

ارتباط بین درآمد شرکت Y و میزان سرمایه گذاری X 1 ضعیف و مستقیم است.

-

عملا هیچ ارتباطی بین درآمد شرکت Y و دارایی های تولید ثابت X 2 وجود ندارد.

-

ارتباط بین حجم سرمایه گذاری های سرمایه ای X 1 و دارایی های تولید ثابت X 2 نزدیک و مستقیم است.

جدول 9

جدول کمکی برای محاسبه ضرایب همبستگی زوجی

تی Y X1 X2

(y-ysr)*
(x1-x1sr)

(y-ysr)*
(x2-x2sr)

(x1-x1sr)*
(x2-x2sr)

1998 3,0 1,1 0,4 0,0196 0,0484 0,0841 0,0308 0,0406 0,0638
1999 2,9 1,1 0,4 0,0576 0,0484 0,0841 0,0528 0,0696 0,0638
2000 3,0 1,2 0,7 0,0196 0,0144 1E-04 0,0168 -0,0014 -0,0012
2001 3,1 1,4 0,9 0,0016 0,0064 0,0441 -0,0032 -0,0084 0,0168
2002 3,2 1,4 0,9 0,0036 0,0064 0,0441 0,0048 0,0126 0,0168
2003 2,8 1,4 0,8 0,1156 0,0064 0,0121 -0,0272 -0,0374 0,0088
2004 2,9 1,3 0,8 0,0576 0,0004 0,0121 0,0048 -0,0264 -0,0022
2005 3,4 1,6 1,1 0,0676 0,0784 0,1681 0,0728 0,1066 0,1148
2006 3,5 1,3 0,4 0,1296 0,0004 0,0841 -0,0072 -0,1044 0,0058
2007 3,6 1,4 0,5 0,2116 0,0064 0,0361 0,0368 -0,0874 -0,0152
Σ 31,4 13,2 6,9 0,684 0,216 0,569 0,182 -0,036 0,272
میانگین 3,14 1,32 0,69

همچنین، ماتریس ضرایب همبستگی زوجی را می توان در یافت محیط اکسلبا استفاده از افزونه DATA ANALYSIS، ابزار CORRELATION.

ماتریس ضرایب همبستگی جفتی به شکل زیر است:

Y X1 X2
Y 1
X1 0,4735 1
X2 -0,0577 0,7759 1

ماتریس ضرایب همبستگی زوجی نشان می‌دهد که ویژگی مؤثر y (درآمد) با حجم سرمایه‌گذاری‌های سرمایه x 1 ارتباط ضعیفی دارد و عملاً هیچ ارتباطی با اندازه صندوق عمومی وجود ندارد. رابطه بین عوامل در مدل به عنوان نزدیک ارزیابی می شود که نشان دهنده وابستگی خطی، چند خطی بودن آنها است.

2. یک مدل رگرسیون چندگانه خطی بسازید

پارامترهای مدل را با استفاده از حداقل مربعات پیدا خواهیم کرد. برای انجام این کار، اجازه دهید یک سیستم ایجاد کنیم معادلات عادی.

محاسبات در جدول 10 ارائه شده است.

بیایید سیستم معادلات را با استفاده از روش کرامر حل کنیم:

جدول 10

محاسبات کمکی برای یافتن پارامترهای یک مدل رگرسیون چندگانه خطی

y
3,0 1,1 0,4 1,21 0,44 0,16 3,3 1,2
2,9 1,1 0,4 1,21 0,44 0,16 3,19 1,16
3,0 1,2 0,7 1,44 0,84 0,49 3,6 2,1
3,1 1,4 0,9 1,96 1,26 0,81 4,34 2,79
3,2 1,4 0,9 1,96 1,26 0,81 4,48 2,88
2,8 1,4 0,8 1,96 1,12 0,64 3,92 2,24
2,9 1,3 0,8 1,69 1,04 0,64 3,77 2,32
3,4 1,6 1,1 2,56 1,76 1,21 5,44 3,74
3,5 1,3 0,4 1,69 0,52 0,16 4,55 1,4
3,6 1,4 0,5 1,96 0,7 0,25 5,04 1,8
31,4 13,2 6,9 17,64 9,38 5,33 41,63 21,63

مدل رگرسیون چندگانه خطی به شکل زیر است:

اگر حجم سرمایه گذاری 1 میلیون روبل افزایش یابد، درآمد شرکت به طور متوسط ​​2.317 میلیون روبل افزایش می یابد. با ابعاد ثابت اصلی دارایی های تولیدی.

اگر دارایی های تولید ثابت 1 میلیون روبل افزایش یابد، درآمد شرکت به طور متوسط ​​1.171 میلیون روبل کاهش می یابد. با مقدار ثابت سرمایه گذاری

3. ما محاسبه می کنیم:

ضریب تعیین:

67.82 درصد از تغییر درآمد بنگاه به دلیل تغییر در حجم سرمایه گذاری های سرمایه ای و دارایی های تولید ثابت و 32.18 درصد به دلیل تأثیر عواملی است که در مدل لحاظ نشده است.

F – معیار فیشر

بیایید اهمیت معادله را بررسی کنیم

مقدار جدول آزمون F در سطح معنی داری 05/0 = α و تعداد درجات آزادی d.f. 1 = k = 2 (تعداد عوامل)، تعداد درجات آزادی d.f. 2 = (n – k – 1) = (10 – 2 – 1) = 7 4.74 خواهد بود.

از آنجایی که F محاسبه شده است = 7.375 > برگه F. = 4.74، سپس معادله رگرسیون به عنوان یک کل می تواند از نظر آماری معنی دار در نظر گرفته شود.

شاخص های محاسبه شده را می توان در محیط اکسل با استفاده از افزونه DATA ANALYSIS، ابزار REGRESSION پیدا کرد.


جدول 11

محاسبات کمکی برای یافتن میانگین خطای نسبی تقریب

y آ
3,0 1,1 0,4 2,97 0,03 0,010
2,9 1,1 0,4 2,97 -0,07 0,024
3,0 1,2 0,7 2,85 0,15 0,050
3,1 1,4 0,9 3,08 0,02 0,007
3,2 1,4 0,9 3,08 0,12 0,038
2,8 1,4 0,8 3,20 -0,40 0,142
2,9 1,3 0,8 2,96 -0,06 0,022
3,4 1,6 1,1 3,31 0,09 0,027
3,5 1,3 0,4 3,43 0,07 0,019
3,6 1,4 0,5 3,55 0,05 0,014
0,353

میانگین خطای مربوطهتقریب ها

به طور متوسط، مقادیر محاسبه شده با مقادیر واقعی 3.53٪ متفاوت است. خطا کوچک است، مدل را می توان دقیق در نظر گرفت.

4. یک مدل رگرسیون چندگانه قدرت-قانون بسازید

برای ساخت این مدل، اجازه دهید لگاریتم های هر دو طرف برابری را در نظر بگیریم

log y = log a + β 1 ∙ log x 1 + β 2 ∙ log x 2 .

بیایید جایگزین Y = log y، A = log a، X 1 = log x 1، X 2 = log x 2 را بسازیم.

سپس Y = A + β 1 ∙ X 1 + β 2 ∙ X 2 – مدل رگرسیون دوعاملی خطی. می توانید از OLS استفاده کنید.

محاسبات در جدول 12 ارائه شده است.

جدول 12

محاسبات کمکی برای یافتن پارامترهای یک مدل رگرسیون چندگانه با قانون توان

y lg y
3,0 1,1 0,4 0,041 -0,398 0,477 0,002 -0,016 0,020 0,158 -0,190
2,9 1,1 0,4 0,041 -0,398 0,462 0,002 -0,016 0,019 0,158 -0,184
3,0 1,2 0,7 0,079 -0,155 0,477 0,006 -0,012 0,038 0,024 -0,074
3,1 1,4 0,9 0,146 -0,046 0,491 0,021 -0,007 0,072 0,002 -0,022
3,2 1,4 0,9 0,146 -0,046 0,505 0,021 -0,007 0,074 0,002 -0,023
2,8 1,4 0,8 0,146 -0,097 0,447 0,021 -0,014 0,065 0,009 -0,043
2,9 1,3 0,8 0,114 -0,097 0,462 0,013 -0,011 0,053 0,009 -0,045
3,4 1,6 1,1 0,204 0,041 0,531 0,042 0,008 0,108 0,002 0,022
3,5 1,3 0,4 0,114 -0,398 0,544 0,013 -0,045 0,062 0,158 -0,217
3,6 1,4 0,5 0,146 -0,301 0,556 0,021 -0,044 0,081 0,091 -0,167
31,4 13,2 6,9 1,178 -1,894 4,955 0,163 -0,165 0,592 0,614 -0,943

ما سیستم معادلات را با استفاده از روش کرامر حل می کنیم.

مدل رگرسیون چندگانه توان به شکل زیر است:

که در تابع توانضرایب فاکتورها ضرایب کشش هستند. ضریب کشش نشان می دهد که اگر یکی از عوامل 1٪ افزایش یابد در حالی که مقادیر سایر عوامل بدون تغییر باقی بماند، مقدار متوسط ​​مشخصه موثر y تا چند درصد تغییر می کند.

اگر حجم سرمایه گذاری 1 درصد افزایش یابد، درآمد شرکت با همان اندازه دارایی های ثابت تولیدی به طور متوسط ​​0.897 درصد افزایش می یابد.

اگر دارایی های تولید ثابت 1% افزایش یابد، درآمد شرکت با سرمایه گذاری ثابت 0.226% کاهش می یابد.

5. ما محاسبه می کنیم:

ضریب همبستگی چندگانه:

ارتباط بین درآمد یک شرکت و حجم سرمایه گذاری های سرمایه ای و دارایی های تولید ثابت نزدیک است.

جدول 13

محاسبات کمکی برای یافتن ضریب همبستگی چندگانه، ضریب تعیین، میانگین خطای نسبی تقریب مدل رگرسیون چندگانه توان

Y

(Y-Y calc.) 2

آ
3,0 1,1 0,4 2,978 0,000 0,020 0,007
2,9 1,1 0,4 2,978 0,006 0,058 0,027
3,0 1,2 0,7 2,838 0,026 0,020 0,054
3,1 1,4 0,9 3,079 0,000 0,002 0,007
3,2 1,4 0,9 3,079 0,015 0,004 0,038
2,8 1,4 0,8 3,162 0,131 0,116 0,129
2,9 1,3 0,8 2,959 0,003 0,058 0,020
3,4 1,6 1,1 3,317 0,007 0,068 0,024
3,5 1,3 0,4 3,460 0,002 0,130 0,012
3,6 1,4 0,5 3,516 0,007 0,212 0,023
31,4 13,2 6,9 0,198 0,684 0,342

ضریب تعیین:

06/71 درصد از تغییر درآمد بنگاه در مدل قدرت ناشی از تغییرات حجم سرمایه گذاری های سرمایه ای و دارایی های ثابت تولیدی و 94/28 درصد به دلیل تأثیر عواملی است که در مدل لحاظ نشده است.

F – معیار فیشر

بیایید اهمیت معادله را بررسی کنیم

مقدار جدول آزمون F در سطح معنی داری 05/0 = α و تعداد درجات آزادی d.f. 1 = k = 2، تعداد درجات آزادی d.f. 2 = (n – k – 1) = (10 – 2 – 1) = 7 4.74 خواهد بود.

از آنجایی که F محاسبه شده است = 8.592 > برگه F. = 4.74، سپس معادله رگرسیون توان به عنوان یک کل می تواند از نظر آماری معنی دار در نظر گرفته شود.

فرود غیر ممکن است، در کدام یک از موارد امکان پذیر مصرف سوخت کمتر است. یک برنامه کنترلی بهینه زمانی بدست آورید که تا یک لحظه t1 کنترلی u*=0 وجود نداشته باشد و از t=t1 شروع شود، کنترل برابر با حداکثر مقدار آن u*=umax است که با حداقل مصرف سوخت مطابقت دارد. 6.) حل سیستم متعارف معادلات با در نظر گرفتن آن برای مواردی که کنترل ...

به سوی تدوین مدل های ریاضی. اگر یک مدل ریاضی تشخیص بیماری باشد، الگوریتم یک روش درمانی است. مراحل اصلی تحقیق عملیاتی زیر را می توان متمایز کرد: مشاهده پدیده و جمع آوری داده های اولیه. فرمول بندی مسئله؛ ساخت یک مدل ریاضی؛ محاسبه مدل؛ آزمایش مدل و تجزیه و تحلیل داده های خروجی اگر نتایج به دست آمده رضایت بخش نباشد ...

سازه های ریاضیبا قیاس با، در یک تقریب صفحه یک موج الکترومغناطیسی طولی-اسکالار با اجزای الکتریکی (28) و مغناطیسی (29) در فاز را نشان می دهد. مدل ریاضیالکترودینامیک چرخشی با ساختار اسکالر-بردار معادلات آن مشخص می شود. معادلات اساسی الکترودینامیک چرخشی در جدول 1 خلاصه شده است. جدول 1، ...

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...