ارزیابی تخصصی روش Minimax و روش Bayes-Laplace و Savage. معیارهای بیز، لاپلاس، ساویج، والد، هورویتز

فرض بر این است که سپرده ها به طور مساوی در سراسر قلمرو توزیع می شوند. این رویکرد به سختی می تواند مشروع تلقی شود، زیرا نتایج به دست آمده با کمک آن هیچ مبنای منطقی ندارد. با این حال، معیار بیز-لاپلاس دلخواه تر از معیار هورویتز نیست.


یک رویکرد خوش بینانه، رویکردهای مبتنی بر معیار هورویتز، معیار بیز-لاپلاس، و معیار ساویج در این مورد به شکل زیر است.

معیار بیزی (لاپلاس) 27، 224 رویکرد بیزی 27 تعادل 27 تعادل (یا تعادل)

در میان این معیارها و قواعد، جایگاه ویژه ای را قواعد و معیارهای مبتنی بر قضیه معروف بیز به خود اختصاص داده اند. رویکرد مبتنی بر این قضیه، اولاً امکان استفاده از برخی اصول روش شناختی را فراهم می کند علوم طبیعیدر مدیریت، و ثانیا، اطمینان از اینکه قضاوت ها و تصمیم گیری ها با کسب تجربه تنظیم می شوند. دومی به معنای یادگیری مدیریت (به معنای تصمیم گیری) در خود فرآیند مدیریت است.

گاهی اوقات در طول عملیات، عدم قطعیت به تدریج آشکار می شود، زیرا اطلاعات در دسترس قرار می گیرد. در این مورد، برای توجیه تصمیمات، استفاده از معیار عینی مانند احتمال عقبی یک رویداد راحت است. این احتمال به راحتی با استفاده از فرمول بیز بر حسب شانس محاسبه می شود. بیایید جوهر این رویکرد را در نظر بگیریم.

معیار بیزی در مواردی استفاده می شود که توزیع احتمال حالت های ممکن مشخص باشد. اگر این توزیع احتمال گسسته توسط مجموعه احتمالات داده شود، آنگاه، با توجه به معیار بیزی، استراتژی Si به Sj ترجیح داده می شود (s > if

موارد خاص این معیار، معیار بیزی (برای A = 1) و معیار والد (برای A = 0) است.

معیار بیز-لاپلاس، بر خلاف معیار والد، هر یک از پیامدهای احتمالی همه گزینه های تصمیم را در نظر می گیرد.

معیار بیز-لاپلاس الزامات زیر را بر موقعیتی که در آن تصمیم گرفته می شود تحمیل می کند

در z = 1، معیار به معیار Bayes-Laplace و در z = O به معیار Wald تبدیل می شود. بنابراین، انتخاب پارامتر z ذهنی است. علاوه بر این، تعداد پیاده سازی ها نیز نادیده گرفته می شود. بنابراین، این معیار به ندرت در هنگام تصمیم گیری فنی مورد استفاده قرار می گیرد.

ما چندین رویکرد اساسی برای تصمیم گیری در مورد عوامل نامطمئن در مدل مورد مطالعه در نظر گرفته ایم. هنگامی که همه معیارهای تصمیم گیری منجر به انتخاب همان تصمیم x e X می شود، می توان مثال هایی ارائه داد، اما معمولاً این اتفاق نمی افتد، هر معیار به تصمیم خود منجر می شود (نمونه ای از این نوع در فصل بعدی در نظر گرفته می شود). بنابراین بحث در مورد اینکه کدام معیار و چه زمانی ارجح است وجود دارد. تلاش می شود تا بر اساس چندین معیار، یک منحصر به فرد ساخته شود. به ویژه، معیار هورویتز چنین اتحاد دو معیار است. همچنین تلاش هایی برای ترکیب آزمون هوروپتز و آزمون بیز-لاپلاس صورت گرفته است. همه معیارهای دریافتی دارند درجه بالاخودسری به نظر ما تنها راه غلبه بر این دشواری ها، رویکرد چند معیاره است که در آن تصمیم گیرنده می تواند گزینه هایی را برای تصمیم گیری در دست اقدام که از نظر مجموع شاخص ها مؤثر است، در نظر گرفته و از بین آنها مناسب ترین را انتخاب کند. این رویکرد در مثال ارائه شده در فصل بعد استفاده می شود. البته مجموع شاخص ها در این مورد نباید خیلی زیاد باشد.

معمولاً چندین پیکربندی با تعداد عناصر مختلف و ساختار اتصال امتحان می شود. یکی از مهمترین شاخص ها حجم مجموعه آموزشی و اطمینان از قابلیت تعمیم در حین کار بیشتر است و در طرح های مختلف می توان به نتیجه مطلوب رسید. متداول‌ترین روش‌های مورد استفاده عبارتند از فرود متوالی (با مجموعه تأیید) یا اعتبارسنجی متقاطع N برابر. معیارهای اطلاعاتی قدرتمندتر را نیز می توان به کار برد (1) اعتبار متقابل تعمیم یافته (G V)، خطای پیش بینی کل آکایک (FPE)، آزمون بیزی (BI) و آکایک (AI) (نگاه کنید به ). به منظور بهبود توانایی های تعمیم و رفع خطر بیش از حد برازش، کاهش وزن و حذف (نازک شدن درختان) نیز اعمال می شود. این امر معماری شبکه را تغییر می دهد، برخی از اتصالات را حذف می کند و بررسی می کند که چه تأثیری بر کارایی داشته اند. >،

معیار BAYES (LAPLACE) - در تئوری تصمیم، یک معیار تصمیم گیری در غیاب هرگونه اطلاعاتی در مورد احتمالات نسبی استراتژی های "طبیعت" است. (رجوع کنید به مسائل نامعین.) با توجه به B.(L.)k. پیشنهاد شده است که احتمالات مساوی به همه استراتژی های مورد بررسی داده شود، و سپس راهبردی که سود مورد انتظار برای آن بیشترین بازده خواهد بود را بپذیریم. این عیب دارد که دامنه گزینه های ارزیابی شده در یک کار می تواند متفاوت باشد و بر این اساس، می تواند متفاوت باشد. احتمال نسبیهر یک از آنها.

معیار هاجز-لمن. هنگام اجرای این معیار، از دو شاخص ذهنی استفاده می شود، اول توزیع احتمال استفاده شده در معیار بیزی و دوم، «پارامتر خوش بینی» از معیار هورویتز.

معیار هاج-لمان به طور همزمان بر اساس معیارهای والد و بیز-لاپلاس است.

اگر احتمالات Pj حالات Pj هنگام تصمیم گیری OPD شناخته شده باشد، آنگاه فرض می کنیم که وضعیت تحت شرایط عدم قطعیت جزئی در نظر گرفته می شود.

بازیکن در شرایط عدم قطعیت جزئی تصمیم i-ام (برای استفاده از استراتژی Аi) می گیرد. او انتظار دارد که در هنگام تحقق وضعیت Pj، که یک متغیر تصادفی Qi با مجموعه ای از توزیع های ارائه شده در جدول است، aij درآمد را دریافت کند. 3.9.

جدول 3.9. سری توزیع متغیر تصادفی Qi

در این صورت می توان از یکی از معیارهای زیر برای تصمیم گیری استفاده کرد.

معیار بیز

این معیاری برای به حداکثر رساندن میانگین بازده مورد انتظار است. معیار بیز، معیار حداکثر میانگین سود نیز نامیده می شود.

همانطور که مشخص است، ارزش مورد انتظار M (Qi) از متغیر تصادفی Qi میانگین درآمد مورد انتظار است که بر Qi نیز با فرمول (3.21) یافت می شود:

برای هر استراتژی Ai (گزینه راه حل i) باید میانگین درآمد مورد انتظار (انتظار ریاضی) با استفاده از فرمول (3.21) محاسبه شود و مطابق با معیار بیز، گزینه (استراتژی Ai) که برای آن بالاترین ارزش به دست می آید:

معیار بیز در موقعیتی استفاده می شود که در آن تصمیمی اتخاذ می شود که شرایط زیر را برآورده می کند:

احتمال وقوع حالت Пj مشخص است و به زمان بستگی ندارد. تصمیمی که از نظر تئوری گرفته شده است اجازه می دهد تا تعداد بی نهایت زیادی از پیاده سازی ها انجام شود.

برخی از ریسک ها برای تعداد کمی از تحقق ها مجاز است.

راه حل به بالاترین میانگین درآمد دست می یابد و ارزش این درآمد چقدر است.

راه حل. بیایید ماتریس پرداخت را با یک ردیف اضافی با احتمالات حالات Пj در قالب جدول 3.10 بنویسیم.

جدول 3.10. ماتریس بازده بازی

بیایید برای هر استراتژی Ai میانگین درآمد مورد انتظار را طبق فرمول (3.21) پیدا کنیم:

هنگام اعمال استراتژی Ai، ORP می تواند درآمدی متفاوت از حداکثر را دریافت کند که به عنوان میزان ریسک در نظر گرفته می شود. ریسک یک متغیر تصادفی Ri با یک سری توزیع که در جدول آورده شده است. 3.11.

جدول 3.11. سری توزیع متغیر تصادفی Ri

برای هر استراتژی Ai (گزینه راه حل i) باید میانگین ریسک مورد انتظار (انتظار ریاضی) با استفاده از فرمول (3.23) محاسبه شود و مطابق با معیار بیز، گزینه ای انتخاب شود که کمترین مقدار برای آن به دست آمده باشد. :

در این حالت، معیار بیز به عنوان معیاری برای به حداقل رساندن میانگین ریسک مورد انتظار عمل می کند. معیار بیز را می توان معیاری برای حداقل میانگین ضرر نامید.

مثال 3.9. برای خروجی مثال 3.8، بر اساس ماتریس ریسک بیزی، دریابید که کدام گزینه راه حل کمترین میانگین ریسک را به دست می آورد و میزان این ریسک چقدر است.

تعهد تخلیه بیایید ماتریس ریسک بازی را با یک ردیف اضافی با احتمالات حالت های پی در قالب جدول 3.12 بنویسیم.

جدول 3.12. ماتریس ریسک بازی

بیایید برای هر استراتژی Ai میانگین ریسک مورد انتظار را طبق فرمول (3.23) پیدا کنیم:

معیار برنولی-لاپلاس

معیار برنولی-لاپلاس زمانی استفاده می شود که بتوان فرض کرد که هیچ یک از گزینه های محیطی محتمل تر از دیگری نیست. در اینجا فرض می شود که همه حالت های محیط (همه انواع وضعیت واقعی) به یک اندازه محتمل هستند.

برای هر استراتژی Ai (و گزینه امین راه حل)، متوسط ​​درآمد مورد انتظار (انتظار ریاضی) باید با استفاده از فرمول (3.25) محاسبه شود و مطابق با معیار برنولی-لاپلاس، گزینه (استراتژی Ai) برای آن انتخاب شود. که بالاترین مقدار بدست می آید:

مثال 3.10. فرض کنید برای بازی ارائه شده توسط ماتریس پرداخت در مثال 3.2، ODP همه حالات طبیعت را دقیقاً محتمل در نظر می گیرد.

دریابید که تحت کدام گزینه راه حل بیشترین درآمد متوسط ​​به دست می آید و ارزش این درآمد چقدر است.

راه حل. بیایید ماتریس پرداخت را با یک ردیف اضافی با احتمالات حالات Пj در قالب جدول 3.13 بنویسیم.

جدول 3.13

بیایید برای هر استراتژی Ai میانگین درآمد مورد انتظار را طبق فرمول (3.25) پیدا کنیم:

ریسک را به عنوان در نظر بگیرید متغیر تصادفی Ri با یک سری توزیع که در جدول آورده شده است. 3.14.

جدول 3.14. سری توزیع متغیر تصادفی Ri

انتظار ریاضی M (Ri) از متغیر تصادفی Ri میانگین ریسک مورد انتظار است که با فرمول (3.27) محاسبه می شود.

برای هر استراتژی Ai (گزینه راه حل i) باید میانگین ریسک مورد انتظار (انتظار ریاضی) با استفاده از فرمول (3.27) محاسبه شود و مطابق با معیار برنولی-لاپلاس، استراتژی (گزینه) باید برای آن انتخاب شود. که کوچکترین مقدار بدست می آید:

مثال 3.11. برای خروجی مثال 3.10، بر اساس ماتریس ریسک با استفاده از معیار برنولی-لاپلاس، دریابید که کدام گزینه راه حل کمترین میانگین ریسک را به دست می آورد و میزان این ریسک چقدر است.

راه حل. بیایید ماتریس ریسک بازی را با یک ردیف اضافی با احتمالات حالات Пj در قالب جدول 3.15 بنویسیم.

جدول 3.15. ماتریس ریسک بازی

بیایید برای هر استراتژی Ai میانگین ریسک مورد انتظار را طبق فرمول (3.27) پیدا کنیم:

لازم به ذکر است که معیار برنولی-لاپلاس مستقیماً در مورد عدم قطعیت جزئی کاربرد ندارد و در شرایط عدم قطعیت کامل استفاده می شود.

معیار پرداخت بیز، معیار اصلی برای بهینه بودن استراتژی‌ها است که هنگام تصمیم‌گیری تحت ریسک استفاده می‌شود (نگاه کنید به §2.1).

یک بازی با طبیعت را در نظر بگیرید که توسط ماتریس سود ارائه شده است ولی(نگاه کنید به (2.1.2)). اجازه دهید q= بردار احتمال حالت های طبیعت است که شرایط (2.1.1) را برآورده می کند، که به راحتی در ردیف اضافه شده ماتریس (2.1.2) قرار دارند:


مرجع توماس بیز

(1702 - 17.04.1761)

معیار برد بیز برای بهینه بودن استراتژی های خالص با بردار h احتمالات حالت های طبیعت (B 1 ' (q) -معیار 2) معیاری نامیده می شود که بر اساس آن:

- شاخص (B" (q) -شاخص) اثربخشی استراتژی خالص

الف-(من = 1,2.....ت)کمیت نامیده می شود

- به قیمت (B 1 '(q)-cost) بازی در استراتژی های خالص(مجموعه ها اس سی) بزرگترین شاخص عملکرد نامیده می شود Bj'(q)، /" = 1,2..., تی،استراتژی های ناب:

- بهینه (در 1 ' (q) -بهینه) در مجموعه Sc از استراتژی های خالصاستراتژی نامیده می شود آکه S1با حداکثر کارایی

استراتژی بهینه نیز نامیده می شود استراتژی بیزیاز آنجایی که شاخص عملکرد Bj'(q)استراتژی ها الف بهمیانگین وزنی بازده برای این استراتژی است، پس استراتژی بهینه با توجه به این معیار نه در هر مورد فردی، بلکه در یک میانگین وزنی بهینه است.

تساوی (2.5.2) را می توان به صورت برداری نوشت:

جایی که "r" نماد جابجایی است.

همانطور که از (2.5.3) و (2.5.4) مشاهده می شود، در مجموعه استراتژی های ناب، شاخص کارایی استراتژی بهینه با هزینه بازی منطبق است.

تفسیر استراتژی ناب ولی-به عنوان یک متغیر تصادفی گسسته با مقادیر a n,a i2,...,a irl، که به ترتیب با احتمالات می پذیرد q u q 2,...,q n ,ما آن را دریافت می کنیم ب""(ق)- شاخص اثربخشی استراتژی ولی-شبکه انتظار ریاضی آن است. به همین دلیل است که معیار پرداخت بیز نیز نامیده می شود. معیار انتظار

از (2.5.2) و (2.5.3) برآوردهای زیر دنبال می شود: که در آن a" = min آ،من"" = بررسی کنید آ n، a یک "ttt= حداکثر حداقل آ،و max max l، - مربوطه

است jSn 1 1 Klfimisy&i 1 j 1

به طور طبیعی حداکثرو بازی های ماکسی در استراتژی های خالص.تاکید می کنیم که قسمت چپ و راست نابرابری های (2.5.5) و (2.5.6) به بردار بستگی ندارد. q

یک استراتژی خالص که حداقل بازده آن با حداکثر منطبق باشد نامیده می شود حداکثراستراتژی اگر بازیکن ولیبه استراتژی حداکثر پایبند است ولی k، پس برای هر حالت طبیعی R نابرابری داریم a k1 > a "" t \u003d a" uhtt، y = 1،2،...، u، که به این معنی است که حداکثر از نظر اقتصادی است

تضمین شده کوچکترین بازده بازیکن است ولیبرای هر گونه احتمالات حالت های طبیعی، مگر اینکه بازیکن ولیبه استراتژی حداکثر پایبند است.

مجموعه ای از استراتژی های ناب که در مجموعه بهینه هستند اس سیاستراتژی های ناب برای Bp(q)-معیار، نشان داده شده با (? с) 0(а "'»_ تصمیم مشترکبازی با طبیعت در استراتژی های خالص را می توان به عنوان یک مجموعه دو عنصری ((S c) 0 , ?(()) تفسیر کرد.

یک راه حل خاص از یک بازی با طبیعت در استراتژی های خالص را می توان به عنوان یک مجموعه دو عنصری درک کرد که یکی از عناصر آن مجموعه غیرخالی ناقصی از استراتژی های خالص است که در مجموعه استراتژی های ناب بهینه هستند و دیگری هزینه بازی در استراتژی های خالص

بیایید به حوزه استراتژی های ترکیبی 5 برویم.

توسط در 1 '(q)-معیار بهینه بودن استراتژی های ترکیبی:

- نشانگر (در 1 '(q) -شاخص) اثربخشی استراتژی مختلط Р = (р 1، р 2،...، р t)ما ارزش میانگین وزنی بازده (2.2.3) را با وزن می نامیم ql,q2,...,qll:

- در قیمت (B p (q) -price) بازی ها در استراتژی های ترکیبیبیایید بزرگترین شاخص عملکرد (2.5.7) را نام ببریم:

- بهینه (В''(q) -بهینه) در مجموعه S از استراتژی های ترکیبیبیایید استراتژی را صدا کنیم =(p)، با بالاترین شاخصبهره وری:

به راحتی می توان فهمید که اگر، به ویژه، استراتژی مختلط آرخالص است، برای مثال، A به، به e (1،2،...، از)، سپس نشانگر کارایی آن Bp(P;q)به عنوان یک استراتژی ترکیبی که با فرمول (2.5.7) بیان می شود، به شاخص عملکرد آن تبدیل می شود B p (A t ;q) = Bj'(q)به عنوان یک استراتژی خالص، محاسبه شده با فرمول (2.5.2).

به راحتی می توان این شاخص عملکرد را مشاهده کرد B p (Pq)را می توان به صورت ماتریسی نشان داد:

جایی که ولیماتریس بازی است.

در رابطه با نامتناهی بودن مجموعه 5 استراتژی مختلط، این سوال مطرح می شود وجود داشتناستراتژی بهینه در این مجموعه با قضیه زیر پاسخ مثبت داده می شود.

قضیه 2.5.1. در هر بازی با طبیعت با هر بردار احتمالی از حالات آن، استراتژی ای وجود دارد که در مجموعه استراتژی های ترکیبی با توجه به معیار پرداخت بیز بهینه است.

اثبات از (2.2.3) و (2.5.7) نتیجه می گیریم که شاخص کارایی B 1 '(P,q)به عنوان تابعی از استراتژی ترکیبی آرخطی است و بنابراین، در مجموعه S، که به عنوان یک سیمپلکس، در یک فضای اقلیدسی بعدی محدود و بسته است، پیوسته است. ر"".بنابراین، با قضیه وایرشتراس (، ص 298)، تابع Bp(P;q)روی سیمپلکس 5 به وجه بالایی خود می رسد، یعنی یک استراتژی وجود دارد = (/>،"، p") e 5، برابری (2.5.9) را برآورده می کند؟

مجموعه ای از استراتژی های S""(su) -بهینه در مجموعه اساستراتژی های مختلط با نشان داده می شوند s 0 (B (h)) .

قضیه زیر بین شاخص های عملکرد استراتژی های خالص و ترکیبی ارتباط برقرار می کند.

قضیه 2.5.2. شاخص کارایی B"Pq)استراتژی مختلط P = (Pi'PiP m) 1.0 در معیار p(q) میانگین وزنی شاخص های عملکرد Bj'(q) استراتژی های خالص است. D، / = 1،2،...، از، با توجه به همان معیار با وزن های p (،/ = 1،2،...، از:

اثباتبا اعمال متوالی برابری های (2.5.7)، (2.2.3) و (2.5.2)، به دست می آوریم:

اجازه دهید Р = (/; | , p 2,...,p t)- استراتژی مختلط دلخواه ضرب تمام قسمت های نابرابری مضاعف (2.5.5) در آرو با جمع کردن نابرابری های به دست آمده با عدد /" از 1 به از، بر اساس (2.5.11)، دامنه تغییر در شاخص کارایی به دست می آید. B p (Pq)برای هر بردار احتمال حالات طبیعت:

قضیه زیر ارتباطی بین قیمت بازی در استراتژی های خالص و ترکیبی برقرار می کند.

قضیه 2.5.3. با توجه به معیار پرداخت بیز، قیمت بازی ها در استراتژی های خالص و ترکیبی برابر است.

اثباتاجازه دهید P = (p l , p 2 ,..., p m)ه اس.استفاده كردن (2.5.11), (2.5.3) و شرایط عادی سازی برای احتمالات /؟، من= 1،2،...، از، دریافت می کنیم:

از آنجایی که این نابرابری برای هر استراتژی مختلط صادق است سپس معتبر است، از جمله برای استراتژی R°،بهینه در مجموعه استراتژی های ترکیبی 5: В р Р°q اما قسمت چپ آخرین نابرابری،

طبق تعریف (2.5.9) یک استراتژی ترکیبی بهینه، برابر با قیمت بازی در استراتژی های ترکیبی است. به این ترتیب،

از طرف دیگر، از c5، سپس حداکثر حداکثر Bf(q) در 1 ' (پ:ق)یا همان چیست

نابرابری های (2.5.13) و (2.5.14) برابری لازم را اثبات می کنند B p c (q) = B p (q) ,

به موجب این قضیه، نمی‌توان به طور جداگانه در مورد قیمت‌ها در استراتژی‌های خالص و ترکیبی صحبت کرد، اما آنها معنی کلیفقط تماس بگیرید هزینه بازی با توجه به معیار پرداخت بیزو با نشان داده می شود B p)

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...