توزیع دو جمله ای یک متغیر تصادفی.


البته هنگام محاسبه تابع توزیع تجمعی باید از رابطه ذکر شده بین توزیع دو جمله ای و بتا استفاده کرد. این روش مطمئناً بهتر از جمع مستقیم است که n> 10 باشد.

در کتاب های درسی کلاسیک آمار، برای به دست آوردن مقادیر توزیع دوجمله ای، اغلب توصیه می شود از فرمول های مبتنی بر قضایای حدی (مانند فرمول مویور-لاپلاس) استفاده شود. لازم به ذکر است که از نقطه نظر محاسباتی صرفارزش این قضایا نزدیک به صفر است، مخصوصاً در حال حاضر که تقریباً روی هر میز یک رایانه قدرتمند وجود دارد. نقطه ضعف اصلی تقریب های فوق دقت کامل ناکافی آنها برای مقادیر n معمولی برای اکثر برنامه ها است. یک نقطه ضعف کمتر، عدم وجود هرگونه توصیه واضح در مورد کاربرد یک یا تقریب دیگر است (در متون استاندارد، فقط فرمول های مجانبی ارائه می شود، آنها با تخمین های دقت همراه نیستند و بنابراین، کاربرد کمی دارند). من می گویم که هر دو فرمول فقط برای n معتبر هستند< 200 и для совсем грубых, ориентировочных расчетов, причем делаемых “вручную” с помощью статистических таблиц. А вот связь между биномиальным распределением и бета-распределением позволяет вычислять биномиальное распределение достаточно экономно.

من در اینجا مشکل یافتن چندک را در نظر نمی‌گیرم: برای توزیع‌های گسسته، بی‌اهمیت است، و در آن مشکلاتی که چنین توزیع‌هایی به وجود می‌آیند، به عنوان یک قاعده، مرتبط نیست. اگر هنوز چندک مورد نیاز است، توصیه می کنم مشکل را به گونه ای دوباره فرموله کنید که با مقادیر p (معنای مشاهده شده) کار کند. در اینجا یک مثال آورده شده است: هنگام پیاده سازی برخی از الگوریتم های شمارش، در هر مرحله باید بررسی شود فرضیه آماریدر مورد یک متغیر تصادفی دو جمله ای با توجه به رویکرد کلاسیک، در هر مرحله باید آمار معیار را محاسبه کرد و مقدار آن را با مرز مجموعه بحرانی مقایسه کرد. با این حال، از آنجایی که الگوریتم شمارشی است، لازم است مرز مجموعه بحرانی را هر بار از نو تعیین کنیم (در نهایت، اندازه نمونه از مرحله به مرحله تغییر می کند)، که به طور غیرمولد هزینه های زمانی را افزایش می دهد. رویکرد مدرن محاسبه اهمیت مشاهده شده و مقایسه آن با آن را توصیه می کند سطح اطمینان، صرفه جویی در جستجوی چندک.

بنابراین، در کدهای زیر، محاسبه تابع معکوس وجود ندارد، به جای آن، تابع rev_binomialDF آورده شده است که با توجه به تعداد n آزمایش، تعداد m موفقیت در آنها، احتمال p موفقیت در یک آزمایش واحد را محاسبه می کند. مقدار y احتمال به دست آوردن این m موفقیت ها. این از رابطه فوق الذکر بین توزیع دو جمله ای و بتا استفاده می کند.

در واقع، این تابع به شما اجازه می دهد تا مرزهای فواصل اطمینان را بدست آورید. در واقع، فرض کنید در n آزمایش دوجمله ای m موفقیت به دست آوریم. همانطور که مشخص است، کران سمت چپ فاصله اطمینان دو طرفه برای پارامتر p با سطح اطمینان 0 است اگر m = 0، و برای حل معادله است. . به طور مشابه، کران سمت راست 1 است اگر m = n، و for یک راه حل برای معادله است. . این بدان معناست که برای یافتن مرز سمت چپ باید معادله را حل کنیم ، و برای جستجوی مناسب - معادله . آنها در توابع binom_leftCI و binom_rightCI حل شده‌اند که به ترتیب کران‌های بالایی و پایینی فاصله اطمینان دو طرفه را برمی‌گردانند.

من می خواهم توجه داشته باشم که اگر به دقت کاملاً باورنکردنی نیاز نیست، برای n به اندازه کافی بزرگ، می توانید از تقریب زیر استفاده کنید [B.L. ون در واردن، آمار ریاضی. م: IL، 1960، چ. 2، ثانیه 7]: ، جایی که g مقدار توزیع نرمال است. ارزش این تقریب این است که تقریب های بسیار ساده ای وجود دارد که به شما امکان می دهد چندک های توزیع نرمال را محاسبه کنید (متن مربوط به محاسبه توزیع نرمال و بخش مربوطه را در این مرجع ببینید). در تمرین من (عمدتا برای n> 100)، این تقریب حدود 3-4 رقم را ارائه می دهد که، به عنوان یک قاعده، کاملاً کافی است.

محاسبات با کدهای زیر به فایل‌های betaDF.h، betaDF.cpp (به بخش توزیع بتا مراجعه کنید)، و همچنین logGamma.h، logGamma.cpp (به پیوست A مراجعه کنید) نیاز دارد. همچنین می توانید نمونه ای از استفاده از توابع را مشاهده کنید.

فایل binomialDF.h

#ifndef __BINOMIAL_H__ #include "betaDF.h" double binomialDF(double trials, double success, double p); /* * اجازه دهید "آزمایش" مشاهدات مستقل * با احتمال "p" موفقیت در هر یک وجود داشته باشد. * احتمال B(موفقیت‌ها| آزمایشات، p) را محاسبه کنید که تعداد * موفقیت‌ها بین 0 و "موفقیت‌ها" (شامل) باشد. */ double rev_binomialDF (آزمایش مضاعف، موفقیت های مضاعف، دو برابر y)؛ /* * بگذارید احتمال y حداقل m موفقیت * در آزمایشات طرح برنولی شناخته شود. تابع احتمال p * موفقیت را در یک آزمایش واحد پیدا می کند. * * رابطه زیر در محاسبات استفاده می شود * * 1 - p = rev_Beta(trials-successes| successes+1, y). */ double binom_leftCI (آزمایش مضاعف، موفقیت های مضاعف، دو سطح)؛ /* مشاهدات مستقل "آزمایش" باشد * با احتمال "p" موفقیت در هر * و تعداد موفقیت ها "موفقیت" است. * کران سمت چپ فاصله اطمینان دو طرفه * با سطح سطح معنی داری محاسبه می شود. */ double binom_rightCI(n دو برابر، موفقیت‌های مضاعف، دو سطح)؛ /* مشاهدات مستقل "آزمایش" باشد * با احتمال "p" موفقیت در هر * و تعداد موفقیت ها "موفقیت" است. * حد راست فاصله اطمینان دو طرفه * با سطح سطح معنی داری محاسبه می شود. */ #endif /* به پایان می رسد #ifndef __BINOMIAL_H__ */

فایل binomialDF.cpp

/************************************************ **** *********/ /* توزیع دو جمله ای */ /**************************** ********************************/ #شامل #عبارتند از #include "betaDF.h" ENTRY double binomialDF(double n, double m, double p) /* * اجازه دهید "n" مشاهدات مستقل * با احتمال موفقیت "p" در هر کدام وجود داشته باشد. * احتمال B(m|n,p) را محاسبه کنید که تعداد موفقیت‌ها * بین 0 و "m" (شامل) باشد، یعنی. * مجموع احتمالات دوجمله ای از 0 تا m: * * m * -- (n) j n-j * > () p (1-p) * -- (j) * j=0 * * محاسبات دلالت بر جمع گنگ ندارند - * از رابطه زیر با توزیع بتا مرکزی استفاده می شود: * * B(m|n,p) = Beta(1-p|n-m,m+1). * * آرگومان ها باید مثبت و با 0 باشند<= p <= 1. */ { assert((n >0) && (p >= 0) && (ص<= 1)); if (m < 0) return 0; else if (m == 0) return pow(1-p, n); else if (m >= n) بازگشت 1; else بازگشت BetaDF(n-m، m+1).value(1-p); )/* binomialDF */ ENTRY double rev_binomialDF(double n, double m, double y) /* * اجازه دهید احتمال y حداقل m موفقیت * در n آزمایش طرح برنولی مشخص شود. تابع احتمال p * موفقیت را در یک آزمایش واحد پیدا می کند. * * رابطه زیر در محاسبات استفاده می شود * * 1 - p = rev_Beta(y|n-m,m+1). */ ( assert((n > 0) && (m >= 0) && (m<= n) && (y >= 0) && (y<= 1)); return 1-BetaDF(n-m, m+1).inv(y); }/*rev_binomialDF*/ ENTRY double binom_leftCI(double n, double m, double y) /* Пусть имеется "n" независимых наблюдений * с вероятностью "p" успеха в каждом * и количество успехов равно "m". * Вычисляется левая граница двухстороннего доверительного интервала * с уровнем значимости y. */ { assert((n >0) && (m >= 0) && (m<= n) && (y >= 0.5) && (y< 1)); return BetaDF(m, n-m+1).inv((1-y)/2); }/*binom_leftCI*/ ENTRY double binom_rightCI(double n, double m, double y) /* Пусть имеется "n" независимых наблюдений * с вероятностью "p" успеха в каждом * и количество успехов равно "m". * Вычисляется правая граница доверительного интервала * с уровнем значимости y. */ { assert((n >0) && (m >= 0) && (m<= n) && (y >= 0.5) && (y< 1)); return BetaDF(m+1, n-m).inv((1+y)/2); }/*binom_rightCI*/

فصل 7

قوانین خاص توزیع متغیرهای تصادفی

انواع قوانین توزیع متغیرهای تصادفی گسسته

اجازه دهید یک متغیر تصادفی گسسته مقادیر را بگیرد ایکس 1 , ایکس 2 , …, x n، …. احتمالات این مقادیر را می توان با استفاده از فرمول های مختلف محاسبه کرد، به عنوان مثال، با استفاده از قضایای اساسی نظریه احتمال، فرمول برنولی یا برخی فرمول های دیگر. برای برخی از این فرمول ها، قانون توزیع نام خاص خود را دارد.

رایج ترین قوانین توزیع یک متغیر تصادفی گسسته عبارتند از قانون توزیع دو جمله ای، هندسی، ابر هندسی، قانون توزیع پواسون.

قانون توزیع دوجمله ای

بذار تولید بشه nکارآزمایی های مستقل، که در هر کدام ممکن است رویدادی رخ دهد یا نباشد ولی. احتمال وقوع این رویداد در هر آزمایش ثابت است، به عدد آزمایشی بستگی ندارد و برابر است با آر=آر(ولی). از این رو احتمال وقوع این رویداد وجود دارد ولیدر هر آزمون نیز ثابت و برابر است q=1–آر. یک متغیر تصادفی را در نظر بگیرید ایکسبرابر با تعداد وقوع رویداد است ولیکه در nتست ها بدیهی است که مقادیر این کمیت برابر است

ایکس 1 = 0 - رویداد ولیکه در nآزمایشات ظاهر نشد؛

ایکس 2 = 1 - رویداد ولیکه در nآزمایشات یک بار ظاهر شد.

ایکس 3 = 2 - رویداد ولیکه در nآزمایشات دو بار ظاهر شد.

…………………………………………………………..

x n +1 = n- رویداد ولیکه در nآزمایش همه چیز ظاهر شد nیک بار.

احتمالات این مقادیر را می توان با استفاده از فرمول برنولی (4.1) محاسبه کرد:

جایی که به=0, 1, 2, …,n .

قانون توزیع دوجمله ای ایکسبرابر با تعداد موفقیت ها در nآزمایشات برنولی، با احتمال موفقیت آر.

بنابراین، یک متغیر تصادفی گسسته دارای توزیع دو جمله ای است (یا طبق قانون دوجمله ای توزیع می شود) در صورتی که مقادیر ممکن آن 0، 1، 2، ...، n، و احتمالات مربوطه با فرمول (7.1) محاسبه می شود.

توزیع دوجمله ای به دو عدد بستگی دارد مولفه های آرو n.

سری توزیع یک متغیر تصادفی که طبق قانون دوجمله ای توزیع شده است به شکل زیر است:

ایکس ک n
آر

مثال 7.1 . سه گلوله مستقل به سمت هدف شلیک می شود. احتمال زدن هر شلیک 0.4 است. مقدار تصادفی ایکس- تعداد ضربه به هدف. سری توزیع آن را بسازید.

راه حل. مقادیر احتمالی یک متغیر تصادفی ایکسهستند ایکس 1 =0; ایکس 2 =1; ایکس 3 =2; ایکس 4=3. با استفاده از فرمول برنولی احتمالات مربوطه را پیدا کنید. به راحتی می توان نشان داد که کاربرد این فرمول در اینجا کاملاً موجه است. توجه داشته باشید که احتمال اصابت نکردن به هدف با یک شلیک برابر با 1-0.4=0.6 خواهد بود. گرفتن

سری توزیع به شکل زیر است:

ایکس
آر 0,216 0,432 0,288 0,064

به راحتی می توان بررسی کرد که مجموع همه احتمالات برابر با 1 باشد. خود متغیر تصادفی ایکسطبق قانون دوجمله ای توزیع می شود. ■

بیایید انتظار ریاضی و واریانس یک متغیر تصادفی توزیع شده بر اساس قانون دو جمله ای را پیدا کنیم.

هنگام حل مثال 6.5 نشان داده شد که انتظارات ریاضی تعداد وقوع یک رویداد ولیکه در nتست های مستقل، در صورت احتمال وقوع ولیدر هر آزمون ثابت و مساوی است آر، برابر است n· آر

در این مثال، از یک متغیر تصادفی استفاده شده است که بر اساس قانون دوجمله ای توزیع شده است. بنابراین، حل مثال 6.5 در واقع اثبات قضیه زیر است.

قضیه 7.1.انتظار ریاضی یک متغیر تصادفی گسسته که طبق قانون دوجمله ای توزیع شده است برابر است با حاصل ضرب تعداد آزمایش و احتمال "موفقیت"، یعنی. م(ایکس)=n· آر.

قضیه 7.2.واریانس یک متغیر تصادفی گسسته توزیع شده بر اساس قانون دوجمله ای برابر است با حاصل ضرب تعداد آزمایش بر اساس احتمال "موفقیت" و احتمال "شکست"، یعنی. D(ایکس)=npq.

چولگی و کشیدگی یک متغیر تصادفی توزیع شده بر اساس قانون دوجمله ای با فرمول تعیین می شود.

این فرمول ها را می توان با استفاده از مفهوم گشتاورهای اولیه و مرکزی به دست آورد.

قانون توزیع دوجمله ای زیربنای بسیاری از موقعیت های واقعی است. برای مقادیر بزرگ nتوزیع دو جمله ای را می توان با توزیع های دیگر، به ویژه توزیع پواسون، تقریب زد.

توزیع پواسون

بذار باشه nآزمایشات برنولی، با تعداد آزمایشات nبه اندازه کافی بزرگ قبلاً نشان داده شده بود که در این مورد (اگر علاوه بر این، احتمال آرتحولات ولیبسیار کوچک) برای یافتن احتمال وقوع یک رویداد ولیظاهر شدن تییک بار در تست ها، می توانید از فرمول پواسون (4.9) استفاده کنید. اگر متغیر تصادفی ایکسبه معنی تعداد وقوع رویداد است ولیکه در nآزمایشات برنولی، سپس احتمال آن ایکسمعنا را به خود خواهد گرفت کبا فرمول قابل محاسبه است

, (7.2)

جایی که λ = شماره.

قانون توزیع پواسونتوزیع یک متغیر تصادفی گسسته نامیده می شود ایکس، که مقادیر ممکن برای آن اعداد صحیح غیر منفی و احتمالات هستند p tاین مقادیر با فرمول (7.2) یافت می شوند.

ارزش λ = شمارهتماس گرفت پارامترتوزیع پواسون

یک متغیر تصادفی که بر اساس قانون پواسون توزیع می‌شود، می‌تواند تعداد نامتناهی مقدار بگیرد. از آنجایی که برای این توزیع احتمال آروقوع یک رویداد در هر آزمایش کوچک است، سپس این توزیع گاهی اوقات قانون پدیده های نادر نامیده می شود.

سری توزیع یک متغیر تصادفی که بر اساس قانون پواسون توزیع شده است دارای شکل است

ایکس تی
آر

به راحتی می توان تأیید کرد که مجموع احتمالات ردیف دوم برابر با 1 است. برای انجام این کار، باید به یاد داشته باشیم که تابع را می توان در یک سری Maclaurin گسترش داد، که برای هر یک از آنها همگرا می شود. ایکس. در این مورد داریم

. (7.3)

همانطور که اشاره شد، قانون پواسون در برخی موارد محدود کننده جایگزین قانون دوجمله ای می شود. یک مثال یک متغیر تصادفی است ایکسکه مقادیر آن برابر با تعداد خرابی های یک دوره زمانی معین با استفاده مکرر از یک دستگاه فنی است. فرض بر این است که این دستگاه از قابلیت اطمینان بالایی برخوردار است، یعنی. احتمال شکست در یک برنامه بسیار کم است.

علاوه بر چنین موارد محدود کننده، در عمل متغیرهای تصادفی توزیع شده بر اساس قانون پواسون وجود دارد که به توزیع دوجمله ای مربوط نمی شود. به عنوان مثال، توزیع پواسون اغلب برای برخورد با تعداد رویدادهایی که در یک دوره زمانی رخ می‌دهند (تعداد تماس‌های تلفنی در طول یک ساعت، تعداد خودروهایی که در طول روز به کارواش رسیده‌اند، تعداد توقف های ماشین در هفته و غیره .). همه این رویدادها باید به اصطلاح جریان رویدادها را تشکیل دهند که یکی از مفاهیم اساسی تئوری صف است. پارامتر λ میانگین شدت جریان رویدادها را مشخص می کند.

برخلاف توزیع های نرمال و یکنواخت که رفتار یک متغیر را در نمونه آزمودنی های مورد مطالعه توصیف می کند، توزیع دوجمله ای برای اهداف دیگری استفاده می شود. این برای پیش بینی احتمال دو رویداد متقابل منحصر به فرد در تعداد معینی از آزمایشات مستقل عمل می کند. یک مثال کلاسیک از توزیع دو جمله ای پرتاب سکه ای است که روی یک سطح سخت می افتد. دو نتیجه (رویداد) به یک اندازه محتمل هستند: 1) سقوط سکه "عقاب" (احتمال برابر است با آر) یا 2) سکه سقوط می کند "دم" (احتمال برابر است با q). اگر هیچ نتیجه سومی داده نشد، پس پ = q= 0.5 و پ + q= 1. با استفاده از فرمول توزیع دو جمله ای، می توانید تعیین کنید که مثلاً احتمال اینکه در 50 آزمایش (تعداد پرتاب سکه) آخرین سکه مثلاً 25 بار سرش بیفتد چقدر است.

برای استدلال بیشتر، نماد عمومی پذیرفته شده را معرفی می کنیم:

nتعداد کل مشاهدات است.

من- تعداد رویدادها (نتایج) مورد علاقه ما؛

nمن- تعداد رویدادهای جایگزین؛

پ- احتمال وقوع یک رویداد مورد علاقه به طور تجربی تعیین شده (گاهی اوقات - فرضی)؛

qاحتمال یک رویداد جایگزین است.

پ n ( من) احتمال پیش بینی شده رویداد مورد علاقه ما است منبرای تعداد معینی از مشاهدات n.

فرمول توزیع دو جمله ای:

در صورت نتیجه غیرعادی رویدادها ( p = q) می توانید از فرمول ساده شده استفاده کنید:

(6.8)

بیایید سه مثال را در نظر بگیریم که استفاده از فرمول های توزیع دو جمله ای را در تحقیقات روانشناختی نشان می دهد.

مثال 1

فرض کنید که 3 دانش آموز در حال حل مشکل افزایش پیچیدگی هستند. برای هر یک از آنها، 2 نتیجه به یک اندازه محتمل است: (+) - حل و (-) - عدم حل مسئله. در مجموع، 8 نتیجه مختلف ممکن است (2 3 = 8).

احتمال اینکه هیچ دانش آموزی با این کار کنار بیاید 1/8 است (گزینه 8). 1 دانش آموز این کار را انجام می دهد: پ= 3/8 (گزینه های 4، 6، 7)؛ 2 دانش آموز - پ= 3/8 (گزینه های 2، 3، 5) و 3 دانش آموزان - پ= 1/8 (گزینه 1).

لازم است احتمال اینکه از هر 5 دانش آموز سه نفر از عهده این کار با موفقیت برآیند، مشخص شود.

راه حل

مجموع نتایج ممکن: 2 5 = 32.

تعداد کل گزینه های 3(+) و 2(-) می باشد

بنابراین، احتمال نتیجه مورد انتظار 10/32 » 0.31 است.

مثال 3

ورزش

احتمال پیدا شدن 5 فرد برونگرا در یک گروه 10 نفره تصادفی را تعیین کنید.

راه حل

1. نماد را وارد کنید: p=q= 0,5; n= 10; i = 5; P 10 (5) = ?

2. ما از یک فرمول ساده شده استفاده می کنیم (به بالا مراجعه کنید):

نتیجه

احتمال یافتن 5 برونگرا از بین 10 آزمودنی تصادفی 0.246 است.

یادداشت

1. محاسبه با فرمول با تعداد آزمایش های کافی بسیار پر زحمت است، بنابراین، در این موارد، استفاده از جداول توزیع دو جمله ای توصیه می شود.

2. در برخی موارد، مقادیر پو qمی توان در ابتدا تنظیم کرد، اما نه همیشه. به عنوان یک قاعده، آنها بر اساس نتایج آزمایشات اولیه (مطالعات آزمایشی) محاسبه می شوند.

3. در یک تصویر گرافیکی (در مختصات P n(من) = f(من)) توزیع دو جمله ای می تواند شکل متفاوتی داشته باشد: در مورد p = qتوزیع متقارن و شبیه توزیع نرمال گاوسی است. چولگی توزیع بیشتر است، تفاوت بین احتمالات بیشتر است پو q.

توزیع پواسون

توزیع پواسون یک مورد خاص از توزیع دوجمله ای است که زمانی استفاده می شود که احتمال رویدادهای مورد علاقه بسیار کم باشد. به عبارت دیگر، این توزیع احتمال رخدادهای نادر را توصیف می کند. می توان از فرمول پواسون برای پ < 0,01 и q ≥ 0,99.

معادله پواسون تقریبی است و با فرمول زیر توصیف می شود:

(6.9)

که در آن μ حاصل ضرب میانگین احتمال رویداد و تعداد مشاهدات است.

به عنوان مثال الگوریتم حل مسئله زیر را در نظر بگیرید.

وظیفه

برای چندین سال، 21 کلینیک بزرگ در روسیه معاینه انبوهی از نوزادان برای بیماری داون در نوزادان انجام دادند (متوسط ​​نمونه 1000 نوزاد در هر کلینیک بود). داده های زیر دریافت شد:

ورزش

1. میانگین احتمال بیماری (از نظر تعداد نوزادان) را تعیین کنید.

2. میانگین تعداد نوزادان مبتلا به یک بیماری را تعیین کنید.

3. احتمال اینکه از بین 100 نوزاد به طور تصادفی انتخاب شده، 2 نوزاد مبتلا به بیماری داون را تعیین کنید.

راه حل

1. میانگین احتمال بیماری را تعیین کنید. در انجام این کار، ما باید با استدلال زیر هدایت شویم. بیماری داون از 21 درمانگاه فقط در 10 درمانگاه ثبت شده است. در 11 کلینیک هیچ بیماری، 1 مورد در 6 درمانگاه، 2 مورد در 2 درمانگاه، 3 مورد در کلینیک یکم و 4 مورد در کلینیک یکم ثبت شده است. 5 مورد در هیچ کلینیک یافت نشد. برای تعیین میانگین احتمال بیماری، لازم است تعداد کل موارد (6 1 + 2 2 + 1 3 + 1 4 = 17) بر تعداد کل نوزادان (21000) تقسیم شود:

2. تعداد نوزادانی که عامل یک بیماری هستند، متقابل احتمال متوسط ​​است، یعنی برابر با تعداد کل نوزادان تقسیم بر تعداد موارد ثبت شده:

3. مقادیر را جایگزین کنید پ = 0,00081, n= 100 و من= 2 در فرمول پواسون:

پاسخ

احتمال اینکه از بین 100 نوزاد انتخاب شده به طور تصادفی 2 نوزاد مبتلا به بیماری داون پیدا شود 003/0 (3/0 درصد) است.

وظایف مرتبط

وظیفه 6.1

ورزش

با استفاده از داده های مسئله 5.1 در مورد زمان واکنش حسی حرکتی، عدم تقارن و کشیدگی توزیع VR را محاسبه کنید.

وظیفه 6. 2

200 دانشجوی کارشناسی ارشد از نظر سطح هوش ( IQ). پس از نرمال کردن توزیع حاصل IQبا توجه به انحراف معیار، نتایج زیر به دست آمد:

ورزش

با استفاده از آزمون های کولموگروف و کای دو، تعیین کنید که آیا توزیع حاصل از شاخص ها مطابقت دارد یا خیر. IQطبیعی.

وظیفه 6. 3

در یک فرد بالغ (یک مرد 25 ساله)، زمان یک واکنش حسی حرکتی ساده (SR) در پاسخ به یک محرک صوتی با فرکانس ثابت 1 کیلوهرتز و شدت 40 دسی بل مورد مطالعه قرار گرفت. محرک صد بار در فواصل 3-5 ثانیه ارائه شد. مقادیر فردی VR برای 100 تکرار به صورت زیر توزیع شد:

ورزش

1. یک هیستوگرام فرکانس از توزیع VR بسازید. مقدار متوسط ​​VR و مقدار انحراف استاندارد را تعیین کنید.

2. ضریب عدم تقارن و کشش توزیع BP را محاسبه کنید. بر اساس مقادیر دریافتی مانندو سابقدر مورد مطابقت یا عدم انطباق این توزیع با توزیع عادی نتیجه گیری کنید.

وظیفه 6.4

در سال 1998، 14 نفر (5 پسر و 9 دختر) با مدال طلا از مدارس نیژنی تاگیل، 26 نفر (8 پسر و 18 دختر) با مدال نقره فارغ التحصیل شدند.

سوال

آیا می توان گفت دختران بیشتر از پسران مدال می گیرند؟

توجه داشته باشید

نسبت تعداد پسر و دختر در جمعیت عمومی برابر در نظر گرفته شده است.

وظیفه 6.5

اعتقاد بر این است که تعداد افراد برونگرا و درونگرا در یک گروه همگن از افراد تقریباً یکسان است.

ورزش

این احتمال را تعیین کنید که در یک گروه 10 نفره که به طور تصادفی انتخاب شده اند، 0، 1، 2، ...، 10 نفر برونگرا پیدا شوند. یک عبارت گرافیکی برای توزیع احتمال یافتن 0، ​​1، 2، ...، 10 برونگرا در یک گروه معین بسازید.

وظیفه 6.6

ورزش

محاسبه احتمال P n(i) توابع توزیع دو جمله ای برای پ= 0.3 و q= 0.7 برای مقادیر n= 5 و من= 0، 1، 2، ...، 5. یک عبارت گرافیکی از وابستگی بسازید P n(من) = f(من) .

وظیفه 6.7

در سال‌های اخیر، اعتقاد به پیش‌بینی‌های نجومی در میان بخش خاصی از مردم ایجاد شده است. با توجه به نتایج بررسی های اولیه، مشخص شد که حدود 15 درصد از مردم به طالع بینی اعتقاد دارند.

ورزش

این احتمال را تعیین کنید که از بین 10 پاسخ دهنده به طور تصادفی انتخاب شده، 1، 2 یا 3 نفر وجود داشته باشند که به پیش بینی های نجومی اعتقاد دارند.

وظیفه 6.8

وظیفه

در 42 مدرسه متوسطه در شهر یکاترینبورگ و منطقه Sverdlovsk (تعداد کل دانش‌آموزان 12260 نفر است)، تعداد موارد زیر از بیماری روانی در بین دانش‌آموزان طی چندین سال آشکار شد:

ورزش

اجازه دهید 1000 دانش آموز به طور تصادفی معاینه شوند. حساب کنید احتمال شناسایی 1، 2 یا 3 کودک روانی در بین این هزار دانش آموز چقدر است؟


بخش 7. معیارهای تفاوت

فرمول بندی مسئله

فرض کنید دو نمونه مستقل از موضوعات داریم ایکسو در. مستقلنمونه ها زمانی شمارش می شوند که همان موضوع (موضوع) تنها در یک نمونه ظاهر شود. کار این است که این نمونه ها (دو مجموعه متغیر) را با یکدیگر برای تفاوت آنها مقایسه کنیم. طبیعتاً مهم نیست که مقادیر متغیرهای نمونه اول و دوم چقدر به هم نزدیک باشند، برخی تفاوت‌ها، حتی اگر ناچیز باشند، بین آنها تشخیص داده می‌شود. از نقطه نظر آمار ریاضی، ما به این سوال علاقه مندیم که آیا تفاوت بین این نمونه ها از نظر آماری معنی دار (از لحاظ آماری معنی دار) یا غیر قابل اعتماد (تصادفی) است؟

رایج‌ترین معیار برای اهمیت تفاوت‌ها بین نمونه‌ها، معیارهای پارامتری تفاوت‌ها هستند. معیار دانش آموزو معیار فیشر. در برخی موارد از معیارهای ناپارامتریک استفاده می شود - تست کیو روزنبام، آزمون یو من ویتنیو دیگران. تبدیل زاویه ای فیشر φ*، که به شما امکان می دهد مقادیر بیان شده به صورت درصد (درصد) را با یکدیگر مقایسه کنید. و در نهایت، به عنوان یک مورد خاص، برای مقایسه نمونه ها، می توان از معیارهایی استفاده کرد که شکل توزیع نمونه را مشخص می کند - معیار χ 2 پیرسونو معیار λ Kolmogorov – Smirnov.

برای درک بهتر این موضوع به صورت زیر عمل می کنیم. ما همان مشکل را با چهار روش با استفاده از چهار معیار مختلف حل خواهیم کرد - Rosenbaum، Mann-Whitney، Student و Fisher.

وظیفه

30 دانش آموز (14 پسر و 16 دختر) در جلسه امتحان بر اساس آزمون اسپیلبرگر از نظر سطح اضطراب واکنشی مورد آزمون قرار گرفتند. نتایج زیر به دست آمد (جدول 7.1):

جدول 7.1

فاعل، موضوع سطح اضطراب واکنشی
جوانان
دختران

ورزش

برای تعیین اینکه آیا تفاوت در سطح اضطراب واکنشی در پسران و دختران از نظر آماری معنادار است یا خیر.

به نظر می رسد این وظیفه برای یک روانشناس متخصص در زمینه روانشناسی آموزشی کاملاً معمول است: چه کسی استرس امتحان را شدیدتر تجربه می کند - پسران یا دختران؟ اگر تفاوت بین نمونه ها از نظر آماری معنی دار باشد، در این صورت تفاوت های جنسیتی قابل توجهی وجود دارد. اگر تفاوت ها تصادفی باشند (از نظر آماری معنی دار نیستند)، این فرض باید کنار گذاشته شود.

7. 2. آزمون ناپارامتریک سروزنباوم

س-معیار روزنبام مبتنی بر مقایسه مقادیر «فوق‌العاده‌شده» دو متغیر مستقل بر روی یکدیگر است. در عین حال، ماهیت توزیع صفت در هر ردیف تجزیه و تحلیل نمی شود - در این مورد، فقط عرض بخش های غیر همپوشانی دو ردیف رتبه بندی شده مهم است. هنگام مقایسه دو سری از متغیرهای رتبه بندی شده با یکدیگر، 3 گزینه ممکن است:

1. رتبه های رتبه بندی شده ایکسو yمنطقه همپوشانی ندارند، یعنی تمام مقادیر سری اول رتبه بندی شده ( ایکس) بزرگتر از تمام مقادیر سری دوم است( y):

در این مورد، تفاوت بین نمونه ها، که با هر معیار آماری تعیین می شود، قطعا قابل توجه است و استفاده از معیار روزنبام مورد نیاز نیست. با این حال، در عمل این گزینه بسیار نادر است.

2. ردیف های رتبه بندی شده کاملاً با یکدیگر همپوشانی دارند (به عنوان یک قاعده، یکی از ردیف ها در داخل دیگری قرار دارد)، هیچ منطقه غیر همپوشانی وجود ندارد. در این مورد، معیار Rosenbaum قابل اجرا نیست.

3. یک ناحیه همپوشانی از ردیف ها و همچنین دو ناحیه غیر همپوشانی وجود دارد ( N 1و N 2) مربوط به ناهمسانسری های رتبه بندی شده (ما نشان می دهیم ایکس- یک ردیف به سمت بزرگ تغییر مکان داد، y- در جهت مقادیر کمتر):

این مورد برای استفاده از معیار Rosenbaum معمول است که هنگام استفاده از آن باید شرایط زیر رعایت شود:

1. حجم هر نمونه باید حداقل 11 باشد.

2. اندازه نمونه نباید تفاوت قابل توجهی با یکدیگر داشته باشد.

معیار س Rosenbaum با تعداد مقادیر غیر همپوشانی مطابقت دارد: س = ن 1 +ن 2 . نتیجه گیری در مورد پایایی تفاوت بین نمونه ها انجام می شود اگر س > س kr . در عین حال، ارزش ها س cr در جداول ویژه قرار دارند (به پیوست، جدول هشتم مراجعه کنید).

به وظیفه خود برگردیم. اجازه دهید نماد را معرفی کنیم: ایکس- منتخبی از دختران، y- منتخبی از پسران. برای هر نمونه، یک سری رتبه بندی می سازیم:

ایکس: 28 30 34 34 35 36 37 39 40 41 42 42 43 44 45 46

y: 26 28 32 32 33 34 35 38 39 40 41 42 43 44

ما تعداد مقادیر را در مناطق غیر همپوشانی سری رتبه‌بندی می‌شماریم. در یک ردیف ایکسمقادیر 45 و 46 با هم تداخل ندارند، یعنی. ن 1 = 2؛ در یک ردیف yفقط 1 مقدار غیر همپوشانی 26 یعنی. ن 2 = 1. بنابراین، س = ن 1 +ن 2 = 1 + 2 = 3.

روی میز. ضمیمه هشتم در می یابیم که س kr . = 7 (برای سطح معنی داری 0.95) و س cr = 9 (برای سطح معنی داری 0.99).

نتیجه

از آنجا که س<س cr، پس با توجه به معیار روزنبام، تفاوت بین نمونه ها از نظر آماری معنی دار نیست.

توجه داشته باشید

آزمون روزنبام بدون توجه به ماهیت توزیع متغیرها قابل استفاده است، یعنی در این مورد نیازی به استفاده از آزمون χ2 پیرسون و λ کلموگروف برای تعیین نوع توزیع در هر دو نمونه نیست.

7. 3. U-آزمون من ویتنی

برخلاف معیار روزنبام، Uآزمون من ویتنی بر اساس تعیین ناحیه همپوشانی بین دو ردیف رتبه‌بندی شده است، یعنی هرچه ناحیه همپوشانی کوچک‌تر باشد، تفاوت بین نمونه‌ها بیشتر است. برای این کار از روش خاصی برای تبدیل مقیاس های فاصله ای به مقیاس های رتبه ای استفاده می شود.

اجازه دهید الگوریتم محاسبه را در نظر بگیریم U-معیار در مثال کار قبلی.

جدول 7.2

x، y آر xy آر xy * آرایکس آر y
26 28 32 32 33 34 35 38 39 40 41 42 43 44 2,5 2,5 5,5 5,5 11,5 11,5 16,5 16,5 18,5 18,5 20,5 20,5 25,5 25,5 27,5 27,5 2,5 11,5 16,5 18,5 20,5 25,5 27,5 1 2,5 5,5 5,5 7 9 11,5 15 16,5 18,5 20,5 23 25,5 27,5
Σ 276,5 188,5

1. ما یک سری رتبه بندی شده را از دو نمونه مستقل می سازیم. در این مورد، مقادیر برای هر دو نمونه مخلوط می شوند، ستون 1 ( ایکس, y). به منظور ساده سازی کار بیشتر (از جمله در نسخه رایانه ای)، مقادیر نمونه های مختلف باید با فونت های مختلف (یا رنگ های مختلف) علامت گذاری شوند، با در نظر گرفتن این واقعیت که در آینده آنها را در ستون های مختلف توزیع خواهیم کرد.

2. مقیاس فاصله مقادیر را به ترتیبی تبدیل کنید (برای انجام این کار، همه مقادیر را با اعداد رتبه از 1 تا 30، ستون 2 دوباره طراحی می کنیم ( آر xy)).

3. اصلاحاتی را برای رتبه های مرتبط معرفی می کنیم (مقادیر یکسان متغیر با همان رتبه مشخص می شود، مشروط بر اینکه مجموع رتبه ها تغییر نکند، ستون 3 ( آر xy *). در این مرحله توصیه می شود مجموع رتبه های ستون های 2 و 3 را محاسبه کنید (اگر تمام اصلاحات به درستی وارد شده باشد، این مجموع باید برابر باشد).

4. اعداد رتبه ها را مطابق با تعلق آنها به یک نمونه خاص پخش می کنیم (ستون های 4 و 5 ( آر x و آر y)).

5. ما محاسبات را طبق فرمول انجام می دهیم:

(7.1)

جایی که تی x بزرگترین مجموع رتبه است ; n x و n y، به ترتیب، اندازه نمونه. در این مورد به خاطر داشته باشید که اگر تیایکس< تی y، سپس نماد ایکسو yباید معکوس شود.

6. مقدار به دست آمده را با مقدار جدول مقایسه کنید (به پیوست ها، جدول IX مراجعه کنید) نتیجه گیری در مورد قابلیت اطمینان تفاوت های بین دو نمونه در صورتی انجام می شود که Uانقضا< U cr. .

در مثال ما Uانقضا = 83.5 > U cr. = 71.

نتیجه

تفاوت بین دو نمونه بر اساس آزمون من ویتنی از نظر آماری معنی دار نیست.

یادداشت

1. آزمون من ویتنی عملا هیچ محدودیتی ندارد. حداقل اندازه نمونه های مقایسه شده 2 و 5 نفر است (جدول IX پیوست را ببینید).

2. مشابه آزمایش روزنبام، آزمون من ویتنی را می توان برای هر نمونه ای، صرف نظر از ماهیت توزیع، استفاده کرد.

معیار دانش آموز

بر خلاف معیارهای روزنبام و من ویتنی، معیار تیروش دانش آموز پارامتریک است، یعنی بر اساس تعیین شاخص های آماری اصلی - مقادیر میانگین در هر نمونه (و) و واریانس آنها (s 2 x و s 2 y) که با استفاده از فرمول های استاندارد محاسبه می شود (به بخش 5 مراجعه کنید).

استفاده از معیار دانشجو مستلزم شرایط زیر است:

1. توزیع مقادیر برای هر دو نمونه باید از قانون توزیع نرمال پیروی کند (به بخش 6 مراجعه کنید).

2. حجم کل نمونه ها باید حداقل 30 (برای β 1 = 0.95) و حداقل 100 (برای β 2 = 0.99) باشد.

3. حجم دو نمونه نباید تفاوت قابل توجهی با یکدیگر داشته باشد (بیش از 1.5 ÷ 2 برابر).

ایده معیار دانشجویی بسیار ساده است. فرض کنید مقادیر متغیرها در هر یک از نمونه ها بر اساس قانون نرمال توزیع شده اند، یعنی با دو توزیع نرمال روبرو هستیم که از نظر مقادیر میانگین و واریانس با یکدیگر تفاوت دارند (به ترتیب، و ، و شکل 7.1 را ببینید).

س ایکسس y

برنج. 7.1. برآورد تفاوت بین دو نمونه مستقل: و - مقادیر میانگین نمونه ها ایکسو y; s x و s y - انحرافات استاندارد

به راحتی می توان درک کرد که تفاوت بین دو نمونه بیشتر، تفاوت بین میانگین ها بیشتر و واریانس (یا انحراف معیار) آنها کوچکتر خواهد بود.

در مورد نمونه های مستقل، ضریب دانشجو با فرمول تعیین می شود:

(7.2)

جایی که n x و n y - به ترتیب تعداد نمونه ها ایکسو y.

پس از محاسبه ضریب Student در جدول مقادیر استاندارد (بحرانی). تی(به پیوست، جدول X مراجعه کنید) مقدار مربوط به تعداد درجات آزادی را بیابید n = n x + n y - 2 و آن را با فرمول محاسبه شده مقایسه کنید. اگر یک تیانقضا £ تی cr. ، در این صورت فرضیه پایایی تفاوت بین نمونه ها رد می شود تیانقضا > تی cr. ، سپس پذیرفته می شود. به عبارت دیگر، در صورتی که ضریب دانشجوی محاسبه شده با فرمول از مقدار جدولی برای سطح معنی‌داری مربوطه بیشتر باشد، نمونه‌ها با یکدیگر تفاوت معناداری دارند.

در مسئله ای که قبلا در نظر گرفتیم، محاسبه مقادیر متوسط ​​و واریانس مقادیر زیر را به دست می دهد: ایکسرجوع کنید به = 38.5; σ x 2 = 28.40; دررجوع کنید به = 36.2; σ y 2 = 31.72.

مشاهده می شود که میانگین ارزش اضطراب در گروه دختران بیشتر از گروه پسران است. با این حال، این تفاوت ها به قدری کوچک هستند که بعید به نظر می رسد از نظر آماری معنی دار باشند. برعکس، پراکندگی مقادیر در پسران کمی بیشتر از دختران است، اما تفاوت بین واریانس ها نیز کم است.

نتیجه

تیانقضا = 1.14< تی cr. = 2.05 (β 1 = 0.95). تفاوت بین دو نمونه مقایسه شده از نظر آماری معنی دار نیست. این نتیجه گیری کاملاً با نتیجه به دست آمده با استفاده از معیارهای روزنبام و من ویتنی مطابقت دارد.

روش دیگر برای تعیین تفاوت بین دو نمونه با استفاده از آزمون تی دانشجویی محاسبه فاصله اطمینان انحرافات استاندارد است. فاصله اطمینان، میانگین انحراف مربع (استاندارد) تقسیم بر جذر حجم نمونه و ضرب در مقدار استاندارد ضریب دانشجو برای n– 1 درجه آزادی (به ترتیب و ).

توجه داشته باشید

ارزش = m xریشه میانگین مربعات خطا نامیده می شود (به بخش 5 مراجعه کنید). بنابراین، فاصله اطمینان خطای استاندارد ضرب در ضریب دانشجو برای یک حجم نمونه معین است، که در آن تعداد درجات آزادی ν = n- 1، و سطح معینی از اهمیت.

اگر فواصل اطمینان برای این نمونه ها با یکدیگر همپوشانی نداشته باشند، دو نمونه مستقل از یکدیگر به طور قابل توجهی متفاوت در نظر گرفته می شوند. در مورد ما، برای نمونه اول 2.84 ± 38.5 و برای نمونه دوم 36.2 ± 3.38 داریم.

بنابراین، تغییرات تصادفی x iدر محدوده 35.66 ¸ 41.34 قرار دارد و تغییرات y من- در محدوده 32.82 ¸ 39.58. بر این اساس می توان بیان کرد که تفاوت بین نمونه ها ایکسو yاز نظر آماری غیر قابل اعتماد (محدوده تغییرات با یکدیگر همپوشانی دارند). در این مورد، باید در نظر داشت که عرض منطقه همپوشانی در این مورد مهم نیست (تنها واقعیت همپوشانی فواصل اطمینان مهم است).

روش دانش‌آموز برای نمونه‌های وابسته به هم (مثلاً برای مقایسه نتایج به‌دست‌آمده از آزمایش‌های مکرر روی نمونه‌های مشابه) به ندرت استفاده می‌شود، زیرا تکنیک‌های آماری آموزنده‌تری برای این اهداف وجود دارد (به بخش 10 مراجعه کنید). اما برای این منظور به عنوان تقریب اول می توانید از فرمول Student به شکل زیر استفاده کنید:

(7.3)

نتیجه به دست آمده با مقدار جدول برای مقایسه می شود n– 1 درجه آزادی، که در آن n- تعداد جفت مقادیر ایکسو y. نتایج مقایسه دقیقاً به همان روشی که در مورد محاسبه تفاوت بین دو نمونه مستقل تفسیر می شود.

معیار فیشر

معیار فیشر ( اف) بر اساس همان اصل آزمون t Student است، یعنی شامل محاسبه مقادیر میانگین و واریانس در نمونه های مقایسه شده است. اغلب در مقایسه نمونه هایی که از نظر اندازه نابرابر (از نظر اندازه متفاوت) هستند با یکدیگر استفاده می شود. آزمون فیشر تا حدودی سخت‌گیرانه‌تر از آزمون دانشجو است، و بنابراین در مواردی که در مورد پایایی تفاوت‌ها تردید وجود دارد، ترجیح داده می‌شود (مثلاً اگر طبق آزمون دانشجو، تفاوت‌ها در صفر معنی‌دار باشند و در اولین معنی‌دار معنی‌دار نباشند. مرحله).

فرمول فیشر به این صورت است:

(7.4)

کجا و (7.5, 7.6)

در مشکل ما d2= 5.29; σz 2 = 29.94.

مقادیر موجود در فرمول را جایگزین کنید:

روی میز. XI برنامه های کاربردی، متوجه می شویم که برای سطح معنی داری β 1 = 0.95 و ν = n x + n y - 2 = 28 مقدار بحرانی 4.20 است.

نتیجه

اف = 1,32 < F cr.= 4.20. تفاوت بین نمونه ها از نظر آماری معنی دار نیست.

توجه داشته باشید

هنگام استفاده از آزمون فیشر، همان شرایطی که برای آزمون دانشجویی وجود دارد باید رعایت شود (به بخش 7.4 مراجعه کنید). با این وجود، تفاوت در تعداد نمونه ها بیش از دو برابر مجاز است.

بنابراین، هنگام حل یک مسئله با چهار روش مختلف با استفاده از دو معیار ناپارامتریک و دو معیار پارامتریک، به این نتیجه صریح رسیدیم که تفاوت بین گروه دختران و گروه پسران از نظر سطح اضطراب واکنشی غیرقابل اعتماد است. (یعنی در محدوده تغییرات تصادفی هستند). با این حال، ممکن است مواردی وجود داشته باشد که نتیجه گیری بدون ابهام ممکن نباشد: برخی از معیارها تفاوت های قابل اعتماد و برخی دیگر - تفاوت های غیرقابل اعتماد را ارائه می دهند. در این موارد اولویت با معیارهای پارامتریک (به شرط کافی بودن حجم نمونه و توزیع نرمال مقادیر مورد مطالعه) است.

7. 6. معیار j* - تبدیل زاویه ای فیشر

معیار j*Fisher برای مقایسه دو نمونه با توجه به فراوانی وقوع اثر مورد علاقه محقق طراحی شده است. اهمیت تفاوت بین درصدهای دو نمونه را که اثر علاقه در آنها ثبت شده است، ارزیابی می کند. مقایسه درصدها در همان نمونه نیز مجاز است.

ماهیت تبدیل زاویه ای فیشر، تبدیل درصدها به زوایای مرکزی است که بر حسب رادیان اندازه گیری می شوند. درصد بزرگتر با زاویه بزرگتر مطابقت دارد j، و یک سهم کوچکتر - یک زاویه کوچکتر، اما رابطه در اینجا غیر خطی است:

جایی که آر- درصد، بیان شده در کسری از واحد.

با افزایش اختلاف بین زوایای j 1 و j 2 و افزایش تعداد نمونه ها، مقدار معیار افزایش می یابد.

معیار فیشر با فرمول زیر محاسبه می شود:


که در آن j 1 زاویه مربوط به درصد بزرگتر است. j 2 - زاویه مربوط به درصد کمتر. n 1 و n 2- به ترتیب حجم نمونه اول و دوم.

مقدار محاسبه شده توسط فرمول با مقدار استاندارد مقایسه می شود (j* st = 1.64 برای b 1 = 0.95 و j* st = 2.31 برای b 2 = 0.99. تفاوت بین دو نمونه از نظر آماری معنی دار در نظر گرفته می شود اگر j*> j* st برای سطح معینی از اهمیت.

مثال

ما علاقه مندیم که آیا این دو گروه از دانش آموزان از نظر موفقیت در انجام یک کار نسبتاً پیچیده با یکدیگر تفاوت دارند یا خیر. در گروه اول 20 نفره، 12 دانش آموز با آن کنار آمدند، در گروه دوم - 10 نفر از 25 نفر.

راه حل

1. نماد را وارد کنید: n 1 = 20, n 2 = 25.

2. محاسبه درصد آر 1 و آر 2: آر 1 = 12 / 20 = 0,6 (60%), آر 2 = 10 / 25 = 0,4 (40%).

3. در جدول. XII برنامه های کاربردی، مقادیر φ را مربوط به درصدها می یابیم: j 1 = 1.772، j 2 = 1.369.


از اینجا:

نتیجه

تفاوت بین گروه ها از نظر آماری معنی دار نیست زیرا j*< j* ст для 1-го и тем более для 2-го уровня значимости.

7.7. با استفاده از آزمون χ2 پیرسون و آزمون λ کولموگروف

نظریه احتمال به طور نامرئی در زندگی ما وجود دارد. ما به آن توجه نمی کنیم، اما هر اتفاقی در زندگی ما یک احتمال دارد. با توجه به تعداد زیاد سناریوهای ممکن، لازم است محتمل ترین و کم احتمال ترین آنها را مشخص کنیم. تحلیل گرافیکی چنین داده های احتمالی راحت تر است. توزیع می تواند در این امر به ما کمک کند. Binomial یکی از ساده ترین و دقیق ترین است.

قبل از اینکه مستقیماً به ریاضیات و نظریه احتمالات برویم، بیایید بفهمیم چه کسی اولین کسی بود که این نوع توزیع را ارائه کرد و تاریخچه توسعه دستگاه ریاضی برای این مفهوم چیست.

داستان

مفهوم احتمال از زمان های قدیم شناخته شده است. با این حال، ریاضیدانان باستان اهمیت چندانی برای آن قائل نبودند و تنها توانستند پایه های نظریه ای را بنا کنند که بعدها به نظریه احتمال تبدیل شد. آنها برخی از روش های ترکیبی را ایجاد کردند که به کسانی که بعداً خود نظریه را ایجاد کردند و توسعه دادند بسیار کمک کرد.

در نیمه دوم قرن هفدهم، شکل گیری مفاهیم و روش های اساسی نظریه احتمال آغاز شد. تعاریف متغیرهای تصادفی، روش‌هایی برای محاسبه احتمال رخدادهای مستقل و وابسته ساده و چند پیچیده معرفی شدند. چنین علاقه ای به متغیرها و احتمالات تصادفی توسط قمار دیکته می شد: هر فرد می خواست بداند شانس او ​​برای برنده شدن در بازی چقدر است.

گام بعدی به کارگیری روش های تحلیل ریاضی در نظریه احتمالات بود. ریاضیدانان برجسته ای مانند لاپلاس، گاوس، پواسون و برنولی این وظیفه را بر عهده گرفتند. آنها بودند که این حوزه از ریاضیات را به سطح جدیدی ارتقا دادند. جیمز برنولی بود که کشف کرد قانون دوجمله ایتوزیع به هر حال، همانطور که بعداً متوجه خواهیم شد، بر اساس این کشف، چندین مورد دیگر ساخته شد که امکان ایجاد قانون توزیع نرمال و بسیاری موارد دیگر را فراهم کرد.

اکنون، قبل از شروع توصیف توزیع دوجمله‌ای، کمی در حافظه مفاهیم نظریه احتمالات تجدید می‌کنیم، که احتمالاً قبلاً از روی نیمکت مدرسه فراموش شده‌اند.

مبانی نظریه احتمال

ما چنین سیستم هایی را در نظر خواهیم گرفت که در نتیجه فقط دو نتیجه ممکن است: "موفقیت" و "شکست". درک این موضوع با یک مثال آسان است: ما یک سکه پرتاب می کنیم، حدس می زنیم که دم ها می افتند. احتمال هر یک از رویدادهای ممکن (دم - "موفقیت"، سرها - "موفق نشدن") برابر با 50 درصد است که سکه کاملاً متعادل است و هیچ عامل دیگری وجود ندارد که بتواند آزمایش را تحت تأثیر قرار دهد.

این ساده ترین اتفاق بود. اما سیستم های پیچیده ای نیز وجود دارد که در آنها اقدامات متوالی انجام می شود و احتمال نتایج این اقدامات متفاوت خواهد بود. به عنوان مثال، سیستم زیر را در نظر بگیرید: در جعبه ای که محتوای آن را نمی بینیم، شش توپ کاملاً یکسان، سه جفت رنگ آبی، قرمز و سفید وجود دارد. باید به صورت تصادفی چند توپ بدست آوریم. بر این اساس با بیرون کشیدن یکی از توپ های سفید ابتدا چندین برابر این احتمال را کاهش می دهیم که توپ بعدی نیز یک توپ سفید به دست آوریم. این به این دلیل است که تعداد اشیاء در سیستم تغییر می کند.

در بخش بعدی، مفاهیم پیچیده‌تری ریاضی را بررسی خواهیم کرد که ما را به واژه‌های " نزدیک می‌کند. توزیع نرمال"," توزیع دو جمله ای "و ​​مانند آن.

عناصر آمار ریاضی

در آمار که یکی از حوزه‌های کاربرد نظریه احتمال است، نمونه‌های زیادی وجود دارد که داده‌های مورد تجزیه و تحلیل به صراحت ارائه نشده است. یعنی نه از نظر اعداد، بلکه به صورت تقسیم بر اساس خصوصیات، مثلاً بر اساس جنسیت. به منظور اعمال یک دستگاه ریاضی برای چنین داده‌هایی و نتیجه‌گیری از نتایج به‌دست‌آمده، باید داده‌های اولیه را به یک قالب عددی تبدیل کرد. به عنوان یک قاعده، برای اجرای این، به یک نتیجه مثبت مقدار 1 و به یک نتیجه منفی مقدار 0 اختصاص داده می شود. بنابراین، داده های آماری را به دست می آوریم که می توانند با استفاده از روش های ریاضی تجزیه و تحلیل شوند.

گام بعدی در درک اینکه توزیع دوجمله ای چیست متغیر تصادفی، تعریف واریانس یک متغیر تصادفی و انتظار ریاضی است. در بخش بعدی در این مورد صحبت خواهیم کرد.

ارزش مورد انتظار

واقعا بفهمی چیه ارزش مورد انتظار، سخت نیست سیستمی را در نظر بگیرید که در آن رویدادهای مختلف با احتمالات متفاوت خود وجود دارد. انتظارات ریاضی مقدار نامیده می شود، برابر با مجموعمحصول مقادیر این رویدادها (به شکل ریاضی که در قسمت آخر در مورد آن صحبت کردیم) و احتمال وقوع آنها.

انتظارات ریاضی توزیع دوجمله ای طبق همان طرح محاسبه می شود: مقدار یک متغیر تصادفی را می گیریم، آن را در احتمال یک نتیجه مثبت ضرب می کنیم و سپس داده های به دست آمده را برای همه متغیرها خلاصه می کنیم. ارائه این داده ها به صورت گرافیکی بسیار راحت است - به این ترتیب تفاوت بین انتظارات ریاضی مقادیر مختلف بهتر درک می شود.

در بخش بعدی، ما کمی در مورد یک مفهوم متفاوت - واریانس یک متغیر تصادفی - به شما خواهیم گفت. همچنین ارتباط نزدیکی با مفهومی مانند توزیع احتمال دو جمله ای دارد و مشخصه آن است.

واریانس توزیع دو جمله ای

این مقدار ارتباط نزدیکی با مقدار قبلی دارد و همچنین توزیع داده های آماری را مشخص می کند. این نشان دهنده میانگین مربع انحراف مقادیر از انتظارات ریاضی آنها است. یعنی واریانس یک متغیر تصادفی حاصل مجموع مجذور اختلافات بین مقدار یک متغیر تصادفی و انتظارات ریاضی آن ضرب در احتمال این رویداد است.

به طور کلی، این تنها چیزی است که ما باید در مورد واریانس بدانیم تا بفهمیم توزیع احتمال دو جمله ای چیست. حالا بریم سر موضوع اصلیمون. یعنی آنچه در پشت چنین عبارت به ظاهر نسبتاً پیچیده ای نهفته است "قانون توزیع دوجمله ای".

توزیع دو جمله ای

بیایید ابتدا بفهمیم که چرا این توزیع دوجمله ای است. از کلمه "بینوم" می آید. ممکن است درباره دوجمله‌ای نیوتن شنیده باشید - فرمولی که می‌توان از آن برای گسترش مجموع هر دو عدد a و b به هر توان غیر منفی n استفاده کرد.

همانطور که احتمالاً قبلاً حدس زده اید، فرمول دو جمله ای نیوتن و فرمول توزیع دو جمله ای تقریباً فرمول های مشابهی هستند. با این استثنا که دومی دارای مقدار کاربردی برای کمیت های خاص است و اولی فقط یک ابزار ریاضی عمومی است که کاربردهای آن در عمل می تواند متفاوت باشد.

فرمول های توزیع

تابع توزیع دو جمله ای را می توان به صورت مجموع عبارت های زیر نوشت:

(n!/(n-k)!k!)*p k *q n-k

در اینجا n تعداد آزمایش‌های تصادفی مستقل، p تعداد نتایج موفقیت‌آمیز، q تعداد نتایج ناموفق، k تعداد آزمایش است (می‌تواند مقادیری از 0 تا n بگیرد)،! - تعیین یک فاکتوریل، چنین تابعی از یک عدد، که مقدار آن برابر است با حاصلضرب تمام اعدادی که به آن بالا می روند (مثلاً برای عدد 4: 4!=1*2*3*4= 24).

علاوه بر این، تابع توزیع دو جمله ای را می توان به عنوان یک تابع بتا ناقص نوشت. با این حال، این در حال حاضر یک تعریف پیچیده تر است، که تنها در هنگام حل مسائل آماری پیچیده استفاده می شود.

توزیع دوجمله ای، که نمونه هایی از آن را در بالا بررسی کردیم، یکی از بهترین هاست گونه های سادهتوزیع ها در نظریه احتمال یک توزیع نرمال نیز وجود دارد که نوعی توزیع دوجمله ای است. این رایج ترین مورد استفاده است و آسان ترین محاسبه است. همچنین توزیع برنولی، توزیع پواسون، توزیع شرطی وجود دارد. همه آنها به صورت گرافیکی مناطق احتمال یک فرآیند خاص را در شرایط مختلف مشخص می کنند.

در بخش بعدی جنبه های مربوط به کاربرد این دستگاه ریاضی را در نظر خواهیم گرفت زندگی واقعی. البته در نگاه اول به نظر می رسد که این یکی دیگر از چیزهای ریاضی است که طبق معمول در زندگی واقعی کاربرد پیدا نمی کند و به طور کلی به جز خود ریاضیدانان مورد نیاز کسی نیست. به هر حال، این چنین نیست. از این گذشته، همه انواع توزیع‌ها و نمایش‌های گرافیکی آن‌ها صرفاً برای اهداف عملی ایجاد شده‌اند و نه به عنوان یک هوس دانشمندان.

کاربرد

تا حد زیادی مهمترین کاربرد توزیع در آمار یافت می شود، زیرا به آن نیاز دارد تجزیه و تحلیل پیچیدهداده های زیادی همانطور که تمرین نشان می دهد، تعداد زیادی از آرایه های داده دارای توزیع مقادیر تقریباً یکسانی هستند: مناطق بحرانی با مقادیر بسیار کم و بسیار بالا، معمولاً حاوی عناصر کمتری نسبت به مقادیر متوسط ​​هستند.

تجزیه و تحلیل آرایه های داده بزرگ نه تنها در آمار مورد نیاز است. برای مثال در شیمی فیزیک ضروری است. در این علم برای تعیین کمیت های زیادی که با ارتعاشات و حرکات تصادفی اتم ها و مولکول ها مرتبط هستند، استفاده می شود.

در بخش بعدی به اهمیت استفاده از چنین مواردی خواهیم پرداخت مفاهیم آماری، به عنوان دوجمله ای توزیع یک متغیر تصادفی در زندگی روزمرهبرای من و تو

چرا به آن نیاز دارم؟

بسیاری از افراد وقتی صحبت از ریاضیات می شود این سوال را از خود می پرسند. و اتفاقاً ریاضیات بیهوده به نام ملکه علوم نیست. اساس فیزیک، شیمی، زیست شناسی، اقتصاد است و در هر یک از این علوم نوعی توزیع نیز به کار می رود: توزیع دوجمله ای گسسته یا عادی، فرقی نمی کند. و اگر نگاه دقیق تری به دنیای اطراف خود بیندازیم، خواهیم دید که ریاضیات در همه جا استفاده می شود: در زندگی روزمره، در محل کار و حتی روابط انسانی را می توان در قالب داده های آماری ارائه و تجزیه و تحلیل کرد (به هر حال، این ، توسط کسانی انجام می شود که در سازمان های خاص مرتبط با جمع آوری اطلاعات کار می کنند).

حالا بیایید کمی در مورد آنچه که باید انجام دهید صحبت کنیم اگر نیاز دارید در مورد این موضوع بسیار بیشتر از آنچه در این مقاله توضیح داده ایم بدانید.

اطلاعاتی که در این مقاله آورده ایم هنوز کامل نیست. تفاوت های ظریف زیادی در مورد اینکه توزیع چه شکلی می تواند داشته باشد وجود دارد. توزیع دوجمله ای، همانطور که قبلاً متوجه شدیم، یکی از انواع اصلی است که بر روی آن کل است آمار ریاضیو نظریه احتمال

اگر علاقه مند شدید، یا در ارتباط با کار خود، نیاز به دانستن خیلی بیشتر در این زمینه دارید، باید ادبیات تخصصی را مطالعه کنید. شما باید از یک دوره دانشگاهی در آنالیز ریاضی شروع کنید و به قسمت نظریه احتمالات بروید. همچنین دانش در زمینه سری مفید خواهد بود، زیرا توزیع احتمال دو جمله ای چیزی بیش از یک سری عبارت های متوالی نیست.

نتیجه

قبل از اتمام مقاله، می خواهیم یک مورد دیگر را بیان کنیم نکته جالب. این به طور مستقیم به موضوع مقاله ما و به طور کلی تمام ریاضیات مربوط می شود.

بسیاری از مردم می گویند که ریاضیات علمی بی فایده است و هیچ چیزی که در مدرسه یاد گرفته اند برای آنها مفید نبوده است. اما دانش هرگز زائد نیست و اگر چیزی در زندگی برای شما مفید نیست، به این معنی است که شما آن را به سادگی به یاد نمی آورید. اگر دانش داشته باشی، می توانند به تو کمک کنند، اما اگر آنها را نداشته باشی، نمی توانی از آنها توقع کمک داشته باشی.

بنابراین، مفهوم توزیع دوجمله‌ای و تمام تعاریف مرتبط با آن را بررسی کردیم و در مورد نحوه کاربرد آن در زندگی ما صحبت کردیم.

درود به همه خوانندگان!

همانطور که می دانید تجزیه و تحلیل آماری به جمع آوری و پردازش داده های واقعی می پردازد. مفید است و اغلب سودآور است، زیرا. نتیجه گیری درست به شما امکان می دهد از اشتباهات و ضررهای آینده جلوگیری کنید و گاهی اوقات به درستی این آینده را حدس بزنید. داده های جمع آوری شده نشان دهنده وضعیت برخی از پدیده های مشاهده شده است. داده ها اغلب (اما نه همیشه) عددی هستند و می توان آنها را با دستکاری های مختلف ریاضی برای استخراج اطلاعات اضافی دستکاری کرد.

با این حال، همه پدیده ها در مقیاس کمی مانند 1، 2، 3 ... 100500 ... همیشه یک پدیده نمی تواند بی نهایت یا تعداد زیادی از حالت های مختلف را اندازه گیری کند. به عنوان مثال، جنسیت یک فرد می تواند M یا F باشد. تیرانداز یا به هدف می زند یا از دست می دهد. شما می توانید به هر دو به " موافق " یا " مخالف " و غیره رای دهید. و غیره. به عبارت دیگر، چنین داده هایی وضعیت یک ویژگی جایگزین را منعکس می کنند - یا "بله" (رویداد رخ داده است) یا "نه" (رویداد رخ نداده است). رویداد آینده (نتیجه مثبت) نیز "موفقیت" نامیده می شود. چنین پدیده هایی همچنین می توانند عظیم و تصادفی باشند. بنابراین می توان آنها را اندازه گیری کرد و از نظر آماری نتایج معتبری گرفت.

آزمایش با چنین داده هایی نامیده می شود طرح برنولی، به افتخار ریاضیدان معروف سوئیسی که دریافت که با تعداد زیادی آزمایش، نسبت نتایج مثبت به تعداد کل آزمایش ها به احتمال وقوع این رویداد تمایل دارد.

متغیر ویژگی جایگزین

به منظور استفاده از دستگاه ریاضی در تجزیه و تحلیل، نتایج چنین مشاهداتی باید به صورت عددی نوشته شود. برای انجام این کار، به یک نتیجه مثبت عدد 1 اختصاص داده می شود، یک عدد منفی - 0. به عبارت دیگر، ما با متغیری روبرو هستیم که می تواند تنها دو مقدار داشته باشد: 0 یا 1.

چه سودی از این می توان گرفت؟ در واقع، نه کمتر از داده های معمولی. بنابراین، شمارش تعداد نتایج مثبت آسان است - کافی است تمام مقادیر را جمع آوری کنید، یعنی. همه 1 (موفقیت). می توانید جلوتر بروید، اما برای این کار باید چند نماد را معرفی کنید.

اولین چیزی که باید به آن توجه کرد این است که نتایج مثبت (که برابر با 1 است) احتمال وقوع دارند. به عنوان مثال، گرفتن سر در پرتاب سکه ½ یا 0.5 است. این احتمال به طور سنتی نشان داده می شود حرف لاتین پ. بنابراین، احتمال وقوع یک رویداد جایگزین وجود دارد 1-p، که با آن نیز مشخص می شود q، به این معنا که q = 1 - p. این نام گذاری ها را می توان به صورت بصری در قالب یک صفحه توزیع متغیر سیستماتیک کرد ایکس.

اکنون لیستی از مقادیر ممکن و احتمالات آنها را داریم. شما می توانید شروع به محاسبه چنین ویژگی های شگفت انگیز یک متغیر تصادفی کنید ارزش مورد انتظارو پراکندگی. اجازه دهید به شما یادآوری کنم که انتظارات ریاضی به عنوان مجموع محصولات همه مقادیر ممکن و احتمالات مربوط به آنها محاسبه می شود:

بیایید مقدار مورد انتظار را با استفاده از نماد در جداول بالا محاسبه کنیم.

به نظر می رسد که انتظار ریاضی از یک علامت جایگزین برابر با احتمال این رویداد است - پ.

حال بیایید تعریف کنیم که واریانس یک ویژگی جایگزین چیست. اجازه دهید همچنین به شما یادآوری کنم که واریانس میانگین مجذور انحرافات از انتظارات ریاضی است. فرمول کلی (برای داده های گسسته) این است:

بنابراین واریانس ویژگی جایگزین:

به راحتی می توان دریافت که این پراکندگی حداکثر 0.25 (در p=0.5).

میانگین انحراف معیارریشه واریانس است:

حداکثر مقدار از 0.5 تجاوز نمی کند.

همانطور که می بینید، هم انتظار ریاضی و هم واریانس علامت جایگزین شکل بسیار فشرده ای دارند.

توزیع دو جمله ای یک متغیر تصادفی

اکنون وضعیت را از زاویه دیگری در نظر بگیرید. در واقع، چه کسی اهمیت می دهد که میانگین از دست دادن سر در یک پرتاب 0.5 باشد؟ حتی تصورش غیرممکن است. جالب تر است که این سؤال را مطرح کنیم که تعداد سرها برای تعداد معینی از پرتاب ها بالا می آیند.

به عبارت دیگر، محقق اغلب به احتمال وقوع تعداد معینی از رویدادهای موفق علاقه مند است. این می تواند تعداد محصولات معیوب در لات آزمایش شده (1 - معیوب، 0 - خوب) یا تعداد بهبودی (1 - سالم، 0 - بیمار) و غیره باشد. تعداد این "موفقیت ها" برابر با مجموع همه مقادیر متغیر خواهد بود ایکس، یعنی تعداد نتایج منفرد

مقدار تصادفی بدو جمله ای نامیده می شود و مقادیر از 0 تا را می گیرد n(در ب= 0 - همه قطعات خوب هستند، با ب = n- تمام قطعات معیوب هستند). فرض بر این است که تمام مقادیر ایکسمستقل از یکدیگر ویژگی های اصلی متغیر دوجمله ای را در نظر بگیرید، یعنی انتظار، واریانس و توزیع ریاضی آن را تعیین می کنیم.

انتظار یک متغیر دو جمله ای بسیار آسان است. به یاد داشته باشید که مجموع انتظارات ریاضی از هر ارزش افزوده وجود دارد و برای همه یکسان است، بنابراین:

به عنوان مثال، انتظار تعداد سر در 100 پرتاب 100 × 0.5 = 50 است.

اکنون فرمول واریانس متغیر دو جمله ای را استخراج می کنیم. مجموع واریانس ها است. از اینجا

انحراف معیار به ترتیب

برای 100 پرتاب سکه، انحراف معیار است

و در نهایت، توزیع را در نظر بگیرید مقدار دو جمله ای، یعنی احتمال اینکه متغیر تصادفی است بخواهد گرفت معانی مختلف ک، جایی که 0≤k≤n. برای یک سکه، این مشکل ممکن است به نظر برسد: احتمال بدست آوردن 40 سر در 100 پرتاب چقدر است؟

برای درک روش محاسبه، تصور کنیم که سکه فقط 4 بار پرتاب شده است. هر یک از طرفین می تواند هر بار سقوط کند. از خود می پرسیم: احتمال اینکه از 4 پرتاب 2 سر به دست بیاوریم چقدر است. هر پرتاب مستقل از یکدیگر است. این بدان معنی است که احتمال بدست آوردن هر ترکیبی برابر است با حاصل ضرب احتمالات یک نتیجه معین برای هر پرتاب فردی. بگذارید O سر باشد و P دم باشد. سپس، برای مثال، یکی از ترکیباتی که مناسب ما است ممکن است شبیه OOPP باشد، یعنی:

احتمال چنین ترکیبی برابر است با حاصل ضرب دو احتمال بالا آمدن سرها و دو احتمال دیگر بالا نیامدن سرها (رویداد معکوس به صورت محاسبه می شود. 1-p) ، یعنی 0.5×0.5×(1-0.5)×(1-0.5)=0.0625. این احتمال یکی از ترکیباتی است که برای ما مناسب است. اما سوال در مورد تعداد کل عقاب ها بود و نه در مورد نظم خاصی. سپس باید احتمالات همه ترکیباتی را که در آنها دقیقاً 2 عقاب وجود دارد را اضافه کنید. واضح است که همه آنها یکسان هستند (محصول از تغییر مکان عوامل تغییر نمی کند). بنابراین، شما باید تعداد آنها را محاسبه کنید و سپس در احتمال چنین ترکیبی ضرب کنید. بیایید تمام ترکیبات 4 پرتابی از 2 عقاب را بشماریم: RROO، RORO، ROOR، ORRO، OROR، OORR. فقط 6 گزینه

بنابراین احتمال مورد نظر گرفتن 2 سر بعد از 4 پرتاب 6×0.0625=0.375 است.

با این حال، شمارش در این راه خسته کننده است. در حال حاضر برای 10 سکه، بدست آوردن تعداد کل گزینه ها با زور بی رحم بسیار دشوار خواهد بود. از همین رو افراد باهوشمدت ها پیش فرمولی اختراع کرد که تعداد ترکیب های مختلف را محاسبه می کند nعناصر توسط ک، جایی که nتعداد کل عناصر است، کتعداد عناصری است که گزینه های چیدمان آنها محاسبه می شود. فرمول ترکیبی از nعناصر توسط کاست:

موارد مشابه در بخش ترکیبیات اتفاق می افتد. من همه کسانی را که می خواهند دانش خود را ارتقا دهند به آنجا می فرستم. از این رو، به هر حال، نام توزیع دو جمله ای (فرمول بالا ضریب بسط دو جمله ای نیوتن است).

فرمول تعیین احتمال را می توان به راحتی به هر عددی تعمیم داد nو ک. در نتیجه فرمول توزیع دو جمله ای به شکل زیر است.

به عبارت دیگر: تعداد ترکیب های منطبق را در احتمال یکی از آنها ضرب کنید.

برای استفاده عملی، کافی است فرمول توزیع دو جمله ای را بدانید. و شما حتی ممکن است ندانید - در زیر نحوه تعیین احتمال با با استفاده از اکسل. اما بهتر است بدانیم.

بیایید از این فرمول برای محاسبه احتمال بدست آوردن 40 سر در 100 پرتاب استفاده کنیم:

یا فقط 1.08٪. برای مقایسه، احتمال انتظار ریاضی این آزمایش، یعنی 50 سر، 7.96 درصد است. حداکثر احتمال یک مقدار دو جمله ای به مقدار مربوط به انتظار ریاضی تعلق دارد.

محاسبه احتمال توزیع دو جمله ای در اکسل

اگر فقط از کاغذ و ماشین حساب استفاده می کنید، محاسبات با استفاده از فرمول توزیع دو جمله ای، با وجود عدم وجود انتگرال، بسیار دشوار است. مثلا مقدار 100! - دارای بیش از 150 کاراکتر. محاسبه دستی این غیرممکن است. پیش از این و حتی اکنون نیز از فرمول های تقریبی برای محاسبه چنین مقادیری استفاده می شد. در حال حاضر توصیه می شود از نرم افزارهای خاصی مانند MS Excel استفاده کنید. بنابراین، هر کاربر (حتی یک انسان گرا با تحصیلات) می تواند به راحتی احتمال مقدار یک متغیر تصادفی توزیع شده دو جمله ای را محاسبه کند.

برای ادغام مطالب، فعلاً از Excel به عنوان یک ماشین حساب معمولی استفاده می کنیم. بیایید با استفاده از فرمول توزیع دو جمله ای یک محاسبه گام به گام انجام دهیم. بیایید مثلاً احتمال 50 سر را محاسبه کنیم. در زیر تصویری با مراحل محاسبه و نتیجه نهایی آمده است.

همانطور که می بینید، نتایج میانی دارای چنان مقیاسی هستند که در یک سلول قرار نمی گیرند، اگرچه توابع ساده ای از نوع در همه جا استفاده می شود: FACTOR (محاسبه فاکتوری)، POWER (بالا بردن عدد به توان)، و همچنین عملگرهای ضرب و تقسیم علاوه بر این، این محاسبه نسبتاً دست و پا گیر است، در هر صورت فشرده نیست، زیرا بسیاری از سلول های درگیر و بله، تشخیص آن سخت است.

به طور کلی، اکسل یک تابع آماده برای محاسبه احتمالات توزیع دو جمله ای ارائه می دهد. تابع BINOM.DIST نامیده می شود.

تعداد موفقیت هاتعداد آزمایش های موفق است. ما 50 تا از آنها داریم.

تعداد آزمایشات- تعداد پرتاب: 100 بار.

احتمال موفقیت- احتمال قرار گرفتن سر در یک پرتاب 0.5 است.

انتگرال- 1 یا 0 نشان داده شده است اگر 0 باشد، احتمال محاسبه می شود P(B=k); اگر 1 باشد، تابع توزیع دو جمله ای محاسبه می شود، یعنی. مجموع همه احتمالات از B=0قبل از B=kشامل.

OK را فشار می دهیم و همان نتیجه بالا را می گیریم، فقط همه چیز با یک تابع محاسبه شده است.

خیلی راحت برای آزمایش، به جای آخرین پارامتر 0، 1 را قرار می دهیم. 0.5398 به دست می آید. به این معنی که در 100 پرتاب سکه، احتمال به دست آوردن سر بین 0 تا 50 تقریباً 54 درصد است. و در ابتدا به نظر می رسید که باید 50٪ باشد. به طور کلی، محاسبات به راحتی و به سرعت انجام می شود.

یک تحلیلگر واقعی باید بفهمد که تابع چگونه رفتار می کند (توزیع آن چیست)، بنابراین بیایید احتمالات را برای همه مقادیر از 0 تا 100 محاسبه کنیم. یعنی بیایید از خود بپرسیم: احتمال اینکه حتی یک عقاب از بین نرود چقدر است. ، که 1 عقاب سقوط خواهد کرد، 2، 3، 50، 90 یا 100. محاسبه در تصویر متحرک زیر نشان داده شده است. خط آبی خود توزیع دوجمله ای است، نقطه قرمز احتمال تعداد معینی از موفقیت k است.

یکی ممکن است بپرسد، آیا توزیع دوجمله ای شبیه به... بله، بسیار شبیه است. حتی دی مویور (در سال 1733) گفت که با نمونه‌های بزرگ توزیع دوجمله‌ای نزدیک می‌شود (من نمی‌دانم در آن زمان چه نامی داشت)، اما کسی به او گوش نکرد. فقط گاوس، و سپس لاپلاس، پس از 60-70 سال، دوباره کشف کردند و به دقت مطالعه کردند. قانون عادیتوزیع نمودار بالا به وضوح نشان می دهد که حداکثر احتمال بر روی انتظارات ریاضی قرار می گیرد و با انحراف از آن، به شدت کاهش می یابد. درست مثل قانون عادی

توزیع دو جمله ای اهمیت عملی زیادی دارد، اغلب اتفاق می افتد. با استفاده از اکسل، محاسبات به راحتی و به سرعت انجام می شود. پس با خیال راحت از آن استفاده کنید.

در این مورد پیشنهاد می کنم تا جلسه بعدی خداحافظی کنم. بهترین ها، سلامت باشید!

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...