فاصله اطمینان 90 را پیدا کنید. فاصله اطمینان

بیایید در ام اس بسازیم اعتماد اکسلفاصله برای تخمین مقدار میانگین توزیع در مورد ارزش شناخته شدهپراکندگی

البته انتخاب سطح اعتمادکاملا به کار در دست بستگی دارد. بنابراین، درجه اطمینان مسافر هوایی به قابلیت اطمینان هواپیما، البته باید بیشتر از میزان اطمینان خریدار به قابلیت اطمینان لامپ باشد.

فرمول وظیفه

بیایید فرض کنیم که از جمعیت گرفتن نمونهاندازه n فرض بر این است که انحراف معیار این توزیع شناخته شده است. بر این اساس لازم است نمونه هاناشناخته را ارزیابی کنید میانگین توزیع(μ, ) و مربوطه را بسازید دو طرفه فاصله اطمینان.

تخمین نقطه ای

همانطور که از آمار(بیایید آن را صدا کنیم X رجوع کنید به) است برآورد بی طرفانه از میانگیناین جمعیتو دارای توزیع N(μ; σ 2 /n) است.

توجه داشته باشید: اگر نیاز به ساخت داشته باشید چه؟ فاصله اطمیناندر مورد توزیع که نیست طبیعی؟در این مورد، به کمک می آید، که می گوید که با اندازه کافی بزرگ است نمونه ها n از توزیع غیر- طبیعی, توزیع نمونه آماری Х avخواهد بود تقریبامطابقت توزیع نرمالبا پارامترهای N(μ; σ 2 /n).

بنابراین، تخمین نقطه ای وسط مقادیر توزیعما داریم میانگین نمونه، یعنی X رجوع کنید به. حالا بیایید مشغول شویم فاصله اطمینان.

ایجاد فاصله اطمینان

معمولاً با دانستن توزیع و پارامترهای آن، می‌توانیم احتمال اینکه یک متغیر تصادفی مقداری از یک بازه معین را بگیرد، محاسبه کنیم. حالا بیایید برعکس عمل کنیم: بازه‌ای که متغیر تصادفی از آن می‌افتد را پیدا کنید احتمال داده شده. مثلا از خواص توزیع نرمال مشخص شده است که با احتمال 95 درصد، یک متغیر تصادفی روی آن توزیع شده است قانون عادی ، در بازه تقریباً +/- 2 از قرار می گیرد مقدار میانگین(به مقاله در مورد مراجعه کنید). این فاصله به عنوان نمونه اولیه ما عمل خواهد کرد فاصله اطمینان.

حالا بیایید ببینیم که آیا توزیع را می دانیم یا خیر , برای محاسبه این فاصله؟ برای پاسخ به سوال باید شکل توزیع و پارامترهای آن را مشخص کنیم.

می دانیم که شکل توزیع است توزیع نرمال(به یاد داشته باشید که ما در مورد آن صحبت می کنیم توزیع نمونه آمار X رجوع کنید به).

پارامتر μ برای ما ناشناخته است (فقط باید با استفاده از آن تخمین زده شود فاصله اطمینان) اما ما برآورد آن را داریم X cf،بر اساس محاسبه می شود نمونه،که قابل استفاده است.

پارامتر دوم است میانگین انحراف معیار نمونه شناخته خواهد شد، برابر است با σ/√n.

زیرا ما μ را نمی دانیم، سپس بازه +/- 2 را می سازیم انحراف معیارنه از مقدار میانگین، اما از برآورد شناخته شده آن X رجوع کنید به. آن ها هنگام محاسبه فاصله اطمینانما آن را فرض نخواهیم کرد X رجوع کنید بهدر بازه +/- 2 قرار می گیرد انحراف معیاراز μ با احتمال 95% و ما این فاصله را 2 +/- 2 فرض خواهیم کرد. انحراف معیاراز جانب X رجوع کنید بهبا احتمال 95% μ را پوشش می دهد - میانگین جمعیت عمومی،از کدام نمونه. این دو عبارت معادل هستند، اما گزاره دوم به ما اجازه می دهد که بسازیم فاصله اطمینان.

علاوه بر این، بازه را اصلاح می کنیم: یک متغیر تصادفی که روی آن توزیع شده است قانون عادی، با احتمال 95٪ در بازه +/- 1.960 قرار می گیرد انحراف معیار،نه +/- 2 انحراف معیار. این را می توان با استفاده از فرمول محاسبه کرد \u003d NORM.ST.OBR ((1 + 0.95) / 2)، سانتی متر. فایل نمونه فاصله ورق.

اکنون می‌توانیم یک گزاره احتمالی را فرموله کنیم که برای شکل دادن به ما کمک کند فاصله اطمینان:
"احتمال این که میانگین جمعیتواقع شده از میانگین نمونهدر 1.960 اینچ انحراف معیار میانگین نمونه"، برابر با 95 درصد است.

مقدار احتمال ذکر شده در بیانیه نام خاصی دارد ، که باسطح اهمیت α (آلفا) با یک عبارت ساده سطح اعتماد =1 . در مورد ما سطح اهمیت α =1-0,95=0,05 .

حال بر اساس این گزاره احتمالی، یک عبارت برای محاسبه می نویسیم فاصله اطمینان:

جایی که Za/2 استاندارد توزیع نرمال(چنین مقداری از یک متغیر تصادفی z, چی پ(z>=Za/2 )=α/2).

توجه داشته باشید: α/2-چک بالاییعرض را مشخص می کند فاصله اطمینانکه در انحراف معیار میانگین نمونه α/2-چک بالایی استاندارد توزیع نرمالهمیشه بزرگتر از 0 است که بسیار راحت است.

در مورد ما، در α=0.05، α/2-چک بالایی برابر با 1.960 است. برای سایر سطوح معنی دار α (10%؛ 1%) α/2-چک بالایی Za/2 می توان با استفاده از فرمول \u003d NORM.ST.OBR (1-α / 2) یا در صورت شناخت سطح اعتماد, =NORM.ST.OBR((1+سطح اطمینان)/2).

معمولا هنگام ساخت فواصل اطمینان برای تخمین میانگینفقط استفاده کنید α بالایی/2-چندکو استفاده نکنید α پایین تر/2-چندک. این امکان پذیر است زیرا استاندارد توزیع نرمالمتقارن حول محور x ( چگالی توزیع آنمتقارن در مورد متوسط، یعنی 0). بنابراین نیازی به محاسبه نیست چندک α/2 پایین تر(به سادگی α نامیده می شود /2-چندک)، زیرا برابر است α بالایی/2-چندکبا علامت منفی

به یاد بیاورید که، صرف نظر از شکل توزیع x، متغیر تصادفی مربوطه X رجوع کنید بهتوزیع شده است تقریبا خوب N(μ; σ 2 /n) (به مقاله در مورد مراجعه کنید). بنابراین، در مورد کلی، عبارت بالا برای فاصله اطمینانفقط تقریبی است اگر x روی آن توزیع شود قانون عادی N(μ; σ 2 /n)، سپس عبارت for فاصله اطمیناندقیق است.

محاسبه فاصله اطمینان در MS EXCEL

بیایید مشکل را حل کنیم.
زمان پاسخ یک قطعه الکترونیکی به سیگنال ورودی یکی از مشخصه های مهم یک دستگاه است. یک مهندس می خواهد یک فاصله اطمینان برای میانگین زمان پاسخ در سطح اطمینان 95٪ ترسیم کند. از تجربه قبلی، مهندس می داند که انحراف استاندارد زمان پاسخ 8 میلی ثانیه است. مشخص است که مهندس برای تخمین زمان پاسخ 25 اندازه گیری انجام داده است که مقدار متوسط ​​آن 78 میلی ثانیه بود.

راه حل: یک مهندس می خواهد زمان پاسخ یک دستگاه الکترونیکی را بداند، اما می فهمد که زمان پاسخ ثابت نیست، بلکه یک متغیر تصادفی است که توزیع خاص خود را دارد. بنابراین بهترین چیزی که او می تواند به آن امیدوار باشد تعیین پارامترها و شکل این توزیع است.

متأسفانه، از شرایط مشکل، شکل توزیع زمان پاسخ را نمی دانیم (الزامی نیست که طبیعی). ، این توزیع نیز ناشناخته است. فقط او شناخته شده است انحراف معیارσ=8. بنابراین، در حالی که نمی توانیم احتمالات را محاسبه کنیم و بسازیم فاصله اطمینان.

با این حال، اگر چه ما توزیع را نمی دانیم زمان پاسخ جداگانه، می دانیم که با توجه به CPT, توزیع نمونه میانگین زمان پاسخگوییتقریبا است طبیعی(شرایط را فرض خواهیم کرد CPTانجام می شود، زیرا اندازه نمونه هابه اندازه کافی بزرگ (n=25)) .

علاوه بر این، میانگیناین توزیع برابر است با مقدار میانگینتوزیع پاسخ واحد، به عنوان مثال μ. ولی انحراف معیاراین توزیع (σ/√n) را می توان با استفاده از فرمول =8/ROOT(25) محاسبه کرد.

همچنین معلوم است که مهندس دریافت کرد تخمین نقطه ایپارامتر μ برابر با 78 میلی ثانیه (X cf). بنابراین، اکنون می توانیم احتمالات را محاسبه کنیم، زیرا ما فرم توزیع را می دانیم ( طبیعی) و پارامترهای آن (Х ср و σ/√n).

مهندس می خواهد بداند ارزش مورد انتظارμ توزیع زمان پاسخ. همانطور که در بالا گفته شد، این μ برابر است با انتظار توزیع نمونه از میانگین زمان پاسخ. اگر استفاده کنیم توزیع نرمال N(X cf؛ σ/√n)، سپس μ مورد نظر در محدوده +/-2*σ/√n با احتمال تقریبی 95 درصد خواهد بود.

سطح اهمیتبرابر با 1-0.95=0.05 است.

در نهایت مرز چپ و راست را پیدا کنید فاصله اطمینان.
حاشیه سمت چپ: \u003d 78-NORM.ST.INR (1-0.05 / 2) * 8 / ROOT (25) = 74,864
حاشیه سمت راست: \u003d 78 + NORM. ST. OBR (1-0.05 / 2) * 8 / ROOT (25) \u003d 81.136

حاشیه سمت چپ: =NORM.INV(0.05/2، 78، 8/SQRT(25))
حاشیه سمت راست: =NORM.INV(1-0.05/2، 78، 8/SQRT(25))

پاسخ: فاصله اطمیناندر سطح اطمینان 95% و σ=8msecبرابر است 78+/-3.136 میلی‌ثانیه

AT فایل نمونه در برگه سیگماشناخته شده فرمی برای محاسبه و ساخت ایجاد کرد دو طرفه فاصله اطمینانبرای دلخواه نمونه هابا σ داده شده و سطح اهمیت.

تابع () CONFIDENCE.NORM

اگر مقادیر نمونه هادر محدوده هستند B20:B79 ، آ سطح اهمیتبرابر با 0.05; سپس فرمول MS EXCEL:
=AVERAGE(B20:B79)-اعتماد (0.05،σ، COUNT(B20:B79))
حاشیه سمت چپ را برمی گرداند فاصله اطمینان.

همین مرز را می توان با استفاده از فرمول محاسبه کرد:
=AVERAGE(B20:B79)-NORM.ST.INV(1-0.05/2)*σ/SQRT(COUNT(B20:B79))

توجه داشته باشید: تابع TRUST.NORM() در MS EXCEL 2010 ظاهر شد. نسخه های قبلی MS EXCEL از تابع TRUST() استفاده می کردند.

فاصله اطمینان.

محاسبه فاصله اطمینان بر اساس میانگین خطای پارامتر مربوطه است. فاصله اطمینان نشان می دهد که در چه محدوده هایی با احتمال (1-a) مقدار واقعی پارامتر تخمین زده شده است. در اینجا a سطح معناداری است، (1-a) نیز سطح اطمینان نامیده می شود.

در فصل اول، نشان دادیم که برای مثال، برای میانگین حسابی، میانگین جمعیت واقعی در حدود 95 درصد مواقع در 2 خطای میانگین از میانگین قرار دارد. بنابراین، مرزهای فاصله اطمینان 95% برای میانگین دو برابر از میانگین نمونه فاصله خواهد داشت. خطای متوسطمتوسط، یعنی میانگین خطای میانگین را در فاکتوری ضرب می کنیم که به سطح اطمینان بستگی دارد. برای میانگین و تفاضل میانگین ها، ضریب Student (مقدار بحرانی معیار Student) و برای سهم و تفاوت سهم ها، مقدار بحرانی معیار z در نظر گرفته می شود. حاصل ضرب ضریب و میانگین خطا را می توان نام برد خطای حاشیه ایپارامتر داده شده، یعنی حداکثری که می توانیم هنگام ارزیابی آن بدست آوریم.

فاصله اطمینان برای میانگین حسابی : .

در اینجا میانگین نمونه است.

میانگین خطای میانگین حسابی؛

s-انحراف استاندارد نمونه؛

n

f = n-1 (ضریب دانش آموزی).

فاصله اطمینان برای تفاوت میانگین های حسابی :

در اینجا، تفاوت بین میانگین های نمونه است.

- میانگین خطای اختلاف میانگین های حسابی؛

s 1 , s 2 -معنی نمونه انحراف معیار;

n1، n2

ارزش بحرانی معیار دانشجو برای سطح معینی از اهمیت a و تعداد درجات آزادی f=n1 +n2-2 (ضریب دانش آموزی).

فاصله اطمینان برای سهام :

.

در اینجا d سهم نمونه است.

- میانگین خطای سهم

n- حجم نمونه (اندازه گروه)؛

فاصله اطمینان برای تفاوت ها را به اشتراک بگذارید :

در اینجا، تفاوت بین سهام نمونه است.

میانگین خطای اختلاف میانگین های حسابی است.

n1، n2- اندازه نمونه (تعداد گروه)؛

مقدار بحرانی معیار z در سطح معناداری معین a (،،،).

با محاسبه فواصل اطمینان برای تفاوت در شاخص ها، ما اولاً به طور مستقیم مقادیر احتمالی اثر را می بینیم و نه فقط آن را تخمین نقطه ای. ثانیاً می توان در مورد پذیرش یا رد فرضیه صفر نتیجه گرفت و ثالثاً در مورد قدرت ملاک نتیجه گرفت.

هنگام آزمایش فرضیه ها با استفاده از فواصل اطمینان، باید به آن پایبند بود قانون بعدی:

اگر فاصله اطمینان 100 (1-a) - درصد اختلاف میانگین حاوی صفر نباشد، آنگاه تفاوت ها در سطح معنی داری از نظر آماری معنی دار هستند. برعکس، اگر این بازه حاوی صفر باشد، تفاوت ها از نظر آماری معنی دار نیستند.

در واقع، اگر این فاصله حاوی صفر باشد، به این معنی است که شاخص مقایسه شده می تواند در یکی از گروه ها در مقایسه با گروه دیگر بیشتر یا کمتر باشد، یعنی. تفاوت های مشاهده شده تصادفی هستند.

با توجه به جایی که صفر در فاصله اطمینان قرار دارد، می توان قدرت معیار را قضاوت کرد. اگر صفر به حد پایین یا بالای بازه نزدیک باشد، در آن صورت زمانی امکان پذیر است اعداد بیشتردر مقایسه با گروه ها، تفاوت ها به دست می آید اهمیت آماری. اگر صفر نزدیک به وسط فاصله باشد، به این معنی است که افزایش و کاهش شاخص در گروه آزمایشی به یک اندازه محتمل است و احتمالاً واقعاً هیچ تفاوتی وجود ندارد.

مثال ها:

برای مقایسه مرگ و میر ناشی از جراحی در هنگام استفاده از دو نوع بیهوشی مختلف: 61 نفر با استفاده از نوع اول بیهوشی عمل کردند، 8 نفر فوت کردند، با استفاده از دوم - 67 نفر، 10 نفر فوت کردند.

d 1 \u003d 8/61 \u003d 0.131; d 2 \u003d 10/67 \u003d 0.149; d1-d2 = - 0.018.

تفاوت در کشندگی روش های مقایسه شده در محدوده (0.018 - 0.122؛ -0.018 + 0.122) یا (0.14-؛ 0.104) با احتمال 100 (1-a) = 95٪ خواهد بود. بازه حاوی صفر است، یعنی. فرضیه مرگ و میر یکسان در دو انواع متفاوتبیهوشی را نمی توان انکار کرد.

بنابراین، مرگ و میر می تواند به 14٪ کاهش یابد و به 10.4٪ با احتمال 95٪ افزایش می یابد. صفر تقریباً در وسط فاصله است، بنابراین می توان استدلال کرد که به احتمال زیاد، این دو روش واقعاً از نظر کشندگی تفاوتی ندارند.

در مثالی که قبلاً در نظر گرفته شد، میانگین زمان ضربه زدن در چهار گروه از دانش‌آموزان که در نمرات امتحانی متفاوت بودند، مقایسه شد. بیایید فواصل اطمینان میانگین زمان پرس را برای دانش آموزانی که امتحان را برای 2 و 5 قبول شده اند و فاصله اطمینان را برای تفاوت بین این میانگین ها محاسبه کنیم.

ضرایب دانشجو از جداول توزیع دانش آموز یافت می شود (پیوست را ببینید): برای گروه اول: = t(0.05;48) = 2.011; برای گروه دوم: = t(0.05;61) = 2.000. بنابراین، فواصل اطمینان برای گروه اول: = (162.19-2.011 * 2.18؛ 162.19 + 2.011 * 2.18) = (157.8؛ 166.6) ، برای گروه دوم (156.55- 2.000 * 1.88*1.80 = 1.80) 160.3). بنابراین، برای کسانی که امتحان را برای 2 قبول کردند، میانگین زمان فشار از 157.8 ms تا 166.6 ms با احتمال 95٪ متغیر است، برای کسانی که امتحان را برای 5 قبول کردند - از 152.8 ms تا 160.3 ms با احتمال 95٪. .

همچنین می توانید فرضیه صفر را با استفاده از فواصل اطمینان برای میانگین ها و نه فقط برای تفاوت میانگین ها آزمایش کنید. به عنوان مثال، مانند مورد ما، اگر فواصل اطمینان برای میانگین ها همپوشانی داشته باشند، نمی توان فرضیه صفر را رد کرد. به منظور رد یک فرضیه در سطح معناداری انتخاب شده، فواصل اطمینان مربوطه نباید همپوشانی داشته باشند.

بیایید فاصله اطمینان را برای تفاوت میانگین زمان پرس در گروه هایی که امتحان را برای 2 و 5 قبول کردند، پیدا کنیم. تفاوت در میانگین ها: 162.19 - 156.55 = 5.64. ضریب دانش آموز: \u003d t (0.05؛ 49 + 62-2) \u003d t (0.05؛ 109) \u003d 1.982. انحراف استاندارد گروه برابر با: ; . میانگین خطای اختلاف میانگین ها را محاسبه می کنیم: . فاصله اطمینان: \u003d (5.64-1.982 * 2.87؛ 5.64 + 1.982 * 2.87) \u003d (-0.044؛ 11.33).

بنابراین، تفاوت میانگین زمان پرس در گروه‌هایی که امتحان را در 2 و 5 پشت سر گذاشتند در محدوده 0.044- میلی‌ثانیه تا 11.33 میلی‌ثانیه خواهد بود. این فاصله شامل صفر است، یعنی. میانگین زمان فشار برای کسانی که امتحان را با نتایج عالی گذرانده اند می تواند در مقایسه با کسانی که امتحان را به طور رضایت بخش گذرانده اند افزایش یا کاهش یابد. فرضیه صفر را نمی توان رد کرد. اما صفر بسیار نزدیک به حد پایین است، زمان پرس برای پاس‌های عالی بسیار بیشتر است. بنابراین، می‌توان نتیجه گرفت که هنوز تفاوت‌هایی در میانگین زمان کلیک بین افرادی که 2 و 5 را پشت سر گذاشته‌اند وجود دارد، ما فقط نتوانستیم آنها را برای یک تغییر معین در میانگین زمان، پخش میانگین زمان و اندازه نمونه تشخیص دهیم.



قدرت آزمون احتمال رد یک فرضیه صفر نادرست است، یعنی. تفاوت ها را در جایی که واقعا هستند پیدا کنید.

قدرت آزمون بر اساس سطح معنی داری، میزان تفاوت بین گروه ها، پراکندگی مقادیر در گروه ها و حجم نمونه تعیین می شود.

برای آزمون تی دانشجویی و تحلیل واریانسمی توانید از نمودارهای حساسیت استفاده کنید.

از قدرت معیار می توان در تعیین اولیه تعداد مورد نیاز گروه استفاده کرد.

فاصله اطمینان نشان می دهد که مقدار واقعی پارامتر برآورد شده با یک احتمال معین در چه محدوده هایی قرار دارد.

با کمک فواصل اطمینان می توان فرضیه های آماری را آزمایش کرد و در مورد حساسیت معیارها نتیجه گرفت.

ادبیات.

Glantz S. - فصل 6.7.

Rebrova O.Yu. - ص112-114، ص171-173، ص234-238.

Sidorenko E. V. - صص 32-33.

سوالات خودآزمایی دانش آموزان.

1. قدرت ملاک چیست؟

2. ارزیابی قدرت معیارها در چه مواردی ضروری است؟

3. روش های محاسبه توان.

6. چگونه یک فرضیه آماری را با استفاده از فاصله اطمینان آزمایش کنیم؟

7. در مورد قدرت معیار در محاسبه فاصله اطمینان چه می توان گفت؟

وظایف

و دیگران همه آنها تخمینی از همتایان نظری خود هستند که در صورت نبود نمونه، بلکه جمعیت عمومی می توان آنها را به دست آورد. اما افسوس، جمعیت عمومی بسیار گران است و اغلب در دسترس نیست.

مفهوم تخمین فاصله

هر تخمین نمونه مقداری پراکندگی دارد، زیرا یک متغیر تصادفی بسته به مقادیر در یک نمونه خاص است. بنابراین، برای استنباط های آماری قابل اعتمادتر، نه تنها باید تخمین نقطه ای، بلکه فاصله زمانی را نیز دانست که با احتمال زیاد γ (گاما) نشانگر تخمینی را پوشش می دهد θ (تتا).

به طور رسمی، این دو مقدار هستند (آمار) T1 (X)و T2 (X)، چی T1< T 2 ، که در سطح معینی از احتمال γ شرط برقرار است:

به طور خلاصه، احتمال دارد γ یا بیشتر مقدار واقعی بین نقاط است T1 (X)و T2 (X)که به آنها کران پایین و بالایی می گویند فاصله اطمینان.

یکی از شرایط ساخت فواصل اطمینان حداکثر باریک بودن آن است، یعنی. باید تا حد امکان کوتاه باشد. میل کاملاً طبیعی است، زیرا. محقق تلاش می کند تا یافته های پارامتر مورد نظر را با دقت بیشتری بومی سازی کند.

نتیجه این است که فاصله اطمینان باید حداکثر احتمالات توزیع را پوشش دهد. و خود امتیاز در مرکز باشد.

یعنی احتمال انحراف (شاخص واقعی از برآورد) به سمت بالا برابر با احتمال انحراف به سمت پایین است. همچنین باید توجه داشت که برای توزیع های اریب، فاصله سمت راست با فاصله سمت چپ برابر نیست.

شکل بالا به وضوح نشان می دهد که هر چه سطح اطمینان بیشتر باشد، بازه زمانی بیشتر است - یک رابطه مستقیم.

این مقدمه کوچکی برای تئوری تخمین بازه ای پارامترهای ناشناخته بود. بیایید به سراغ یافتن محدودیت های اعتماد به نفس برویم انتظارات ریاضی.

فاصله اطمینان برای انتظارات ریاضی

اگر داده های اصلی بر روی توزیع شوند، میانگین یک مقدار عادی خواهد بود. این از این قانون نتیجه می گیرد که ترکیب خطی مقادیر نرمال نیز دارای توزیع نرمال است. بنابراین برای محاسبه احتمالات می توان از دستگاه ریاضی قانون توزیع نرمال استفاده کرد.

با این حال، این نیاز به دانش دو پارامتر دارد - مقدار مورد انتظار و واریانس، که معمولاً شناخته شده نیستند. البته می توانید از تخمین ها به جای پارامترها (میانگین حسابی و ) استفاده کنید، اما پس از آن توزیع میانگین کاملاً نرمال نخواهد بود، کمی مسطح می شود. شهروند ویلیام گوست از ایرلند زمانی که کشف خود را در شماره مارس 1908 بیومتریکا منتشر کرد، به این واقعیت اشاره کرد. برای اهداف محرمانه، گوست با دانشجو امضا کرد. اینگونه بود که توزیع t Student ظاهر شد.

با این حال، توزیع نرمال داده ها، که توسط K. Gauss در تجزیه و تحلیل اشتباهات در مشاهدات نجومی استفاده می شود، در حیات زمینی بسیار نادر است و ایجاد آن بسیار دشوار است (حدود 2000 مشاهده برای دقت بالا مورد نیاز است). بنابراین، بهتر است فرض نرمال بودن را کنار بگذارید و از روش هایی استفاده کنید که به توزیع داده های اصلی بستگی ندارند.

این سؤال مطرح می شود: اگر میانگین حسابی از داده های یک توزیع مجهول محاسبه شود، چه توزیعی دارد؟ پاسخ توسط نظریه احتمالات شناخته شده است تئوری حد مرکزی(CPT). در ریاضیات، نسخه‌های مختلفی از آن وجود دارد (فرمول‌بندی‌ها در طول سال‌ها اصلاح شده‌اند)، اما همه آنها، به طور کلی، به این بیانیه می‌رسند که مجموع تعداد زیادی از متغیرهای تصادفی مستقل از قانون توزیع نرمال پیروی می‌کنند.

هنگام محاسبه میانگین حسابی از مجموع متغیرهای تصادفی استفاده می شود. از این نتیجه مشخص می شود که میانگین حسابی دارای توزیع نرمال است که در آن مقدار مورد انتظار مقدار مورد انتظار داده های اولیه است و واریانس برابر است.

افراد باهوشمی‌دانیم چگونه CLT را اثبات کنیم، اما ما این را با کمک آزمایشی که در اکسل انجام شده است، تأیید می‌کنیم. بیایید نمونه ای از 50 متغیر تصادفی توزیع شده یکنواخت (با استفاده از توابع اکسل RANDOMBETWEEN). سپس 1000 نمونه از این دست می سازیم و میانگین حسابی هر کدام را محاسبه می کنیم. بیایید به توزیع آنها نگاه کنیم.

مشاهده می شود که توزیع میانگین نزدیک به قانون نرمال است. اگر حجم نمونه ها و تعداد آنها حتی بیشتر شود، شباهت حتی بهتر خواهد بود.

اکنون که اعتبار CLT را برای خود دیدیم، می‌توانیم با استفاده از , فاصله‌های اطمینان میانگین حسابی را محاسبه کنیم که میانگین واقعی یا انتظارات ریاضی را با یک احتمال معین پوشش می‌دهد.

برای تعیین مرزهای بالا و پایین، نیاز به دانستن پارامترهای توزیع نرمال است. به عنوان یک قاعده، آنها نیستند، بنابراین از برآوردها استفاده می شود: میانگین حسابیو واریانس نمونه. باز هم، این روش تقریب خوبی را فقط برای نمونه های بزرگ به دست می دهد. هنگامی که نمونه ها کوچک هستند، اغلب توصیه می شود از توزیع دانش آموز استفاده شود. باور نکن! توزیع دانش آموز برای میانگین تنها زمانی اتفاق می افتد که داده اصلی دارای توزیع نرمال باشد، یعنی تقریبا هرگز. بنابراین، بهتر است بلافاصله حداقل نوار را برای مقدار داده های مورد نیاز تعیین کنید و از روش های مجانبی صحیح استفاده کنید. آنها می گویند 30 مشاهده کافی است. 50 بگیرید - نمی توانید اشتباه کنید.

T 1.2مرزهای پایین و بالایی فاصله اطمینان هستند

- میانگین حسابی نمونه

s0- انحراف استاندارد نمونه (بی طرفانه)

n - اندازهی نمونه

γ - سطح اطمینان (معمولاً برابر با 0.9، 0.95 یا 0.99)

c γ =Φ -1 ((1+γ)/2)متقابل تابع توزیع نرمال استاندارد است. به عبارت ساده، این تعداد خطاهای استاندارد از میانگین حسابی تا کران پایین یا بالا است (سه احتمال نشان داده شده با مقادیر 1.64، 1.96 و 2.58 مطابقت دارد).

ماهیت فرمول این است که میانگین حسابی گرفته می شود و سپس مقدار مشخصی از آن کنار می رود ( با γ) خطاهای استاندارد ( s 0 /√n). همه چیز معلوم است، بگیر و بشمار.

قبل از استفاده انبوه از رایانه های شخصی، برای به دست آوردن مقادیر تابع توزیع نرمال و معکوس آن، از . آنها هنوز در حال استفاده هستند، اما استفاده از آنها کارآمدتر است فرمول های اکسل. تمام عناصر فرمول بالا ( و ) را می توان به راحتی در اکسل محاسبه کرد. اما یک فرمول آماده برای محاسبه فاصله اطمینان نیز وجود دارد - هنجار اعتماد. نحو آن به شرح زیر است.

NORM اطمینان (آلفا، استاندارد_dev، اندازه)

آلفا- سطح معناداری یا سطح اطمینان که در نماد بالا برابر با 1-γ است، یعنی. احتمال اینکه ریاضیانتظار خارج از فاصله اطمینان خواهد بود. با سطح اطمینان 0.95، آلفا 0.05 است و غیره.

standard_offانحراف معیار داده های نمونه است. شما نیازی به محاسبه خطای استاندارد ندارید، اکسل بر ریشه n تقسیم می کند.

اندازه– حجم نمونه (n).

نتیجه تابع CONFIDENCE.NORM عبارت دوم از فرمول محاسبه فاصله اطمینان است، یعنی. نیم فاصله بر این اساس، نقاط پایین و بالایی میانگین ± مقدار به دست آمده است.

بنابراین، می توان یک الگوریتم جهانی برای محاسبه فواصل اطمینان برای میانگین حسابی ساخت، که به توزیع داده های اولیه بستگی ندارد. بهای جهانی بودن ماهیت مجانبی آن است، یعنی. نیاز به استفاده از نمونه های نسبتا بزرگ. با این حال، در قرن فن آوری های مدرنجمع آوری مقدار مناسب داده معمولاً دشوار نیست.

آزمون فرضیه های آماری با استفاده از فاصله اطمینان

(ماژول 111)

یکی از مشکلات اصلی حل شده در آمار است. به طور خلاصه، ماهیت آن این است. برای مثال، فرضی وجود دارد که انتظارات عموم مردم با مقداری برابر است. سپس توزیع میانگین های نمونه ساخته می شود که می توان با یک انتظار معین مشاهده کرد. در مرحله بعد، به این می پردازیم که در کجای این توزیع شرطی میانگین واقعی قرار دارد. اگر از حد مجاز فراتر رود ، ظاهر چنین میانگینی بسیار بعید است و با یک بار تکرار آزمایش تقریباً غیرممکن است ، که با فرضیه مطرح شده که با موفقیت رد شده است در تناقض است. اگر میانگین از سطح بحرانی فراتر نرود، فرضیه رد نمی شود (اما اثبات هم نمی شود!).

بنابراین، با کمک فواصل اطمینان، در مورد ما برای انتظار، می توانید برخی از فرضیه ها را نیز آزمایش کنید. انجام آن بسیار آسان است. فرض کنید که میانگین حسابی برای برخی از نمونه ها 100 باشد. این فرضیه در حال آزمایش است که انتظار می رود، مثلاً 90. یعنی، اگر سؤال را به صورت ابتدایی مطرح کنیم، به نظر می رسد: آیا با مقدار واقعی میانگین برابر 90، میانگین مشاهده شده 100 بود؟

برای پاسخ به این سوال، اطلاعات بیشتری در مورد انحراف معیار و اندازه نمونه مورد نیاز است. فرض کنید انحراف معیار 30 و تعداد مشاهدات 64 است (برای استخراج آسان ریشه). سپس خطای استاندارد میانگین 30/8 یا 3.75 است. برای محاسبه فاصله اطمینان 95 درصد، باید دو خطای استاندارد را در دو طرف میانگین (به طور دقیق تر، 1.96) کنار بگذارید. فاصله اطمینان تقریباً 100 ± 7.5 یا از 92.5 تا 107.5 خواهد بود.

استدلال بیشتر به شرح زیر است. اگر مقدار آزمایش شده در بازه اطمینان قرار گیرد، با فرضیه مغایرتی ندارد، زیرا در محدوده نوسانات تصادفی (با احتمال 95٪) قرار می گیرد. اگر نقطه آزمایش خارج از فاصله اطمینان باشد، احتمال وقوع چنین رویدادی بسیار ناچیز و در هر صورت زیر سطح قابل قبول است. بنابراین، این فرضیه به عنوان مغایر با داده های مشاهده شده رد می شود. در مورد ما، فرضیه انتظار خارج از فاصله اطمینان است (مقدار آزمایش شده 90 در بازه 100±7.5 لحاظ نمی شود)، بنابراین باید رد شود. در پاسخ به سوال ابتدایی بالا، باید گفت: نه، نمی تواند، در هر صورت، این اتفاق بسیار نادر است. اغلب، این نشان دهنده یک احتمال خاص از رد اشتباه فرضیه (سطح p) است و نه سطح معینی که بر اساس آن فاصله اطمینان ایجاد شده است، بلکه بیشتر در زمان دیگری است.

همانطور که می بینید، ایجاد فاصله اطمینان برای میانگین (یا انتظارات ریاضی) دشوار نیست. نکته اصلی این است که ذات را بگیریم و سپس همه چیز پیش خواهد رفت. در عمل، اکثراً از فاصله اطمینان 95% استفاده می کنند، که حدود دو خطای استاندارد در دو طرف میانگین است.

فعلاً همین است. بهترین ها!

در آمار، دو نوع تخمین وجود دارد: نقطه ای و فاصله ای. تخمین نقطه اییک آماره نمونه است که برای تخمین پارامتر جامعه استفاده می شود. به عنوان مثال، میانگین نمونه یک تخمین نقطه ای از میانگین جامعه و واریانس نمونه است S2- برآورد نقطه ای واریانس جمعیت σ2. نشان داده شد که میانگین نمونه برآوردی بی طرفانه از انتظارات جامعه است. میانگین نمونه بی طرف نامیده می شود زیرا میانگین تمام نمونه ها به معنای (با حجم نمونه یکسان است n) برابر با انتظارات ریاضی عموم مردم است.

به منظور واریانس نمونه S2به یک برآوردگر بی طرفانه واریانس جمعیت تبدیل شد σ2، مخرج واریانس نمونه باید برابر باشد n – 1 ، اما نه n. به عبارت دیگر، واریانس جامعه، میانگین تمام واریانس های نمونه ممکن است.

هنگام تخمین پارامترهای جمعیت باید در نظر داشت که آمارهای نمونه مانند ، به نمونه های خاصی بستگی دارد. برای در نظر گرفتن این واقعیت، به دست آوردن تخمین فاصلهانتظارات ریاضی جمعیت عمومی توزیع میانگین های نمونه را تجزیه و تحلیل می کند (برای جزئیات بیشتر، نگاه کنید به). فاصله ساخته شده با یک سطح اطمینان مشخص مشخص می شود، که احتمال برآورد صحیح پارامتر واقعی جمعیت عمومی است. از فواصل اطمینان مشابهی می توان برای تخمین نسبت یک ویژگی استفاده کرد آرو توده اصلی توزیع شده از جمعیت عمومی.

دانلود یادداشت در قالب یا فرمت، نمونه ها در قالب

ساخت یک فاصله اطمینان برای انتظارات ریاضی جمعیت عمومی با یک انحراف معیار شناخته شده

ایجاد فاصله اطمینان برای نسبت یک صفت در جمعیت عمومی

در این بخش مفهوم فاصله اطمینان به داده های طبقه بندی شده تعمیم داده شده است. این به شما امکان می دهد سهم این صفت را در جمعیت عمومی تخمین بزنید آربا سهم نمونه آراس= X/n. همانطور که گفته شد، اگر مقادیر nآرو n(1 - p)از عدد 5 فراتر رفته، توزیع دو جمله ایرا می توان به صورت عادی تقریب زد. بنابراین، برای تخمین سهم یک صفت در جمعیت عمومی آرمی توان بازه ای ساخت که سطح اطمینان آن برابر است (1 - α)x100%.


جایی که پاس- سهم نمونه از ویژگی، برابر با ایکس/n، یعنی تعداد موفقیت ها تقسیم بر حجم نمونه، آر- سهم این صفت در جمعیت عمومی، زمقدار بحرانی توزیع نرمال استاندارد شده است، n- اندازهی نمونه.

مثال 3بیایید فرض کنیم که از سیستم اطلاعاتنمونه ای از 100 فاکتور تکمیل شده در ماه گذشته را بازیابی کرد. فرض کنید 10 مورد از این فاکتورها نادرست است. به این ترتیب، آر= 10/100 = 0.1. سطح اطمینان 95% مربوط به مقدار بحرانی Z = 1.96 است.

بنابراین، 95 درصد احتمال دارد که بین 4.12 تا 15.88 درصد فاکتورها دارای خطا باشند.

برای یک حجم نمونه معین، به نظر می رسد فاصله اطمینان حاوی نسبت صفت در جامعه عمومی وسیع تر از یک متغیر تصادفی پیوسته باشد. این به این دلیل است که اندازه گیری یک متغیر تصادفی پیوسته حاوی اطلاعات بیشتری نسبت به اندازه گیری داده های طبقه بندی است. به عبارت دیگر، داده‌های طبقه‌بندی که فقط دو مقدار می‌گیرند، حاوی اطلاعات کافی برای تخمین پارامترهای توزیع آنها نیستند.

ATمحاسبه برآوردهای حاصل از یک جمعیت محدود

برآورد انتظارات ریاضی.ضریب تصحیح برای جمعیت نهایی ( fpc) برای کاهش خطای استاندارد با ضریب استفاده شد. هنگام محاسبه فواصل اطمینان برای برآورد پارامترهای جمعیت، یک ضریب تصحیح در شرایطی که نمونه‌ها بدون جایگزینی کشیده می‌شوند، اعمال می‌شود. بنابراین، فاصله اطمینان برای انتظارات ریاضی، با داشتن سطح اطمینان برابر است (1 - α)x100%، با فرمول محاسبه می شود:

مثال 4برای نشان دادن کاربرد یک ضریب تصحیح برای یک جمعیت محدود، اجازه دهید به مسئله محاسبه فاصله اطمینان برای میانگین مقدار فاکتورهایی که در مثال 3 در بالا بحث شد، برگردیم. فرض کنید یک شرکت 5000 فاکتور در ماه صادر می کند، ایکس= 110.27 دلار، اس= 28.95 دلار ن = 5000, n = 100, α = 0.05، t99 = 1.9842. با توجه به فرمول (6) بدست می آوریم:

تخمین سهم ویژگیهنگام انتخاب بدون بازگشت، فاصله اطمینان برای نسبت ویژگی که دارای سطح اطمینان برابر است (1 - α)x100%، با فرمول محاسبه می شود:

فواصل اطمینان و مسائل اخلاقی

هنگام نمونه‌گیری از یک جامعه و فرمول‌بندی استنباط‌های آماری، اغلب مشکلات اخلاقی به وجود می‌آیند. نکته اصلی این است که فواصل اطمینان و تخمین نقطه ای آمار نمونه چگونه مطابقت دارند. تخمین های نقطه انتشار بدون تعیین فواصل اطمینان مناسب (معمولاً در سطح اطمینان 95٪) و حجم نمونه که از آن استخراج می شود، می تواند گمراه کننده باشد. این ممکن است به کاربر این تصور را بدهد که تخمین نقطه ای دقیقاً همان چیزی است که او برای پیش بینی ویژگی های کل جمعیت به آن نیاز دارد. بنابراین، درک این نکته ضروری است که در هر تحقیقی، تخمین های نه نقطه ای، بلکه فاصله ای باید در اولویت قرار گیرد. علاوه بر این، باید توجه ویژه ای شود انتخاب صحیحاندازه های نمونه

بیشتر اوقات، اهداف دستکاری های آماری نتایج بررسی های جامعه شناختی از جمعیت در مورد موضوعات مختلف سیاسی است. در عین حال نتایج نظرسنجی در صفحه اول روزنامه ها و خطای نمونه گیری و روش شناسی قرار می گیرد. تحلیل آماریجایی در وسط چاپ کنید برای اثبات اعتبار برآوردهای نقطه‌ای به‌دست‌آمده، باید حجم نمونه بر اساس آن، مرزهای فاصله اطمینان و سطح معنی‌داری آن مشخص شود.

یادداشت بعدی

از مطالب کتاب لوین و همکاران آمار برای مدیران استفاده شده است. - م.: ویلیامز، 2004. - ص. 448-462

تئوری حد مرکزیبیان می کند که با توجه به حجم نمونه به اندازه کافی بزرگ، توزیع نمونه میانگین ها را می توان با یک توزیع نرمال تقریب زد. این ویژگی به نوع توزیع جمعیت بستگی ندارد.

ذهن فقط در دانش نیست، بلکه در توانایی به کارگیری دانش در عمل نیز هست. (ارسطو)

فاصله اطمینان

بررسی کلی

با نمونه برداری از جامعه، تخمین نقطه ای پارامتر مورد علاقه خود را به دست می آوریم و خطای استاندارد را محاسبه می کنیم تا صحت برآورد را نشان دهیم.

با این حال، برای اکثر موارد، خطای استاندارد به عنوان چنین قابل قبول نیست. ترکیب این اندازه گیری دقت با آن بسیار مفیدتر است تخمین فاصلهبرای پارامتر جمعیت

این را می توان با استفاده از دانش توزیع احتمال نظری انجام داد نمونه آمار(پارامتر) به منظور محاسبه فاصله اطمینان (CI - Confidence Interval، CI - Confidence Interval) برای پارامتر.

به طور کلی، فاصله اطمینان تخمین ها را در هر دو جهت با چند برابر خطای استاندارد (یک پارامتر معین) گسترش می دهد. دو مقدار (محدودیت اطمینان) که فاصله را مشخص می کنند معمولاً با کاما از هم جدا می شوند و در پرانتز قرار می گیرند.

فاصله اطمینان برای میانگین

با استفاده از توزیع نرمال

اگر حجم نمونه بزرگ باشد میانگین نمونه دارای توزیع نرمال است، بنابراین دانش توزیع نرمال را می توان هنگام در نظر گرفتن میانگین نمونه به کار برد.

به طور خاص، 95 درصد از توزیع میانگین نمونه در 1.96 انحراف استاندارد (SD) از میانگین جامعه است.

وقتی فقط یک نمونه داریم، آن را خطای استاندارد میانگین (SEM) می نامیم و فاصله اطمینان 95% را برای میانگین به صورت زیر محاسبه می کنیم:

اگر این آزمایش چندین بار تکرار شود، این فاصله شامل میانگین جمعیت واقعی در 95٪ مواقع خواهد بود.

این معمولاً یک فاصله اطمینان است، مانند محدوده مقادیری که در آن میانگین جمعیت واقعی (میانگین عمومی) با سطح اطمینان 95٪ قرار دارد.

اگرچه تفسیر فاصله اطمینان به این روش کاملاً سخت نیست (میانگین جمعیت یک مقدار ثابت است و بنابراین نمی تواند احتمال مرتبط با آن را داشته باشد) اما از نظر مفهومی درک آن آسان تر است.

استفاده t-توزیع

اگر مقدار واریانس در جامعه را بدانید می توانید از توزیع نرمال استفاده کنید. همچنین، زمانی که حجم نمونه کوچک است، در صورتی که داده های زیربنایی جامعه به طور نرمال توزیع شوند، میانگین نمونه از توزیع نرمال پیروی می کند.

اگر داده‌های زیربنایی جامعه به طور معمول توزیع نشده باشند و/یا واریانس عمومی (واریانس جمعیت) ناشناخته باشد، میانگین نمونه مطابقت دارد. توزیع تی دانشجویی.

فاصله اطمینان 95% را برای میانگین جمعیت به صورت زیر محاسبه کنید:

کجا - نقطه درصد (درصد) t-توزیع دانش آموز با (n-1) درجه آزادی، که احتمال دو دنباله 0.05 را می دهد.

به طور کلی، فاصله وسیع تری نسبت به زمانی که از توزیع نرمال استفاده می شود، فراهم می کند، زیرا عدم قطعیت اضافی را که با تخمین انحراف استاندارد جامعه و/یا به دلیل حجم نمونه کوچک ایجاد می شود، در نظر می گیرد.

هنگامی که حجم نمونه بزرگ است (از مرتبه 100 یا بیشتر)، تفاوت بین دو توزیع ( t-studentو عادی) ناچیز است. با این حال، همیشه استفاده کنید t-توزیع هنگام محاسبه فواصل اطمینان، حتی اگر حجم نمونه بزرگ باشد.

معمولاً 95٪ CI نشان داده شده است. سایر فواصل اطمینان را می توان محاسبه کرد، مانند 99٪ CI برای میانگین.

به جای حاصل ضرب خطای استاندارد و مقدار جدول t-توزیعی که مربوط به احتمال دو دنباله 0.05 است، آن را ضرب کنید (خطای استاندارد) در مقداری که مربوط به احتمال دو دنباله 0.01 است. این یک فاصله اطمینان گسترده‌تر از مورد 95 درصد است، زیرا نشان‌دهنده افزایش اطمینان است که این فاصله واقعاً میانگین جمعیت را نیز شامل می‌شود.

فاصله اطمینان برای نسبت

توزیع نمونه گیری نسبت ها دارای توزیع دوجمله ای است. با این حال، اگر حجم نمونه nنسبتاً بزرگ است، پس توزیع نسبت نمونه تقریباً نرمال با میانگین است.

برآورد با نسبت نمونه گیری p=r/n(جایی که r- تعداد افراد در نمونه با ویژگی های مشخصه، و خطای استاندارد تخمین زده می شود:

فاصله اطمینان 95 درصد برای نسبت تخمین زده می شود:

اگر حجم نمونه کوچک باشد (معمولاً زمانی که npیا n (1-p)کمتر 5 ، سپس باید از توزیع دو جمله ای برای محاسبه فواصل اطمینان دقیق استفاده شود.

توجه داشته باشید که اگر پسپس به صورت درصد بیان می شود (1-p)جایگزین توسط (100p).

تفسیر فواصل اطمینان

هنگام تفسیر فاصله اطمینان، ما به سؤالات زیر علاقه مند هستیم:

فاصله اطمینان چقدر است؟

فاصله اطمینان گسترده نشان می دهد که برآورد نادقیق است. باریک نشان دهنده یک تخمین خوب است.

عرض فاصله اطمینان به اندازه خطای استاندارد بستگی دارد که به نوبه خود به حجم نمونه بستگی دارد و هنگام در نظر گرفتن یک متغیر عددی از متغیر بودن داده ها، فواصل اطمینان وسیع تری نسبت به مطالعات یک مجموعه داده بزرگ ارائه می دهد. از چند متغیر

آیا CI ارزش خاصی را شامل می شود؟

می توانید بررسی کنید که آیا مقدار احتمالی پارامتر جمعیت در یک بازه اطمینان قرار می گیرد یا خیر. اگر بله، پس نتایج با این مقدار احتمالی سازگار است. اگر نه، پس بعید است (برای فاصله اطمینان 95٪، شانس تقریباً 5٪ است) که پارامتر این مقدار را داشته باشد.

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...