آزمون فرضیه های آماری در مورد برابری میانگین ها. آزمون فرضیه برابری میانگین دو نمونه (آزمون t)

از جمله مهمترین ویژگی های تعمیم دهنده که در مورد آنها فرضیه ها بیشتر مطرح می شود، می باشد مقدار متوسط. به منظور آزمون فرضیه برابری میانگین ها در جمعیتفرضیه صفر باید فرموله شود. در این مورد، به عنوان یک قاعده، فرض بر این است که هر دو نمونه از یک جمعیت عمومی با توزیع نرمال با انتظارات ریاضی برابر با ایکسو با واریانسی برابر با c0 . اگر این فرض درست باشد، پس x1 - x2 ~ x. در واقع معنی نمونه X1 و X2 به دلیل تصادفی بودن نمونه برابر نخواهد بود. بنابراین، لازم است که اهمیت تفاوت بین x1 x2 را دریابیم - آیا تفاوت آنها در محدوده یک تغییر تصادفی ممکن است یا اینکه فراتر از این حدود است. سپس وظیفه آزمون فرضیه به آزمون اهمیت تفاوت کاهش می یابد

میانگین هر نمونه خطای خاص خود را دارد. /و:

با تعیین واریانس و خطای متوسطبه این معناست که شما می توانید مقدار واقعی I-test را محاسبه کنید و آن را با مقدار بحرانی (جدولی) در سطح معنی داری مناسب و تعداد درجات آزادی تغییر مقایسه کنید (برای نمونه هایی با n > 30، توزیع نرمال u -test استفاده می شود و برای نمونه های با n< 30 - и-критерий Стьюдента).

مقدار واقعی معیار i با فرمول تعیین می شود

اگر مقدار نمونه معیار در ناحیه بحرانی (їfakі> O) قرار گیرد، فرضیه صفر در مورد برابری میانگین ها رد می شود، اگر مقدار نمونه معیار در منطقه مقادیر قابل قبول قرار گیرد (Іfaq)< їа), нулевая гипотеза принимается.

فرضیه صفر مبنی بر مساوی بودن میانگین ها در دو جامعه را نیز می توان با مقایسه میانگین تفاوت واقعی آزمایش کرد. [єFa,.t = ~~2 ) با یک خطای تصادفی محدود کننده در سطح معینی از اهمیت (ea). اگر تفاوت واقعی بین میانگین نمونه در خطای تصادفی باشد< еа), нулевая гипотеза принимается. Если же фактическая разница между средними выходит за пределы случайной ошибки (еф^т >ea)، فرضیه صفر رد می شود.

هنگام حل مسائل خاص آزمون فرضیه های آماری در مورد میانگین ها، نکات زیر باید در نظر گرفته شود: 1) طرح نمونه گیری (نمونه ها مستقل و وابسته هستند). 2) برابری یا نابرابری اندازه نمونه. 3) برابری یا نابرابری واریانس های جمعیت های عمومی.

الگوریتم آزمون فرضیه مربوط به دو میانگین تا حدی تغییر می کند اگر واریانس های نمونه (512 و 522) تفاوت معنی داری داشته باشند. در این مورد، هنگام تعیین تعداد درجات آزادی، اصلاحیه ای ارائه می شود:

هنگامی که با واریانس های نابرابر در بین نمونه ها، اعداد آنها نیز ناهموار است (n1 و n2)، مقدار جدولی آزمون t Student باید با استفاده از فرمول محاسبه شود.

که در آن u1 و u2 مقادیر جدولی آزمون t Student هستند که مطابق با n1- 1 و n2 - 1 درجه آزادی.

نمونه ای از آزمایش یک فرضیه آماری در مورد برابری دو نمونه متوسط ​​مستقل با اندازه مساوی را در نظر بگیرید. (n1=n2)و پراکندگی برابر (SG;2 =).

بله، داده هایی در مورد وزن زنده گوساله ها در بدو تولد برای دو گروه گاو سیاه و سفید (گاوهای همسن) وجود دارد. گاوهای گروه اول مدت شیردهی طبیعی (305 روز) داشتند و گروه دوم به مدت 320 روز شیردهی شدند. هر گروه شامل 5 گاو بود. این مشاهدات در جدول آورده شده است. 7.2.

جدول 7.2. وزن زنده گوساله ها در بدو تولد توسط گروه های گاو با دوره های مختلف شیردهی

مقایسه وزن زنده گوساله‌ها در دو گروه گاو نشان می‌دهد که وزن زنده گوساله‌ها در گاوهای گروه I که مدت شیردهی طبیعی داشتند، بیشتر است. اما با توجه به کم بودن تعداد نمونه ها (n=5)، احتمال اینکه اختلاف بین وزن زنده در نتیجه علل تصادفی به دست آمده باشد، منتفی نیست.

ارزیابی آماری تفاوت میانگین ها برای دو گروه گاو ضروری است.

بر اساس نتایج آزمون فرضیه، به این نتیجه رسید که تفاوت بین میانگین ها در محدوده نوسانات تصادفی قرار دارد یا این تفاوت آنقدر معنادار است که با فرضیه صفر در مورد ماهیت تصادفی تفاوت بین میانگین ها همخوانی ندارد.

اگر موضع دوم ثابت شود و حالت اول رد شود، می توان ادعا کرد که مدت شیردهی بر وزن زنده گوساله ها تأثیر می گذارد.

شرط مسئله فرض می‌کند که هر دو نمونه از یک جمعیت عمومی با توزیع نرمال گرفته شده‌اند. تشکیل گروه ها تصادفی (مستقل) است، بنابراین تفاوت میانگین ها باید ارزیابی شود.

بیایید میانگین وزن زنده گوساله ها را برای دو گروه گاو تعیین کنیم:

تفاوت واقعی بین ابزارها این است:

اهمیت این تفاوت باید ارزیابی شود. برای انجام این کار، لازم است این فرضیه که دو میانگین برابر هستند، آزمایش شود.

اجازه دهید تمام مراحل طرح آزمون فرضیه را با جزئیات در نظر بگیریم. 1. اجازه دهید فرضیه های جایگزین صفر اما و Na را فرموله کنیم:

2. سطح معنی داری a = 0.05 را در نظر بگیریم که تنها در 5 مورد از 100 مورد، پذیرش فرضیه یا رد آن را با احتمال خطا تضمین می کند.

3. قوی ترین معیار برای آزمون این نوع فرضیه H0، آزمون u-test است.

4. اجازه دهید یک قانون برای تصمیم گیری بر اساس نتایج تدوین کنیم

بررسی H0. از آنجایی که طبق فرضیه جایگزین x1ممکن است کمتر یا بیشتر باشد x2، سپس منطقه بحرانی باید از دو ایجاد شود

طرفین: و - ~ ia و و - ia یا به طور خلاصه: ia.

این شکل از تعیین معیار نامیده می شود منطقه بحرانی دوجانبهمنطقه بحرانی در 0.05 = در داخل خواهد بود - همه مقادیر بالاتر از 2.5٪ بالا و پایین تر از 2.5٪ از نقطه توزیع آزمون u-student.

با توجه به موارد فوق، نتیجه گیری در مورد بررسی H0 را می توان به صورت زیر فرموله کرد: اگر مقدار واقعی معیار Γ مشخص شود، فرضیه H0 رد خواهد شد.

مقدار جدولی تر، یعنی اگر > ia باشد. در غیر این صورت کا باید پذیرفته شود.

5. برای بررسی H0، باید مقدار واقعی آزمون G Student را تعیین کنید و آن را با مقدار جدول مقایسه کنید.

برای تعیین مقدار واقعی آزمون t Student، محاسبات زیر را انجام می دهیم.

6. برای هر نمونه تغییرات واریانس اصلاح شده برای از دست دادن درجات آزادی را محاسبه کنید. برای این کار ابتدا مقادیر xc و x2і را مربع می کنیم:

7. میانگین مجذور خطاهای هر نمونه و میانگین خطای تعمیم یافته اختلاف میانگین را محاسبه کنید:

8. مقدار واقعی آزمون G Student را محاسبه کنید:

9. مقدار جدولی آزمون G-Student را بر اساس سطح معناداری a = 0.05 و تعداد درجه آزادی برای دو نمونه تعیین کنید:

طبق جدول نقاط بحرانیتوزیع دانش آموز" (اضافی 3) را می یابیم و در a = 0.05 و k = 8: i005 = 2.31.

10. بیایید ارزش واقعی و جدولی - معیار دانش آموز را با هم مقایسه کنیم:

از آنجایی که ifackg< и^05 (выборочное значение критерия находится в области допустимых значений), нулевая гипотеза о равенстве средних генеральных совокупностях принимается.

بنابراین تأثیر طول دوره شیردهی بر وزن زنده گوساله ها در بدو تولد دست کم گرفته می شود.

با این حال، باید به چنین نکته ضروری توجه شود: وزن زنده گوساله ها در هنگام تولد در تمام مشاهدات آزمایش در گاوهای گروه اول که مدت شیردهی طبیعی دارند بیشتر است. بنابراین، به جای فرضیه جایگزین در x1 f x2 دیگری را می توان گرفت. از آنجایی که هیچ دلیلی برای این باور وجود ندارد که با طول دوره طبیعی شیردهی، وزن زنده گوساله ها کمتر می شود، بدیهی است که شکل مناسب تری از فرضیه جایگزین عبارت است از: Ha: x1 > x2.

سپس منطقه بحرانی، که 0.05 کل منطقه زیر منحنی توزیع است، تنها در یک سمت (راست) قرار خواهد گرفت، زیرا مقادیر منفیتوده های زنده با شرایط مشکل ناسازگار در نظر گرفته می شوند. در این راستا، معیار ارزش جدولی باید در مقدار دو برابر سطح معنی‌داری تعیین شود (یعنی در 2a؛ ia = 2 o 0.05 = 0.10). معیار آزمون فرضیه به صورت زیر فرموله می شود: اگر > і2а فرضیه صفر رد می شود.

این شکل از مشکل منطقه بحرانی نامیده می شود یک جانبه.آزمون یک طرفه نسبت به خطاهای نوع دوم حساس تر است، اما اعمال آن تنها در صورتی مجاز است که اعتبار این فرضیه جایگزین ثابت شود.

بیایید طبق جداول (پیوست 3) معیار ارزش جدولی را در a = 0.10 و k = 8، i0D0 = 1.86 تعیین کنیم.

بنابراین، هنگام استفاده از آزمون یک دنباله، فرضیه صفر رد می شود، یعنی. معیار در ناحیه بحرانی خواهد بود (ifakg > i0d0؛ 2.14 > 1.86). بنابراین وزن زنده گوساله ها در بدو تولد در گروه گاوهایی با مدت شیردهی طبیعی به طور قابل توجهی بیشتر است. این نتیجه گیری دقیق تر از آن است که از یک آزمایش دو طرفه به دست می آید، زیرا در اینجا ما از آن استفاده می کنیم اطلاعات تکمیلیبرای توجیه صحت اعمال یک معیار یک طرفه.

همین نتیجه را می توان با مقایسه خطای حاشیه ای احتمالی دو نمونه ea با تفاوت واقعی بین میانگین ها به دست آورد.

اجازه دهید ممکن را محاسبه کنیم خطای حاشیه ایتفاوت بین میانگین ها برای دو نمونه: є0do \u003d G010 o /A_2 \u003d 1.86 o 1.87 \u003d 3.48 کیلوگرم و مقایسه آن با تفاوت واقعی میانگین ها:

با مقایسه خطای احتمالی حاشیه ای با تفاوت واقعی میانگین ها، می توان نتیجه مشابهی گرفت که فرضیه ارائه شده در مورد برابری میانگین ها با نتایج به دست آمده مطابقت ندارد.

ما با استفاده از مثال زیر فرضیه را برای نمونه‌های وابسته با اعداد مساوی و واریانس‌های مساوی آزمایش خواهیم کرد.

بله داده ها وجود دارد مشاهده انتخابیبا توجه به بهره وری گاوهای مادر و گاوهای دختر (جدول 7.3).

جدول 7.3. بهره وری گاوهای مادر و دختر

آزمون یک فرضیه آماری در مورد تفاوت میانگین بین جفت مشاهدات مرتبط در جامعه ضروری است.

از آنجایی که مشاهدات دو نمونه به صورت جفتی به هم مرتبط هستند (نمونه های وابسته)، لازم است نه تفاوت بین میانگین ها، بلکه میانگین مقدار تفاوت بین جفت مشاهدات (u) مقایسه شود. بیایید تمام مراحل فرآیند آزمون فرضیه را در نظر بگیریم. 1. فرضیه های صفر و جایگزین را فرمول بندی می کنیم:

با این جایگزین، یک آزمون دو دنباله باید اعمال شود.

2. سطح معنی داری را برابر با 0.05 = a در نظر می گیریم.

3. قوی ترین تست برای H0 آزمون u-test Student است.

4. تفاوت میانگین را محاسبه کنید

5. واریانس تعدیل شده اختلاف میانگین را محاسبه کنید:

6. میانگین خطای اختلاف میانگین را تعیین کنید:

7. محاسبه ارزش واقعی - معیار دانش آموز:

8. تعداد درجات آزادی را بر اساس تعداد جفت تفاوت های مرتبط تنظیم کنید:

9. بیایید مقدار جدولی آزمون G Student را برای آن پیدا کنیم به= 4 و a = 0.05; V. = 2.78 (برنامه 3).

10. بیایید مقدار واقعی و جدولی معیار را با هم مقایسه کنیم:

مقدار واقعی معیار بالای جدول است. بنابراین مقدار میانگین اختلاف بین تولید شیر دو نمونه معنی دار بوده و فرض صفر رد می شود.

با مقایسه خطای نهایی احتمالی با تفاوت میانگین واقعی، نتایج یکسانی را به دست می آوریم:

خطای حاشیه ای نشان می دهد که در نتیجه تغییرات تصادفی، میانگین اختلاف می تواند به 2.4 درجه سانتیگراد برسد. تفاوت میانگین واقعی بیشتر است:

بنابراین، با توجه به نتایج مطالعه، درجه بالااحتمال ادعای این که تفاوت در مقادیر متوسط ​​تولید شیر گاوهای مادر و گاوهای دختر محتمل است.

3. راستی آزمایی فرضیه برابری میانگین ها

برای آزمایش این گزاره استفاده می شود که میانگین دو شاخص نشان داده شده توسط نمونه ها تفاوت معنی داری دارند. سه نوع تست وجود دارد: یکی برای نمونه های مرتبط و دو نوع برای نمونه های جدا شده (با واریانس های یکسان و متفاوت). اگر نمونه ها به هم متصل نباشند، ابتدا باید فرضیه برابری واریانس ها مورد آزمایش قرار گیرد تا مشخص شود از کدام یک از معیارها استفاده شود. همانطور که در مورد مقایسه واریانس ها، 2 راه برای حل مشکل وجود دارد که با استفاده از یک مثال آن ها را بررسی می کنیم.

مثال 3. داده هایی در مورد تعداد فروش کالا در دو شهر وجود دارد. در سطح معناداری 01/0 فرضیه آماری متفاوت بودن میانگین تعداد فروش یک محصول در شهرها را آزمایش کنید.

23 25 23 22 23 24 28 16 18 23 29 26 31 19
22 28 26 26 35 20 27 28 28 26 22 29

ما از بسته تحلیل داده استفاده می کنیم. بسته به نوع آزمون، یکی از سه مورد انتخاب می‌شود: «آزمون t دو نمونه‌ای زوجی برای میانگین» - برای نمونه‌های متصل، و «آزمون t دو نمونه با واریانس‌های یکسان» یا «آزمون t دو نمونه‌ای». با واریانس های مختلف" - برای نمونه های جدا شده. تست را با همان واریانس ها فراخوانی کنید، در پنجره ای که در فیلدهای "فاصله متغیر 1" و "فاصله متغیر 2" باز می شود، پیوندهایی را به داده ها (به ترتیب A1-N1 و A2-L2) وارد کنید، اگر برچسب های داده وجود دارد، سپس کادر کنار "برچسب ها" را علامت بزنید (ما آنها را نداریم، بنابراین کادر علامت زده نمی شود). سپس سطح اهمیت را در قسمت "آلفا" وارد کنید - 0.01. فیلد اختلاف میانگین فرضی را خالی بگذارید. در بخش «گزینه‌های خروجی»، یک علامت در کنار «فاصله خروجی» قرار دهید و مکان‌نما را در فیلد مقابل کتیبه قرار دهید، در سلول B7 کلیک چپ کنید. خروجی نتیجه با شروع از این سلول انجام می شود. با کلیک بر روی "OK" جدولی از نتایج ظاهر می شود. مرز بین ستون‌های B و C، C و D، D و E را جابه‌جا کنید، عرض ستون‌های B، C و D را طوری افزایش دهید که همه برچسب‌ها متناسب شوند. این روش ویژگی های اصلی نمونه، آماره های t، مقادیر بحرانی این آمار و سطوح اهمیت بحرانی "P(T را نشان می دهد.<=t) одностороннее» и «Р(Т<=t) двухстороннее». Если по модулю t-статистика меньше критического, то средние показатели с заданной вероятностью равны. В нашем случае│-1,784242592│ < 2,492159469, следовательно, среднее число продаж значимо не отличается. Следует отметить, что если взять уровень значимости α=0,05, то результаты исследования будут совсем иными.



آزمون t دو نمونه ای با واریانس مساوی

میانگین 23,57142857 26,41666667
پراکندگی 17,34065934 15,35606061
مشاهدات 14 12
واریانس ادغام شده 16,43105159
تفاوت میانگین فرضی 0
df 24
آمار t -1,784242592
P(T<=t) одностороннее 0,043516846
t بحرانی یک طرفه 2,492159469
P(T<=t) двухстороннее 0,087033692
t بحرانی دو طرفه 2,796939498

آزمایشگاه شماره 3

رگرسیون خطی جفت

هدف: تسلط بر روش های ساخت معادله رگرسیون جفت خطی با استفاده از رایانه، یادگیری نحوه به دست آوردن و تجزیه و تحلیل ویژگی های اصلی معادله رگرسیون.

تکنیک ساخت معادله رگرسیون را با استفاده از یک مثال در نظر بگیرید.

مثال. نمونه هایی از عوامل x i و y i آورده شده است. بر اساس این نمونه ها، معادله رگرسیون خطی ỹ = ax + b را پیدا کنید. ضریب همبستگی جفت را پیدا کنید. در سطح معنی داری a = 0.05 مدل رگرسیون را برای کفایت بررسی کنید.

ایکس 0 1 2 3 4 5 6 7 8 9
Y 6,7 6,3 4,4 9,5 5,2 4,3 7,7 7,1 7,1 7,9

برای یافتن ضرایب a و b معادله رگرسیون، از توابع SLOPE و INTERCEPT، دسته "Statistical" استفاده کنید. ما امضای "a =" را در A5 وارد می کنیم و در سلول مجاور B5 تابع SLOPE را وارد می کنیم، مکان نما را در قسمت "Izv_value_u" قرار می دهیم، پیوند را به سلول های B2-K2 تنظیم می کنیم و آنها را با ماوس می چرخانیم. نتیجه 0.14303 است. اکنون ضریب b را پیدا می کنیم. ما در A6 امضای "b =" و در B6 تابع INTERCEPT را با پارامترهای مشابه تابع SLOPE وارد می کنیم. نتیجه 5.976364 است. بنابراین معادله رگرسیون خطی y=0.14303x+5.976364 است.

بیایید معادله رگرسیون را رسم کنیم. برای انجام این کار، در خط سوم جدول، مقادیر تابع را در نقاط داده شده X (خط اول) - y (x 1) وارد می کنیم. برای به دست آوردن این مقادیر، از تابع TREND دسته آماری استفاده کنید. ما در A3 امضای "Y (X)" را وارد می کنیم و با قرار دادن مکان نما در B3، تابع TREND را فراخوانی می کنیم. در فیلدهای "From_value_y" و "From_value_x" پیوندی به B2-K2 و B1-K1 می دهیم. در قسمت "New_value_x" پیوندی به B1-K1 نیز وارد می کنیم. در قسمت "Constant" اگر معادله رگرسیون به شکل y=ax+b باشد عدد 1 و اگر y=ax عدد 0 را وارد کنید. در مورد ما وارد واحد می شویم. تابع TREND یک آرایه است، بنابراین برای نمایش تمام مقادیر آن، ناحیه B3-K3 را انتخاب کرده و F2 و Ctrl+Shift+Enter را فشار دهید. نتیجه مقادیر معادله رگرسیون در نقاط داده شده است. نمودار می سازیم. ما مکان نما را در هر سلول آزاد قرار می دهیم، با جادوگر نمودار تماس می گیریم، دسته "Turned" را انتخاب می کنیم، نوع نمودار یک خط بدون نقطه است (در گوشه سمت راست پایین)، روی "بعدی" کلیک کنید، در قسمت "تشخیص"، وارد کنید. پیوندی به B3-K3. به تب "ردیف" بروید و در قسمت "X Values" پیوندی به B1-K1 وارد کنید، روی "پایان" کلیک کنید. نتیجه یک خط رگرسیون مستقیم است. بیایید ببینیم که چگونه نمودارهای داده های تجربی و معادلات رگرسیون متفاوت است. برای انجام این کار، مکان نما را در هر سلول آزاد قرار دهید، با جادوگر نمودار تماس بگیرید، دسته "گراف"، نوع نمودار یک خط شکسته با نقطه است (دوم از سمت چپ بالا)، روی "بعدی" کلیک کنید، در "محدوده" فیلد پیوندی به خط دوم و سوم B2-K3 وارد کنید. به برگه «ردیف» بروید و در قسمت «برچسب‌های محور X»، پیوندی به B1-K1 وارد کنید، روی «پایان» کلیک کنید. نتیجه دو خط (آبی - اولیه، قرمز - معادله رگرسیون) است. می توان دید که خطوط تفاوت کمی با یکدیگر دارند.

a= 0,14303
b= 5,976364

برای محاسبه ضریب همبستگی r xy از تابع پیرسون استفاده می شود. نمودار را طوری قرار می دهیم که در بالای خط 25 قرار گیرند و در A25 امضای "همبستگی" را ایجاد می کنیم ، در B25 تابع PEARSON را می نامیم که در فیلدهای آن "آرایه 2" پیوندی به داده های اولیه B1 وارد می کنیم. -K1 و B2-K2. نتیجه 0.993821 است. ضریب تعیین R xy مربع ضریب همبستگی r xy است. در A26 امضای "تعیین" را ایجاد می کنیم و در B26 - فرمول "=B25*B25". نتیجه 0.265207 است.

با این حال، یک تابع در اکسل وجود دارد که تمام ویژگی های اصلی رگرسیون خطی را محاسبه می کند. این تابع LINEST است. ما مکان نما را در B28 قرار می دهیم و تابع LINEST را در دسته "Statistical" فراخوانی می کنیم. در فیلدهای "From_value_y" و "From_value_x" پیوندی به B2-K2 و B1-K1 می دهیم. فیلد "Constant" همان معنای تابع TREND را دارد، ما آن را برابر با 1 داریم. اگر می خواهید آمار کامل مربوط به رگرسیون را نمایش دهید، فیلد "Stat" باید دارای 1 باشد. در مورد ما، ما یک واحد را در آنجا قرار می دهیم. تابع آرایه ای به اندازه 2 ستون و 5 ردیف را برمی گرداند. پس از ورود، سلول B28-C32 را با ماوس انتخاب کرده و F2 و Ctrl + Shift + Enter را فشار دهید. نتیجه جدولی از مقادیر است که اعداد در آن معنی زیر را دارند:



ضریب الف

ضریب ب

خطای استاندارد m o

خطای استاندارد m h

ضریب تعیین R xy

انحراف معیار y

و - آمار

درجات آزادی n-2

مجموع رگرسیون مربع های S n 2

مجموع باقیمانده مربع ها S n 2

0,14303 5,976364
0,183849 0,981484
0,070335 1,669889
0,60525 8
1,687758 22,30824

تجزیه و تحلیل نتیجه: در خط اول - ضرایب معادله رگرسیون، آنها را با توابع محاسبه شده SLOPE و INTERCEPT مقایسه کنید. خط دوم خطاهای استاندارد ضرایب است. اگر یکی از آنها از نظر مقدار مطلق بیشتر از خود ضریب باشد، ضریب صفر در نظر گرفته می شود. ضریب تعیین کیفیت ارتباط بین عوامل را مشخص می کند. مقدار به دست آمده 0.070335 نشان دهنده ارتباط بسیار خوب عوامل است، F - آمار فرضیه کفایت مدل رگرسیونی را بررسی می کند. این عدد باید با مقدار بحرانی مقایسه شود، برای به دست آوردن آن، امضای "F-critical" را در E33 و در F33 تابع FDISP را وارد می کنیم که آرگومان های آن را به ترتیب "0.05" (سطح اهمیت) وارد می کنیم. "1" (تعداد عوامل X) و "8" (درجه آزادی).

F- بحرانی 5,317655

مشاهده می شود که آماره F کمتر از F- بحرانی است، به این معنی که مدل رگرسیون مناسب نیست. خط آخر مجموع رگرسیون مربع ها را نشان می دهد و مجموع مربعات باقیمانده . مهم است که مجموع رگرسیون (توضیح داده شده با رگرسیون) بسیار بزرگتر از باقیمانده باشد (با رگرسیون ناشی از عوامل تصادفی توضیح داده نمی شود). در مورد ما، این شرط برقرار نیست، که نشان دهنده یک پسرفت بد است.

نتیجه گیری: در حین کار بر روش های ساخت معادله رگرسیون جفت خطی با استفاده از کامپیوتر مسلط شدم، نحوه به دست آوردن و تجزیه و تحلیل ویژگی های اصلی معادله رگرسیون را آموختم.


آزمایشگاه شماره 4

رگرسیون غیر خطی

هدف: تسلط بر روش های ساخت انواع اصلی معادلات رگرسیون زوج غیرخطی با کمک کامپیوتر (مدل های خطی داخلی)، یادگیری نحوه به دست آوردن و تجزیه و تحلیل شاخص های کیفیت معادلات رگرسیون.

اجازه دهید موردی را در نظر بگیریم که مدل های غیرخطی را می توان با استفاده از تبدیل داده ها (مدل های خطی داخلی) به مدل های خطی کاهش داد.

مثال. یک معادله رگرسیونی y = f(x) برای نمونه x n y n بسازید (f = 1,2,…,10). به عنوان f (x)، چهار نوع تابع - خطی، توانی، نمایی و هذلولی را در نظر بگیرید:

y = تبر + B; y = تبر B; y \u003d Ae Bx; y \u003d A / x + B.

لازم است ضرایب A و B آنها را پیدا کنید و با مقایسه شاخص های کیفیت، تابعی را انتخاب کنید که به بهترین وجه وابستگی را توصیف می کند.

سود Y 0,3 1,2 2,8 5,2 8,1 11,0 16,8 16,9 24,7 29,4
سود X 0,25 0,50 0,75 1,00 1,25 1,50 1,75 2,00 2,25 2,50

بیایید داده ها را به همراه امضاها در جدول وارد کنیم (سلول های A1-K2). بیایید سه خط زیر جدول را برای وارد کردن داده های تبدیل شده آزاد بگذاریم، پنج خط اول را با کشیدن انگشت در امتداد مرز خاکستری سمت چپ روی اعداد از 1 تا 5 انتخاب کنید و هر رنگی (نور - زرد یا صورتی) را برای رنگی کردن پس‌زمینه انتخاب کنید. سلول ها. علاوه بر این، با شروع از A6، پارامترهای رگرسیون خطی را استخراج می کنیم. برای انجام این کار، در سلول A6 امضای "خطی" را ایجاد می کنیم و در سلول B6 مجاور تابع LINEST را وارد می کنیم. در فیلدهای "From_value_x" پیوندی به B2-K2 و B1-K1 می دهیم، دو فیلد بعدی یک مقدار می گیرند. سپس ناحیه زیر را در 5 خط و به سمت چپ در 2 خط بکشید و F2 و Ctrl + Shift + Enter را فشار دهید. نتیجه جدولی با پارامترهای رگرسیون است که ضریب تعیین آن در ستون اول، سومین آن از بالا است. در مورد ما، برابر است با R 1 = 0.951262. مقدار معیار F، که به شما امکان می دهد کفایت مدل F 1 = 156.1439 را بررسی کنید.

(ردیف چهارم، ستون اول). معادله رگرسیون است

y = 12.96 x +6.18 (ضرایب a و b در سلول های B6 و C6 آورده شده است).

خطی 12,96 -6,18
1,037152 1,60884
0,951262 2,355101
156,1439 8
866,052 44,372

اجازه دهید ویژگی های مشابه را برای سایر رگرسیون ها تعیین کنیم و در نتیجه مقایسه ضرایب تعیین، بهترین مدل رگرسیونی را پیدا کنیم. رگرسیون هایپربولیک را در نظر بگیرید. برای بدست آوردن آن، داده ها را تبدیل می کنیم. در خط سوم، در سلول A3، عنوان "1/x" و در سلول B3، فرمول "=1/B2" را وارد کنید. اجازه دهید این سلول را با تکمیل خودکار به ناحیه B3-K3 بکشیم. بیایید ویژگی های مدل رگرسیون را بدست آوریم. در سلول A12، امضای "Hyperbola" و در تابع مجاور LINEST را وارد می کنیم. در فیلدهای "From_value_y" و "From_value_x2" پیوندی به B1-K1 و داده های تبدیل شده آرگومان x - B3-K3 می دهیم، دو فیلد بعدی یک مقدار را می گیرند. سپس ناحیه زیر 5 خط و سمت چپ را در 2 خط دایره می زنیم و F2 و Ctrl + Shift + Enter را فشار می دهیم. جدولی از پارامترهای رگرسیون دریافت می کنیم. ضریب تعیین در این مورد R2 = 0.475661 است که بسیار بدتر از حالت رگرسیون خطی است. آماره F F 2 ​​= 7.257293 است. معادله رگرسیون y = -6.25453x 18.96772 است.

هذلولی -6,25453 18,96772
2,321705 3,655951
0,475661 7,724727
7,257293 8
433,0528 477,3712

رگرسیون نمایی را در نظر بگیرید. برای خطی کردن آن، معادله را به دست می آوریم، که در آن ỹ = ln y، ã = b، = ln a. مشاهده می شود که تبدیل داده ها باید انجام شود - y را با ln y جایگزین کنید. مکان نما را در سلول A4 قرار می دهیم و عنوان "ln y" را می سازیم. مکان نما را در B4 قرار می دهیم و فرمول LN (دسته "ریاضی") را وارد می کنیم. به عنوان استدلال، ما به B1 اشاره می کنیم. تکمیل خودکار فرمول خط چهارم را به سلول های B4-K4 گسترش می دهد. سپس در سلول F6 برچسب "Exponent" را تنظیم می کنیم و در G6 مجاور تابع LINEST را وارد می کنیم که آرگومان های آن داده های تبدیل شده B4-K4 (در قسمت "Iv_value_y") خواهد بود و فیلدهای باقی مانده عبارتند از مانند مورد رگرسیون خطی (B2-K2، یازده). سپس سلول های G6-H10 را دایره کنید و F2 و Ctrl+Shift+Enter را فشار دهید. نتیجه R3 = 0.89079، F 3 = 65.25304 است که نشان دهنده یک رگرسیون بسیار خوب است. برای یافتن ضرایب معادله رگرسیون b = ã; مکان نما را در J6 قرار دهید و عنوان "a=" را ایجاد کنید، و در K6 مجاور فرمول "=EXP(H6)"، در J7 عنوان "b=" و در K7 فرمول "=G6" را می‌دهیم. معادله رگرسیون y = 0.511707 e 6.197909 x است.

غرفه دار 1,824212 -0,67 a= 0,511707
0,225827 0,350304 b= 6,197909
0,89079 0,512793
65,25304 8
17,15871 2,103652

رگرسیون توان را در نظر بگیرید. برای خطی کردن آن، معادله ỹ = ã را به دست می آوریم، که در آن ỹ = ln y، = ln x، ã = b، = ln a. مشاهده می شود که لازم است یک تبدیل داده انجام شود - y را با ln y و x را با ln x جایگزین کنید. ما قبلاً یک خط با ln y داریم. بیایید متغیرهای x را تغییر دهیم. در سلول A5 امضای "ln x" را می دهیم و در B5 فرمول LN را وارد می کنیم (رده "ریاضی"). به عنوان استدلال، ما به B2 اشاره می کنیم. تکمیل خودکار فرمول را به ردیف پنجم سلول های B5-K5 گسترش می دهد. سپس در سلول F12 برچسب "Power" را تنظیم می کنیم و در G12 مجاور تابع LINEST را وارد می کنیم که آرگومان های آن داده های تبدیل شده B4-K4 (در قسمت "Measured_value_y") و B5-K5 خواهد بود ( در قسمت "Measured_value_x")، فیلدهای باقی مانده واحد هستند. سپس سلول های G12-H16 را آزاد کنید و F2 و Ctrl+Shift+Enter را فشار دهید. نتیجه R 4 = 0.997716، F 4 = 3494.117، که نشان دهنده یک رگرسیون خوب است. برای یافتن ضرایب معادله رگرسیون b = ã; مکان نما را در J12 قرار دهید و عنوان "a=" را ایجاد کنید، و در K12 مجاور فرمول "=EXP(H12)"، در J13 عنوان "b=" و در K13 فرمول "=G12" را می دهیم. معادله رگرسیون y = 4.90767/x + 7.341268 است.

قدرت 1,993512 1,590799 a= 4,90767
0,033725 0,023823 b= 7,341268
0,997716 0,074163
3494,117 8
19,21836 0,044002

بیایید بررسی کنیم که آیا تمام معادلات به اندازه کافی داده ها را توصیف می کنند. برای این کار باید آمار F هر معیار را با یک مقدار بحرانی مقایسه کنید. برای بدست آوردن آن، در A21 امضای "F-critical" و در B21 تابع FDISP را وارد می کنیم که آرگومان های آن را به ترتیب "0.05" (سطح اهمیت)، "1" (تعداد فاکتورهای X در خط) وارد می کنیم. "سطح اهمیت 1") و "8" (درجه آزادی 2 = n - 2). نتیجه 5.317655 است. F - بحرانی بیشتر از آمار F - به معنای مناسب بودن مدل است. بقیه رگرسیون ها نیز کافی هستند. به منظور تعیین اینکه کدام مدل داده ها را به بهترین شکل توصیف می کند، شاخص های تعیین را برای هر مدل R 1 , R 2 , R 3 , R 4 مقایسه می کنیم. بزرگترین R4 = 0.997716 است. این بدان معنی است که بهتر است داده های تجربی را به صورت y = 4.90767/x + 7.341268 توصیف کنیم.

نتیجه گیری: در طول کارم بر روش های ساخت انواع اصلی معادلات رگرسیون زوج غیرخطی با کمک کامپیوتر (مدل های خطی داخلی) مسلط شدم، نحوه بدست آوردن و تجزیه و تحلیل شاخص های کیفی معادلات رگرسیون را آموختم.

Y 0,3 1,2 2,8 5,2 8,1 11 16,8 16,9 24,7 29,4
ایکس 0,25 0,5 0,75 1 1,25 1,5 1,75 2 2,25 2,5
1/x 4 2 1,333333 1 0,8 0,666667 0,571429 0,5 0,444444 0,4
در سال -1,20397 0,182322 1,029619 1,648659 2,0918641 2,397895 2,821379 2,827314 3,206803 3,380995
ln x -1,38629 -0,69315 -0,28768 0 0,2231436 0,405465 0,559616 0,693147 0,81093 0,916291
خطی 12,96 -6,18 غرفه دار 1,824212 -0,67 a= 0,511707
1,037152 1,60884 0,225827 0,350304 b= 6,197909
0,951262 2,355101 0,89079 0,512793
156,1439 8 65,25304 8
866,052 44,372 17,15871 2,103652
هذلولی -6,25453 18,96772 قدرت 1,993512 1,590799 a= 4,90767
2,321705 3,655951 0,033725 0,023823 b= 7,341268
0,475661 7,724727 0,997716 0,074163
7,257293 8 3494,117 8
433,0528 477,3712 19,21836 0,044002
F - بحرانی 5,317655

آزمایشگاه شماره 5

رگرسیون چند جمله ای

هدف: بر اساس داده های تجربی، یک معادله رگرسیونی به شکل y \u003d ax 2 + bx + c بسازید.

پیش رفتن:

وابستگی عملکرد یک محصول خاص y i به مقدار کود معدنی х i وارد شده به خاک در نظر گرفته شده است. فرض بر این است که این وابستگی درجه دوم است. لازم است یک معادله رگرسیونی به شکل ỹ = ax 2 + bx + c پیدا کنید.

ایکس 0 1 2 3 4 5 6 7 8 9
y 29,8 58,8 72,2 101,5 141 135,1 156,6 181,7 216,6 208,2

بیایید این داده ها را به همراه امضا در سلول های A1-K2 در یک صفحه گسترده وارد کنیم. بیایید یک نمودار بسازیم. برای انجام این کار، داده های Y (سلول های B2-K2) را دور بزنید، با جادوگر نمودار تماس بگیرید، نوع نمودار "Graph" را انتخاب کنید، نوع نمودار یک نمودار با نقطه است (دوم از بالا سمت چپ)، روی "بعدی" کلیک کنید، بروید. به برگه "Series" و در "X-Axis Labels" پیوندی به B2-K2 ایجاد کنید، روی "Finish" کلیک کنید. نمودار را می توان با چند جمله ای درجه 2 y \u003d ax 2 + bx + c تقریب زد. برای پیدا کردن ضرایب a، b، c، باید سیستم معادلات را حل کنید:

بیایید مبالغ را محاسبه کنیم. برای انجام این کار، در سلول A3، امضای "X ^ 2" را وارد کنید، و در B3 فرمول "= B1 * B1" را وارد کنید و تکمیل خودکار آن را به کل خط B3-K3 منتقل کنید. در سلول A4، امضای "X ^ 3" را وارد کنید، و در B4 فرمول "= B1 * B3" و تکمیل خودکار آن را به کل خط B4-K4 منتقل کنید. در سلول A5، "X ^ 4" و در B5 فرمول "= B4 * B1" را وارد کنید، خط را به طور خودکار تکمیل کنید. در سلول A6، "X * Y" را وارد کنید، و در B8 فرمول "= B2 * B1" را وارد کنید، خط را به طور خودکار پر کنید. در سلول A7، "X ^ 2 * Y" را وارد کنید، و در B9 فرمول "= B3 * B2" را وارد کنید، خط را به طور خودکار تکمیل کنید. حالا مقادیر را حساب می کنیم. با کلیک بر روی عنوان و انتخاب رنگ، ستون L را با رنگی دیگر مشخص کنید. مکان نما را در سلول L1 قرار می دهیم و با کلیک بر روی دکمه autosum با نماد ∑ مجموع ردیف اول را محاسبه می کنیم. تکمیل خودکار فرمول را به سلول های L1-710 منتقل می کند.

اکنون سیستم معادلات را حل می کنیم. برای این کار ماتریس اصلی سیستم را معرفی می کنیم. در سلول A13 امضای "A =" را وارد می کنیم و در سلول های ماتریس B13-D15 پیوندهای منعکس شده در جدول را وارد می کنیم.

ب سی D
13 =L5 =L4 =L3
14 =L3 =L2 =L1
15 =L2 =L1 =9

همچنین قسمت های مناسب سیستم معادلات را معرفی می کنیم. در G13 ما امضای "B =" را وارد می کنیم و در H13-H15 به ترتیب پیوندهایی به سلول های "=L7"، "=L6"، "=L2" وارد می کنیم. سیستم را با روش ماتریس حل می کنیم. از ریاضیات بالاتر مشخص می شود که جواب برابر با A -1 B است. ماتریس معکوس را پیدا می کنیم. برای انجام این کار، در سلول J13، امضای "A arr" را وارد کنید. و با قرار دادن مکان نما در K13، فرمول MIND (دسته "ریاضی") را تنظیم می کنیم. به عنوان آرگومان "آرایه" به سلول های B13 ارجاع می دهیم: D15. نتیجه نیز باید یک ماتریس 4x4 باشد. برای دریافت آن، سلول های K13-M15 را با ماوس حلقه کنید، آنها را انتخاب کنید و F2 و Ctrl + Shift + Enter را فشار دهید. نتیجه ماتریس A -1 است. حال اجازه دهید حاصل ضرب این ماتریس و ستون B (سلول های H13-H15) را پیدا کنیم. عنوان "ضرایب" را در سلول A18 وارد می کنیم و در B18 تابع MULTIPLE (دسته "ریاضی") را تنظیم می کنیم. آرگومان های تابع "آرایه 1" ارجاع به ماتریس A -1 (سلول های K13-M15) است و در قسمت "آرایه 2" پیوندی به ستون B (سلول های H13-H16) می دهیم. بعد، B18-B20 را انتخاب کنید و F2 و Ctrl+Shift+Enter را فشار دهید. آرایه حاصل ضرایب معادله رگرسیون a,b,c است. در نتیجه، یک معادله رگرسیون به شکل به دست می آوریم: y \u003d 1.201082x 2 - 5.619177x + 78.48095.

بیایید نمودارهای داده های اولیه و آن هایی که بر اساس معادله رگرسیون به دست آمده را رسم کنیم. برای انجام این کار، در سلول A8 امضای "Regression" را وارد می کنیم و در B8 فرمول "=$B$18*B3+$B$19*B1+$B$20" را وارد می کنیم. تکمیل خودکار فرمول را به سلول های B8-K8 منتقل می کند. برای ساخت یک نمودار، سلول های B8-K8 را انتخاب کنید و با نگه داشتن کلید Ctrl، سلول های B2-M2 را نیز انتخاب کنید. ما جادوگر نمودار را صدا می زنیم، نوع نمودار "نمودار" را انتخاب می کنیم، نوع نمودار یک نمودار با نقطه است (دوم از بالا سمت چپ)، روی "بعدی" کلیک کنید، به برگه "Series" بروید و در "برچسب های محور X". فیلد پیوندی به B2-M2 ایجاد کنید، روی «آماده» کلیک کنید. می توان دید که منحنی ها تقریباً منطبق هستند.

نتیجه‌گیری: در فرآیند کار، از داده‌های تجربی یاد گرفتم که یک معادله رگرسیون به شکل y \u003d ax 2 + bx + c بسازم.





چگالی توزیع تجربی یک متغیر تصادفی تجزیه و تحلیل شده و محاسبه ویژگی های آن. ما محدوده داده های موجود را تعیین می کنیم. تفاوت بین بزرگترین و کوچکترین مقادیر نمونه (R = Xmax - Xmin): انتخاب تعداد فواصل گروه بندی k با تعداد مشاهدات n<100 – ориентировочное значение интервалов можно рассчитать с использованием формулы Хайнхольда и Гаеде: ...

داده ها، می توان به طور قابل اعتمادی در مورد روابط آماری موجود بین متغیرهای مورد بررسی در این آزمایش قضاوت کرد. تمام روش های تجزیه و تحلیل ریاضی و آماری به طور مشروط به اولیه و ثانویه تقسیم می شوند. روش ها اولیه نامیده می شوند که با کمک آنها می توان شاخص هایی را به دست آورد که مستقیماً نتایج اندازه گیری های انجام شده در آزمایش را منعکس می کند. بر این اساس تحت ...

پردازنده های عمومی (به عنوان مثال، در Excel، Lotus 1-2-3، و غیره)، و همچنین در برخی از پایگاه های داده. بسته های آماری غربی (SPSS، SAS، BMDP، و غیره) دارای ویژگی های زیر هستند: آنها امکان پردازش حجم عظیمی از داده ها را می دهند. شامل ابزارهایی برای توصیف وظایف در زبان داخلی است. آنها امکان ساخت سیستم های پردازش اطلاعات را برای کل شرکت ها بر اساس آنها فراهم می کنند. اجازه...



دوره ماساژ و 1-2 ماه پس از آن. 1.2 اشکال ماساژ درمانی شکل تاثیر ماساژ درمانی به کلی و خاص تقسیم می شود. این فرم ها مشخصه همه انواع و روش های ماساژ است. ماساژ خصوصی و عمومی می تواند توسط ماساژور به صورت ماساژ متقابل، زوجی یا خود ماساژ انجام شود. 1.2.1 ماساژ عمومی ماساژ عمومی چنین جلسه ماساژی است (صرف نظر از ...

ایکس 0 1 2 3 4 5 6 7 8 9
y 29,8 58,8 72,2 101,5 141 135,1 156,6 181,7 216,6 208,2
X^2 0 1 4 9 16 25 36 49 64 81
X^3 0 1 8 27 64 125 216 343 512 729
X^4 0 1 16 81 256 625 1296 2401 4096 6561
X*Y 0 58,8 144,4 304,5 564 675,5 939,6 1271,9 1732,8 1873,8
X^2*Y 0 58,8 288,8 913,5 2256 3377,5 5637,6 8903,3 13862,4 16864,2
پسرفت. 78,48095 85,30121 94,52364 106,1482 120,175 136,6039 155,435 176,6682 200,3036 226,3412
A= 15333 2025 285 B= 52162,1 یک کشیش 0,003247 -0,03247 0,059524
2025 285 45 7565,3 -0,03247 0,341342 -0,67857
285 45 9 1301,5 0,059524 -0,67857 1,619048
ضریب 1,201082 آ
5,619177

استفاده از MS EXCEL را هنگام آزمایش فرضیه های آماری در مورد مقدار میانگین توزیع در مورد واریانس ناشناخته در نظر بگیرید. محاسبه آمار آزمونتی 0 ، روش "یک نمونه" را در نظر بگیریدتی-test"، مقدار P را محاسبه کنید (P-ارزش).

مطالب این مقاله در ادامه مقاله می باشد. این مقاله مفاهیم اساسی را ارائه می دهد تست فرضیه (صفرو فرضیه جایگزین، آمار آزمون، توزیع مرجع، P-value و غیره.).

مشاوره: برای تست فرضیهدانستن مفاهیم زیر الزامی است:

  • ، و آنها .

فرمول وظیفه.از جانب جمعیتداشتن با ناشناخته μ (mu) و واریانس مجهول گرفته شده است نمونهاندازه n نیاز به بررسی فرضیه آماریدر مورد برابری μ مجهول به مقدار داده شده μ 0 (Eng. استنتاج در میانگین یک جامعه، واریانس ناشناخته).

توجه داشته باشید: لازمه در مورد عادی بودنتوزیع اصلی که از آن نمونه، اختیاری است. اما رعایت شرایط درخواست الزامی است .

بیایید اول آن را انجام دهیم تست فرضیهاستفاده كردن فاصله اطمینانو سپس با استفاده از روش تی-تست.در پایان محاسبه می کنیم مقدار pو همچنین از آن استفاده کنید تست فرضیه.

فرضیه صفر را بگذارید H 0 بیان می کند که مجهول است منظور داشتنتوزیع μ برابر μ 0 است. مربوط فرضیه جایگزین H 1 برعکس را بیان می کند: μ برابر μ 0 نیست. این یک مثال است تایید دوجانبه، زیرا مقدار مجهول می تواند بزرگتر یا کمتر از μ 0 باشد.

پس ساده شده تست فرضیهشامل مقایسه 2 مقدار است: محاسبه شده بر اساس میانگین نمونه X رجوع کنید بهو μ 0 داده می شود. اگر این مقادیر "بیشتر از آنچه که به طور تصادفی انتظار می رود متفاوت است"، پس فرضیه صفررد کردن

بیایید این جمله را توضیح دهیم که "آنها بیشتر از آنچه که بر اساس شانس انتظار می رود متفاوت هستند." برای انجام این کار، به یاد داشته باشید که توزیع میانگین نمونه (آمار X رجوع کنید به) تمایل دارد توزیع نرمالشرکت میانگینμ و انحراف معیاربرابر σ/√n، جایی که σ است انحراف معیارتوزیع که از آن نمونه(لازم نیست طبیعی) و n حجم است نمونه ها(برای جزئیات مراجعه کنید).

متاسفانه در مورد ما پراکندگیو بنابراین، انحراف معیار، ناشناخته هستند، بنابراین به جای آن از تخمین آن استفاده خواهیم کرد - s 2 و بر این اساس، انحراف استاندارد نمونهس

معلوم است که اگر به جای مجهول پراکندگیتوزیع σ 2 استفاده می کنیم واریانس نمونه s 2، سپس توزیع آمار X رجوع کنید بهبا n-1 است میزان آزادی.

بنابراین، دانش توزیع آمار X رجوع کنید بهو با توجه به، به ما اجازه می دهد تا با استفاده از عبارات ریاضی، عبارت "بیشتر از آنچه که بر اساس شانس انتظار می رود متفاوت است" رسمی کنیم.

این به ما کمک خواهد کرد فاصله اطمینان(چگونه باید ساخت فاصله اطمینانما از مقاله می دانیم). اگر یک میانگین نمونهداخل شدن به فاصله اطمینان،با توجه به μ 0، سپس برای انحراف ساخته شده است فرضیه صفرهیچ زمینه ای وجود ندارد اگه نخورد پس فرضیه صفررد شد.

بیایید از عبارت برای استفاده کنیم فاصله اطمینان، که در مقاله دریافت کردیم.

به یاد بیاورید که فاصله اطمینانمعمولاً با تعداد تعیین می شود انحراف معیارکه در آن قرار می گیرند. در مورد ما، به عنوان انحراف معیارگرفته شده است خطای استاندارد s/√n.

تعداد انحراف معیاربستگی به کمیت دارد درجه آزادیاستفاده شده توزیع های tو سطح معناداری α (آلفا).

برای تجسم تست فرضیهروش فاصله اطمیناندر ایجاد شده .

توجه داشته باشید: فهرست مقالات در مورد تست فرضیهدر مقاله داده شده است.

آزمون t

در زیر روش کار آمده است تست فرضیهدر صورت ناشناخته بودن پراکندگی. این روش نامیده می شود تی-تست:

در MS EXCEL بالا α /2-چندکبا فرمول محاسبه می شود
=STUDENT.INR(1- α /2; n-1)

با توجه به تقارن t- توزیعدر مورد محور y، بالا α /2-چندکبرابر با معمول α /2-چندکبا علامت منفی:
=-STUDENT.OBR( α /2; n-1)

همچنین در MS EXCEL فرمول خاصی برای محاسبه وجود دارد چندک های دو طرفه:
=STUDENT.INR.2X( α ; n-1)
هر سه فرمول نتیجه یکسانی را نشان خواهند داد.

توجه داشته باشید: بیشتر در مورد چندکتوزیع ها را می توان در مقاله یافت.

توجه داشته باشید: اگر به جای t- توزیعاستفاده کنید استاندارد توزیع نرمال, سپس ما به طور غیر منطقی باریک تر می شویم فاصله اطمینان، بنابراین ما اغلب به طور غیر منطقی رد می کنیم فرضیه صفروقتی درست است ( خطای نوع اول را افزایش دهید).

توجه داشته باشید که تفاوت در عرض فواصل به اندازه بستگی دارد نمونه ها n (با کاهش n، تفاوت افزایش می یابد) و از سطح اهمیت(هنگام کاهش α تفاوت افزایش می یابد). برای n=10 و α = 0.01 اختلاف نسبی در عرض فواصل حدود 20٪ است. با حجم نمونه بزرگ n (بیش از 30)، تفاوت در فواصل اغلب نادیده گرفته می شود (برای n=30 و α = 0.01 اختلاف نسبی 6.55٪ است. این ویژگی در تابع Z.TEST() استفاده می شود که محاسبه می کند مقدار p(به زیر مراجعه کنید) با استفاده از توزیع نرمال(آرگمون σ باید حذف شود یا به آن ارجاع داده شود انحراف معیار نمونه ها).

چه زمانی فرضیه یک طرفهما در مورد انحراف μ فقط در یک جهت صحبت می کنیم: یا بیشتر یا کمتر از μ 0 . اگر یک فرضیه جایگزینبه نظر می رسد μ>μ 0، سپس فرضیه H 0 در حالت t 0 > t رد می شود. α ، n-1. اگر یک فرضیه جایگزینصدای مو<μ 0 , то гипотеза Н 0 отвергается в случае t 0 < - t α ، n-1.

محاسبه P-value

در تست فرضیهروش معادل دیگری بر اساس محاسبه پ-ارزش های(p-value).

مشاوره: بیشتر در مورد پ-معنیدر مقاله نوشته شده است.

اگر یک مقدار p، بر اساس محاسبه می شود نمونه ها، کمتر از داده شده است سطح اهمیت α ، سپس فرضیه صفررد و قبول شد فرضیه جایگزین. و بالعکس، اگر مقدار pبیشتر α ، سپس فرضیه صفررد نمی شود.

به عبارت دیگر، اگر مقدار pکمتر سطح اهمیت α ، پس این شواهدی است که ارزش تی- آمار، محاسبه شده بر اساس نمونه هاتابع حقیقت فرضیه صفر، مقدار بعید t 0 را گرفت.

فرمولی برای محاسبه مقادیر pبستگی به جمله بندی دارد فرضیه جایگزین:

  • برای فرضیه یک طرفه μ<μ 0 مقدار pبه عنوان محاسبه می شود =STUDENT.DIST(t 0 , n-1, TRUE)
  • برای دیگری فرضیه یک طرفه μ>μ 0 مقدار pبه عنوان محاسبه می شود =1-STUDENT.DIST(t 0 ; n-1; TRUE)
  • برای فرضیه دو طرفه مقدار pبه عنوان محاسبه می شود =2*(1-STUDENT.DIST(ABS(t 0)،n-1، TRUE))

بر این اساس، t0 =(متوسط( نمونه)-μ 0)/ (STDEV.B( نمونه)/ ROOT(COUNT( نمونه))) ، جایی که نمونه- ارجاع به یک محدوده حاوی مقادیر نمونه ها.

AT فایل نمونه در ورق سیگما ناشناختهمعادل نشان داده شده است تست فرضیهاز طریق فاصله اطمینان, آمار t 0(تی-تست)و پ-معنی.

توجه داشته باشید: هیچ عملکرد تخصصی در MS EXCEL برای وجود ندارد تک نمونه آزمون t. برای n بزرگ، می توانید از تابع Z.TEST() با حذف آرگومان 3 استفاده کنید (برای جزئیات بیشتر در مورد این تابع، به مقاله مراجعه کنید). تابع ()STUDENT.TEST برای .

بررسی اینکه آیا میانگین برابر با یک مقدار مشخص است.

نمونه ها از جامعه ای گرفته شده اند که دارای توزیع نرمال هستند، داده ها مستقل هستند.

مقدار معیار با فرمول محاسبه می شود:

که در آن N حجم نمونه است.

S 2 - واریانس نمونه تجربی.

الف - ارزش تخمینی مقدار متوسط؛

X مقدار متوسط ​​است.

تعداد درجات آزادی برای آزمون t V = n-1.

صفر فرضیه جدید

H 0: X \u003d A در مقابل H A: X≠A. فرضیه صفر در مورد برابری میانگین ها رد می شود اگر قدر مطلق مقدار معیار بزرگتر از α/2% بالای نقطه توزیع t با درجه آزادی V باشد، یعنی زمانی که │t│ > t vα/2.

H 0: X< А против Н А: X >الف. اگر مقدار معیار از نقطه α درصد بالایی توزیع t که با درجه آزادی V گرفته شده است، بیشتر باشد، فرضیه صفر رد می شود، یعنی زمانی که │t│> t vα باشد.

H 0: X>A در مقابل H A: X< А. Нулевая гипотеза отвергается, если критериальное значение меньше нижней α% точки t-распределения, взятого с V степенями свободы.

این معیار برای انحرافات کوچک از توزیع نرمال پایدار است.

مثال

مثال نشان داده شده در شکل را در نظر بگیرید. 5.10. فرض کنید که باید این فرضیه را آزمایش کنیم که میانگین نمونه (سلول‌های 123:130) برابر با 012/0 است.

ابتدا میانگین نمونه (=AVERAGE(123:130) در I31) و واریانس (=VAR(I23:I30) در I32) را پیدا می کنیم. پس از آن، مقادیر معیارهای (=(131-0.012)*ROOT(133)/132) و بحرانی (=STEUDRASP(0.025;133-1)) را محاسبه می کنیم. از آنجایی که مقدار معیار (64/24) از مقدار بحرانی (84/2) بیشتر است، فرضیه برابری میانگین 012/0 رد می شود.

شکل 5.10 مقایسه مقدار میانگین با ثابت

1. آزمون فرضیه ها در مورد میانگین و واریانس با استفاده از آزمون پارامتری فیشر و کوکران (جدول 5.4).

2. فرضیه برابری میانگین ها را با واریانس های نابرابر نمونه ها آزمایش کنید (برای انجام این کار، 1 یا 2 مقدار را در یکی از نمونه های نسخه خود حذف کنید) (جدول 5.4).

3. این فرضیه را که میانگین برابر با مقدار داده شده A است (جدول 5.5) و داده های ستون 1 را برای متغیر بررسی کنید.

جدول 5.4

گزینه های وظیفه

داده های آزمایشی
گزینه
2,3 2,6 2,2 2,1 2,5 2,6
1,20 1,42 17,3 23,5 2,37 2,85 35,2 26,1 2,1 2,6
5,63 5,62 26,1 27,0 5,67 2,67 35,9 25,8 5,1 5,63
2,34 2,37 23,9 23,3 2,35 2,34 33,6 23,8 2,34 2,38
7,71 7,90 28,0 25,2 2,59 2,58 35,7 26,0 7,63 7,6,1
1,2 1,6 1,7 2,6 1,9 2,8
1,13 1,15 21,6 21,2 2,13 2,16 31,7 1,12 1,12
1,45 1,47 24,7 24,8 2,45 2,47 34,8 24,5 1,49 1,45
3,57 3,59 25,9 25,7 2,55 2,59 36,0 25,7 3,58 3,58
3,3 3,6 2,5 2,4 3,4 3,5
داده های آزمایشی
گزینه
7,3 7,6 12,2 12,1 3,5 4,6
6,20 6,42 217,3 230,5 12,37 12,85 75,2 86,1 3,1 4,6
7,63 5,62 264,1 278,0 15,67 14,67 75,9 75,8 5,1 5,63
6,34 5,37 233,9 236,3 12,35 12,34 73,6 73,8 3,34 4,38
7,71 7,90 281,0 255,2 12,59 12,58 85,7 86,0 3,63 4,6,1
6,2 6,6 11,7 12,6 3,9 4,8
4,13 4,15 251,6 261,2 12,13 12,16 71,7 5,12 4,12
5,45 6,47 244,7 247,8 12,45 12,47 74,8 84,5 3,49 4,45
5,57 5,59 250,9 255,7 12,55 12,59 86,0 85,7 3,58 3,58
5,3 5,6 12,5 12,4 3,4 3,5

جدول 5.5

یک ارزش

گزینه ها
2,2 2,2 2,2 6,5 12,2 3,5

می توانید از داده های آزمایشی خود به عنوان داده های اولیه در کار استفاده کنید.

گزارش باید حاوی محاسباتی از مشخصات آماری باشد.

سوالات تستی:

1. چی وظایف آماریدر مطالعه فرآیندهای تکنولوژیکی تولید حل می شوند صنایع غذایی?

2. چگونه آمار مقایسه می شود متغیرهای تصادفی?

3. سطح اهمیت و سطح اطمینانبا پایایی ارزیابی داده های تجربی.

4. فرضیه های آماری چگونه با استفاده از آزمون های برازش برازش می شوند؟

5. چه چیزی قدرت معیار خوب بودن برازش را برای تجزیه و تحلیل نمونه های آزمایشی تعیین می کند؟

6. انتخاب یک معیار برای حل مشکلات تجزیه و تحلیل فرآیندهای تکنولوژیکی تولید مواد غذایی چگونه انجام می شود؟

7. طبقه بندی معیارهای توافق برای تجزیه و تحلیل نمونه های نتایج مطالعات فرآیندهای تکنولوژیکی تولید مواد غذایی چگونه انجام می شود؟

8. الزامات نمونه برداری از نتایج تحقیقات در مورد فرآیندهای تکنولوژیکی برای تولید مواد غذایی چیست؟

8.1. مفهوم نمونه های وابسته و مستقل.

انتخاب معیار برای آزمون فرضیه

در درجه اول با وابسته بودن یا مستقل بودن نمونه های مورد بررسی تعیین می شود. اجازه دهید تعاریف مربوطه را معرفی کنیم.

Def.نمونه ها نامیده می شوند مستقلدر صورتی که روش انتخاب واحدها در نمونه اول به هیچ وجه با روش انتخاب واحد در نمونه دوم مرتبط نباشد.

نمونه ای از دو نمونه مستقل، نمونه های فوق الذکر از مردان و زنان شاغل در یک شرکت (در یک صنعت و غیره) است.

توجه داشته باشید که مستقل بودن دو نمونه به معنای عدم نیاز به نوع خاصی از شباهت این نمونه ها (همگن بودن آنها) نیست. بنابراین، با مطالعه سطح درآمد مردان و زنان، بعید است که اجازه دهیم چنین وضعیتی زمانی که مردان از محیط بازرگانان مسکو و زنان از بومیان استرالیا انتخاب می شوند. زنان همچنین باید مسکووی و علاوه بر این، "زنان تجاری" باشند. اما در اینجا ما در مورد وابستگی نمونه ها صحبت نمی کنیم، بلکه در مورد نیاز به همگنی مجموعه اشیاء مورد مطالعه است که باید هم در جمع آوری و هم در تجزیه و تحلیل داده های جامعه شناختی برآورده شود.

Def.نمونه ها نامیده می شوند وابسته، یا جفت،اگر هر واحد از یک نمونه به واحد خاصی از نمونه دوم "گره خورده" باشد.

اگر مثالی از نمونه‌های وابسته ارائه کنیم، احتمالاً آخرین تعریف واضح‌تر خواهد شد.

فرض کنید می‌خواهیم بفهمیم که آیا وضعیت اجتماعی پدر به طور متوسط ​​از وضعیت اجتماعی پسر پایین‌تر است (ما معتقدیم که می‌توانیم این ویژگی اجتماعی پیچیده و مبهم یک فرد را اندازه‌گیری کنیم). بدیهی به نظر می رسد که در چنین شرایطی، انتخاب جفت پاسخ دهندگان (پدر، پسر) و فرض این که هر عنصر از نمونه اول (یکی از پدران) به عنصر خاصی از نمونه دوم «پیوند» است، مصلحت است. فرزند پسر). این دو نمونه وابسته نامیده خواهند شد.

8.2. آزمون فرضیه برای نمونه های مستقل

برای مستقلانتخاب معیار بستگی به این دارد که آیا واریانس های کلی s 1 2 و s 2 2 ویژگی مورد نظر برای نمونه های مورد مطالعه را می دانیم یا خیر. ما این مشکل را حل شده در نظر می گیریم، با این فرض که واریانس های نمونه با واریانس های عمومی مطابقت دارند. در این مورد، معیار مقدار است:

قبل از شروع به بحث در مورد وضعیتی که واریانس های کلی (یا حداقل یکی از آنها) برای ما ناشناخته است، موارد زیر را متذکر می شویم.

منطق استفاده از معیار (8.1) مشابه چیزی است که توسط ما در هنگام در نظر گرفتن معیار "Chi-square" (7.2) توضیح داده شد. فقط یکی هست تفاوت اساسی. در مورد معنای معیار (7.2)، تعداد نامتناهی نمونه با اندازه n را در نظر گرفتیم که از جمعیت عمومی ما "scooped" شده است. در اینجا با تجزیه و تحلیل معنای معیار (8.1) به بررسی یک عدد نامتناهی می پردازیم. بخارنمونه هایی با سایز n 1 و n 2 . برای هر جفت و آماری از فرم (8.1) محاسبه می شود. مجموعه مقادیر به دست آمده از چنین آماری، مطابق با نماد ما، با توزیع نرمال مطابقت دارد (همانطور که توافق کردیم، از حرف z برای تعیین چنین معیاری استفاده می شود که با توزیع نرمال مطابقت دارد).

بنابراین، اگر واریانس‌های کلی برای ما ناشناخته باشند، مجبوریم به جای آن از تخمین‌های نمونه آنها s 1 2 و s 2 2 استفاده کنیم. با این حال، در این مورد، توزیع نرمال باید با توزیع دانش آموز جایگزین شود - z باید با t جایگزین شود (همانطور که در وضعیت مشابهی در هنگام ایجاد فاصله اطمینان برای انتظارات ریاضی رخ داد). با این حال، همانطور که قبلاً می دانیم، برای اندازه های نمونه به اندازه کافی بزرگ (n 1، n 2 ³ 30)، توزیع دانش آموز عملاً با توزیع عادی منطبق است. به عبارت دیگر، با نمونه های بزرگ، می توانیم به استفاده از معیار ادامه دهیم:

وضعیت زمانی پیچیده تر می شود که هر دو واریانس ناشناخته باشند و اندازه حداقل یک نمونه کوچک باشد. سپس عامل دیگری وارد عمل می شود. نوع معیار بستگی به این دارد که آیا بتوانیم واریانس های مجهول ویژگی در نظر گرفته شده را در دو نمونه تحلیل شده برابر در نظر بگیریم. برای اینکه بفهمیم باید این فرضیه را آزمایش کنیم:

H 0: s 1 2 = s 2 2 . (8.3)

برای آزمون این فرضیه از معیار استفاده شده است

در ادامه به ویژگی های استفاده از این معیار پرداخته می شود و اکنون به بررسی الگوریتم انتخاب معیاری می پردازیم که از انتظارات ریاضی برای آزمون فرضیه های برابری استفاده می کند.

اگر فرضیه (8.3) رد شود، معیار مورد علاقه ما به شکل زیر است:

(8.5)

(یعنی، با آزمون (8.2) مورد استفاده برای نمونه های بزرگ تفاوت دارد، زیرا آمار مربوطه دارای توزیع نرمال نیست، بلکه دارای توزیع دانشجویی است). اگر فرضیه (8.3) پذیرفته شود، نوع معیار مورد استفاده تغییر می کند:

(8.6)

اجازه دهید نحوه انتخاب معیار برای آزمون فرضیه برابری انتظارات ریاضی عمومی را بر اساس تجزیه و تحلیل دو نمونه مستقل، خلاصه کنیم.

شناخته شده

ناشناس

حجم نمونه بزرگ است

H 0: s 1 = s 2 رد می شود

پذیرفته شده

8.3. آزمون فرضیه برای نمونه های وابسته

بیایید به بررسی نمونه های وابسته برویم. اجازه دهید دنباله ای از اعداد

X 1 , X 2 , … , X n ;

Y 1 , Y 2 , … , Y n –

این مقادیر تصادفی در نظر گرفته شده برای عناصر دو نمونه وابسته است. بیایید نماد را معرفی کنیم:

D i = X i - Y i، i = 1، ...، n.

برای وابستهمعیار نمونه گیری که به شما امکان می دهد یک فرضیه را آزمایش کنید

به شرح زیر است:

توجه داشته باشید که عبارت تازه داده شده برای s D چیزی نیست جز یک عبارت جدید برای فرمول معروف که انحراف معیار را بیان می کند. در این مورد، ما در مورد انحراف استاندارد مقادیر D i صحبت می کنیم. چنین فرمولی اغلب در عمل به عنوان روشی ساده تر (در مقایسه با محاسبه "جلو" مجموع انحرافات مجذور مقادیر مقدار در نظر گرفته شده از میانگین حسابی مربوطه) برای محاسبه واریانس استفاده می شود.

اگر فرمول های فوق را با فرمول هایی که هنگام بحث در مورد اصول ساخت فاصله اطمینان استفاده کردیم مقایسه کنیم، به راحتی می توان دریافت که آزمون فرضیه برابری میانگین ها برای نمونه های وابسته اساساً آزمون برابری انتظارات ریاضی است. از مقادیر D i تا صفر. ارزش

انحراف استاندارد برای D i است. بنابراین، مقدار معیار t n -1 که توضیح داده شد اساساً برابر است با مقدار D i که در کسری از میانگین بیان شده است. انحراف معیار. همانطور که در بالا گفتیم (هنگام بحث در مورد راه های ساخت فاصله اطمینانبا توجه به این شاخص، می توان در مورد احتمال مقدار در نظر گرفته شده D i قضاوت کرد. تفاوت این است که در بالا در مورد یک میانگین حسابی ساده صحبت کردیم که به طور معمول توزیع شده است، و در اینجا ما در مورد تفاوت میانگین صحبت می کنیم، چنین میانگین هایی دارای توزیع Student است. اما استدلال در مورد رابطه بین احتمال انحراف میانگین حسابی نمونه از صفر (برای انتظارات ریاضی، برابر با صفر) با چند واحد s این انحراف، معتبر باقی می ماند.

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...