تحلیل واریانس یک طرفه. تحلیل واریانس یک طرفه فیشر

فرض کنید در یک خط اتوماتیک، چندین ماشین عملیات مشابهی را به صورت موازی انجام دهند. برای برنامه ریزی مناسب برای پردازش بعدی، مهم است که بدانیم میانگین ابعاد قطعات به دست آمده در ماشین های موازی چقدر یکنواخت است. تنها یک عامل بر اندازه قطعات تاثیر می گذارد و آن ماشین هایی است که آنها بر روی آن ساخته می شوند. باید دریابید که تأثیر این عامل بر ابعاد قطعات چقدر قابل توجه است. اجازه دهید فرض کنیم که مجموعه ای از اندازه های قطعات ساخته شده در هر ماشین توزیع نرمالو واریانس های مساوی

ما m ماشین داریم، بنابراین، m مجموع یا سطوحی که در آنها n 1 , n 2 ,... n t مشاهدات. برای سادگی استدلال، اجازه دهید این را فرض کنیم n 1 \u003d n 2 \u003d ... \u003dو غیره ابعاد قطعات تشکیل دهنده n منمشاهدات در منسطح -ام، x i 1، x را نشان دهید من 2،...، x در. سپس تمام مشاهدات را می توان در قالب یک جدول نشان داد که به آن ماتریس مشاهدات می گویند (جدول 3.1).

جدول 3.1

سطوح نتایج مشاهده
1 2 j n
ایکس 11 ایکس 12 x 1 j x 1 n
ایکس 21 ایکس 22 x 2 j x 2 n
ایکس 31 ایکس 32 x 3 j x 3 n
من x i1 x i2 x i j x i n
متر x m1 x m2 x mj xmn

ما فرض می کنیم که برای منسطح - n مشاهدات دارای میانگین هستند βi, برابر با مجموعمیانگین کلی μ و تغییرات آن به دلیل من-مین سطح عامل، یعنی. βi = µ + γ i. سپس یک مشاهده را می توان به صورت زیر نشان داد:

x i j = µ + γ i. +ε ij= βi +εij (3.1)

که در آن µ میانگین کلی است. γ i- اثر ناشی از من-مین سطح عامل؛ εij- تنوع نتایج در یک سطح خاص.

عضو εijتأثیر همه عواملی را که توسط مدل (3.1) در نظر گرفته نشده است، مشخص می کند. با توجه به مشکل کلی تجزیه و تحلیل پراکندگی، ارزیابی اهمیت تأثیر عامل γ بر ابعاد قطعات ضروری است. کل تغییرات یک متغیر x i jرا می توان به بخش هایی تجزیه کرد که یکی از آنها تأثیر عامل γ را مشخص می کند ، دیگری - تأثیر عوامل نامشخص. برای انجام این کار، باید یک تخمین برای میانگین کلی میکرو و یک تخمین برای میانگین‌های بیش از سطوح پیدا کرد. βi. بدیهی است که ارزیابی β میانگین حسابی n مشاهده سطح i است، یعنی.

یک ستاره در شاخص x به این معنی است که مشاهدات در سطح i-ام ثابت هستند. میانگین حسابی کل مجموعه مشاهدات تخمینی از میانگین کلی μ است، یعنی.

مجموع انحرافات مجذور را بیابید x i jاز، یعنی

ما آن را به شکل (3.2) نشان می دهیم.

و =

ولی = 0، زیرا این مجموع انحرافات متغیرهای یک جامعه از میانگین حسابی همان جامعه است، یعنی. مجموع کل صفر است جمله دوم جمع (3.2) را به شکل زیر می نویسیم:



یا

این عبارت مجموع مجذور اختلاف بین سطوح میانگین و میانگین کل مجموعه مشاهدات است. این مجموع مجموع انحرافات مجذور بین گروه ها نامیده می شود و تفاوت بین سطوح را مشخص می کند. مقدار، همچنین پراکندگی توسط عوامل، یعنی. پراکندگی ناشی از عامل مورد مطالعه.

این عبارت مجموع مجذور اختلاف بین مشاهدات فردی و میانگین سطح i است. این مجموع مجموع انحرافات مجذور درون گروه نامیده می شود و تفاوت بین مشاهدات سطح i را مشخص می کند. به این مقدار، پراکندگی باقیمانده نیز گفته می شود. پراکندگی ناشی از عوامل نامشخص

مقدار مجموع یا مجموع مجذور انحراف مشاهدات فردی از میانگین کل نامیده می شود.

با دانستن مجموع مربع های SS، SS 1 و SS 2، می توان تخمین های بی طرفانه واریانس های مربوطه - کل، بین گروهی و درون گروهی را تخمین زد (جدول 3.2).

اگر تأثیر همه سطوح عامل γ یکسان باشد، واریانس کل تخمین زده می شود.

سپس، برای ارزیابی اهمیت تأثیر عامل γ، کافی است فرضیه صفر H 0: = را آزمایش کنیم.

برای انجام این کار، معیار فیشر F B = را با تعداد درجات آزادی k 1 = m - 1 و k 2 = m (n - 1) محاسبه کنید. سپس، با توجه به جدول توزیع F (به جدول توزیع معیار فیشر مراجعه کنید)، برای سطح معنی‌داری α، مقدار بحرانی F cr پیدا می‌شود.

جدول 3.2

اگر F B > F cr باشد، فرضیه صفر رد می‌شود و نتیجه‌گیری در مورد تأثیر معنی‌دار عامل γ حاصل می‌شود.

در F B< F кр нет основания отвергать нулевую гипотезу и можно считать, что влияние фактора γ несущественно.



با مقایسه واریانس های بین گروهی و باقیمانده، از بزرگی نسبت آنها برای قضاوت در مورد اینکه چقدر تأثیر عوامل آشکار می شود استفاده می شود.

مثال 3.1. چهار دسته پارچه لباس کار وجود دارد. پنج نمونه از هر دسته انتخاب شد و آزمایش‌هایی برای تعیین مقدار بار شکست انجام شد. نتایج آزمون در جدول آورده شده است. 3.3.

جدول 3.3

شماره دسته، t

باید مشخص شود که آیا تأثیر دسته های مختلف مواد خام بر میزان بار شکست قابل توجه است یا خیر.

راه حل.

در این مورد، m = 4، n = 5. میانگین حسابی هر ردیف با فرمول محاسبه می شود.

داریم: =(200+140+170+145+165)/5=164; =170; =202; = 164.

میانگین حسابی کل جامعه را پیدا کنید:

اجازه دهید مقادیر لازم برای ساخت جدول را محاسبه کنیم. 3.4:

مجموع مجذور انحرافات بین گروه های SS 1، با k 1 =t –1=

4-1=3 درجه آزادی:

مجموع انحرافات مجذور در گروه SS 2 با k 2 = mp - m = = 20-4 = 16 درجه آزادی:

مجموع مجموع مربعات SS با k=mn-1=20-1=19 درجه آزادی:

بر اساس مقادیر یافت شده، واریانس را تخمین می زنیم، با استفاده از فرمول های (جدول 3.2) برای مثال مورد بررسی (جدول 3.4) را ایجاد می کنیم.

جدول 3.4

خرج کنیم تحلیل آماریبا توجه به معیار فیشر. F B \u003d \u003d (4980 1/3) / (7270 1/16) \u003d 1660 / 454.4 \u003d 3.65 را محاسبه کنید.

با توجه به جدول توزیع F (به پیوست ها مراجعه کنید)، مقدار F Kp را در k 2 = 16 پیدا می کنیم و k 1= 3 درجه آزادی و سطح معنی داری α = 0.01. ما F Kp = 5.29 داریم.

مقدار محاسبه شده F B کمتر از مقدار جدول است، بنابراین می توان استدلال کرد که فرضیه صفر رد نمی شود، به این معنی که تفاوت بین بافت ها در دسته ها تأثیری بر بار شکستن ندارد.

در بسته تحلیل داده ها، ابزار Single Factor تحلیل واریانسبرای آزمون فرضیه ای در مورد شباهت میانگین دو یا چند نمونه متعلق به یک نمونه استفاده می شود جمعیت. بیایید کار بسته را برای تحلیل واریانس یک طرفه در نظر بگیریم.

بیایید مثال 3.1 را با استفاده از ابزار ANOVA یک طرفه حل کنیم.

همه مردم به طور طبیعی به دنبال دانش هستند. (ارسطو. متافیزیک)

تحلیل واریانس

نمای کلی مقدماتی

در این بخش، روش ها، مفروضات و اصطلاحات پایه ANOVA را بررسی می کنیم.

توجه داشته باشید که در ادبیات انگلیسی تحلیل واریانس معمولاً آنالیز تنوع نامیده می شود. بنابراین، برای اختصار، در زیر گاهی اوقات از این اصطلاح استفاده خواهیم کرد ANOVA (یکتجزیه و تحلیل o f واریشن) برای ANOVA معمولی و اصطلاح مانوابرای تحلیل واریانس چند متغیره در این بخش، به ترتیب ایده های اصلی تحلیل واریانس ( ANOVAتجزیه و تحلیل کوواریانس ( ANCOVAتجزیه و تحلیل واریانس چند متغیره ( مانوا) و تحلیل کوواریانس چند متغیره ( مانکووا). پس از بحث مختصری در مورد محاسن آنالیز کنتراست و تست های تعقیبی، بیایید به مفروضاتی که روش های ANOVA بر اساس آن ها استوار هستند نگاه کنیم. در پایان این بخش، مزایای رویکرد چند متغیره برای تحلیل اندازه‌گیری‌های مکرر در مقایسه با رویکرد سنتی تک بعدی توضیح داده شده است.

ایده های کلیدی

هدف از تحلیل واریانس.هدف اصلی از تجزیه و تحلیل واریانس، بررسی اهمیت تفاوت بین میانگین ها است. فصل (فصل 8) مقدمه ای کوتاه برای آزمون معناداری آماری ارائه می کند. اگر فقط میانگین دو نمونه را با هم مقایسه کنید، آنالیز واریانس همان نتیجه تجزیه و تحلیل معمولی را خواهد داشت. تی- معیار برای نمونه های مستقل (اگر دو گروه مستقل از اشیا یا مشاهدات مقایسه شوند)، یا تی- معیار برای نمونه های وابسته (اگر دو متغیر بر روی یک مجموعه از اشیاء یا مشاهدات مقایسه شوند). اگر با این معیارها آشنا نیستید، توصیه می کنیم به بررسی مقدماتی فصل مراجعه کنید (فصل 9).

نام از کجا آمده است تحلیل واریانس? ممکن است عجیب به نظر برسد که روش مقایسه میانگین ها آنالیز واریانس نامیده می شود. در واقع، این به این دلیل است که وقتی اهمیت آماری تفاوت بین میانگین ها را بررسی می کنیم، در واقع در حال تجزیه و تحلیل واریانس ها هستیم.

تقسیم مجموع مربع ها

برای اندازه نمونه n، واریانس نمونه به صورت مجذور انحرافات از میانگین نمونه تقسیم بر n-1 (اندازه نمونه منهای یک) محاسبه می شود. بنابراین، برای اندازه نمونه ثابت n، واریانس تابعی از مجموع مربع ها (انحرافات) است که برای اختصار نشان داده می شود. اس اس(از انگلیسی Sum of Squares - Sum of Squares). تجزیه و تحلیل واریانس بر اساس تقسیم (یا تقسیم) واریانس به قطعات است. مجموعه داده زیر را در نظر بگیرید:

میانگین های دو گروه تفاوت معنی داری دارند (به ترتیب 2 و 6). مجموع انحرافات مجذور داخلاز هر گروه 2 می شود. با جمع کردن آنها به 4 می رسیم. اگر اکنون این محاسبات را تکرار کنیم مستثنی کردنعضویت گروه، یعنی اگر محاسبه کنیم اس اسبر اساس میانگین ترکیبی دو نمونه، 28 به دست می آید. به عبارت دیگر، واریانس (مجموع مربعات) بر اساس تنوع درون گروهی مقادیر بسیار کمتری نسبت به زمانی که بر اساس تنوع کل محاسبه می شود (نسبت به کلی) به دست می آورد. منظور داشتن). دلیل این امر بدیهی است که تفاوت معنادار بین میانگین هاست و این تفاوت بین میانگین ها را توضیح می دهد تفاوت موجودبین مجموع مربع ها در واقع، اگر از ماژول استفاده کنیم تحلیل واریانس، نتایج زیر بدست خواهد آمد:

همانطور که از جدول مشخص است، مبلغ کلمربع ها اس اس= 28 به مجموع مربع های به دلیل تقسیم می شود درون گروهیتنوع ( 2+2=4 ; ردیف دوم جدول را ببینید) و مجموع مربع ها به دلیل تفاوت در مقادیر میانگین. (28-(2+2)=24؛ خط اول جدول را ببینید).

اس اس اشتباهات واس اس اثرتنوع درون گروهی ( اس اس) معمولاً واریانس نامیده می شود خطاهااین بدان معنی است که معمولاً نمی توان آن را پیش بینی یا توضیح داد که آزمایشی انجام می شود. از سوی دیگر، اس اس اثر(یا تنوع بین گروهی) را می توان با تفاوت میانگین ها در گروه های مورد مطالعه توضیح داد. به عبارت دیگر تعلق به یک گروه خاص توضیح می دهدتنوع بین گروهی، زیرا می دانیم که این گروه ها ابزارهای مختلفی دارند.

بررسی اهمیتایده های اصلی آزمون برای اهمیت آماری در فصل مورد بحث قرار می گیرد مفاهیم اولیه آمار(فصل 8). همین فصل دلایلی را توضیح می دهد که چرا بسیاری از آزمون ها از نسبت واریانس توضیح داده شده و غیرقابل توضیح استفاده می کنند. نمونه ای از این استفاده، خود آنالیز واریانس است. آزمون اهمیت در ANOVA مبتنی بر مقایسه واریانس ناشی از تغییرات بین گروهی است (به نام میانگین اثر مربعیا ام‌اساثر) و پراکندگی ناشی از گسترش درون گروهی (نامیده می شود میانگین مربعات خطایا ام‌اسخطا). اگر فرضیه صفر درست باشد (برابری میانگین ها در دو جامعه)، به دلیل تنوع تصادفی می توان انتظار تفاوت نسبتاً کمی در میانگین های نمونه داشت. بنابراین، تحت فرض صفر، واریانس درون گروهی عملاً با کل واریانس محاسبه شده بدون در نظر گرفتن عضویت گروه منطبق خواهد شد. واریانس های درون گروهی حاصل را می توان با استفاده از آن مقایسه کرد اف- تستی که بررسی می کند آیا نسبت واریانس به طور قابل توجهی بیشتر از 1 است یا خیر. در مثال بالا، اف- آزمون نشان می دهد که تفاوت بین میانگین ها از نظر آماری معنی دار است.

منطق پایه ANOVA.به طور خلاصه می توان گفت که هدف از تحلیل واریانس، آزمون معناداری آماری تفاوت میانگین ها (برای گروه ها یا متغیرها) است. این بررسی با استفاده از تحلیل واریانس انجام می شود، یعنی. با تقسیم واریانس کل (تغییر) به بخش هایی که یکی از آنها به دلیل خطای تصادفی (یعنی متغیر بودن درون گروهی) است و دومی با تفاوت در مقادیر میانگین همراه است. سپس آخرین مؤلفه واریانس برای تحلیل اهمیت آماری تفاوت بین میانگین ها استفاده می شود. اگر این تفاوت معنی دار باشد، فرض صفر رد می شود و فرض جایگزین که بین میانگین ها تفاوت وجود دارد پذیرفته می شود.

متغیرهای وابسته و مستقلمتغیرهایی که مقادیر آنها با اندازه گیری در طول آزمایش تعیین می شود (مثلاً امتیازی که در یک آزمون به دست می آید) نامیده می شوند. وابستهمتغیرها متغیرهایی که می توانند در یک آزمایش دستکاری شوند (به عنوان مثال، روش های آموزشی یا معیارهای دیگری که به شما امکان می دهد مشاهدات را به گروه ها تقسیم کنید) نامیده می شوند. عواملیا مستقلمتغیرها این مفاهیم با جزئیات بیشتری در فصل توضیح داده شده است مفاهیم اولیه آمار(فصل 8).

تحلیل واریانس چند متغیره

در بالا مثال سادهشما می توانید بلافاصله آزمون t را برای نمونه های مستقل با استفاده از گزینه ماژول مناسب محاسبه کنید آمار و جداول پایهنتایج به دست آمده البته با نتایج تحلیل واریانس منطبق است. با این حال، تجزیه و تحلیل واریانس شامل ابزارهای فنی انعطاف پذیر و قدرتمندی است که می تواند برای مطالعات بسیار پیچیده تر مورد استفاده قرار گیرد.

عوامل زیادیجهان ذاتاً پیچیده و چند بعدی است. موقعیت هایی که برخی از پدیده ها به طور کامل توسط یک متغیر توصیف می شود بسیار نادر است. به عنوان مثال، اگر سعی می کنیم یاد بگیریم چگونه رشد کنیم گوجه فرنگی بزرگ، عوامل مربوط به ساختار ژنتیکی گیاهان، نوع خاک، نور، دما و ... را باید در نظر گرفت. بنابراین، هنگام انجام یک آزمایش معمولی، باید با تعداد زیادی از عوامل دست و پنجه نرم کنید. دلیل اصلی ترجیح استفاده از تحلیل واریانس بر مقایسه مکرر دو نمونه در سطوح مختلف عوامل با استفاده از تی- معیار این است که تحلیل واریانس بیشتر باشد تاثير گذارو برای نمونه های کوچک، آموزنده تر.

مدیریت عاملیبیایید فرض کنیم که در مثال تجزیه و تحلیل دو نمونه ای که در بالا بحث شد، یک عامل دیگر را اضافه می کنیم، به عنوان مثال، کف- جنسیت. بگذارید هر گروه از 3 مرد و 3 زن تشکیل شود. طرح این آزمایش را می توان در قالب جدول 2 در 2 ارائه کرد:

آزمایش کنید. گروه 1 آزمایش کنید. گروه 2
مردان2 6
3 7
1 5
میانگین2 6
زنان4 8
5 9
3 7
میانگین4 8

قبل از انجام محاسبات، می بینید که در این مثال واریانس کل حداقل سه منبع دارد:

(1) خطای تصادفی (در واریانس گروه)،

(2) تنوع مرتبط با عضویت در گروه آزمایشی، و

(3) تنوع به دلیل جنسیت اشیاء مشاهده شده.

(توجه داشته باشید که منبع احتمالی دیگری برای تغییر وجود دارد - تعامل عواملکه در ادامه به آن خواهیم پرداخت). اگر درج نکنیم چه اتفاقی می افتد کفجنسیتبه عنوان عاملی در تجزیه و تحلیل و محاسبه معمول تی-معیار؟ اگر مجموع مربع ها را محاسبه کنیم، نادیده گرفته می شود کف -جنسیت(به عنوان مثال، ترکیب اشیاء با جنس های مختلف در یک گروه در هنگام محاسبه واریانس درون گروهی، در حالی که مجموع مربع های هر گروه برابر با اس اس= 10، و مجموع مجموع مربع ها اس اس= 10 + 10 = 20)، سپس مقدار بیشتری از پراکندگی درون گروهی را نسبت به تجزیه و تحلیل دقیق تر با تقسیم اضافی به زیر گروه ها بر اساس نیمه جنسیت(در این حالت میانگین درون گروهی برابر با 2 و مجموع مجموع مجذورهای درون گروهی برابر با اس اس = 2+2+2+2 = 8). این تفاوت به این دلیل است که مقدار میانگین برای مردان - نرهاکمتر از میانگین برای زنان -زنو اگر جنسیت در نظر گرفته نشود، این تفاوت در میانگین ها، تنوع کل درون گروهی را افزایش می دهد. کنترل واریانس خطا باعث افزایش حساسیت (قدرت) آزمون می شود.

این مثال یکی دیگر از مزیت های آنالیز واریانس را نسبت به تحلیل معمولی نشان می دهد. تی-معیار برای دو نمونه تجزیه و تحلیل واریانس به شما امکان می دهد تا با کنترل مقادیر سایر عوامل، هر عامل را مطالعه کنید. این در واقع دلیل اصلی قدرت آماری بیشتر آن است (برای به دست آوردن نتایج معنی دار به حجم نمونه کوچکتر نیاز است). به همین دلیل، آنالیز واریانس، حتی بر روی نمونه های کوچک، نتایج آماری معنی داری نسبت به یک نمونه ساده به دست می دهد. تی- معیار

اثرات متقابل

استفاده از ANOVA مزیت دیگری نسبت به آنالیز معمولی دارد. تی- معیار: تجزیه و تحلیل واریانس به شما امکان می دهد تشخیص دهید اثر متقابلبین عوامل و بنابراین اجازه می دهد تا مدل های پیچیده تر مورد مطالعه قرار گیرد. برای توضیح، مثال دیگری را در نظر بگیرید.

اثرات اصلی، تعاملات زوجی (دو عاملی).فرض کنیم دانش‌آموزان دو گروه هستند و از نظر روان‌شناسی دانش‌آموزان گروه اول نسبت به دانش‌آموزان گروه دوم که متشکل از دانش‌آموزان تنبل‌تر هستند، در انجام وظایف محوله هماهنگ هستند و هدفمندتر هستند. بیایید هر گروه را به طور تصادفی به نصف تقسیم کنیم و به نیمی از هر گروه یک کار دشوار و به دیگری یک کار آسان ارائه دهیم. پس از آن، میزان سختی کار دانش‌آموزان روی این وظایف را اندازه می‌گیریم. میانگین های این مطالعه (ساختی) در جدول نشان داده شده است:

از این نتایج چه نتیجه ای می توان گرفت؟ آیا می توان نتیجه گرفت که: (1) دانش آموزان روی یک کار دشوار سخت تر کار می کنند. (2) آیا دانش آموزان با انگیزه بیشتر از افراد تنبل کار می کنند؟ هیچ یک از این عبارات ماهیت سیستماتیک میانگین های ارائه شده در جدول را منعکس نمی کند. با تجزیه و تحلیل نتایج، درست تر است که بگوییم فقط دانش آموزان با انگیزه روی کارهای پیچیده سخت تر کار می کنند، در حالی که فقط دانش آموزان تنبل روی کارهای آسان سخت تر کار می کنند. به عبارت دیگر، ماهیت دانش آموزان و پیچیدگی کار در حال تعاملیکدیگر بر میزان تلاش مورد نیاز تأثیر می گذارند. این یک مثال است تعامل جفتبین ماهیت دانش آموزان و پیچیدگی کار. توجه داشته باشید که عبارات 1 و 2 توضیح می دهند اثرات اصلی.

تعاملات مرتبه های بالاتردر حالی که توضیح تعاملات زوجی نسبتاً آسان است، توضیح تعاملات مرتبه بالاتر بسیار دشوارتر است. بیایید تصور کنیم که در مثال بالا، یک عامل دیگر معرفی شده است کف -جنسیتو جدول میانگین های زیر را بدست آوردیم:

اکنون از نتایج به دست آمده چه نتایجی می توان گرفت؟ نمودارهای متوسط ​​تفسیر جلوه های پیچیده را آسان می کند. ماژول تحلیل واریانس به شما امکان می دهد این نمودارها را تقریباً با یک کلیک بسازید.

تصویر در نمودارهای زیر نشان دهنده تعامل سه طرفه مورد مطالعه است.

با نگاهی به نمودارها، می توانیم بگوییم که بین ماهیت و دشواری آزمون برای زنان تعامل وجود دارد: زنان با انگیزه در یک کار دشوار بیشتر از یک کار آسان کار می کنند. در مردان نیز همین تعامل معکوس است. مشاهده می شود که توصیف تعامل بین عوامل گیج کننده تر می شود.

راه کلیشرح تعاملات AT مورد کلیتعامل بین عوامل به عنوان تغییر در یک اثر تحت تأثیر دیگری توصیف می شود. در مثالی که در بالا مورد بحث قرار گرفت، تعامل دو عاملی را می توان به عنوان تغییر در اثر اصلی عامل مشخص کننده پیچیدگی کار، تحت تأثیر عاملی که شخصیت دانش آموز را توصیف می کند، توصیف کرد. برای تأثیر متقابل سه عامل پاراگراف قبل می توان گفت که تأثیر متقابل دو عامل (پیچیدگی تکلیف و شخصیت دانش آموز) تحت تأثیر جنسیتجنسیت. اگر تأثیر متقابل چهار عامل بررسی شود، می توان گفت که تأثیر متقابل سه عامل تحت تأثیر عامل چهارم تغییر می کند. انواع مختلفی از تعاملات در سطوح مختلف عامل چهارم وجود دارد. معلوم شد که در بسیاری از مناطق تعامل پنج یا حتی بیشترعوامل غیر معمول نیست

طرح های پیچیده

طرح های بین گروهی و درون گروهی (طرح های اندازه گیری مجدد)

هنگام مقایسه دو گروه های مختلفمعمولا استفاده می شود تی- معیار برای نمونه های مستقل (از ماژول آمار و جداول پایه). هنگامی که دو متغیر بر روی یک مجموعه از اشیاء (مشاهدات) مقایسه می شوند، از آن استفاده می شود تی-معیار نمونه های وابسته برای تجزیه و تحلیل واریانس، وابسته بودن یا نبودن نمونه ها نیز مهم است. اگر اندازه گیری های مکرر از متغیرهای یکسان (در شرایط مختلف یا در زمان متفاوت) برای همان اشیاء، سپس از حضور می گویند فاکتور اندازه گیری های مکرر(همچنین به نام یک عامل درون گروهیاز آنجایی که مجموع مربع های درون گروهی برای ارزیابی اهمیت آن محاسبه می شود). اگر گروه های مختلف اشیاء با هم مقایسه شوند (به عنوان مثال، مردان و زنان، سه سویه باکتری و غیره)، تفاوت بین گروه ها شرح داده می شود. عامل بین گروهیروش های محاسبه معیارهای اهمیت برای دو نوع عامل توصیف شده متفاوت است، اما منطق کلی و تفسیر آنها یکسان است.

طرح های بین گروهی و درون گروهیدر بسیاری از موارد، آزمایش مستلزم گنجاندن یک عامل بین گروهی و یک عامل اندازه گیری مکرر در طراحی است. به عنوان مثال، مهارت های ریاضی دانش آموزان دختر و پسر اندازه گیری می شود کف -جنسیت-فاکتور بین گروهی) در ابتدا و در پایان ترم. دو بعد مهارت های هر دانش آموز عامل درون گروهی (عامل اندازه گیری های مکرر) را تشکیل می دهد. تفسیر تأثیرات و تعاملات اصلی برای عوامل بین گروهی و اقدامات مکرر یکسان است و هر دو نوع عامل به وضوح می توانند با یکدیگر تعامل داشته باشند (مثلاً زنان در طول ترم مهارت کسب می کنند و مردان آن را از دست می دهند).

طرح های ناقص (تودرتو).

در بسیاری از موارد، اثر متقابل را می توان نادیده گرفت. این اتفاق می افتد یا زمانی که مشخص است که هیچ اثر متقابل در جمعیت وجود دارد، و یا زمانی که اجرای کامل فاکتوریلطرح غیر ممکن است به عنوان مثال، تأثیر چهار افزودنی سوخت بر مصرف سوخت در حال بررسی است. چهار خودرو و چهار راننده انتخاب می شوند. پر شده فاکتوریلآزمایش مستلزم آن است که هر ترکیب: مکمل، راننده، ماشین حداقل یک بار ظاهر شود. این امر به حداقل 4 x 4 x 4 = 64 گروه آزمایشی نیاز دارد که بسیار وقت گیر است. علاوه بر این، به سختی هیچ تعاملی بین راننده و افزودنی سوخت وجود دارد. با در نظر گرفتن این موضوع می توانید از طرح استفاده کنید مربع های لاتین،که فقط شامل 16 گروه آزمایش است (چهار ماده افزودنی با حروف A، B، C و D مشخص می شوند):

مربع‌های لاتین در اکثر کتاب‌های طراحی تجربی توصیف شده‌اند (مانند Hays, 1988؛ Lindman, 1974؛ Milliken and Johnson, 1984؛ Winer, 1962) و در اینجا به تفصیل مورد بحث قرار نخواهد گرفت. توجه داشته باشید که مربع های لاتین هستند نهnپر شدهطرح هایی که شامل تمام ترکیبات سطوح فاکتور نمی شود. برای مثال، راننده 1 ماشین 1 را فقط با افزودنی A، راننده 3 ماشین 1 را فقط با افزودنی C رانندگی می کند. سطوح عامل مواد افزودنی ( A، B، C و D) تو در تو سلول های جدول خودروایکس راننده -مثل تخم مرغ در لانه این قانون یادگاری برای درک طبیعت مفید است تو در تو یا تو در توبرنامه ها مدول تحلیل واریانسفراهم می کند راه های سادهتجزیه و تحلیل طرح هایی از این نوع

تحلیل کوواریانس

ایده اصلی

در فصل ایده های کلیدیایده عوامل کنترل به طور خلاصه مورد بحث قرار گرفت و اینکه چگونه گنجاندن عوامل افزایشی می تواند مجموع مجذور خطاها را کاهش دهد و قدرت آماری طرح را افزایش دهد. همه اینها را می توان به متغیرهایی با مجموعه ای پیوسته از مقادیر گسترش داد. هنگامی که چنین متغیرهای پیوسته ای به عنوان عوامل در طراحی گنجانده شوند، نامیده می شوند متغیرهای کمکی.

متغیرهای کمکی ثابت

فرض کنید در حال مقایسه مهارت های ریاضی دو گروه از دانش آموزان هستیم که از دو کتاب درسی متفاوت آموزش داده شده اند. بیایید همچنین فرض کنیم که برای هر دانش آموز داده های بهره هوشی (IQ) داریم. می توانیم فرض کنیم که IQ مربوط به مهارت های ریاضی است و از این اطلاعات استفاده کنیم. برای هر یک از دو گروه از دانش آموزان، ضریب همبستگی بین IQ و مهارت های ریاضی قابل محاسبه است. با استفاده از این ضریب همبستگی، می توان بین سهم واریانس در گروه هایی که با تأثیر IQ توضیح داده شده و سهم واریانس غیر قابل توضیح تمایز قائل شد (همچنین رجوع کنید به مفاهیم اولیه آمار(فصل 8) و آمار و جداول پایه(فصل 9)). کسر باقی مانده از واریانس در تحلیل به عنوان واریانس خطا استفاده می شود. اگر بین IQ و مهارت های ریاضی همبستگی وجود داشته باشد، واریانس خطا را می توان به طور قابل توجهی کاهش داد. اس اس/(n-1) .

تأثیر متغیرهای کمکی برF- معیار F-این معیار اهمیت آماری تفاوت بین مقادیر میانگین در گروه ها را ارزیابی می کند و نسبت محاسبه می شود. واریانس بین گروهی (ام‌اساثر) به واریانس خطا ( ام‌اسخطا) . اگر یک ام‌اسخطابه عنوان مثال، با در نظر گرفتن فاکتور IQ، مقدار کاهش می یابد افافزایش.

تعداد زیادی متغیر.استدلال استفاده شده در بالا برای یک متغیر کمکی منفرد (IQ) به راحتی به چندین متغیر کمکی گسترش می یابد. به عنوان مثال، علاوه بر ضریب هوشی، می توانید اندازه گیری انگیزه، تفکر فضایی و غیره را نیز در نظر بگیرید. به جای ضریب همبستگی معمول، از آن استفاده می کند چند عاملیهمبستگی ها

زمانی که ارزشاف - معیارها کاهش می یابد.گاهی اوقات معرفی متغیرهای کمکی در طراحی آزمایش باعث کاهش ارزش می شود اف- شاخص . این معمولاً نشان می دهد که متغیرهای کمکی نه تنها با متغیر وابسته (مانند مهارت های ریاضی) بلکه با عوامل (مانند کتاب های درسی مختلف) همبستگی دارند. فرض کنید که ضریب هوشی در پایان ترم اندازه گیری می شود، پس از اینکه دو گروه از دانش آموزان تقریبا یک سال را صرف مطالعه دو کتاب درسی مختلف کرده اند. اگرچه دانش‌آموزان به‌طور تصادفی به گروه‌هایی تقسیم شدند، اما ممکن است معلوم شود که تفاوت در کتاب‌های درسی آنقدر زیاد است که هم مهارت‌های هوشی و هم مهارت‌های ریاضی در گروه‌های مختلف بسیار متفاوت است. در این حالت، متغیرهای کمکی نه تنها واریانس خطا را کاهش می دهند، بلکه واریانس بین گروهی را نیز کاهش می دهند. به عبارت دیگر، پس از کنترل تفاوت ضریب هوشی بین گروه ها، دیگر تفاوت در مهارت های ریاضی معنی دار نخواهد بود. غیر از این هم میشه گفت. پس از "حذف" تأثیر ضریب هوشی، تأثیر کتاب درسی بر رشد مهارت های ریاضی به طور ناخواسته حذف می شود.

میانگین های تعدیل شدهزمانی که متغیر کمکی بر فاکتور بین گروهی تأثیر می گذارد، باید محاسبه کرد میانگین های تعدیل شده، یعنی چنین میانگین هایی که پس از حذف کلیه برآوردهای متغیرهای کمکی به دست می آیند.

تعامل بین متغیرهای کمکی و عوامل.همانطور که تعاملات بین عوامل مورد بررسی قرار می گیرد، تعاملات بین متغیرهای کمکی و بین گروهی از عوامل نیز قابل بررسی است. فرض کنید یکی از کتاب های درسی مخصوصاً برای دانش آموزان باهوش مناسب است. درس دوم برای دانش آموزان باهوش خسته کننده است و همین کتاب برای دانش آموزان کم باهوش دشوار است. در نتیجه، بین IQ و نتایج یادگیری در گروه اول (دانش آموزان باهوش تر، نتایج بهتر) همبستگی مثبت و در گروه دوم همبستگی منفی صفر یا کمی وجود دارد (هر چه دانش آموز باهوش تر باشد، احتمال کسب مهارت های ریاضی کمتر می شود. از کتاب درسی دوم). در برخی از مطالعات، این وضعیت به عنوان نمونه ای از نقض مفروضات تحلیل کوواریانس مورد بحث قرار گرفته است. با این حال، از آنجایی که ماژول تحلیل واریانس از متداول‌ترین روش‌های تحلیل کوواریانس استفاده می‌کند، به‌ویژه امکان ارزیابی اهمیت آماری تعامل بین عوامل و متغیرهای کمکی وجود دارد.

متغیرهای کمکی متغیر

در حالی که متغیرهای کمکی ثابت اغلب در کتاب‌های درسی مورد بحث قرار می‌گیرند، متغیرهای کمکی متغیر بسیار کمتر ذکر شده‌اند. معمولاً هنگام انجام آزمایش‌هایی با اندازه‌گیری‌های مکرر، ما به تفاوت در اندازه‌گیری مقادیر یکسان در مقاطع زمانی مختلف علاقه داریم. یعنی ما به اهمیت این تفاوت ها علاقه مندیم. اگر همزمان با اندازه گیری های متغیر وابسته، اندازه گیری کمکی انجام شود، می توان همبستگی بین متغیر کمکی و متغیر وابسته را محاسبه کرد.

به عنوان مثال، شما می توانید علاقه به ریاضیات و مهارت های ریاضی را در ابتدا و در پایان ترم مطالعه کنید. بررسی اینکه آیا تغییرات در علاقه به ریاضیات با تغییرات در مهارت های ریاضی مرتبط است یا خیر، جالب است.

مدول تحلیل واریانسکه در آماربه طور خودکار اهمیت آماری تغییرات در متغیرهای کمکی در آن طرح ها را، در صورت امکان، ارزیابی می کند.

طرح های چند متغیره: ANOVA چند متغیره و تحلیل کوواریانس

طرح های بین گروهی

تمام مثال‌هایی که قبلاً در نظر گرفته شد، تنها شامل یک متغیر وابسته بودند. وقتی چندین متغیر وابسته به طور همزمان وجود داشته باشد، فقط پیچیدگی محاسبات افزایش می یابد و محتوا و اصول اولیه تغییر نمی کند.

به عنوان مثال، مطالعه ای روی دو کتاب درسی مختلف در حال انجام است. در عین حال موفقیت دانش آموزان در مطالعه فیزیک و ریاضی مورد بررسی قرار می گیرد. در این مورد، دو متغیر وابسته وجود دارد و شما باید دریابید که دو کتاب درسی مختلف چگونه به طور همزمان روی آنها تأثیر می گذارند. برای این کار می توانید از تحلیل واریانس چند متغیره (MANOVA) استفاده کنید. به جای یک بعدی افمعیار، چند بعدی افآزمون (آزمون ال ویلکس) بر اساس مقایسه ماتریس کوواریانس خطا و ماتریس کوواریانس بین گروهی.

اگر متغیرهای وابسته با یکدیگر همبستگی داشته باشند، در محاسبه آزمون معناداری باید این همبستگی در نظر گرفته شود. بدیهی است که اگر همان اندازه گیری دو بار تکرار شود، در این صورت چیز جدیدی نمی توان به دست آورد. اگر یک بعد مرتبط با آن به بعد موجود اضافه شود، اطلاعات جدیدی به دست می آید، اما متغیر جدید حاوی اطلاعات اضافی است که در کوواریانس بین متغیرها منعکس می شود.

تفسیر نتایج.اگر معیار کلی چند متغیره معنادار باشد، می‌توان نتیجه گرفت که اثر متناظر (مثلاً نوع کتاب درسی) معنی‌دار است. با این حال، سوالات زیر مطرح می شود. آیا نوع کتاب درسی فقط در بهبود مهارت های ریاضی، فقط مهارت های بدنی یا هر دو تاثیر دارد؟ در واقع، پس از به دست آوردن یک معیار چند متغیره معنادار، برای یک اثر اصلی یا تعامل، یک بعدی افمعیار به عبارت دیگر، متغیرهای وابسته ای که به معنی دار بودن آزمون چند متغیره کمک می کنند، به طور جداگانه بررسی می شوند.

طرح هایی با اندازه گیری های مکرر

اگر مهارت‌های ریاضی و فیزیکی دانش‌آموزان در ابتدای ترم و در پایان ترم اندازه‌گیری شود، این اندازه‌گیری‌های تکراری است. بررسی معیار اهمیت در این گونه طرح ها می باشد توسعه منطقیمورد تک بعدی توجه داشته باشید که روش های ANOVA چند متغیره نیز معمولاً برای بررسی اهمیت عوامل اندازه گیری مکرر تک متغیره که بیش از دو سطح دارند استفاده می شود. کاربردهای مربوطه بعداً در این بخش مورد بحث قرار خواهد گرفت.

مجموع مقادیر متغیر و تحلیل واریانس چند متغیره

حتی کاربران باتجربه ANOVA تک متغیره و چند متغیره معمولاً هنگامی که نتایج متفاوتی را هنگام اعمال ANOVA چند متغیره برای مثلاً سه متغیر و هنگام اعمال ANOVA تک متغیره برای مجموع این سه متغیر به عنوان یک متغیر منفرد دریافت می‌کنند، گیج می‌شوند.

اندیشه جمع بندیمتغیرها این است که هر متغیر حاوی مقداری متغیر واقعی است که بررسی می شود و همچنین یک خطای اندازه گیری تصادفی. بنابراین، هنگام میانگین‌گیری مقادیر متغیرها، خطای اندازه‌گیری برای همه اندازه‌گیری‌ها نزدیک‌تر به صفر خواهد بود و مقادیر میانگین قابل اعتمادتر خواهند بود. در واقع، در این مورد، اعمال ANOVA برای مجموع متغیرها، یک تکنیک منطقی و قدرتمند است. اما اگر ماهیت متغیرهای وابسته چند متغیره باشد، جمع کردن مقادیر متغیرها نامناسب است.

برای مثال، اجازه دهید متغیرهای وابسته از چهار معیار تشکیل شده باشند موفقیت در جامعه. هر شاخص یک طرف کاملاً مستقل را مشخص می کند فعالیت انسانی(به عنوان مثال، موفقیت حرفه ای، موفقیت تجاری، رفاه خانواده و غیره). جمع کردن این متغیرها با هم مانند اضافه کردن یک سیب و یک پرتقال است. مجموع این متغیرها معیار تک متغیره مناسبی نخواهد بود. بنابراین، چنین داده هایی باید به عنوان شاخص های چند بعدی در نظر گرفته شوند تحلیل واریانس چند متغیره.

تجزیه و تحلیل کنتراست و آزمون های تعقیبی

چرا مجموعه ابزارهای فردی با هم مقایسه می شوند؟

معمولاً فرضیه‌های مربوط به داده‌های تجربی صرفاً از نظر تأثیرات یا تعاملات اصلی فرمول‌بندی نمی‌شوند. یک مثال فرضیه زیر است: یک کتاب درسی خاص مهارت های ریاضی را فقط در دانش آموزان پسر بهبود می بخشد، در حالی که کتاب درسی دیگر تقریباً برای هر دو جنس به یک اندازه مؤثر است، اما هنوز برای مردان کمتر مؤثر است. می توان پیش بینی کرد که عملکرد کتاب درسی با جنسیت دانش آموز در تعامل است. با این حال، این پیش بینی نیز صدق می کند طبیعتفعل و انفعالات. در یک کتاب برای دانش‌آموزان تفاوت معناداری بین جنسیت‌ها و در کتاب دیگر برای دانش‌آموزان نتایج عملاً مستقل از جنسیت انتظار می‌رود. این نوع فرضیه معمولاً با استفاده از تحلیل کنتراست بررسی می شود.

تجزیه و تحلیل کنتراست

به طور خلاصه، تجزیه و تحلیل کنتراست به ما امکان می دهد تا اهمیت آماری برخی از ترکیبات خطی اثرات پیچیده را ارزیابی کنیم. تجزیه و تحلیل کنتراست عنصر اصلی و ضروری هر طرح ANOVA پیچیده است. مدول تحلیل واریانسدارای قابلیت های بسیار متنوعی از تجزیه و تحلیل کنتراست است که به شما امکان می دهد هر نوع مقایسه میانگین ها را انتخاب و تجزیه و تحلیل کنید.

پسینیمقایسه ها

گاهی اوقات، در نتیجه پردازش یک آزمایش، یک اثر غیر منتظره کشف می شود. اگرچه در بیشتر موارد یک محقق خلاق می تواند هر نتیجه ای را توضیح دهد، این فرصتی را برای تجزیه و تحلیل بیشتر و به دست آوردن تخمین برای پیش بینی فراهم نمی کند. این مشکل یکی از مواردی است که برای آن معیارهای post hoc، یعنی معیارهایی که استفاده نمی کنند پیشینفرضیه ها برای نشان دادن، آزمایش زیر را در نظر بگیرید. فرض کنید 100 کارت شامل اعداد 1 تا 10 است. پس از انداختن همه این کارت ها در هدر، به طور تصادفی 20 برابر 5 کارت را انتخاب می کنیم و میانگین مقدار هر نمونه (میانگین اعداد نوشته شده روی کارت ها) را محاسبه می کنیم. آیا می توانیم انتظار داشته باشیم که دو نمونه وجود داشته باشد که میانگین آنها به طور قابل توجهی متفاوت است؟ این بسیار قابل قبول است! با انتخاب دو نمونه با میانگین حداکثر و حداقل می توانید اختلاف میانگین ها را بدست آورید که با تفاوت میانگین ها مثلاً دو نمونه اول بسیار متفاوت است. این تفاوت را می توان برای مثال با استفاده از تحلیل کنتراست بررسی کرد. بدون پرداختن به جزئیات، چندین به اصطلاح وجود دارد پسینیمعیارهایی که دقیقاً بر اساس سناریوی اول (گرفتن میانگین های افراطی از 20 نمونه) است، یعنی این معیارها بر اساس انتخاب متفاوت ترین ابزارها برای مقایسه همه ابزارها در طراحی است. این معیارها به منظور عدم دستیابی به یک اثر مصنوعی صرفاً تصادفی به کار می‌روند، به عنوان مثال، برای یافتن تفاوت معنی‌دار بین میانگین‌ها در صورت عدم وجود. مدول تحلیل واریانسطیف گسترده ای از این معیارها را ارائه می دهد. هنگامی که نتایج غیرمنتظره ای در یک آزمایش شامل چندین گروه مشاهده می شود، پسینیروش‌هایی برای بررسی اهمیت آماری نتایج به‌دست‌آمده.

مجموع مربع های نوع I، II، III و IV

رگرسیون چند متغیره و تحلیل واریانس

بین روش رگرسیون چند متغیره و تحلیل واریانس (تحلیل تغییرات) رابطه تنگاتنگی وجود دارد. در هر دو روش، یک مدل خطی مورد مطالعه قرار گرفته است. به طور خلاصه، تقریباً تمام طرح های تجربی را می توان با استفاده از رگرسیون چند متغیره بررسی کرد. طرح متقابل گروهی ساده 2×2 زیر را در نظر بگیرید.

DV آ ب AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

ستون های A و B حاوی کدهایی هستند که سطوح عوامل A و B را مشخص می کنند، ستون AxB حاوی حاصل ضرب دو ستون A و B است. ما می توانیم این داده ها را با استفاده از رگرسیون چند متغیره تجزیه و تحلیل کنیم. متغیر DVبه عنوان یک متغیر وابسته تعریف می شود، متغیرها از آقبل از AxBبه عنوان متغیرهای مستقل بررسی معنی داری برای ضرایب رگرسیون با محاسبات در تحلیل واریانس اهمیت اثرات اصلی عوامل همزمان خواهد بود. آو بو اثر متقابل AxB.

برنامه های نامتعادل و متوازن

هنگام محاسبه ماتریس همبستگی برای همه متغیرها، به عنوان مثال، برای داده های نشان داده شده در بالا، می توان مشاهده کرد که اثرات اصلی عوامل آو بو اثر متقابل AxBنامرتبط به این خاصیت افکت ها متعامد بودن نیز می گویند. آنها می گویند که اثرات آو ب - متعامدیا مستقلاز یکدیگر. اگر تمام اثرات در پلان متعامد با یکدیگر باشند، مانند مثال بالا، آنگاه پلان گفته می شود که متعادل.

طرح‌های متوازن دارای "ویژگی خوب" هستند. محاسبات در تجزیه و تحلیل چنین طرح هایی بسیار ساده است. تمام محاسبات به محاسبه همبستگی بین اثرات و متغیرهای وابسته کاهش می یابد. از آنجایی که اثرات متعامد هستند، همبستگی های جزئی (مانند کامل چند بعدیرگرسیون ها) محاسبه نمی شوند. با این حال، در زندگی واقعیبرنامه ها همیشه متعادل نیستند

داده های واقعی را با تعداد نابرابر مشاهدات در سلول ها در نظر بگیرید.

عامل A عامل B
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

اگر این داده ها را مانند بالا رمزگذاری کنیم و ماتریس همبستگی را برای همه متغیرها محاسبه کنیم، معلوم می شود که عوامل طراحی با یکدیگر همبستگی دارند. عوامل موجود در طرح اکنون متعامد نیستند و چنین طرح هایی نامیده می شوند نامتعادلتوجه داشته باشید که در این مثال، همبستگی بین فاکتورها کاملاً به تفاوت فرکانس های 1 و -1 در ستون های ماتریس داده مربوط می شود. به عبارت دیگر، طرح‌های آزمایشی با حجم‌های سلولی نابرابر (به طور دقیق‌تر، حجم‌های نامتناسب) نامتعادل خواهند بود، به این معنی که تأثیرات و تعاملات اصلی با هم مخلوط می‌شوند. در این مورد، برای محاسبه معناداری آماری اثرات، باید رگرسیون چند متغیره را به طور کامل محاسبه کنید. در اینجا چندین استراتژی وجود دارد.

مجموع مربع های نوع I، II، III و IV

مجموع مربع ها نوعمنوIII. برای بررسی اهمیت هر یک از عوامل در یک مدل چند متغیره، می توان همبستگی جزئی هر عامل را محاسبه کرد، مشروط بر اینکه همه عوامل دیگر قبلاً در مدل لحاظ شده باشند. همچنین می توانید فاکتورها را به صورت گام به گام وارد مدل کنید و تمام فاکتورهایی که قبلاً وارد مدل شده اند را ثابت کنید و همه عوامل دیگر را نادیده بگیرید. به طور کلی، این تفاوت است نوع IIIو نوعمنمجموع مربعات (این اصطلاح در SAS معرفی شد، برای مثال به SAS، 1982 مراجعه کنید؛ بحث مفصلی را نیز می توان در سرل، 1987، ص 461؛ وودوارد، بونت، و برشت، 1990، ص 216؛ یا میلیکن و جانسون، 1984، ص 138).

مجموع مربع ها نوعII.استراتژی شکل‌گیری مدل «واسطه» بعدی این است: کنترل تمام اثرات اصلی در مطالعه اهمیت یک اثر اصلی واحد. در کنترل همه اثرات اصلی و همه تعاملات زوجی، زمانی که اهمیت یک تعامل زوجی مورد بررسی قرار می گیرد. در کنترل تمام اثرات اصلی همه تعاملات زوجی و همه تعاملات سه عامل. در مطالعه تعامل جداگانه سه عامل و غیره. مجموع مربعات برای اثرات محاسبه شده در این روش نامیده می شود نوعIIمجموع مربع ها بنابراین، نوعی ازIIمجموع مربع ها همه افکت های یک مرتبه و پایین تر را کنترل می کند و تمام اثرات مرتبه بالاتر را نادیده می گیرد.

مجموع مربع ها نوعIV. در نهایت، برای برخی از طرح های خاص با سلول های مفقود (طرح های ناقص) می توان به اصطلاح محاسبه کرد. نوع IVمجموع مربع ها این روش بعداً در رابطه با طرح های ناقص (طرح هایی با سلول های گمشده) مورد بحث قرار خواهد گرفت.

تفسیر حدس مجموع مربعات انواع I، II و III

مجموع مربعات نوعIIIساده ترین تفسیر به یاد بیاورید که مجموع مربع ها نوعIIIپس از کنترل سایر اثرات، اثرات را بررسی کنید. به عنوان مثال، پس از یافتن یک معنی دار آماری نوعIIIاثر برای عامل آدر ماژول تحلیل واریانس، می توان گفت که یک اثر معنی دار واحد وجود دارد آ، پس از معرفی تمامی اثرات (عوامل) دیگر و تفسیر این اثر بر اساس آن. احتمالاً در 99 درصد تمام کاربردهای تحلیل واریانس، این نوع معیار مورد توجه محقق است. این نوع مجموع مربع ها معمولاً در ماژول محاسبه می شود تحلیل واریانسبه طور پیش فرض، صرف نظر از اینکه گزینه انتخاب شده باشد یا خیر رویکرد رگرسیونیا خیر (رویکردهای استاندارد اتخاذ شده در ماژول تحلیل واریانسدر زیر بحث شده است).

اثرات قابل توجهی به دست آمده با استفاده از مجموع مربع نوعیا نوعIIتفسیر مجموع مربع ها چندان آسان نیست. آنها به بهترین وجه در زمینه رگرسیون چند متغیره گام به گام تفسیر می شوند. اگر از مجموع مربع ها استفاده کنید نوعمناثر اصلی عامل B معنی دار بود (پس از گنجاندن عامل A در مدل، اما قبل از افزودن اثر متقابل بین A و B)، می توان نتیجه گرفت که اثر اصلی معنی دار عامل B وجود دارد، مشروط بر اینکه وجود نداشته باشد. تعامل بین عوامل A و B. (در صورت استفاده از معیار نوعIIIفاکتور B نیز معنی دار بود، پس از وارد کردن سایر عوامل و تأثیر متقابل آنها در مدل، می توان نتیجه گرفت که تأثیر اصلی فاکتور B معنی دار است.

از نظر میانگین های حاشیه ای فرضیه نوعمنو نوعIIمعمولاً تفسیر ساده ای ندارند. در این موارد گفته می شود که صرفاً با در نظر گرفتن وسایل حاشیه ای نمی توان اهمیت آثار را تفسیر کرد. بلکه ارائه شده است پمقادیر میانگین مربوط به یک فرضیه پیچیده است که میانگین و حجم نمونه را ترکیب می کند. مثلا، نوعی ازIIفرضیه‌های عامل A در مثال طراحی ساده 2×2 که قبلاً مورد بحث قرار گرفت این خواهد بود (رجوع کنید به Woodward, Bonett, and Brecht, 1990, p. 219):

nij- تعداد مشاهدات در یک سلول

uij- مقدار متوسط ​​در یک سلول

n. j- میانگین حاشیه ای

بدون پرداختن به جزئیات (برای جزئیات بیشتر رجوع کنید به Milliken and Johnson، 1984، فصل 10)، واضح است که اینها فرضیه های ساده ای نیستند و در بیشتر موارد هیچ یک از آنها مورد توجه محقق قرار نمی گیرند. با این حال، مواردی وجود دارد که فرضیه ها نوعمنممکن است مورد توجه باشد.

رویکرد محاسباتی پیش فرض در ماژول تحلیل واریانس

در صورتی که گزینه علامت نخورده باشد، پیش‌فرض است رویکرد رگرسیون، مدول تحلیل واریانساستفاده می کند مدل میانگین سلولی. مشخصه این مدل این است که مجموع مربع ها برای اثرات مختلف برای ترکیب های خطی میانگین سلول ها محاسبه می شود. در یک آزمایش فاکتوریل کامل، این نتیجه به مجموع مربع‌هایی می‌رسد که با مجموع مربع‌هایی که قبلاً بحث شد، یکسان است. نوعی از III. با این حال، در گزینه مقایسه های برنامه ریزی شده(در پنجره تجزیه و تحلیل نتایج واریانس، کاربر می تواند در مورد هر ترکیب خطی از میانگین سلولی وزن دار یا بدون وزن فرضیه کند. بنابراین، کاربر می تواند نه تنها فرضیه ها را آزمایش کند نوعIII، اما فرضیه هایی از هر نوع (از جمله نوعی ازIV). این رویکرد کلی به ویژه هنگام بررسی طرح هایی با سلول های گمشده (به اصطلاح طرح های ناقص) مفید است.

برای طرح‌های فاکتوریل کامل، این رویکرد زمانی مفید است که کسی بخواهد میانگین‌های حاشیه وزنی را تحلیل کند. به عنوان مثال، فرض کنید که در طرح ساده 2×2 که قبلاً در نظر گرفته شد، می‌خواهیم وزن‌ها را (از نظر سطوح عاملی) مقایسه کنیم. بمیانگین‌های حاشیه‌ای برای فاکتور A. این زمانی مفید است که توزیع مشاهدات روی سلول‌ها توسط آزمایش‌کننده تهیه نشده باشد، بلکه به‌طور تصادفی ساخته شده است، و این تصادفی در توزیع تعداد مشاهدات بر اساس سطوح فاکتور B در کل منعکس می‌شود. .

به عنوان مثال، یک عامل وجود دارد - سن بیوه ها. یک نمونه ممکن از پاسخ دهندگان به دو گروه کوچکتر از 40 سال و مسن تر از 40 سال (عامل B) تقسیم می شود. دومین عامل (عامل الف) در این طرح این است که آیا زنان بیوه از برخی آژانس ها حمایت اجتماعی دریافت کرده اند یا خیر (در حالی که برخی از بیوه ها به طور تصادفی انتخاب شده اند، برخی دیگر به عنوان کنترل عمل می کنند). در این مورد، توزیع سنی زنان بیوه در نمونه نشان دهنده توزیع سنی واقعی زنان بیوه در جامعه است. ارزیابی عملکرد گروه حمایت اجتماعیبیوه ها توسط تمام سنینبا میانگین وزنی برای دو گروه سنی (با وزن های مربوط به تعداد مشاهدات در گروه) مطابقت دارد.

مقایسه های برنامه ریزی شده

توجه داشته باشید که مجموع نسبت های کنتراست وارد شده لزوماً برابر 0 (صفر) نیست. در عوض، برنامه به طور خودکار تنظیمات را انجام می دهد تا فرضیه های مربوطه با میانگین کلی ترکیب نشود.

برای نشان دادن این موضوع، اجازه دهید به طرح ساده 2×2 که قبلاً بحث شد، برگردیم. به یاد بیاورید که تعداد سلول‌های این طرح نامتعادل 1-، 2، 3 و 1 است. فرض کنید می‌خواهیم میانگین‌های وزنی حاشیه‌ای را برای فاکتور A (وزن‌شده با فراوانی سطوح عامل B) مقایسه کنیم. می توانید نسبت کنتراست را وارد کنید:

توجه داشته باشید که این ضرایب تا 0 جمع نمی شوند. برنامه ضرایب را به گونه ای تنظیم می کند که آنها تا 0 جمع شوند، در حالی که مقادیر نسبی خود را حفظ می کنند، یعنی:

1/3 2/3 -3/4 -1/4

این تضادها میانگین های وزنی عامل A را با هم مقایسه می کنند.

فرضیات در مورد میانگین اصلی.این فرضیه که میانگین اصلی وزن‌نشده 0 است را می‌توان با استفاده از ضرایب بررسی کرد:

این فرضیه که میانگین وزنی اصلی 0 است با استفاده از:

برنامه در هیچ موردی نسبت کنتراست را اصلاح نمی کند.

تجزیه و تحلیل طرح های دارای سلول های گمشده (طرح های ناقص)

طرح های فاکتوری حاوی سلول های خالی (پردازش ترکیب سلول هایی که در آن هیچ مشاهده ای وجود ندارد) ناقص نامیده می شوند. در این گونه طرح ها، برخی از فاکتورها معمولاً متعامد نیستند و نمی توان برخی از فعل و انفعالات را محاسبه کرد. به طور کلی روش بهتری برای تحلیل چنین طرح هایی وجود ندارد.

رویکرد رگرسیون

در برخی از برنامه های قدیمی که مبتنی بر تجزیه و تحلیل طرح های ANOVA با استفاده از رگرسیون چند متغیره هستند، عوامل در طرح های ناقص به طور پیش فرض به روش معمول تنظیم می شوند (گویی که طرح کامل شده است). سپس یک تحلیل رگرسیون چند متغیره برای این عوامل رمزگذاری شده ساختگی انجام می شود. متأسفانه، این روش به نتایجی منتهی می شود که تفسیر آنها اگر غیرممکن نباشد، بسیار دشوار است، زیرا مشخص نیست که هر اثر چگونه به ترکیب خطی ابزارها کمک می کند. مثال ساده زیر را در نظر بگیرید.

عامل A عامل B
B1 B2
A1 3 4, 5
A2 6, 6, 7 از دست رفته

اگر رگرسیون چند متغیره فرم متغیر وابسته = ثابت + عامل A + عامل B، سپس فرضیه اهمیت عوامل A و B از نظر ترکیب خطی میانگین ها به صورت زیر است:

فاکتور A: سلول A1,B1 = سلول A2,B1

فاکتور B: سلول A1,B1 = سلول A1,B2

این مورد ساده است. در طرح های پیچیده تر، تعیین اینکه دقیقاً چه چیزی مورد بررسی قرار می گیرد، غیرممکن است.

سلول های میانگین، رویکرد تحلیل واریانس , فرضیه های نوع چهارم

رویکردی که در ادبیات توصیه شده و به نظر ارجح است، مطالعه معنادار (از نظر وظایف پژوهشی) است. پیشینفرضیه هایی در مورد ابزارهای مشاهده شده در سلول های طرح. بحث مفصلی از این رویکرد را می توان در دوج (1985)، هایبرگر (1989)، میلیکن و جانسون (1984)، سرل (1987)، یا وودوارد، بونت و برشت (1990) یافت. مجموع مربع‌های مرتبط با فرضیه‌های مربوط به ترکیب خطی میانگین‌ها در طرح‌های ناقص، بررسی تخمین بخشی از اثرات، نیز مجموع مربع نامیده می‌شوند. IV.

تولید خودکار فرضیه های نوعIV. هنگامی که طرح های چند متغیره دارای یک الگوی پیچیده سلول گمشده هستند، مطلوب است که فرضیه های متعامد (مستقل) تعریف شوند که بررسی آنها معادل بررسی اثرات یا تعاملات اصلی باشد. استراتژی‌های الگوریتمی (محاسباتی) (بر اساس ماتریس طراحی شبه معکوس) برای تولید وزن‌های مناسب برای چنین مقایسه‌هایی توسعه یافته‌اند. متأسفانه، فرضیه های نهایی به طور منحصر به فرد تعیین نمی شوند. البته، آنها به ترتیب تعریف اثرات بستگی دارند و به ندرت قابل تفسیر هستند. بنابراین توصیه می‌شود ماهیت سلول‌های از دست رفته را به‌دقت مطالعه کرده، سپس فرضیه‌هایی را تدوین کنید نوعIV, که بیشترین ارتباط را با اهداف مطالعه دارند. سپس این فرضیه ها را با استفاده از گزینه بررسی کنید مقایسه های برنامه ریزی شدهدر پنجره نتایج. ساده ترین راه برای مشخص کردن مقایسه ها در این مورد، نیاز به معرفی یک بردار کنتراست برای همه عوامل است. با یکدیگردر پنجره مقایسه های برنامه ریزی شدهپس از فراخوانی کادر محاوره ای مقایسه های برنامه ریزی شدهتمام گروه های طرح فعلی نشان داده شده و آنهایی که حذف شده اند علامت گذاری خواهند شد.

سلول های رد شده و بررسی اثر خاص

انواع مختلفی از پلان ها وجود دارد که در آنها مکان سلول های از دست رفته تصادفی نیست، بلکه با دقت برنامه ریزی شده است، که امکان تجزیه و تحلیل ساده از اثرات اصلی را بدون تأثیرگذاری بر سایر اثرات فراهم می کند. به عنوان مثال، زمانی که تعداد سلول های مورد نیاز در یک پلان در دسترس نباشد، اغلب از پلان ها استفاده می شود. مربع های لاتینبرای برآورد اثرات اصلی چندین عامل با تعداد زیادیسطوح به عنوان مثال، یک طرح فاکتوریل 4 x 4 x 4 x 4 به 256 سلول نیاز دارد. در عین حال می توانید استفاده کنید مربع یونانی-لاتینبرای تخمین اثرات اصلی، داشتن تنها 16 سلول در طرح (فصل. برنامه ریزی آزمایشی، جلد چهارم، شامل شرح مفصلی از این گونه طرح ها می باشد). طرح های ناقصی که در آنها اثرات اصلی (و برخی از فعل و انفعالات) را می توان با استفاده از ترکیب خطی ساده ابزارها تخمین زد، نامیده می شود. برنامه های ناقص متعادل.

در طرح‌های متوازن، روش استاندارد (پیش‌فرض) ایجاد کنتراست (وزن) برای جلوه‌های اصلی و برهمکنش‌ها، تجزیه و تحلیل جدول واریانسی را ایجاد می‌کند که در آن مجموع مربع‌ها برای جلوه‌های مربوطه با یکدیگر مخلوط نمی‌شوند. گزینه جلوه های خاصپنجره نتایجبا نوشتن صفر در سلول‌های طرح از دست رفته، کنتراست‌های از دست رفته را ایجاد می‌کند. بلافاصله پس از درخواست گزینه جلوه های خاصبرای کاربری که برخی از فرضیه ها را مطالعه می کند، جدولی از نتایج با وزن های واقعی ظاهر می شود. توجه داشته باشید که در یک طراحی متوازن، مجموع مجذورات اثرات مربوطه تنها در صورتی محاسبه می‌شود که آن اثرات متعامد (مستقل) نسبت به سایر اثرات و برهمکنش‌های اصلی باشند. در غیر این صورت از گزینه استفاده کنید مقایسه های برنامه ریزی شدهبرای بررسی مقایسه های معنادار بین میانگین ها.

سلول‌های گمشده و اثرات/اعضای خطای ترکیبی

اگر گزینه رویکرد رگرسیوندر پانل راه اندازی ماژول تحلیل واریانسانتخاب نشده است، مدل میانگین سلول ها هنگام محاسبه مجموع مربع ها برای جلوه ها استفاده می شود (تنظیم پیش فرض). اگر طراحی متعادل نباشد، هنگام ترکیب جلوه های غیر متعامد (به بحث بالا در مورد گزینه مراجعه کنید سلول های از دست رفته و اثر خاص) می توان مجموع مربع های متشکل از اجزای غیر متعامد (یا همپوشانی) را بدست آورد. نتایج به دست آمده از این طریق معمولاً قابل تفسیر نیستند. بنابراین در انتخاب و اجرای طرح های آزمایشی پیچیده ناقص باید دقت زیادی داشت.

کتاب های زیادی با بحث های مفصل درباره انواع مختلف طرح ها وجود دارد. (دوج، 1985؛ هایبرگر، 1989؛ لیندمن، 1974؛ میلیکن و جانسون، 1984؛ سرل، 1987؛ وودوارد و بونت، 1990)، اما این نوع اطلاعات خارج از محدوده این کتاب درسی است. با این حال، تجزیه و تحلیل انواع مختلف طرح ها بعداً در این بخش نشان داده خواهد شد.

مفروضات و آثار نقض مفروضات

انحراف از فرض توزیع نرمال

فرض کنید که متغیر وابسته در مقیاس عددی اندازه گیری می شود. همچنین فرض کنید که متغیر وابسته در هر گروه دارای توزیع نرمال است. تحلیل واریانسشامل طیف گسترده ای از نمودارها و آمار برای اثبات این فرض است.

اثرات نقضبطور کلی افاین معیار در برابر انحراف از نرمال بسیار مقاوم است ( نتایج دقیقلیندمن، 1974 را ببینید). اگر کشش بزرگتر از 0 باشد، مقدار آماره است افممکن است بسیار کوچک شود فرضیه صفر پذیرفته شده است، اگرچه ممکن است درست نباشد. هنگامی که کشش کمتر از 0 باشد، وضعیت معکوس می شود. چولگی توزیع معمولاً تأثیر کمی بر روی آن دارد. افآمار. اگر تعداد مشاهدات در یک سلول به اندازه کافی زیاد باشد، انحراف از حالت عادی اهمیت چندانی ندارد. تئوری حد مرکزیکه بر اساس آن، توزیع مقدار میانگین بدون توجه به توزیع اولیه، نزدیک به نرمال است. بحث مفصل در مورد پایداری افآمار را می توان در باکس و اندرسون (1955) یا لیندمن (1974) یافت.

همگنی پراکندگی

مفروضاتفرض بر این است که واریانس های گروه های مختلف طرح یکسان است. این فرض را فرض می نامند همگنی پراکندگیبه یاد بیاورید که در ابتدای این بخش، هنگام تشریح محاسبه مجموع مربعات خطاها، جمع بندی را در هر گروه انجام دادیم. اگر واریانس‌های دو گروه با یکدیگر متفاوت باشند، جمع کردن آنها خیلی طبیعی نیست و تخمینی از کل واریانس درون گروهی به دست نمی‌دهد (زیرا در این مورد اصلاً واریانس کلی وجود ندارد). مدول تجزیه و تحلیل پراکندگی -ANOVA/MANOVAشامل مجموعه بزرگی از معیارهای آماری برای تشخیص انحراف از مفروضات همگنی واریانس است.

اثرات نقضلیندمن (1974، ص 33) نشان می دهد که افاین معیار با توجه به نقض مفروضات همگنی واریانس کاملاً پایدار است ( ناهمگونیپراکندگی، همچنین نگاه کنید به Box, 1954a, 1954b; هسو، 1938).

مورد خاص: همبستگی میانگین ها و واریانس ها.مواقعی هست که افآمار می تواند گمراه کردناین زمانی اتفاق می افتد که مقادیر میانگین در سلول های طراحی با واریانس همبستگی داشته باشند. مدول تحلیل واریانسبه شما اجازه می دهد تا نمودارهای پراکندگی پراکندگی یا انحراف معیارنسبت به ابزار تشخیص چنین همبستگی. دلیل خطرناک بودن چنین همبستگی به شرح زیر است. بیایید تصور کنیم که 8 خانه در پلان وجود دارد که 7 تای آنها تقریباً میانگین یکسانی دارند و در یک سلول میانگین بسیار بزرگتر از بقیه است. سپس افآزمایش می تواند یک اثر آماری معنی دار را تشخیص دهد. اما فرض کنید که در یک سلول با مقدار میانگین بزرگ و واریانس بسیار بزرگتر از سایرین باشد، یعنی. میانگین و واریانس در سلول ها وابسته است (هرچه میانگین بزرگتر باشد، واریانس بیشتر است). در این مورد، میانگین بزرگ غیرقابل اعتماد است، زیرا ممکن است ناشی از واریانس زیاد در داده ها باشد. با این حال افآمار بر اساس متحدواریانس درون سلولی میانگین زیادی را به دست می‌آورد، اگرچه معیارهای مبتنی بر واریانس در هر سلول، همه تفاوت‌ها در میانگین‌ها را معنادار در نظر نمی‌گیرند.

این ماهیت داده ها (میانگین بزرگ و واریانس بزرگ) اغلب در مواقعی که مشاهدات پرت وجود دارد، با آن مواجه می شود. یک یا دو مشاهدات پرت به شدت میانگین را تغییر داده و واریانس را به شدت افزایش می دهد.

همگنی واریانس و کوواریانس

مفروضاتدر طرح‌های چند متغیره، با معیارهای وابسته به چند متغیره، مفروضات همگنی واریانس که قبلاً توضیح داده شد نیز اعمال می‌شود. با این حال، از آنجایی که متغیرهای وابسته چند متغیره وجود دارد، همچنین لازم است که همبستگی متقاطع (کوواریانس) آنها در تمام سلول های طرح یکنواخت باشد. مدول تحلیل واریانسراه های مختلفی برای آزمایش این مفروضات ارائه می دهد.

اثرات نقض. آنالوگ چند بعدی اف- معیار - λ-آزمون Wilks. اطلاعات زیادی در مورد پایداری (استحکام) آزمون λ Wilks با توجه به نقض مفروضات فوق وجود ندارد. با این حال، از تفسیر نتایج ماژول تحلیل واریانسمعمولاً بر اساس اهمیت تأثیرات تک متغیره است (پس از تعیین اهمیت معیار مشترک)، بحث استحکام عمدتاً به تحلیل واریانس تک متغیره مربوط می شود. بنابراین، اهمیت اثرات یک بعدی باید به دقت بررسی شود.

مورد ویژه: تحلیل کوواریانس.هنگامی که متغیرهای کمکی در طرح گنجانده شوند، به ویژه نقض شدید همگنی واریانس/کوواریانس ممکن است رخ دهد. به طور خاص، اگر همبستگی بین متغیرهای کمکی و معیارهای وابسته در سلول های مختلف طرح متفاوت باشد، ممکن است تفسیر نادرست نتایج به دنبال داشته باشد. باید به خاطر داشت که در تجزیه و تحلیل کوواریانس، در اصل، یک تحلیل رگرسیون در هر سلول انجام می شود تا آن قسمت از واریانس را که با متغیر کمکی مطابقت دارد جدا شود. فرض همگنی واریانس/کوواریانس فرض می‌کند که این تحلیل رگرسیون تحت محدودیت زیر انجام می‌شود: معادلات رگرسیون(شیب ها) برای همه سلول ها یکسان است. اگر این در نظر گرفته نشده باشد، ممکن است خطاهای بزرگی رخ دهد. مدول تحلیل واریانسچندین معیار ویژه برای آزمایش این فرض دارد. ممکن است توصیه شود از این معیارها برای اطمینان از اینکه معادلات رگرسیون برای سلول های مختلف تقریباً یکسان است استفاده کنید.

کرویت و تقارن پیچیده: دلایل استفاده از رویکرد اندازه گیری های مکرر چند متغیره در تحلیل واریانس

در طرح های حاوی عوامل اندازه گیری مکرر با بیش از دو سطح، استفاده از تحلیل واریانس تک متغیره به مفروضات اضافی نیاز دارد: مفروضات تقارن پیچیده و مفروضات کروی. این فرضیات به ندرت برآورده می شوند (به زیر مراجعه کنید). بنابراین، در سال های گذشتهتحلیل واریانس چند متغیره در چنین طرح هایی محبوبیت پیدا کرده است (هر دو رویکرد در ماژول ترکیب شده اند تحلیل واریانس).

فرض تقارن مختلطفرض تقارن مختلط این است که واریانس‌ها (کل درون گروهی) و کوواریانس‌ها (بر اساس گروه) برای اندازه‌گیری‌های تکراری مختلف یکنواخت هستند (یکسان). این یک شرط کافی برای معتبر بودن آزمون F تک متغیره برای اندازه گیری های مکرر است (یعنی مقادیر F گزارش شده به طور متوسط ​​با توزیع F مطابقت دارند). اما در این حالت این شرط ضروری نیست.

فرض کروی بودن.فرض کروی بودن شرط لازم و کافی برای توجیه معیار F است. این واقعیت شامل این واقعیت است که در گروه ها همه مشاهدات مستقل و به طور مساوی توزیع شده اند. ماهیت این مفروضات، و همچنین تأثیر نقض آنها، معمولاً در کتابهای تجزیه و تحلیل واریانس به خوبی توضیح داده نمی شود - این یکی در پاراگراف های بعدی توضیح داده خواهد شد. همچنین نشان خواهد داد که نتایج رویکرد تک متغیره ممکن است با نتایج رویکرد چند متغیره متفاوت باشد و توضیح دهد که این به چه معناست.

لزوم استقلال فرضیه ها.روش کلی برای تجزیه و تحلیل داده ها در تحلیل واریانس است مناسب مدل. اگر، با توجه به مدل مربوط به داده ها، برخی از آنها وجود دارد پیشینفرضیه ها، سپس واریانس برای آزمایش این فرضیه ها تقسیم می شود (معیارهای اثرات اصلی، تعاملات). از نقطه نظر محاسباتی، این رویکرد مجموعه ای از تضادها (مجموعه مقایسه میانگین ها در طراحی) را ایجاد می کند. با این حال، اگر تضادها مستقل از یکدیگر نباشند، تقسیم بندی واریانس ها بی معنی می شود. به عنوان مثال، اگر دو تضاد آو بیکسان هستند و قسمت مربوطه از واریانس انتخاب می شود، سپس همان قسمت دو بار انتخاب می شود. برای مثال، احمقانه و بیهوده است که دو فرضیه را مشخص کنیم: "میانگین در سلول 1 بیشتر از میانگین سلول 2 است" و "میانگین در خانه 1 از میانگین سلول 2 بیشتر است". پس فرضیه ها باید مستقل یا متعامد باشند.

فرضیه های مستقل در اندازه گیری های مکرر.الگوریتم عمومی پیاده سازی شده در ماژول تحلیل واریانس، سعی خواهد کرد تضادهای مستقل (متعامد) برای هر اثر ایجاد کند. برای عامل اندازه گیری های مکرر، این تضادها فرضیه های زیادی را در مورد آنها ایجاد می کند تفاوتبین سطوح عامل در نظر گرفته شده است. با این حال، اگر این تفاوت ها در گروه ها همبستگی داشته باشند، تضادهای حاصل دیگر مستقل نیستند. به عنوان مثال، در آموزش هایی که فراگیران در یک ترم سه بار اندازه گیری می شوند، ممکن است این اتفاق بیفتد که تغییرات بین بعد 1 و 2 با تغییر بین ابعاد 2 و 3 موضوعات مرتبط باشد. کسانی که بیشتر مطالب را بین بعد 1 و 2 تسلط دارند، در مدت زمانی که بین بعد 2 و 3 سپری شده است، به قسمت کوچکتری تسلط دارند. در واقع، برای اکثر مواردی که از آنالیز واریانس در اندازه‌گیری‌های مکرر استفاده می‌شود، می‌توان فرض کرد که تغییرات در سطوح بین آزمودنی‌ها همبستگی دارد. با این حال، هنگامی که این اتفاق می افتد، مفروضات تقارن پیچیده و کروی برآورده نمی شوند و تضادهای مستقل را نمی توان محاسبه کرد.

تاثیر تخلفات و راه های اصلاح آن.هنگامی که مفروضات تقارن پیچیده یا کروی برآورده نمی شوند، تجزیه و تحلیل واریانس می تواند نتایج اشتباهی ایجاد کند. قبل از اینکه رویه‌های چند متغیره به اندازه کافی توسعه یابند، چندین فرض برای جبران نقض این مفروضات مطرح شد. (به عنوان مثال به Greenhouse & Geisser، 1959 و Huynh & Feldt، 1970 مراجعه کنید). این روش ها هنوز هم امروزه به طور گسترده مورد استفاده قرار می گیرند (به همین دلیل است که در ماژول ارائه می شوند تحلیل واریانس).

رویکرد تحلیل واریانس چند متغیره برای اندازه گیری های مکرر.به طور کلی، مسائل مربوط به تقارن و کروییت مختلط به این موضوع اشاره دارد که مجموعه تضادهای موجود در بررسی تأثیر عوامل اندازه گیری مکرر (با بیش از 2 سطح) مستقل از یکدیگر نیستند. با این حال، در صورت استفاده از آنها لازم نیست مستقل باشند. چند بعدیمعیار تایید همزمان اهمیت آماریکنتراست عامل دو یا چند اندازه گیری مکرر به همین دلیل است که روش های تحلیل واریانس چند متغیره به طور فزاینده ای برای آزمایش اهمیت عوامل اندازه گیری مکرر تک متغیره با بیش از 2 سطح مورد استفاده قرار گرفته اند. این رویکرد به طور گسترده مورد استفاده قرار می گیرد زیرا معمولاً به فرض تقارن پیچیده و فرض کروی بودن نیاز ندارد.

مواردی که نمی توان از روش تحلیل واریانس چند متغیره استفاده کرد.نمونه‌هایی (طرح‌هایی) وجود دارد که رویکرد تحلیل واریانس چند متغیره را نمی‌توان اعمال کرد. اینها معمولاً مواردی هستند که تعداد کمی از موضوعات در طراحی و سطوح زیادی در فاکتور اندازه گیری های مکرر وجود دارد. سپس ممکن است مشاهدات بسیار کمی برای انجام یک تحلیل چند متغیره وجود داشته باشد. به عنوان مثال، اگر 12 موجودیت وجود داشته باشد، پ = 4 ضریب اندازه گیری های مکرر و هر عامل دارای ک = 3 سطوح سپس تعامل 4 عامل "هزینه" می شود (ک-1) ص = 2 4 = 16 درجه آزادی. با این حال، تنها 12 موضوع وجود دارد، از این رو نمی توان یک آزمون چند متغیره را در این مثال انجام داد. مدول تحلیل واریانسبه طور مستقل این مشاهدات را تشخیص داده و تنها معیارهای یک بعدی را محاسبه می کند.

تفاوت در نتایج تک متغیره و چند متغیره.اگر مطالعه شامل تعداد زیادی اندازه‌گیری مکرر باشد، ممکن است مواردی وجود داشته باشد که رویکرد اندازه‌گیری‌های تکراری تک متغیره ANOVA نتایج بسیار متفاوتی با نتایج به‌دست‌آمده با رویکرد چند متغیره به همراه داشته باشد. این به این معنی است که تفاوت بین سطوح اندازه‌گیری‌های مکرر مربوطه بین افراد مرتبط است. گاهی اوقات این واقعیت مورد توجه مستقل است.

تحلیل واریانس چند متغیره و مدلسازی ساختاری معادلات

در سال‌های اخیر، مدل‌سازی معادلات ساختاری به عنوان جایگزینی برای تحلیل پراکندگی چند متغیره رایج شده است (به‌عنوان مثال، باگوزی و یی، 1989؛ باگوزی، یی، و سینگ، 1991؛ کول، ماکسول، آروی و سالاس، 1993 را ببینید). این رویکرد به شما امکان می دهد تا فرضیه ها را نه تنها در مورد میانگین در گروه های مختلف، بلکه در مورد ماتریس های همبستگی متغیرهای وابسته نیز آزمایش کنید. به عنوان مثال، می توانید فرضیات مربوط به همگنی واریانس و کوواریانس را کاهش دهید و به صراحت در مدل برای هر گروه از واریانس و کوواریانس، خطاها را وارد کنید. مدول آمارمدل سازی معادلات ساختاری (SEPATH) (رجوع کنید به جلد سوم) چنین تحلیلی را اجازه می دهد.

تجزیه و تحلیل واریانس برای شناسایی تأثیر بر شاخص مورد مطالعه برخی از عوامل که معمولاً قابل اندازه‌گیری نیستند استفاده می‌شود. ماهیت روش این است که تنوع کل شاخص مورد مطالعه را به بخش های مربوط به تأثیر مجزا و مشترک عوامل تجزیه و تحلیل آماری این بخش ها به منظور تعیین قابل قبول بودن فرضیه ها در مورد عدم وجود این تأثیرات. مدل های ANOVA بسته به تعداد فاکتورها به دسته بندی می شوند تک عاملی, دو عاملیو غیره. با توجه به هدف مطالعه، مدل های زیر متمایز می شوند: قطعی(Ml) - در اینجا سطوح همه عوامل از قبل ثابت شده است و این تأثیر آنها است که بررسی می شود. تصادفی(M2) - در اینجا سطوح هر عامل به صورت نمونه تصادفی از جامعه عمومی سطوح عاملی به دست می آید و مختلط(M3) - در اینجا سطوح برخی از عوامل از قبل ثابت شده است و سطوح برخی دیگر یک نمونه تصادفی است.

تحلیل واریانس یک طرفه

ANOVA یک طرفه بر اساس مدل احتمالی زیر است:

مقدار متغیر تصادفی Y که در سطح D (,) , / = گرفته شده است کجاست

1،2،...، v، عوامل Lدر مشاهده &-ام، k = 1,2, ..., پ،؛

حدود 1 «1 - تأثیر تأثیر بر UGسطح D®;

e® متغیرهای تصادفی مستقلی هستند که تأثیر عوامل باقیمانده کنترل نشده را بر Y/"* و همه e* 1 ~ منعکس می کنند. N( 0, یا).

علاوه بر این، در مدل Ml، همه 0 (،) کمیت های قطعی هستند

و e ("H \u003d 0؛ و در مدل M2 0 (،) - متغیرهای تصادفی (مقادیر تصادفی

اثر چای 0)، 0® = 0 که در آن 0 - ;V(0، st in)، و همه 0® و e*' مستقل هستند.

بیایید تنوع رایج را پیدا کنیم S2علامت موثر Y و دو جزء آن - S 2 Aو اس آرمنعکس کننده، به ترتیب، تاثیر عامل ولیو تأثیر عوامل باقیمانده:

تأیید آن آسان است S2 = S 2 A +. تقسیم تمام قسمت ها

این برابری روی i، دریافت می کنیم:

این قانون به این صورت است: واریانس کلمشاهدات برابر است با مجموع بین گروهیواریانس (این واریانس سو است (معنای گروه 0) و درون گروهیواریانس (این میانگین است یک 2از واریانس های گروهی).

برای اینکه بفهمیم آیا عامل ولیبرای یک نتیجه:

  • ? در مدل Ml، این فرضیه آزمایش می شود H 0: 0 (|) = 0 (2) = ... = 0 (v) =0 (اگر پذیرفته شود، برای همه جوهرانتظارات ریاضی MU / "* \u003d A / Y [به فرمول (8.4.1) مراجعه کنید]، به این معنی که وقتی سطح عامل تغییر می کند، میانگین عمومی گروه تغییر نمی کند، یعنی سطوح در نظر گرفته شده عامل ولی Y را تحت تأثیر قرار ندهید.
  • ? در مدل M2، این فرضیه آزمایش می شود H 0 = 0 (پذیرش آن به این معنی است که اثر 0 یک مقدار ثابت است و با در نظر گرفتن شرط M0 = 0، 0 = 0، یعنی ضریب را بدست می آوریم. ولی U را تحت تأثیر قرار نمی دهد).

معیارهای آزمون این فرضیه ها و سایر فرضیه ها و همچنین تخمین پارامترهای مدل (8.4.1) در جدول آورده شده است. 8.5.

مشکل 8.7. محقق می‌خواهد دریابد که آیا چهار روش تبلیغ یک محصول از نظر تأثیر بر حجم فروش آن متفاوت است یا خیر. برای انجام این کار، در هر یک از چهار شهر از یک نوع (استفاده کردند راه های مختلفتبلیغات) اطلاعات جمع آوری شده در مورد حجم فروش کالاها (در واحدهای پولی) در چهار فروشگاه به صورت تصادفی انتخاب شده و مشخصات نمونه مربوطه محاسبه می شود:

راه حل. اینجا عامل ولییک روش تبلیغاتی است؛ چهار سطح آن ثابت است، و معلوم می شود که آیا این سطوح از نظر تأثیرگذاری متفاوت هستند - این مدل Ml تجزیه و تحلیل تک عاملی است.

جایی که e** مستقل است؟** N(0,g ر).

زیرا منو همه 0 (،) مقادیر ثابت هستند، سپس هنگامی که (8.4.3) ارضا شد، مشاهدات مستقل هستند و همه

اجازه دهید فرض کنیم که استقلال مشاهدات توسط سازماندهی آزمایش تضمین شده است. شرط (8.4.4) به این معنی است که حجم فروش با روش r "-امین تبلیغات دارای قانون توزیع نرمال با انتظار ریاضی a، \u003d است. من + 0 (،) و با واریانس یکسان برای همه روش ها. بیایید فرض کنیم که یک توزیع نرمال وجود دارد. با استفاده از معیار بارتلت (به جدول 8.3 مراجعه کنید)، مطمئن می شویم که نتایج آزمون به ما اجازه می دهد تا فرضیه را بپذیریم. N "n: در باره؟ =... = اولمحاسبه کنید


مطابق جدول بند 6.3 با k=v-l=3np=a= 0.05 پیدا کنید % 2 a = ha = 7.82; از 1.538 N "0 قبول می کنیم.

حال بیایید فرضیه کلیدی تحلیل واریانس را آزمایش کنیم H 0: 0 متر =... = 0 S 2 A = 220.19، S 2 R\u003d 39.27، S "2 \u003d 259.46؛ با اطمینان از اینکه برابری (8.4.2) درست است، برآورد (8.4.5) را پیدا می کنیم (جدول 8.5 را ببینید) s2 = 39.27/12 = 3.27 واریانس یک 2 تا; بررسی کنید که آیا نابرابری (8.4.6) برآورده شده است (جدول 8.5 را ببینید):

مطابق جدول ص 6.4 در = 3، به 2 = 12 و p = a = 0.05 پیدا کنید F2a = فا= 3.49. از 22.43 > 3.49، نابرابری (8.4.6) ارضا می شود. بنابراین، فرضیه

شرایط و معیارهای آزمون فرضیه های تحلیل واریانس یک طرفه

H 0: 0 (|) = ... = 0 (4) = 0 رد: ما معتقدیم که روش های ثابت تبلیغات محصولات بر فروش تأثیر می گذارد. در حین تأثیرگذاری

= 84.9٪ تغییر در حجم فروش.

بیایید شرایط مشکل را تغییر دهیم. فرض کنید راه های تبلیغ یک محصول از قبل مشخص نیست، بلکه به طور تصادفی از کل مجموعه راه ها انتخاب می شوند. سپس پی بردن به این سؤال که آیا روش تبلیغات تأثیر می گذارد یا نه، به آزمون فرضیه ختم می شود اچ 0: Og = 0 مدل M2. معیار تأیید آن مانند مدل Ml است. از آنجا که شرط (8.4.6) برای رد فرضیه H 0: o 2 اینچ = 0 راضی است، حداقل تا زمانی که داده های اضافی به دست نیاید، این فرضیه را رد می کنیم: ما معتقدیم که نحوه تبلیغ کالا (در کل مجموعه این راه ها) بر حجم فروش تأثیر می گذارد.

تحلیل واریانس دو طرفه

(با همین شماره تی> 1 مشاهدات برای ترکیبات مختلف سطوح عامل)

تحلیل واریانس دو طرفه بر اساس مدل احتمالی زیر است:

که در آن Y / 1 ' 7) مقدار متغیر تصادفی Y، گرفته شده در سطح A("I = 1,2, ..., v Aعامل الف ولیو سطح 5®، y = 1،2، ...، v Bعامل الف ATکه در به-m مشاهده، k = 1،2، ...، / و; 0^، 0 (th y)، 0^d y) - اثرات تأثیر بر Y / 1 '، به ترتیب، سطوح ولی (" 5® و تعاملات A (0و ب- متغیرهای تصادفی مستقل که منعکس کننده تأثیر بر U/ 1 'y) عوامل باقیمانده کنترل نشده، و e?' l~ /V (()، a l) هستند.

بیایید تنوع رایج را پیدا کنیم S2علامت U و چهار جزء آن - S 2 a اس 2 B S2ab، S 2 r که به ترتیب تأثیر عوامل را منعکس می کند الف، بتعاملات و عوامل باقیمانده آنها:


تأیید آن آسان است S2 = + S 2 B + S 2 iB + S B.

برآورد پارامترهای هر سه نوع مدل (8.4.9): Ml، M2 و M3، فرضیه های مورد آزمایش و معیارهای تأیید آنها در جدول آورده شده است. 8.6. مدل‌های M2 و M3 فرض می‌کنند که همه اثرات تصادفی هم در بین خودشان و هم با یکدیگر مستقل هستند e^' J) .

مدل پراکندگی تک عاملیفرم را دارد

جایی که Xjj-مقدار متغیر مورد مطالعه، به دست آمده در سطح zعامل (r = 1, 2,..., ت)شماره سریال su-th (j- 1,2,..., پ)؛/y - اثر ناشی از تأثیر سطح i-ام عامل؛ e^. - یک جزء تصادفی، یا یک اختلال ناشی از تأثیر عوامل غیرقابل کنترل، به عنوان مثال. تغییر یک متغیر در یک سطح

زیر سطح عاملمقداری از اندازه یا حالت آن قابل درک است، مثلاً مقدار کودهای مصرفی، نوع ذوب فلز یا تعداد دسته قطعات و غیره.

پیش نیازهای اساسی برای تحلیل واریانس.

1. انتظارات ریاضی از اغتشاش ? (/ - برای هر i صفر است،آن ها

  • 2. اغتشاشات متقابل مستقل هستند.
  • 3. پراکندگی اغتشاش (یا متغیر Xu) برای هر ij> ثابت استآن ها

4. اغتشاش e# (یا متغیر Xu) دارای قانون توزیع نرمال N( 0; الف 2).

تأثیر سطوح عامل می تواند به عنوان درست شد، یا نظام(مدل I)، و تصادفی(مدل II).

به عنوان مثال، لازم است بفهمیم که آیا تفاوت های قابل توجهی بین دسته های محصولات از نظر برخی از شاخص های کیفیت وجود دارد، یعنی. بررسی تاثیر بر کیفیت یک عامل - دسته ای از محصولات. اگر تمام دسته‌های مواد خام در مطالعه گنجانده شوند، تأثیر سطح چنین عاملی سیستماتیک است (مدل I) و یافته‌ها فقط برای آن دسته از دسته‌های فردی که در مطالعه شرکت داشتند قابل اعمال است. اگر فقط بخشی از دسته‌ها به‌طور تصادفی انتخاب شده باشد، تأثیر این عامل تصادفی است (مدل II). در مجتمع های چند عاملی، یک مدل مخلوط III امکان پذیر است که در آن برخی از عوامل دارای سطوح تصادفی هستند، در حالی که برخی دیگر ثابت هستند.

بیایید این مشکل را با جزئیات بیشتری در نظر بگیریم. بذار باشه تیدسته ای از محصولات از هر دسته بر این اساس انتخاب شده است p L، p 2 ,p tمحصولات (برای سادگی، ما این را فرض می کنیم u = n 2 =... = n t = n).ما مقادیر شاخص کیفیت این محصولات را در قالب یک ماتریس مشاهدات نشان می دهیم


بررسی اهمیت تأثیر دسته های محصولات بر کیفیت آنها ضروری است.

اگر فرض کنیم که عناصر ردیف های ماتریس مشاهده مقادیر عددی (تحققات) متغیرهای تصادفی هستند. X t، X 2 ,..., x t،به ترتیب بیانگر کیفیت محصولات و داشتن قانون توزیع نرمال با انتظارات ریاضی است a v a 2، ..., یک تیو همان واریانس a 2 را تغییر می دهد، سپس این مشکل به آزمایش فرضیه صفر 0 کاهش می یابد: a v = a 2l = ... = آ t، در تحلیل واریانس انجام شد.

اجازه دهید به جای شاخص، میانگین را در برخی از شاخص ها با یک ستاره (یا یک نقطه) نشان دهیم، سپس شاخص کیفیت متوسط ​​محصولات دسته i-ام، یا میانگین گروهبرای سطح i-ام عامل، شکل می گیرد

آ میانگین کلی -

مجموع مجذور انحراف مشاهدات از میانگین کل xn را در نظر بگیرید:

یا Q= Q+ Q2+ ?>ز آخرین ترم

از آنجایی که مجموع انحرافات مقادیر متغیر از میانگین آن، یعنی. ? 1.g y - x) برابر با صفر است. ) = x

عبارت اول را می توان به صورت نوشتاری نوشت

در نتیجه، هویت زیر را دریافت می کنیم:

t p. _

جایی که Q=Yایکس [ x ij _ x "، I 2 - عمومی،یا کامل،مجموع انحرافات مجذور؛ 7=1

س، -n^)

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...