ANOVA (آنالیز واریانس) یک آزمون آماری برای تعیین تفاوت موجود بین میانگینهای دو یا چند جامعه آماری مستقل است. به عبارت دیگر، تکنیک آنالیز واریانس برای مقایسه دو یا چند گروه مورد استفاده قرار میگیرد تا بررسی شود که تفاوت قابل توجهی دارند یا خیر.
در عمل معمولاً از آزمون T-Student برای مقایسه دو گروه استفاده میشود. در حالی که آزمون ANOVA تعمیمی از آزمون T-Student است و بنابراین برای مقایسه ۳ گروه یا بیشتر، کاربرد دارد.
توجه داشته باشید که انواع متفاوتی از ANOVA وجود دارد. به عنوان مثال؛ تحلیل واریانس یک طرفه (One-way ANOVA)، تحلیل واریانس دو طرفه (Two-way ANOVA)، تحلیل واریانس آمیخته (Mixed ANOVA)، تحلیل واریانس با اندازهگیریهای مکرر (repeated measures ANOVA) و غیره. در این مقاله، سادهترین فرم این آزمون، یعنی تحلیل واریانس یک طرفه (One-way ANOVA) را ارائه میدهیم. سپس، تحلیل واریانس دو طرفه (Two-way ANOVA) را مورد بررسی قرار میدهیم. همچنین در انتها طرح بلوکبندی تصادفی شده (Randomized Blocks) را معرفی خواهیم کرد.
اگرچه از ANOVA برای استنباط در مورد میانگین گروههای مختلف استفاده میشود، اما این روش «تحلیل واریانس» نامیده میشود. علت این نامگذاری آن است که ANOVA، واریانس «بین گروهها» را با واریانس «درون گروهها»، مقایسه میکند. اگر واریانس «بین گروهها» (Between Groups) نسبت به واریانس «درون گروهها» (Within Groups) به طور معناداری زیاد نباشد، میتوان به یکسان بودن میانگین گروهها رای داد. در تصویر زیر واریانس درون گروهی و بین گروهی به طور کامل نشان داده شده است.
مانند هر آزمون دیگر، آنالیز واریانس نیز احتیاج به یک آماره آزمون دارد. آماره آزمون برای ANOVA دارای توزیع F است. این آماره نسبت تغییرات «بین گروهها» به «درون گروهی» را اندازهگیری میکند.
بزرگ بودن مقدار F نشانهای برای رد فرض صفر است، زیرا مشخص است که صورت بزرگتر از مخرج است. در نتیجه گروهها دارای پراکندگی بین گروهی بیشتری نسبت به پراکندگی درون گروهها هستند. به این ترتیب متوجه میشویم که جوامعی که این گروهها را تشکیل میدهند، یکسان نیستند. از آنجایی که توزیع نرمال و واریانس نیز ثابت در نظر گرفته شده است، تنها عاملی که باعث تفاوت بین جامعهها است، میانگین است. پس فرض صفر که برابری میانگین گروهها را نشان میهد، رد خواهد شد.
به طور خلاصه، به تئوری گفته شده در مورد روش ANOVA، بسنده میکنیم. در ادامه این مقاله، از دیدگاه عملیتر به بحث در مورد آن میپردازیم و به طور خاص، موارد زیر را پوشش خواهیم داد:
در این مقاله از مجموعه دادههای پنگوئنها استفاده شده است که از طریق کتابخانه {palmerpenguins} قابل دسترسی است:
این مجموعه داده شامل اطلاعات ۳۴۴ پنگوئن از ۳ گونه مختلف (Adelie ،Chinstrap و Gentoo) است. مجموعه داده شامل ۸ متغیر است اما ما فقط از متغیرهای طول باله (flipper length) و گونههای پنگوئنها (species) در تحلیل واریانس یک طرفه (One-way ANOVA) استفاده میکنیم ، بنابراین در این بخش، فقط این ۲ متغیر را نگه میداریم:
قبل از اجرای آزمون ANOVA، در ادامه برخی از آمارههای توصیفی مهم و یک نمودار (با استفاده از کتابخانه {ggplot2}) از دیتاست را بررسی میکنیم:
طول بالهها از ۱۷۲ تا ۲۳۱ میلیمتر متغیر است و میانگین آنها ۲۰۰/۹ میلیمتر است. همچنین به ترتیب ۱۵۲، ۶۸ و ۱۲۴ پنگوئن از گونههای Adelie ،Chinstrap و Gentoo وجود دارد.
در اینجا، متغیر گونهها (species) را به عنوان عامل (Factor) در نظر میگیریم که شامل ۳ سطح (Adelie ،Chinstrap و Gentoo) است.
همانطور که در مقدمه ذکر شد، از ANOVA برای مقایسهی گروهها (در عمل، ۳ گروه یا بیشتر) استفاده میشود. به طور کلی، موارد استفاده از آزمون ANOVA عبارتاند از:
برای آزمون ANOVA، برخی مفروضات وجود دارد که باید برای دستیابی به تفسیر نتایج، برقرار باشند. اگر یک یا چند فرض برآورده نشود، اگرچه انجام این تستها از نظر عملی امکان پذیر است، اما در تفسیر نتایج و اعتماد به نتیجهگیری با مشکل روبهرو خواهیم بود. فرضیات ANOVA و نحوه آزمون آنها، عبارتاند از:
در مثال مربوط به دیتاست پنگوئن ها، به کمک آزمون آنالیز واریانس یک طرفه، میخواهیم بررسی کنیم که «آیا گونههای متفاوت از پنگوئنها دارای طول بالههای متفاوت هستند یا خیر؟»
برای پاسخ به این پرسش آزمون فرض را به این صورت در نظر میگیریم:
فرض صفر: میانگین طول بالهها برای هر سه گونهی Adelie ،Chinstrap و Gentoo یکسان است.
فرض مقابل: حداقل میانگین طول بالهها برای یک گونه، متفاوت از دو گونهی دیگر است.
توجه کنید که فرض مقابل این نیست که همه میانگینها متفاوت هستند. نقیض فرض صفر به این معنی است که حداقل یک میانگین با دیگر میانگینها متفاوت باشد. از این نظر، اگر فرض صفر رد شود، به این معنی است که حداقل یک گونه با ۲ گونه دیگر متفاوت است اما لزوماً میانگین هر ۳ گونه با یکدیگر متفاوت نیستند. ممکن است طول بالهها برای گونه Adelie نسبت به گونههای Chinstrap و Gentoo متفاوت باشد، اما طول بالهای دو گونه Chinstrap و Gentoo مشابه باشد. برای بررسی تفاوت هر سه گونه از آزمونهای دیگری، معروف به post-hoc کمک میگیریم که در ادامه معرفی میشوند.
همچنین برای اجرای آزمون فرض فوق، مدل آماری آنالیز واریانس یک طرفه به صورت زیر خواهد بود:
که در آن، μ میانگین کل، τi اثر سطح iآُم متغیر عامل (تیمار) و ε به عنوان خطا تعریف میشود. همچنین مجموع مربعات برای این آزمایش به صورت زیر تجزیه میشود:
بنابراین جدول آنالیز واریانس به صورت زیر خواهد بود:
اکنون مفروضات اساسی آزمون ANOVA را به طور خاص برای دیتاست پنگوئن بررسی میکنیم.
متغیر وابسته flipper_length_mm، یک متغیر کمی است و متغیر مستقل species، یک متغیر کیفی (با سه سطح) است. بنابراین ما ترکیبی از دو نوع متغیر داریم و این فرض برقرار است.
فرض بر این است که مشاهدات در دیتاست پنگوئن به طور تصادفی از جامعه انتخاب شدهاند و بنابراین فرض استقلال برای این مشاهدات برقرار است و همچنین اندازه گیریهای مربوط به هر یک از سه گروه، به گروه دیگر ارتباطی ندارد.
برای بررسی نرمال بودن ماندهها، ابتدا آزمون ANOVA را اجرا میکنیم و سپس ماندهها را در res_aov ذخیره میکنیم:
اکنون میتوانیم هیستوگرام و QQ-plot را برای ماندهها رسم کنیم:
با توجه به هیستوگرام و QQ-plot، میتوان فرض نرمال بودن را پذیرفت. در واقع، هیستوگرام تقریباً یک منحنی زنگولهای شکل است که نشان میدهد باقیماندهها از توزیع نرمال پیروی میکنند. علاوه بر این، نقاط در QQ-plot، تقریباً بر روی نیمساز ربع اول و سوم، قرار گرفتهاند و از توزیع نرمال پیروی میکنند. همچنین میتوان برای اطمینان بیشتر از آزمون شاپیرو در نرم افزار R، استفاده کرد. فرض صفر این آزمون بیان میکند که مشاهدات دارای توزیع نرمال هستند.
با توجه به خروجی نرم افزار، p-value برای آزمون شاپیرو بیشتر از سطح معناداری ۰/۰۵ است و بنابراین میتوان فرض نرمال بودن را برای ماندهها پذیرفت.
برای بررسی این فرض ابتدا نمودار جعبهای را برای مشاهدات رسم میکنیم:
نمودار جعبهای واریانس مشابهی برای گونههای مختلف پنگوئن، نشان میدهد. از این نمودار، میتوان فهمید که جعبهها اندازهی یکسانی برای همه گونهها دارند و این واقعیت، تاییدی بر همگنی واریانس در سه گروه است. همچنین میتوان برای اطمینان بیشتر از آزمون لون در نرم افزار R، استفاده کرد. فرض صفر این آزمون بیان میکند که واریانس همهی گروهها با هم برابر است.
با توجه به خروجی نرم افزار، p-value برای آزمون لون بیشتر از سطح معناداری ۰/۰۵ است و بنابراین میتوان فرض همگنی واریانس را برای هر سه گروه پذیرفت.
به این ترتیب نشان دادیم که تمام مفروضات آزمون آنالیز واریانس یک طرفه برای دیتاست پنگوئن برقرار است. بنابراین میتوانیم برای پاسخ به پرسش «آیا گونههای متفاوت از پنگوئنها دارای طول بالههای متفاوت هستند یا خیر؟»، به اجرای ANOVA در R بپردازیم. به همین منظور از دو تابع summary و aov استفاده میکنیم:
با توجه به خروجی نرم افزار، p-value برای آزمون آنالیز واریانس یک طرفه کمتر از سطح معناداری ۰/۰۵ است و در نتیجه فرض صفر را نمیتوان پذیرفت. بنابراین این فرض که همه میانگینها برابر هستند، را رد میکنیم و میتوان نتیجه گرفت که حداقل یک گونه از نظر طول باله با گونههای دیگر متفاوت است.
اکنون که فرض برابری میانگین طول بالهها برای سه گونهی متفاوت از پنگوئنها، رد شد، علاقهمند هستیم که بدانیم میانگین کدام گروه از گونههای Adelie ،Chinstrap و Gentoo متفاوت است؟ برای بررسی این موضوع، باید از انواع دیگر آزمونها، با عنوان آزمونهای post-hoc (به معنای «پس از این» یا «پس از به دست آوردن نتایج معنادار ANOVA») استفاده کرد.
همانطور که در خروجی دستور aov دیده شد، تحلیل واریانس، مشخص نمیکند که کدام یک از گروهها باعث ایجاد اختلاف هستند. بنابراین برای تشخیص گروه متفاوت، میانگین گروهها را دو به دو با یکدیگر مقایسه میکنیم.
یکی از انواع آزمونهای post-hoc، آزمون معروف توکی (TukeyHSD) است که مقایسه میانگینها به صورت دو به دو را برای ما در نرم افزار R، اجرا میکند. همچنین لازم به ذکر است که آزمون توکی، پس از اجرای آزمون ANOVA، صورت میگیرد و خروجی aov را به عنوان ورودی میگیرد:
در خروجی آزمون Tukey HSD، یک جدول نمایش داده شده است. مقایسههای دوتایی در ستون اول این جدول مشخص شده است. براساس ستون آخر که p-value را برای آزمون اختلاف میانگین دو گروه نشان میدهد، متوجه میشویم که هر سه p-value، کوچکتر از ۰/۰۵ هستند و بنابراین فرض صفر را برای همه مقایسهها رد میکنیم. این بدان معنی است که همه گونهها از نظر طول باله تفاوت قابل توجهی دارند.
اگر علاقهمند هستید که نتایج آزمونهای ANOVA و post-hoc را مستقیماً با استفاده از یک نمودار جعبهای مشاهده کنید، میتوانید از کدهای زیر استفاده کنید!
همانطور که در نمودار فوق مشاهده میکنید، نمودار جعبهای بر اساس گونهها، همراه با p-value حاصل از آزمونهای ANOVA و post-hoc، ارائه شده است.
در تحلیل واریانس دو طرفه، یک متغیر عامل دیگر نیز به مدل اضافه میشود. به این ترتیب تاثیر دو متغیر عامل بر روی متغیر پاسخ را بررسی میکنیم.
در ادامه مثال قبلی، فرض کنید که متغیر جنسیت را به عنوان متغیر دوم، به مدل اضافه کردهایم. به کمک آزمون آنالیز واریانس دو طرفه، میخواهیم بررسی کنیم که «آیا گونههای متفاوت از پنگوئنها و همچنین جنسیت پنگوئنها، تاثیری بر طول بالههای پنگوئنها دارند یا خیر؟»
برای پاسخ به این پرسش باید سه آزمون فرض، به صورت زیر را در نظر بگیریم:
همچنین برای اجرای آزمون فرض فوق، مدل آماری آنالیز واریانس دو طرفه به صورت زیر خواهد بود:
که در آن، μ میانگین کل، τi اثر سطح iآُم متغیر عامل A و βj اثر سطح jآُم متغیر عامل B و τβ)ij) اثر متقابل بین عامل A و عامل B، همچنین ε به عنوان خطا تعریف میشود. مجموع مربعات برای این آزمایش به صورت زیر تجزیه میشود:
بنابراین جدول آنالیز واریانس به صورت زیر خواهد بود:
برای دیتاست پنگوئنها، با استفاده از نرم افزار R، هر سه آزمون را با استفاده از کدهای زیر اجرا میکنیم:
با توجه به خروجی نرم افزار و p-value، هر دو متغیر گونههای متفاوت از پنگوئنها و همچنین جنسیت پنگوئنها، به طور مستقل بر روی متغیر طول بالههای پنگوئنها، تاثیر گذارند. همچنین اثر همزمان و متقابل متغیرهای عامل (گونههای متفاوت و جنسیت پنگوئنها)، بر روی متغیر پاسخ (طول بالههای پنگوئنها)، معنادار است.
در اغلب آزمایشها، تغییرپذیری ناشی از یک عامل اغتشاش میتواند بر نتایج تاثیر گذارد. به طور کلی، یک عامل اغتشاش، به عنوان یکی از عوامل طرح تعریف میشود که احیاناً بر پاسخ تاثیرگذار است ولی ارزیابی اثر آن مورد نظر نیست. در مواردی که منبع تغییرپذیری، مربوط به عامل اغتشاش شناخته شده و قابل کنترل باشد آنگاه میتوان از طریق روش بلوکبندی اثر چنین عاملی را به طور ساختار یافته از مقایسههای آماری بین تیمارها حذف نمود. طرح بلوک بندی کامل تصادفی شده یکی از متداولترین طرحهای آزمایش است. این طرح دارای کاربردهای وسیع است. ابزارها یا دستگاههای آزمایش غالباً از لحاظ عملکرد با یکدیگر متفاوت هستند و معمولاً به عنوان عامل بلوکبندی در نظر گرفته میشوند. دستههای مواد خام، افراد و زمان نیز از متداولترین منابع ایجاد تغییرات در یک آزمایش محسوب میشوند که میتوان آنها را به طور ساختاریافته با استفاده از روش بلوکبندی کنترل کرد.
در مثال مربوط به دیتاست پنگوئنها، فرض کنید میخواهیم بررسی کنیم که «آیا گونههای متفاوت از پنگوئنها که در جزیرههای متفاوت زیست میکنند، طول بالههای متفاوتی دارند یا خیر؟» برای پاسخ به این پرسش، متغیر پاسخ، طول بالهی پنگوئنها، متغیر عامل، گونههای متفاوت از پنگوئنها و متغیر جزیره (island) که دارای سه سطح Biscoe، Dream و Torgersen است را به عنوان عامل بلوکبندی در نظر میگیریم. طرح بلوکبندی تصادفی شده، حالت خاصی از آنالیز واریانس دو طرفه است. به عبارت دیگر، اگر در طرح آنالیز واریانس دو طرفه، اثر متقابل بین عاملها وجود نداشته باشد، مدل بلوک تصادفی به دست خواهد آمد. بنابراین برای آزمون فرضهای
مدل آماری طرح بلوکبندی تصادفی شده، به صورت زیر خواهد بود:
که در آن، μ میانگین کل، τi اثر سطح iآُم متغیر عامل A و βj اثر بلوک jآُم و ε به عنوان خطا تعریف میشود. مجموع مربعات برای این آزمایش به صورت زیر تجزیه میشود:
همچنین، جدول آنالیز واریانس به صورت زیر خواهد بود:
برای اجرا دو آزمون فرض فوق، به کمک نرم افزار R، از کدهای زیر استفاده میشود:
با توجه به خروجی نرم افزار و p-value، متغیر گونههای متفاوت از پنگوئنها به طور مستقل بر روی متغیر طول بالههای پنگوئنها، تاثیر گذار است. اما برای متغیر island، از آنجا که p-value بزرگتر از مقدار ۰/۰۵ است، بنابراین فرض صفر این آزمون، مبنی بر برابر بودن میانگین طول بالهی پنگوئنها در جزیرههای متفاوت Biscoe، Dream و Torgersen، پذیرفته میشود.
به این ترتیب در این مقاله، با اهداف و پیش فرضهای آزمون ANOVA (استقلال، نرمال بودن و همگنی واریانسها) آشنا شدید. همچنین مدلهای آنالیز واریانس یک طرفه، آنالیز واریانس دو طرفه و طرح بلوکبندی تصادفی شده را مورد تحلیل قرار دادیم. طریقهی اجرای این آزمونها، در نرم افزار R مورد بررسی قرار گرفت و برای مقایسهی میانگینها به صورت دو به دو از آزمون توکی استفاده کردیم.