ایردا - IRDA
ایردا - IRDA
خواندن ۱۲ دقیقه·۴ سال پیش

آزمون ANOVA (آنالیز واریانس) در علم آمار

مقدمه:

ANOVA (آنالیز واریانس) یک آزمون آماری برای تعیین تفاوت موجود بین میانگین‌های دو یا چند جامعه آماری مستقل است. به عبارت دیگر، تکنیک آنالیز واریانس برای مقایسه دو یا چند گروه مورد استفاده قرار می‌گیرد تا بررسی شود که تفاوت قابل توجهی دارند یا خیر.

در عمل معمولاً از آزمون T-Student برای مقایسه دو گروه استفاده می‌شود. در حالی که آزمون ANOVA تعمیمی از آزمون T-Student است و بنابراین برای مقایسه ۳ گروه یا بیشتر، کاربرد دارد.

توجه داشته باشید که انواع متفاوتی از ANOVA وجود دارد. به عنوان مثال؛ تحلیل واریانس یک طرفه (One-way ANOVA)، تحلیل واریانس دو طرفه (Two-way ANOVA)، تحلیل واریانس آمیخته (Mixed ANOVA)، تحلیل واریانس با اندازه‌گیری‌های مکرر (repeated measures ANOVA) و غیره. در این مقاله، ساده‌ترین فرم این آزمون، یعنی تحلیل واریانس یک طرفه (One-way ANOVA) را ارائه می‌دهیم. سپس، تحلیل واریانس دو طرفه (Two-way ANOVA) را مورد بررسی قرار می‌دهیم. همچنین در انتها طرح بلوک‌بندی تصادفی شده (Randomized Blocks) را معرفی خواهیم کرد.

اگرچه از ANOVA برای استنباط در مورد میانگین گروه‌های مختلف استفاده می‌شود، اما این روش «تحلیل واریانس» نامیده می‌شود. علت این نامگذاری آن است که ANOVA، واریانس «بین گروه‌ها» را با واریانس «درون گروه‌ها»، مقایسه می‌کند. اگر واریانس «بین گروه‌ها» (Between Groups) نسبت به واریانس «درون گروه‌ها» (Within Groups) به طور معناداری زیاد نباشد، می‌توان به یکسان بودن میانگین گروه‌ها رای داد. در تصویر زیر واریانس درون گروهی و بین گروهی به طور کامل نشان داده شده است.


مانند هر آزمون دیگر، آنالیز واریانس نیز احتیاج به یک آماره آزمون دارد. آماره آزمون برای ANOVA دارای توزیع F است. این آماره نسبت تغییرات «بین گروه‌ها» به «درون گروهی» را اندازه‌گیری می‌کند.


بزرگ بودن مقدار F نشانه‌ای برای رد فرض صفر است، زیرا مشخص است که صورت بزرگتر از مخرج است. در نتیجه گروه‌ها دارای پراکندگی بین گروهی بیشتری نسبت به پراکندگی درون گروه‌ها هستند. به این ترتیب متوجه می‌شویم که جوامعی که این گروه‌ها را تشکیل می‌دهند، یکسان نیستند. از آنجایی که توزیع نرمال و واریانس نیز ثابت در نظر گرفته شده است، تنها عاملی که باعث تفاوت بین جامعه‌ها است، میانگین است. پس فرض صفر که برابری میانگین گروه‌ها را نشان می‌هد، رد خواهد شد.

به طور خلاصه، به تئوری گفته شده در مورد روش ANOVA، بسنده می‌کنیم. در ادامه این مقاله، از دیدگاه عملی‌تر به بحث در مورد آن می‌پردازیم و به طور خاص، موارد زیر را پوشش خواهیم داد:

  • هدف از اجرای آزمون ANOVA، چگونگی فرض صفر و فرض مقابل.
  • مفروضات اساسی ANOVA و نحوه بررسی آنها.
  • نحوه انجام ANOVA در R.
  • نحوه تفسیر نتایج ANOVA.
  • مفهوم آزمون post-hoc و تفسیر نتایج آن.

معرفی داده‌ها:

در این مقاله از مجموعه داده‌های پنگوئن‌ها استفاده شده است که از طریق کتابخانه {palmerpenguins} قابل دسترسی است:


این مجموعه داده شامل اطلاعات ۳۴۴ پنگوئن از ۳ گونه مختلف (Adelie ،Chinstrap و Gentoo) است. مجموعه داده شامل ۸ متغیر است اما ما فقط از متغیرهای طول باله (flipper length) و گونه‌های پنگوئن‌ها (species) در تحلیل واریانس یک طرفه (One-way ANOVA) استفاده می‌کنیم ، بنابراین در این بخش، فقط این ۲ متغیر را نگه می‌داریم:


قبل از اجرای آزمون ANOVA، در ادامه برخی از آماره‌های توصیفی مهم و یک نمودار (با استفاده از کتابخانه {ggplot2}) از دیتاست را بررسی می‌کنیم:

طول باله‌ها از ۱۷۲ تا ۲۳۱ میلی‌متر متغیر است و میانگین آنها ۲۰۰/۹ میلی‌متر است. همچنین به ترتیب ۱۵۲، ۶۸ و ۱۲۴ پنگوئن از گونه‌های Adelie ،Chinstrap و Gentoo وجود دارد.


در اینجا، متغیر گونه‌ها (species) را به عنوان عامل (Factor) در نظر می‌گیریم که شامل ۳ سطح (Adelie ،Chinstrap و Gentoo) است.

اهداف و مفروضات آزمون ANOVA:

همانطور که در مقدمه ذکر شد، از ANOVA برای مقایسه‌ی گروه‌ها (در عمل، ۳ گروه یا بیشتر) استفاده می‌شود. به طور کلی، موارد استفاده از آزمون ANOVA عبارت‌اند از:

  • مطالعه‌ی آنکه آیا اندازه‌گیری‌ها در سطوح مختلف از یک متغیر رده‌ای، مشابه هستند یا خیر.
  • مقایسه‌ی تأثیر سطوح مختلف یک متغیر رده‌ای بر یک متغیر کمی
  • توضیح یک متغیر کمی بر اساس یک متغیر کیفی

برای آزمون ANOVA، برخی مفروضات وجود دارد که باید برای دستیابی به تفسیر نتایج، برقرار باشند. اگر یک یا چند فرض برآورده نشود، اگرچه انجام این تست‌ها از نظر عملی امکان پذیر است، اما در تفسیر نتایج و اعتماد به نتیجه‌گیری با مشکل روبه‌رو خواهیم بود. فرضیات ANOVA و نحوه آزمون آنها، عبارت‌اند از:

  • نوع متغیرها: آزمون ANOVA به یک متغیر وابسته کمی (مربوط به اندازه‌گیری‌های سوال مدنظر) و یک متغیر مستقل کیفی (با حداقل ۲ سطح که گروه‌ها را برای مقایسه تعیین می‌کند) نیاز دارد.
  • استقلال: داده‌هایی که از کل جامعه به تصادف انتخاب شده‌اند، باید مستقل باشند. فرض استقلال اغلب بر اساس طراحی آزمایش و کنترل کامل شرایط تجربی، در نظر گرفته می‌شود. اگر بر اساس طرح آزمایش هنوز درباره استقلال اطمینان ندارید، از خود بپرسید که آیا یک مشاهده به مشاهدات دیگر ارتباطی دارد؟ اگر پاسخ، منفی است، به احتمال زیاد شما نمونه‌های مستقلی دارید. به صورت دقیق‌تر می‌توان این فرض را با استفاده از آزمون دوربین-واتسون (Durbin-Watson) در نرم افزار R، تست کرد.
  • نرمال بودن: مانده‌ها باید دارای توزیع نرمال باشند. فرض نرمال بودن را می‌توان به استفاده از هیستوگرام و QQ-plot و یا به طور دقیق‌تر از طریق آزمون‌هایی مانند Shapiro-Wilk یا Kolmogorov-Smirnov در نرم افزار R، تست کرد.
  • برابری واریانس‌ها: واریانس گروه‌های مختلف در جامعه، باید با یکدیگر برابر باشند (این فرض با نام همگن بودن واریانس‌ها نیز شناخته می‌شود). برای بررسی این فرض، می‌توان از نمودار جعبه‌ای یا به صورت دقیق‌تر از آزمون‌هایی مانند لون (Levene) و بارتلت (Bartlett) در نرم افزار R، استفاده کرد.

آزمون آنالیز واریانس یک طرفه (One-way ANOVA):

در مثال مربوط به دیتاست پنگوئن ها، به کمک آزمون آنالیز واریانس یک طرفه، می‌خواهیم بررسی کنیم که «آیا گونه‌های متفاوت از پنگوئن‌ها دارای طول باله‌های متفاوت هستند یا خیر؟»

برای پاسخ به این پرسش آزمون فرض را به این صورت در نظر می‌گیریم:

فرض صفر: میانگین طول باله‌ها برای هر سه گونه‌ی Adelie ،Chinstrap و Gentoo یکسان است.

فرض مقابل: حداقل میانگین طول باله‌ها برای یک گونه، متفاوت از دو گونه‌ی دیگر است.


توجه کنید که فرض مقابل این نیست که همه میانگین‌ها متفاوت هستند. نقیض فرض صفر به این معنی است که حداقل یک میانگین با دیگر میانگین‌ها متفاوت باشد. از این نظر، اگر فرض صفر رد شود، به این معنی است که حداقل یک گونه با ۲ گونه دیگر متفاوت است اما لزوماً میانگین هر ۳ گونه با یکدیگر متفاوت نیستند. ممکن است طول باله‌ها برای گونه Adelie نسبت به گونه‌های Chinstrap و Gentoo متفاوت باشد، اما طول باله‌ای دو گونه Chinstrap و Gentoo مشابه باشد. برای بررسی تفاوت هر سه گونه از آزمون‌های دیگری، معروف به post-hoc کمک می‌گیریم که در ادامه معرفی می‌شوند.

همچنین برای اجرای آزمون فرض فوق، مدل آماری آنالیز واریانس یک طرفه به صورت زیر خواهد بود:

که در آن، μ میانگین کل، τi اثر سطح iآُم متغیر عامل (تیمار) و ε به عنوان خطا تعریف می‌شود. همچنین مجموع مربعات برای این آزمایش به صورت زیر تجزیه می‌شود:


بنابراین جدول آنالیز واریانس به صورت زیر خواهد بود:


اکنون مفروضات اساسی آزمون ANOVA را به طور خاص برای دیتاست پنگوئن بررسی می‌کنیم.

نوع متغیرها:

متغیر وابسته flipper_length_mm، یک متغیر کمی است و متغیر مستقل species، یک متغیر کیفی (با سه سطح) است. بنابراین ما ترکیبی از دو نوع متغیر داریم و این فرض برقرار است.

استقلال:

فرض بر این است که مشاهدات در دیتاست پنگوئن به طور تصادفی از جامعه انتخاب شده‌اند و بنابراین فرض استقلال برای این مشاهدات برقرار است و همچنین اندازه گیری‌های مربوط به هر یک از سه گروه، به گروه دیگر ارتباطی ندارد.

نرمال بودن:

برای بررسی نرمال بودن مانده‌ها، ابتدا آزمون ANOVA را اجرا می‌کنیم و سپس مانده‌ها را در res_aov ذخیره می‌کنیم:


اکنون می‌توانیم هیستوگرام و QQ-plot را برای مانده‌ها رسم کنیم:


با توجه به هیستوگرام و QQ-plot، می‌توان فرض نرمال بودن را پذیرفت. در واقع، هیستوگرام تقریباً یک منحنی زنگوله‌ای شکل است که نشان می‌دهد باقیمانده‌ها از توزیع نرمال پیروی می‌کنند. علاوه بر این، نقاط در QQ-plot، تقریباً بر روی نیمساز ربع اول و سوم، قرار گرفته‌اند و از توزیع نرمال پیروی می‌کنند. همچنین می‌توان برای اطمینان بیشتر از آزمون شاپیرو در نرم افزار R، استفاده کرد. فرض صفر این آزمون بیان می‌کند که مشاهدات دارای توزیع نرمال هستند.


با توجه به خروجی نرم افزار، p-value برای آزمون شاپیرو بیشتر از سطح معناداری ۰/۰۵ است و بنابراین می‌توان فرض نرمال بودن را برای مانده‌ها پذیرفت.

برابری واریانس‌ها:

برای بررسی این فرض ابتدا نمودار جعبه‌ای را برای مشاهدات رسم می‌کنیم:



نمودار جعبه‌ای واریانس مشابهی برای گونه‌های مختلف پنگوئن، نشان می‌دهد. از این نمودار، می‌توان فهمید که جعبه‌ها اندازه‌ی یکسانی برای همه گونه‌ها دارند و این واقعیت، تاییدی بر همگنی واریانس در سه گروه است. همچنین می‌توان برای اطمینان بیشتر از آزمون لون در نرم افزار R، استفاده کرد. فرض صفر این آزمون بیان می‌کند که واریانس همه‌ی گروه‌ها با هم برابر است.


با توجه به خروجی نرم افزار، p-value برای آزمون لون بیشتر از سطح معناداری ۰/۰۵ است و بنابراین می‌توان فرض همگنی واریانس را برای هر سه گروه پذیرفت.

اجرای آزمون آنالیز واریانس یک طرفه در نرم افزار R:

به این ترتیب نشان دادیم که تمام مفروضات آزمون آنالیز واریانس یک طرفه برای دیتاست پنگوئن برقرار است. بنابراین می‌توانیم برای پاسخ به پرسش «آیا گونه‌های متفاوت از پنگوئن‌ها دارای طول باله‌های متفاوت هستند یا خیر؟»، به اجرای ANOVA در R بپردازیم. به همین منظور از دو تابع summary و aov استفاده می‌کنیم:


با توجه به خروجی نرم افزار، p-value برای آزمون آنالیز واریانس یک طرفه کمتر از سطح معناداری ۰/۰۵ است و در نتیجه فرض صفر را نمی‌توان پذیرفت. بنابراین این فرض که همه میانگین‌ها برابر هستند، را رد می‌کنیم و می‌توان نتیجه گرفت که حداقل یک گونه از نظر طول باله با گونه‌های دیگر متفاوت است.

اکنون که فرض برابری میانگین طول باله‌ها برای سه گونه‌ی متفاوت از پنگوئن‌ها، رد شد، علاقه‌مند هستیم که بدانیم میانگین کدام گروه از گونه‌های Adelie ،Chinstrap و Gentoo متفاوت است؟ برای بررسی این موضوع، باید از انواع دیگر آزمون‌ها، با عنوان آزمون‌های post-hoc (به معنای «پس از این» یا «پس از به دست آوردن نتایج معنادار ANOVA») استفاده کرد.

آزمون Post-hoc:

همانطور که در خروجی دستور aov دیده شد، تحلیل واریانس، مشخص نمی‌کند که کدام یک از گروه‌ها باعث ایجاد اختلاف هستند. بنابراین برای تشخیص گروه متفاوت، میانگین گروه‌ها را دو به دو با یکدیگر مقایسه می‌کنیم.

  1. میانگین گونه‌ی Chinstrap در مقایسه با میانگین گونه‌ی Adelie
  2. میانگین گونه‌ی Chinstrap در مقایسه با میانگین گونه‌ی Gentoo
  3. میانگین گونه‌ی Adelie در مقایسه با میانگین گونه‌ی Gentoo

یکی از انواع آزمون‌های post-hoc، آزمون معروف توکی (TukeyHSD) است که مقایسه میانگین‌ها به صورت دو به دو را برای ما در نرم افزار R، اجرا می‌کند. همچنین لازم به ذکر است که آزمون توکی، پس از اجرای آزمون ANOVA، صورت می‌گیرد و خروجی aov را به عنوان ورودی می‌گیرد:


در خروجی آزمون Tukey HSD، یک جدول نمایش داده شده است. مقایسه‌های دوتایی در ستون اول این جدول مشخص شده است. براساس ستون آخر که p-value را برای آزمون اختلاف میانگین دو گروه نشان می‌دهد، متوجه می‌شویم که هر سه p-value، کوچکتر از ۰/۰۵ هستند و بنابراین فرض صفر را برای همه مقایسه‌ها رد می‌کنیم. این بدان معنی است که همه گونه‌ها از نظر طول باله تفاوت قابل توجهی دارند.

مصورسازی آزمون‌های ANOVA و Post-hoc در نرم افزار R:

اگر علاقه‌مند هستید که نتایج آزمون‌های ANOVA و post-hoc را مستقیماً با استفاده از یک نمودار جعبه‌ای مشاهده کنید، می‌توانید از کدهای زیر استفاده کنید!



همانطور که در نمودار فوق مشاهده می‌کنید، نمودار جعبه‌ای بر اساس گونه‌ها، همراه با p-value حاصل از آزمون‌های ANOVA و post-hoc، ارائه شده است.

تحلیل واریانس دو طرفه (Two-way ANOVA):

در تحلیل واریانس دو طرفه، یک متغیر عامل دیگر نیز به مدل اضافه می‌شود. به این ترتیب تاثیر دو متغیر عامل بر روی متغیر پاسخ را بررسی می‌کنیم.

در ادامه مثال قبلی، فرض کنید که متغیر جنسیت را به عنوان متغیر دوم، به مدل اضافه کرده‌ایم. به کمک آزمون آنالیز واریانس دو طرفه، می‌خواهیم بررسی کنیم که «آیا گونه‌های متفاوت از پنگوئن‌ها و همچنین جنسیت پنگوئن‌ها، تاثیری بر طول باله‌های پنگوئن‌ها دارند یا خیر؟»

برای پاسخ به این پرسش باید سه آزمون فرض، به صورت زیر را در نظر بگیریم:



همچنین برای اجرای آزمون فرض فوق، مدل آماری آنالیز واریانس دو طرفه به صورت زیر خواهد بود:


که در آن، μ میانگین کل، τi اثر سطح iآُم متغیر عامل A و βj اثر سطح jآُم متغیر عامل B و τβ)ij) اثر متقابل بین عامل A و عامل B، همچنین ε به عنوان خطا تعریف می‌شود. مجموع مربعات برای این آزمایش به صورت زیر تجزیه می‌شود:


بنابراین جدول آنالیز واریانس به صورت زیر خواهد بود:


برای دیتاست پنگوئن‌ها، با استفاده از نرم افزار R، هر سه آزمون را با استفاده از کدهای زیر اجرا می‌کنیم:


با توجه به خروجی نرم افزار و p-value، هر دو متغیر گونه‌های متفاوت از پنگوئن‌ها و همچنین جنسیت پنگوئن‌ها، به طور مستقل بر روی متغیر طول باله‌های پنگوئن‌ها، تاثیر گذارند. همچنین اثر همزمان و متقابل متغیرهای عامل (گونه‌های متفاوت و جنسیت پنگوئن‌ها)، بر روی متغیر پاسخ (طول باله‌های پنگوئن‌ها)، معنادار است.

طرح بلوک‌بندی تصادفی شده (Randomized Blocks):

در اغلب آزمایش‌ها، تغییرپذیری ناشی از یک عامل اغتشاش می‌تواند بر نتایج تاثیر گذارد. به طور کلی، یک عامل اغتشاش، به عنوان یکی از عوامل طرح تعریف می‌شود که احیاناً بر پاسخ تاثیرگذار است ولی ارزیابی اثر آن مورد نظر نیست. در مواردی که منبع تغییرپذیری، مربوط به عامل اغتشاش شناخته شده و قابل کنترل باشد آنگاه می‌توان از طریق روش بلوک‌بندی اثر چنین عاملی را به‌ طور ساختار یافته از مقایسه‌های آماری بین تیمارها حذف نمود. طرح بلوک بندی کامل تصادفی شده یکی از متداول‌ترین طرح‌های آزمایش است. این طرح دارای کاربردهای وسیع است. ابزارها یا دستگاه‌های آزمایش غالباً از لحاظ عملکرد با یکدیگر متفاوت هستند و معمولاً به عنوان عامل بلوک‌بندی در نظر گرفته می‌شوند. دسته‌های مواد خام، افراد و زمان نیز از متداول‌ترین منابع ایجاد تغییرات در یک آزمایش محسوب می‌شوند که می‌توان آنها را به طور ساختاریافته با استفاده از روش بلوک‌بندی کنترل کرد.

در مثال مربوط به دیتاست پنگوئن‌ها، فرض کنید می‌خواهیم بررسی کنیم که «آیا گونه‌های متفاوت از پنگوئن‌ها که در جزیره‌های متفاوت زیست می‌کنند، طول باله‌های متفاوتی دارند یا خیر؟» برای پاسخ به این پرسش، متغیر پاسخ، طول باله‌ی پنگوئن‌ها، متغیر عامل، گونه‌های متفاوت از پنگوئن‌ها و متغیر جزیره (island) که دارای سه سطح Biscoe، Dream و Torgersen است را به عنوان عامل بلوک‌بندی در نظر می‌گیریم. طرح بلوک‌بندی تصادفی شده، حالت خاصی از آنالیز واریانس دو طرفه است. به عبارت دیگر، اگر در طرح آنالیز واریانس دو طرفه، اثر متقابل بین عامل‌ها وجود نداشته باشد، مدل بلوک تصادفی به دست خواهد آمد. بنابراین برای آزمون فرض‌های



مدل آماری طرح بلوک‌بندی تصادفی شده، به صورت زیر خواهد بود:


که در آن، μ میانگین کل، τi اثر سطح iآُم متغیر عامل A و βj اثر بلوک jآُم و ε به عنوان خطا تعریف می‌شود. مجموع مربعات برای این آزمایش به صورت زیر تجزیه می‌شود:

همچنین، جدول آنالیز واریانس به صورت زیر خواهد بود:


برای اجرا دو آزمون فرض فوق، به کمک نرم افزار R، از کدهای زیر استفاده می‌‌شود:


با توجه به خروجی نرم افزار و p-value، متغیر گونه‌های متفاوت از پنگوئن‌ها به طور مستقل بر روی متغیر طول باله‌های پنگوئن‌ها، تاثیر گذار است. اما برای متغیر island، از آنجا که p-value بزرگتر از مقدار ۰/۰۵ است، بنابراین فرض صفر این آزمون، مبنی بر برابر بودن میانگین طول باله‌ی پنگوئن‌ها در جزیره‌های متفاوت Biscoe، Dream و Torgersen، پذیرفته می‌شود.

به این ترتیب در این مقاله، با اهداف و پیش فرض‌های آزمون ANOVA (استقلال، نرمال بودن و همگنی واریانس‌ها) آشنا شدید. همچنین مدل‌های آنالیز واریانس یک طرفه، آنالیز واریانس دو طرفه و طرح بلوک‌بندی تصادفی شده را مورد تحلیل قرار دادیم. طریقه‌ی اجرای این آزمون‌ها، در نرم افزار R مورد بررسی قرار گرفت و برای مقایسه‌ی میانگین‌ها به صورت دو به دو از آزمون توکی استفاده کردیم.

آنالیز واریانسعلم آمارآمارآزمون anova
مرجع تخصصی آمار ایران
شاید از این پست‌ها خوشتان بیاید