مرجع تخصصی آمار ایران
هر آنچه که باید درباره پی-مقدار یا p-value در علم آمار بدانید
در این مقاله به این سوال میپردازیم که پی-مقدار (p-value) چیست؟ کجا از آن در علم آمار استفاده میشود و چگونه میتوان آن را محاسبه کرد؟ در ادامه همه این مفاهیم از دیدگاه آماری مورد بررسی قرار میگیرند.
پی-مقدار یا p-value چیست؟
آیا سناریوی زیر وقتی در مورد پی-مقدار برای محققان علم داده صحبت میکنید آشنا به نظر میرسد؟
جواب بله است. محققان داده در تفسیر پی-مقدار بسیار اشتباه میكنند. یک لحظه برای پاسخ به این سؤالات وقت بگذارید:
- چگونه پی-مقدار را تفسیر کنیم؟
- چه مقدار اهمیت برای پی-مقدار باید قرار دهیم؟
- چگونه معناداری پی-مقدار را برای فردی که در مورد علم داده و آمار دانشی ندارد توضیح دهیم؟
اینها سؤالات مهمی هستند که هر متخصص علم داده باید بتواند به آنها پاسخ دهد. بیشترین تلاش برای پاسخ به سؤال اول است. نمیتوان انتظار داشت که مشتریان خود را در مورد نتیجه یک مدل یادگیری ماشین (machine learning) قانع کنند اگر نتوان نتایج را برای آنها به درستی شکافت و تفسیر کرد، درست است؟
شما با یکسری فرمولها و قوانینی در مورد پی-مقدار مواجه میشوید؛ اما دقیقاً نمیدانید چگونه باید آن را تفسیر کنید. چگونه یک بار برای همیشه پی-مقدار را یاد بگیریم؟
در این مقاله، برای فهمیدن پی-مقدار از پایه گام به گام پیش خواهیم رفت و همچنین تفسیرهای سنتی (غلط) از پی-مقدار را از بین می بریم.
1. پی-مقدار چیست؟
2. معناداری آماری
3. مثال پی-مقدار در آمار
4. برخی از تفسیرهای سنتی (غلط) در مورد پی-مقدار
تعریف p-value
برای درک و پاسخ دادن به این سوال از توزیع نرمال استفاده میشود:
حال فرض کنید که یک مقدار تصادفی از این توزیع انتخاب شود. احتمال اینکه این مقدار نزدیک به میانگین باشد زیاد است (به دلیل وجود مقادیر زیاد در این منطقه) و در توزیع نرمال، میانگین، میانه و مد (قله) برابر هستند. اگر از قله فاصله بگیریم احتمال رخداد مقادیر به سرعت به سمت مقادیر بسیار کوچک و نزدیک به صفر کاهش مییابد.
این مقاله در مورد پی-مقدار است؛ اما چرا به توزیع نرمال اشاره شده است؟ یه منظور سادگی و تعریف قابل فهم تر پی-مقدار از توزیع نرمال که در بالا معرفی شده استفاده میکنیم.
پی-مقدار احتمال تجمعی (مساحت زیر منحنی) مقادیر در سمت راست نقطه قرمز در شکل بالا است.
یا،
با در نظر گرفتن نقطه قرمز، پی-مقدار بیانگر «احتمال کلی» وجود مقادیر در سمت راست نقطه قرمز است هنگامی که مقادیر به طور تصادفی از توزیع نرمال انتخاب میشوند.
پی-مقدار به خودی خود هیچ ارزشی ندارد. p-value بزرگ نشان میدهد که شباهت نمونه به جامعه بیشتر است. به همین سادگی.
معناداری آماری پی-مقدار
مقدار آلفا که به عنوان سطح معناداری نیز نامیده میشود مقداری است که در بیشتر مواقع به دلایلی نامعلوم 0.05 یا 5٪ است.
همچنین در کلاسهای آماری به ما آموزش داده شده است که اگر پی-مقدار کمتر از آلفا باشد یعنی نتایج به دست آمده از نظر آماری معنیدار هستند. اما در واقع مقدار آلفا چیست؟
مقدار آلفا چیزی نیست به جز آستانه پی-مقدار که گروهی که آزمایش یا تست را طراحی میکنند، قبل از انجام آزمایش در مورد انتخاب آن تصمیم میگیرند.
اگر پی-مقدار بدست آمده کمتر از آلفا باشد این بدان معنی است که نمونه ما به طور معناداری با جامعه متفاوت است.
توزیع نرمال فوق را دوباره در نظر بگیرید. مساحت زیر منحنی در سمت راست نقطه قرمز در این توزیع بیانگر مقدار آلفا است. نقاط سبز و نارنجی بیانگر نتایج نمونههای متفاوت یک آزمایش هستند.
در نمودار چپترین نقطه سبز دارای پی-مقدار بزرگتر از آلفا است (مساحت زیر منحنی در سمت راست نقطه سبز). در نتیجه این مقادیر با احتمال نسبتاً بالایی به دست میآیند و نتایج نمونه به عنوان خوش شانس تلقی میشوند.
سمت راستترین نقطه (نارنجی) دارای پی-مقدار کمتر از مقدار آلفا است. در نتیجه ، نتایج نمونه بسیار بعید است که خوش شانس باشند. بنابراین آنها تفاوت معناداری با جامعه دارند.
مقدار آلفا بسته به نوع آزمایش تعیین میشود. اگر مطمئن نیستید که چه مقدار را باید در نظر بگیرید مقدار آلفای 0.05 در نظر گرفته میشود.
اما تبصرههایی در این مورد وجود دارند؛ هرچه مقدار آلفایی که در نظر گرفته میشود کوچکتر باشد، معناداری نتایج، سختتر خواهد بود. به خاطر داشته باشید که مقدار آلفا از یک آزمایش تا آزمایش دیگر متفاوت خواهد بود و هیچ مقدار آلفایی به عنوان یک قانون کلی وجود ندارد.
پی-مقدار < alpha
توزیع نرمال زیر را در نظر بگیرید:
در اینجا مساحت زیر منحنی در سمت راست نقطه قرمز مقدار آلفا را نشان میدهد. به وضوح میتوانید ببینید که مساحت زیر منحنی در سمت راست آستانه بسیار کوچک است.
پی-مقدار عبارت از مساحت زیر منحنی در سمت راست نقطه نارنجی است. با توجه به این نمودار پی-مقدار از آلفا کوچکتر است (رد فرض صفر و معنادار). نتایج به دست آمده حاکی از آن است که نمونه، یک رویداد بسیار نادر از توزیع جامعه است (منحنی آبی) و از این رو ممکن است با درصد بالایی به برخی دیگر از توزیعها (منحنی نارنجی) تعلق داشته باشد.
پی-مقدار > alpha
پی-مقدار بیشتر از آلفا به معنای این است که دلیلی برای رد فرض صفر وجود ندارد و بنابراین نمیتوان فرض صفر را رد کرد. این نتیجه اغلب خلاف فرض مقابل است و نتایج به دست آمده معنادار نیستند.
باز هم به منظور سادگی توزیع جامعه نرمال را در نظر بگیرید:
پی-مقدار بزرگتر از آلفا (با در نظر گرفتن مساحت زیر منحنی در سمت راست نقاط قرمز و نارنجی) را میتوان به شرح زیر تفسیر کرد:
نتایج نمونه صرفاً رخدادهای با احتمال کم از توزیع جامعه هستند و به احتمال زیاد شانسی بدست آمدهاند.
مساحت زیر منحنی جمعیت در سمت راست نقطه نارنجی بسیار بزرگتر از مقدار آلفا است. این بدان معنی است که نتایج به دست آمده بیشتر احتمال دارد که بخشی از همان توزیع جامعه (منحنی آبی) باشد تا اینکه متعلق به یک توزیع دیگر (منحنی نارنجی) باشد.
مثالی از پی-مقدار
استفاده از پی-مقدار در علم آمار قابل درک است و حتی بارها در مورد آن شنیدهایم؛ اما پی-مقدار در حیطه علم داده در کجا جای دارد؟
گر چه بسیاری از محققان علم داده مفهوم پی-مقدار را میدانند، آنها نمیدانند چگونه از این دانش در علم داده استفاده کنند. نتیجهاش این میشود که آنها نمیتوانند از یک روش بسیار قدرتمند در بهبود مدلهای خود استفاده کنند.
پی-مقدار یک معیار مهم در فرآیند انتخاب ویژگی است. در انتخاب ویژگی سعی میشود بهترین زیرمجموعه از متغیرهای مستقل برای ساخت مدل را پیدا کرد.
حال ممکن است بپرسید «چرا از همه متغیرهای مستقل استفاده نمیکنید؟»
در واقع استفاده از متغیرهای زائد و اضافی باعث پیچیدگی مدل میشود. علاوه بر این، آنها میتوانند عملکرد مدل را از نظر درستی و دقت و زمان اجرا کاهش دهند.
در نظر بگیرید هدف پیشبینی سود حاصل از استارتاپها بر اساس متغیرهای مستقل زیر است:
با استفاده از کتابخانه statsmodels در پایتون یک مدل رگرسیون OLS (حداقل مربعات معمولی) برای این پیشبینی استفاده شده است که نتایج آن عبارت است از:
این جدول کلیه نتایج مربوط به متغیرهای مستقل را نشان میدهد؛ اما در حال حاضر فقط ستون حاوی مقادیر پی-مقدار بررسی میشود. به وضوح میتوان دید که پی-مقدار مربوط به متغیرهای مستقلR&D Spend ، Administration و State_California بیشتر از 0.5 است!
اما سوال این جاست که این پی-مقدار در مدل رگرسیون به چه معنی است؟ برای پاسخ به این سوال ابتدا باید فرضیهای که برای محاسبه این پی-مقدارها استفاده میشود بررسی شود:
فرض صفر: متغیر مستقل تأثیر معنی داری نسبت به متغیر هدف ندارد.
فرض مقابل: متغیر مستقل تأثیر معنی داری بر متغیر هدف دارد.
نتایج فوق نشان میدهد که R&D Spend ،Administration و State_California تأثیر معنیداری نسبت به Profit (سود کسب شده) ندارند. از آن جا که وجود این متغیرها توسط مدل پیشنهادی رد شد میتوان با حذف این سه متغیر عملکرد مدل را بررسی نمود و لذا تنها دو متغیر مستقل زیر در مدل رگرسیونی لحاظ میشوند.
به طور مشابه با استفاده از کتابخانه statsmodels یک مدل رگرسیونی OLS (حداقل مربعات معمولی) در نظر گرفته میشود که نتایج آن به صورت زیر است:
اکنون فقط پی-مقدار یک متغیر (State_Florida) بیشتر از مقدار 0.05 باقی مانده است . آیا این متغیر باید از مدل حذف شود؟ اگر مقدار آلفا 0.05 در نظر گرفته شود، متغیر State_Florida حذف میشود. اگر آلفا 0.1 انتخاب شود متغیر در مدل باقی میماند. لذا با توجه به مقدار آلفا متغیرهای مستقل در مدل میمانند یا حذف میشوند.
مهمترین نکتهای که باید در این مدل به آن توجه شود این است که اگرچه سه متغیر مستقل از مدل حذف شدند؛ اما مقدار R-Square تعدیل شده بالا رفته است. به کمک پی-مقدار، نه تنها یک مدل سادهتر با متغیرهای کمتری ساخته شد بلکه عملکرد مدل نیز بهبود یافت که این اتفاق خوب را مدیون استفاده از پی-مقدار هستیم.
برخی از تفسیرهای سنتی (غلط) از p-value
در شرایط گوناگونی افراد ممکن است پی-مقدار را به اشتباه تفسیر کنند. در اینجا فقط چند مورد از اشتباهات رایج آورده شده است:
1. پی-مقدار بیانگر مقدار احتمال این است که فرض صفر به اشتباه رد شود: اگرچه پی-مقدار پایین رد شدن فرض صفر را تقویت میکند؛ اما چیزی در مورد احتمال رد شدن آن به ما نمیگوید.
2. پی-مقدار بیانگر سطح معناداری است: سطح معناداری قبل از انجام آزمایش انتخاب میشود و با پی-مقدار متفاوت است. اگر پی-مقدار از سطح معناداری کمتر باشد (p <alpha)، میتوان رد شدن فرض صفر را نتیجه گرفت.
3. پی-مقدار بیانگر بزرگی اثر متغیر است: پی-مقدار به هیچ وجه نشان دهنده میزان شدت مداخله متغیر در مدل نیست.
4. پی-مقدار بیانگر مقدار احتمال این است که فرض صفر درست است: پی-مقدار بالا فقط به معنای این است که دادههای مورد بررسی با فرض صفر بسیار سازگار هستند نه چیزی بیشتر.
نمونههای بسیار دیگری از این گونه اشتباهات رایج را میتوان مثال زد! این موارد را به خاطر داشته باشید، برای دفعات بعدی که با پی-مقدار سر و کار دارید این موارد ممکن است به یاریتان بیاید تا درک بهتری از تحلیل آماری خود داشته باشید.
سخن پایانی
در این مقاله یک روند مرحله به مرحله برای درک پی-مقدار ارائه شد. با روشی که در این مقاله توضیح داده شد همراه با ارائهی مثالی در آمار، پی-مقدار میتواند برای یک فرد آماری بیتجربه یا یک متخصص جدید بسیار جذاب باشد. اکنون شما میتوانید پی-مقدار را برای هر کسی به طور ساده و قابل فهم توضیح بدهید بدون اینکه نیاز به درک مفاهیم سخت و پیچیده در مورد آن داشته باشید.
مطلبی دیگر از این انتشارات
5 مورد از مهم ترین روش های آنالیز آماری داده ها
مطلبی دیگر از این انتشارات
متغیرهای تصادفی و انواع آن
مطلبی دیگر از این انتشارات
حجم نمونه آماری چقدر است؟