جعفر خاکپور
جعفر خاکپور
خواندن ۹ دقیقه·۲ سال پیش

آمار بیزی و فراوانی‌گرا

توی این پست در مورد آمار و تفاوت آمار Frequentist و Bayesian خواهم نوشت تا این دو نحوه استدلال و استنتاج در آمار رو تا جایی که خودم می‌فهمم شرح بدم و بگم که چی هستن، چرا مهم هستن و در کدوم مسائل مرتبط با آمار، کدوم روش‌ها میتونن انتخاب بشن.

تا حدی مقدمه، ریاضیات و سایر علوم، دنیای تئوری و تجربه‌گرایی

در دنیای ریاضیات (و حوزه خیلی مرتبط با اون یعنی آمار و احتمال) نحوه تفسیر ما از مفاهیم خیلی مهمه. دنیای ریاضیات، مثل بقیه علوم پایه، تجربه پذیر نیست. ریاضیات یک ساختمان بزرگ هست که بر پایه تعدادی اصول ساده اولیه ساخته شده و این اصول باید به قدری ساده و دقیق باشند که قابل پذیرش توسط همه بوده و هیچ استدلال منطقی‌ای نتونه یک گزاره یا ادعای غلط رو از این اصول بیرون بکشه.

برای درک تفاوت روش ریاضیات با علم و روش علمی، میشه از تفاوتش با فیزیک مثال زد، وقتی میگیم گرانش وجود داره و وقتی یک سیب رو تو آسمون رها کنید، به زمین می‌افته، این یک پدیده تجربه پذیره. در واقع بحث بر سر اینه که هیچ کسی نمی‌تونه ثابت کنه همیشه همه سیب‌ها به زمین می‌افتن، ولی چون این مساله تجربه پذیره و مسیر اثبات غلط بودن اون از طریق طراحی آزمایش و تجربه کار نکردن این قانون باز هست، ما میگیم این یک فرضیه علمی هست.

به همین دلیل فیزیک تجربی همیشه جایگاه خیلی مهمی داره و هر چیزی که در عالم فرمول‌های فیزیک ثابت میشه، باید یه جوری مورد آزمایش قرار بگیره و بشه دید این نظریه‌ها رد می‌شن یا با انجام این آزمایش تقویت می‌شن (و همچنان درستی‌شون اثبات نمی‌شه).

ولی ریاضیات به این شکل کار نمی‌کنه. توی ریاضیات، ما فرض می‌کنیم چیزی به نام مجموعه‌ها و اعداد ۱ و ۲ و ۳ و .. هست و بوسیله اینا جمع و ضرب و توابع و نقطه و خط و هندسه و ... رو می‌سازیم. کل دنیای ریاضیات بر پایه استدلال‌های منطقی بر پایه همین مفاهیم ساده و فرض‌های اولیه ساخته می‌شه.

همون طور که می‌بینید، تو دنیای نظری (از جمله ریاضیات)، مفاهیم علمی پیچیده بر اساس مفاهیم ساده‌تر ساخته میشن، ولی تو دنیای تجربی نظریه‌های مختلف ارايه میشن و سعی میشه نظریه‌های نادرست رد بشه و فقط نظریه های درست‌تر باقی بمونن.

دنیای آمار

توی دنیای ریاضی و همینطور دنیای آمار، تعریف‌های اولیه خیلی مهم هستن و دانشمندا همیشه با فرضها و مفاهیم اولیه کلنجار می‌رن. یکی از بنیادی‌ترین مفاهیم در دنیای آمار، مفهوم احتمال هست. وقتی می‌گیم احتمال شیر یا خط اومدن یک سکه ۱/۲ هست، این به چه معناست؟ احتمالا بگید به این معنی هست که اگر یک سکه رو به تعداد خیلی زیاد پرتاب کنیم، تعداد دفعاتی که سکه شیر و خط میاد یک عدد نزدیک به نصف کل پرتاب‌ها هست. این تفسیری هست که معمولا در کتابهای آمار و احتمال هم بهمون یاد می‌دن. آزمایش پرتاب سکه به دو ویژگی تکیه داره:

  • ما می‌تونیم آزمایش پرتاب سکه رو بارها تکرار کنیم
  • اتفاق‌هایی که قبلا افتاده (نتیجه آزمایش‌های قبلی)، روی آزمایش بعدی تاثیری نداره (آزمایش‌ها مستقل از هم هستن)

ولی این تفسیر همه جا قابل استفاده نیست. در گزاره «احتمال سقوط هواپیمای مدل X که یک موتور آن از کار افتاده و ۳۰۰ کیلومتر با نزدیک‌ترین فرودگاه فاصله دارد» امکان تکرار این آزمایش به تعداد کافی وجود داره؟ برای «احتمال برنده شدن تیم آرژانتین در بازی با فرانسه در جام جهانی» چطور؟ امکان تکرارش هست؟ تکرار بازی بدون تاثیر گرفتن از نتایج تکرارهای قبلی چطور؟

یعنی به کار بردن کلمه احتمال در این جملات غلط هست؟ نه غلط نیست، فقط به کمک مفهوم تکرار آزمایش‌های مستقل قابل تفسیر نیست. در واقع این تفسیرها از احتمال یک چیز ذهنی هستند و ما نمی‌تونیم اونطوری که از تکرار آزمایش و رسیدن به مقدار احتمال در مثال سکه گفتیم، بیرون از ذهنمون و به شکل آبجکتیو (Objective) و عینی اون‌ها رو هم اثبات کنیم (به ارتباطش با تفاوتی که ریاضیات و فیزیک توضیح دادم دقت کنید).

معمولا اینجا می‌ریم سراغ استنتاج بیز و از اون کمک می‌گیریم. اول یک مقدمه‌ کوتاه از بیز بگم. احتمالا قضیه بیز رو بدونید:

عکسها از ویکی پدیا
عکسها از ویکی پدیا

این قضیه ساده و اساسی که در قرن ۱۸ توسط توماس بیز بیان شده بود، بعدها باعث اتفاقات بسیار زیادی در دنیای آمار شد. پیر سیمون لاپلاس در قرن ۱۹ از این قضیه کمک گرفت تا یک تفسیر برای مفهوم احتمال رو ارئه بده. لاپلاس گفت که میشه احتمال رو به شکل یک مفهوم از عدم اطمینان و چیزی که نمی‌دونیم درست یا غلط هست در نظر گرفت. در این تفسیر ما سعی می‌کنیم از اطلاعات ناقص و ناکافی که به دست آوردیم استفاده کنیم تا برآورد خودمون از احتمال واقعی رو به کمک اطلاعات جدید بهبود ببخشیم. احتمال p یک عدد بین ۰ و ۱ هست که در ذهن ماست و ما با توجه به اطلاعاتی که به دست میاریم می‌تونیم برآورد بهتری از این احتمال قبلی (prior) که داشتیم رو به عنوان احتمال جدید (posterior) برای خودمون بسازیم:

عکس از این مقاله در مورد Likelihood و Bayes
عکس از این مقاله در مورد Likelihood و Bayes

اواخر قرن ۱۹ یک تفسیر دیگه از مفهوم احتمال هم بوجود اومد. همونطور که دیدیم، تفسیر بیز کاملا بر پایه ذهنیت‌های ما هست و در واقع چیزی بیرون از ذهن ما نیست و کسی نمی‌تونه لمس‌اش کنه. این روند باعث شد که یک تفسیر دیگه از احتمال هم خیلی مطرح بشه. تفسیری که قابل اندازه گیری عینی بود و با مفهوم آزمایش علمی و تجربه‌پذیری سازگارتر بود: آمار Frequentist یا اونطور که ویکی پدیا میگه فراوانی‌گرا. این تفسیر همونی هست که اول این پست گفته شد: اگه آزمایش‌های مستقل رو به تعداد کافی که تکرار کنید نسبت‌ اتفاق افتادن یک پدیده به کل دفعات میشه احتمال اتفاق افتادن اون پدیده.

همونطور که دیدیم، آمار فراوانی‌گرا با اینکه خیلی به مفهوم تجربه گرایی در علم نزدیکه و این باعث میشه که علوم دیگه بتونن بهتر ازش استفاده کنن.

کجاها از کدوم یکی میشه استفاده کرد؟

مهم‌ترین تفاوت این دو تفسیر اینجاست که یکی احتمال پدیده‌ها رو یک چیز مرتبط با جهان فیزیکی و بدون تغییر در طول آزمایش می‌دونه و اون یکی احتمال رو یک مفهوم ذهنی و قابل تغییر در ذهن ما. برای مثال میگن که شما یک سکه دارید و از دو آماردان فراوانی‌گرا و بیزی می‌پرسید که احتمال شیر اومدن چقدره؟ و هر دو میگن احتمالش ۰.۵ است. حالا سکه رو پرتاب می‌کنید بدون اینکه این دو نفر ببیننن شیر اومده یا خط از آماردان فراوانی‌گرا می‌پرسید که الان احتمال شیر بودن چقدره؟ و اون خواهد گفت که احتمال در اینجا مفهومی نداره و سکه یا شیر هست یا خط. ولی آماردان بیزی همچنان میگه که احتمالش ۰.۵ هست، چون اولی می‌دونه پدیده اتفاق افتاده و نتیجه‌اش به شکل قطعی مشخص هست (ولی اون هنوز نمی‌دونه)، ولی در دیدگاه دومی جواب سوال همچنان در ذهنش غیر قطعی باقی مونده.

تفاوت در کارکردها

روش‌های کار دو آماردان هم با هم فرق داره. فرض کنید می‌خوان بررسی کنن که داروی X باعث التهاب پوستی میشه؟

حالا آماردان بیزی چجوری به این سوال جواب می‌ده؟

به تصویر فرمول بالا نگاه کنید. توی این تصویر:

  • احتمال P(A) اینه که به چه احتمالی یک فرد این دارو رو مصرف می‌کنه (مثلا ۶٪)
  • احتمال P(B) برای گزارش کردن التهاب پوستی هست (مثلا ۳٪)
  • احتمال P(B|A) احتمال این هست که فرد دارای التهاب پوستی بگه که داروی X رو در این دوره مصرف کرده (مثلا ۱۰٪)

پس طبق فرمول بیز، احتمال التهاب پوستی بعد از مصرف دارو میشه P(A|B) که میشه ۲۰٪

عکس تزئینی بوده و از اینجا  برداشته شده
عکس تزئینی بوده و از اینجا برداشته شده

ولی اساس کار فراوانی‌گرا معمولا به این شکله که سعی میکنن فرضیهای مطرح کنن و ببینن می‌تونن اون رو رد کنن؟ (تو این روش، اثبات یک نظریه بی معنی هست و شما فقط میتونید نظریه‌ها رو رد کنید). پس اول از همه یه فرض اولیه (که بهش میگن فرض صفر) می‌سازیم که بهش حمله کنیم:

«ارتباطی بین مصرف دارو و التهاب پوستی وجود نداره»

به عبارتی، این فرضیه داره میگه که تعداد گزارش‌های التهاب پوستی در افرادی که دارو رو مصرف کردن و افرادی که مصرف نکردن یکی هست. یا با جمله سازی آماری‌تر:

«اگر یک توزیع احتمالی وجود داشته باشه که بگه احتمال اینکه n درصد از کل جامعه که التهاب پوستی گزارش می‌کنن رو بگه (توزیع نرمال پایین)، درصد n برای افرادی که دارو مصرف کردن و التهاب پوستی هم داشتن یک عدد قابل انتظار در این توزیع هست(باز هم به توزیع نرمال نگاه کنید)»

حالا با این تفسیر، اگه عددی که به دست آوردیم نسبت به این توزیع، یک عدد خیلی پرت باشه، می‌تونیم بگیم خیلی بعیده فرض صفر درست باشه:

خب تا اینجا اوکیه. ولی چطوری این رو فرموله می‌کنن؟ مثلا تو نمودار بالا آماردان فراوانی‌گرا میگه که بدست آوردن نتیجه موجود در صورت درست بودن فرض صفر کمتر از ۱٪ هست و در نتیجه آماردان فراوانی‌گرا می‌تونه با اطمینان ۹۹٪ فرضیه ما رو رد کنه و بگه خیلی بعیده که این نتایج توسط توزیع بالا تولید شده باشن. پس فرض صفر رد می‌شه و رابطه بین مصرف دارو و التهاب پوستی با اطمینان ۹۹٪ تایید می‌شه.

تو این مثال تفاوت دو نگاه فلسفی به مساله مشخصه. یکی همیشه تاکید بر تجربه‌پذیر و قابل تکرار بودن آزمایش داره. اون یکی ولی تاکید بر استنتاج بیشترین نتایج از داده جمع‌آوری شده، فارغ از قابل تکرار بودن نتایج داره.

به همین خاطر روش فراوانی‌گرایی تو تحقیقات حوزه هایی مثل فیزیک، شیمی، علوم اجتماعی و پزشکی که اغلب روی تکرار کردن آزمایش‌ها حساس هستن خیلی پرکاربرده. در عوض ابزارهای استنتاج بیزی معمولا انعطاف‌پذیرتر هستن، با داده‌های ناقص راحت‌تر کنار میان و به لطف فرض‌های اولیه‌ای که می‌شه بدون انجام مشاهدات کافی به مدلسازی اضافه کرد خیلی وقت‌ها می‌تونن چند قدم جلوتر از آمار فراوانی‌گرا برن. همونطور که میشه دید، استنتاج بیزی خیلی شبیه تر به بخش بزرگی از استنتاج ذهنی ما در فضای عدم اطمینان هست و در نتیجه توی هوش مصنوعی و یادگیری ماشین خیلی پرطرفدار هستن. حساسیت کمتر آمار بیزی روی طراحی آزمایش و نحوه جمع‌آوری داده، باعث می‌شه تو حوزه داده‌کاوی (و هر حوزه که از داده کاوی استفاده می‌کنه) هم خیلی علاقمند به این روش‌ها باشن.

آمار فقط فراوانی‌گرا و بیزی هست؟

نه نیست. قبل از فراوانی گرایی و بیزی. تعریف احتمال در طول تاریخ یک مسیری رو پیموده و اینا اولین تفسیرها از احتمال نیستن و این تفسیر هنوز هم داره تغییر میکنه. ما هنوز هم تفاسیر جدیدی از مفهوم احتمال خواهیم ساخت تا بتونیم احتمال رو بهتر توضیح بدیم. یکی از این مفاهیم Propensity Probability (احتمال تمایلی؟ احتمال متمایل بودن؟ ) هست که تو قرن بیستم ساخته شد. ولی هنوز به اندازه تفسیرهای قبلی جا نیافتاده (من خودم هم به اندازه دو تا بالایی ازش درک شهودی ندارم و بهش اشاره نکردم)، ولی انتظار میره که بتونه خیلی از نقاط قوت دو دنیای آمار بیز و فراوانی‌گرا رو یکجا جمع کنه.

فقط یه نکته دیگه. من اینجا از اصطلاح آماردان فراوانی‌گرا و بیزی استفاده کردم و این اصطلاح معمولا جاهای دیگه هم استفاده میشه. ولی در واقع اینطوری نیست که یه آماردان لزوما معتقد به یکی از این دو دسته روش باشه و اون یکی رو رد کنه. البته ممکنه یه آماردان تو یکی از این حوزه‌ها تخصص داشته باشه ولی به این معنی نیست که حوزه دیگه رو جزو علم نمی‌دونه و اون رو رد می‌کنه.


آماراحتمال
شاید از این پست‌ها خوشتان بیاید