z.narimani
z.narimani
خواندن ۴ دقیقه·۳ سال پیش

مثال کاملتری از استنباط بیزی

فرض کنید که یک سکه را ده بار انداخته ایم و ۹ بار شیر و ۱ بار خط مشاهده شده است. آیا با این مشاهده (داده) نتیجه میگیرید که سکه نامتقارن است (یعنی احتمال شیر و خط با هم برابر نیست؟).

اگر بخواهیم ساده انگارانه نگاه کنیم باید احتمال شیر آمدن را یک دهم در نظر بگیریم. حالا فرض کنید ما (میدانیم) که احتمال اینکه سکه متقارن باشد زیاد است. در حالت خاص فرض کنیم کارخانه سازنده ی سکه ای که ما استفاده کردیم به ما گفته که این سکه ها یا متقارن با احتمال شیر و خط مساوی و برابر 1/2 هستند یا اینکه نامتقارن هستند که در این حالت احتمال شیر برابر 6/7 و احتمال خط برابر 1/7 است. در این حالت خاص مفروض، ما دو گزینه بیشتر برای انتخاب مدل سکه نداریم. در واقع مدل اول یک توزیع برنولی با پارامتر p برابر 1/2 (که آن را مدل متقارن مینامیم) و مدل دوم یک توزیع برنولی با پارامتر p برابر 6/7 (که آن را مدل نامتقارن مینامیم) است. به دنبال این هستیم که بدانیم داده ی مشاهده شده از کدام مدل تولید شده است.

طبق قانون بیز، داریم:

قانون بیز
قانون بیز

در این فرمول احتمال پیشین یا prior همان احتمال مدل است که کارخانه به ما اطلاع داده است. در این حالت اگر X را مدل سکه و Y را مشاهده قرار دهیم، برای یافتن مدلی که بهتر با مشاهدات ما سازگار است باید احتمال مدل به شرط مشاهدات را برای هر دو حالت محاسبه کرده و مدلی با بیشترین احتمال پسین (posterior) را حساب کنیم.

درست نمایی (likelihood)‌ به این معناست که اگر ما فرض کنیم مدل را داریم، داده (مشاهده) چقدر محتمل است. برای مشاهدات ما، این احتمال به صورت زیر محاسبه میشود:

برای مدل متقارن:‌

P(Y|X) = (1/2) ^ 10

برای مدل نامتقارن:‌

P(Y|X) = (6/7)^9 * (1/7)

این احتمالات با فرض دانستن احتمال شیر و خط در هر حالت و مستقل بودن مشاهدات محاسبه شده است. اگر برای تخمین احتمال پسین تنها از همین عبارت یعنی درست نمایی برای انتخاب مدل استفاده کنیم، واضح است که برای حالت متقارن بیشترین درست نمایی را داریم و مدل نامتقارن انتخاب میشود (یعنی پارامتر 6/7 برای توزیع برنولی انتخاب میشود). در واقع اگر در مسایل برای تخمین پارامتر مدل، از این روش (یعنی بیشترین درست نمایی یا maximum likelihood) استفاده کنیم، مشکل ذکر شده در ابتدای مبحث رخ میدهد زیرا انتخاب مدل با بیشترین درست نمایی به اطلاعات پیشین توجهی ندارد.

حال ما از احتمال پیشین هم باید استفاده کنیم. فرض کنیم کارخانه سازنده اعلام کرده که احتمال متقارن بودن سکه 0.999999 است و با احتمال 0.000001 هم ممکن است سکه ها نامتقارن تولید شوند. در این حالت درست نمایی را میتوانیم در احتمال پیشین ضرب کنیم:‌

برای مدل متقارن:‌

P(Y|X) * P(X)= (1/2) ^ 10 * 0.999999 (1)

برای مدل نامتقارن:‌

P(Y|X) * P(X) = (6/7)^9 * (1/7) * 0.000001 (2)

در این حالت معادله تغییر میکند. یعنی وجود اطلاعات پیشین به قسمت درست نمایی غلبه پیدا میکند. تا اینجا فقط قسمت ضرب درست نمایی در احتمال پیشین در فرمول بیز محاسبه شده است. اگر برای تخمین احتمال مدل از همین قسمت استفاده کنیم، به این روش تخمین، maximum aposterioriیا MAP گفته میشود. در این حالت چون مخرج برای دو مدل برابر است، میتوان گفت بدون نیاز به محاسبه مخرج میتوانیم جواب را اعلام کنیم و مدل متقارن را بعنوان مدلی که برای این مشاهده و اطلاعات پیشین محتمل تر است را گزارش کنیم.

مشکل روش MAP این است که یک تابع احتمال ایجاد نمیکند. یعنی اگر این احتمال پسین را به صورت یک تابع توزیع احتمال درنظر بگیریم انتظار داریم جمع مقادیر آن یک شود که در این حالت به دلیل نادیده گرفتن مخرج، این مجموع بسیار کمتر از یک خواهد شد. همچنین اگر برای یکی از این مقادیر احتمال، مثلا مدل متقارن ضرب مقدار درست نمایی در احتمال پیشین را حساب کنیم، عددی به دست می آید که بدون مقایسه با حالت دیگر، نمیتوانیم قضاوتی درباره کوچکی یا بزرگی آن بکنیم (زیرا این عدد در بازه ۰ و ۱ نیست). به همین دلیل به P(X) در مخرج قانون بیز یا همان evidence، ضریب نرمال سازی (normalizing factor) هم گفته میشود. به این معنی که با وجود آن، یک تابع توزیع احتمال با شرایط درست خواهیم داشت (در حالت گسسته مجموع احتمالات یک، و در حالت پیوسته انتگرال زیر تابع یک).

در این حالت گسسته، محاسبه P(X) ساده است:

P(X) = SUM(P(X,Y))

این عبارت قانون جمع (sum rule) نام دارد که در استنباط بیزی استفاده زیادی از آن میشود (از قانون بیز قابل مشتق شدن است). به این معنی که ما برای یافتن احتمال X، کافی است احتمال توام X با تمام متغیرهای دیگر را در تمامی شرایط جمع کنیم. در حالت گسسته مانند این مثال، احتمال P(X,Y) در حالت متقارن و نامتقارن را قبلا محاسبه کردیم (در واقع همان ضرب درست نمایی در احتمال پیشین که در بالا محاسبه شد). پس با قرار دادن مجموع فرمول ۱ و ۲، P(X) قابل محاسبه است.

*‌ دقت کنیم که هر چه اطلاعات پیشین، قوی تر باشد، بهتر میتواند بر تعداد مشاهدات (قسمت درست نمایی)‌ غلبه کند. در همین مثال اگر برای مدل نامتقارن احتمال 0.4 و برای مدل متقارن 0.6 بود، با همین مشاهدات بازهم مدل نامتقارن انتخاب میشد، زیرا احتمال پیشین به قدر کافی برای غلبه بر مشاهدات بزرگ نبود. هر چه مشاهدات بیشتر شود، احتمال پسین به سمت درست نمایی کشیده میشود و هر چه مشاهدات کمتر باشد قسمت مربوط به احتمال پیشین راحت تر میتواند احتمال پسین را به سمت خود بکشد.

در حالت پیوسته اما کار کمی پیچیده تر می شود.

قانون بیزانتخاب مدلیادگیری ماشین
شاید از این پست‌ها خوشتان بیاید