با توجه به حجم عظیم داده ها در حوزه های مختلف، علم تحلیل داده ها طرفداران زیادی پیدا کرده است. مدل های احتمالاتی و علم آمار و احتمالات می تواند به مدل سازی این داده ها کمک کند.
قانون بیز، در تحلیل داده ها با استفاده از مدلهای احتمالاتی حرفهای مهمی برای گفتن دارد. شاید قبل از این پست، دوست داشته باشید مطلب "قانون بیز: پلی میان گذشته و حال" را مطالعه کنید. قانون بیز، به صورت زیر فرموله میشود:
در این پست با مثال خیلی ساده ای یک مفهوم کلی از قانون بیز را بیان میکنم.
فرض کنید در بخش پایانی مسابقه ای، شرکت کننده باید جایزه ای را که پشت یکی از سه در، پنهان شده با حدس زدن درِ مربوطه پیدا کند. چون هیچ اطلاعاتی درباره ی مکان پنهان شدن جایزه وجود ندارد، احتمال وجود جایزه پشت تمامی درها از دید شرکت کننده، یکسان و برابر با 1/3 است.
حال اگر مجری با کسر چند امتیاز از شرکت کننده، یک راهنمایی به او بکند، مثلاً یکی از درها را حذف کند، چه تغییری در احتمال وجود جایزه پشت دو درِ باقی مانده بوجود می آید؟ آیا احتمال وجود در پشت آن دو در باقی مانده، همان 1/3 باقی می ماند؟
ما دنبال توزیع احتمال وجود جایزه پشت درها هستیم. در ابتدای کار:
پس احتمال اولیه برای همه درها مساوی است. وقتی ما یک اطلاعات جدید یا یک مشاهده داریم (که آن را y مینامیم)، توزیع احتمال روی xi ها تغییر میکند. در واقع اگر بدانیم که در سوم پوچ است، احتمال x3 برابر صفر خواهد بود و احتمال x1 و x2 با یکدیگر برابر و هر یک برابر 1/2 خواهد شد.