اهمیت مفاهیم آمار و احتمال در تحلیل داده و درک الگوریتمهای یادگیری ماشین بر کسی پوشیده نیست. هر چه دید عمیقتری از ریاضیات و آمار داشته باشیم، بهتر میتوانیم مسائل یادگیری ماشین را درک کنیم. مبحثی که در این پست بررسی میکنیم، یکی از مفاهیم پایهای در علم احتمال است که میخواهیم با دید یادگیری ماشین به آن نگاه کنیم.
لازم به ذکر است که برای خواندن این پست باید با مفاهیم یادگیری ماشین و مسائل طبقهبندی (classification) آشنا باشید. منبع مطالب آمار و احتمال که در این مقاله بحث میشود، درس آمار و احتمال مهندسی در مکتب خونه است.
ابتدا بهتر است برخی مفاهیم یادآوری شوند:
حال به تعریف متغیر تصادفی توجه کنید:
متغیر تصادفی، تابعی است که هر پیشامد از فضای نمونه را به مجموعهی اعداد حقیقی نگاشت میکند.
در مثالِ پرتاب سکه، فضای نمونه فقط شامل دو حالت است: شیر و خط. حال ممکن است تابعی را تعریف کنیم که به ازای پیشامد «شیر»، مقدار تابع برابر ۱ شود و به ازای «خط» مساوی با صفر. این اعداد کاملاً قراردادی هستند؛ به بیان دیگر اعداد دلخواه دیگری میتوانند به جای صفر و یک انتخاب شوند. مهم این است که از این به بعد، بپیشامد «شیر» را با یک عدد میشناسیم.
در ادامه به یک نمونه از مسائل یادگیری ماشین توجه کنید:
مسئلهی شناسایی عدد در یک تصویر را در نظر بگیرید؛ فرض کنید تصاویری داریم که در هر کدام فقط یکی از ارقام صفر تا نُه نوشته شدهاست. هدف این است که با روشهای پردازش تصویر، این عدد را شناسایی کنیم (این مثال در دستهی مسائل ocr قرار میگیرد). در واقع قرار است که هر تصویر به یکی از کلاسهای اعداد ۰ تا ۹ طبقهبندی شود.
اگر این طبقهبندی را یک آزمایش تصادفی بدانیم، بنابراین فضای نمونهی آن مجموعهی اعداد صفر تا ۹ را شامل میشود. همچنین یکی از پیشامدها میتواند تصویری باشد که شامل عدد ۵ است. هر زیرمجموعه از فضای نمونهی ۰ تا ۹ نیز یک رویداد محسوب میشود.
با دقت در این مسئله، میتوان به این نتیجه رسید که برچسب هر تصویر، همان متغیر تصادفی است. یعنی ما با برچسب زدن به مجموعهداده، تابعی تعریف میکنیم که هر تصویر را به یک عدد نگاشت میکند. در واقع ورودی تابع، تصویر موردنظر و خروجی، برچسب مورد انتظار است که همان متغیر تصادفی تلقی میشود.