ویرگول
ورودثبت نام
محدثه رهنما
محدثه رهنما
خواندن ۲ دقیقه·۲ ماه پیش

برچسب‌زنی مجموعه‌داده یا تعریف متغیر تصادفی؟

منبع تصویر
منبع تصویر


اهمیت مفاهیم آمار و احتمال در تحلیل داده و درک الگوریتم‌های یادگیری ماشین بر کسی پوشیده نیست. هر چه دید عمیق‌تری از ریاضیات و آمار داشته باشیم، بهتر می‌توانیم مسائل یادگیری ماشین را درک کنیم. مبحثی که در این پست بررسی می‌کنیم، یکی از مفاهیم پایه‌ای در علم احتمال است که می‌خواهیم با دید یادگیری ماشین به آن نگاه کنیم.

لازم به ذکر است که برای خواندن این پست باید با مفاهیم یادگیری ماشین و مسائل طبقه‌بندی (classification) آشنا باشید. منبع مطالب آمار و احتمال که در این مقاله بحث می‌شود، درس آمار و احتمال مهندسی در مکتب خونه است.

ابتدا بهتر است برخی مفاهیم یادآوری شوند:

  • فضای نمونه (sample space): مجموعه‌ی همه‌ی نتایج یک آزمایش تصادفی را فضای نمونه می‌نامند.
  • پیشامد (outcome): به نتیجه‌ی یک آزمایش تصادفی، پیشامد گویند.
  • رویداد (event): زیرمجموعه‌ای از فضای نمونه، رویداد نامیده می‌شود.

حال به تعریف متغیر تصادفی توجه کنید:

متغیر تصادفی، تابعی است که هر پیشامد از فضای نمونه را به مجموعه‌ی اعداد حقیقی نگاشت می‌کند.

در مثالِ پرتاب سکه، فضای نمونه فقط شامل دو حالت است: شیر و خط. حال ممکن است تابعی را تعریف کنیم که به ازای پیشامد «شیر»، مقدار تابع برابر ۱ شود و به ازای «خط» مساوی با صفر. این اعداد کاملاً قراردادی هستند؛ به بیان دیگر اعداد دلخواه دیگری می‌توانند به جای صفر و یک انتخاب شوند. مهم این است که از این به بعد، بپیشامد «شیر» را با یک عدد می‌شناسیم.

در ادامه به یک نمونه از مسائل یادگیری ماشین توجه کنید:

مسئله‌ی شناسایی عدد در یک تصویر را در نظر بگیرید؛ فرض کنید تصاویری داریم که در هر کدام فقط یکی از ارقام صفر تا نُه نوشته شده‌است. هدف این است که با روش‌های پردازش تصویر، این عدد را شناسایی کنیم (این مثال در دسته‌ی مسائل ocr قرار می‌گیرد). در واقع قرار است که هر تصویر به یکی از کلاس‌های اعداد ۰ تا ۹ طبقه‌بندی شود.

اگر این طبقه‌بندی را یک آزمایش تصادفی بدانیم، بنابراین فضای نمونه‌ی آن مجموعه‌ی اعداد صفر تا ۹ را شامل می‌شود. همچنین یکی از پیشامدها می‌تواند تصویری باشد که شامل عدد ۵ است. هر زیرمجموعه از فضای نمونه‌ی ۰ تا ۹ نیز یک رویداد محسوب می‌شود.

با دقت در این مسئله، می‌توان به این نتیجه رسید که برچسب هر تصویر، همان متغیر تصادفی است. یعنی ما با برچسب زدن به مجموعه‌داده، تابعی تعریف می‌کنیم که هر تصویر را به یک عدد نگاشت می‌کند. در واقع ورودی تابع، تصویر موردنظر و خروجی، برچسب مورد انتظار است که همان متغیر تصادفی تلقی می‌شود.


یادگیری ماشینمتغیر تصادفیهوش مصنوعیآمار و احتمال
دانش‌آموخته‌ی هوش مصنوعی از دانشگاه الزهرا، جویای علم در زمینه هوش مصنوعی و یادگیری ماشین
شاید از این پست‌ها خوشتان بیاید