در برخی از الگوریتمهای یادگیری ماشین، به مفهوم انتروپی برخورد میکنیم. به عنوان نمونه در برخی الگوریتمهای طبقهبندی با درخت تصمیم، انتروپی کاربرد دارد. در این پست میخواهیم به درک بهتری از این مفهوم برسیم. قبل از خواندن این مطلب بهتر است با امید ریاضی و فرمول آن نیز آشنا باشید.
مفهوم انتروپی به میزان غافلگیری از یک پدیده مربوط میشود. این که ما چقدر از اتفاق افتادنِ یک رویداد شگفتزده میشویم.
کمی بیشتر به مفهوم غافلگیر شدن فکر کنید...
ما از وقوع چه اتفاقاتی تعجب میکنیم؟ پاسخ این است که هر چه احتمال رخدادن یک رویداد کمتر باشد، ما از اتفاق افتادنش بیشتر غافلگیر میشویم.
پس میتوان نتیجه گرفت که غافلگیری با احتمال رابطهی عکس دارد:
حال فرض کنید که احتمال اتفاق افتادن یک رویداد برابر با یک باشد؛ آنگاه میزان surprise هم برابر با یک خواهد شد. در صورتی که ما از اتفاق افتادنِ آن اصلاً متعجب نمیشویم و باید مقدار surprise برابر با صفر میشد. اما طبق فرمول بالا، میزان surprise برابر با یک میشود. پس بهتر است از یک عملگر ریاضی دیگر نیز کمک بگیریم. میتوانیم به جای معکوس احتمال، از لگاریتم معکوس احتمال استفاده کنیم تا میزان غافلگیری را محاسبه کنیم:
اگر یک آزمایش تصادفی را به تعداد زیاد تکرار کنیم، میانگین اعداد مشاهده شده امید ریاضی نام دارد (منبع). امید ریاضی با فرمول زیر محاسبه میشود:
با توجه به تعریفی که از غافلگیری و امید ریاضی داشتیم، میتوان گفت که انتروپی برابر است با امید ریاضیِ غفلگیر شدن(!) یعنی انتظار داریم چقدر از رخ دادن یک رویداد تجعب کنیم؟!
در فرمول امید ریاضی، مقادیر غافلگیریِ رویداد و احتمال رخدادن رخ دادن آن رویداد را جایگذاری میکنیم:
با توجه به خواص لگاریتم، میتوان فرمول انتروپی را به صورت زیر نوشت. در کتابهای آموزشی نیز انتروپی را با این فرمول نشان میدهند: