در زمینه ارزیابی عملکرد هر مدل یادگیری ماشینی، اصطلاحات "میکرو" و "ماکرو" به روشهای مختلف محاسبه معیارهای عملکرد، مانند دقت، پوشش و امتیاز F1 برای چندین کلاس اشاره دارند. در اینجا توضیحی از این مفاهیم ارائه میشود:
میانگین میکرو مشارکتهای همه کلاسها را برای محاسبه معیار میانگین جمعآوری میکند. این روش با هر نمونه به طور مساوی برخورد میکند، به این معنا که تعداد مثبتهای درست، مثبتهای کاذب و منفیهای کاذب را برای همه کلاسها جمعآوری کرده و سپس معیارها را محاسبه میکند.
میانگین میکرو بهویژه برای مواجهه با مجموعهدادههای نامتعادل که در آن برخی کلاسها بسیار بیشتر از سایرین هستند، مفید است. این روش به معنای عملکرد کلی سیستم با وزندهی کلاسها براساس فراوانی آنها اشاره دارد.
میانگین ماکرو معیار را برای هر کلاس به طور مستقل محاسبه کرده و سپس میانگین این مقادیر را میگیرد. این روش با هر کلاس به طور مساوی برخورد میکند، بدون توجه به تعداد نمونهها در هر کلاس.
میانگین ماکرو زمانی مفید است که بخواهید عملکرد را به طور مساوی برای همه کلاسها اندازهگیری کنید، که میتواند نشان دهد مدل چقدر در کلاسهای کمتر فراوان عملکرد دارد. این به ویژه در مواردی که عملکرد کلاسهای اقلیتی مهم است.
فرض کنید یک مسئله طبقهبندی چندکلاسه با سه کلاس (الف، ب و ج) داریم:
فرض کنید معیارهای عملکرد زیر را داریم:
تعداد مثبتهای درست، مثبتهای کاذب و منفیهای کاذب را برای همه کلاسها جمعآوری کرده و سپس دقت، پوشش و F1-score را محاسبه میکنید، مانند مقادیر بالا
میانگین دقت، پوشش و F1-score برای هر کلاس را طبق فرمول محاسبه میکنید:
تفاوت بین میانگین کلان و خرد در این است که میانگین کلان به هر دسته وزن مساوی می دهد در حالی که میانگین خرد به هر نمونه وزن مساوی می دهد. اگر تعداد نمونه های یکسانی برای هر کلاس داشته باشیم، هر دو Macro و Micro امتیاز یکسانی را ارائه می دهند.