دانش عمومی و استدلال(Reasoning (Knowledge & Analogy)) : این آزمونها میزان «دانش جهانی» یک مدل و توانایی آن در اعمال منطق را ارزیابی میکنند.
MMLU (Massive Multitask Language Understanding) : دانش عمومی گسترده و درک مطلب را با استفاده از سؤالات چند گزینه ای در سطح مدرسه فارغ التحصیل در بسیاری از موضوعات ارزیابی می کند. معمولا مدل ها را در 57 موضوع از جمله STEM، علوم انسانی و علوم اجتماعی آزمایش می کند.
ARC-AGI (Abstraction & Reasoning Corpus) : توانایی مدل را برای انجام استدلال انتزاعی و تفکر قیاسی می سنجد. این آزمون برای اندازه گیری «هوش سیال» یا توانایی حل مسائل جدید از طریق قیاس و یادگیری مفهومی طراحی شده است.
HLE (Humanity's Last Exam) : توانایی هوش مصنوعی را برای تولید کدهای کاربردی کامپیوتری بر اساس توضیحات مشکل داده شده آزمایش می کند. آخرین امتحان بشریت ، معیاری برای سال 2025 که شامل سؤالات در سطح تحصیلات تکمیلی در سراسر رشته های مختلف است که به گونه ای طراحی شده است که دشوارتر از استانداردهای فعلی صنعت باشد.
GPQA (General Physics Question Answering) : پاسخگویی به سؤالات فیزیک عمومی ، دانش سطح متخصص در فیزیک و سایر علوم سخت را می سنجد.
ریاضیات و حل مسئله(Math & Logic) : بر توانایی مدل برای انجام عملیات منطقی چند مرحله ای تمرکز می کند.
GSM8K (Grade School Math 8K) : مهارتهای حل مسئله ریاضی چند مرحلهای و پایه را ارزیابی میکند که برای سطح کلاسی مناسب است. مسائل ریاضی کلاس پایه را با کیفیت بالا ارزیابی می کند که نیاز به استدلال چند مرحله ای دارد.
MATH: مجموعه داده پیشرفته تری حاوی مسائل دشوار مسابقه ریاضی دبیرستان است.
AIME : مسائل ریاضی چالش برانگیز از امتحانات ریاضی آمریکا.
کد نویسی و برنامه نویسی(Coding & Programming) : توانایی مدل را برای تولید، اشکال زدایی و درک کدهای کامپیوتری آزمایش می کند.
HumanEval: اندازه گیری می کند که آیا یک هوش مصنوعی می تواند یک برنامه کاربردی پایتون را بر اساس توضیحات رشته مستند بنویسد.
MBPP (مشکلات اصلی برنامه نویسی): تولید کد را برای وظایف معمول برنامه نویسی اولیه ارزیابی می کند.
LiveCodeBench: یک معیار مدرن که مدل ها را بر روی مشکلات کدگذاری جدید و بلادرنگ آزمایش می کند تا از به خاطر سپردن داده های آموزشی توسط مدل جلوگیری کند.
درک زبان (Language Understanding) : ارزیابی می کند که یک مدل تا چه حد تفاوت های ظریف را در متن درک می کند و اسناد طولانی را مدیریت می کند.
GLUE / SuperGLUE: معیارهای سطح مقدماتی و پیشرفته برای درک عمومی زبان، از جمله تجزیه و تحلیل احساسات و مقبولیت گرامری . مجموعه استانداردی برای ارزیابی درک زبان طبیعی، مانند تجزیه و تحلیل احساسات و مقبولیت گرامری.
Needle-in-a-Haystack (NIAH): حافظه و پنجره زمینه را با پنهان کردن یک قطعه خاص از اطلاعات در یک بلوک عظیم از متن و درخواست از مدل برای یافتن آن، آزمایش می کند.
HellaSwag: با درخواست از مدلها برای پیشبینی محتملترین نتیجه یک جمله، استدلال «معقول» را ارزیابی میکند.
ایمنی و همسویی(Safety, Bias, Alignment, Truthfulness & Ethics) : بر اطمینان از قابل اعتماد بودن، اخلاقی بودن هوش مصنوعی و پیروی از دستورالعمل ها تمرکز می کند.
BBQ (Bias Benchmark for QA): اندازه گیری می کند که آیا یک مدل سوگیری اجتماعی را در دسته های مختلف (مانند جنسیت، نژاد) در پاسخ های خود نشان می دهد یا خیر.
ToxiGen: میزان توانایی مدل را برای اجتناب از تولید زبان توهین آمیز یا سمی آزمایش می کند. با آزمایش تمایل هوش مصنوعی به تولید محتوای سمی، مغرضانه یا مضر، ایمنی آن را ارزیابی می کند.
AlpacaEval: میزان پیروی یک مدل از دستورالعمل های کاربر را اندازه گیری می کند.
معیارهای کلیدی عملکرد : KPI
Pass@n: احتمال اینکه حداقل یکی از n تلاش ایجاد شده توسط هوش مصنوعی یک مشکل را به درستی حل کند را اندازه گیری می کند.
Tokens per Second (TPS): سرعت تولید متن را اندازه گیری می کند.
Latency تأخیر: تأخیر زمانی بین اعلان کاربر و اولین خروجی مدل.
سایر موارد:
MT-Bench : کیفیت و انسجام مکالمات چند نوبتی را اندازه گیری می کند و میزان تعامل یک چت بات را در طول زمان ارزیابی می کند.
Needle-in-a-Haystack : توانایی یک مدل را برای یافتن و استفاده از یک قطعه خاص و کوچک از اطلاعات پنهان شده در یک سند بسیار بزرگ ارزیابی می کند.
Berkeley Function-Calling Leaderboard (BFCL)
SWE-bench (Software Engineering Benchmark)
BIG-Bench
RepoBench-R (Retrieval)
RepoBench-C (Code Completion)
RepoBench-P (Pipeline)
DS-1000
LMArena (Text Arena)
Terminal-Bench (2.0)
Tau2-Bench
Vending-Bench 2
MRCR
METR Time Horizons
منابع: