Erfan ZinvandiدرMCINext·۱ سال پیشMIZAN: A Persian LLM Leaderboardمقدمهمدلهای زبانی بزرگ(LLMs) با استفاده از بنچمارکها یا آزمونهای استاندارد بهمنظور سنجش تواناییها و کارایی در وظایف گوناگون زبانشناخت…
Erfan ZinvandiدرMCINext·۱ سال پیشPersian MT-Benchدیتاست Persian MT-Bench نسخهی بومیسازیشدهی مجموعهی MT-Bench به زبان فارسی است که با تغییرات محتوایی و ساختاری همراه بوده است. MT-Bench…
Erfan ZinvandiدرMCINext·۱ سال پیشPerCoRPersCoR مخفف "Persian CommonSense Reasoning" است و اولین بنچمارک بزرگمقیاس فارسی برای ارزیابی توانایی مدلها در استدلال دانش عمومی به صورت…
Erfan ZinvandiدرMCINext·۱ سال پیشPerMMLUMMLU چیست؟MMLU (اختصار Massive Multitask Language Understanding) یک بنچمارک جامع برای سنجش درک زبانی مدلهای زبانی بزرگ (LLMs) است که توسط…