Erfan ZinvandiدرMCINext·۶ ماه پیشMIZAN: A Persian LLM Leaderboardمقدمهمدلهای زبانی بزرگ(LLMs) با استفاده از بنچمارکها یا آزمونهای استاندارد بهمنظور سنجش تواناییها و کارایی در وظایف گوناگون زبانشناخت…
Erfan ZinvandiدرMCINext·۶ ماه پیشPersian MT-Benchدیتاست Persian MT-Bench نسخهی بومیسازیشدهی مجموعهی MT-Bench به زبان فارسی است که با تغییرات محتوایی و ساختاری همراه بوده است. MT-Bench…
Erfan ZinvandiدرMCINext·۶ ماه پیشPerCoRPersCoR مخفف "Persian CommonSense Reasoning" است و اولین بنچمارک بزرگمقیاس فارسی برای ارزیابی توانایی مدلها در استدلال دانش عمومی به صورت…
Erfan ZinvandiدرMCINext·۷ ماه پیشPerMMLUMMLU چیست؟MMLU (اختصار Massive Multitask Language Understanding) یک بنچمارک جامع برای سنجش درک زبانی مدلهای زبانی بزرگ (LLMs) است که توسط…