نوشته های Erfan Zinvandi

نوشته های Erfan Zinvandi https://virgool.io/feed/@erfunzin fa 2026-07-06 09:44:45 https://files.virgool.io/upload/users/4007871/avatar/haQRvJ.jpg?height=120&width=120 Erfan Zinvandi https://virgool.io/@erfunzin MIZAN: A Persian LLM Leaderboard https://blog.mcinext.org/mizan-a-persian-llm-leaderboard-agbw9nbpqmc8 مقدمهتوانایی‌ها و کارایی مدل‌های زبانی بزرگ(LLMs)، با استفاده از بنچمارک‌ها یا آزمون‌های استاندارد طراحی شده در وظایف گوناگون زبان‌شناختی، ارزیابی می‌شوند. این بنچمارک‌ها ابعاد متعددی از عملکرد مدل‌ها نظیر درک زبان طبیعی، قدرت استدلال، توانایی تولید متون، و پیروی از دستورالعمل‌ها را می‌سنجند. هر یک از این آزمون‌ها با ارائه مجموعه‌ای از سوالات چالش‌برانگیز، تصویری جامع از نقاط قوت و ضعف مدل‌ها ارائه می‌کنند.جنبه‌های اصلی ارزیابی مدل‌های زبانیدرک زبان طبیعی(NLU)درک زبان طبیعی به معنای توانایی مدل در فهم، تفسیر و تحلیل متون انسانی است. این شامل درک معنای جملات، شناسایی موجودیت‌ها، تشخیص احساسات و پاسخ به سوالات بر اساس متن است. آزمون‌هایی مانندGLUE و SQuAD برای ارزیابی این مهارت به‌کار می‌روند.تولید زبان طبیعی(NLG)تولید زبان طبیعی به توانایی مدل در تولید متن‌هایی معنادار، روان و مرتبط با زمینه اشاره دارد. این توانایی شامل وظایفی مانند خلاصه‌سازی، ترجمه، پاسخ‌گویی به سوالات و تولید خلاقانه متن می‌شود.استدلال(Reasoning & Problem Solving)استدلال، توانایی مدل در حل مسائل منطقی، ریاضی و مفهومی را می‌سنجد. بنچمارک‌هایی مانندCSQA، GSM8K، HellaSwag، AR-LSAT وReClor جنبه‌های مختلف استدلال رایج، ریاضی و استنتاجی را ارزیابی می‌کنند.پیروی از دستورالعمل‌ها(Instruction Following)سنجش توانایی مدل در دنبال‌کردن دستورات صریح و ضمنی، با استفاده از مجموعه داده‌هایی مانندIFEval وSuper-NaturalInstructions.بنچمارک‌های عمومی(General Purpose Benchmark)بنچمارک‌های عمومی برای ارزیابی توانایی کلی مدل در انجام طیف وسیعی از وظایف زبانی و دانشی طراحی شده‌اند. این بنچمارک‌ها شامل سوالاتی از حوزه‌های مختلف مانند تاریخ، پزشکی، حقوق، ریاضیات و علوم انسانی هستند و میزان دانش عمومی و تخصصی مدل را می‌سنجند. مجموعه‌هایی مانندMMLU و ARC از جمله معیارهای استاندارد در این زمینه به شمار می‌روند.چندزبانی(Multilinguality)در این دسته، توانایی مدل در فهم و تولید متن به زبان‌های مختلف مورد آزمایش قرار میگیرد. بنچمارک‌هایی مانندXGLUE وXTREME عملکرد مدل را در زبان‌های گوناگون می‌سنجند.قابلیت اعتماد و اخلاق (Robustness / Ethics / Biases / Trustworthiness)این دسته به ارزیابی جنبه‌هایی مانند ایمنی، بی‌طرفی، دقت و پایداری مدل در تعامل با انسان‌ها می‌پردازد.Robustness : میزان مقاومت مدل در برابر ورودی‌های گمراه‌کننده یا مخرب که ممکن است باعث پاسخ‌های نادرست شود.Ethics : توانایی مدل در پرهیز از تولید محتوای آسیب‌زا، تبعیض‌آمیز یا نامناسب.Biases : میزان تلاش مدل برای کاهش بازتولید سوگیری‌های جنسیتی، قومی، فرهنگی یا زبانی.Trustworthiness: توانایی مدل در ارائه پاسخ‌های درست، دقیق و قابل اتکا در شرایط گوناگون.Open LLM LeaderboardOpen LLM Leaderboard یک پلتفرم جامع و متن‌باز برای مقایسه و سنجش مدل‌های زبانی بزرگ است که توسطHugging Face ارائه شده است. این پلتفرم با استفاده از چارچوب EleutherAI LM Evaluation Harness و دیگر ابزارهای ارزیابی، مدل‌ها را در برابر مجموعه‌ای از بنچمارک‌های استاندارد و متنوع بررسی می‌کند.در نسخه جدید، این پلتفرم عملکرد مدل‌های LLM را روی مجموعه‌ای از تسک‌های به‌روز و پیشرفته ارزیابی می‌کند که شامل موارد زیر است:IFEval: توانایی مدل را در پیروی دقیق از دستورالعمل‌ها، به‌ویژه در قالب‌بندی و تولید متن مطابق با فرمت خواسته‌شده ارزیابی می‌کند.BBH (Big Bench Hard): مجموعه‌ای از وظایف دشوار برای مدل‌های زبانی بزرگ است که توانایی آن‌ها را در فهم زبان، استدلال ریاضی، و دانش عمومی می‌سنجد.MATH: شامل مسائل پیچیده ریاضی در سطح دبیرستان است و مهارت مدل را در جبر پیشرفته، هندسه و حساب دیفرانسیل و انتگرال ارزیابی می‌کند.GSM8K-Pro یا (GPKA): این ارزیابی شامل سوالات چندگزینه‌ای در سطح دکترای علوم است و دانش مدل را در زمینه‌های شیمی، زیست‌شناسی و فیزیک می‌سنجد.MUSR: این ارزیابی توانایی مدل را در درک زبان، استدلال، و تحلیل متون بلند مورد سنجش قرار می‌دهد.MMLU-Pro: نسخه تقویت‌شده‌ی MMLU شامل سوالات چندگزینه‌ای با بازبینی تخصصی در حوزه‌های مختلف مانند پزشکی، حقوق، مهندسی و ریاضیات است و دقت و دانش مدل در این زمینه‌ها را می‌سنجد.CO2: میزان انتشار CO₂ هنگام اجرای مدل را نشان می‌دهد و برای مقایسه‌ی تأثیر زیست‌محیطی مدل‌ها در شرایط یکسان به کار می‌رود.این تسک‌ها جنبه‌های مختلفی از عملکرد مدل‌ها را در زمینه‌هایی مانند استدلال، دانش عمومی، پیروی از دستورالعمل‌ها، و حل مسائل چندمرحله‌ای پوشش می‌دهند.MIZAN: A Persian LLM Leaderboardلیدربورد میزان (MIZAN) با هدف ایجاد یک میزان و مرجع استاندارد برای ارزیابی مدل‌های زبانی بزرگ(LLMs) در زبان فارسی توسعه یافته است. این لیدربورد به‌گونه‌ای طراحی شده که عملکرد مدل‌ها را در طیف گسترده‌ای از وظایف شامل دانش عمومی، استدلال منطقی و مهارت‌های زبانی به‌صورت چندبعدی مورد سنجش قرار دهد.لیدربورد میزان در این آدرس در دسترس است.MIZAN: شامل شش بنچمارک اصلی است که هر یک بُعدی خاص از عملکرد مدل‌ها را می‌سنجد:۱. دانش عمومی استدلالی فارسی(PerCoR)PerCoR مخفف "Persian CommonSense Reasoning" است و اولین بنچمارک بزرگ‌مقیاس فارسی برای ارزیابی توانایی مدل‌ها در استدلال دانش عمومی به صورت تکمیل جمله با چند گزینه است. این مجموعه شامل ۱۰۶هزار نمونه از حوزه‌های متنوعی مانند اخبار، دین، تکنولوژی و سبک زندگی است که از بیش از ۴۰ وب‌سایت فارسی استخراج شده‌اند.برای ساخت نمونه‌ها از روشی نوآورانه بر اساس «تقسیم‌بندی با کلمات ربط» استفاده شده تا جملات و گزینه‌ها هماهنگ و متنوع باشند. همچنین با روش جدید و نوآورانه DRESS-AF، که یک تکنیک بدون نیاز به تولید متن و مستقل از زبان است، گزینه‌های گمراه‌کننده، چالش‌برانگیز و قابل‌حل برای انسان، ایجاد شده‌اند.برای مثال کدام گزینه ادامه منطقی جمله‌ی زیر میباشد:یک مثال از دیتاست PerCoRدر این سوال تنها گزینه ۲ میتواند جواب منطقی برای جمله باشد. گزینه ۱ و ۳ در مورد موضوع دیگری صحبت میکنند و در گزینه ۴ زمان جمله با جمله اول تطبیق ندارد.جزئیات بیشتر در مورد این بنچمارک را در این لینک میتوانید بخوانید.۲. ارزیابی پیروی دستورالعمل فارسی(Persian IFEval)این دیتاست نسخه فارسی‌شده و بومی‌شده‌ی IFEval است و توانایی مدل‌ها در پیروی دستورالعمل‌های پیچیده را ارزیابی می‌کند. ترجمه به‌صورت ترکیبی از ماشین و بازبینی انسانی انجام شده و پرامپت‌های نامناسب برای زبان فارسی بازنویسی یا حذف شده‌اند.نمونه‌ای از دستورالعمل در این دیتاست:تویییتی برای وزیر خارجه ایران بنویسید. توییت باید شامل کلمات کلیدی "تحریم" و "برجام" باشد.در این مثال، در دستورالعمل خواسته شده که دو کلمه کلیدی ('تحریم' و 'برجام') در متن خروجی موجود باشند. مدل باید توانایی تشخیص این کلمات کلیدی و گنجاندن آنها در خروجی را داشته باشد. این نوع تست‌ها برای بررسی دقت مدل در اجرای دستورالعمل‌های پیچیده طراحی شده‌اند.۳. دانش عمومی و تخصصی فارسی (PerMMLU)این بنچمارک نسخه فارسی‌ و توسعه‌یافته‌ای از بنچمارک MMLU برای سنجش دانش عمومی و تخصصی مدل‌ها می‌باشد. این دیتاست به نحوی توسعه داده شده تا علاوه بر علوم تدریس شده در مدارس، علوم دانشگاهی و دانش مختص فارسی زبانان را شامل شود. این مجموعه شامل:سوالات مدرسه‌ای (پایه چهارم تا دوازدهم)سوالات دانشگاهی در رشته‌های مختلفدانش عمومی مرتبط با فرهنگ و جامعه ایران (مانند قوانین، مشاهیر، سوغات)می باشد.جزئیات بیشتر در مورد این بنچمارک را در این لینک میتوانید بخوانید.۴. بنچمارک چند نوبتی فارسی(Persian MT-Bench)دیتاست Persian MT-Bench نسخه‌ی بومی‌سازی‌شده‌ی مجموعه‌ی MT-Bench به زبان فارسی است که با تغییرات محتوایی و ساختاری همراه بوده است. MT-Bench یک مجموعه‌ی ارزیابی مبتنی بر پرسش‌وپاسخ چندنوبتی (multi-turn) و دیالوگ‌محور است که شامل ۸۰ گفت‌وگو در قالب ۲ نوبت (turn) و در ۸ موضوع مختلف می‌باشد.در نسخه‌ی فارسی، تمام نمونه‌ها به‌صورت دقیق ترجمه و سپس توسط انسان بازنویسی شده‌اند تا از لحاظ زبانی و فرهنگی با کاربران فارسی‌زبان سازگار باشند. همچنین برای سنجش بهتر عملکرد مدل‌ها در مکالمات بلند، برخی از نمونه‌ها به ۳ یا ۴ نوبت مکالمه گسترش یافته‌اند.افزون بر این، دو موضوع جدید به مجموعه اضافه شده است، که هر یک شامل ۱۰ نمونه هستند:دانش بومی ایرانی: شامل سوالاتی درباره‌ی موضوعات فرهنگی مانند فیلم‌ها، سوغات شهرها و چهره‌های ایرانی.توانایی تولید در سیستم RAG (Chatbot-RAG): در این بنچمارک هر یک از سوالات به همراه چند سوال و پاسخ مرتبط از یک FAQ آمده است و مدل LLM باید با توجه به این سوال و پاسخ‌های مرتبط جواب سوال اصلی را بدهد و به این ترتیب قابلیت مدل در تولید متون در یک سیستم RAG ارزیابی می‌شود.این گسترش‌ها با هدف افزایش تنوع موضوعی و عمق ارزیابی مدل‌های فارسی‌زبان انجام شده‌اند. در نهایت بنچمارک Persian MT-Bench شامل ۱۰۰ گفتگو در قالب چند نوبتی(۲، ۳ یا ۴) و در ۱۰ موضوع مختلف می‌باشد.برای ارزیابی جواب‌های مدل روی این بنچمارک از روش قضاوت مدل‌های بزرگ (LLM as a judge) استفاده شده است.نمونه ای از داده چند نوبتی این دیتاست:🔁 Turn 1 – کاربر:نام چند فیلم و سریال ایرانی در زیر آورده شده است. تو نام کارگردان‌های آن‌ها را به ترتیب در خروجی در یک خط تولید کن.نهنگ عنبر - آژانس شیشه‌ای - یاغی - همیشه پای یک زن در میان است - هامون - دینامیت - شب‌های برره - حوالی پاییز - نجلا - جیران✅ پاسخ:سامان مقدم - ابراهیم حاتمی‌کیا - محمد کارت - کمال تبریزی - داریوش مهرجویی - مسعود اطیابی - مهران مدیری - حسین نمازی - خیرالله تقیانی پور - حسن فتحی🔁 Turn 2 – کاربر:از هر یک از فیلم و سریال‌هایی که در سوال قبل گفته شد، نام یک شخصیت به ترتیب در زیر آمده است. نام بازیگران این نقش‌ها را به ترتیب در خروجی در یک خط تولید کن.ارژنگ صنوبر - حاج کاظم - طلا - امید - مهشید سلیمانی - اکبر فخار - لیلون - مهران - عدنان - کفایت‌خاتون✅ پاسخ:رضا عطاران - پرویز پرستویی - طناز طباطبایی - حبیب رضایی - بیتا فرهی - محسن کیایی - بهنوش بختیاری - حسین مهری - هدایت هاشمی - رؤیا تیموریان🔁 Turn 3 – کاربر:از بین فیلم و سریال‌های گفته شده در سوال اول، قدیمی‌ترین و جدیدترین فیلم سینمایی را به همراه سال انتشار مشخص کنید.✅ پاسخ:قدیمی‌ترین فیلم سینمایی: هامون (1368)جدیدترین فیلم سینمایی: دینامیت (1400)جزئیات بیشتر در مورد این بنچمارک را در این لینک میتوانید بخوانید.۵. درک زبان طبیعی فارسی (Persian NLU)شامل مجموعه‌ای از دیتاست‌های موجود در فارسی برای ارزیابی درک زبان طبیعی است. این مجموعه مسائلی نظیر موارد زیر را شامل می‌شود:Text Classification: Synthetic Persian Tone, SIDNatural Language Inference (NLI): FarsTAILSemantic Textual Similarity (STS): Synthetic Persian STS, FarSICKNamed Entity Recognition (NER): ArmanParaphrase Detection: FarsiParaphraseDetection, ParsiNLUExtractive Question Answering (EQA): PQuADKeyword Extraction: Synthetic Persian KeywordsSentiment Analysis: DeepSentiPersهر کدام از این مسائل جنبه خاصی از LLMها را در درک زبان طبیعی فارسی ارزیابی می‌کند. برای مثال شما اگر می‌خواهید، قابلیت استخراج کلمات کلیدی را در LLMها بسنجید کافیست به ستون دادگان Keyword Extraction مراجعه کنید.۶. تولید زبان طبیعی فارسی(Persian NLG)این بخش مربوط به تولید زبان طبیعی است و تسک‌هایی نظیر:Summarization: SamSUM-fa, PnSummaryMachine Translation: TEP, MIZAN, EPOQUE, ...Question Generation: PersianQAرا در بر می‌گیرد. هدف این ارزیابی بررسی قابلیت تولیدی مدل‌هاست.این مسائل نیز قابلیت مدل‌ها را از جنبه‌های مختلف برای تولید متن مورد ارزیابی قرار می‌دهند. برای بررسی توانایی مدل‌ها در خلاصه سازی متن، میتوان ستون دادگان خلاصه سازی را بررسی کرد. همچنین برای ارزیابی دقت مدل ها در ترجمه متن در سه زبان فارسی، انگلیسی و عربی می توان ستون مربوط به دادگان ترجمه را بررسی کرد.نتیجه‌گیریلیدربورد ارزیابی مدل‌های زبانی بزرگ در فارسی (MIZAN) گامی مؤثر برای سنجش توانایی مدل‌های زبانی در زبان فارسی است و می‌تواند به عنوان میزان و مرجع ارزیابی برای پژوهشگران و توسعه‌دهندگان باشد.لینک هالیدربورد میزان:https://huggingface.co/spaces/MCINext/mizan-llm-leaderboardدیتاست‌های بنچمارک‌ها:https://huggingface.co/datasets/MCINext/persian-nlghttps://huggingface.co/datasets/MCINext/persian-nluhttps://huggingface.co/datasets/MCINext/persian-mt-benchhttps://huggingface.co/datasets/MCINext/persian-ifevalhttps://huggingface.co/datasets/MCINext/permmlu Erfan Zinvandi Erfan Zinvandi Wed, 28 May 2025 11:53:20 +0330 Persian MT-Bench https://blog.mcinext.org/persian-mt-bench-jbex94rao0ou دیتاست Persian MT-Bench نسخه‌ی بومی‌سازی‌شده‌ی مجموعه‌ی MT-Bench به زبان فارسی است که با تغییرات محتوایی و ساختاری همراه بوده است. MT-Bench یک مجموعه‌ی ارزیابی مبتنی بر پرسش‌وپاسخ چندنوبتی (multi-turn) و دیالوگ‌محور است که شامل ۸۰ گفت‌وگو در قالب ۲ نوبت (turn) و در ۸ موضوع مختلف می‌باشد.در نسخه‌ی فارسی، تمام نمونه‌ها به‌صورت دقیق ترجمه و سپس توسط انسان بازنویسی شده‌اند تا از لحاظ زبانی و فرهنگی با کاربران فارسی‌زبان سازگار باشند. همچنین برای سنجش بهتر عملکرد مدل‌ها در مکالمات بلند، برخی از نمونه‌ها به ۳ یا ۴نوبت گسترش یافته‌اند.افزون بر این، دو موضوع جدید به مجموعه اضافه شده است، که هر یک شامل ۱۰ نمونه هستند:دانش بومی ایرانی: شامل سوالاتی درباره‌ی موضوعات فرهنگی مانند فیلم‌ها، بازیگران و چهره‌های ایرانی.بازیابی در مکالمه (Chat-Retrieval): در این بخش، یک گفت‌وگوی چندنوبتی بین کاربر و چت‌بات ارائه می‌شود و مدل باید در پایان، یک سوال و پاسخ مرتبط با نیاز کاربر استخراج کند.این گسترش‌ها با هدف افزایش تنوع موضوعی و عمق ارزیابی مدل‌های فارسی‌زبان انجام شده‌اند. Erfan Zinvandi Erfan Zinvandi Wed, 28 May 2025 11:52:18 +0330 PerCoR https://blog.mcinext.org/percor-bae1okr2le35 PerCoR مخفف "Persian CommonSense Reasoning" است و اولین بنچمارک بزرگ‌مقیاس فارسی برای ارزیابی توانایی مدل‌ها در استدلال دانش عمومی به صورت تکمیل جمله با چند گزینه است. این مجموعه شامل ۱۰۶هزار نمونه از حوزه‌های متنوعی مانند اخبار، دین، تکنولوژی و سبک زندگی است که از بیش از ۴۰ وب‌سایت فارسی استخراج شده‌اند.برای ساخت نمونه‌ها از روشی نوآورانه بر اساس «تقسیم‌بندی با کلمات ربط» استفاده شده تا جملات و گزینه‌ها هماهنگ و متنوع باشند. همچنین با روش جدید و خلاقانه DRESS-AF که یک تکنیک بدون نیاز به تولید متن و مستقل از زبان است، گزینه‌های گمراه‌کننده چالش‌برانگیز و قابل‌حل برای انسان ایجاد شده‌اند.برای مثال کدام گزینه ادامه منطقی جمله‌ی زیر میباشد:در این سوال تنها گزینه ۲ میتواند جواب منطقی برای جمله باشد و سایر گزینه ها به دلایل مختلف نمیتوانند جواب باشند. گزینه۱ و ۳ در مورد موضوع دیگری صحبت میکنند و در گزینه ۴ زمان جمله با جمله اول تطبیق ندارد. Erfan Zinvandi Erfan Zinvandi Wed, 28 May 2025 11:49:09 +0330 PerMMLU https://blog.mcinext.org/mmlufa-fee1uotwkwpf MMLU چیست؟MMLU (اختصار Massive Multitask Language Understanding) یک بنچ‌مارک جامع برای سنجش درک زبانی مدل‌های زبانی بزرگ (LLMs) است که توسط دانشگاه UC Berkeley توسعه داده شده است. این بنچ‌مارک شامل بیش از ۱۵ هزار سوال چندگزینه‌ای در ۵۷ حوزه‌ی دانشی مختلف است که از منابع مختلفی چون امتحانات دانشگاهی، آزمون‌های حرفه‌ای، و اطلاعات عمومی گردآوری شده‌اند. هدف اصلی MMLU ارزیابی توانایی مدل‌های زبان در پاسخ‌گویی به سوالات سطح بالا و میان‌رشته‌ای است.سوالات MMLU از حوزه‌هایی چون علوم انسانی (تاریخ، فلسفه، ادبیات)، علوم پایه (فیزیک، شیمی، ریاضی)، علوم اجتماعی (جامعه‌شناسی، روان‌شناسی)، پزشکی، حقوق، کسب‌وکار، و تکنولوژی تشکیل شده‌اند. این تنوع موضوعی به ارزیابان اجازه می‌دهد تا عملکرد مدل‌ها را نه‌تنها در تولید زبان طبیعی، بلکه در میزان عمق و صحت دانش آن‌ها نیز بسنجند. ویژگی خاص این مجموعه، آن است که سوال‌ها همگی استاندارد و مشابه آزمون‌های واقعی هستند.MMLU به سرعت به یک معیار پذیرفته‌شده برای سنجش مدل‌های بزرگ مانند GPT، LLaMA، PaLM و دیگر LLMها تبدیل شده است. نتایج آزمون‌های MMLU معمولاً در مقالات و ارائه‌های رسمی مدل‌ها منتشر می‌شود و به عنوان یکی از چالش‌های اصلی در هوش مصنوعی عمومی شناخته می‌شود.PersianMMLU (Khayyam Challenge)مقاله Khayyam Challenge با توجه به اهمیت MMLU در سطح جهانی، پژوهشگران ایرانی تلاش کردند تا نسخه‌ای از این بنچ‌مارک را برای زبان فارسی توسعه دهند. نتیجه‌ی این تلاش، مجموعه داده‌ای به نام PersianMMLU یا چالش خیام بود. این مجموعه شامل ۲۰٬۱۹۲ سوال چندگزینه‌ای برگرفته از آزمون‌های رسمی مدارس ایران در پایه‌های مختلف تحصیلی و در ۳۸ موضوع متنوع است، که موضوعاتی چون درک ادبی، ریاضی، علوم، منطق، و آزمون‌های هوش را در بر می‌گیرد. هدف این چالش، ارزیابی دقیق مدل‌های زبانی فارسی در ابعاد مختلفی همچون فهم زبان و استدلال بوده است.یک نمونه از داده Persian MMLUبا وجود ارزشمند بودن، بنچمارک PersianMMLU ، این بنچمارک دارای محدودیت‌هایی است. نخست آن‌که دامنه‌ی سوالات آن محدود به موضوعات تدریس‌شده در مقطع مدرسه است و اغلب حوزه‌های دانشگاهی، تخصصی یا فرهنگی مانند قوانین ایرانی، طب سنتی، مشاهیر ایرانی، مسائل پزشکی، مسائل فنی مهندسی و دانش مختص به جامعه ایرانی را پوشش نمی‌دهد. دوم این‌که تنوع زبانی و سبک نگارش سوالات در آن کم بوده و بیشتر بر آموزش رسمی و استاندارد مدارس متکی است، که می‌تواند باعث عدم پوشش کامل مهارت‌های زبانی مدل‌ها شود.همچنین، این مجموعه به‌طور کامل از دیدگاه بین‌رشته‌ای بودن یا تحلیل‌های سطح بالا که در نسخه اصلی MMLU وجود دارد، فاصله دارد. با وجود تلاش برای پرهیز از مشکلات آلودگی داده و استفاده از داده‌های اصیل و بومی برای فارسی‌زبانان، همچنان برای ارزیابی جامع و دقیق مدل‌های زبانی فارسی، نیاز به یک بنچ‌مارک گسترده‌تر، متنوع‌تر و مقیاس‌پذیر احساس می‌شود.معرفی PerMMLU – گامی نوین در ارزیابی جامع زبان فارسیPerMMLU جهت رفع محدودیت های موجود درPersianMMLU، توسعه داده شده است. در ساخت این بنچمارک تلاش شده تا یک بنچمارک جامع‌تر، متنوع‌تر و تطبیق‌پذیر با ویژگی‌های زبانی و فرهنگی ایرانیان ایجاد شود. این بنچمارک با هدف پوشش سه بعد مهم از دانش فارسی طراحی شده و در قالب سه مجموعه داده‌ی مستقل و مکمل ارائه می‌شود: UPK ، SPK و GPKنخستین بخش، SPK (School Persian Knowledge)، شامل ۵۵۸۱ سوال چهارگزینه‌ای از دروس رسمی مدارس ایران است که از پایه چهارم تا دوازدهم و در ۷۸ موضوع متنوع می‎‌باشد. این مجموعه داده از وب‌سایت آموزشی پادرس کرال شده است و سپس توسط انسان و مدل های زبانی بزرگ(LLMs) تمیز سازی شده تا سوالاتی که ناقص هستند یا نیاز به اطلاعات اضافی همچون تصویر، نمودار یا جدول دارند، حذف شوند. این دیتاست پایه‌ای منسجم برای ارزیابی توانایی مدل‌ها، در فهم محتوای درسی مدارس به زبان فارسی ایجاد می‌کند.توزیع دادگان در هر پایه در دیتاست SPK مثال از دیتاست SPK:نمونه سوال - دسته‌بندی: تاریخ دهم سؤال: در کدام کشور باستانی، مجموعه متون دینی (وداها) در حدود 1200 ق م به صورت مکتوب در آمد؟ گزینه‌ها: ۱) هند ۲) چین ۳) یونان ۴) میان دورود پاسخ صحیح: ۱) هنددومین مجموعه، UPK (University Persian Knowledge)، شامل ۷۷۹۳ سوال و جواب چهارگزینه‌ای برگرفته از آزمون‌های کنکور کارشناسی ارشد و دکترا در ۲۵ رشته دانشگاهی است که حوزه‌هایی مانند پزشکی، مهندسی، علوم انسانی و هنر را پوشش می‌دهد. این مجموعه تلاش می‌کند خلأ موجود در چالش خیام را با ارائه‌ی متونی تخصصی و سطح‌بالای علمی جبران کند و مدل‌های زبانی را در مواجهه با مفاهیم دانشگاهی به چالش بکشد. در فرآیند گردآوری این داده‌ها، از فناوری OCR برای استخراج سوالات و پاسخ‌ها از دفترچه کنکورهای ارشد و دکترا استفاده شده و از مدل‌های زبانی بزرگ (LLM) برای پاک‌سازی و تمیزسازی داده‌ها بهره گرفته شده است. طراحی این مجموعه به‌گونه‌ای بوده که پوشش جامعی از مفاهیم تدریس‌شده در دانشگاه ارائه دهد و در مواردی که رشته‌ها اشتراک محتوایی بالایی داشته‌اند، تنها یکی به‌عنوان نماینده انتخاب شده است.توزیع داده در هر گرایش در دیتاست UPK مثال از دیتاست UPK:نمونه سوال - دسته‌بندی: عمران سؤال: اگر ضخامت یک پی صلب ۸۰ سانتی‌متر و پوشش بتن روی آرماتورهای آن ۱۰ سانتی‌متر باشد، برای یک ستون مربعی به عرض ۵۰ سانتی‌متر، مقطع بحرانی برای کنترل برش یک‌طرفه چند سانتی‌متر از بر ستون فاصله دارد؟گزینه‌ها: ۱) ۷۰ ۲) ۶۲ ۳) ۴۰ ۴) ۳۵ پاسخ صحیح: ۱) ۷۰در نهایت، GPK (General Persian Knowledge) با هدف ارزیابی دانش عمومی مدل‌ها از موضوعاتی طراحی شده که مختص جامعه ایرانی هستند. منظور از دانش عمومی مختص جامعه ایرانی، دانشی است که در بستر فرهنگی، اجتماعی و قانونی ایران معنا و کاربرد دارد و برای آن‌که مدل‌های زبانی بزرگ با فرهنگ فارسی آشنا باشند، لازم است به این نوع دانش نیز تسلط داشته باشند. این مجموعه شامل ۱۰۰۳ سوال چهارگزینه‌ای در ۱۵ موضوع مختلف است که زمینه‌هایی مانند سوغات شهرها، احکام دینی، قوانین ملی، شخصیت‌های مشهور، اصطلاحات فرهنگی و دیگر موضوعات بومی ایران را در بر می‌گیرد. این داده‌ها با جمع‌آوری اطلاعات از وب‌سایت‌های مختلف و تولید ساختارمند سوالات از طریق پرامپت‌های ویژه برای هر موضوع به‌طور جداگانه توسط مدل‌های زبانی بزرگ ساخته شده‌اند. همچنین، داده‌های حساس‌تری مانند محتوای دینی و سیاسی توسط انسان بررسی و ویرایش شده‌اند تا از بروز خطا یا سوگیری جلوگیری شود.توزیع دیتاست GPK در هر موضوع مثال از دیتاست GPK:سؤال: ورزش کبدی مدرن از کدام بازی قدیمی برگرفته شده است؟گزینه‌ها: ۱) لوچو ۲) زو ۳) چوگو ۴) گورشپاسخ صحیح: ۲) زوPerMMLU با این رویکرد سه‌گانه، گامی مهم در مسیر ارزیابی دقیق‌تر و بومی‌تر مدل‌های زبانی فارسی برداشته است. Erfan Zinvandi Erfan Zinvandi Mon, 12 May 2025 16:33:02 +0330