برای تست سیستم هوش مصنوعی که جستجوی معنایی (semantic search) انجام میدهد و مقایسه آن با نتایج جستجوی دستی، مراجعه به مقالات تخصصی در زمینه ارزیابی جستجوی معنایی، بازیابی اطلاعات (IR)، و کاربرد مدلهای زبان بزرگ (LLM) بسیار کمککننده است. در ادامه تعدادی از مقالات کلیدی همراه با نکاتی که باید در مطالعهشان در نظر بگیرید آورده شده است:
Semantic Search Evaluation (Zheng et al., 2024)
در این مقاله برای سیستم جستجوی محتوا، متریک «on‑topic rate» را معرفی کردهاند که نشان میدهد چهدرصد از نتایج واقعاً به موضوع پرسش مرتبط هستند. (arXiv)
فازهایی در ارزیابی آفلاین با استفاده از LLM (مثلاً GPT) دارند. مفید است برای زمانی که سیستم شما از مدل بزرگ استفاده میکند.
نکته کاربردی: اگر شما برای سیستمتان پرسشهای طلا (golden queries) تعریف کردهاید، این مقاله چارچوب خوبی برای سنجش دارد.
An overview of semantic search evaluation initiatives (Elbedweihy et al., 2015)
مروری بر روشهای ارزیابی سیستمهای جستجوی معنایی و نقاط ضعف آنها. (ScienceDirect)
نکته کاربردی: برای طراحی مطالعه مقایسهای بین جستجوی معنایی و جستجوی دستی، بخش روششناسی این مقاله میتواند بسیار الهامبخش باشد.
Evaluating Semantic Search Systems to Identify Future Directions of Research (Elbedweihy, Wrigley, Clough, Ciravegna, 2013)
بررسی شده که چگونه سیستمهای جستجوی معنایی از منظر عملکرد و از منظر تجربه کاربری ارزیابی شوند. (ResearchGate)
نکته کاربردی: وقتی بخواهید تفاوت بین «نتایج» و «تجربه کاربر» را بسنجید (مثلاً کاربران چقدر با نتایج معنایی راحت بودند) این مقاله کمک میکند.
Evaluation of Semantic Search and its Role in Retrieved‑Augmented Generation (2024)
این مقاله به جستجوی معنایی در زمینه زبان عربی / RAG (Retrieval‑Augmented Generation) میپردازد و نشان میدهد اثرات مختلف «انکدرهای متفاوت» را. (arXiv)
نکته کاربردی: اگر سیستم شما زبان غیرانگلیسی دارد یا بخش تولید محتوا هم در آن هست، این مقاله میتواند کاربردی باشد.
LLM‑as‑a‑Judge: automated evaluation of search query parsing (2025)
اشاره دارد به چارچوبی که مدلهای زبان بزرگ به عنوان «داور» برای ارزیابی خروجی سیستمهای جستجو مورد استفاده قرار میگیرند. (Frontiers)
نکته کاربردی: اگر میخواهید بخشی از ارزیابی را با خود مدل یا تحلیل خودکار انجام دهید (نه فقط دستی)، این مقاله راهنمای خوبی است.
مجموعه پرسشها (Queries): باید «پرسشهای طلا» یا پرسشهایی که از قبل میدانید نتایج مطلوبشان چیست، داشته باشید.
مقایسه با دستی: نتایج جستجوی دستی را به عنوان baseline داشته باشید؛ بعد خروجی سیستم هوش مصنوعی را با آن مقایسه کنید.
متریکهای ارزیابی: علاوه بر دقت (Precision)، بازیابی (Recall)، میتوانید متریکهای معناییتر مثل «ارتباط معنایی» (semantic relevance) یا «On‑topic rate» را استفاده کنید. (مثلاً مقاله اول)
ثبت تجربه کاربر: نه فقط اینکه چقدر نتایج درست هستند، بلکه کاربر چقدر راحت به نتیجه رسید؟ اصلاً تفاوت در تجربه وجود دارد؟
زبان/دومینو خاص: اگر سیستم شما در زبان فارسی است یا حوزه خاصی (مثلاً پزشکی، حقوق)، باید ببینید آیا متونی وجود دارد که مخصوص آن حوزه و زبان تنظیم شده باشند.
روش ارزیابی خودکار vs انسانی: همانطور که مقاله «LLM‑as‑a‑Judge» نشان میدهد، میتوانید ارزیابی را با استفاده از مدل بزرگ انجام دهید تا هزینه انسان کاهش یابد، ولی باید اعتبار آن سنجیده شود.
خطاها و تفاوتها: مثلا بررسی کنید آیا در نتایج معنایی، خطاهای دیکتهای یا هممعنیها تأثیر دارند؟ همانطور که در گفتگو اشاره کردید.
اگر بخواهید، میتوانم یک «لیست جامعتر» از ۱۰‑۲۰ مقاله به همراه محورهای دقیقشان آماده کنم که مخصوص جستجوی معنایی با مدلهای بزرگ و مقایسه با جستجوی دستی مناسب باشد — آیا مایلید؟