
به تجربه من، در بیشتر پروژههای سازمانی مشکل اصلی RAG از خود مدل نیست. تحقیقات تازه هم همین را میگویند. بیشتر خطاها از داده و Ops میآید؛ یعنی همان بخشهایی مثل chunking، evaluation، guardrails و observability. وقتی این بخشها درست مدیریت نشوند، خروجی پر از hallucination میشود، ریسک بالا میرود و رضایت کاربری پایین میآید.
▪️منبع ناقص یا نامنظم: اگر اسناد از اول کامل و تمیز نباشند، retrieval ضعیف میشود. (نمونه: AWS Prescriptive Guidance)
▫️چانکینگ ضعیف: برش نادرست متن باعث میشود بخشی از اطلاعات گم شود یا خطا زیاد شود. انتخاب استراتژی درست میتواند تا ۴۵٪ دقت را بهتر کند (Chroma). بعضی تیمها مثل Weaviate نیز از chunk-on-demand استفاده میکنند تا کیفیت حفظ شود و هزینه پایین بماند.
▪️ارزیابی نامرتبط: معیارهای عمومی کافی نیستند. باید metricsهایی متناسب با نیاز سازمان تعریف شود. ابزارهایی مثل Arize یا Weights & Biases کمک میکنند حتی با داده کم یک LLM-as-a-Judge بسازیم و کیفیت را پیوسته بسنجیم.
▫️نبود guardrails: فقط کنترل ورودی و خروجی کافی نیست. حملات اخیر نشان دادهاند خود روند استدلال (reasoning process) هم باید امن شود. (NVIDIA NeMo Guardrails)
▪️فقدان observability: بدون رصد دقیق، خطاها پنهان میمانند. ابزارهایی مثل Langfuse یا OpenTelemetry امکان رهگیری هزینه، latency و مسیر استدلال را فراهم میکنند.
✔️ جمعبندی: RAG فقط زمانی به تجربه کاربری خوب منجر میشود که این پنج بخش جدی گرفته شوند. اگر شما هم تجربهای در این زمینه دارید یا مورد مهم دیگری به ذهنتان میرسد، خوشحال میشوم برایم بنویسید.