
سال ۲۰۲۵ با موجی از وعدهها و هیجانات پیرامون «عاملهای هوش مصنوعی» آغاز شد. بسیاری ادعا میکنند که با ظهور مدلهای زبانی بزرگ و معماریهای جدید، ایجنتها (Agent) به زودی قادر خواهند بود پیچیدهترین مسائل دنیای واقعی را — از توسعه نرمافزار تا خودکارسازی تعاملات آنلاین — حل کنند. اما در میان این هیاهو، تجربه عملی و نمونههای واقعی مانند گجتهای پوشیدنی Rabbit R1 و Humane Pin نشان میدهند که فاصله قابلتوجهی میان ادعاها و واقعیت وجود دارد.
در چنین فضایی، سخنرانی سیاش کاپور (Sayash Kapoor) در AI Engineer Summit 2025 اهمیت ویژهای پیدا میکند. او با نگاهی نقادانه و مبتنی بر پژوهشهای سالها فعالیت در حوزه سیاستگذاری فناوری و مهندسی هوش مصنوعی، تلاش میکند حقیقت را از هیجان تبلیغاتی جدا کند.
پیام او روشن است:
اگر میخواهیم عصر جدید عاملها واقعاً فرا برسد، باید استانداردهای ارزیابی، شیوههای مهندسی، و نگاهمان به قابلیتهای فعلی سیستمهای هوشمند را از بنیاد بازنگری کنیم.
کاپور پژوهشگر ارشد در Mozilla، برنده جایزه Laurance S. Rockefeller Graduate Prize در دانشگاه پرینستون و دانشجوی دکتری علوم کامپیوتر در مرکز سیاستگذاری فناوری اطلاعات این دانشگاه است. او یکی از نویسندگان کتاب تأثیرگذار AI Snake Oil است؛ اثری که مرز میان هیاهوی رسانهای و پیشرفت واقعی در حوزه هوش مصنوعی را روشن میکند. نوشتههای او در رسانههایی مانند WIRED و Wall Street Journal منتشر شده و تحقیقاتش در New York Times ،The Atlantic ،Washington Post ،Bloomberg و دیگر رسانههای معتبر بازتاب یافته است. نام او همچنین در نخستین فهرست ۱۰۰ فرد تأثیرگذار حوزه هوش مصنوعی مجله TIME قرار گرفته است.
مبنای این مقاله، سخنرانی پرمحتوای او در رویداد Agent Engineering Session Day در چارچوبAI Engineer Summit 2025 در نیویورک است؛ رویدادی که به شکل اختصاصی بر آینده مهندسی عاملها و نقش مهندسان هوش مصنوعی در شکلدادن به موج بعدی فناوری تمرکز دارد.
امروزه انتظار میرود که عاملها بخش بزرگی از آینده محصولات هوش مصنوعی باشند—نه لزوماً به شکل عاملهای مستقل، بلکه بهعنوان اجزای داخلی سیستمهای بزرگتر. شرکتها و پژوهشگران تصورات جاهطلبانهای از آینده دارند؛ تصویری شبیه فیلم Her که در آن عاملها مانند موجودات هوشمند، مستقل و قابلاعتماد عمل میکنند.
اما واقعیت فعلی چیز دیگری است. نمایشهای اولیه جذاباند، اما پروژههای جاهطلبانه یکی پس از دیگری شکست میخورند. فاصله میان رؤیا و واقعیت بسیار زیاد است.
مهمترین مشکل این است که بسیاری از ادعاهای مربوط به توانایی عاملها با ارزیابیهای علمی مستقل سازگار نیست. چند نمونه مهم:
مثال ۱: DoNotPay – وکیل خودکار
شرکتی که ادعا داشت میتواند کار یک وکیل را کاملاً خودکار کند. بعدها FTC (کمیسیون فدرال تجارت آمریکا) این شرکت را جریمه کرد، زیرا تبلیغاتش «گمراهکننده» و نتایج واقعیاش «نادرست» بود.
مثال ۲: شرکتهای بزرگ LawTech
LexisNexis و Westlaw محصولاتی با شعار «عاری از توهمزایی» منتشر کردند. اما پژوهشهای استنفورد نشان داد حداقل ۱۶٪ خروجیها غلط است، گاهی با تحریف کامل قانون یا خلق پاراگرافهای ساختگی.
مثال ۳: علم خودکار و شکست Sakana AI
ایده «دانشمند پژوهشگر خودکار» بسیار جذاب بود. اما در آزمایشهای دانشگاهی:
بهترین عاملها تنها ۴۰٪ مقالات علمی را موفق به بازتولید شدند.
محصول Sakana روی مسائل بسیار ساده، و با داوری مدلهای زبانی (نه انسان) ارزیابی شده بود.
بهتازگی این شرکت ادعا کرد کرنلهای CUDA را «۱۵۰ برابر سریعتر» کرده؛ اما بررسیها نشان داد عامل در واقع، «سیستم پاداش» را دور زده است—نه کرنل را بهینه کرده.
نتیجه:
مشکل اصلی نه ضعف مدلها، بلکه ضعف ارزیابی است.
مدلهای زبانی با ورودی و خروجی ثابت ارزیابی میشوند. اما ایجنتها باید عمل انجام دهند، تصمیم بگیرند، به محیط واکنش نشان دهند و چندمرحلهای حرکت کنند. ارزیابی چنین سیستمهایی:
زمانبرتر
پرهزینهتر
بسیار پیچیدهتر
است.
سه چالش بنیادین ارزیابی عاملها:
۱. ایستا بودن بنچمارکها: عاملها در دنیای واقعی با تغییرات مداوم مواجهاند، اما بنچمارکها این پویایی را بازتاب نمیدهند.
۲. هزینه: برخلاف LLMها، ایجنتها ممکن است وارد حلقه بیپایان شوند، برنامه فراخوانی کنند و هزینههای گسترده تولید کنند.
۳. تخصصی بودن کارها: عملکرد یک ایجنت برنامهنویسی را نمیتوان با بنچمارک ایجنت مرورگر سنجید.
حتی بنچمارکهای مرسوم تبدیل شدهاند به ابزار جذب سرمایه نه معیار علمی. مثال واضح: Devin، ایجنت برنامهنویس که ۱۷۵ میلیون دلار جذب کرد، در یک ارزیابی مستقل تنها ۳ کار موفق از ۲۰ کار واقعی انجام داد!
در سطح قابلیت (Capability)، مدلها بسیار پیشرفت کردهاند.
اما در کاربرد واقعی، آنچه اهمیت دارد پایداری (Reliability) است.
قابلیت = «میتواند»
پایداری = «هر بار درست انجام دهد»
امروز مدلها شاید ۹۰٪ توانایی داشته باشند. اما برای کاربرد در دنیای واقعی نیاز داریم به ۹۹.۹۹۹٪—سطح «پنج ۹» در صنعت. این دقیقاً همان جایی است که بسیاری محصولات شکست میخورند:
Rabbit R1
Humane AI Pin
بسیاری از دستیارهای مبتنی بر LLM
زیرا خروجیها «گاهی» درست بود، اما «همیشه» درست نبود.
ایده ساخت «راستیآزمایی خودکار» جذاب است. اما تستها مثل HumanEval حتی کدهای غلط را گاهی «درست» ارزیابی میکنند. این یعنی اگر سیستم فقط به Verifier تکیه کند، ممکن است خروجیهای اشتباه را معتبر بداند.
مهندسی عامل = مهندسی قابلیت اطمینان
کاپور تأکید میکند که مهندسی هوش مصنوعی باید به سمت:
مهندسی سیستم
طراحی برای پایداری
مدیریت ریسک
کنترل سامانههای تصادفی
بهبود تدریجی قابلیت اعتماد
حرکت کند.
یک مثال تاریخی فوقالعاده الهامبخش: نخستین رایانه الکترونیکی جهان ENIAC (۱۹۴۶)
این رایانه با ۱۷٬۰۰۰ لامپ خلأ مدام خراب میشد—و نصف اوقات خاموش بود! مهندسان دو سال کامل فقط روی پایداری کار کردند تا محصول «به اندازه کافی قابلاستفاده» شود. این دقیقاً همان مسیری است که عاملهای امروز نیاز دارند.
در پایان، مهمترین پیام سخنرانی چنین است:
کار اصلی یک مهندس هوش مصنوعی ساختن محصول شگفتانگیز نیست—
کار اصلی، ساختن محصول قابلاعتماد است.
عاملها ذاتاً تصادفیاند.
مدلهای زبانی غیرقطعیاند.
پس مسئولیت ما این است که سیستمهایی بسازیم که روی این اجزای پرنویز پایداری ایجاد کنند. این همان تغییر ذهنیتی است که موج جدید رایانش به آن نیاز دارد.
۱. ارزیابی سخت است: بدون ارزیابی جدی، ادعاهای اغراقآمیز ادامه مییابد.
۲. پایداری از قابلیت مهمتر است: قابلیت ۹۰٪ کافی نیست؛ باید به سطح صنعتی برسیم.
۳. AI Engineering باید به Reliability Engineering تبدیل شود: مهندسان آینده کسانیاند که این سیستمها را برای دنیای واقعی «قابلاتکا» میکنند.