خواندن ۵ دقیقه·۲ ماه پیش

ساخت و ارزیابی عامل‌های هوش مصنوعی کارآمد در دنیای واقعی

مقدمه

سال ۲۰۲۵ با موجی از وعده‌ها و هیجانات پیرامون «عامل‌های هوش مصنوعی» آغاز شد. بسیاری ادعا می‌کنند که با ظهور مدل‌های زبانی بزرگ و معماری‌های جدید، ایجنت‌ها (Agent) به زودی قادر خواهند بود پیچیده‌ترین مسائل دنیای واقعی را — از توسعه نرم‌افزار تا خودکارسازی تعاملات آنلاین — حل کنند. اما در میان این هیاهو، تجربه عملی و نمونه‌های واقعی مانند گجت‌های پوشیدنی Rabbit R1 و Humane Pin نشان می‌دهند که فاصله قابل‌توجهی میان ادعاها و واقعیت وجود دارد.

در چنین فضایی، سخنرانی سیاش کاپور (Sayash Kapoor) در AI Engineer Summit 2025 اهمیت ویژه‌ای پیدا می‌کند. او با نگاهی نقادانه و مبتنی بر پژوهش‌های سال‌ها فعالیت در حوزه سیاست‌گذاری فناوری و مهندسی هوش مصنوعی، تلاش می‌کند حقیقت را از هیجان تبلیغاتی جدا کند.

پیام او روشن است:

اگر می‌خواهیم عصر جدید عامل‌ها واقعاً فرا برسد، باید استانداردهای ارزیابی، شیوه‌های مهندسی، و نگاه‌مان به قابلیت‌های فعلی سیستم‌های هوشمند را از بنیاد بازنگری کنیم.

کاپور پژوهشگر ارشد در Mozilla، برنده جایزه Laurance S. Rockefeller Graduate Prize در دانشگاه پرینستون و دانشجوی دکتری علوم کامپیوتر در مرکز سیاست‌گذاری فناوری اطلاعات این دانشگاه است. او یکی از نویسندگان کتاب تأثیرگذار AI Snake Oil است؛ اثری که مرز میان هیاهوی رسانه‌ای و پیشرفت واقعی در حوزه هوش مصنوعی را روشن می‌کند. نوشته‌های او در رسانه‌هایی مانند WIRED و Wall Street Journal منتشر شده و تحقیقاتش در New York Times ،The Atlantic ،Washington Post ،Bloomberg و دیگر رسانه‌های معتبر بازتاب یافته است. نام او همچنین در نخستین فهرست ۱۰۰ فرد تأثیرگذار حوزه هوش مصنوعی مجله TIME قرار گرفته است.

مبنای این مقاله، سخنرانی پرمحتوای او در رویداد Agent Engineering Session Day در چارچوبAI Engineer Summit 2025 در نیویورک است؛ رویدادی که به شکل اختصاصی بر آینده مهندسی عامل‌ها و نقش مهندسان هوش مصنوعی در شکل‌دادن به موج بعدی فناوری تمرکز دارد.

موج عظیم عامل‌ها: جذاب و در عین حال اغراق‌شده

امروزه انتظار می‌رود که عامل‌ها بخش بزرگی از آینده محصولات هوش مصنوعی باشند—نه لزوماً به شکل عامل‌های مستقل، بلکه به‌عنوان اجزای داخلی سیستم‌های بزرگ‌تر. شرکت‌ها و پژوهشگران تصورات جاه‌طلبانه‌ای از آینده دارند؛ تصویری شبیه فیلم Her که در آن عامل‌ها مانند موجودات هوشمند، مستقل و قابل‌اعتماد عمل می‌کنند.

اما واقعیت فعلی چیز دیگری است. نمایش‌های اولیه جذاب‌اند، اما پروژه‌های جاه‌طلبانه یکی پس از دیگری شکست می‌خورند. فاصله میان رؤیا و واقعیت بسیار زیاد است.

سه دلیل اصلی ناکارآمدی عامل‌ها

الف) ارزیابی عامل‌ها فوق‌العاده سخت است

مهم‌ترین مشکل این است که بسیاری از ادعاهای مربوط به توانایی عامل‌ها با ارزیابی‌های علمی مستقل سازگار نیست. چند نمونه مهم:

مثال ۱: DoNotPay – وکیل خودکار

شرکتی که ادعا داشت می‌تواند کار یک وکیل را کاملاً خودکار کند. بعدها FTC (کمیسیون فدرال تجارت آمریکا) این شرکت را جریمه کرد، زیرا تبلیغاتش «گمراه‌کننده» و نتایج واقعی‌اش «نادرست» بود.

مثال ۲: شرکت‌های بزرگ LawTech

LexisNexis و Westlaw محصولاتی با شعار «عاری از توهم‌زایی» منتشر کردند. اما پژوهش‌های استنفورد نشان داد حداقل ۱۶٪ خروجی‌ها غلط است، گاهی با تحریف کامل قانون یا خلق پاراگراف‌های ساختگی.

مثال ۳: علم خودکار و شکست Sakana AI

ایده «دانشمند پژوهشگر خودکار» بسیار جذاب بود. اما در آزمایش‌های دانشگاهی:

بهترین عامل‌ها تنها ۴۰٪ مقالات علمی را موفق به بازتولید شدند.
محصول Sakana روی مسائل بسیار ساده، و با داوری مدل‌های زبانی (نه انسان) ارزیابی شده بود.

به‌تازگی این شرکت ادعا کرد کرنل‌های CUDA را «۱۵۰ برابر سریع‌تر» کرده؛ اما بررسی‌ها نشان داد عامل در واقع، «سیستم پاداش» را دور زده است—نه کرنل را بهینه کرده.

نتیجه:
مشکل اصلی نه ضعف مدل‌ها، بلکه ضعف ارزیابی است.

ب) بنچمارک‌های ایستا، تصویر غلط می‌دهند

مدل‌های زبانی با ورودی و خروجی ثابت ارزیابی می‌شوند. اما ایجنت‌ها باید عمل انجام دهند، تصمیم بگیرند، به محیط واکنش نشان دهند و چندمرحله‌ای حرکت کنند. ارزیابی چنین سیستم‌هایی:

زمان‌برتر
پرهزینه‌تر
بسیار پیچیده‌تر

است.

سه چالش بنیادین ارزیابی عامل‌ها:

۱. ایستا بودن بنچمارک‌ها: عامل‌ها در دنیای واقعی با تغییرات مداوم مواجه‌اند، اما بنچمارک‌ها این پویایی را بازتاب نمی‌دهند.

۲. هزینه: برخلاف LLMها، ایجنت‌ها ممکن است وارد حلقه بی‌پایان شوند، برنامه فراخوانی کنند و هزینه‌های گسترده تولید کنند.

۳. تخصصی بودن کارها: عملکرد یک ایجنت برنامه‌نویسی را نمی‌توان با بنچمارک ایجنت مرورگر سنجید.

حتی بنچمارک‌های مرسوم تبدیل شده‌اند به ابزار جذب سرمایه نه معیار علمی. مثال واضح: Devin، ایجنت برنامه‌نویس که ۱۷۵ میلیون دلار جذب کرد، در یک ارزیابی مستقل تنها ۳ کار موفق از ۲۰ کار واقعی انجام داد!

ج) بحران قابلیت اطمینان: عامل‌ها پایدار نیستند

در سطح قابلیت (Capability)، مدل‌ها بسیار پیشرفت کرده‌اند.
اما در کاربرد واقعی، آن‌چه اهمیت دارد پایداری (Reliability) است.

قابلیت = «می‌تواند»
پایداری = «هر بار درست انجام دهد»

امروز مدل‌ها شاید ۹۰٪ توانایی داشته باشند. اما برای کاربرد در دنیای واقعی نیاز داریم به ۹۹.۹۹۹٪—سطح «پنج ۹» در صنعت. این دقیقاً همان جایی است که بسیاری محصولات شکست می‌خورند:

Rabbit R1
Humane AI Pin
بسیاری از دستیارهای مبتنی بر LLM

زیرا خروجی‌ها «گاهی» درست بود، اما «همیشه» درست نبود.

چرا Verifierها هم کافی نیستند؟

ایده ساخت «راستی‌آزمایی خودکار» جذاب است. اما تست‌ها مثل HumanEval حتی کدهای غلط را گاهی «درست» ارزیابی می‌کنند. این یعنی اگر سیستم فقط به Verifier تکیه کند، ممکن است خروجی‌های اشتباه را معتبر بداند.

مهندسی عامل = مهندسی قابلیت اطمینان

کاپور تأکید می‌کند که مهندسی هوش مصنوعی باید به سمت:

مهندسی سیستم
طراحی برای پایداری
مدیریت ریسک
کنترل سامانه‌های تصادفی
بهبود تدریجی قابلیت اعتماد

حرکت کند.

یک مثال تاریخی فوق‌العاده الهام‌بخش: نخستین رایانه الکترونیکی جهان ENIAC (۱۹۴۶)
این رایانه با ۱۷٬۰۰۰ لامپ خلأ مدام خراب می‌شد—و نصف اوقات خاموش بود! مهندسان دو سال کامل فقط روی پایداری کار کردند تا محصول «به اندازه کافی قابل‌استفاده» شود. این دقیقاً همان مسیری است که عامل‌های امروز نیاز دارند.

تغییر ذهنیتی ضروری برای یک مهندس هوش مصنوعی

در پایان، مهم‌ترین پیام سخنرانی چنین است:

کار اصلی یک مهندس هوش مصنوعی ساختن محصول شگفت‌انگیز نیست—
کار اصلی، ساختن محصول قابل‌اعتماد است.

عامل‌ها ذاتاً تصادفی‌اند.
مدل‌های زبانی غیرقطعی‌اند.
پس مسئولیت ما این است که سیستم‌هایی بسازیم که روی این اجزای پرنویز پایداری ایجاد کنند. این همان تغییر ذهنیتی است که موج جدید رایانش به آن نیاز دارد.

سه نکته نهایی

۱. ارزیابی سخت است: بدون ارزیابی جدی، ادعاهای اغراق‌آمیز ادامه می‌یابد.

۲. پایداری از قابلیت مهم‌تر است: قابلیت ۹۰٪ کافی نیست؛ باید به سطح صنعتی برسیم.

۳. AI Engineering باید به Reliability Engineering تبدیل شود: مهندسان آینده کسانی‌اند که این سیستم‌ها را برای دنیای واقعی «قابل‌اتکا» می‌کنند.

منبع:
https://www.youtube.com/watch?v=d5EltXhbcfA

هوش مصنوعی

Ali Taghani / علی طغانی

سلام علی هستم، کارشناس ارشد فناوری اطلاعات. علاقه مندم دانسته هام رو به اشتراک بگذارم

شاید از این پست‌ها خوشتان بیاید

Ali Taghani / علی طغانی

خواندن ۵ دقیقه·۲ ماه پیش

ساخت و ارزیابی عامل‌های هوش مصنوعی کارآمد در دنیای واقعی

مقدمه

پیام او روشن است:

اگر می‌خواهیم عصر جدید عامل‌ها واقعاً فرا برسد، باید استانداردهای ارزیابی، شیوه‌های مهندسی، و نگاه‌مان به قابلیت‌های فعلی سیستم‌های هوشمند را از بنیاد بازنگری کنیم.

موج عظیم عامل‌ها: جذاب و در عین حال اغراق‌شده

سه دلیل اصلی ناکارآمدی عامل‌ها

الف) ارزیابی عامل‌ها فوق‌العاده سخت است

مثال ۱: DoNotPay – وکیل خودکار

مثال ۲: شرکت‌های بزرگ LawTech

مثال ۳: علم خودکار و شکست Sakana AI

ایده «دانشمند پژوهشگر خودکار» بسیار جذاب بود. اما در آزمایش‌های دانشگاهی:

بهترین عامل‌ها تنها ۴۰٪ مقالات علمی را موفق به بازتولید شدند.
محصول Sakana روی مسائل بسیار ساده، و با داوری مدل‌های زبانی (نه انسان) ارزیابی شده بود.

نتیجه:
مشکل اصلی نه ضعف مدل‌ها، بلکه ضعف ارزیابی است.

ب) بنچمارک‌های ایستا، تصویر غلط می‌دهند

زمان‌برتر
پرهزینه‌تر
بسیار پیچیده‌تر

است.

سه چالش بنیادین ارزیابی عامل‌ها:

۳. تخصصی بودن کارها: عملکرد یک ایجنت برنامه‌نویسی را نمی‌توان با بنچمارک ایجنت مرورگر سنجید.

ج) بحران قابلیت اطمینان: عامل‌ها پایدار نیستند

قابلیت = «می‌تواند»
پایداری = «هر بار درست انجام دهد»

Rabbit R1
Humane AI Pin
بسیاری از دستیارهای مبتنی بر LLM

زیرا خروجی‌ها «گاهی» درست بود، اما «همیشه» درست نبود.

چرا Verifierها هم کافی نیستند؟

مهندسی عامل = مهندسی قابلیت اطمینان

کاپور تأکید می‌کند که مهندسی هوش مصنوعی باید به سمت:

مهندسی سیستم
طراحی برای پایداری
مدیریت ریسک
کنترل سامانه‌های تصادفی
بهبود تدریجی قابلیت اعتماد

حرکت کند.

یک مثال تاریخی فوق‌العاده الهام‌بخش: نخستین رایانه الکترونیکی جهان ENIAC (۱۹۴۶)
این رایانه با ۱۷٬۰۰۰ لامپ خلأ مدام خراب می‌شد—و نصف اوقات خاموش بود! مهندسان دو سال کامل فقط روی پایداری کار کردند تا محصول «به اندازه کافی قابل‌استفاده» شود. این دقیقاً همان مسیری است که عامل‌های امروز نیاز دارند.

تغییر ذهنیتی ضروری برای یک مهندس هوش مصنوعی

در پایان، مهم‌ترین پیام سخنرانی چنین است:

کار اصلی یک مهندس هوش مصنوعی ساختن محصول شگفت‌انگیز نیست—
کار اصلی، ساختن محصول قابل‌اعتماد است.

سه نکته نهایی

۱. ارزیابی سخت است: بدون ارزیابی جدی، ادعاهای اغراق‌آمیز ادامه می‌یابد.

۲. پایداری از قابلیت مهم‌تر است: قابلیت ۹۰٪ کافی نیست؛ باید به سطح صنعتی برسیم.

منبع:
https://www.youtube.com/watch?v=d5EltXhbcfA

هوش مصنوعی

Ali Taghani / علی طغانی

سلام علی هستم، کارشناس ارشد فناوری اطلاعات. علاقه مندم دانسته هام رو به اشتراک بگذارم

شاید از این پست‌ها خوشتان بیاید