یادتان هست؟ چند سال پیش، وقتی برای اولین بار با مدلهای زبانی بزرگ مثل نسخههای اولیه ChatGPT یا Gemini کار کردیم، یک حس جادویی داشت. انگار با یک ذهن بیگانه طرف بودیم؛ یک جعبه سیاه که به هر سوالی، هرچقدر هم عجیب، یک پاسخ منسجم و خلاقانه میداد. ما ساعتها با آن صحبت میکردیم، از او میخواستیم شعر بگوید، کد بنویسد، ایمیلهای سخت را برایمان پیشنویس کند. آن دوران، دوران شگفتی از "کلمات" بود.
امروز، در میانه سال ۲۰۲۵، میخواهم بگویم آن جادو در حال تغییر رنگ است. دیگر نفسِ تولید متن، هرچقدر هم که باکیفیت باشد، هیجانزدهام نمیکند. راستش را بخواهید، ما به آن عادت کردهایم. حالا وقتی یک مدل زبانی جدید با چند تریلیون پارامتر بیشتر معرفی میشود، واکنش جامعه پژوهشی دیگر آن هیجان انفجاری گذشته نیست، بلکه بیشتر شبیه یک تایید سر است: "خب، انتظارش را داشتیم."
هیجان واقعی امروز جای دیگری است. در جایی بسیار کاربردیتر، پیچیدهتر و به نظر من، بسیار انسانیتر.
مدلهای نسل قبل، با تمام شگفتیشان، "طوطیهای هوشمندی" بودند. آنها اقیانوس بیکران متن و کد اینترنت را بلعیده بودند و در بازتولید الگوهای آن استاد بودند. اما فاقد یک چیز کلیدی بودند: قصد (Intent). آنها نمیدانستند "چرا" دارند یک متن را مینویسند. آنها دنیا را از طریق پنجره کلمات میدیدند، اما هرگز نمیتوانستند از آن پنجره بیرون بروند و به چیزی در دنیای واقعی دست بزنند.
این محدودیت خودش را در "شکنندگی" آنها نشان میداد. کافی بود یک سوال کمی خارج از چارچوب بپرسید تا دچار توهم (Hallucination) شوند یا پاسخهای بیربط بدهند. آنها ابزارهای قدرتمندی برای "دانستن" بودند، اما ابزارهای ضعیفی برای "انجام دادن".
و اینجاست که به نقطه هیجانانگیز سال ۲۰۲۵ میرسیم. تمرکز جامعه هوش مصنوعی از ساختن مدلهای بزرگتر، به ساختن عاملهای (Agents) توانمندتر تغییر کرده است.
تفاوت این دو چیست؟
یک مدل زبان، یک "مغز در شیشه" است. شما از او سوالی میپرسید و او جوابی میدهد. تمام.
یک عامل هوشمند، یک "کارآموز دیجیتال" است. او یک مغز دارد (که همان مدل زبان است)، اما به دست و پا هم مجهز شده است. او میتواند مرورگر وب را باز کند، روی دکمهها کلیک کند، در فرمها تایپ کند، فایلها را بخواند و بنویسد و از نرمافزارهای دیگر استفاده کند.
شما به یک مدل زبان میگویید: "چطور میتوانم یک بلیط هواپیما رزرو کنم؟" و او به شما یک راهنما میدهد. اما شما به یک عامل هوشمند میگویید: "برای من یک بلیط هواپیما به مقصد تهران برای هفته آینده با کمترین قیمت پیدا کن" و او خودش مرورگر را باز میکند، وارد سایتهای مختلف میشود، فیلدها را پر میکند، نتایج را مقایسه میکند و در نهایت، یک لینک پرداخت آماده را به شما تحویل میدهد.
این دیگر تولید متن نیست؛ این حل مسئله در دنیای واقعی است. این همان چیزی است که ما در مقالاتی مثل "Mantis" که اخیراً دیدهایم، دنبال میکنیم: ساختن سیستمهایی که میتوانند یک هدف سطح بالا را به یک سری زیرهدفهای قابل اجرا تجزیه کنند و آنها را قدم به قدم انجام دهند.
چون دنیای دیجیتال، برخلاف متن خالص، یک محیط شلخته و غیرقابل پیشبینی است. جای یک دکمه در وبسایت ممکن است فردا عوض شود. یک سایت ممکن است ناگهان از شما بخواهد یک کپچا را حل کنید. اینجاست که مفاهیمی مثل برنامهریزی، استدلال، و اصلاح خود (Self-Correction) معنا پیدا میکنند. عامل باید بتواند بفهمد که "نقشهاش" اشتباه از آب درآمده و یک راه جدید پیدا کند. این چالش اصلی ما به عنوان مهندس در این حوزه است.
امروز، وقتی در آزمایشگاه روی این عاملها کار میکنم، دیگر حس صحبت با یک "طوطی" را ندارم. حس میکنم در حال ساختن یک "همکار" هستم. همکاری که شاید هنوز کمی بیتجربه باشد و گاهی اشتباهات خندهداری بکند، اما پتانسیل این را دارد که بارهای شناختی تکراری و خستهکننده را از روی دوش ما بردارد و به ما اجازه دهد روی خلاقیت و تفکر استراتژیک تمرکز کنیم.
ما در حال عبور از عصر "ابزارهای هوشمند" و ورود به عصر "همکارهای هوشمند" هستیم. و این، صادقانه بگویم، بسیار هیجانانگیزتر از اضافه کردن چند صد میلیارد پارامتر دیگر به یک مدل زبان است.
نظر شما چیست؟ آیا شما هم این تغییر را حس کردهاید؟