خواندن ۳ دقیقه·۶ ماه پیش

فراتر از کلمات: چرا هیجان‌انگیزترین بخش هوش مصنوعی در سال ۲۰۲۵ دیگر خودِ مدل‌ها نیستند؟

یادتان هست؟ چند سال پیش، وقتی برای اولین بار با مدل‌های زبانی بزرگ مثل نسخه‌های اولیه ChatGPT یا Gemini کار کردیم، یک حس جادویی داشت. انگار با یک ذهن بیگانه طرف بودیم؛ یک جعبه سیاه که به هر سوالی، هرچقدر هم عجیب، یک پاسخ منسجم و خلاقانه می‌داد. ما ساعت‌ها با آن صحبت می‌کردیم، از او می‌خواستیم شعر بگوید، کد بنویسد، ایمیل‌های سخت را برایمان پیش‌نویس کند. آن دوران، دوران شگفتی از "کلمات" بود.

امروز، در میانه سال ۲۰۲۵، می‌خواهم بگویم آن جادو در حال تغییر رنگ است. دیگر نفسِ تولید متن، هرچقدر هم که باکیفیت باشد، هیجان‌زده‌ام نمی‌کند. راستش را بخواهید، ما به آن عادت کرده‌ایم. حالا وقتی یک مدل زبانی جدید با چند تریلیون پارامتر بیشتر معرفی می‌شود، واکنش جامعه پژوهشی دیگر آن هیجان انفجاری گذشته نیست، بلکه بیشتر شبیه یک تایید سر است: "خب، انتظارش را داشتیم."

هیجان واقعی امروز جای دیگری است. در جایی بسیار کاربردی‌تر، پیچیده‌تر و به نظر من، بسیار انسانی‌تر.

دوران «طوطی‌های هوشمند» رو به پایان است

مدل‌های نسل قبل، با تمام شگفتی‌شان، "طوطی‌های هوشمندی" بودند. آن‌ها اقیانوس بی‌کران متن و کد اینترنت را بلعیده بودند و در بازتولید الگوهای آن استاد بودند. اما فاقد یک چیز کلیدی بودند: قصد (Intent). آن‌ها نمی‌دانستند "چرا" دارند یک متن را می‌نویسند. آن‌ها دنیا را از طریق پنجره کلمات می‌دیدند، اما هرگز نمی‌توانستند از آن پنجره بیرون بروند و به چیزی در دنیای واقعی دست بزنند.

این محدودیت خودش را در "شکنندگی" آن‌ها نشان می‌داد. کافی بود یک سوال کمی خارج از چارچوب بپرسید تا دچار توهم (Hallucination) شوند یا پاسخ‌های بی‌ربط بدهند. آن‌ها ابزارهای قدرتمندی برای "دانستن" بودند، اما ابزارهای ضعیفی برای "انجام دادن".

مرز واقعی: حرکت از «دانستن» به «انجام دادن»

و اینجاست که به نقطه هیجان‌انگیز سال ۲۰۲۵ می‌رسیم. تمرکز جامعه هوش مصنوعی از ساختن مدل‌های بزرگ‌تر، به ساختن عامل‌های (Agents) توانمندتر تغییر کرده است.

تفاوت این دو چیست؟

یک مدل زبان، یک "مغز در شیشه" است. شما از او سوالی می‌پرسید و او جوابی می‌دهد. تمام.
یک عامل هوشمند، یک "کارآموز دیجیتال" است. او یک مغز دارد (که همان مدل زبان است)، اما به دست و پا هم مجهز شده است. او می‌تواند مرورگر وب را باز کند، روی دکمه‌ها کلیک کند، در فرم‌ها تایپ کند، فایل‌ها را بخواند و بنویسد و از نرم‌افزارهای دیگر استفاده کند.

شما به یک مدل زبان می‌گویید: "چطور می‌توانم یک بلیط هواپیما رزرو کنم؟" و او به شما یک راهنما می‌دهد. اما شما به یک عامل هوشمند می‌گویید: "برای من یک بلیط هواپیما به مقصد تهران برای هفته آینده با کمترین قیمت پیدا کن" و او خودش مرورگر را باز می‌کند، وارد سایت‌های مختلف می‌شود، فیلدها را پر می‌کند، نتایج را مقایسه می‌کند و در نهایت، یک لینک پرداخت آماده را به شما تحویل می‌دهد.

این دیگر تولید متن نیست؛ این حل مسئله در دنیای واقعی است. این همان چیزی است که ما در مقالاتی مثل "Mantis" که اخیراً دیده‌ایم، دنبال می‌کنیم: ساختن سیستم‌هایی که می‌توانند یک هدف سطح بالا را به یک سری زیرهدف‌های قابل اجرا تجزیه کنند و آن‌ها را قدم به قدم انجام دهند.

چرا این کار سخت (و هیجان‌انگیز) است؟

چون دنیای دیجیتال، برخلاف متن خالص، یک محیط شلخته و غیرقابل پیش‌بینی است. جای یک دکمه در وب‌سایت ممکن است فردا عوض شود. یک سایت ممکن است ناگهان از شما بخواهد یک کپچا را حل کنید. اینجاست که مفاهیمی مثل برنامه‌ریزی، استدلال، و اصلاح خود (Self-Correction) معنا پیدا می‌کنند. عامل باید بتواند بفهمد که "نقشه‌اش" اشتباه از آب درآمده و یک راه جدید پیدا کند. این چالش اصلی ما به عنوان مهندس در این حوزه است.

همکار در افق

امروز، وقتی در آزمایشگاه روی این عامل‌ها کار می‌کنم، دیگر حس صحبت با یک "طوطی" را ندارم. حس می‌کنم در حال ساختن یک "همکار" هستم. همکاری که شاید هنوز کمی بی‌تجربه باشد و گاهی اشتباهات خنده‌داری بکند، اما پتانسیل این را دارد که بارهای شناختی تکراری و خسته‌کننده را از روی دوش ما بردارد و به ما اجازه دهد روی خلاقیت و تفکر استراتژیک تمرکز کنیم.

ما در حال عبور از عصر "ابزارهای هوشمند" و ورود به عصر "همکارهای هوشمند" هستیم. و این، صادقانه بگویم، بسیار هیجان‌انگیزتر از اضافه کردن چند صد میلیارد پارامتر دیگر به یک مدل زبان است.

نظر شما چیست؟ آیا شما هم این تغییر را حس کرده‌اید؟

هوش مصنوعی

آیدا آقائی نیا

دانشجوی مهندسی نرم افزار /فعال در حوزه AI

شاید از این پست‌ها خوشتان بیاید

آیدا آقائی نیا

خواندن ۳ دقیقه·۶ ماه پیش

فراتر از کلمات: چرا هیجان‌انگیزترین بخش هوش مصنوعی در سال ۲۰۲۵ دیگر خودِ مدل‌ها نیستند؟

هیجان واقعی امروز جای دیگری است. در جایی بسیار کاربردی‌تر، پیچیده‌تر و به نظر من، بسیار انسانی‌تر.

دوران «طوطی‌های هوشمند» رو به پایان است

مرز واقعی: حرکت از «دانستن» به «انجام دادن»

تفاوت این دو چیست؟

یک مدل زبان، یک "مغز در شیشه" است. شما از او سوالی می‌پرسید و او جوابی می‌دهد. تمام.
یک عامل هوشمند، یک "کارآموز دیجیتال" است. او یک مغز دارد (که همان مدل زبان است)، اما به دست و پا هم مجهز شده است. او می‌تواند مرورگر وب را باز کند، روی دکمه‌ها کلیک کند، در فرم‌ها تایپ کند، فایل‌ها را بخواند و بنویسد و از نرم‌افزارهای دیگر استفاده کند.

چرا این کار سخت (و هیجان‌انگیز) است؟

همکار در افق

نظر شما چیست؟ آیا شما هم این تغییر را حس کرده‌اید؟

هوش مصنوعی

آیدا آقائی نیا

دانشجوی مهندسی نرم افزار /فعال در حوزه AI

شاید از این پست‌ها خوشتان بیاید