
همین چند سال پیش، اوج کار هوش مصنوعی این بود که یک متن را ترجمه کند یا بگوید در یک عکس، گربه وجود دارد یا سگ. اما امروز در لبه یک انقلاب جدید ایستادهایم؛ انقلابی که توسط مدلهای هوش مصنوعی چندوجهی (Multimodal AI) رهبری میشود. اینها دیگر مدلهای تکبُعدی نیستند، بلکه سیستمهایی هستند که میتوانند دنیای دیجیتال را تقریباً مثل ما، با چندین حس مختلف، تجربه کنند. اگر به مقالات جدید و داغ پلتفرمهایی مثل arXiv نگاهی بیندازید، میبینید که تمام توجهات به این سمت جلب شده است.
به زبان ساده، یک مدل تکوجهی (Single-modal) فقط یک نوع داده را میفهمد. مثلاً یک مدل زبانی بزرگ (LLM) مثل نسخههای اولیه ChatGPT فقط با متن کار میکرد. یک مدل بینایی کامپیوتر (Computer Vision) هم فقط عکس و ویدیو را تحلیل میکرد.
اما یک مدل چندوجهی، میتواند:
یک تصویر را ببیند، آن را درک کند و توضیحات متنی برایش بنویسد.
یک ویدیوی آموزشی آشپزی را تماشا کند و لیست مواد لازم و مراحل کار را استخراج کند.
به یک قطعه موسیقی گوش دهد و حس و حال آن (مثلاً شاد، غمگین، حماسی) را توصیف کند.
یا حتی ترکیبی از همه اینها: شما یک عکس از محتویات یخچالتان به او میدهید و با پیام صوتی میپرسید: "با اینا چی میتونم درست کنم؟" و او با یک دستور پخت متنی و تصویری به شما پاسخ میدهد!
این مدلها یاد میگیرند که بین مفاهیم مختلف در دادههای گوناگون ارتباط برقرار کنند. مثلاً میفهمند که کلمه «سیب» در متن، همان میوهای است که در یک عکس میبینند.
دلیل اصلی، پیشرفت همزمان در چند حوزه کلیدی است:
معماری ترنسفورمر (Transformer): این معماری که اساس مدلهای زبانی مدرن است، نشان داده که میتواند برای پردازش انواع دیگر دادهها نیز بهینهسازی شود.
دیتاسِتهای عظیم: مجموعههای داده بسیار بزرگی ساخته شدهاند که شامل میلیاردها جفتِ داده (مثلاً عکس و توضیحات متنی آن) هستند و به مدلها اجازه میدهند این ارتباطات را یاد بگیرند.
قدرت پردازشی: سختافزارهای امروزی (GPU ها) آنقدر قدرتمند شدهاند که میتوانند این مدلهای غولپیکر و چندوجهی را آموزش دهند.
این فناوری فقط یک مفهوم آکادمیک و محدود به مقالات arXiv نیست. بهزودی آن را در همهجا خواهیم دید:
دستیارهای شخصی هوشمندتر: دستیار صوتی شما میتواند صفحه نمایش گوشیتان را ببیند، به نموداری که نشانش میدهید نگاه کند و به سؤالات شما درباره آن پاسخ دهد.
آموزش و یادگیری تعاملی: دانشآموزان میتوانند از یک مسئله ریاضی عکس بگیرند و هوش مصنوعی مرحله به مرحله راهحل آن را به صورت ویدیویی یا متنی برایشان توضیح دهد.
ابزارهای خلاقیت بینظیر: هنرمندان، طراحان و تولیدکنندگان محتوا میتوانند با چند کلمه، عکس، و یک قطعه موسیقی، یک ویدیوی کوتاه یا یک انیمیشن منحصر به فرد خلق کنند.
رباتیک پیشرفته: رباتهایی که در کارخانهها یا خانهها کار میکنند، میتوانند با دیدن محیط اطراف و شنیدن دستورات صوتی، وظایف پیچیدهتری را با دقت بسیار بالا انجام دهند.
البته هنوز چالشهایی وجود دارد. آموزش این مدلها بسیار پرهزینه است، به دادههای بسیار زیادی نیاز دارند و گاهی اوقات ممکن است دچار "توهم" شوند (یعنی ارتباطات اشتباهی بین دادهها برقرار کنند).
با این حال، مسیر حرکت مشخص است. آینده هوش مصنوعی، یک آینده چندوجهی است. ما به سمت ساخت سیستمهایی حرکت میکنیم که درک عمیقتر و جامعتری از دنیای ما دارند و میتوانند به شکل طبیعیتری با ما انسانها تعامل کنند. دفعه بعدی که از یک هوش مصنوعی خواستید تصویری برایتان بسازد، به یاد داشته باشید که این تنها آغاز راه است. بهزودی، او میتواند درباره آن تصویر با شما گفتگو کند، آن را به یک انیمیشن تبدیل کند و حتی برایش موسیقی متنی مناسب بسازد!
شما چه فکر میکنید؟ به نظرتان کدام کاربرد هوش مصنوعی چندوجهی از همه جذابتر است؟ ایدههای خود را در کامنتها با ما در میان بگذارید!