مطلب جالب درباره ی معماری های مختلف هوش مصنوعی که میشه براحتی ازش استفاده کرد
همه ما با مدلهای زبان بزرگ (LLM) مانند ChatGPT آشنا هستیم. این مدلها به بخشی از زندگی روزمره ما تبدیل شدهاند و در نوشتن ایمیل، خلاصهسازی اسناد و پاسخ به سوالات به ما کمک میکنند. اما اکوسیستم هوش مصنوعی بسیار بزرگتر و متنوعتر از چیزی است که در نگاه اول به نظر میرسد.
در پشت صحنه، خانواده کاملی از معماریهای تخصصی در حال دگرگون کردن شیوه دیدن، برنامهریزی، عمل کردن و حتی نمایش مفاهیم توسط ماشینها هستند. این مدلها حتی میتوانند به طور کارآمد روی دستگاههای کوچک اجرا شوند. این یک اکوسیستم در حال ظهور است که در آن هر معماری نقش متفاوتی ایفا میکند. هدف این مقاله، کاوش در شگفتانگیزترین و تأثیرگذارترین این مدلهاست تا بفهمیم آینده هوش مصنوعی چگونه فراتر از یک چتبات ساده شکل میگیرد.

محدودیت اصلی مدلهای زبان بزرگ این است که آنها منفعل هستند؛ آنها میتوانند به شما بگویند چه کاری انجام دهید، اما نمیتوانند آن را برای شما انجام دهند. اینجاست که مدلهای کنش بزرگ (Large Action Models) یا LAMs وارد میشوند. این مدلها برای تبدیل «قصد» به «عمل» طراحی شدهاند و هوش مصنوعی را از یک «مشاور» به یک «عامل اجرایی» تبدیل میکنند. یک LAM که بر روی مجموعه دادههای عظیمی از اقدامات واقعی کاربران آموزش دیده، میتواند هدف کاربر را درک کند، آن را به مراحل کوچکتر تقسیم کند، اقدامات لازم را برنامهریزی کرده و سپس آنها را روی کامپیوتر اجرا کند.
برای مثال، فرآیند مرجوعی یک محصول را در نظر بگیرید. یک LLM به شما توضیح میدهد که چگونه این کار را انجام دهید. اما یک LAM میتواند واقعاً «وارد سیستم مربوطه شود، جزئیات مشتری را پیدا کند، سفارش مرجوعی را ایجاد کند و ایمیل تأیید را ارسال کند، همه اینها بدون راهنمایی کاربر.»
این یک تغییر بزرگ است که هوش مصنوعی را از یک «دستیار منفعل» به یک «عامل فعال» تبدیل میکند. نمونههایی مانند Rabbit R1 و چارچوب UFO مایکروسافت نشان میدهند که این فناوری چگونه در حال شکلگیری است و وظایف را به نیابت از کاربر انجام میدهد.
میتوانید LLMها را به عنوان مشاور در نظر بگیرید. آنها به شما میگویند چه کاری انجام دهید. LAMs مانند دستیاران هستند. آنها کار را برای شما انجام میدهند.
درحالی که LAMs به هوش مصنوعی «دستهایی» برای عمل کردن میدهند، معماری دیگری به آن «مغزی» کارآمدتر برای فکر کردن میبخشد. مدلهای «ترکیب متخصصان» (Mixture of Experts) یک ارتقاء کلیدی را در معماری استاندارد ترنسفورمر معرفی میکنند که به آنها اجازه میدهد «مغزهای بزرگتری با هزینه اجرایی کمتر» داشته باشند.
تفاوت اصلی در اینجاست: در یک ترنسفورمر معمولی، هر بخش از اطلاعات (توکن) با استفاده از کل مجموعه پارامترهای مدل پردازش میشود. اما در یک مدل MoE، یک «مسیریاب» (router) هوشمندانه هر توکن را تنها به چند «شبکه متخصص» کوچکتر ارسال میکند و تنها کسری از کل پارامترها را فعال میکند.
به عنوان مثال، مدل Mixtral 8x7B بیش از ۴۶ میلیارد پارامتر دارد، اما هر توکن تنها از حدود ۱۳ میلیارد پارامتر استفاده میکند. این طراحی «هزینه استنتاج را به شدت کاهش میدهد» زیرا ظرفیت مدل با افزودن متخصصان بیشتر افزایش مییابد، نه با سنگینتر کردن محاسبات برای هر توکن.
میتوانید این معماری را مانند مغز انسان تصور کنید. مغز ما برای وظایف مختلف از مناطق تخصصی استفاده میکند. به طور مشابه، یک مدل MoE یک مسئله را به زیرشبکههای متخصصی که بیشترین ارتباط را با آن دارند، هدایت میکند و به این ترتیب به بازدهی بسیار بالایی دست مییابد.
اگر MoEها غولهای ابری را کارآمدتر میکنند، مدلهای زبان کوچک (SLMs) نماینده یک تغییر جهت کاملاً متفاوت به سوی «هوش مصنوعی سریع، خصوصی و مقرونبهصرفه» هستند. اینها مدلهای سبکی هستند که برای اجرای کارآمد روی دستگاههایی مانند تلفنهای همراه و سایر «محیطهای با منابع محدود» طراحی شدهاند.
اجرای هوش مصنوعی روی یک دستگاه محلی (edge device) مزایای کلیدی دارد:
کاهش تأخیر: چون دادهها برای پردازش نیازی به ارسال به یک سرور راه دور ندارند، پاسخها تقریباً آنی هستند.
افزایش حریم خصوصی و امنیت: دادههای حساس هرگز دستگاه شما را ترک نمیکنند و به صورت محلی پردازش میشوند.
فعالیت در حالت آفلاین: این مدلها میتوانند بدون نیاز به اتصال اینترنت کار کنند که برای دستگاههای اینترنت اشیاء (IoT) حیاتی است.
از آنجایی که SLMها به حافظه و قدرت محاسباتی بسیار کمتری نیاز دارند، برای اپلیکیشنهای موبایل و دستگاههای IoT ایدهآل هستند. راهنماهای عملی نشان میدهند که حتی میتوان یک SLM مانند Phi-3 را روی یک دستگاه کوچک مانند Raspberry Pi مستقر کرد. از منظر هزینه، صرفهجویی بسیار چشمگیر است.
«پردازش یک میلیون مکالمه در ماه با مدلهای زبان بزرگ برای تیمها بین ۱۵٬۰۰۰ تا ۷۵٬۰۰۰ دلار هزینه دارد، در حالی که همین کار با مدلهای زبان کوچک بین ۱۵۰ تا ۸۰۰ دلار هزینه خواهد داشت.»
درحالی که SLMها هوش مصنوعی را به دستگاههای ما میآورند، معماری بعدی به آن یک حس کاملاً جدید میبخشد: بینایی. یک مدل زبان-بینایی (VLM) در اصل «یک مدل زبان بزرگ است که به آن توانایی دیدن داده شده است.» معماری آن از سه بخش اصلی تشکیل شده است: یک رمزگذار بینایی برای پردازش تصاویر، یک رمزگذار متن برای درک زبان، و لایههای ترکیبی که این دو را به هم متصل میکنند تا مدل بتواند محتوای شامل هر دو را درک و تولید کند.
این یک جهش بزرگ نسبت به مدلهای بینایی کامپیوتر سنتی است. مدلهای سنتی برای یک کار محدود و مشخص (مثلاً «تشخیص گربه از سگ») آموزش داده میشوند و «نمیتوانند فراتر از کلاسهای آموزشی خود تعمیم پیدا کنند.» برای هر کار جدید، باید از ابتدا بازآموزی شوند. در مقابل، VLMs میتوانند بسیاری از وظایف بینایی را به صورت «صفر-شات» (zero-shot) و تنها با پیروی از دستورالعملهای زبان طبیعی انجام دهند.
VLMs میتوانند بدون نیاز به بازآموزی تخصصی، وظایف متنوعی مانند تولید کپشن برای تصاویر، پاسخ به سوالات در مورد عکسها و درک اسناد چند مرحلهای را انجام دهند. مدلهای کلیدی مانند GPT-4V و Gemini Pro Vision نمونههای برجستهای از این معماری هستند. این انعطافپذیری، VLMs را به «یکی از قدرتمندترین پیشرفتها در هوش مصنوعی مدرن» تبدیل کرده و اساساً نحوه تعامل ماشینها با دنیای بصری را تغییر میدهد.
همانطور که دیدیم، هوش مصنوعی در حال تکامل از یک مدل «یکاندازه-برای-همه» به سمت یک اکوسیستم پرجنبوجوش از ابزارهای تخصصی است: «عاملان» (LAMs) که به جای ما عمل میکنند، «غولهای کارآمد» (MoEs) که هوشمندانه منابع را مدیریت میکنند، «موشکهای جیبی» (SLMs) که روی دستگاههای ما زندگی میکنند، و «بینایان» (VLMs) که دنیای ما را میبینند و درک میکنند.
این تازه آغاز راه است. با یکپارچهتر شدن این مدلهای تخصصی در زندگی روزمره ما، این سوال مطرح میشود: وقتی فناوری نه تنها بتواند کلمات ما را بفهمد، بلکه دنیای ما را ببیند و به نیابت از ما عمل کند، رابطه ما با آن چگونه تغییر خواهد کرد؟