ویرگول
ورودثبت نام
صابر طباطبائی یزدی
صابر طباطبائی یزدیبرنامه نویس۴۴ساله. از مدرک MCSD دات نت سال 2002 شروع کردم البته بعد از لیسانس و تمام عمرم رو در مدیریت با ابزار های شیرپوینت و MSPS و CRM و غیره گذراندم. https://zil.ink/sabert
صابر طباطبائی یزدی
صابر طباطبائی یزدی
خواندن ۶ دقیقه·۲ روز پیش

فراتر از چت: ۵ معماری شگفت‌انگیز هوش مصنوعی که آینده را می‌سازند

مطلب جالب درباره ی معماری های مختلف هوش مصنوعی که میشه براحتی ازش استفاده کرد

ویدیو آخر صفحه رو ببینید.

۱. مقدمه: دنیایی فراتر از LLMها

همه ما با مدل‌های زبان بزرگ (LLM) مانند ChatGPT آشنا هستیم. این مدل‌ها به بخشی از زندگی روزمره ما تبدیل شده‌اند و در نوشتن ایمیل، خلاصه‌سازی اسناد و پاسخ به سوالات به ما کمک می‌کنند. اما اکوسیستم هوش مصنوعی بسیار بزرگ‌تر و متنوع‌تر از چیزی است که در نگاه اول به نظر می‌رسد.

در پشت صحنه، خانواده کاملی از معماری‌های تخصصی در حال دگرگون کردن شیوه دیدن، برنامه‌ریزی، عمل کردن و حتی نمایش مفاهیم توسط ماشین‌ها هستند. این مدل‌ها حتی می‌توانند به طور کارآمد روی دستگاه‌های کوچک اجرا شوند. این یک اکوسیستم در حال ظهور است که در آن هر معماری نقش متفاوتی ایفا می‌کند. هدف این مقاله، کاوش در شگفت‌انگیزترین و تأثیرگذارترین این مدل‌هاست تا بفهمیم آینده هوش مصنوعی چگونه فراتر از یک چت‌بات ساده شکل می‌گیرد.

۲. شماره ۱: مدل‌های کنش بزرگ (LAMs) - هوش مصنوعی که فقط حرف نمی‌زند، عمل می‌کند

محدودیت اصلی مدل‌های زبان بزرگ این است که آنها منفعل هستند؛ آنها می‌توانند به شما بگویند چه کاری انجام دهید، اما نمی‌توانند آن را برای شما انجام دهند. اینجاست که مدل‌های کنش بزرگ (Large Action Models) یا LAMs وارد می‌شوند. این مدل‌ها برای تبدیل «قصد» به «عمل» طراحی شده‌اند و هوش مصنوعی را از یک «مشاور» به یک «عامل اجرایی» تبدیل می‌کنند. یک LAM که بر روی مجموعه داده‌های عظیمی از اقدامات واقعی کاربران آموزش دیده، می‌تواند هدف کاربر را درک کند، آن را به مراحل کوچک‌تر تقسیم کند، اقدامات لازم را برنامه‌ریزی کرده و سپس آن‌ها را روی کامپیوتر اجرا کند.

برای مثال، فرآیند مرجوعی یک محصول را در نظر بگیرید. یک LLM به شما توضیح می‌دهد که چگونه این کار را انجام دهید. اما یک LAM می‌تواند واقعاً «وارد سیستم مربوطه شود، جزئیات مشتری را پیدا کند، سفارش مرجوعی را ایجاد کند و ایمیل تأیید را ارسال کند، همه اینها بدون راهنمایی کاربر.»

این یک تغییر بزرگ است که هوش مصنوعی را از یک «دستیار منفعل» به یک «عامل فعال» تبدیل می‌کند. نمونه‌هایی مانند Rabbit R1 و چارچوب UFO مایکروسافت نشان می‌دهند که این فناوری چگونه در حال شکل‌گیری است و وظایف را به نیابت از کاربر انجام می‌دهد.

می‌توانید LLMها را به عنوان مشاور در نظر بگیرید. آنها به شما می‌گویند چه کاری انجام دهید. LAMs مانند دستیاران هستند. آنها کار را برای شما انجام می‌دهند.

۳. شماره ۲: ترکیب متخصصان (MoE) - مغزهای بزرگتر با هزینه اجرایی کمتر

درحالی که LAMs به هوش مصنوعی «دست‌هایی» برای عمل کردن می‌دهند، معماری دیگری به آن «مغزی» کارآمدتر برای فکر کردن می‌بخشد. مدل‌های «ترکیب متخصصان» (Mixture of Experts) یک ارتقاء کلیدی را در معماری استاندارد ترنسفورمر معرفی می‌کنند که به آنها اجازه می‌دهد «مغزهای بزرگتری با هزینه اجرایی کمتر» داشته باشند.

تفاوت اصلی در اینجاست: در یک ترنسفورمر معمولی، هر بخش از اطلاعات (توکن) با استفاده از کل مجموعه پارامترهای مدل پردازش می‌شود. اما در یک مدل MoE، یک «مسیریاب» (router) هوشمندانه هر توکن را تنها به چند «شبکه متخصص» کوچک‌تر ارسال می‌کند و تنها کسری از کل پارامترها را فعال می‌کند.

به عنوان مثال، مدل Mixtral 8x7B بیش از ۴۶ میلیارد پارامتر دارد، اما هر توکن تنها از حدود ۱۳ میلیارد پارامتر استفاده می‌کند. این طراحی «هزینه استنتاج را به شدت کاهش می‌دهد» زیرا ظرفیت مدل با افزودن متخصصان بیشتر افزایش می‌یابد، نه با سنگین‌تر کردن محاسبات برای هر توکن.

می‌توانید این معماری را مانند مغز انسان تصور کنید. مغز ما برای وظایف مختلف از مناطق تخصصی استفاده می‌کند. به طور مشابه، یک مدل MoE یک مسئله را به زیرشبکه‌های متخصصی که بیشترین ارتباط را با آن دارند، هدایت می‌کند و به این ترتیب به بازدهی بسیار بالایی دست می‌یابد.

https://www.aparat.com/v/stc8y2k

۴. شماره ۳: مدل‌های زبان کوچک (SLMs) - هوش مصنوعی قدرمند در جیب شما

اگر MoEها غول‌های ابری را کارآمدتر می‌کنند، مدل‌های زبان کوچک (SLMs) نماینده یک تغییر جهت کاملاً متفاوت به سوی «هوش مصنوعی سریع، خصوصی و مقرون‌به‌صرفه» هستند. این‌ها مدل‌های سبکی هستند که برای اجرای کارآمد روی دستگاه‌هایی مانند تلفن‌های همراه و سایر «محیط‌های با منابع محدود» طراحی شده‌اند.

اجرای هوش مصنوعی روی یک دستگاه محلی (edge device) مزایای کلیدی دارد:

  • کاهش تأخیر: چون داده‌ها برای پردازش نیازی به ارسال به یک سرور راه دور ندارند، پاسخ‌ها تقریباً آنی هستند.

  • افزایش حریم خصوصی و امنیت: داده‌های حساس هرگز دستگاه شما را ترک نمی‌کنند و به صورت محلی پردازش می‌شوند.

  • فعالیت در حالت آفلاین: این مدل‌ها می‌توانند بدون نیاز به اتصال اینترنت کار کنند که برای دستگاه‌های اینترنت اشیاء (IoT) حیاتی است.

از آنجایی که SLMها به حافظه و قدرت محاسباتی بسیار کمتری نیاز دارند، برای اپلیکیشن‌های موبایل و دستگاه‌های IoT ایده‌آل هستند. راهنماهای عملی نشان می‌دهند که حتی می‌توان یک SLM مانند Phi-3 را روی یک دستگاه کوچک مانند Raspberry Pi مستقر کرد. از منظر هزینه، صرفه‌جویی بسیار چشمگیر است.

«پردازش یک میلیون مکالمه در ماه با مدل‌های زبان بزرگ برای تیم‌ها بین ۱۵٬۰۰۰ تا ۷۵٬۰۰۰ دلار هزینه دارد، در حالی که همین کار با مدل‌های زبان کوچک بین ۱۵۰ تا ۸۰۰ دلار هزینه خواهد داشت.»

۵. شماره ۴: مدل‌های زبان-بینایی (VLMs) - هوش مصنوعی که دنیای ما را می‌بیند

درحالی که SLMها هوش مصنوعی را به دستگاه‌های ما می‌آورند، معماری بعدی به آن یک حس کاملاً جدید می‌بخشد: بینایی. یک مدل زبان-بینایی (VLM) در اصل «یک مدل زبان بزرگ است که به آن توانایی دیدن داده شده است.» معماری آن از سه بخش اصلی تشکیل شده است: یک رمزگذار بینایی برای پردازش تصاویر، یک رمزگذار متن برای درک زبان، و لایه‌های ترکیبی که این دو را به هم متصل می‌کنند تا مدل بتواند محتوای شامل هر دو را درک و تولید کند.

این یک جهش بزرگ نسبت به مدل‌های بینایی کامپیوتر سنتی است. مدل‌های سنتی برای یک کار محدود و مشخص (مثلاً «تشخیص گربه از سگ») آموزش داده می‌شوند و «نمی‌توانند فراتر از کلاس‌های آموزشی خود تعمیم پیدا کنند.» برای هر کار جدید، باید از ابتدا بازآموزی شوند. در مقابل، VLMs می‌توانند بسیاری از وظایف بینایی را به صورت «صفر-شات» (zero-shot) و تنها با پیروی از دستورالعمل‌های زبان طبیعی انجام دهند.

VLMs می‌توانند بدون نیاز به بازآموزی تخصصی، وظایف متنوعی مانند تولید کپشن برای تصاویر، پاسخ به سوالات در مورد عکس‌ها و درک اسناد چند مرحله‌ای را انجام دهند. مدل‌های کلیدی مانند GPT-4V و Gemini Pro Vision نمونه‌های برجسته‌ای از این معماری هستند. این انعطاف‌پذیری، VLMs را به «یکی از قدرتمندترین پیشرفت‌ها در هوش مصنوعی مدرن» تبدیل کرده و اساساً نحوه تعامل ماشین‌ها با دنیای بصری را تغییر می‌دهد.

۶. نتیجه‌گیری: آینده هوش مصنوعی، تخصصی است

همانطور که دیدیم، هوش مصنوعی در حال تکامل از یک مدل «یک‌اندازه-برای-همه» به سمت یک اکوسیستم پرجنب‌وجوش از ابزارهای تخصصی است: «عاملان» (LAMs) که به جای ما عمل می‌کنند، «غول‌های کارآمد» (MoEs) که هوشمندانه منابع را مدیریت می‌کنند، «موشک‌های جیبی» (SLMs) که روی دستگاه‌های ما زندگی می‌کنند، و «بینایان» (VLMs) که دنیای ما را می‌بینند و درک می‌کنند.

این تازه آغاز راه است. با یکپارچه‌تر شدن این مدل‌های تخصصی در زندگی روزمره ما، این سوال مطرح می‌شود: وقتی فناوری نه تنها بتواند کلمات ما را بفهمد، بلکه دنیای ما را ببیند و به نیابت از ما عمل کند، رابطه ما با آن چگونه تغییر خواهد کرد؟

هوش مصنوعیمعمارینرم افزاربرنامه نویسیchatgpt
۸
۰
صابر طباطبائی یزدی
صابر طباطبائی یزدی
برنامه نویس۴۴ساله. از مدرک MCSD دات نت سال 2002 شروع کردم البته بعد از لیسانس و تمام عمرم رو در مدیریت با ابزار های شیرپوینت و MSPS و CRM و غیره گذراندم. https://zil.ink/sabert
شاید از این پست‌ها خوشتان بیاید