خواندن ۳ دقیقه·۷ ماه پیش

هوش مصنوعی: ترنسفورمرز یا دیفیوژن: برنده کدام است؟

هوش مصنوعی (AI) در سال‌های اخیر تحولاتی چشم‌گیر را تجربه کرده است. از جمله پیشرفت‌های قابل توجه، دو رویکرد مهم در مدل‌سازی داده‌ها به نام ترنسفورمرها و دیفیوژن برجسته شده‌اند. هر یک از این روش‌ها دارای ویژگی‌های متفاوتی هستند و در زمینه‌های خاصی کاربرد دارند. در این مقاله به توضیح و تحلیل این دو مدل و مقایسه آن‌ها خواهیم پرداخت.

برای اکثر مردم، حتی دانشمندان داده و مهندسان نرم‌افزار با تجربه، هوش مصنوعی مولد مانند یک جعبه سیاه بزرگ به نظر می‌رسد. مدل‌های یادگیری ماشین مولد، که موتورهای کار در پشت محبوب‌ترین محصولات هوش مصنوعی مولد امروزی هستند، در واقع از کمبود تفسیر و شفافیت رنج می‌برند. این بدان معناست که حتی افرادی که این مدل‌ها را آموزش می‌دهند، درک اینکه چرا مدل تصمیم می‌گیرد با یک خروجی خاص پاسخ دهد، مشکل دارند.

**مدل‌های تولیدی چه هستند؟**

مدل‌های تولیدی (Generative Models) به مجموعه‌ای از الگوریتم‌ها و تکنیک‌های یادگیری ماشین اطلاق می‌شود که توانایی تولید داده‌های جدید مشابه داده‌های آموزش دیده شده را دارند. این مدل‌ها در مقابل مدل‌های تفکیکی (Discriminative Models) که به شناسایی الگوها و طبقه‌بندی داده‌ها می‌پردازند، به تولید و شبیه‌سازی داده‌های جدید تمرکز دارند.

**ویژگی‌ها و کاربردها**

مدل‌های تولیدی می‌توانند انواع مختلفی از داده‌ها را تولید کنند، از جمله تصاویر، متن، موسیقی و حتی ویدئو. از جمله مشهورترین این مدل‌ها می‌توان به مدل‌های شبه تصادفی مانند شبکه‌های تولیدی متخاصم (Generative Adversarial Networks - GANs) و مدل‌های سلسله‌مراتبی (Variational Autoencoders - VAEs) اشاره کرد. این مدل‌ها به‌واسطه فرآیند یادگیری عمیق، توانایی ایجاد نمونه‌های جدیدی را کسب می‌کنند که از لحاظ آماری به داده‌های آموزشی شباهت دارند.

**ترنسفورمر یا دیفیوژن؟**

ترنسفورمرها، مدل‌های مبتنی بر معماری توجه هستند که برای پردازش داده‌های توالی‌دار، به ویژه در زمینه پردازش زبان طبیعی، طراحی شده‌اند. این روش به‌طور خاص به دلیل توانایی در مدیریت وابستگی‌های بلندمدت میان داده‌ها، به محبوبیتی بی‌نظیر دست یافته است. مدل‌های ترنسفورمر از ساختار شبکه‌های عصبی استفاده می‌کنند و به وسیله‌ی مکانیسم توجه، قادر به تمرکز بر بخش‌های حساس داده‌ هستند. این ویژگی‌ها باعث شده تا ترنسفورمرها در تولید متون، ترجمه ماشینی و تحلیل احساسات به طور گسترده‌ای مورد استفاده قرار گیرند.

از سوی دیگر، الگوهای دیفیوژن یک رویکرد تازه‌تاسیس در پردازش داده‌ها هستند که بر پایه مدل‌سازی انتشار اطلاعات بنا شده‌اند. این روش به‌ویژه در زمینه تولید تصاویر و داده‌های چندرسانه‌ای به کار می‌رود. فرآیند دیفیوژن با شبیه‌سازی گسترش تدریجی داده‌ها از حالت‌های پیچیده به حالت‌های ساده‌تر، امکان تولید نمونه‌های جدید و واقعی‌تر را فراهم می‌کند. دیفیوژن به خوبی توانسته است در تولید تصاویر با کیفیت بالا و شبیه‌سازی واقعیت، اصلاحات و نوآوری‌های چشم‌گیری ارائه دهد.

این دو مدل دارای ویژگی‌های مشترکی نیز هستند: یکی از ویژگی‌های مشترک مدل‌های زبان مبتنی بر ترنسفورمر و مدل‌های دیفیوژن، نیاز به مهندسی سریع (prompt engineering) است. مهندسی سریع به معنای تغییر توالی‌های ورودی (یا درخواست‌ها) برای تولید خروجی مورد نظر است. یکی دیگر از ویژگی‌های مشترک ترنسفورمرها و دیفیوژن، این است که می‌توانند اثرات مضری داشته باشند، مثلاً با استفاده نادرست برای تولید محتوای مضر. محققان اثرات فشرده‌سازی اعلان‌ها را بررسی کرده‌اند و دریافتند که فشرده‌سازی اعلان‌هایی که اطلاعات انتزاعی را در یک درخواست حفظ می‌کنند، می‌تواند ضرر را در متن تولید شده کاهش دهد.

Pre-training a generative text model. Image by the author.

Running inference on a pre-trained transformer in the form of a prompt. Image by the author.

در نهایت، انتخاب بین ترنسفورمرها و دیفیوژن به نیازهای خاص هر پروژه بستگی دارد. ترنسفورمرها شاید در زمینه پردازش زبان طبیعی و تولید متون برتری داشته باشند، در حالی که دیفیوژن در زمینه تولید داده‌های بصری و شبیه‌سازی‌های گرافیکی عملکرد بهتری دارد. بنابراین، نمی‌توان به‌طور قطعی یکی را به عنوان «برنده» انتخاب کرد. بلکه آنچه اهمیت دارد، هماهنگی و کاربرد مناسب هر یک از این روش‌ها براساس نیازهای خاص است. در آینده، ممکن است با ترکیب این دو رویکرد، شاهد پدیداری مدل‌های نوینی باشیم که چالش‌های موجود در هوش مصنوعی را به بهترین نحو حل کنند.

نویسنده : نلیسا زارع نژاد

هوش مصنوعیai

cs code (umz mag)

گاهنامه علوم کامپیوتر دانشگاه مازندران

شاید از این پست‌ها خوشتان بیاید