هوش مصنوعی (AI) در سالهای اخیر تحولاتی چشمگیر را تجربه کرده است. از جمله پیشرفتهای قابل توجه، دو رویکرد مهم در مدلسازی دادهها به نام ترنسفورمرها و دیفیوژن برجسته شدهاند. هر یک از این روشها دارای ویژگیهای متفاوتی هستند و در زمینههای خاصی کاربرد دارند. در این مقاله به توضیح و تحلیل این دو مدل و مقایسه آنها خواهیم پرداخت.
برای اکثر مردم، حتی دانشمندان داده و مهندسان نرمافزار با تجربه، هوش مصنوعی مولد مانند یک جعبه سیاه بزرگ به نظر میرسد. مدلهای یادگیری ماشین مولد، که موتورهای کار در پشت محبوبترین محصولات هوش مصنوعی مولد امروزی هستند، در واقع از کمبود تفسیر و شفافیت رنج میبرند. این بدان معناست که حتی افرادی که این مدلها را آموزش میدهند، درک اینکه چرا مدل تصمیم میگیرد با یک خروجی خاص پاسخ دهد، مشکل دارند.
**مدلهای تولیدی چه هستند؟**
مدلهای تولیدی (Generative Models) به مجموعهای از الگوریتمها و تکنیکهای یادگیری ماشین اطلاق میشود که توانایی تولید دادههای جدید مشابه دادههای آموزش دیده شده را دارند. این مدلها در مقابل مدلهای تفکیکی (Discriminative Models) که به شناسایی الگوها و طبقهبندی دادهها میپردازند، به تولید و شبیهسازی دادههای جدید تمرکز دارند.
**ویژگیها و کاربردها**
مدلهای تولیدی میتوانند انواع مختلفی از دادهها را تولید کنند، از جمله تصاویر، متن، موسیقی و حتی ویدئو. از جمله مشهورترین این مدلها میتوان به مدلهای شبه تصادفی مانند شبکههای تولیدی متخاصم (Generative Adversarial Networks - GANs) و مدلهای سلسلهمراتبی (Variational Autoencoders - VAEs) اشاره کرد. این مدلها بهواسطه فرآیند یادگیری عمیق، توانایی ایجاد نمونههای جدیدی را کسب میکنند که از لحاظ آماری به دادههای آموزشی شباهت دارند.
**ترنسفورمر یا دیفیوژن؟**
ترنسفورمرها، مدلهای مبتنی بر معماری توجه هستند که برای پردازش دادههای توالیدار، به ویژه در زمینه پردازش زبان طبیعی، طراحی شدهاند. این روش بهطور خاص به دلیل توانایی در مدیریت وابستگیهای بلندمدت میان دادهها، به محبوبیتی بینظیر دست یافته است. مدلهای ترنسفورمر از ساختار شبکههای عصبی استفاده میکنند و به وسیلهی مکانیسم توجه، قادر به تمرکز بر بخشهای حساس داده هستند. این ویژگیها باعث شده تا ترنسفورمرها در تولید متون، ترجمه ماشینی و تحلیل احساسات به طور گستردهای مورد استفاده قرار گیرند.
از سوی دیگر، الگوهای دیفیوژن یک رویکرد تازهتاسیس در پردازش دادهها هستند که بر پایه مدلسازی انتشار اطلاعات بنا شدهاند. این روش بهویژه در زمینه تولید تصاویر و دادههای چندرسانهای به کار میرود. فرآیند دیفیوژن با شبیهسازی گسترش تدریجی دادهها از حالتهای پیچیده به حالتهای سادهتر، امکان تولید نمونههای جدید و واقعیتر را فراهم میکند. دیفیوژن به خوبی توانسته است در تولید تصاویر با کیفیت بالا و شبیهسازی واقعیت، اصلاحات و نوآوریهای چشمگیری ارائه دهد.
این دو مدل دارای ویژگیهای مشترکی نیز هستند: یکی از ویژگیهای مشترک مدلهای زبان مبتنی بر ترنسفورمر و مدلهای دیفیوژن، نیاز به مهندسی سریع (prompt engineering) است. مهندسی سریع به معنای تغییر توالیهای ورودی (یا درخواستها) برای تولید خروجی مورد نظر است. یکی دیگر از ویژگیهای مشترک ترنسفورمرها و دیفیوژن، این است که میتوانند اثرات مضری داشته باشند، مثلاً با استفاده نادرست برای تولید محتوای مضر. محققان اثرات فشردهسازی اعلانها را بررسی کردهاند و دریافتند که فشردهسازی اعلانهایی که اطلاعات انتزاعی را در یک درخواست حفظ میکنند، میتواند ضرر را در متن تولید شده کاهش دهد.
در نهایت، انتخاب بین ترنسفورمرها و دیفیوژن به نیازهای خاص هر پروژه بستگی دارد. ترنسفورمرها شاید در زمینه پردازش زبان طبیعی و تولید متون برتری داشته باشند، در حالی که دیفیوژن در زمینه تولید دادههای بصری و شبیهسازیهای گرافیکی عملکرد بهتری دارد. بنابراین، نمیتوان بهطور قطعی یکی را به عنوان «برنده» انتخاب کرد. بلکه آنچه اهمیت دارد، هماهنگی و کاربرد مناسب هر یک از این روشها براساس نیازهای خاص است. در آینده، ممکن است با ترکیب این دو رویکرد، شاهد پدیداری مدلهای نوینی باشیم که چالشهای موجود در هوش مصنوعی را به بهترین نحو حل کنند.
نویسنده : نلیسا زارع نژاد