خواندن ۱ دقیقه·۳ سال پیش

ایجاد تصاویر از متن با هوش مصنوعی

شبکه عصبی DALL·E محصولی از لابراتوار تحقیقاتی OpenAI است که تصاویر را از زیرنویس‌های متنی
برای طیف وسیعی از مفاهیم قابل بیان به زبان طبیعی ایجاد می‌کند.

نمونه ای از بدیل متن به عکس با استفاده از هوش مصنوعی:

متن: an illustration of a baby daikon radish in a tutu walking a dog.

تصویر:

بررسی DALL·E

مانند GPT-3، DALL·E یک مدل زبان ترانسفورماتور است. هم متن و هم تصویر را به‌عنوان یک جریان
واحد از داده‌ها که تا 1280 توکن را شامل می‌شود، دریافت می‌کند و با استفاده از حداکثر احتمال برای
تولید همه نشانه‌ها، یکی پس از دیگری آموزش داده می‌شود.

ترسیم چندین شی

کنترل همزمان چندین شیء، ویژگی‌های آنها و روابط فضایی آنها چالش جدیدی را ارائه می‌کند. به عنوان
مثال، عبارت “جوجه تیغی با کلاه قرمز، دستکش زرد، پیراهن آبی و شلوار سبز” را در نظر بگیرید. برای تفسیر
صحیح این جمله، DALL·E نه تنها باید هر لباس را به درستی با حیوان ترکیب کند، بلکه باید ترکیبات (کلاه،
قرمز)، (دستکش، زرد)، (پیراهن، آبی) و (شلوار، سبز) را نیز ایجاد کند.

نمونه ای از توانایی تبدیل متن به تصویر توانایی DALL·E:

متن: a small red block sitting on a large green block

تصویر: