شبکه عصبی DALL·E محصولی از لابراتوار تحقیقاتی OpenAI است که تصاویر را از زیرنویسهای متنی
برای طیف وسیعی از مفاهیم قابل بیان به زبان طبیعی ایجاد میکند.
نمونه ای از بدیل متن به عکس با استفاده از هوش مصنوعی:
متن: an illustration of a baby daikon radish in a tutu walking a dog.
تصویر:
مانند GPT-3، DALL·E یک مدل زبان ترانسفورماتور است. هم متن و هم تصویر را بهعنوان یک جریان
واحد از دادهها که تا 1280 توکن را شامل میشود، دریافت میکند و با استفاده از حداکثر احتمال برای
تولید همه نشانهها، یکی پس از دیگری آموزش داده میشود.
کنترل همزمان چندین شیء، ویژگیهای آنها و روابط فضایی آنها چالش جدیدی را ارائه میکند. به عنوان
مثال، عبارت “جوجه تیغی با کلاه قرمز، دستکش زرد، پیراهن آبی و شلوار سبز” را در نظر بگیرید. برای تفسیر
صحیح این جمله، DALL·E نه تنها باید هر لباس را به درستی با حیوان ترکیب کند، بلکه باید ترکیبات (کلاه،
قرمز)، (دستکش، زرد)، (پیراهن، آبی) و (شلوار، سبز) را نیز ایجاد کند.
نمونه ای از توانایی تبدیل متن به تصویر توانایی DALL·E:
متن: a small red block sitting on a large green block
تصویر:
برای بررسی این مقاله به سایت عصر گویش پرداز مراجعه کنید.