رونمایی OpenAI، از مدل GPT-3 برای تولید تصاویر

شکل ۱: صندلی مدل آووکادو
شکل ۱: صندلی مدل آووکادو


منتشر‌شده در: infoqبه تاریخ ۲فوریه ۲۰۲۱
لینک منبع: OpenAI Announces GPT-3 Model for Image Generation

به تازگی OpenAI یک مدل هوش مصنوعی با پارامتر 12B مبتنی بر GPT-3 را آموزش داده است که می‌تواند از توصیف متن، تصاویر را ایجاد کند. این توصیف می‌تواند بسیاری از صفات مستقل، از جمله موقعیت اشیا و همچنین چشم‌انداز تصویر را مشخص کند و همچنین می‌تواند ترکیبی از اشیا را که در دنیای واقعی وجود ندارند، ترکیب کند.

محقق آدیتیا رامش در پست اخیر وبلاگی به بررسی اجمالی سیستم و توانایی‌های آن پرداخته است. این مدل بر اساس معماری Transformer استفاده شده در GPT-3 است. برخلاف GPT-3، ورودی مدل شامل پیکسل‌های تصویر و همچنین متن است. این برنامه می‌تواند بر اساس زیرنویس‌های کوتاه، تصاویر واقع‌گرایانه‌ای را تولید کند که چندین شی‌ء، رنگ‌ها، بافت‌ها و موقعیت‌های مربوطه و سایر جزئیات زمینه‌ای مانند نور یا زاویه دوربین را مشخص می‌کند. این مدل همچنین رفتاری را نشان می‌دهد که طراحان آن پیش‌بینی نکرده‌اند، از جمله توانایی انجام کارهای انتقال تصویر به تصویر مانند انتقال سبک. OpenAI این مدل را "DALL · E"، مخلوطی از ربات Pixar WALL·E و هنرمند سالوادور دالی، احتمالاً به دلیل توانایی آن در تولید تصاویر از ترکیب سورئال اشیا، نامید. به‌عنوان‌مثال، یکی از کارهای این هنرمند "صندلی راحتی به شکل آووکادو" است.

بسیاری از مدل‌های معروف یادگیری عمیق برای تولید تصویر از یک ساختار شبکه تولیدکننده خصمانه (GAN) استفاده می‌کنند. در سال 2018، محققان NVIDIA مدل StyleGAN را ایجاد کردند که تصاویر فوتورالیستی از چهره انسان را ایجاد می‌کرد. این امر منجر به ایجاد یک وب‌سایت محبوب برای ارائه عکس‌هایی با وضوح‌بالا از افراد موجود و تعدادی تغییرات شده است. در سال 2020، OpenAI Image GPT (iGPT) را منتشر كرد، یك مدل مبتنی بر ترانسفورماتور كه ​​به‌جای توالی متن، روی توالی‌های پیكسل كار می‌کند. OpenAI دریافت که، همان‌طور که مدل‌های GPT برای متن می‌توانند نمونه‌های واقعی از زبان طبیعی تولید کنند، با توجه به ورودی پیکسل‌های اولیه، iGPT می‌تواند "تولید و تکمیل تصاویر منسجم" را ایجاد کند.

همچنین OpenAI اخیراً CLIP را منتشر کرده است. یک مدل یادگیری عمیق دیگر که توانایی‌های زبان طبیعی GPT را با بینایی کامپیوتر ترکیب می‌کند. CLIP روی مجموعه داده‌ای از تصاویر که با متن گرفته‌شده از اینترنت جفت شده‌اند، از قبل آموزش‌دیده است و می‌تواند چندین کار مختلف طبقه‌بندی بصری را از طریق یادگیری انتقال عکس صفر انجام دهد. به‌عنوان‌مثال، CLIP می‌تواند بدون آموزش روی هیچ‌یک از تصاویر ImageNet، عملکرد مدل ResNet50 اصلی را در معیار ImageNet مطابقت دهد. CLIP همچنین در معیار ImageNet-Adversarial عملکرد خوبی دارد و 77٪ امتیاز دارد. در مقابل، ResNet50 تنها به 2.7٪ دست می‌یابد.

در اصل، DALL·E یک مدل ترانسفورماتور است که ورودی متشکل از 256 رمز متن و 1024 رمز تصویر به آن داده می‌شود. این مدل شامل 64 لایه توجه به خود با مجموع پارامترهای 12B است. DALL · E تصاویر خروجی را به‌صورت خود به خودی تولید می‌کند و OpenAI از CLIP برای رتبه‌بندی کیفیت تصاویر تولید شده استفاده می‌کند. درحالی‌که وبلاگ OpenAI شامل چندین نمونه تصویر و توانایی ایجاد تصاویر تعاملی جدید با تغییر برخی از کلمات در توضیحات ورودی است، آن‌ها جزئیات کامل سیستم را منتشر نکرده و کد یا مدل از قبل آموزش دیده را منتشر نکرده‌اند. این وبلاگ خاطرنشان می‌کند که این شرکت قصد دارد جزئیات بیشتری در مورد معماری و آموزش مدل ارائه دهد و قصد دارد "چالش‌های اخلاقی بلندمدت ناشی از این فناوری" را تحلیل کند.

ممکن است به مطالعه مقاله ۶ ابزار استخراج و جمع‌آوری داده‌ها از وبنیز علاقمند باشید.

سایر سازمان‌های تحقیقاتی برجسته هوش مصنوعی نیز اخیراً مدل‌های Transformer را در چشم‌انداز رایانه اعمال کرده‌اند. در سال 2019، مایکروسافت مقاله‌ای در مورد آموزش نمایندگی تصویر جهانی متن (UNITER) منتشر کرد که مبتنی بر معماری ترانسفورماتور است و به عملکرد هنر در زمینه کارهای بصری / زبانی، از جمله پاسخگویی سؤال بصری (VQA) و بازیابی متن تصویر منجر می‌شود. در سال 2020، موسسه آلن برای هوش مصنوعی مقاله‌ای درباره X-LXMERT منتشر کرد که VQA و تولید تصویر را انجام می‌دهد.

کد و مدل‌های OpenAI برای iGPT و CLIP در GitHub موجود است. اگرچه DALL·E منتشر نشده است، محققان هوش مصنوعی در EleutherAI کد خود را برای یک سیستم مشابه به‌صورت منبع آزاد تهیه‌کرده‌اند.

این متن با استفاده از ربات مترجم مقاله هوش مصنوعی ترجمه‌شده و به‌صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به‌صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.