من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
رونمایی OpenAI، از مدل GPT-3 برای تولید تصاویر
منتشرشده در: infoqبه تاریخ ۲فوریه ۲۰۲۱
لینک منبع: OpenAI Announces GPT-3 Model for Image Generation
به تازگی OpenAI یک مدل هوش مصنوعی با پارامتر 12B مبتنی بر GPT-3 را آموزش داده است که میتواند از توصیف متن، تصاویر را ایجاد کند. این توصیف میتواند بسیاری از صفات مستقل، از جمله موقعیت اشیا و همچنین چشمانداز تصویر را مشخص کند و همچنین میتواند ترکیبی از اشیا را که در دنیای واقعی وجود ندارند، ترکیب کند.
محقق آدیتیا رامش در پست اخیر وبلاگی به بررسی اجمالی سیستم و تواناییهای آن پرداخته است. این مدل بر اساس معماری Transformer استفاده شده در GPT-3 است. برخلاف GPT-3، ورودی مدل شامل پیکسلهای تصویر و همچنین متن است. این برنامه میتواند بر اساس زیرنویسهای کوتاه، تصاویر واقعگرایانهای را تولید کند که چندین شیء، رنگها، بافتها و موقعیتهای مربوطه و سایر جزئیات زمینهای مانند نور یا زاویه دوربین را مشخص میکند. این مدل همچنین رفتاری را نشان میدهد که طراحان آن پیشبینی نکردهاند، از جمله توانایی انجام کارهای انتقال تصویر به تصویر مانند انتقال سبک. OpenAI این مدل را "DALL · E"، مخلوطی از ربات Pixar WALL·E و هنرمند سالوادور دالی، احتمالاً به دلیل توانایی آن در تولید تصاویر از ترکیب سورئال اشیا، نامید. بهعنوانمثال، یکی از کارهای این هنرمند "صندلی راحتی به شکل آووکادو" است.
بسیاری از مدلهای معروف یادگیری عمیق برای تولید تصویر از یک ساختار شبکه تولیدکننده خصمانه (GAN) استفاده میکنند. در سال 2018، محققان NVIDIA مدل StyleGAN را ایجاد کردند که تصاویر فوتورالیستی از چهره انسان را ایجاد میکرد. این امر منجر به ایجاد یک وبسایت محبوب برای ارائه عکسهایی با وضوحبالا از افراد موجود و تعدادی تغییرات شده است. در سال 2020، OpenAI Image GPT (iGPT) را منتشر كرد، یك مدل مبتنی بر ترانسفورماتور كه بهجای توالی متن، روی توالیهای پیكسل كار میکند. OpenAI دریافت که، همانطور که مدلهای GPT برای متن میتوانند نمونههای واقعی از زبان طبیعی تولید کنند، با توجه به ورودی پیکسلهای اولیه، iGPT میتواند "تولید و تکمیل تصاویر منسجم" را ایجاد کند.
همچنین OpenAI اخیراً CLIP را منتشر کرده است. یک مدل یادگیری عمیق دیگر که تواناییهای زبان طبیعی GPT را با بینایی کامپیوتر ترکیب میکند. CLIP روی مجموعه دادهای از تصاویر که با متن گرفتهشده از اینترنت جفت شدهاند، از قبل آموزشدیده است و میتواند چندین کار مختلف طبقهبندی بصری را از طریق یادگیری انتقال عکس صفر انجام دهد. بهعنوانمثال، CLIP میتواند بدون آموزش روی هیچیک از تصاویر ImageNet، عملکرد مدل ResNet50 اصلی را در معیار ImageNet مطابقت دهد. CLIP همچنین در معیار ImageNet-Adversarial عملکرد خوبی دارد و 77٪ امتیاز دارد. در مقابل، ResNet50 تنها به 2.7٪ دست مییابد.
در اصل، DALL·E یک مدل ترانسفورماتور است که ورودی متشکل از 256 رمز متن و 1024 رمز تصویر به آن داده میشود. این مدل شامل 64 لایه توجه به خود با مجموع پارامترهای 12B است. DALL · E تصاویر خروجی را بهصورت خود به خودی تولید میکند و OpenAI از CLIP برای رتبهبندی کیفیت تصاویر تولید شده استفاده میکند. درحالیکه وبلاگ OpenAI شامل چندین نمونه تصویر و توانایی ایجاد تصاویر تعاملی جدید با تغییر برخی از کلمات در توضیحات ورودی است، آنها جزئیات کامل سیستم را منتشر نکرده و کد یا مدل از قبل آموزش دیده را منتشر نکردهاند. این وبلاگ خاطرنشان میکند که این شرکت قصد دارد جزئیات بیشتری در مورد معماری و آموزش مدل ارائه دهد و قصد دارد "چالشهای اخلاقی بلندمدت ناشی از این فناوری" را تحلیل کند.
ممکن است به مطالعه مقاله ۶ ابزار استخراج و جمعآوری دادهها از وبنیز علاقمند باشید.
سایر سازمانهای تحقیقاتی برجسته هوش مصنوعی نیز اخیراً مدلهای Transformer را در چشمانداز رایانه اعمال کردهاند. در سال 2019، مایکروسافت مقالهای در مورد آموزش نمایندگی تصویر جهانی متن (UNITER) منتشر کرد که مبتنی بر معماری ترانسفورماتور است و به عملکرد هنر در زمینه کارهای بصری / زبانی، از جمله پاسخگویی سؤال بصری (VQA) و بازیابی متن تصویر منجر میشود. در سال 2020، موسسه آلن برای هوش مصنوعی مقالهای درباره X-LXMERT منتشر کرد که VQA و تولید تصویر را انجام میدهد.
کد و مدلهای OpenAI برای iGPT و CLIP در GitHub موجود است. اگرچه DALL·E منتشر نشده است، محققان هوش مصنوعی در EleutherAI کد خود را برای یک سیستم مشابه بهصورت منبع آزاد تهیهکردهاند.
این متن با استفاده از ربات مترجم مقاله هوش مصنوعی ترجمهشده و بهصورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند بهصورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
۵ راه برای تنظیم ریتم شبانهروزی
مطلبی دیگر از این انتشارات
درمان بالقوه برای طاسی: کشف مواد شیمیایی کنترلکننده زندگی و مرگ در فولیکولهای مو
مطلبی دیگر از این انتشارات
اندازهگیری کمپینهای بازاریابی