دستیابی به عکس‌های واقع‌گرایانه با شبکه‌های عصبی

منتشر‌شده در towardsdatascience به تاریخ ۳۱ می ۲۰۲۱
لینک منبع: Achieving Photorealism With Neural Networks

در دنیای تحقیق، به خصوص در هنگام برخورد با تصاویر، به نظر می‌رسد که علاقه زیادی به استفاده از محیط‌های بازی محبوب، مانند بازی خودکار گراند تافت (GTA) ، برای آزمایش وجود دارد. با گرافیک با کیفیت امروز، این محیط‌ها تصاویر مصنوعی شبیه به زندگی واقعی تولید می‌کنند که محققان را قادر می‌سازد تا رویکردهای خود را برای مشکلات پیچیده‌ای مانند این مورد آزمایش کنند، مجموعه داده‌هایی که هنوز در حال پیدایش هستند.

برای پر کردن این شکاف، یک کار جدید در شهر توسط ولادلن کولتون و تیم او برای ایجاد تصاویر مصنوعی واقعی‌تر وجود دارد، که آن‌ها آن را «بهبود بخشیدن به عکاسی» می‌نامند. ما استفاده از مناظر شهری GTA V را برای اثبات این که چگونه این روش می‌تواند به طور جادویی یک دوربین ویدئویی را از یک بازی ویدئویی به یک ترجمه تبدیل کند که به نظر می‌رسد با یک دوربین dash گرفته شده‌است، می‌بینیم.

بیایید نگاهی به نتایج آن‌ها از تقویت‌کننده بیندازیم. تصویر زیر یک تصویر ترکیبی خام است که توسط بازی تولید می‌شود. آن احساس مصنوعی بازی را دارد. این رندرینگ به‌دست‌آمده از موتور بازی بدون هیچ گونه تقویت‌کننده است. در حالی که هنوز هم می توان از این روش به عنوان یک زمین تست برای آزمایش‌ها استفاده کرد، اما تکرار نتایج در محیط‌های واقعی را تضمین نمی‌کند.

تصویر خام ازGTA V [ ۱ ]
تصویر خام ازGTA V [ ۱ ]

اکنون اجازه دهید نگاهی به آنچه که توسط جریان ارتقا دهنده تولید می‌شود، بیندازیم. به راحتی می‌شد آن را با یک عکس واقعی اشتباه گرفت. کمی کسل‌کننده نسبت به عکس قبلی به نظر می‌رسد اما بسیار واقع گرایانه تر است.

بهبود تصویر برای فوتورئالیسم [ ۱ ]
بهبود تصویر برای فوتورئالیسم [ ۱ ]

ممکن است در ابتدا شبیه یک استراتژی ساده به نظر برسد، اما چیزهای زیادی برای آن وجود دارد، و کار را به شکلی مثبت بدیع می‌کند.

پشت صحنه

در مقیاس وسیع، این ارتقا دهنده یک شبکه عصبی کانولوشن (سی ان ان) است که فریم‌های پیشرفته را در فواصل زمانی مورد نیاز تولید می‌کند. سپس سعی می‌کند کادر خام را به سبک Cityscapes Dataset ترجمه کند، که یک مجموعه بزرگ از شهرهای آلمان ثبت‌شده از یک دوربین dash دارد.

نکته جالب این است که شبکه تنها از تصویر کاملا رنده‌شده (توسط موتور بازی) به عنوان ورودی استفاده نمی‌کند. موتورهای بازی چیزی را تولید می‌کنند که به عنوان بافرهایی G شناخته می‌شود، که بافرهای میانی هستند که اطلاعات دقیقی از صحنه‌هایی مانند هندسه، مواد و روشنایی را فراهم می‌کنند. همانطور که در شکل زیر نشان‌داده شده‌است، شبکه ارتقا از این ورودی‌های کمکی در مقیاس‌های چندگانه علاوه بر تصاویر ارائه‌شده استفاده می‌کند.

افزایشFlow [ ۱ ]
افزایشFlow [ ۱ ]

قبل از انتقال اطلاعات بافر G به شبکه ارتقا، یک شبکه Encoder اضافی وجود دارد که با استفاده از آن رمزگذاری انجام می‌شود. هر دو شبکه با استفاده از LPIPS loss آموزش می‌بینند، که ساختار تصویر ارائه‌شده و تمایز ادراکی را برای به حداکثر رساندن واقع‌گرایی تصویر ارتقا یافته حفظ می‌کند.

براساس تصویر ورودی، شبکه می‌تواند برق را به ماشین‌ها اضافه کند، جاده‌ها را صاف کند و چنین تغییراتی را ایجاد کند. پایداری به‌دست‌آمده با این روش تقریبا بدون هیچ اثری باعث می‌شود که این روش جدید بهترین روش موجود باشد.

چه در پیش رو است؟

یکی از نکات دردناک تحقیق در ماشین ویژن داشتن یک مجموعه داده متناسب با جملات مشکل است. به دلیل عدم وجود مجموعه داده‌های باکیفیت، نویسندگان به موارد استاندارد متوسل می‌شوند، که ممکن است بیشتر اوقات پتانسیل کار را دست کم بگیرند یا کم گزارش کنند. استراتژی‌هایی مانند آنچه در بالا مورد بحث قرار گرفت، می‌توانند بعد جدیدی ایجاد کنند که در آن مجموعه داده‌های تقلیدی می‌توانند براساس الزامات با استفاده از محیط‌های شبیه‌سازی مانند بازی‌ها ایجاد شوند. قبل از اجرای هر الگوریتم خود-محرک مبتنی بر چشم‌انداز جدید در این زمینه، می توان آن را به سرعت بر روی شبیه‌سازی‌هایی مانند GTA V بهبود یافته اجرا کرد تا نقص‌ها و نتایج گزارش را پیدا کند. بنابراین فرد باید سرعت آزمایش را افزایش دهد و مجموعه داده‌هایی که شما نیاز دارید را ایجاد کند، که بسیار عالی است. در آینده نزدیک به دنبال چنین کارهایی بگردید!

این متن با استفاده از ربات ترجمه مقالات دیتاساینس ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.