من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
دستیابی به عکسهای واقعگرایانه با شبکههای عصبی

منتشرشده در towardsdatascience به تاریخ ۳۱ می ۲۰۲۱
لینک منبع: Achieving Photorealism With Neural Networks
در دنیای تحقیق، به خصوص در هنگام برخورد با تصاویر، به نظر میرسد که علاقه زیادی به استفاده از محیطهای بازی محبوب، مانند بازی خودکار گراند تافت (GTA) ، برای آزمایش وجود دارد. با گرافیک با کیفیت امروز، این محیطها تصاویر مصنوعی شبیه به زندگی واقعی تولید میکنند که محققان را قادر میسازد تا رویکردهای خود را برای مشکلات پیچیدهای مانند این مورد آزمایش کنند، مجموعه دادههایی که هنوز در حال پیدایش هستند.
برای پر کردن این شکاف، یک کار جدید در شهر توسط ولادلن کولتون و تیم او برای ایجاد تصاویر مصنوعی واقعیتر وجود دارد، که آنها آن را «بهبود بخشیدن به عکاسی» مینامند. ما استفاده از مناظر شهری GTA V را برای اثبات این که چگونه این روش میتواند به طور جادویی یک دوربین ویدئویی را از یک بازی ویدئویی به یک ترجمه تبدیل کند که به نظر میرسد با یک دوربین dash گرفته شدهاست، میبینیم.
بیایید نگاهی به نتایج آنها از تقویتکننده بیندازیم. تصویر زیر یک تصویر ترکیبی خام است که توسط بازی تولید میشود. آن احساس مصنوعی بازی را دارد. این رندرینگ بهدستآمده از موتور بازی بدون هیچ گونه تقویتکننده است. در حالی که هنوز هم می توان از این روش به عنوان یک زمین تست برای آزمایشها استفاده کرد، اما تکرار نتایج در محیطهای واقعی را تضمین نمیکند.
![تصویر خام ازGTA V [ ۱ ]](https://files.virgool.io/upload/users/131330/posts/wnjb8tsnnmpd/nuwobhv40qrs.png)
اکنون اجازه دهید نگاهی به آنچه که توسط جریان ارتقا دهنده تولید میشود، بیندازیم. به راحتی میشد آن را با یک عکس واقعی اشتباه گرفت. کمی کسلکننده نسبت به عکس قبلی به نظر میرسد اما بسیار واقع گرایانه تر است.
![بهبود تصویر برای فوتورئالیسم [ ۱ ]](https://files.virgool.io/upload/users/131330/posts/wnjb8tsnnmpd/ctsyg3pnone6.png)
ممکن است در ابتدا شبیه یک استراتژی ساده به نظر برسد، اما چیزهای زیادی برای آن وجود دارد، و کار را به شکلی مثبت بدیع میکند.
پشت صحنه
در مقیاس وسیع، این ارتقا دهنده یک شبکه عصبی کانولوشن (سی ان ان) است که فریمهای پیشرفته را در فواصل زمانی مورد نیاز تولید میکند. سپس سعی میکند کادر خام را به سبک Cityscapes Dataset ترجمه کند، که یک مجموعه بزرگ از شهرهای آلمان ثبتشده از یک دوربین dash دارد.
نکته جالب این است که شبکه تنها از تصویر کاملا رندهشده (توسط موتور بازی) به عنوان ورودی استفاده نمیکند. موتورهای بازی چیزی را تولید میکنند که به عنوان بافرهایی G شناخته میشود، که بافرهای میانی هستند که اطلاعات دقیقی از صحنههایی مانند هندسه، مواد و روشنایی را فراهم میکنند. همانطور که در شکل زیر نشانداده شدهاست، شبکه ارتقا از این ورودیهای کمکی در مقیاسهای چندگانه علاوه بر تصاویر ارائهشده استفاده میکند.
![افزایشFlow [ ۱ ]](https://files.virgool.io/upload/users/131330/posts/wnjb8tsnnmpd/vtdva3encea9.png)
قبل از انتقال اطلاعات بافر G به شبکه ارتقا، یک شبکه Encoder اضافی وجود دارد که با استفاده از آن رمزگذاری انجام میشود. هر دو شبکه با استفاده از LPIPS loss آموزش میبینند، که ساختار تصویر ارائهشده و تمایز ادراکی را برای به حداکثر رساندن واقعگرایی تصویر ارتقا یافته حفظ میکند.
براساس تصویر ورودی، شبکه میتواند برق را به ماشینها اضافه کند، جادهها را صاف کند و چنین تغییراتی را ایجاد کند. پایداری بهدستآمده با این روش تقریبا بدون هیچ اثری باعث میشود که این روش جدید بهترین روش موجود باشد.
چه در پیش رو است؟
یکی از نکات دردناک تحقیق در ماشین ویژن داشتن یک مجموعه داده متناسب با جملات مشکل است. به دلیل عدم وجود مجموعه دادههای باکیفیت، نویسندگان به موارد استاندارد متوسل میشوند، که ممکن است بیشتر اوقات پتانسیل کار را دست کم بگیرند یا کم گزارش کنند. استراتژیهایی مانند آنچه در بالا مورد بحث قرار گرفت، میتوانند بعد جدیدی ایجاد کنند که در آن مجموعه دادههای تقلیدی میتوانند براساس الزامات با استفاده از محیطهای شبیهسازی مانند بازیها ایجاد شوند. قبل از اجرای هر الگوریتم خود-محرک مبتنی بر چشمانداز جدید در این زمینه، می توان آن را به سرعت بر روی شبیهسازیهایی مانند GTA V بهبود یافته اجرا کرد تا نقصها و نتایج گزارش را پیدا کند. بنابراین فرد باید سرعت آزمایش را افزایش دهد و مجموعه دادههایی که شما نیاز دارید را ایجاد کند، که بسیار عالی است. در آینده نزدیک به دنبال چنین کارهایی بگردید!
این متن با استفاده از ربات ترجمه مقالات دیتاساینس ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
هوش مصنوعی کوانتومی و مغز کوانتومی: تجسم واقعیت آینده
مطلبی دیگر از این انتشارات
۱۲ کلید میانبر پنهان Gboard برای تایپ سریعتر در اندروید
مطلبی دیگر از این انتشارات
دانشمندان اولین عفونت مجدد به ویروس کرونا در ایالاتمتحده را تایید کردند