خواندن ۲۷ دقیقه·۳ سال پیش

ترجمه مقاله GFPGAN (CVPR 2021)

راستش رو بخواین دنبال یه مقاله میگشتم که برای درس پردازش تصویر ارائه بدم. تاکید استاد محترم هم این بود که حتما یادگیری عمیق توش تا جای ممکن دخیل نباشه و صرفا از ابزار های پردازش تصویر استفاده بشه. و خوب متاسفانه یا خوشبختانه به خاطر پیشرفت های یادگیری عمیق، پیدا کردن همچین مقاله ای واقعا سخته!

خلاصه بعد از کلی کلنجار رفتن با خودم که این مقاله رو استاد قبول میکنه یا نه، به خاطر اتفاقای خفنی که تو این مقاله افتاده، این مقاله رو انتخاب کردم. و خوشبختانه استاد محترم هم با من هم عقیده بود که این مقاله خفنه(!) برا همین اوکی داد و منم کار رو این مقاله رو شروع کردم.

یه نکته مثبت دیگه ای که این مقاله داره اینه که اولا کدش تو گیتهاب هست(لینکشو آخر نوشته میذارم) و هم اینکه مشکلی برای استفاده ازش وجود نداره. و حتا تو کولب گوگل هم راحت import میشه. خروجی بالا هم عکس پدر(سمت راستی) و عموی بندس. که وقتی به خانواده نشون دادم، اونام به خفن بودن مقاله پی بردن. در تاکید خفن بودن این مقاله همین بس که برای یکی از درس های دیگم همینو ارائه دادم و استاد درس دیگه هم به خفن بودن این مقاله اذعان داشتن(یا کردن، نمیدونم فعل درستش چیه!)

خلاصه همه اینا باعث شد تا ترجمه ای از این مقاله رو براتون به اشتراک بذارم تا شمام به خفن بودن این مقاله پی ببرید:)

قبل شروع اینو بگم که اسم کامل مقاله اینه: Towards Real-World Blind Face Restoration with Generative Facial Prior

و اما بریم سراغ اصل مطلب...

شکل 1: مقایسه با پیشرفته ترین روش های ترمیم چهره: HiFaceGAN ، DFDNet ، Wan و همکاران و PULSE در تصاویر با کیفیت پایین در دنیای واقعی. در حالی که روشهای قبلی برای بازگرداندن جزئیات صورت وفادار یا حفظ هویت چهره تلاش می کنند ، GFP-GAN پیشنهادی ما با مصنوعات بسیار کمتری به توازن واقعی و وفاداری می رسد. علاوه بر این ، صورت قدرتمند مولد به ما امکان می دهد تا ترمیم و تقویت رنگ را به طور مشترک انجام دهیم.

چکیده:

ترمیم صورت کور معمولاً به موارد قبلی ، مانند هندسه صورت قبلی یا مرجع قبلی ، برای بازگرداندن جزئیات واقعی و صادقانه متکی است. با این حال ، ورودی های بسیار با کیفیت پایین نمی توانند هندسه دقیقی از قبل ارائه دهند در حالی که مراجع با کیفیت بالا غیرقابل دسترسی هستند ، و این قابلیت را در سناریوهای دنیای واقعی محدود می کند. در این کار ، ما GFP-GAN را پیشنهاد می دهیم که از اهرم های متمایز و غنی و متنوعی که برای ترمیم صورت کور در یک GAN صورت آموزش دیده محصور شده اند ، استفاده می کند. این مولد صورت اولیه (GFP) از طریق لایه های تبدیل ویژگی فضایی ، که به روش ما امکان می دهد تعادل خوبی از واقعیت و وفاداری داشته باشد ، در فرآیند ترمیم صورت گنجانیده شده است. GFP-GAN ما می تواند به لطف طراحی های ظریف و قدرتمند صورت قبل و ظریف ، جزئیات صورت را بازیابی کند و رنگ ها را فقط با یک پاس رو به جلو بهبود بخشد ، در حالی که روش های وارونگی GAN نیاز به بهینه سازی خاص تصویر در استنباط دارند. آزمایش های گسترده نشان می دهد که روش ما هم در مجموعه داده های مصنوعی و هم در دنیای واقعی به عملکردی برتر نسبت به پیشرفت های قبلی دست می یابد.

1- مقدمه:

ترمیم صورت کور با هدف بازیابی چهره های با کیفیت بالا از تصاویر بی کیفیت که از تخریب ناشناخته رنج می برند ، مانند وضوح پایین ، نویز، تاری ، مصنوعات فشرده سازی و غیره تعریف می شود. وقتی به سناریوهای دنیای واقعی اعمال می شود ، به دلیل تخریب پیچیده تر ، حالات و اوضاع متنوع ، چالش برانگیزتر می شود. کارهای قبلی معمولاً از موارد خاص صورت در ترمیم صورت ، مانند نشانه های صورت ، نقشه های تجزیه ، نقشه های حرارتی مولفه های صورت ، بهره برداری می کنند و نشان می دهند که آن مشخصات اولیه هندسه برای بازیابی شکل و جزئیات دقیق صورت، محوری هستند. با این حال ، این مقدمات معمولاً از تصاویر ورودی تخمین زده می شوند و به ناچار با ورودی های بسیار بی کیفیت در دنیای واقعی تخریب می شوند. علاوه بر این ، علی رغم راهنمایی معنایی ، موارد قبلی شامل اطلاعات بافت محدودی برای بازیابی جزئیات صورت (به عنوان مثال مردمک چشم) است.

دسته دیگری از رویکردها ، برای تولید نتایج واقعی و کاهش وابستگی به ورودی های تخریب شده ، اطلاعات مرجع ، یعنی چهره های هدایت شونده با کیفیت بالا یا دیکشنری های اجزای صورت را بررسی می کند. با این حال ، غیرقابل دسترس بودن منابع با وضوح بالا ، کاربرد عملی آن را محدود می کند ، در حالی که ظرفیت محدود دیکشنری ها ، تنوع و غنای جزئیات صورت را محدود می کند.

در این مطالعه ، ما از Generative Facial Prior (GFP) برای ترمیم چهره کور در دنیای واقعی استفاده می کنیم ، به عنوان مثال ، مدل های قبلی به طور ضمنی در مدل های شبکه آموزش خصمانه نسل پیش ساخته (GAN) مانند StyleGAN کپسوله شده اند. این GAN های چهره قادر به ایجاد چهره های وفادار با درجه تنوع بالایی هستند و بدین ترتیب مقدماتی غنی و متنوع مانند هندسه ، بافت صورت و رنگ ها را فراهم می آورند ، این امکان را فراهم می کند تا جزئیات صورت را به طور مشترک بازیابی کرده و رنگ ها را تقویت کنید (شکل 1). با این حال ، چالش کشیدن چنین پیش تولیدهای مولد در روند ترمیم چالش برانگیز است. تلاش های قبلی معمولاً از وارونگی GAN استفاده می کنند. آنها ابتدا تصویر تخریب شده را به یک کد پنهان از GAN آموزش دیده "معکوس" می کنند و سپس بهینه سازی خاص تصویر پرخرج را برای بازسازی تصاویر انجام می دهند. با وجود خروجی های بصری واقع بینانه ، آنها معمولاً تصاویری با وفاداری کم تولید می کنند ، زیرا کدهای نهفته در ابعاد پایین برای هدایت ترمیم دقیق کافی نیستند.

برای مقابله با این چالش ها ، ما GFP-GAN را با طراحی ظریف پیشنهاد می دهیم تا در یک پاس رو به جلو به تعادل خوبی از واقعیت و وفاداری دست پیدا کنیم. به طور خاص ، GFPGAN شامل یک ماژول حذف تخریب و یک GAN صورت آموزش دیده به عنوان صورت قبلی است.

آنها توسط یک نگاشت کد پنهان مستقیم و چندین لایه تبدیل فضایی کانال تقسیم شده (CS-SFT) به روشی درشت و ظریف به هم متصل می شوند. لایه های پیشنهادی CS-SFT تعدیل فضایی را بر روی تقسیم ویژگی ها انجام می دهند و ویژگی های سمت چپ را برای حفظ بهتر اطلاعات به طور مستقیم عبور می دهند ، و به روش ما اجازه می دهد قبل از آموزش مجدد وفاداری بالا ، از قبل مولد را به طور موثر ترکیب کند. علاوه بر این ، ما از بین رفتن اجزای صورت را با تبعیض های محلی معرفی می کنیم تا جزئیات ادراکی صورت را بیشتر ارتقا دهیم ، در حالی که برای حفظ وفاداری، هویت را حفظ می کنیم.

ما مشارکتها را به شرح زیر خلاصه می کنیم. (1) ما از اولویت های تولید کننده صورت غنی و متنوع برای ترمیم صورت کور استفاده می کنیم. این افراد دارای بافت کافی و اطلاعات رنگی هستند که به ما امکان می دهد تا به طور مشترک ترمیم صورت و تقویت رنگ را انجام دهیم. (2) ما چارچوب GFP-GAN را با طراحی های ظریف معماری و تلفات پیشنهاد می دهیم تا قبل از آن صورت های مولد را ترکیب کنیم. GFP-GANما با لایه های CS-SFT در یک پاس رو به جلو به تعادل خوبی از پایداری و وفاداری به بافت می رسد. (3) آزمایش های گسترده نشان می دهد که روش ما در مجموعه داده های مصنوعی و دنیای واقعی عملکرد برتر نسبت به روش های قبلی را به دست می آورد.

2- کار مرتبط:

ترمیم تصویر معمولاً شامل وضوح فوق العاده ، حذف نویز ، رفع تاری و حذف فشرده سازی است. برای دستیابی به نتایج دلپذیر از نظر بصری ، از شبکه خصمانه تولیدی معمولاً به عنوان نظارت بر ضرر استفاده می شود تا راه حل ها به مجرای طبیعی نزدیک شود ، در حالی که کار ما این است که از GAN های صورت آموزش دیده به عنوان پیش تولیدهای صورت (GFP) استفاده کند.

ترمیم صورت(Face Restoration). بر اساس تجسم عمومی صورت ، دو اطلاعات معمول چهره خاص: اطلاعات هندسه و اطلاعات مرجع ، برای بهبود بیشتر عملکرد ترکیب شده اند. نمونه های اولیه هندسه شامل نشانه های صورت ، نقشه های تجزیه صورت و نقشه های حرارتی مولفه های صورت هستند. با این حال، 1) این موارد قبلی به برآورد از ورودی های بی کیفیت نیاز دارند و به طور حتم در حالات واقعی تخریب می شوند. 2) آنها عمدتا بر محدودیت های هندسه تمرکز می کنند و ممکن است جزئیات کافی برای ترمیم نداشته باشند. در عوض ، GFPمشغول ما تخمین هندسی صریح از تصاویر تخریب شده را شامل نمی شود و شامل بافت های کافی در داخل شبکه آموزش دیده آن است.

اطلاعات مرجع (Reference priors) معمولاً به تصاویر مرجع با همان هویت اعتماد می کنند. برای غلبه بر این مسئله ، DFDNet پیشنهاد می دهد که برای راهنمایی ترمیم ، یک دیکشنری صورت از هر جز (مانند چشم ، دهان) با ویژگی های CNNساخته شود. با این حال ، DFDNet عمدتا بر روی اجزای دیکشنری تمرکز دارد و بنابراین در مناطقی فراتر از دامنه دیکشنری آن تخریب می شود (به عنوان مثال ، کانتور مو ، گوش و صورت) ، در عوض ، GFP-GANما می تواند چهره ها را برای بازیابی به طور کلی درمان کند. علاوه بر این ، اندازه محدود دیکشنری تنوع و غنای آن را محدود می کند ، در حالی که GFP می تواند اطلاعات متنوع و غنی از جمله هندسه ، بافت ها و رنگ ها را ارائه دهد.

اطلاعات تولیدی(Generative Priors)، GAN های آموزش دیده که قبلاً توسط وارونگی GAN مورد بهره برداری قرار می گیرد ، هدف اصلی آن یافتن نزدیکترین کدهای نهفته است که به یک تصویر ورودی داده شده است. PULSE به طور تکراری کد پنهان StyleGANرا بهینه می کند تا زمانی که فاصله بین خروجی ها و ورودی ها زیر یک آستانه باشد. mGANprior سعی دارد چندین کد را برای بهبود کیفیت بازسازی بهینه کند. با این حال ، این روش ها معمولاً تصاویری با وفاداری کم تولید می کنند ، زیرا کدهای نهفته در ابعاد پایین برای هدایت ترمیم کافی نیستند. در مقابل ، لایه های مدولاسیون پیشنهادی CS-SFT ما امکان دستیابی قبلی به ویژگی های فضایی چند وضوح را برای دستیابی به وفاداری بالا فراهم می کنند. علاوه بر این ، بهینه سازی تکراری گران قیمت در GFP-GAN ما هنگام استنباط مورد نیاز نیست.

عملیات تقسیم کانال معمولاً برای طراحی مدلهای جمع و جور و بهبود توانایی نمایش مدل مورد کاوش قرار می گیرد. MobileNet پیچیدگی های عمقی را پیشنهاد می کند و GhostNet لایه کانولوشن را به دو قسمت تقسیم می کند و از فیلترهای کمتری برای تولید نقشه های ویژگی ذاتی(intrinsic feature maps) استفاده می کند. معماری مسیر دوگانه در DPNامکان استفاده مجدد از ویژگی ها و کاوش ویژگی های جدید را برای هر مسیر فراهم می کند ، بنابراین توانایی نمایش آن را بهبود می بخشد. یک ایده مشابه نیز در وضوح فوق العاده به کار رفته است. لایه های CS-SFTما روحیه مشابهی دارند ، اما با عملیات و اهداف مختلف. ما ویژگی فضایی را به یک شکاف تبدیل می کنیم و شکاف چپ را به عنوان هویت ترک می کنیم تا به تعادل خوبی از واقعیت و وفاداری برسیم.

تفکیک کننده های اجزای محلی. تفکیک کننده محلی پیشنهاد شده است که روی توزیع های مسیر محلی تمرکز کند. هنگامی که به چهره اعمال می شود ، آن lossهای تفکیک کننده بر مناطق معنایی چهره جداگانه اعمال می شود. loss اجزای چهره معرفی شده ما نیز چنین طرح هایی را اتخاذ می کند اما با نظارت بیشتر بر اساس ویژگی های تفکیک کننده آموخته شده.

3- روش شناسی:

3-1- نمای کلی GFP-GAN:

ما چارچوب GFP-GAN را در این بخش توصیف می کنیم. با توجه به یک ورودی چهره x که از تخریب ناشناخته رنج می برد ، هدف از ترمیم صورت کور برآورد یک تصویر yهَت(نمیشه علائم ریاضی رو بذارم:/ لینک دانلود رو ته نوشته میذارم. دیگ چیکارتون کنم:)) با کیفیت بالا است ، که از لحاظ واقعی و وفاداری تا حد امکان به تصویر y اصلی شبیه است.

شکل 2. GFP-GANاز یک ماژول حذف تخریب (U-Net) و یک GAN چهره آموزش دیده شده (مانند StyleGAN2) به عنوان priorتشکیل شده است. آن‌ها از طریق نقشه‌برداری کد پنهان و چندین لایه فضای سه‌بعدی تقسیم مشخصه ( CS - SFT ) از بین می‌روند . به طور خاص ، ماژول حذف تخریب برای حذف تخریب پیچیده و استخراج دو نوع ویژگی طراحی شده است ، یعنی 1) ویژگی های نهفته F latent نقشه ورودی تصویر به نزدیکترین کد نهان در StyleGAN2 ، و 2) ویژگی های مکانی چند وضوح F spatial برای تعدیل ویژگی های StyleGAN2.

پس از آن ، F latent با چندین لایه خطی به کدهای نهان W میانی ترسیم می شود. با توجه به کد نهان نزدیک به تصویر ورودی ، StyleGAN2می تواند ویژگی های کانولوشن متوسط ایجاد کند ، که با F GAN نشان داده می شود. این ویژگی ها جزئیات غنی صورت را در وزن GANآموزش دیده ثبت می کنند. ویژگی های چند وضوح F spatial برای تعدیل فضایی ویژگی های GAN صورت F GAN با لایه های پیشنهادی CS-SFT به روشی درشت تا ریز استفاده می شود، تا با حفظ وفاداری بالا به نتایج واقعی دست پیدا کنید.

در طول آموزش ، به جزloss تفکیک کننده سراسری ، ما برای افزایش اجزای قابل درک چهره ، یعنی چشم و دهان ، loss اجزای صورت را با تفکیک کننده ها معرفی می کنیم. به منظور آموزش مجدد هویت(identity) ، ما همچنین از راهنمایی های حفظ هویت استفاده می کنیم.

شکل 2: مروری بر چارچوب GFP-GAN. این شامل یک ماژول حذف تخریب (U-Net) و یک GAN صورت آموزش دیده به عنوان صورت قبلی است. آنها توسط یک نقشه برداری کد پنهان و چندین لایه تبدیل ویژگی فضایی کانال تقسیم شده (CS-SFT) متصل می شوند. در طول آموزش ، ما 1) lossهای ترمیم میانی را برای از بین بردن تخریب پیچیده ، 2) loss اجزای صورت با تفکیک کننده ها برای افزایش جزئیات صورت ، و 3) loss هویت برای حفظ هویت چهره را استفاده می کنیم.

3-2- ماژول حذف تخریب:

ترمیم کننده چهره کور در دنیای واقعی با تخریب پیچیده و شدیدتر ، که معمولاً مخلوطی از وضوح کم ، تاری ، نویز و مصنوعات JPEG است، مواجه می شوند. ماژول حذف تخریب برای حذف صریح تخریب فوق و استخراج ویژگی های "تمیز" F latent و F spatial طراحی شده است، مسئولیت ماژول های بعدی را کاهش می دهد. ما ساختار U-Net را به عنوان ماژول حذف تخریب خود در نظر می گیریم ، زیرا می تواند 1) زمینه پذیرش را برای از بین بردن تاری بزرگ افزایش دهد ، و 2) ویژگی های چند وضوح ایجاد کند. فرمول به شرح زیر است:

از ویژگی های نهفته F latent برای ترسیم تصویر ورودی به نزدیکترین کد نهان در StyleGAN2 استفاده می شود (بخش 3.3). ویژگی های فضایی چند وضوح F spatial برای تعدیل ویژگی های StyleGAN2 استفاده می شود (بخش 3.4).

به منظور داشتن یک نظارت متوسط برای از بین بردن تخریب ، ما در مراحل اولیه آموزش از lossترمیم L1 در هر مقیاس وضوح استفاده می کنیم. به طور خاص ، ما همچنین برای هر مقیاس وضوح از رمزگشا U-Net تصاویر خروجی می گیریم ، و سپس این خروجی ها را محدود می کنیم تا به هرم تصویر واقعی نزدیک شوند.

3-3- مولد چهره اولیه و نگاشت کد پنهان:

GANچهره که از قبل آموزش دیده است توزیع چهره ها را در وزن های متراکم کانولشن های خود ، یعنی اولویت مولد(generative prior) ، ضبط می کند. ما از چنین GANهای صورت آموزش دیده استفاده می کنیم تا جزئیات متنوع و غنی صورت را برای کار خود ارائه دهیم. یک روش معمول برای استفاده از اولویت های مولد ، نگاشت تصویر ورودی به نزدیکترین کدهای نهان Z آن است و سپس تولید یک خروجی مربوطه توسط یک GAN از پیش آموزش دیده. با این حال ، این روش ها برای حفظ وفاداری معمولاً به بهینه سازی تکراری زمان بر نیاز دارند. ما به جای تولید مستقیم تصویر نهایی ، ویژگی های کانولوشن میانی F GAN از نزدیک ترین چهره را ایجاد می کنیم ، زیرا شامل جزئیات بیشتری است و برای وفاداری بهتر می تواند توسط ویژگی های ورودی بیشتر مدوله شود (به بخش 3.4 مراجعه کنید).

به طور خاص ، با توجه به بردار رمزگذاری شده F latent از تصویر ورودی (تولید شده توسط U-Net، معادله 1) ، ما ابتدا آن را به کدهای نهان میانی W برای حفظ بهتر ویژگی معنایی نگاشت می کنیم ، یعنی فضای میانی که از Z با چندین لایه پرسپترون چند لایه (MLP) تبدیل شده است. سپس کدهای نهفته W از هر لایه کانولوشن در GANآموزش دیده عبور می کنند و ویژگی های GAN را برای هر مقیاس وضوح تولید می کنند.

بحث: ترمیم مفصل و تقویت رنگ. مدل های تولیدی اولویت های متنوع و غنی فراتر از جزئیات واقع گرایانه و بافت های زنده را ضبط می کنند.به عنوان مثال ، آنها اولویت های رنگی را کپسوله می کنند ، که می تواند در کار ما برای ترمیم مفصل چهره و تقویت رنگ استفاده شود.

تصاویر چهره واقعی، به عنوان مثال ، عکس های قدیمی ، معمولاً دارای رنگ سیاه و سفید ، رنگ زرد قدیمی یا کم رنگ هستند. رنگ زنده اولیه در مولد چهره اولیه به ما امکان می دهد تقویت رنگ از جمله رنگ آمیزی را انجام دهیم. ما اعتقاد داریم که مولد چهره اولیه نیز از اولویت های هندسی کانولوشن ، اولویت های سه بعدی و غیره برای ترمیم و دستکاری استفاده می کنند.

3-4- تبدیل ویژگی فضایی کانال تقسیم شده:

به منظور حفظ بهتر وفاداری ، ما بیشتر از ویژگی های فضایی ورودی F spatial (تولید شده توسط U-Net ، Eq. 1) برای تعدیل ویژگی های GAN در F GAN از Eq.2استفاده می کنیم. حفظ اطلاعات فضایی از ورودی ها برای ترمیم چهره بسیار مهم است ، زیرا معمولاً به ویژگی های محلی برای حفظ وفاداری و ترمیم سازگار در مکان های مختلف فضایی چهره نیاز دارد. بنابراین، ما از تبدیل ویژگی فضایی (SFT) استفاده می کنیم ، که پارامترهای تبدیل نسبت را برای مدولاسیون ویژگی فضایی تولید می کند و تأثیر آن را در ترکیب سایر شرایط در ترمیم تصویر و تولید تصویر نشان داده است.

به طور خاص ، در هر مقیاس تفکیک پذیری ، ما از طریق ویژگی های ورودی F spatial توسط چندین لایه کانولوشن ، یک جفت پارامتر تبدیل نسبت (α ، β) تولید می کنیم. پس از آن ، مدولاسیون با مقیاس گذاری و تغییر ویژگی های GAN در F GAN انجام می شود ، فرموله شده توسط:

برای دستیابی به توازن بهتر از واقعیت و وفاداری ، ما همچنین لایه های تبدیل ویژگی فضایی کانال تقسیم شده (CSSFT) را پیشنهاد می دهیم که با استفاده از ویژگی های ورودی F spatial (کمک به وفاداری) و تعدیل فضایی بخشی از ویژگی های GANرا انجام می دهند و ویژگی های GANسمت چپ برای عبور مستقیم(کمک به واقعیت) ترک میکند، همانطور که در شکل 2 نشان داده شده است:

در نتیجه ، CS-SFT از مزایای تلفیق مستقیم اطلاعات قبلی و تعدیل موثر توسط تصاویر ورودی بهره مند می شود ، در نتیجه تعادل خوبی بین وفاداری بافت( texture faithfulness) و وفاداری(fidelity) به دست می آورد. علاوه بر این ، CS-SFT همچنین می تواند پیچیدگی را کاهش دهد زیرا به کانال های کمتری برای مدولاسیون ، مشابه GhostNet نیاز دارد.

ما لایه های SFTکانال تقسیم شده را در هر مقیاس وضوح انجام می دهیم ، و در نهایت یک چهره بازیابی شده yهَت ایجاد می کنیم.

3-5- اهداف مدل:

هدف یادگیری آموزش GFP-GAN ما شامل: 1) lossبازسازی که خروجی های yهَت نزدیک به y واقعی را محدود می کند ، 2) loss خصمانه برای بازیابی بافت های واقع گرایانه ، 3) پیشنهاد loss اجزای صورت برای افزایش بیشتر جزئیات صورت ، و 4) loss حفظ هویت است.

loss بازسازی. ما loss مربوط به L1و loss ادراکی را که به طور گسترده مورد استفاده قرار می گیرد ، به عنوان lossبازسازی Lrec ، که به شرح زیر تعریف شده است ، تعیین می کنیم:

loss اجزای صورت. به منظور افزایش بیشتر اجزای قابل درک صورت ، ما loss اجزای صورت را با تفکیک کننده های محلی برای چشم چپ ، چشم راست و دهان معرفی می کنیم. همانطور که در شکل 2 نشان داده شده است ، ما در ابتدا مناطق علاقه مند با ترازبندی ROI را برش می دهیم. برای هر منطقه ، ما تفکیک کننده های محلی جدا و کوچک را آموزش می دهیم تا تشخیص دهیم که آیا وصله های(patches) بازیابی واقعی هستند یا خیر ، وصله ها را به توزیع اجزای طبیعی صورت نزدیک میکنیم.

با الهام از [62] ، ما همچنین بر اساس تفکیک کننده های آموزش دیده، loss سبک ویژگی را ترکیب می کنیم. loss تطبیق ویژگی قبلی با محدودیت های فضایی، متفاوت است ، loss سبک ویژگی ما تلاش می کند تا با آمار ماتریس گرم(Gram) وصله های واقعی و بازسازی شده مطابقت داشته باشد. ماتریس گرم همبستگی ویژگی ها را محاسبه می کند و معمولاً به طور موثر اطلاعات بافت را ثبت می کند. ما ویژگی هایی را از چندین لایه از تفکیک کننده های محلی یاد گرفته شده استخراج می کنیم و یاد می گیریم با این آمار گرم از نمایش های متوسط از وصله های واقعی و ترمیم شده مطابقت داشته باشد. از نظر تجربی ، ما دریافتیم که loss سبک ویژگی از نظر تولید جزئیات واقعی چهره و کاهش مصنوعات ناخوشایند بهتر از loss تطبیق ویژگی قبلی است.

loss اجزای صورت به شرح زیر تعریف می شود. اصطلاح اول loss تفکیک کننده است و اصطلاح دوم loss سبک است:

loss حفظ هویت. ما از [31] الهام می گیریم و lossحفظ هویت را در مدل خود اعمال می کنیم. مشابه loss ادراکی ، ما lossرا بر اساس ویژگی تعبیه شده ازچهره ورودی تعریف می کنیم. به طور خاص ، ما مدل تشخیص چهره آموزش دیده شده ArcFaceرا انتخاب کردیم که برجسته ترین ویژگی های تفکیک کننده هویت را ضبط میکند. loss حفظ هویت، نتیجه بازیابی شده را مجبور می کند تا فاصله کمی با واقعیت در فضای ویژگی عمیق متراکم داشته باشد:

هدف کلی مدل ترکیبی از lossهای فوق است:

4- آزمایش:

4-1- دیتاست ها و پیاده سازی:

مجموعه داده های آموزشی. ما GFP-GAN خود را بر روی مجموعه داده های FFHQ ، که شامل 70000 تصویر با کیفیت است ، آموزش می دهیم. در حین آموزش ، تمام تصاویر را به <512 به توان 2> تغییر می دهیم.

GFP-GAN ما روی داده های مصنوعی آموزش دیده است که تقریب تصاویر واقعی با کیفیت پایین است و در هنگام استنتاج به تصاویر دنیای واقعی تعمیم می یابد. ما این روش را در [46 ، 44] دنبال می کنیم و برای تلفیق داده های آموزش ، مدل تخریب زیر را اتخاذ می کنیم:

مجموعه داده های آزمایشی. ما یک مجموعه داده مصنوعی و سه مجموعه داده مختلف واقعی با منابع متمایز می سازیم. تمام این مجموعه های داده هیچ تطابقی با مجموعه داده های آموزشی ما ندارند. ما در اینجا یک معرفی مختصر ارائه می دهیم.

CelebA-Test مجموعه داده ترکیبی با 3000 تصویر CelebA-HQ از پارتیشن آزمایش خود است. روش تولید همانند روند آموزش است.
LFW-Test. LFW شامل تصاویر با کیفیت پایین در طبیعت است. ما تمام تصویر اول برای هر هویت را در پارتیشن اعتبار سنجی گروه بندی می کنیم و 1711 تصویر آزمایشی را تشکیل می دهیم.
CelebChild-Test شامل 180 چهره کودک از افراد مشهور است که از اینترنت جمع آوری شده اند. آنها بی کیفیت هستند و بسیاری از آنها عکسهای قدیمی سیاه و سفید هستند.
WebPhoto-Test. ما 188 عکس بی کیفیت زندگی واقعی را از اینترنت کرول کردیم و 407 چهره برای ساخت مجموعه داده آزمایش WebPhoto استخراج کردیم. این عکس ها تخریب متنوع و پیچیده ای دارند. برخی از آنها عکسهای قدیمی هستند که از نظر جزئیات و رنگ بسیار کمرنگ هستند.

پیاده سازی. ما StyleGAN2 آموزش دیده را با 5122 خروجی به عنوان مولد صورت قبلی خود انتخاب می کنیم. ضریب کانال StyleGAN2 برای اندازه مدل جمع و جور روی یک تنظیم شده است. UNet برای حذف تخریب از هفت نمونه کوچک و هفت مثال بالا تشکیل شده است که هر کدام دارای بلوک باقیمانده هستند. برای هر لایه CS-SFT ، به ترتیب از دو لایه کانولوشن برای تولید پارامترهای آفین α و β استفاده می کنیم.

اندازه مینی بچ آموزش روی 12 تنظیم شده است. ما داده های آموزش را با برگرداندن افقی و رنگ پس زمینه تقویت می کنیم. ما سه جز را در نظر می گیریم: چشم چپ ، چشم راست ، دهان برای loss اجزای صورت ، زیرا از نظر ادراک قابل توجه هستند. هر مولفه توسط ROI مطابق با نشانه های چهره ارائه شده در مجموعه داده های آموزش اصلی بریده می شود. ما مدل خود را با بهینه ساز آدام در مجموع با 800k تکرار آموزش می دهیم. نرخ یادگیری(learning rate) < 2 ضربدر 10 به توان -3> در نظر گرفته شد و سپس با تکرار ضریب 2 در تکرارهای 700kام ، 750kام کاهشیافت. ما مدل های خود را با چارچوب PyTorch پیاده سازی کرده و با استفاده از چهار پردازنده گرافیکی NVIDIA Tesla P40 آنها را آموزش دادیم.

شکل 3: مقایسه کیفی CelebA-Test برای ترمیم صورت نابینا. GFP-GAN ما جزئیات وفاداری را در چشم ، دهان و مو تولید می کند.

4-2- مقایسه با روش های پیشرفته:

ما GFP-GAN خود را با چندین روش پیشرفته ترمیم صورت مقایسه می کنیم: HiFaceGAN ، DFDNet ، PSFRGAN ، Super-FAN و Wan و همکاران. روش های وارونگی GAN برای ترمیم صورت: PULSE و mGANprior نیز برای مقایسه وجود دارد. ما همچنین GFP-GAN خود را با روش های بازیابی تصویر مقایسه می کنیم: RCAN ، ESRGAN و DeblurGANv2 ، و آنها را در مجموعه آموزش چهره خود برای مقایسه عادلانه به صورت دقیق تنظیم می کنیم. ما کدهای رسمی آنها را به جز Super-FAN که برای استفاده مجدد از آنها استفاده می کنیم ، در نظر میگیریم.

برای ارزیابی ، ما از معیارهای ادراکی غیر مرجع استفاده می کنیم: FID و NIQE. ما همچنین معیارهای پیکسلی (PSNR و SSIM) و معیار ادراکی (LPIPS) را برای CelebA-Test with Ground-Truth (GT) اتخاذ می کنیم. ما در تعبیه ویژگی ArcFace فاصله هویت را با فرشتگان اندازه گیری می کنیم ، جایی که مقادیر کوچکتر هویت نزدیکتر به GT را نشان می دهد.

شکل 5: مقایسه کیفی سه مجموعه داده در دنیای واقعی.

CelebA-Test مصنوعی.مقایسه ها با دو تنظیم انجام می شود: 1) ترمیم صورت کور که ورودی و خروجی آن از وضوح یکسانی برخوردار است.2) 4*وضوح فوق العاده تصویر. توجه داشته باشید که روش ما می تواند تصاویر نمونه برداری شده را به عنوان ورودی برای وضوح فوق العاده صورت در نظر بگیرد.

نتایج کمی برای هر تنظیم در جدول 1 و جدول 2 نشان داده شده است. در هر دو تنظیمات ، GFP-GAN به کمترین میزان LPIPS دست می یابد ، نشان می دهد که نتایج ما از نظر ادراک به واقعیت نزدیک است. GFP-GAN همچنین کمترین FID و NIQE را به دست می آورد ، نشان می دهد که خروجی ها به ترتیب فاصله نزدیک با توزیع چهره واقعی و توزیع تصویر طبیعی دارند. علاوه بر عملکرد ادراکی ، روش ما همچنین هویت بهتری را حفظ می کند ، که با کمترین درجه در تعبیه ویژگی چهره نشان داده می شود. توجه داشته باشید که 1) FID و NIQE پایین تر از GT ما نشان نمی دهد که عملکرد ما بهتر از GT است ، زیرا این معیارهای "ادراکی" با نمرات نظرات انسان در مقیاس بزرگ همبستگی دارند ، اما همیشه با هم در مقیاس دقیق تر ارتباط خوبی ندارند؛ 2) معیارهای پیکسل-خرد PSNR و SSIM با ارزیابی ذهنی ناظران انسانی ارتباط خوبی ندارند و مدل ما در این دو معیار خوب نیست.

شکل 4: مقایسه CelebA-Test با رزولوشن فوق العاده صورت *4. GFP-GAN ما دندان های واقع گرایانه و جهت وفادار نگاه چشم را بازیابی می کند.

نتایج کیفی در شکل 3 و شکل 4 ارائه شده است. 1) با تشکر از مولد چهره قبلی قدرتمند ، GFPGAN ما جزئیات وفادار را در چشم ها (مردمک ها و مژه ها) ، دندان ها و غیره بازیابی می کند. 2) روش ما ترمیم چهره به طور کامل انجام می دهد و همچنین می تواند موهای واقع گرایانه ایجاد کند ، در حالی که روش های قبلی که به دیکشنری های مولفه (DFDNet) یا نقشه های تجزیه (PSFRGAN) متکی هستند ، نمی توانند موهای موثقی تولید کنند (ردیف دوم ، شکل 3). 3) GFP-GAN توانایی حفظ وفاداری را دارد ، به عنوان مثال ، دهان بسته طبیعی و بدون افزودن اجباری دندان مانند PSFRGAN تولید می کند (ردیف 2 ، شکل 3). و در شکل 4 ، GFP-GAN جهت معقول نگاه چشم را نیز بازیابی می کند.

LFW ، CelebChild و WedPhoto-Test در دنیای واقعی. برای آزمایش توانایی تعمیم ، مدل خود را در سه مجموعه داده مختلف در دنیای واقعی ارزیابی می کنیم. نتایج کمی در جدول 3 نشان داده شده است. GFP-GAN ما در هر سه مجموعه داده در دنیای واقعی به عملکردی برتر دست می یابد که قابلیت تعمیم چشمگیر آن را نشان می دهد. اگرچه PULSE می تواند کیفیت ادراکی بالایی نیز کسب کند (نمرات FID پایین تر) ، اما نمی تواند هویت چهره را حفظ کند همانطور که در شکل 5 نشان داده شده است.

مقایسه های کیفی در شکل 5 نشان داده شده است. GFPGAN می تواند به طور مشترک ترمیم چهره و تقویت رنگ را برای عکس های واقعی با استفاده از مولد قبلی قدرتمند انجام دهد. روش ما می تواند چهره های قابل قبول و واقع گرایانه ای را در تخریب پیچیده دنیای واقعی ایجاد کند در حالی که سایر روش ها موفق به بازیابی جزئیات صورت وفادار یا تولید مصنوعات نمی شوند (به خصوص در WebPhoto-Test در شکل 5). علاوه بر اجزای مشترک صورت مانند چشم و دندان ، GFP-GAN در موها و گوش ها نیز عملکرد بهتری دارد ، زیرا GFP قبل از آن تمام صورت را در نظر می گیرد نه قسمت های جداگانه. با لایه های SC-SFT ، مدل ما توانایی دستیابی به وفاداری بالا را دارد. همانطور که در ردیف آخر شکل 5 نشان داده شده است ، بیشتر روشهای قبلی در بازیابی چشمهای بسته موفق نیستند ، در حالی که ما می توانستیم آنها را با استفاده از مصنوعات کمتر با موفقیت بازیابی کنیم.

4-3- مطالعات فرسایشی(ablation):

لایه های CS-SFT. همانطور که در جدول 4 [پیکربندی a] و شکل 6 نشان داده شده است ، وقتی لایه های مدولاسیون فضایی را حذف می کنیم ، یعنی فقط نقشه کد پنهان را بدون اطلاعات فضایی حفظ می کنیم ، چهره های بازیابی شده حتی با loss حفظ هویت هم نمی توانند هویت چهره را حفظ کنند (امتیاز LIPS بالا و Deg بزرگ .) بنابراین ، ویژگی های فضایی چند وضوح مورد استفاده در لایه های CS-SFT برای حفظ وفاداری بسیار حیاتی است. وقتی لایه های CS-SFT را به لایه های ساده SFT تغییر می دهیم [پیکربندی b در جدول 4] ، مشاهده خواهیم کرد که 1) کیفیت ادراکی در تمام معیارها تخریب می شود و 2)هویت قویتر (Deg کوچکتر) را حفظ می کند، همانطور که ویژگی های تصویر ورودی نفوذ را به همه ویژگی های مدوله شده و بایاس خروجی را به ورودی های تخریب شده تحمیل کند، بنابراین منجر به کاهش کیفیت ادراکی می شود. در مقابل ، لایه های CSSFT با مدوله کردن تقسیم ویژگی ها تعادل خوبی از واقعیت و وفاداری را ایجاد می کنند.

GAN آموزش دیده به عنوان GFP. GAN آموزش دیده امکانات غنی و متنوعی را برای ترمیم فراهم می کند. چنانچه در جدول 4 [پیکربندی c] و شکل 6 نشان داده شده است ، اگر از مولد صورت قبلی استفاده نکنیم ، افت عملکرد مشاهده می شود.

loss ترمیم هرمی. loss ترمیم هرمی در ماژول حذف تخریب استفاده می شود و توانایی ترمیم را برای تخریب پیچیده در دنیای واقعی تقویت می کند. بدون این نظارت میانی ، ممکن است ویژگی های فضایی با وضوح چندگانه برای مدولاسیون های بعدی همچنان تخریب شده و در نتیجه عملکرد پایین تری داشته باشد ، همانطور که در جدول 4 [پیکربندی d] و شکل 6 نشان داده شده است.

شکل 6: مطالعات فرسایش روی لایه های CS-SFT و GFP prior و loss ترمیم هرم.

loss اجزای صورت. ما نتایج 1) حذف همه loss اجزای صورت ، 2) فقط حفظ تفکیک کننده های اجزا ، 3) اضافه کردن loss تطبیق ویژگی های اضافی مانند [62] ، و 4) اتخاذ سبک اضافی loss سبک بر اساس آمار گرم را مقایسه می کنیم. در شکل 7 نشان داده شده است که تقکیک کننده های اجزا با اloss سبک ویژگی می توانند توزیع چشم را بهتر به دست آورند و جزئیات قابل قبول را بازیابی کنند.

شکل 7: مطالعات فرسایش در مورد loss اجزای صورت.

4-4- بحث و محدودیت ها:

بایاس آموزش. روش ما در اکثر چهره های دارای پوست خشک و گروههای مختلف جمعیتی عملکرد مطلوبی دارد (شکل 8) ، زیرا روش ما از هر دو ویژگی GAN آموزش دیده و تصویر ورودی برای مدولاسیون استفاده می کند. علاوه بر این ، ما از loss بازسازی و loss هویت برای محدود کردن خروجی ها برای حفظ وفاداری براساس ورودی ها استفاده می کنیم. با این حال ، هنگامی که تصاویر ورودی در مقیاس خاکستری هستند ، رنگ چهره ممکن است دارای یک سوگیری باشد (مثال آخر در شکل 8) ، زیرا ورودی ها حاوی اطلاعات رنگ کافی نیستند. بنابراین ، یک مجموعه داده متنوع و متعادل مورد نیاز است.

شکل 9: محدودیت های مدل ما. نتایج PSFRGAN نیز ارائه شده است.

محدودیت ها. همانطور که در شکل 9 نشان داده شده است ، هنگامی که تخریب تصاویر واقعی شدید است ، جزئیات صورت بازسازی شده توسط GFPGAN با مصنوعات پیچیده می شود. روش ما همچنین برای ژست های بسیار بزرگ نتایج غیرطبیعی ایجاد می کند. این به این دلیل است که تخریب مصنوعی و توزیع داده های آموزشی با آنچه در دنیای واقعی اتفاق می افتد متفاوت است. یک راه ممکن این است که به جای استفاده از داده های مصنوعی ، که به عنوان کار آینده باقی مانده است ، توزیع ها را از داده های واقعی یاد بگیریم.

5- نتیجه:

ما چارچوب GFP-GAN را پیشنهاد کرده ایم که از مولد چهره قبلی(prior) غنی و متنوع برای انجام کار ترمیم صورت نابینا استفاده می کند.

این prior با استفاده از لایه های تبدیل ویژگی فضایی تقسیم شده در کانال ، به ما امکان می دهد تا به تعادل خوبی از واقعیت و وفاداری دست یابیم. مقایسه های گسترده توانایی برتر GFP-GAN را در ترمیم صورت مفصل و تقویت رنگ برای تصاویر در دنیای واقعی نشان می دهد و از پیشرفت های قبلی بهتر عمل می کن

ممنو ن بابت وقتی که گذاشتید تا ببینید اونقد که من جَو دادم خفن هست یا نه:)

اما بریم سراغ لینک هایی که باید براتون بذارم:

دانلود مقاله نسخه اول:

https://arxiv.org/abs/2101.04061v1

دانلود مقاله نسخه نهایی:

https://arxiv.org/abs/2101.04061

گیتهاب:

https://github.com/TencentARC/GFPGAN

دانلود فایل ترجمه:

https://bayanbox.ir/download/3839606304795306494/%D8%AA%D8%B1%D8%AC%D9%85%D9%87-%D9%85%D9%82%D8%A7%D9%84%D9%87-GFPGAN.pdf

خوشحال میشم نظراتتون درباره این مقاله رو با من به اشتراک بذارید :)

پردازش تصویر

مهدی رحمانی

HiddenCluster.ir

شاید از این پست‌ها خوشتان بیاید