فراتر از SPADE: معرفی نرمال‌سازی انطباقی با منطقه معنایی برای سنتز تصویر

منتشرشده در: syncedreview به تاریخ ۱۱ فوریه ۲۰۲۰
نویسنده: Mos Zhang
لینک مقاله اصلی: https://link.medium.com/iP9vEvTE13

این مقاله با ربات ترجمه متن علمی ترجمیار به صورت خودکار و با حداقل بازبینی ترجمه شده است.

سنتز تصویر یک موضوع بسیار مورد توجه در هوش مصنوعی است. با وجود رسوایی‌های دیپ‌فیک که این تکنولوژی را بدخواهانه برای تولید کلیپ‌های ویدیویی غیراخلاقی و دیگر کلیپ های ویدیویی گمراه‌کننده انتخاب کرده است، ترکیب تصویر پیشرفته به عنوان یک حوزه تحقیقاتی پر جنب و جوش با طیف وسیعی از مزایا و کاربردهای بالقوه برای شرکت‌های بی شماری که از فن‌آوری‌های بینایی کامپیوتری استفاده می‌کنند، ظهور کرده‌است.

چالش «واقعی کردن» هرچه‌بیشتر یک تصویر «جعلی»، محققان یادگیری ماشین در سراسر جهان را به خود جذب کرده است. رایج‌ترین روش برای سنتز تصاویر واقع‌گرا با یک طرح معنایی ورودی، نرمال سازی فضایی - تطبیقی است (SPADE، که به عنوان GauGAN نیز شناخته می‌شود). با این حال، تولید SPADE تنها به یک سبک برای هر تصویر محدود می‌شود. این می‌تواند مشکل باشد اگر برای مثال سبک‌های خروجی مختلف برای عناصر ترکیبی مختلف تصویر مطلوب باشند. همچنین، مطالعات اخیر نشان می‌دهد که وارد کردن اطلاعات سبک از طریق لایه‌های چندگانه یک شبکه منجر به تصاویر با کیفیت بالاتر می‌شود. بنابراین اعتقاد بر این است که معماری SPADE، که تنها اطلاعات سبک خود را در آغاز پردازش شبکه وارد می‌کند، می‌تواند بهبود یابد.

در تلاشی برای رفع کاستی‌های SPADE و افزایش کارایی، پیهاو ژوهای و همکارانش از دانشگاه علم و فن‌آوری ملک عبدالله در عربستان‌سعودی و دانشگاه کاردیف بریتانیا اخیرا نرمال‌سازی سازشی منطقه معنایی (SEAN) را معرفی کردند، یک بلوک ساده اما موثر برای ایجاد شبکه‌های مولد تخاصمی مشروط (cGAN).

نرمال‌سازی سازشی منطقه معنایی بر روی ماسک‌های بخش‌بندی شرطی شده‌است که مناطق معنایی در تصویر خروجی مطلوب را توصیف می‌کنند. با استفاده از نرمال سازی SEAN، یک معماری شبکه می‌تواند برای کنترل سبک هر منطقه معنایی به صورت جداگانه ساخته شود.

شبکه مولد SEAN بر روی SPADE ساخته شده‌است و شامل سه لایه شبکه کانولوشنی با اریبی‌ها و مقیاس‌های آن‌ها است که به طور جداگانه توسط بلوک‌های SEAN تنظیم شده‌اند. در هر بلوک SEAN دو ورودی وجود دارد: مجموعه کدهای سبک برای مناطق خاص، و یک ماسک معنایی که مناطق را برای اعمال کد سبک تعریف می‌کند.

فرآیند آموزش به عنوان یک مساله بازسازی تصویر تدوین شد. منطقه تصویر ابتدا توسط ماسک‌های بخش بندی تعریف می‌شود و توسط کدگذار سبک تصفیه می‌شود. سپس شبکه ژنراتور کل تصویر را با «اضافه کردن» مناطق تصویر جداگانه بازسازی می‌شود. برای اهداف تنظیم و بهینه‌سازی پارامتر، تابع زیان شامل سه عبارت اصلی است: زیان قید شرطی، زیان تطبیق ویژگی و زیان ادراکی.

مقایسه بصری نتایج سنتز تصویر معنایی
مقایسه بصری نتایج سنتز تصویر معنایی
مقایسه کمی کیفیت بازسازی
مقایسه کمی کیفیت بازسازی
مقایسه کمی با استفاده از تقسیم‌بندی معنایی
مقایسه کمی با استفاده از تقسیم‌بندی معنایی

محققان SEAN را با مدل‌های سنتز تصویر معناییPix2PixHD، و SPADE را در مجموعه داده‌های CelebAMask-HQ، CityScapes، ADE۲۰K، و مجموعه داده‌های صحنه مقایسه کرده‌اند. در مقایسه کمّی با استفاده از عملکرد بخش‌بندی معنایی اندازه‌گیری شده توسط mIoU و دقت، و عملکرد تولید اندازه‌گیری شده توسط FID، ژنراتور SEAN کیفیت بصری بالاتر، همچنین کیفیت بازسازی و تغییرپذیری بالاتر را در مقایسه با روش‌های دیگر در تمام مجموعه داده‌ها نشان داد.

این مقاله با ربات ترجمه متن علمی ترجمیار به صورت خودکار و هوشمند و با حداقل بازبینی ترجمه شده است.