من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
فراتر از SPADE: معرفی نرمالسازی انطباقی با منطقه معنایی برای سنتز تصویر
منتشرشده در: syncedreview به تاریخ ۱۱ فوریه ۲۰۲۰
نویسنده: Mos Zhang
لینک مقاله اصلی: https://link.medium.com/iP9vEvTE13
این مقاله با ربات ترجمه متن علمی ترجمیار به صورت خودکار و با حداقل بازبینی ترجمه شده است.
سنتز تصویر یک موضوع بسیار مورد توجه در هوش مصنوعی است. با وجود رسواییهای دیپفیک که این تکنولوژی را بدخواهانه برای تولید کلیپهای ویدیویی غیراخلاقی و دیگر کلیپ های ویدیویی گمراهکننده انتخاب کرده است، ترکیب تصویر پیشرفته به عنوان یک حوزه تحقیقاتی پر جنب و جوش با طیف وسیعی از مزایا و کاربردهای بالقوه برای شرکتهای بی شماری که از فنآوریهای بینایی کامپیوتری استفاده میکنند، ظهور کردهاست.
چالش «واقعی کردن» هرچهبیشتر یک تصویر «جعلی»، محققان یادگیری ماشین در سراسر جهان را به خود جذب کرده است. رایجترین روش برای سنتز تصاویر واقعگرا با یک طرح معنایی ورودی، نرمال سازی فضایی - تطبیقی است (SPADE، که به عنوان GauGAN نیز شناخته میشود). با این حال، تولید SPADE تنها به یک سبک برای هر تصویر محدود میشود. این میتواند مشکل باشد اگر برای مثال سبکهای خروجی مختلف برای عناصر ترکیبی مختلف تصویر مطلوب باشند. همچنین، مطالعات اخیر نشان میدهد که وارد کردن اطلاعات سبک از طریق لایههای چندگانه یک شبکه منجر به تصاویر با کیفیت بالاتر میشود. بنابراین اعتقاد بر این است که معماری SPADE، که تنها اطلاعات سبک خود را در آغاز پردازش شبکه وارد میکند، میتواند بهبود یابد.
در تلاشی برای رفع کاستیهای SPADE و افزایش کارایی، پیهاو ژوهای و همکارانش از دانشگاه علم و فنآوری ملک عبدالله در عربستانسعودی و دانشگاه کاردیف بریتانیا اخیرا نرمالسازی سازشی منطقه معنایی (SEAN) را معرفی کردند، یک بلوک ساده اما موثر برای ایجاد شبکههای مولد تخاصمی مشروط (cGAN).
نرمالسازی سازشی منطقه معنایی بر روی ماسکهای بخشبندی شرطی شدهاست که مناطق معنایی در تصویر خروجی مطلوب را توصیف میکنند. با استفاده از نرمال سازی SEAN، یک معماری شبکه میتواند برای کنترل سبک هر منطقه معنایی به صورت جداگانه ساخته شود.
شبکه مولد SEAN بر روی SPADE ساخته شدهاست و شامل سه لایه شبکه کانولوشنی با اریبیها و مقیاسهای آنها است که به طور جداگانه توسط بلوکهای SEAN تنظیم شدهاند. در هر بلوک SEAN دو ورودی وجود دارد: مجموعه کدهای سبک برای مناطق خاص، و یک ماسک معنایی که مناطق را برای اعمال کد سبک تعریف میکند.
فرآیند آموزش به عنوان یک مساله بازسازی تصویر تدوین شد. منطقه تصویر ابتدا توسط ماسکهای بخش بندی تعریف میشود و توسط کدگذار سبک تصفیه میشود. سپس شبکه ژنراتور کل تصویر را با «اضافه کردن» مناطق تصویر جداگانه بازسازی میشود. برای اهداف تنظیم و بهینهسازی پارامتر، تابع زیان شامل سه عبارت اصلی است: زیان قید شرطی، زیان تطبیق ویژگی و زیان ادراکی.
محققان SEAN را با مدلهای سنتز تصویر معناییPix2PixHD، و SPADE را در مجموعه دادههای CelebAMask-HQ، CityScapes، ADE۲۰K، و مجموعه دادههای صحنه مقایسه کردهاند. در مقایسه کمّی با استفاده از عملکرد بخشبندی معنایی اندازهگیری شده توسط mIoU و دقت، و عملکرد تولید اندازهگیری شده توسط FID، ژنراتور SEAN کیفیت بصری بالاتر، همچنین کیفیت بازسازی و تغییرپذیری بالاتر را در مقایسه با روشهای دیگر در تمام مجموعه دادهها نشان داد.
این مقاله با ربات ترجمه متن علمی ترجمیار به صورت خودکار و هوشمند و با حداقل بازبینی ترجمه شده است.
مطلبی دیگر از این انتشارات
هنگام آموزش یک مدل-شما به آموزش، اعتباردهی و مجموعه دادههای Holdout نیاز خواهید داشت
مطلبی دیگر از این انتشارات
زیرساخت علوم داده خود را برای یادگیری عمیق ایجاد کنید
مطلبی دیگر از این انتشارات
چه کتابهایی در جهان بیشتر از همه ترجمه شدهاند؟