محمدجواد عباسی
محمدجواد عباسی
خواندن ۱۱ دقیقه·۲ سال پیش

تقویت ضمنی معنایی داده‌ها برای شبکه‌های عمیق

مقدمه:

در این مقاله، ما یک رویکرد جدید با نام تقویت داده معنایی ضمنی (ISDA)، به منظور تکمیل تکنیک‌های تقویت سنتی مانند چرخش، انتقال یا معکوس کردن پیشنهاد می‌کنیم. ایده روش پیشنهادی از این خاصیت جذاب نشات گرفته است که شبکه‌های عمیق به طرز شگفت‌آوری در خطی‌سازی ویژگی‌ها خوب هستند، به طوری که جهت‌های خاص در فضای ویژگی عمیق با دگرگونی‌های معنایی معناداری، نظیر افزودن عینک آفتابی یا تغییر پس‌زمینه، مطابقت یا ارتباط دارند. درنتیجه، تغییر نمونه‌های آموزشی در امتداد بسیاری از جهت‌های معنایی در فضای ویژگی می‌تواند مجموعه داده را به منظور بهبود قدرت تعمیم به طور موثری تقویت کند. به منظور اجرای موثر و کارآمد این ایده، ابتدا یک تخمین آنلاین از ماتریس کوواریانس ویژگی‌های عمیق مربوط به هر کلاس انجام می‌دهیم که تغییرات معنایی درون کلاسی را نشان می‌دهد. سپس بردارهای تصادفی از یک توزیع نرمال با میانگین صفر و با کوواریانس تخمین زده شده به منظور افزایش داده های آموزشی در آن کلاس استخراج می شوند. مهمتر آنکه به جای افزایش صریح نمونه‌ها، می توانیم به طور مستقیم یک حد بالایی از تابع هزینه آنتروپی متقاطع (CE) را در مجموعه آموزشی تقویت شده به حداقل برسانیم که منجر به الگوریتم بسیار کارآمدی می‌شود. در واقع، ما نشان می‌دهیم که روش پیشنهادی به مثابه کمینه کردن یک تابع هزینه آنتروپی متقاطع (CE) جدید و مقاوم است که هزینه محاسباتی اضافی ناچیزی را به یک روش آموزشی عادی اضافه می‌کند.

مسئله:

افزایش یا تقویت داده‌ها یک تکنیک موثر برای کاهش مشکل بیش‌برازش در آموزش شبکه های عمیق است. در زمینه تشخیص تصویر، تقویت داده‌ها معمولاً با اعمال دگرگونی‌هایی نظیر برش، آینه‌سازی افقی، چرخش و لرزش رنگ در نمونه‌های ورودی که محتوای تصاویر را حفظ می‌کنند مطابقت دارد. اگرچه این تکنیک‌ها مؤثر هستند، اما قادر به انجام دگرگونی‌های معنایی، مانند تغییر پس‌زمینه یک شی یا بافت یک شی پیش‌زمینه نیستند.کارهای اخیر نشان دادند که در صورت مجاز بودن تبدیل‌های معنایی (با حفظ هویت معنایی)، افرایش داده‌ها می‌تواند تاثیرگذارتر باشد. به عنوان مثال، با آموزش یک شبکه مولد تخاصمی (GAN) برای هر کلاس در مجموعه آموزشی، می‌توان تعداد بی‌نهایت نمونه را از مولد نمونه برداری کرد. متاسفانه این روش از نظر محاسباتی مقرون به صرفه نمی‌باشد، زیرا آموزش شبکه مولد و استفاده از آن به منظور تولید نمونه‌های افزوده، علاوه بر اینکه یک کار غیر ضروری است موجب طولانی شدن روند آموزش نیز خواهد شد. در این مقاله، ما یک الگوریتم جدید به نام تقویت داده معنایی ضمنی (IDSA)، به منظور آموزش شبکه‌های تشخیص تصویر عمیق پیشنهاد می‌کنیم. روش پیشنهادی بسیار کارآمد است زیرا نیازی به (1) آموزش یا استنتاج شبکه های کمکی یا (2) تولید صریح نمونه های آموزشی اضافی ندارد. ایده رویکرد ما از مشاهدات جالب انجام شده توسط کارهای اخیر نشات گرفته است که نشان می دهد ویژگی های عمیق در یک شبکه معمولاً خطی هستند. به طور خاص، جهات معنایی زیادی در فضای ویژگی عمیق وجود دارند، به طوری که ترجمه(تفسیر) یک نمونه داده در فضای ویژگی در امتداد یکی از این جهات منجر به نمایش ویژگی متناظر با نمونه دیگری با هویت کلاسی مشابه اما معنایی متفاوت می‌شود. به عنوان مثال، یک جهت خاص با ترجمه معنایی "عینک زدن" مطابقت دارد. هنگامی که ویژگی شخصی که عینک نمی‌زند، در این جهت ترجمه می‌شود، ویژگی جدید ممکن است با همان شخص اما با عینک مطابقت داشته باشد. بنابراین، با جستجوی بسیاری از این جهت‌های معنایی، می‌توانیم به طور موثری مجموعه آموزشی را به صورت مکمل با تکنیک های سنتی افزایش داده تقویت کنیم. یافتن صریح جهت‌های معنایی یک کار بدیهی و پیش پا افتاده نبوده و معمولاً به تفسیرهای انسانی گسترده نیاز دارد. در طرف مقابل، نمونه‌برداری از جهت‌ها به صورت تصادفی کارآمد است اما ممکن است منجر به تبدیل‌های بی‌معنی شود. به عنوان مثال، اعمال تغییر شکل "عینک زدن" در کلاس "ماشین" بی معنی است. در این مقاله، ما یک روش ساده را اتخاذ می‌کنیم که تعادل خوبی بین اثربخشی و کارایی ایجاد می کند. به طور خاص، ما یک تخمین آنلاین از ماتریس کوواریانس ویژگی‌ها برای هر کلاس انجام می‌دهیم که تغییرات درون کلاسی را نشان می‌دهد. سپس جهت‌ها را از یک توزیع نرمال چند متغیره (صفر-میانگین) با کوواریانس تخمین زده نمونه‌برداری می‌کنیم و آن‌ها را به ویژگی‌های نمونه‌های آموزشی در آن کلاس برای تقویت مجموعه داده اعمال می‌کنیم. به این ترتیب می توان شانس ایجاد دگرگونی های معنایی بی معنی را به میزان قابل توجهی کاهش داد. برای بهبود بیشتر کارایی، ما یک حد بالا به شکل بسته از تابع هزینه آنتروپی متقاطع(CE) استخراج کرده و به همراه روش پیشنهادی ارائه می‌دهیم. بنابراین، به جای اجرای صریح روش افزایش، می‌توانیم به طور مستقیم حد بالایی را به حداقل برسانیم که در واقع یک تابع هزینه قوی جدید است. از آنجایی که نیازی به تولید نمونه داده های صریح نیست، الگوریتم خود را تقویت داده معنایی ضمنی (ISDA) می نامیم. در مقایسه با سایر روش‌های تقویت داده معنایی موجود، روش پیشنهادی می‌تواند به راحتی در اکثر مدل‌های عمیق، بدون معرفی مدل‌های کمکی یا هزینه محاسباتی اضافی قابل توجه، پیاده‌سازی شود. روش پیشنهادی با وجود سادگی، به طور شگفت‌انگیزی موثر بوده و تکنیک‌های تقویت داده‌های غیر معنایی موجود (تکنیک‌های تقویت داده کلاسیک) را به خوبی تکمیل می‌کند.

روش پیشنهادی:

برتری شبکه‌های عمیق در تشکیل نمایش‌های سطح بالا در فضای ویژگی عمیق، جایی که روابط معنایی بین نمونه‌ها را می‌توان با موقعیت‌های نسبی ویژگی‌های آن‌ها دریافت کرد، شناخته شده است. کارهای قبلی نشان دادند که ترجمه ویژگی‌ها در جهت‌های خاص با تبدیل‌های معنایی معنادار، زمانی که ویژگی‌ها به فضای ورودی نگاشت می‌شوند، مطابقت دارد. بر اساس این مشاهدات، ما پیشنهاد می‌کنیم که مستقیماً داده‌های آموزشی را در فضای ویژگی افزایش داده و این رویه را در آموزش مدل‌های عمیق ادغام کنیم. روش تقویت داده معنایی ضمنی(ISDA) پیشنهاد شده دارای دو مولفه‌ی مهم است، یعنی (1) تخمین آنلاین ماتریس‌های کوواریانس شرطی مربوط هر کلاس و (2) بهینه‌سازی با یک تابع هزینه قدرتمند. هدف مؤلفه اول یافتن توزیعی است که از آن بتوانیم جهت‌های تبدیل معنایی معنادار را برای تقویت داده‌ها نمونه‌برداری کنیم. در حالی که مولفه دوم ما را از تولید صریح مقدار زیادی داده آموزشی اضافی نجات می‌دهد که این امر منجر به کارایی قابل‌توجه روش پیشنهادی در مقایسه با تکنیک‌های تقویت داده‌ موجود می‌شود.

1 – 3: تحولات معنایی در فضای ویژگی عمیق:

همانطور که قبلاً ذکر شد، جهت‌های خاصی در فضای ویژگی عمیق با دگرگونی‌های معنایی معنی‌داری مانند «ساخت عینک» یا «تغییر زاویه دید» مطابقت دارند. این به ما انگیزه داد تا مجموعه آموزشی را با اعمال چنین تحولات معنایی روی ویژگی های عمیق تقویت کنیم. با این حال، جستجوی دستی برای جهت های معنایی برای مسائل در مقیاس بزرگ غیرممکن است. برای حل این مشکل، ما پیشنهاد می کنیم که این پروسه را با نمونه برداری از بردارهای تصادفی از یک توزیع نرمال با میانگین صفر و یک کوواریانس که متناسب با ماتریس کوواریانس درون کلاسی است، تقریب بزنیم. درواقع، این ماتریس کواریانس درون کلاسی، واریانس نمونه‌ ها در آن کلاس را نشان داده و لذا احتمال دارد که حاوی اطلاعات معنایی غنی‌ای ‌باشد. به طور شهودی، ویژگی‌های کلاس شخص ممکن است در جهت «عینک زدن» متفاوت باشد، در حالی که واریانس تقریباً صفر در امتداد جهت «دارای پروانه» وجود دارد که فقط برای کلاس‌های دیگر مانند کلاس هواپیما رخ می‌دهد. ما امیدواریم که جهت‌ های مربوط به تبدیل‌ های معنی دار برای هر کلاس به خوبی توسط مؤلفه های اصلی ماتریس کوواریانس آن کلاس نشان داده شود.

آموزش یک شبکه‌ ی عمیق G با یک سری مجموعه پارامتر، بر روی مجموعه داده D را در نظر بگیرید که در آن yi برچسب داده‌ی i-ام می‌باشد. فرض کنید بردار A بعدی ai نشان دهنده‌ی ویژگی‌های عمیق مربوط به داده‌ی xi است که توسط شبکه‌ی G آموخته شده است. برای بدست آوردن جهات معنایی به منظور تقویت ai ، بردارها را به طور تصادفی از یک توزیع نرمال چندمتغیره با میانگین صفر نمونه‌برداری می‌کنیم. در طول آزمایش، C عدد ماتریس کواریانس (برای هر کلاس یک ماتریس) محاسبه می‌شود. در نتیجه خواهیم داشت:

رابطه 1
رابطه 1

در این رابطه، لامبدا یک ضریب مثبت برای کنترل قدرت افزایش داده‌های معنایی است.

از آنجایی که کواریانس ها در طول آموزش و به صورت پویا محاسبه می‌شوند، تخمین در چند دوره اول، زمانی که شبکه به خوبی آموزش ندیده است، کاملا آموزنده نیست. برای حل این مسئله، اجازه می‌دهیم لامبدا تابعی از تکرار فعلی و یا t باشد (رابطه 2). بنابراین تاثیر کواریانس تخمین زده شده روی الگوریتم ارائه شده در مراحل اولیه آموزش کاهش می‌یابد.

رابطه 2
رابطه 2
2 – 3: تقویت داده معنایی ضمنی (IDSA):

یک روش ساده برای پیاده سازی ISDA این است که صریحاً هر ai را برای M بار افزایش دهیم و یک مجموعه ویژگی تقویت شده با اندازه‌ی MN و به صورت زیر تشکیل دهیم.

مجموعه داده جدید
مجموعه داده جدید

در ادامه، شبکه را با به حداقل رساندن خطای آنتروپی متقاطع (CE) آموزش دهیم که خواهیم داشت:

رابطه 3
رابطه 3

بدیهی است که این پیاده سازی از نظر محاسباتی (زمانی که M بزرگ باشد) بسیار ناکارآمد است، زیرا مجموعه ویژگی‌های موجود M برابر بزرگتر می‌شود. در ادامه این مورد را بررسی کردیم که M تا بی‌نهایت رشد کند و متوجه شدیم یک کران بالا برای تابع هزینه موجود قابل محاسبه است که منجر به اجرای بسیار کارآمد الگوریتم ISDA می‌شود.

باند بالای تابع هزینه:

زمانی که M به بی‌نهایت میل می‌کند، ما در واقع امید ریاضی تابع خطای آنتروپی متقاطع را تحت تمام ویژگی‌های افزایش یافته‌ی ممکن، درنظر می‌گیریم.

رابطه 4
رابطه 4

اگر بتوان L ( L-بینهایت ) را به صورت موثر و کارا محاسبه کرد، آنگاه می‌توانیم آن را مستقیماً و بدون نمونه‌برداری صریح از ویژگی‌های تقویت شده به حداقل برسانیم. اما، محاسبه‌ی معادله‌ی 4 در فرم دقیق آن سخت و دشوار است. در عوض، ما دریافتیم که با استفاده از گزاره 1، می‌توان یک کران بالای قابل محاسبه برای L-بینهایت بدست آورد.

گزاره یک:

فرض کنید تقریب a را به صورت توزیع نرمال و به صورت زیر درنتظر بگیریم، در این صورت ما یک کران بالا برای L-بینهایت خواهیم داشت که به فرم زیر است:

رابطه 5
رابطه 5
اثبات:

بر اساس رابطه 4 و تعریف L-بینهایت داریم:

رابطه 6،7 و 8
رابطه 6،7 و 8

در اثبات بالا، در رابطه 7، از نامساوی جنسون استفاده شده که داریم: E[log X] ≤ log E[X]. همچنین در رابطه 8، از تابع تولید گشتاور استفاده کردیم.

اساساً گزاره یک، یک تابع هزینه جایگذین برای الگوریتم تقویت داده ضمنی ما ارائه می‌دهد که به جای به حداقل رساندن تابع هزینه L-بینهایت، کران بالا آن را به روشی بسیار کارآمدتر بهینه می‌کند. بنابراین، روش پیشنهادی (ISDA) به یک تابع هزینه جدید و بسیار قدرتمند تبدیل (فرموله) می‌شود که به راحتی توسط اکثر مدل‌های عمیق قابل استفاده می‌باشد. بعلاوه، در رابطه‌ی 8، اگر لامبدا به صفر میل کند به این معنی است که هیچ ویژگی افزایش نمی‌یابد، درنتیجه تابع هزینه‌ی پیشنهادی به تابع هزینه آنتروپی متقاطع (CE) کاهش می‌یابد.

بررسی نتایج:

در این قسمت روش پیسنهادی را به صورت عملی و بر روی چند سری مجموعه داده (CIFAR-10, CIFAR-100, ImageNet) که به منظور دسته بندی مورد استفاده قرار می‌گیرند بررسی می‌کنیم.

در آزمایش اول، تاثیر ISDA را بر روی معماری های مختلف و بر روی مجموعه داده متفاوت مورد بررسی قرار می‌دهیم. در آزمایش دوم، نتایج حاصل از جدیدترین روش‌های تقویت تصویر غیر معنایی را مورد ارزیابی قرار می‌دهیم. در واقع، عملکرد حالت استاندارد این روش‌ها را با حالتی که از تابع هزینه ISDA استفاده می‌کنند مقایسه می‌کنیم. در آزمایش سوم، مقایسه‌هایی را میان تابع هزینه‌ی ISDA و توابع هزینه قدرتمند موجود (مانند Focal loss, Center loss) و الگوریتم‌های تقویت داده معنایی مبتنی بر مولد را ارائه می‌کنیم.

آزمایش اول:

در این آزمایش می‌خواهیم تاثیر استفاده از تابع هزینه‌ی ISDA، بر روی معماری‌های مختلف را مورد ارزیابی قرار دهیم. به این منظور از نسخه‌های مختلف شبکه‌های ResNet، DenseNet و ResNeXt استفاده کردیم که نتایج آن در جدول 1 ذکر شده است.

جدول یک
جدول یک

با توجه به نتایج جدول 1، همان گونه که انتظار داشتیم، استفاده از تابع هزینه‌ی ISDA موجب بهبود نتایج معماری‌های مختلف شده است. به عنوان مثال، استفاده از تابع هزینه ISDA بر روی شبکه‌ی ResNet-50 موجب بهبود معیار top-1 error rate به میزان 1.1% شده است. این بهبود نتیجه برای سایر معماری ها نیز صادق است. لازم به ذکر است که در این آزمایش از مجموعه داده‌ی ImageNet استفاده شده است.

آزمایش دوم:

این آزمایش به منظور بررسی تاثر روش ISDA بر روی روش‌های تقویت تصویر غیر معنایی، به عنوان روش مکمل طراحی شده است. برای این منظور از دو تا از جدیدترین روش‌های تقویت داده غیر معنایی (سنتی)، با نام‌های Cutout و AutoAugment، استفاده کردیم. در این آزمایش، خروجی عادی این دو روش‌ با حالتی که از روش ISDA به عنوان روش مکمل استفاده می‌کند مقایسه شده و نتایج حاصل از آن در جدول 2 قابل مشاهده می‌باشد.

جدول دوم
جدول دوم

همان گونه که از جدول 2 مشخص است، استفاده از الگوریتم ISDAبه عنوان مکمل برای روش‌های تقویت داده غیر معنایی موجب بهبود عملکرد می‌شود. همان گونه که از جدول بالا مشخص است، در تمام حالت‌ها، استفاده از ISDA به عنوان روش مکمل موجب بهبود عملکرد روش‌های سنتی شده که در جدول به صورت پررنگ نمایش داده شده است.

آزمایش سوم:

در این آزمایش، نتایج حاصل از روش ISDA که به فرم یک تابع هزینه‌ فرموله شده است را با یک سری توابع هزینه‌ی قدرتمند مانند Focal loss، Center loss و Lq-Loss مقایسه می‌کنیم. همچنین نتایج حاصل را با الگوریتم‌های تقویت داده معنایی مبتنی بر مولد مانند CGAN، ACGAN و infoGAN مقایسه می‌کنیم. نتایج حاصل از این مقایسه در جدول 3 قابل مشاهده است:

جدول سوم
جدول سوم

همان گونه از جدول 3 مشخص است، روش IDSA در مقایسه با جدیدترین توابع هزینه‌ی موجود به نتایج بهتری بر روی هر دو مجموعه داده CIFAR10 و CIFAR100 دست یافته است. همچنین این روش در مقایسه با روش‌های مولد که در واقع یک نوع روش تقویت داده معنایی محسوب می‌شوند به نتایج بهتری و در زمان کمتری دست یافته است. درواقع، روش ISDA از نظر محاسباتی مقرون به صرفه تر از روش‌های مولد می‌باشد زیرا همان گونه که در بخش‌های قبل توضیح دادیم این روش به تولید صریح نمونه‌ها، به منظور آموزش شبکه، نیازی نخواد داشت.

نتیجه گیری:

در این مقاله، ما یک الگوریتم تقویت داده معنایی ضمنی کارآمد(ISDA) را برای تکمیل تکنیک‌های تقویت داده‌ موجود پیشنهاد کردیم. متفاوت از رویکردهای موجود که از مدل‌های مولد برای تقویت مجموعه آموزشی با نمونه‌های تغییر شکل یافته معنایی استفاده می‌کنند، رویکرد ما بسیار کارآمدتر و پیاده‌سازی آن آسان‌تر است. در واقع، ما نشان دادیم کهISDA را می توان به عنوان یک تابع هزینه جدید و کارآمد به نحوی فرموله کرد که با هر شبکه عمیق که با تابع هزینه آنتروپی متقابل (CE) کار می‌کند سازگار باشد. نتایج گسترده بر روی چندین مجموعه داده که به منظور طبقه‌بندی مورد استفاده قرار می‌گیرند، اثربخشی و کارایی الگوریتم پیشنهادی را نشان می‌دهد.




تابع هزینه
شاید از این پست‌ها خوشتان بیاید