در این مقاله، ما یک رویکرد جدید با نام تقویت داده معنایی ضمنی (ISDA)، به منظور تکمیل تکنیکهای تقویت سنتی مانند چرخش، انتقال یا معکوس کردن پیشنهاد میکنیم. ایده روش پیشنهادی از این خاصیت جذاب نشات گرفته است که شبکههای عمیق به طرز شگفتآوری در خطیسازی ویژگیها خوب هستند، به طوری که جهتهای خاص در فضای ویژگی عمیق با دگرگونیهای معنایی معناداری، نظیر افزودن عینک آفتابی یا تغییر پسزمینه، مطابقت یا ارتباط دارند. درنتیجه، تغییر نمونههای آموزشی در امتداد بسیاری از جهتهای معنایی در فضای ویژگی میتواند مجموعه داده را به منظور بهبود قدرت تعمیم به طور موثری تقویت کند. به منظور اجرای موثر و کارآمد این ایده، ابتدا یک تخمین آنلاین از ماتریس کوواریانس ویژگیهای عمیق مربوط به هر کلاس انجام میدهیم که تغییرات معنایی درون کلاسی را نشان میدهد. سپس بردارهای تصادفی از یک توزیع نرمال با میانگین صفر و با کوواریانس تخمین زده شده به منظور افزایش داده های آموزشی در آن کلاس استخراج می شوند. مهمتر آنکه به جای افزایش صریح نمونهها، می توانیم به طور مستقیم یک حد بالایی از تابع هزینه آنتروپی متقاطع (CE) را در مجموعه آموزشی تقویت شده به حداقل برسانیم که منجر به الگوریتم بسیار کارآمدی میشود. در واقع، ما نشان میدهیم که روش پیشنهادی به مثابه کمینه کردن یک تابع هزینه آنتروپی متقاطع (CE) جدید و مقاوم است که هزینه محاسباتی اضافی ناچیزی را به یک روش آموزشی عادی اضافه میکند.
افزایش یا تقویت دادهها یک تکنیک موثر برای کاهش مشکل بیشبرازش در آموزش شبکه های عمیق است. در زمینه تشخیص تصویر، تقویت دادهها معمولاً با اعمال دگرگونیهایی نظیر برش، آینهسازی افقی، چرخش و لرزش رنگ در نمونههای ورودی که محتوای تصاویر را حفظ میکنند مطابقت دارد. اگرچه این تکنیکها مؤثر هستند، اما قادر به انجام دگرگونیهای معنایی، مانند تغییر پسزمینه یک شی یا بافت یک شی پیشزمینه نیستند.کارهای اخیر نشان دادند که در صورت مجاز بودن تبدیلهای معنایی (با حفظ هویت معنایی)، افرایش دادهها میتواند تاثیرگذارتر باشد. به عنوان مثال، با آموزش یک شبکه مولد تخاصمی (GAN) برای هر کلاس در مجموعه آموزشی، میتوان تعداد بینهایت نمونه را از مولد نمونه برداری کرد. متاسفانه این روش از نظر محاسباتی مقرون به صرفه نمیباشد، زیرا آموزش شبکه مولد و استفاده از آن به منظور تولید نمونههای افزوده، علاوه بر اینکه یک کار غیر ضروری است موجب طولانی شدن روند آموزش نیز خواهد شد. در این مقاله، ما یک الگوریتم جدید به نام تقویت داده معنایی ضمنی (IDSA)، به منظور آموزش شبکههای تشخیص تصویر عمیق پیشنهاد میکنیم. روش پیشنهادی بسیار کارآمد است زیرا نیازی به (1) آموزش یا استنتاج شبکه های کمکی یا (2) تولید صریح نمونه های آموزشی اضافی ندارد. ایده رویکرد ما از مشاهدات جالب انجام شده توسط کارهای اخیر نشات گرفته است که نشان می دهد ویژگی های عمیق در یک شبکه معمولاً خطی هستند. به طور خاص، جهات معنایی زیادی در فضای ویژگی عمیق وجود دارند، به طوری که ترجمه(تفسیر) یک نمونه داده در فضای ویژگی در امتداد یکی از این جهات منجر به نمایش ویژگی متناظر با نمونه دیگری با هویت کلاسی مشابه اما معنایی متفاوت میشود. به عنوان مثال، یک جهت خاص با ترجمه معنایی "عینک زدن" مطابقت دارد. هنگامی که ویژگی شخصی که عینک نمیزند، در این جهت ترجمه میشود، ویژگی جدید ممکن است با همان شخص اما با عینک مطابقت داشته باشد. بنابراین، با جستجوی بسیاری از این جهتهای معنایی، میتوانیم به طور موثری مجموعه آموزشی را به صورت مکمل با تکنیک های سنتی افزایش داده تقویت کنیم. یافتن صریح جهتهای معنایی یک کار بدیهی و پیش پا افتاده نبوده و معمولاً به تفسیرهای انسانی گسترده نیاز دارد. در طرف مقابل، نمونهبرداری از جهتها به صورت تصادفی کارآمد است اما ممکن است منجر به تبدیلهای بیمعنی شود. به عنوان مثال، اعمال تغییر شکل "عینک زدن" در کلاس "ماشین" بی معنی است. در این مقاله، ما یک روش ساده را اتخاذ میکنیم که تعادل خوبی بین اثربخشی و کارایی ایجاد می کند. به طور خاص، ما یک تخمین آنلاین از ماتریس کوواریانس ویژگیها برای هر کلاس انجام میدهیم که تغییرات درون کلاسی را نشان میدهد. سپس جهتها را از یک توزیع نرمال چند متغیره (صفر-میانگین) با کوواریانس تخمین زده نمونهبرداری میکنیم و آنها را به ویژگیهای نمونههای آموزشی در آن کلاس برای تقویت مجموعه داده اعمال میکنیم. به این ترتیب می توان شانس ایجاد دگرگونی های معنایی بی معنی را به میزان قابل توجهی کاهش داد. برای بهبود بیشتر کارایی، ما یک حد بالا به شکل بسته از تابع هزینه آنتروپی متقاطع(CE) استخراج کرده و به همراه روش پیشنهادی ارائه میدهیم. بنابراین، به جای اجرای صریح روش افزایش، میتوانیم به طور مستقیم حد بالایی را به حداقل برسانیم که در واقع یک تابع هزینه قوی جدید است. از آنجایی که نیازی به تولید نمونه داده های صریح نیست، الگوریتم خود را تقویت داده معنایی ضمنی (ISDA) می نامیم. در مقایسه با سایر روشهای تقویت داده معنایی موجود، روش پیشنهادی میتواند به راحتی در اکثر مدلهای عمیق، بدون معرفی مدلهای کمکی یا هزینه محاسباتی اضافی قابل توجه، پیادهسازی شود. روش پیشنهادی با وجود سادگی، به طور شگفتانگیزی موثر بوده و تکنیکهای تقویت دادههای غیر معنایی موجود (تکنیکهای تقویت داده کلاسیک) را به خوبی تکمیل میکند.
برتری شبکههای عمیق در تشکیل نمایشهای سطح بالا در فضای ویژگی عمیق، جایی که روابط معنایی بین نمونهها را میتوان با موقعیتهای نسبی ویژگیهای آنها دریافت کرد، شناخته شده است. کارهای قبلی نشان دادند که ترجمه ویژگیها در جهتهای خاص با تبدیلهای معنایی معنادار، زمانی که ویژگیها به فضای ورودی نگاشت میشوند، مطابقت دارد. بر اساس این مشاهدات، ما پیشنهاد میکنیم که مستقیماً دادههای آموزشی را در فضای ویژگی افزایش داده و این رویه را در آموزش مدلهای عمیق ادغام کنیم. روش تقویت داده معنایی ضمنی(ISDA) پیشنهاد شده دارای دو مولفهی مهم است، یعنی (1) تخمین آنلاین ماتریسهای کوواریانس شرطی مربوط هر کلاس و (2) بهینهسازی با یک تابع هزینه قدرتمند. هدف مؤلفه اول یافتن توزیعی است که از آن بتوانیم جهتهای تبدیل معنایی معنادار را برای تقویت دادهها نمونهبرداری کنیم. در حالی که مولفه دوم ما را از تولید صریح مقدار زیادی داده آموزشی اضافی نجات میدهد که این امر منجر به کارایی قابلتوجه روش پیشنهادی در مقایسه با تکنیکهای تقویت داده موجود میشود.
1 – 3: تحولات معنایی در فضای ویژگی عمیق:
همانطور که قبلاً ذکر شد، جهتهای خاصی در فضای ویژگی عمیق با دگرگونیهای معنایی معنیداری مانند «ساخت عینک» یا «تغییر زاویه دید» مطابقت دارند. این به ما انگیزه داد تا مجموعه آموزشی را با اعمال چنین تحولات معنایی روی ویژگی های عمیق تقویت کنیم. با این حال، جستجوی دستی برای جهت های معنایی برای مسائل در مقیاس بزرگ غیرممکن است. برای حل این مشکل، ما پیشنهاد می کنیم که این پروسه را با نمونه برداری از بردارهای تصادفی از یک توزیع نرمال با میانگین صفر و یک کوواریانس که متناسب با ماتریس کوواریانس درون کلاسی است، تقریب بزنیم. درواقع، این ماتریس کواریانس درون کلاسی، واریانس نمونه ها در آن کلاس را نشان داده و لذا احتمال دارد که حاوی اطلاعات معنایی غنیای باشد. به طور شهودی، ویژگیهای کلاس شخص ممکن است در جهت «عینک زدن» متفاوت باشد، در حالی که واریانس تقریباً صفر در امتداد جهت «دارای پروانه» وجود دارد که فقط برای کلاسهای دیگر مانند کلاس هواپیما رخ میدهد. ما امیدواریم که جهت های مربوط به تبدیل های معنی دار برای هر کلاس به خوبی توسط مؤلفه های اصلی ماتریس کوواریانس آن کلاس نشان داده شود.
آموزش یک شبکه ی عمیق G با یک سری مجموعه پارامتر، بر روی مجموعه داده D را در نظر بگیرید که در آن yi برچسب دادهی i-ام میباشد. فرض کنید بردار A بعدی ai نشان دهندهی ویژگیهای عمیق مربوط به دادهی xi است که توسط شبکهی G آموخته شده است. برای بدست آوردن جهات معنایی به منظور تقویت ai ، بردارها را به طور تصادفی از یک توزیع نرمال چندمتغیره با میانگین صفر نمونهبرداری میکنیم. در طول آزمایش، C عدد ماتریس کواریانس (برای هر کلاس یک ماتریس) محاسبه میشود. در نتیجه خواهیم داشت:
در این رابطه، لامبدا یک ضریب مثبت برای کنترل قدرت افزایش دادههای معنایی است.
از آنجایی که کواریانس ها در طول آموزش و به صورت پویا محاسبه میشوند، تخمین در چند دوره اول، زمانی که شبکه به خوبی آموزش ندیده است، کاملا آموزنده نیست. برای حل این مسئله، اجازه میدهیم لامبدا تابعی از تکرار فعلی و یا t باشد (رابطه 2). بنابراین تاثیر کواریانس تخمین زده شده روی الگوریتم ارائه شده در مراحل اولیه آموزش کاهش مییابد.
2 – 3: تقویت داده معنایی ضمنی (IDSA):
یک روش ساده برای پیاده سازی ISDA این است که صریحاً هر ai را برای M بار افزایش دهیم و یک مجموعه ویژگی تقویت شده با اندازهی MN و به صورت زیر تشکیل دهیم.
در ادامه، شبکه را با به حداقل رساندن خطای آنتروپی متقاطع (CE) آموزش دهیم که خواهیم داشت:
بدیهی است که این پیاده سازی از نظر محاسباتی (زمانی که M بزرگ باشد) بسیار ناکارآمد است، زیرا مجموعه ویژگیهای موجود M برابر بزرگتر میشود. در ادامه این مورد را بررسی کردیم که M تا بینهایت رشد کند و متوجه شدیم یک کران بالا برای تابع هزینه موجود قابل محاسبه است که منجر به اجرای بسیار کارآمد الگوریتم ISDA میشود.
زمانی که M به بینهایت میل میکند، ما در واقع امید ریاضی تابع خطای آنتروپی متقاطع را تحت تمام ویژگیهای افزایش یافتهی ممکن، درنظر میگیریم.
اگر بتوان L ( L-بینهایت ) را به صورت موثر و کارا محاسبه کرد، آنگاه میتوانیم آن را مستقیماً و بدون نمونهبرداری صریح از ویژگیهای تقویت شده به حداقل برسانیم. اما، محاسبهی معادلهی 4 در فرم دقیق آن سخت و دشوار است. در عوض، ما دریافتیم که با استفاده از گزاره 1، میتوان یک کران بالای قابل محاسبه برای L-بینهایت بدست آورد.
گزاره یک:
فرض کنید تقریب a را به صورت توزیع نرمال و به صورت زیر درنتظر بگیریم، در این صورت ما یک کران بالا برای L-بینهایت خواهیم داشت که به فرم زیر است:
اثبات:
بر اساس رابطه 4 و تعریف L-بینهایت داریم:
در اثبات بالا، در رابطه 7، از نامساوی جنسون استفاده شده که داریم: E[log X] ≤ log E[X]. همچنین در رابطه 8، از تابع تولید گشتاور استفاده کردیم.
اساساً گزاره یک، یک تابع هزینه جایگذین برای الگوریتم تقویت داده ضمنی ما ارائه میدهد که به جای به حداقل رساندن تابع هزینه L-بینهایت، کران بالا آن را به روشی بسیار کارآمدتر بهینه میکند. بنابراین، روش پیشنهادی (ISDA) به یک تابع هزینه جدید و بسیار قدرتمند تبدیل (فرموله) میشود که به راحتی توسط اکثر مدلهای عمیق قابل استفاده میباشد. بعلاوه، در رابطهی 8، اگر لامبدا به صفر میل کند به این معنی است که هیچ ویژگی افزایش نمییابد، درنتیجه تابع هزینهی پیشنهادی به تابع هزینه آنتروپی متقاطع (CE) کاهش مییابد.
در این قسمت روش پیسنهادی را به صورت عملی و بر روی چند سری مجموعه داده (CIFAR-10, CIFAR-100, ImageNet) که به منظور دسته بندی مورد استفاده قرار میگیرند بررسی میکنیم.
در آزمایش اول، تاثیر ISDA را بر روی معماری های مختلف و بر روی مجموعه داده متفاوت مورد بررسی قرار میدهیم. در آزمایش دوم، نتایج حاصل از جدیدترین روشهای تقویت تصویر غیر معنایی را مورد ارزیابی قرار میدهیم. در واقع، عملکرد حالت استاندارد این روشها را با حالتی که از تابع هزینه ISDA استفاده میکنند مقایسه میکنیم. در آزمایش سوم، مقایسههایی را میان تابع هزینهی ISDA و توابع هزینه قدرتمند موجود (مانند Focal loss, Center loss) و الگوریتمهای تقویت داده معنایی مبتنی بر مولد را ارائه میکنیم.
آزمایش اول:
در این آزمایش میخواهیم تاثیر استفاده از تابع هزینهی ISDA، بر روی معماریهای مختلف را مورد ارزیابی قرار دهیم. به این منظور از نسخههای مختلف شبکههای ResNet، DenseNet و ResNeXt استفاده کردیم که نتایج آن در جدول 1 ذکر شده است.
با توجه به نتایج جدول 1، همان گونه که انتظار داشتیم، استفاده از تابع هزینهی ISDA موجب بهبود نتایج معماریهای مختلف شده است. به عنوان مثال، استفاده از تابع هزینه ISDA بر روی شبکهی ResNet-50 موجب بهبود معیار top-1 error rate به میزان 1.1% شده است. این بهبود نتیجه برای سایر معماری ها نیز صادق است. لازم به ذکر است که در این آزمایش از مجموعه دادهی ImageNet استفاده شده است.
آزمایش دوم:
این آزمایش به منظور بررسی تاثر روش ISDA بر روی روشهای تقویت تصویر غیر معنایی، به عنوان روش مکمل طراحی شده است. برای این منظور از دو تا از جدیدترین روشهای تقویت داده غیر معنایی (سنتی)، با نامهای Cutout و AutoAugment، استفاده کردیم. در این آزمایش، خروجی عادی این دو روش با حالتی که از روش ISDA به عنوان روش مکمل استفاده میکند مقایسه شده و نتایج حاصل از آن در جدول 2 قابل مشاهده میباشد.
همان گونه که از جدول 2 مشخص است، استفاده از الگوریتم ISDAبه عنوان مکمل برای روشهای تقویت داده غیر معنایی موجب بهبود عملکرد میشود. همان گونه که از جدول بالا مشخص است، در تمام حالتها، استفاده از ISDA به عنوان روش مکمل موجب بهبود عملکرد روشهای سنتی شده که در جدول به صورت پررنگ نمایش داده شده است.
آزمایش سوم:
در این آزمایش، نتایج حاصل از روش ISDA که به فرم یک تابع هزینه فرموله شده است را با یک سری توابع هزینهی قدرتمند مانند Focal loss، Center loss و Lq-Loss مقایسه میکنیم. همچنین نتایج حاصل را با الگوریتمهای تقویت داده معنایی مبتنی بر مولد مانند CGAN، ACGAN و infoGAN مقایسه میکنیم. نتایج حاصل از این مقایسه در جدول 3 قابل مشاهده است:
همان گونه از جدول 3 مشخص است، روش IDSA در مقایسه با جدیدترین توابع هزینهی موجود به نتایج بهتری بر روی هر دو مجموعه داده CIFAR10 و CIFAR100 دست یافته است. همچنین این روش در مقایسه با روشهای مولد که در واقع یک نوع روش تقویت داده معنایی محسوب میشوند به نتایج بهتری و در زمان کمتری دست یافته است. درواقع، روش ISDA از نظر محاسباتی مقرون به صرفه تر از روشهای مولد میباشد زیرا همان گونه که در بخشهای قبل توضیح دادیم این روش به تولید صریح نمونهها، به منظور آموزش شبکه، نیازی نخواد داشت.
در این مقاله، ما یک الگوریتم تقویت داده معنایی ضمنی کارآمد(ISDA) را برای تکمیل تکنیکهای تقویت داده موجود پیشنهاد کردیم. متفاوت از رویکردهای موجود که از مدلهای مولد برای تقویت مجموعه آموزشی با نمونههای تغییر شکل یافته معنایی استفاده میکنند، رویکرد ما بسیار کارآمدتر و پیادهسازی آن آسانتر است. در واقع، ما نشان دادیم کهISDA را می توان به عنوان یک تابع هزینه جدید و کارآمد به نحوی فرموله کرد که با هر شبکه عمیق که با تابع هزینه آنتروپی متقابل (CE) کار میکند سازگار باشد. نتایج گسترده بر روی چندین مجموعه داده که به منظور طبقهبندی مورد استفاده قرار میگیرند، اثربخشی و کارایی الگوریتم پیشنهادی را نشان میدهد.