تعبیه کنندههای عمیق به یک سوال ساده پاسخ میدهند: دو تصویر چقدر شبیه به هم هستند؟ یادگیری این تعبیهها پایه و اساس مسائل مهمی از قبیل یادگیری صفر-شات، جستجوی بصری و مواردی از این دست میباشد. برجستهترین رویکردهای موجود، یک شبکه کانولوشنی عمیق را به وسیلهی یک تابع هزینهی مناسب، نظیر تابع هزینه متضاد یا تابع هزینه سهگانه، بهینه میکنند. اگرچه تمرکز اصلی محققان بر روی طراحی توابع هزینه کارامد بوده است، در این مقاله قصد داریم نشان دهیم که انتخاب نمونههای آموزشی مناسب به همان اندازه نقش مهمی دارد. درواقع، ما استراتژی نمونهگیری وزنی از راه دور را پیشنهاد میکنیم که نمونههای آموزندهتر و پایدارتری را نسبت به رویکردهای سنتی موجود مانند استخراج منفی سخت و نیمه سخت انتخاب میکند. علاوه بر این، ما یک تابع هزینهی ساده تحت عنوان تابع هزینهی مبتنی بر حاشیه ارائه میدهیم که با بهرهگیری از ویژگیهای مثبت توابع هزینهی موجود و حذف یک سری محدودیتها، عملکرد بهتری نسبت به این توابع از خود ارائه میدهد.
ایده اصلی یادگیری عمیق تعبیه شده ساده است: تصاویر مشابه را در فضای تعبیه شده نزدیک تر کنید و تصاویر غیرمشابه را از هم دور کنید. به عنوان مثال، تابع هزینه متضاد تمام تصاویر مثبت را مجبور میکند نزدیک هم باشند، در حالی که همه تصاویر منفی باید با یک فاصله ثابت مشخص از هم جدا شوند. اگرچه استفاده از فاصلهی ثابت یکسان برای تمام تصاویر بسیار محدود کننده بوده و از هر گونه اعوجاج در فضای تعبیه شده جلوگیری میکند. این محدودیت محرک و انگیزهای برای طراحی تابع هزینه سهگانه شد که فقط نیاز دارد در هر مثال، تصاویر منفی دورتر از هر تصویر مثبت باشند. به عبارت دیگر، تابع هزینه سهگانه فقط مستلزم آن است که نمونههای مثبت نزدیکتر از نمونههای منفی باشند. برخلاف توابع هزینهی زوجی، تابع هزینه سهگانه تنها تابع ضرر یا هزینه را تغییر نمیدهد، بلکه نحوهی انتخاب نمونههای مثبت و منفی را نیز تغییر میدهد. این دو ایده دقیقا همان چیزی است که در این مقاله به آن پرداخته شده است، یعنی تغییر تابع هزینه از یک طرف و تغییر نحوهی انتخاب نمونههای مثبت و منفی از طرف دیگر، به منظور بهبود نتایج نهایی. درواقع، در این مقاله نشان میدهیم که استراتژی انتخاب نمونه در مسئلهی یادگیری فضای تعبیه شده به اندازهی تابع هزینهی مناسب اهمیت دارد. به عنوان مثال، تابع هزینه متضاد به خوبی تابع هزینه سهگانه عمل خواهد کرد اگر هر دو از استراتژی یکسانی به منظور نمونهبرداری استفاده کنند.
در این قسمت خلاصهای از تابع هزینه و استراتژی نمونهگیری پیشنهاد شده ارائه داده و در بخش بعدی جزئیات آن را شرح میدهیم:
1- نمونهها در روش نمونهگیری جدید به طور یکنواخت و با توجه به فاصلهی نسبی که از یکدیگر دارند انتخاب میشوند. این استراتژی، بایاس ناشی از هندسهی فضای تعبیه شده را اطلاح کرده و همزمان تضمین میکند که هر داده از شانس انتخاب شدن برخوردار است. این روش نمونهبرداری منجر به واریانس(انحراف) کمتری از گرادیانها شده و در نتیجه فرایند آموزش را پایدار میسازد که این کار امبدینگ کیفی بهتری را صرف نظر از نوع تابع هزینه نتیجه خواهد داد.
2- بدیهی است که تابع هزینه نیز مهم است. ما یک تابع هزینه مبتنی بر حاشیه را به عنوان تعمیمی از تابع هزینه سهگانه پیشنهاد میدهیم. این تابع هزینه تنها نمونههای مثبت را تشویق میکند که نزدیک یکدیگر باشند، نه اینکه تا حد ممکن آنها را به هم نزدیک کند. این امر از یک سو محدودیتهای غیرضروری را کاهش داده و از سوی دیگر تابع هزینه را مقاوم تر میکند. علاوه بر آن، با استفاده از رگریسون ایزوتونیک، تابع هزینه پیشنهادی به جای کار با فواصل مطلق، بر روی ترتیب نسبی نقاط تمرکز میکند.
در این قسمت فرموله سازی مسئله اصلی را انجام میدهیم ولی به خاطر محدودیت در تعداد صفحات گزارش از ذکر یک سری جذئیات مانند روابط ریاضی مربوط به توابع هزینهی متضاد و سهگانه، همچنین استراتژی های مختلف نمونهگیری مانند استخراج منفی سخت و نیمه-سخت خودداری میکنیم. فرض کنید (xi)f امبدینگ یا تعبیهای از دادهی xi باشد، که در آن f یک شبکه عمیق با یک سری مجموعه پارامتر باشد. در اغلب مواقع، خروجی (xi)f نرمال میشود تا فرایند آموزش از ثبات بیشتری برخوردار باشد. هدف ما یادگیری یک امبدینگ یا تعبیه است که نقاط داده مشابه را نزدیک نگه میدارد، در حالی که نقاط متفاوت را از هم جدا میکند. بطور رسمی فاصلهی بین دو نقطهی i و j را به صورت Dij تعریف میکنیم. هدف آن است که برای هر جفت دادهی مثبت این فاصله کوچک بوده و برای هر جفت دادهی منفی این فاصله بزرگ باشد.
در این قسمت، ابتدا مشکلات معمول روشهای نمونهبرداری را شرح داده و در ادامه روش نمونهبرداری خود را ادائه میدهیم. همچنین در انتهای این بخش، یک تابع هزینه جدید و کارآمد به منظور بهبود نتایج موجود ارائه میکنیم.
مشکلات معمول روشهای نمونهبرداری:
مشکل بایاس:
برای درک اینکه هنگام نمونهبرداری یکنواخت منفی چه اتفاقی میافتد، به یاد داشته باشید که فضای تعبیه شدهی ما به ابرکرهی واحد n بعدی، برای n های بزرگ تر از 128، محدود میباشد. در این شرایط، اگر دادهها بر روی ابرکره و به صورت یکنواخت توزیع شده باشند، توزیع فاصلهی زوج نقاط از رابطهی 1 تبعیت کرده و شکل توزیع آن در شکل 1 نمایش داده شده است.
همان گونه که از شکل 1 مشخص است، توزیع فاصلهی زوج نقاط، در فضای با ابعاد بالا، از توزیع نرمال با میانگین رادیکال 2 و واریانس 1/2n تبعیت میکند. به بیان دیگر، اگر نمونههای منفی به طور یکنواخت پراکنده شوند و به طور تصادفی از آنها نمونهبرداری کنیم، احتمالا نمونههایی بدست میآوریم که در فاصلهی رادیکال 2 از هم قرار دارند. برای مقدار آستانهی کمتر از رادیکال 2، هیچ گونه ضرری ایجاد نشده و درنتیجه هیچ پیشرفتی در فرایند یادگیری صورت نمیگیرد. از آنجایی که فضای تعبیه شدهی آموخته شده، از توزیع بسیار مشابهی تبعیت میکند لذا استدلال صورت گرفته برای آن صادق است.
مشکل واریانس:
نمونهبرداری از نمونههای منفی که خیلی سخت هستند، موضوع متفاوتی را ایجاد میکند. به عنوان مثال، یک جفت منفی t:= (a, n) یا سه تایی منفی t:=(a,p,n) را درنظر بگیرید. گرادیان نسبت به نمونه منفی تابع (Xn)f به صورت زیر است:
در رابطه 2، عبارتی که در (t)w ضرب میشود تعیین کنندهی جهت گرادیان میباشد. مشکل زمانی بوجود میآید که مخرج این ضریب، عدد کوچکی بوده و از طرف دیگر تخمین ما از فضای تعبیه شده نویزی باشد. به عنوان مثال اگر نویز z به اندازه کافی بزرگ باشد، جهت گرادیان توسط نویز z تعیین میشود.
شکل 2، خروجی نرم nuclear ماتریس کواریانس را به منظور تعیین جهت گرادیان نمایش میدهد، زمانی که نویز گوسی داریم. همان گونه که در شکل 2 کاملا مشخص است، زمانی که نمونههای منفی خیلی نزدیک و یا سخت باشند، گرادیان حاصل واریانس بالایی داشته و نسبت سیگنال به نویز پایینی دارد.
روش پیشنهادی برای نمونه برداری(Distance weighted sampling):
با توجه به مشکلات بیان شده، ما یک توزیع نمونهگیری جدید را پیشنهاد میکنیم که ضمن کنترل واریانس، بایاس(سوگیری) را نیز تصحیح میکند. مشخصاً، ما به طور یکنواخت و با توجه به فاصلهی زوج نقاط منفی نمونه برداری میکنیم. نمونههای حاصل از این نوع نمونه برداری، به جای اینکه در اطراف یک منطقه کوچک جمع شده باشند، در کل فضا پخش میشوند. به منظور اجتناب از نمونههای نویزی در این روش نمونه برداری، وزنها را محدود میکنیم. در این روش نمونه برداری، بعد از انتخاب anchor، نمونهی منفی بر اساس رابطهی 3 انتخاب میشود.
شکل 3 نمونههای شبیه سازی شده از استراتژیهای مختلف را به همراه واریانش گرادیان مربوط به هر کدام را مقایسه میکند.
استراتژی استخراج منفی سخت همواره نمونههای را انتخاب میکند که واریانس بالایی دارند. این امر به گرادیانهای (مشتقهای) نویزی منجر میشود که نمیتواند به طور موثر دو نمونه را از هم جدا کرده و درنتیجه منجر به فروپاشی مدل خواهد شد. منظور از فروپاشی آن است که تمام دادهها به یک منطقه نگاشت خواهند شد. نمونه گیری تصادفی تنها نمونههای آسان و دور از همی را انتخاب میکند که هیچ گونه ضرری ایجاد نکرده و درنتیجه هیچ پیشرفتی در فرایند یادگیری صورت نمیگیرد. استخراج منفی نیمه-سخت یک مجموعهی محدود بینابینی از نمونهها را پیدا کرده و نمونههای منفی را از آن مجموعه انتخاب میکند. اگرچه انتخاب نمونهها از این مجموعهی محدود ممکن است در ابتدا موجب همگرایی سریع شبکه شود، ولی در برخی مواقع ممکن است هیچ نمونهای باقی نمانده و درنتیجه شبکه از پیشرفت باز ماند.
نمونهگیری وزنی از راه دور طیف وسیعی از مثالها را ارائه میدهد، بنابراین به طور پیوسته نمونههای آموزنده را در حین کنترل واریانس تولید میکند. در ادامه و در بخش بعد، تاثیر مثبت این روش نمونهبرداری را بر روی توابع هزینهی مختلف مورد ارزیابی قرار خواهیم داد.
ارائه تابع هزینه جدید:
دو تفاوت کلیدی وجود دارد که به طور کلی توضیح می دهد که چرا تابع هزینهی سهگانه بهتر از تابع هزینهی متضاد عمل می کند. تفاوت اول به این موضوع مربوط میشود که تابع هزینهی سهگانه مقدار آستانهی از پیش تعریف شدهای برای جداسازی تصاویر مشابه و غیرمشابه در نظر نمیگیرد. این امر علاوه بر افزایش تحملپذیری مدل در برابر دادههای پرت، این ویژگی را به مدل اضافه میکند که واریانس دادههای داخلی مربوط به هر دسته به صورت آزادانه تعیین شود. تفاوت دوم به سیاستهای متفاوت دو مدل در انتخاب نمونههای منفی بر میگردد. درواقع، تابع خطای سهگانه فقط مستلزم این است که نمونههای مثبت نزدیکتر از نمونههای منفی باشند، در حالی که تابع خطای متضاد تلاش میکند تا تمام مثالهای مثبت را تا حد امکان به هم نزدیک کند که مورد دوم ضروری نیست.
اگر به شکل بالا توجه کنید، شکل مقعر مربوط به تابع خطا برای نمونههای منفی (نمودار سبز رنگ قسمت b) در تابع خطای سهگانه کاملا قابل مشاهده است. به طور خاص، باید توجه داشته باشید که برای نمونههای منفی سخت، گرادیان نسبت به نمونههای منفی به صفر نزدیک میشود. درنتیجه، درک این نکته که چرا ترکیب استراتژی استخراج منفی سخت و تابع هزینهی سهگانه منجر به فروپاشی مدل میشود آنچنان دشوار نیست: ترکیب استراتژی و تابع هزینهی مذکور موجب تولید گرادیان جذب کنندهی بزرگ از نمونههای مثبت شده و در مقابل گرادیان دفع کنندهی کوچکی از نمونههای منفی تولید میکند، بنابراین همه نقاط در یک نقطه جمع شده که این امر موجب فروپاشی مدل میشود. برای رفع این مشکل، معمولا از مجذور فاصلهها در تابع هزینهی سهگانه استفاده میشود که رابطهی آن به صورت زیر میباشد.
تابع هزینهی مبتنی بر حاشیه:
مشکلات ذکر شده ما را بر آن داشت تا تابع هزینهی جدیدی ارائه کنیم که از یک طرف همانند تابع هزینهی سهگانه از انعتاف پذیری بالایی برخوردار باشد، از طرف دیگر همانند تابع هزینهی متضاد از نظر محاسباتی مقرون به صرفه باشد. برای این کار از ایدهی موجود در رگرسیون ترتیبی استفاده کردیم که در آن فقط ترتیب نسبی امتیازات اهمیت دارد. یعنی تنها کافی است همگذری مجموعه نقاط موجود در هر دو مجموعه را بدانیم. رگرسیون ایزوتونیک با تخمین چنین آستانهای، به طور جداگانه، از این ایده استفاده کرده و سپس امتیازات حاصل را متناسب با مقدار آستانه جریمه میکند. ما نیز از این ترفند استفاده کرده و تنها به جای تابع امتیاز، آن را بر روی فواصل زوج نقاط اعمال میکنیم. تابع هزینهی پیشنهادی به صورت زیر تعریف میشود:
در این رابطه، بتا متغیری است که مرز بین زوج نمونههای مثبت و منفی را تعیین میکند،آلفا حاشیه و یا مارجین جدایی را کنترل میکند. yij بسته به اینکه نمونههای i و j به یک دسته تعلق داشته باشند(1) یا خیر(1-). شکل 4 این تابع هزینه را تحت عنوان margin based loss به تصویر کشده است. اگر به رابطهی 5 توجه کنید، مستقل از اینکه yij مثبت و یا منفی 1 باشد، یک جریمه به اندازهی مارجین آلفا به تابع هزینه اعمال میشود. در نتیجه، تایع هزینهی تعریف شده بسیار شبیه به دستهبند بردار پشتیبان عمل خواهد کرد.
برای برخوردار شدن از ویژگی انعطاف پذیری در تعیین مرز، همانند آنچه تابع خطای سهگانه از آن برخوردار بود، ما به یک پارامتر مرزی انعطاف پذیرتر از بتا نیاز داریم که به مولفهی کلاس-خاص و نمونه-خاص وابسته باشد. به عبارت دیگر، برای تعیین بتا خواهیم داشت:
از آنجایی که انتخاب بتا کلاس-خاص و نمونه-خاص به صورت دستی امکان پذیر نیست، لذا از رابطهی 5 نسبت به بتا گرادیان گرفته و از آن برای یادگیری این پارامترها استفاده میکنیم. حاصل این گرادیان در رابطهی 7 نمایش داده شده است.
هر چه بتا بزرگتر باشد برای ما مطلوب تر است، زیرا مقادیر بزرگتر بتا به معنی استفادهی بهتر از فضای تعبیه شده میباشد. از این رو، برای تنظیم کردن بتا، ما یک هایپرپارامتر v را به کار میگیریم(متحد میکنیم) که ما را به مسئلهی بهینهسازی زیر سوق میدهد:
در ادامه میتوان نشان داد که مجموع متغیرهای کیسی برابر (margin)R بوده که کیسیها جواب معادلهی بهینهسازی زیر میباشند:
همان گونه که از رابطهی 10 مشخص است، این یک رگرسیون ایزوتونیک است که بر روی خطای مطلق تعریف شده است. با توجه به رابطهی بالا مشخص شد که تابع هزینهی مبتنی بر حاشیه مقدار به روز رسانیهای حداقل-تلاش برای حفظ ترتیب نسبی دادهها است. این تابع هزینه بر روی ارتباطات نسبی موجود بین دادهها توجه میکند، به عبارت دیگر، بر روی تفکیک و جداسازی فاصلههای جفت نمونههای مثبت و منفی تمرکز میکند. و این برخلاف توابع هزینهی سنتی مانند تابع خطای متضاد میباشد که در آن ضررها نسبت به یک مقدار آستانه از پیش تعیین شده تعریف میشوند.
در حالت کلی از توبع هزینه و روشهای نمونه برداری ارائه شده، برای اهداف مختلفی از جمله بازیابی تصویر، خوشهبندی و مواردی از این دست استفاده میشود. در این قسمت با توجه به محدودیتهای موجود به مقایسهی نتایج حاصل در مسئلهی خوشهبندی و بازیابی تصویر میپردازیم. برای این منظور از سه مجموعه دادهی Stanford Online Products، CARS196 و CUB200-2011 استفاده میکنیم. همچنین، از معیار NMI برای تحلیل و بررسی نتاج حاصل در مسئلهی خوشهبندی و از معیار Recall@k برای بررسی نتایج حاصل در مسئلهی بازیابی تصویر استفاده میکنیم.
بررسی نتایج حاصل از روش نمونهبرداری جدید:
اگر برای مسئلهی بازیابی تصویر از مجموعه دادهی Stanford Online Products استفاده کرده و خروجی توابع هزینه را به ازای استفاده از روشهای نمونه برداری مختلف گزارش کنیم، نتیجهی حاصل به فرم زیر میباشد.
نکتهی جالب توجه در مورد جدول بالا آن است که توابع هزینهی یکسان با استراتژیهای متفاوت انتخاب نمونه، به نتایج متفاوتی دست مییابند. به طور خاص، در حالی که تابع هزینهی متضاد با نمونهگیری تصادفی نتایج بسیار بدتری نسبت به تابع هزینه سهگانه به همراه دارد، عملکرد آن هنگام استفاده از روش نمونهگیری مشابه با تابع هزینهی سهگانه به طور قابل توجهی بهبود مییابد. درواقع، این آزمایش یک سوءتفاهم رایج در مورد تفاوت میان تابع هزینهی متضاد و سهگانه را برطرف میکند. اینکه قدرت تابع هزینهی سهگانه تنها به تابع خطای آن محدود نمیشود، بلکه مهمتر از آن، این قدرت از روش نمونه برداری آن نشات میگیرد. علاوه بر این، روش پیشنهادی (نمونهگیری وزنی از راه دور) تقریبا همواره موجب بهبود عملکرد توابع هزینهی مختلف شده که نشان از کارآمدی روش پیشنهادی میباشد.
مقایسهی روش پیشنهادی با بهترین توابع هزینهی موجود:
در این قسمت قصد داریم خروجی حاصل از تابع هزینهی مبتنی بر حاشیه را با بهترین توابع هزینهی موجود مقایسه کنیم. نکتهی جالب توجه آن است که روش پیشنهادی بر روی هر سه مجموعه داده و برای هر دو مسئلهی خوشهبندی و بازیابی تصاویر، به پاسخهای بهتری نسبت به روشهای موجود دست یافته که برای مشاهدهی تمام نتایج باید به مقاله مراجعه کنید. در جدول شماره دو، خروجی روش پیشنهادی را به ازای معیارهای NMI و Recall@K و بر روی مجموعه داده Stanford Online Prodicts، با سایر روشها مقایسه کردیم. همان طور که در جدول زیر مشخص است، تابع هزینهی مبتنی بر حاشیه از نسخههای مختلف تابع هزینهی سهگانه مانند LiftedStruct، StructClustering، PDDM و N-pairs بهتر عمل میکند. همچنین روش پیشنهادی تنها با استفاده از یک فضای تعبیه شدهی 128 بعدی برای هر تصویر به نتایج بهتری نسبت به روش HDC دست یافته است که از 3 بردار تعبیه شده برای هر تصویر استفاده میکند.
در این مقاله نشان دادیم که استراتژی نمونهگیری به همان اندازه و چه بسا بیشتر از تابع هزینه در مسئلهی یادگیری عمیق تعبیه شده اهمیت دارد. با توجه به نتایج حاصل، روش نمونهگیری ارائه شده (نمونهگیری وزنی از راه دور) موجب بهبود عملکرد توابع هزینهی متفاوت از جمله تابع هزینهی سهگانه و متضاد شده است. علاوه بر آن یک تابع هزینهی مبتنی بر حاشیه در این مقاله ارائه شده که از یک طرف محدودیتهای غیرضروری تابع هزینهی متضاد را کاهش داده و از طرف دیگر از انعطاف پذیری تابع هزینهی سهگانه استفاده کرده است. در انتها نشان دادیم که ترکیب تابع هزینهی مبتنی بر حاشیه و استراتژی نمونی برداری وزنی از راه دور، در مسائلی نظیر بازیابی تصاویر، خوشهبندی و مسائلی از این دست، به طور قابل توجهی از سایر توابع هزینه عملکرد بهتری دارد.