محمدجواد عباسی
محمدجواد عباسی
خواندن ۱۳ دقیقه·۲ سال پیش

تحلیل و بررسی اهمیت مسئله‌ی نمونه برداری در یادگیری تعبیه شده

1 مقدمه:

تعبیه کننده‌های عمیق به یک سوال ساده پاسخ می‌دهند: دو تصویر چقدر شبیه به هم هستند؟ یادگیری این تعبیه‌ها پایه و اساس مسائل مهمی از قبیل یادگیری صفر-شات، جستجوی بصری و مواردی از این دست می‌باشد. برجسته‌ترین رویکردهای موجود، یک شبکه کانولوشنی عمیق را به وسیله‌ی یک تابع هزینه‌ی مناسب، نظیر تابع هزینه متضاد یا تابع هزینه سه‌گانه، بهینه می‌کنند. اگرچه تمرکز اصلی محققان بر روی طراحی توابع هزینه کارامد بوده است، در این مقاله قصد داریم نشان دهیم که انتخاب نمونه‌های آموزشی مناسب به همان اندازه نقش مهمی دارد. درواقع، ما استراتژی نمونه‌گیری وزنی از راه دور را پیشنهاد می‌کنیم که نمونه‌های آموزنده‌تر و پایدارتری را نسبت به رویکردهای سنتی موجود مانند استخراج منفی سخت و نیمه سخت انتخاب می‌کند. علاوه بر این، ما یک تابع هزینه‌ی ساده تحت عنوان تابع هزینه‌ی مبتنی بر حاشیه ارائه می‌دهیم که با بهره‌گیری از ویژگی‌های مثبت توابع هزینه‌ی موجود و حذف یک سری محدودیت‌ها، عملکرد بهتری نسبت به این توابع از خود ارائه می‌دهد.

2 مسئله:

ایده اصلی یادگیری عمیق تعبیه شده ساده است: تصاویر مشابه را در فضای تعبیه شده نزدیک تر کنید و تصاویر غیرمشابه را از هم دور کنید. به عنوان مثال، تابع هزینه‌ متضاد تمام تصاویر مثبت را مجبور می‌کند نزدیک هم باشند، در حالی که همه تصاویر منفی باید با یک فاصله ثابت مشخص از هم جدا شوند. اگرچه استفاده از فاصله‌ی ثابت یکسان برای تمام تصاویر بسیار محدود کننده بوده و از هر گونه اعوجاج در فضای تعبیه شده جلوگیری می‌کند. این محدودیت محرک و انگیزه‌ای برای طراحی تابع هزینه سه‌گانه شد که فقط نیاز دارد در هر مثال، تصاویر منفی دورتر از هر تصویر مثبت باشند. به عبارت دیگر، تابع هزینه سه‌گانه فقط مستلزم آن است که نمونه‌های مثبت نزدیک‌تر از نمونه‌های منفی باشند. برخلاف توابع هزینه‌ی زوجی، تابع هزینه سه‌گانه تنها تابع ضرر یا هزینه را تغییر نمی‌دهد، بلکه نحوه‌ی انتخاب نمونه‌های مثبت و منفی را نیز تغییر می‌دهد. این دو ایده دقیقا همان چیزی است که در این مقاله به آن پرداخته شده است، یعنی تغییر تابع هزینه از یک طرف و تغییر نحوه‌ی انتخاب نمونه‌های مثبت و منفی از طرف دیگر، به منظور بهبود نتایج نهایی. درواقع، در این مقاله نشان می‌دهیم که استراتژی انتخاب نمونه در مسئله‌ی یادگیری فضای تعبیه شده به اندازه‌ی تابع هزینه‌ی مناسب اهمیت دارد. به عنوان مثال، تابع هزینه متضاد به خوبی تابع هزینه‌ سه‌گانه عمل خواهد کرد اگر هر دو از استراتژی یکسانی به منظور نمونه‌برداری استفاده کنند.

در این قسمت خلاصه‌ای از تابع هزینه و استراتژی نمونه‌گیری پیشنهاد شده ارائه داده و در بخش بعدی جزئیات آن را شرح می‌دهیم:

1- نمونه‌ها در روش نمونه‌گیری جدید به طور یکنواخت و با توجه به فاصله‌ی نسبی که از یکدیگر دارند انتخاب می‌شوند. این استراتژی، بایاس ناشی از هندسه‌ی فضای تعبیه شده را اطلاح کرده و همزمان تضمین می‌کند که هر داده از شانس انتخاب شدن برخوردار است. این روش نمونه‌برداری منجر به واریانس(انحراف) کمتری از گرادیان‌ها شده و در نتیجه فرایند آموزش را پایدار می‌سازد که این کار امبدینگ کیفی بهتری را صرف نظر از نوع تابع هزینه نتیجه خواهد داد.

2- بدیهی است که تابع هزینه نیز مهم است. ما یک تابع هزینه مبتنی بر حاشیه را به عنوان تعمیمی از تابع هزینه سه‌گانه پیشنهاد می‌دهیم. این تابع هزینه تنها نمونه‌های مثبت را تشویق می‌کند که نزدیک یکدیگر باشند، نه اینکه تا حد ممکن آن‌ها را به هم نزدیک کند. این امر از یک سو محدودیت‌های غیرضروری را کاهش داده و از سوی دیگر تابع هزینه را مقاوم تر می‌کند. علاوه بر آن، با استفاده از رگریسون ایزوتونیک، تابع هزینه پیشنهادی به جای کار با فواصل مطلق، بر روی ترتیب نسبی نقاط تمرکز می‌کند.

3 روش پیشنهادی:

در این قسمت فرموله سازی مسئله اصلی را انجام می‌دهیم ولی به خاطر محدودیت در تعداد صفحات گزارش از ذکر یک سری جذئیات مانند روابط ریاضی مربوط به توابع هزینه‌ی متضاد و سه‌گانه، همچنین استراتژی های مختلف نمونه‌گیری مانند استخراج منفی سخت و نیمه-سخت خودداری می‌کنیم. فرض کنید (xi)f امبدینگ یا تعبیه‌ای از داده‌ی xi باشد، که در آن f یک شبکه عمیق با یک سری مجموعه پارامتر باشد. در اغلب مواقع، خروجی (xi)f نرمال می‌شود تا فرایند آموزش از ثبات بیشتری برخوردار باشد. هدف ما یادگیری یک امبدینگ یا تعبیه است که نقاط داده مشابه را نزدیک نگه می‌دارد، در حالی که نقاط متفاوت را از هم جدا می‌کند. بطور رسمی فاصله‌ی بین دو نقطه‌ی i و j را به صورت Dij تعریف می‌کنیم. هدف آن است که برای هر جفت داده‌ی مثبت این فاصله کوچک بوده و برای هر جفت داده‌ی منفی این فاصله بزرگ باشد.

در این قسمت، ابتدا مشکلات معمول روش‌های نمونه‌برداری را شرح داده و در ادامه روش نمونه‌برداری خود را ادائه می‌دهیم. همچنین در انتهای این بخش، یک تابع هزینه‌ جدید و کارآمد به منظور بهبود نتایج موجود ارائه می‌کنیم.

مشکلات معمول روش‌های نمونه‌برداری:

مشکل بایاس:

برای درک اینکه هنگام نمونه‌برداری یکنواخت منفی چه اتفاقی می‌افتد، به یاد داشته باشید که فضای تعبیه شده‌ی ما به ابرکره‌ی واحد n بعدی، برای n های بزرگ تر از 128، محدود می‌باشد. در این شرایط، اگر داده‌ها بر روی ابرکره و به صورت یکنواخت توزیع شده باشند، توزیع فاصله‌ی زوج نقاط از رابطه‌ی 1 تبعیت کرده و شکل توزیع آن در شکل 1 نمایش داده شده است.

رابطه 1
رابطه 1


شکل 1
شکل 1


همان گونه که از شکل 1 مشخص است، توزیع فاصله‌ی زوج نقاط، در فضای با ابعاد بالا، از توزیع نرمال با میانگین رادیکال 2 و واریانس 1/2n تبعیت می‌کند. به بیان دیگر، اگر نمونه‌های منفی به طور یکنواخت پراکنده شوند و به طور تصادفی از آن‌ها نمونه‌برداری کنیم، احتمالا نمونه‌هایی بدست می‌آوریم که در فاصله‌ی رادیکال 2 از هم قرار دارند. برای مقدار آستانه‌ی کمتر از رادیکال 2، هیچ گونه ضرری ایجاد نشده و درنتیجه هیچ پیشرفتی در فرایند یادگیری صورت نمی‌گیرد. از آنجایی که فضای تعبیه شده‌ی آموخته شده، از توزیع بسیار مشابهی تبعیت می‌کند لذا استدلال صورت گرفته برای آن صادق است.

مشکل واریانس:

نمونه‌برداری از نمونه‌های منفی که خیلی سخت هستند، موضوع متفاوتی را ایجاد می‌کند. به عنوان مثال، یک جفت منفی t:= (a, n) یا سه تایی منفی t:=(a,p,n) را درنظر بگیرید. گرادیان نسبت به نمونه منفی تابع (Xn)f به صورت زیر است:

رابطه 2
رابطه 2

در رابطه 2، عبارتی که در (t)w ضرب می‌شود تعیین کننده‌ی جهت گرادیان می‌باشد. مشکل زمانی بوجود می‌آید که مخرج این ضریب، عدد کوچکی بوده و از طرف دیگر تخمین ما از فضای تعبیه شده نویزی باشد. به عنوان مثال اگر نویز z به اندازه کافی بزرگ باشد، جهت گرادیان توسط نویز z تعیین می‌شود.

شکل 2
شکل 2

شکل 2، خروجی نرم nuclear ماتریس کواریانس را به منظور تعیین جهت گرادیان نمایش می‌دهد، زمانی که نویز گوسی داریم. همان گونه که در شکل 2 کاملا مشخص است، زمانی که نمونه‌های منفی خیلی نزدیک و یا سخت باشند، گرادیان حاصل واریانس بالایی داشته و نسبت سیگنال به نویز پایینی دارد.

روش پیشنهادی برای نمونه برداری(Distance weighted sampling):

با توجه به مشکلات بیان شده، ما یک توزیع نمونه‌گیری جدید را پیشنهاد می‌کنیم که ضمن کنترل واریانس، بایاس(سوگیری) را نیز تصحیح می‌کند. مشخصاً، ما به طور یکنواخت و با توجه به فاصله‌ی زوج نقاط منفی نمونه برداری می‌کنیم. نمونه‌های حاصل از این نوع نمونه برداری، به جای اینکه در اطراف یک منطقه کوچک جمع شده باشند، در کل فضا پخش می‌شوند. به منظور اجتناب از نمونه‌های نویزی در این روش نمونه برداری، وزن‌ها را محدود می‌کنیم. در این روش نمونه ‌برداری، بعد از انتخاب anchor، نمونه‌ی منفی بر اساس رابطه‌ی 3 انتخاب می‌شود.

رابطه 3
رابطه 3

شکل 3 نمونه‌های شبیه سازی شده از استراتژی‌های مختلف را به همراه واریانش گرادیان مربوط به هر کدام را مقایسه می‌کند.

شکل 3
شکل 3

استراتژی استخراج منفی سخت همواره نمونه‌های را انتخاب می‌کند که واریانس بالایی دارند. این امر به گرادیان‌های (مشتق‌های) نویزی منجر می‌شود که نمی‌تواند به طور موثر دو نمونه‌ را از هم جدا کرده و درنتیجه منجر به فروپاشی مدل خواهد شد. منظور از فروپاشی آن است که تمام داده‌ها به یک منطقه نگاشت خواهند شد. نمونه گیری تصادفی تنها نمونه‌های آسان و دور از همی را انتخاب می‌کند که هیچ گونه ضرری ایجاد نکرده و درنتیجه هیچ پیشرفتی در فرایند یادگیری صورت نمی‌گیرد. استخراج منفی نیمه-سخت یک مجموعه‌ی محدود بینابینی از نمونه‌ها را پیدا کرده و نمونه‌های منفی را از آن مجموعه انتخاب می‌کند. اگرچه انتخاب نمونه‌ها از این مجموعه‌ی محدود ممکن است در ابتدا موجب همگرایی سریع شبکه شود، ولی در برخی مواقع ممکن است هیچ نمونه‌ای باقی نمانده و درنتیجه شبکه از پیشرفت باز ماند.

نمونه‌گیری وزنی از راه دور طیف وسیعی از مثال‌ها را ارائه می‌دهد، بنابراین به طور پیوسته نمونه‌های آموزنده را در حین کنترل واریانس تولید می‌کند. در ادامه و در بخش بعد، تاثیر مثبت این روش نمونه‌برداری را بر روی توابع هزینه‌ی مختلف مورد ارزیابی قرار خواهیم داد.

ارائه تابع هزینه جدید:

دو تفاوت کلیدی وجود دارد که به طور کلی توضیح می دهد که چرا تابع هزینه‌ی سه‌گانه بهتر از تابع هزینه‌ی متضاد عمل می کند. تفاوت اول به این موضوع مربوط می‌شود که تابع هزینه‌ی سه‌گانه مقدار آستانه‌ی از پیش تعریف شده‌ای برای جداسازی تصاویر مشابه و غیرمشابه در نظر نمی‌گیرد. این امر علاوه بر افزایش تحمل‌پذیری مدل در برابر داده‌های پرت، این ویژگی را به مدل اضافه می‌کند که واریانس داده‌های داخلی مربوط به هر دسته به صورت آزادانه تعیین شود. تفاوت دوم به سیاست‌های متفاوت دو مدل در انتخاب نمونه‌های منفی بر می‌گردد. درواقع، تابع خطای سه‌گانه فقط مستلزم این است که نمونه‌های مثبت نزدیک‌تر از نمونه‌های منفی باشند، در حالی که تابع خطای متضاد تلاش می‌کند تا تمام مثال‌های مثبت را تا حد امکان به هم نزدیک کند که مورد دوم ضروری نیست.

شکل 4
شکل 4

اگر به شکل بالا توجه کنید، شکل مقعر مربوط به تابع خطا برای نمونه‌های منفی (نمودار سبز رنگ قسمت b) در تابع خطای سه‌گانه کاملا قابل مشاهده است. به طور خاص، باید توجه داشته باشید که برای نمونه‌های منفی سخت، گرادیان نسبت به نمونه‌های منفی به صفر نزدیک می‌شود. درنتیجه، درک این نکته که چرا ترکیب استراتژی استخراج منفی سخت و تابع هزینه‌ی سه‌گانه منجر به فروپاشی مدل می‌شود آنچنان دشوار نیست: ترکیب استراتژی و تابع هزینه‌ی مذکور موجب تولید گرادیان جذب کننده‌ی بزرگ از نمونه‌های مثبت شده و در مقابل گرادیان دفع کننده‌ی کوچکی از نمونه‌های منفی تولید می‌کند، بنابراین همه‌ نقاط در یک نقطه جمع شده که این امر موجب فروپاشی مدل می‌شود. برای رفع این مشکل، معمولا از مجذور فاصله‌ها در تابع هزینه‌ی سه‌گانه استفاده می‌شود که رابطه‌ی آن به صورت زیر می‌باشد.

رابطه 4
رابطه 4
تابع هزینه‌ی مبتنی بر حاشیه:

مشکلات ذکر شده ما را بر آن داشت تا تابع هزینه‌ی جدیدی ارائه کنیم که از یک طرف همانند تابع هزینه‌ی سه‌گانه از انعتاف پذیری بالایی برخوردار باشد، از طرف دیگر همانند تابع هزینه‌ی متضاد از نظر محاسباتی مقرون به صرفه باشد. برای این کار از ایده‌ی موجود در رگرسیون ترتیبی استفاده کردیم که در آن فقط ترتیب نسبی امتیازات اهمیت دارد. یعنی تنها کافی است همگذری مجموعه نقاط موجود در هر دو مجموعه را بدانیم. رگرسیون ایزوتونیک با تخمین چنین آستانه‌ای، به طور جداگانه، از این ایده استفاده کرده و سپس امتیازات حاصل را متناسب با مقدار آستانه جریمه می‌کند. ما نیز از این ترفند استفاده کرده و تنها به جای تابع امتیاز، آن را بر روی فواصل زوج نقاط اعمال می‌کنیم. تابع هزینه‌ی پیشنهادی به صورت زیر تعریف می‌شود:

رابطه 5
رابطه 5

در این رابطه، بتا متغیری است که مرز بین زوج نمونه‌های مثبت و منفی را تعیین می‌کند،آلفا حاشیه و یا مارجین جدایی را کنترل می‌کند. yij بسته به اینکه نمونه‌های i و j به یک دسته تعلق داشته باشند(1) یا خیر(1-). شکل 4 این تابع هزینه را تحت عنوان margin based loss به تصویر کشده است. اگر به رابطه‌ی 5 توجه کنید، مستقل از اینکه yij مثبت و یا منفی 1 باشد، یک جریمه به اندازه‌ی مارجین آلفا به تابع هزینه اعمال می‌شود. در نتیجه، تایع هزینه‌ی تعریف شده بسیار شبیه به دسته‌بند بردار پشتیبان عمل خواهد کرد.

برای برخوردار شدن از ویژگی انعطاف پذیری در تعیین مرز، همانند آنچه تابع خطای سه‌گانه از آن برخوردار بود، ما به یک پارامتر مرزی انعطاف پذیرتر از بتا نیاز داریم که به مولفه‌ی کلاس-خاص و نمونه-خاص وابسته باشد. به عبارت دیگر، برای تعیین بتا خواهیم داشت:

رابطه 6
رابطه 6

از آنجایی که انتخاب بتا کلاس-خاص و نمونه-خاص به صورت دستی امکان پذیر نیست، لذا از رابطه‌ی 5 نسبت به بتا گرادیان گرفته و از آن برای یادگیری این پارامترها استفاده می‌کنیم. حاصل این گرادیان در رابطه‌ی 7 نمایش داده شده است.

رابطه 7
رابطه 7

هر چه بتا بزرگتر باشد برای ما مطلوب تر است، زیرا مقادیر بزرگتر بتا به معنی استفاده‌ی بهتر از فضای تعبیه شده می‌باشد. از این رو، برای تنظیم کردن بتا، ما یک هایپرپارامتر v را به کار می‌گیریم(متحد می‌کنیم) که ما را به مسئله‌ی بهینه‌سازی زیر سوق می‌دهد:

رابطه 8
رابطه 8

در ادامه می‌توان نشان داد که مجموع متغیرهای کی‌سی برابر (margin)R بوده که کی‌سی‌ها جواب معادله‌ی بهینه‌سازی زیر می‌باشند:

رابطه 10
رابطه 10

همان گونه که از رابطه‌ی 10 مشخص است، این یک رگرسیون ایزوتونیک است که بر روی خطای مطلق تعریف شده است. با توجه به رابطه‌ی بالا مشخص شد که تابع هزینه‌ی مبتنی بر حاشیه مقدار به روز رسانی‌های حداقل-تلاش برای حفظ ترتیب نسبی داده‌ها است. این تابع هزینه بر روی ارتباطات نسبی موجود بین داده‌ها توجه می‌کند، به عبارت دیگر، بر روی تفکیک و جداسازی فاصله‌های جفت نمونه‌های مثبت و منفی تمرکز می‌کند. و این برخلاف توابع هزینه‌ی سنتی مانند تابع خطای متضاد می‌باشد که در آن ضررها نسبت به یک مقدار آستانه‌ از پیش تعیین شده تعریف می‌شوند.


4 بررسی نتایج:

در حالت کلی از توبع هزینه‌ و روش‌های نمونه برداری ارائه شده، برای اهداف مختلفی از جمله بازیابی تصویر، خوشه‌بندی و مواردی از این دست استفاده می‌شود. در این قسمت با توجه به محدودیت‌های موجود به مقایسه‌ی نتایج حاصل در مسئله‌ی خوشه‌بندی و بازیابی تصویر می‌پردازیم. برای این منظور از سه مجموعه داده‌ی Stanford Online Products، CARS196 و CUB200-2011 استفاده می‌کنیم. همچنین، از معیار NMI برای تحلیل و بررسی نتاج حاصل در مسئله‌ی خوشه‌بندی و از معیار Recall@k برای بررسی نتایج حاصل در مسئله‌ی بازیابی تصویر استفاده می‌کنیم.

بررسی نتایج حاصل از روش نمونه‌برداری جدید:

اگر برای مسئله‌ی بازیابی تصویر از مجموعه داده‌ی Stanford Online Products استفاده کرده و خروجی توابع هزینه‌ را به ازای استفاده از روش‌های نمونه برداری مختلف گزارش کنیم، نتیجه‌ی حاصل به فرم زیر می‌باشد.

جدول 2 – خروجی معیار Recall@K بر روی مجموعه داده Stanford Online Products
جدول 2 – خروجی معیار Recall@K بر روی مجموعه داده Stanford Online Products

نکته‌ی جالب توجه در مورد جدول بالا آن است که توابع هزینه‌ی یکسان با استراتژی‌های متفاوت انتخاب نمونه، به نتایج متفاوتی دست می‌یابند. به طور خاص، در حالی که تابع هزینه‌ی متضاد با نمونه‌گیری تصادفی نتایج بسیار بدتری نسبت به تابع هزینه سه‌گانه به همراه دارد، عملکرد آن هنگام استفاده از روش نمونه‌گیری مشابه با تابع هزینه‌ی سه‌گانه به طور قابل توجهی بهبود می‌یابد. درواقع، این آزمایش یک سوءتفاهم رایج در مورد تفاوت میان تابع هزینه‌ی متضاد و سه‌گانه را برطرف می‌کند. اینکه قدرت تابع هزینه‌‍‌ی سه‌گانه تنها به تابع خطای آن محدود نمی‌شود، بلکه مهمتر از آن، این قدرت از روش نمونه برداری آن نشات می‌گیرد. علاوه بر این، روش پیشنهادی (نمونه‌گیری وزنی از راه دور) تقریبا همواره موجب بهبود عملکرد توابع هزینه‌ی مختلف شده که نشان از کارآمدی روش پیشنهادی می‌باشد.

مقایسه‌ی روش پیشنهادی با بهترین توابع هزینه‌ی موجود:

در این قسمت قصد داریم خروجی حاصل از تابع هزینه‌ی مبتنی بر حاشیه را با بهترین توابع هزینه‌ی موجود مقایسه کنیم. نکته‌ی جالب توجه آن است که روش پیشنهادی بر روی هر سه مجموعه داده و برای هر دو مسئله‌ی خوشه‌بندی و بازیابی تصاویر، به پاسخ‌های بهتری نسبت به روش‌های موجود دست یافته که برای مشاهده‌ی تمام نتایج باید به مقاله‌ مراجعه کنید. در جدول شماره دو، خروجی روش پیشنهادی را به ازای معیارهای NMI و Recall@K و بر روی مجموعه داده Stanford Online Prodicts، با سایر روش‌ها مقایسه کردیم. همان طور که در جدول زیر مشخص است، تابع هزینه‌ی مبتنی بر حاشیه از نسخه‌های مختلف تابع هزینه‌ی سه‌گانه مانند LiftedStruct، StructClustering، PDDM و N-pairs بهتر عمل می‌کند. همچنین روش پیشنهادی تنها با استفاده از یک فضای تعبیه شده‌ی 128 بعدی برای هر تصویر به نتایج بهتری نسبت به روش HDC دست یافته است که از 3 بردار تعبیه شده برای هر تصویر استفاده می‌کند.

جدول 3- خروجی معیارهای Recall@K و NMI بر روی مجموعه داده Stanford Online Products
جدول 3- خروجی معیارهای Recall@K و NMI بر روی مجموعه داده Stanford Online Products

5 نتیجه گیری:

در این مقاله نشان دادیم که استراتژی نمونه‌گیری به همان اندازه و چه بسا بیشتر از تابع هزینه در مسئله‎ی یادگیری عمیق تعبیه شده اهمیت دارد. با توجه به نتایج حاصل، روش نمونه‌گیری ارائه شده (نمونه‌گیری وزنی از راه دور) موجب بهبود عملکرد توابع هزینه‌ی متفاوت از جمله تابع هزینه‌ی سه‌گانه و متضاد شده است. علاوه بر آن یک تابع هزینه‌ی مبتنی بر حاشیه در این مقاله ارائه شده که از یک طرف محدودیت‌های غیرضروری تابع هزینه‌ی متضاد را کاهش داده و از طرف دیگر از انعطاف پذیری تابع هزینه‌ی سه‌گانه استفاده کرده است. در انتها نشان دادیم که ترکیب تابع هزینه‌ی مبتنی بر حاشیه و استراتژی نمونی برداری وزنی از راه دور، در مسائلی نظیر بازیابی تصاویر، خوشه‌بندی و مسائلی از این دست، به طور قابل توجهی از سایر توابع هزینه عملکرد بهتری دارد.






شاید از این پست‌ها خوشتان بیاید