نوشته های محمدجواد عباسی

نوشته های محمدجواد عباسی https://virgool.io/feed/@m_56937946 fa 2026-07-01 04:22:41 https://static.virgool.io/images/default-avatar.jpg محمدجواد عباسی https://virgool.io/@m_56937946 تقویت ضمنی معنایی داده‌ها برای شبکه‌های عمیق https://virgool.io/@m_56937946/%D8%AA%D9%82%D9%88%DB%8C%D8%AA-%D8%B6%D9%85%D9%86%DB%8C-%D9%85%D8%B9%D9%86%D8%A7%DB%8C%DB%8C-%D8%AF%D8%A7%D8%AF%D9%87-%D9%87%D8%A7-%D8%A8%D8%B1%D8%A7%DB%8C-%D8%B4%D8%A8%DA%A9%D9%87-%D9%87%D8%A7%DB%8C-%D8%B9%D9%85%DB%8C%D9%82-pmnhkzvrwm00 مقدمه:در این مقاله، ما یک رویکرد جدید با نام تقویت داده معنایی ضمنی (ISDA)، به منظور تکمیل تکنیک‌های تقویت سنتی مانند چرخش، انتقال یا معکوس کردن پیشنهاد می‌کنیم. ایده روش پیشنهادی از این خاصیت جذاب نشات گرفته است که شبکه‌های عمیق به طرز شگفت‌آوری در خطی‌سازی ویژگی‌ها خوب هستند، به طوری که جهت‌های خاص در فضای ویژگی عمیق با دگرگونی‌های معنایی معناداری، نظیر افزودن عینک آفتابی یا تغییر پس‌زمینه، مطابقت یا ارتباط دارند. درنتیجه، تغییر نمونه‌های آموزشی در امتداد بسیاری از جهت‌های معنایی در فضای ویژگی می‌تواند مجموعه داده را به منظور بهبود قدرت تعمیم به طور موثری تقویت کند. به منظور اجرای موثر و کارآمد این ایده، ابتدا یک تخمین آنلاین از ماتریس کوواریانس ویژگی‌های عمیق مربوط به هر کلاس انجام می‌دهیم که تغییرات معنایی درون کلاسی را نشان می‌دهد. سپس بردارهای تصادفی از یک توزیع نرمال با میانگین صفر و با کوواریانس تخمین زده شده به منظور افزایش داده های آموزشی در آن کلاس استخراج می شوند. مهمتر آنکه به جای افزایش صریح نمونه‌ها، می توانیم به طور مستقیم یک حد بالایی از تابع هزینه آنتروپی متقاطع (CE) را در مجموعه آموزشی تقویت شده به حداقل برسانیم که منجر به الگوریتم بسیار کارآمدی می‌شود. در واقع، ما نشان می‌دهیم که روش پیشنهادی به مثابه کمینه کردن یک تابع هزینه آنتروپی متقاطع (CE) جدید و مقاوم است که هزینه محاسباتی اضافی ناچیزی را به یک روش آموزشی عادی اضافه می‌کند.مسئله:افزایش یا تقویت داده‌ها یک تکنیک موثر برای کاهش مشکل بیش‌برازش در آموزش شبکه های عمیق است. در زمینه تشخیص تصویر، تقویت داده‌ها معمولاً با اعمال دگرگونی‌هایی نظیر برش، آینه‌سازی افقی، چرخش و لرزش رنگ در نمونه‌های ورودی که محتوای تصاویر را حفظ می‌کنند مطابقت دارد. اگرچه این تکنیک‌ها مؤثر هستند، اما قادر به انجام دگرگونی‌های معنایی، مانند تغییر پس‌زمینه یک شی یا بافت یک شی پیش‌زمینه نیستند.کارهای اخیر نشان دادند که در صورت مجاز بودن تبدیل‌های معنایی (با حفظ هویت معنایی)، افرایش داده‌ها می‌تواند تاثیرگذارتر باشد. به عنوان مثال، با آموزش یک شبکه مولد تخاصمی (GAN) برای هر کلاس در مجموعه آموزشی، می‌توان تعداد بی‌نهایت نمونه را از مولد نمونه برداری کرد. متاسفانه این روش از نظر محاسباتی مقرون به صرفه نمی‌باشد، زیرا آموزش شبکه مولد و استفاده از آن به منظور تولید نمونه‌های افزوده، علاوه بر اینکه یک کار غیر ضروری است موجب طولانی شدن روند آموزش نیز خواهد شد. در این مقاله، ما یک الگوریتم جدید به نام تقویت داده معنایی ضمنی (IDSA)، به منظور آموزش شبکه‌های تشخیص تصویر عمیق پیشنهاد می‌کنیم. روش پیشنهادی بسیار کارآمد است زیرا نیازی به (1) آموزش یا استنتاج شبکه های کمکی یا (2) تولید صریح نمونه های آموزشی اضافی ندارد. ایده رویکرد ما از مشاهدات جالب انجام شده توسط کارهای اخیر نشات گرفته است که نشان می دهد ویژگی های عمیق در یک شبکه معمولاً خطی هستند. به طور خاص، جهات معنایی زیادی در فضای ویژگی عمیق وجود دارند، به طوری که ترجمه(تفسیر) یک نمونه داده در فضای ویژگی در امتداد یکی از این جهات منجر به نمایش ویژگی متناظر با نمونه دیگری با هویت کلاسی مشابه اما معنایی متفاوت می‌شود. به عنوان مثال، یک جهت خاص با ترجمه معنایی "عینک زدن" مطابقت دارد. هنگامی که ویژگی شخصی که عینک نمی‌زند، در این جهت ترجمه می‌شود، ویژگی جدید ممکن است با همان شخص اما با عینک مطابقت داشته باشد. بنابراین، با جستجوی بسیاری از این جهت‌های معنایی، می‌توانیم به طور موثری مجموعه آموزشی را به صورت مکمل با تکنیک های سنتی افزایش داده تقویت کنیم. یافتن صریح جهت‌های معنایی یک کار بدیهی و پیش پا افتاده نبوده و معمولاً به تفسیرهای انسانی گسترده نیاز دارد. در طرف مقابل، نمونه‌برداری از جهت‌ها به صورت تصادفی کارآمد است اما ممکن است منجر به تبدیل‌های بی‌معنی شود. به عنوان مثال، اعمال تغییر شکل "عینک زدن" در کلاس "ماشین" بی معنی است. در این مقاله، ما یک روش ساده را اتخاذ می‌کنیم که تعادل خوبی بین اثربخشی و کارایی ایجاد می کند. به طور خاص، ما یک تخمین آنلاین از ماتریس کوواریانس ویژگی‌ها برای هر کلاس انجام می‌دهیم که تغییرات درون کلاسی را نشان می‌دهد. سپس جهت‌ها را از یک توزیع نرمال چند متغیره (صفر-میانگین) با کوواریانس تخمین زده نمونه‌برداری می‌کنیم و آن‌ها را به ویژگی‌های نمونه‌های آموزشی در آن کلاس برای تقویت مجموعه داده اعمال می‌کنیم. به این ترتیب می توان شانس ایجاد دگرگونی های معنایی بی معنی را به میزان قابل توجهی کاهش داد. برای بهبود بیشتر کارایی، ما یک حد بالا به شکل بسته از تابع هزینه آنتروپی متقاطع(CE) استخراج کرده و به همراه روش پیشنهادی ارائه می‌دهیم. بنابراین، به جای اجرای صریح روش افزایش، می‌توانیم به طور مستقیم حد بالایی را به حداقل برسانیم که در واقع یک تابع هزینه قوی جدید است. از آنجایی که نیازی به تولید نمونه داده های صریح نیست، الگوریتم خود را تقویت داده معنایی ضمنی (ISDA) می نامیم. در مقایسه با سایر روش‌های تقویت داده معنایی موجود، روش پیشنهادی می‌تواند به راحتی در اکثر مدل‌های عمیق، بدون معرفی مدل‌های کمکی یا هزینه محاسباتی اضافی قابل توجه، پیاده‌سازی شود. روش پیشنهادی با وجود سادگی، به طور شگفت‌انگیزی موثر بوده و تکنیک‌های تقویت داده‌های غیر معنایی موجود (تکنیک‌های تقویت داده کلاسیک) را به خوبی تکمیل می‌کند.روش پیشنهادی:برتری شبکه‌های عمیق در تشکیل نمایش‌های سطح بالا در فضای ویژگی عمیق، جایی که روابط معنایی بین نمونه‌ها را می‌توان با موقعیت‌های نسبی ویژگی‌های آن‌ها دریافت کرد، شناخته شده است. کارهای قبلی نشان دادند که ترجمه ویژگی‌ها در جهت‌های خاص با تبدیل‌های معنایی معنادار، زمانی که ویژگی‌ها به فضای ورودی نگاشت می‌شوند، مطابقت دارد. بر اساس این مشاهدات، ما پیشنهاد می‌کنیم که مستقیماً داده‌های آموزشی را در فضای ویژگی افزایش داده و این رویه را در آموزش مدل‌های عمیق ادغام کنیم. روش تقویت داده معنایی ضمنی(ISDA) پیشنهاد شده دارای دو مولفه‌ی مهم است، یعنی (1) تخمین آنلاین ماتریس‌های کوواریانس شرطی مربوط هر کلاس و (2) بهینه‌سازی با یک تابع هزینه قدرتمند. هدف مؤلفه اول یافتن توزیعی است که از آن بتوانیم جهت‌های تبدیل معنایی معنادار را برای تقویت داده‌ها نمونه‌برداری کنیم. در حالی که مولفه دوم ما را از تولید صریح مقدار زیادی داده آموزشی اضافی نجات می‌دهد که این امر منجر به کارایی قابل‌توجه روش پیشنهادی در مقایسه با تکنیک‌های تقویت داده‌ موجود می‌شود.1 – 3: تحولات معنایی در فضای ویژگی عمیق:همانطور که قبلاً ذکر شد، جهت‌های خاصی در فضای ویژگی عمیق با دگرگونی‌های معنایی معنی‌داری مانند «ساخت عینک» یا «تغییر زاویه دید» مطابقت دارند. این به ما انگیزه داد تا مجموعه آموزشی را با اعمال چنین تحولات معنایی روی ویژگی های عمیق تقویت کنیم. با این حال، جستجوی دستی برای جهت های معنایی برای مسائل در مقیاس بزرگ غیرممکن است. برای حل این مشکل، ما پیشنهاد می کنیم که این پروسه را با نمونه برداری از بردارهای تصادفی از یک توزیع نرمال با میانگین صفر و یک کوواریانس که متناسب با ماتریس کوواریانس درون کلاسی است، تقریب بزنیم. درواقع، این ماتریس کواریانس درون کلاسی، واریانس نمونه‌ ها در آن کلاس را نشان داده و لذا احتمال دارد که حاوی اطلاعات معنایی غنی‌ای ‌باشد. به طور شهودی، ویژگی‌های کلاس شخص ممکن است در جهت «عینک زدن» متفاوت باشد، در حالی که واریانس تقریباً صفر در امتداد جهت «دارای پروانه» وجود دارد که فقط برای کلاس‌های دیگر مانند کلاس هواپیما رخ می‌دهد. ما امیدواریم که جهت‌ های مربوط به تبدیل‌ های معنی دار برای هر کلاس به خوبی توسط مؤلفه های اصلی ماتریس کوواریانس آن کلاس نشان داده شود.آموزش یک شبکه‌ ی عمیق G با یک سری مجموعه پارامتر، بر روی مجموعه داده D را در نظر بگیرید که در آن yi برچسب داده‌ی i-ام می‌باشد. فرض کنید بردار A بعدی ai نشان دهنده‌ی ویژگی‌های عمیق مربوط به داده‌ی xi است که توسط شبکه‌ی G آموخته شده است. برای بدست آوردن جهات معنایی به منظور تقویت ai ، بردارها را به طور تصادفی از یک توزیع نرمال چندمتغیره با میانگین صفر نمونه‌برداری می‌کنیم. در طول آزمایش، C عدد ماتریس کواریانس (برای هر کلاس یک ماتریس) محاسبه می‌شود. در نتیجه خواهیم داشت:رابطه 1در این رابطه، لامبدا یک ضریب مثبت برای کنترل قدرت افزایش داده‌های معنایی است.از آنجایی که کواریانس ها در طول آموزش و به صورت پویا محاسبه می‌شوند، تخمین در چند دوره اول، زمانی که شبکه به خوبی آموزش ندیده است، کاملا آموزنده نیست. برای حل این مسئله، اجازه می‌دهیم لامبدا تابعی از تکرار فعلی و یا t باشد (رابطه 2). بنابراین تاثیر کواریانس تخمین زده شده روی الگوریتم ارائه شده در مراحل اولیه آموزش کاهش می‌یابد.رابطه 22 – 3: تقویت داده معنایی ضمنی (IDSA):یک روش ساده برای پیاده سازی ISDA این است که صریحاً هر ai را برای M بار افزایش دهیم و یک مجموعه ویژگی تقویت شده با اندازه‌ی MN و به صورت زیر تشکیل دهیم.مجموعه داده جدیددر ادامه، شبکه را با به حداقل رساندن خطای آنتروپی متقاطع (CE) آموزش دهیم که خواهیم داشت:رابطه 3بدیهی است که این پیاده سازی از نظر محاسباتی (زمانی که M بزرگ باشد) بسیار ناکارآمد است، زیرا مجموعه ویژگی‌های موجود M برابر بزرگتر می‌شود. در ادامه این مورد را بررسی کردیم که M تا بی‌نهایت رشد کند و متوجه شدیم یک کران بالا برای تابع هزینه موجود قابل محاسبه است که منجر به اجرای بسیار کارآمد الگوریتم ISDA می‌شود.باند بالای تابع هزینه:زمانی که M به بی‌نهایت میل می‌کند، ما در واقع امید ریاضی تابع خطای آنتروپی متقاطع را تحت تمام ویژگی‌های افزایش یافته‌ی ممکن، درنظر می‌گیریم.رابطه 4اگر بتوان L ( L-بینهایت ) را به صورت موثر و کارا محاسبه کرد، آنگاه می‌توانیم آن را مستقیماً و بدون نمونه‌برداری صریح از ویژگی‌های تقویت شده به حداقل برسانیم. اما، محاسبه‌ی معادله‌ی 4 در فرم دقیق آن سخت و دشوار است. در عوض، ما دریافتیم که با استفاده از گزاره 1، می‌توان یک کران بالای قابل محاسبه برای L-بینهایت بدست آورد.گزاره یک:فرض کنید تقریب a را به صورت توزیع نرمال و به صورت زیر درنتظر بگیریم، در این صورت ما یک کران بالا برای L-بینهایت خواهیم داشت که به فرم زیر است:رابطه 5اثبات:بر اساس رابطه 4 و تعریف L-بینهایت داریم:رابطه 6،7 و 8در اثبات بالا، در رابطه 7، از نامساوی جنسون استفاده شده که داریم: E[log X] ≤ log E[X]. همچنین در رابطه 8، از تابع تولید گشتاور استفاده کردیم.اساساً گزاره یک، یک تابع هزینه جایگذین برای الگوریتم تقویت داده ضمنی ما ارائه می‌دهد که به جای به حداقل رساندن تابع هزینه L-بینهایت، کران بالا آن را به روشی بسیار کارآمدتر بهینه می‌کند. بنابراین، روش پیشنهادی (ISDA) به یک تابع هزینه جدید و بسیار قدرتمند تبدیل (فرموله) می‌شود که به راحتی توسط اکثر مدل‌های عمیق قابل استفاده می‌باشد. بعلاوه، در رابطه‌ی 8، اگر لامبدا به صفر میل کند به این معنی است که هیچ ویژگی افزایش نمی‌یابد، درنتیجه تابع هزینه‌ی پیشنهادی به تابع هزینه آنتروپی متقاطع (CE) کاهش می‌یابد.بررسی نتایج:در این قسمت روش پیسنهادی را به صورت عملی و بر روی چند سری مجموعه داده (CIFAR-10, CIFAR-100, ImageNet) که به منظور دسته بندی مورد استفاده قرار می‌گیرند بررسی می‌کنیم.در آزمایش اول، تاثیر ISDA را بر روی معماری های مختلف و بر روی مجموعه داده متفاوت مورد بررسی قرار می‌دهیم. در آزمایش دوم، نتایج حاصل از جدیدترین روش‌های تقویت تصویر غیر معنایی را مورد ارزیابی قرار می‌دهیم. در واقع، عملکرد حالت استاندارد این روش‌ها را با حالتی که از تابع هزینه ISDA استفاده می‌کنند مقایسه می‌کنیم. در آزمایش سوم، مقایسه‌هایی را میان تابع هزینه‌ی ISDA و توابع هزینه قدرتمند موجود (مانند Focal loss, Center loss) و الگوریتم‌های تقویت داده معنایی مبتنی بر مولد را ارائه می‌کنیم.آزمایش اول:در این آزمایش می‌خواهیم تاثیر استفاده از تابع هزینه‌ی ISDA، بر روی معماری‌های مختلف را مورد ارزیابی قرار دهیم. به این منظور از نسخه‌های مختلف شبکه‌های ResNet، DenseNet و ResNeXt استفاده کردیم که نتایج آن در جدول 1 ذکر شده است.جدول یکبا توجه به نتایج جدول 1، همان گونه که انتظار داشتیم، استفاده از تابع هزینه‌ی ISDA موجب بهبود نتایج معماری‌های مختلف شده است. به عنوان مثال، استفاده از تابع هزینه ISDA بر روی شبکه‌ی ResNet-50 موجب بهبود معیار top-1 error rate به میزان 1.1% شده است. این بهبود نتیجه برای سایر معماری ها نیز صادق است. لازم به ذکر است که در این آزمایش از مجموعه داده‌ی ImageNet استفاده شده است.آزمایش دوم:این آزمایش به منظور بررسی تاثر روش ISDA بر روی روش‌های تقویت تصویر غیر معنایی، به عنوان روش مکمل طراحی شده است. برای این منظور از دو تا از جدیدترین روش‌های تقویت داده غیر معنایی (سنتی)، با نام‌های Cutout و AutoAugment، استفاده کردیم. در این آزمایش، خروجی عادی این دو روش‌ با حالتی که از روش ISDA به عنوان روش مکمل استفاده می‌کند مقایسه شده و نتایج حاصل از آن در جدول 2 قابل مشاهده می‌باشد.جدول دومهمان گونه که از جدول 2 مشخص است، استفاده از الگوریتم ISDAبه عنوان مکمل برای روش‌های تقویت داده غیر معنایی موجب بهبود عملکرد می‌شود. همان گونه که از جدول بالا مشخص است، در تمام حالت‌ها، استفاده از ISDA به عنوان روش مکمل موجب بهبود عملکرد روش‌های سنتی شده که در جدول به صورت پررنگ نمایش داده شده است.آزمایش سوم:در این آزمایش، نتایج حاصل از روش ISDA که به فرم یک تابع هزینه‌ فرموله شده است را با یک سری توابع هزینه‌ی قدرتمند مانند Focal loss، Center loss و Lq-Loss مقایسه می‌کنیم. همچنین نتایج حاصل را با الگوریتم‌های تقویت داده معنایی مبتنی بر مولد مانند CGAN، ACGAN و infoGAN مقایسه می‌کنیم. نتایج حاصل از این مقایسه در جدول 3 قابل مشاهده است:جدول سومهمان گونه از جدول 3 مشخص است، روش IDSA در مقایسه با جدیدترین توابع هزینه‌ی موجود به نتایج بهتری بر روی هر دو مجموعه داده CIFAR10 و CIFAR100 دست یافته است. همچنین این روش در مقایسه با روش‌های مولد که در واقع یک نوع روش تقویت داده معنایی محسوب می‌شوند به نتایج بهتری و در زمان کمتری دست یافته است. درواقع، روش ISDA از نظر محاسباتی مقرون به صرفه تر از روش‌های مولد می‌باشد زیرا همان گونه که در بخش‌های قبل توضیح دادیم این روش به تولید صریح نمونه‌ها، به منظور آموزش شبکه، نیازی نخواد داشت.نتیجه گیری:در این مقاله، ما یک الگوریتم تقویت داده معنایی ضمنی کارآمد(ISDA) را برای تکمیل تکنیک‌های تقویت داده‌ موجود پیشنهاد کردیم. متفاوت از رویکردهای موجود که از مدل‌های مولد برای تقویت مجموعه آموزشی با نمونه‌های تغییر شکل یافته معنایی استفاده می‌کنند، رویکرد ما بسیار کارآمدتر و پیاده‌سازی آن آسان‌تر است. در واقع، ما نشان دادیم کهISDA را می توان به عنوان یک تابع هزینه جدید و کارآمد به نحوی فرموله کرد که با هر شبکه عمیق که با تابع هزینه آنتروپی متقابل (CE) کار می‌کند سازگار باشد. نتایج گسترده بر روی چندین مجموعه داده که به منظور طبقه‌بندی مورد استفاده قرار می‌گیرند، اثربخشی و کارایی الگوریتم پیشنهادی را نشان می‌دهد. محمدجواد عباسی محمدجواد عباسی Sun, 17 Jul 2022 10:03:07 +0430 تحلیل و بررسی اهمیت مسئله‌ی نمونه برداری در یادگیری تعبیه شده https://virgool.io/@m_56937946/%D8%AA%D8%AD%D9%84%DB%8C%D9%84-%D9%88-%D8%A8%D8%B1%D8%B1%D8%B3%DB%8C-%D8%A7%D9%87%D9%85%DB%8C%D8%AA-%D9%85%D8%B3%D8%A6%D9%84%D9%87-%DB%8C-%D9%86%D9%85%D9%88%D9%86%D9%87-%D8%A8%D8%B1%D8%AF%D8%A7%D8%B1%DB%8C-%D8%AF%D8%B1-%DB%8C%D8%A7%D8%AF%DA%AF%DB%8C%D8%B1%DB%8C-%D8%AA%D8%B9%D8%A8%DB%8C%D9%87-%D8%B4%D8%AF%D9%87-edcc2a1yhg16 1 مقدمه:تعبیه کننده‌های عمیق به یک سوال ساده پاسخ می‌دهند: دو تصویر چقدر شبیه به هم هستند؟ یادگیری این تعبیه‌ها پایه و اساس مسائل مهمی از قبیل یادگیری صفر-شات، جستجوی بصری و مواردی از این دست می‌باشد. برجسته‌ترین رویکردهای موجود، یک شبکه کانولوشنی عمیق را به وسیله‌ی یک تابع هزینه‌ی مناسب، نظیر تابع هزینه متضاد یا تابع هزینه سه‌گانه، بهینه می‌کنند. اگرچه تمرکز اصلی محققان بر روی طراحی توابع هزینه کارامد بوده است، در این مقاله قصد داریم نشان دهیم که انتخاب نمونه‌های آموزشی مناسب به همان اندازه نقش مهمی دارد. درواقع، ما استراتژی نمونه‌گیری وزنی از راه دور را پیشنهاد می‌کنیم که نمونه‌های آموزنده‌تر و پایدارتری را نسبت به رویکردهای سنتی موجود مانند استخراج منفی سخت و نیمه سخت انتخاب می‌کند. علاوه بر این، ما یک تابع هزینه‌ی ساده تحت عنوان تابع هزینه‌ی مبتنی بر حاشیه ارائه می‌دهیم که با بهره‌گیری از ویژگی‌های مثبت توابع هزینه‌ی موجود و حذف یک سری محدودیت‌ها، عملکرد بهتری نسبت به این توابع از خود ارائه می‌دهد.2 مسئله:ایده اصلی یادگیری عمیق تعبیه شده ساده است: تصاویر مشابه را در فضای تعبیه شده نزدیک تر کنید و تصاویر غیرمشابه را از هم دور کنید. به عنوان مثال، تابع هزینه‌ متضاد تمام تصاویر مثبت را مجبور می‌کند نزدیک هم باشند، در حالی که همه تصاویر منفی باید با یک فاصله ثابت مشخص از هم جدا شوند. اگرچه استفاده از فاصله‌ی ثابت یکسان برای تمام تصاویر بسیار محدود کننده بوده و از هر گونه اعوجاج در فضای تعبیه شده جلوگیری می‌کند. این محدودیت محرک و انگیزه‌ای برای طراحی تابع هزینه سه‌گانه شد که فقط نیاز دارد در هر مثال، تصاویر منفی دورتر از هر تصویر مثبت باشند. به عبارت دیگر، تابع هزینه سه‌گانه فقط مستلزم آن است که نمونه‌های مثبت نزدیک‌تر از نمونه‌های منفی باشند. برخلاف توابع هزینه‌ی زوجی، تابع هزینه سه‌گانه تنها تابع ضرر یا هزینه را تغییر نمی‌دهد، بلکه نحوه‌ی انتخاب نمونه‌های مثبت و منفی را نیز تغییر می‌دهد. این دو ایده دقیقا همان چیزی است که در این مقاله به آن پرداخته شده است، یعنی تغییر تابع هزینه از یک طرف و تغییر نحوه‌ی انتخاب نمونه‌های مثبت و منفی از طرف دیگر، به منظور بهبود نتایج نهایی. درواقع، در این مقاله نشان می‌دهیم که استراتژی انتخاب نمونه در مسئله‌ی یادگیری فضای تعبیه شده به اندازه‌ی تابع هزینه‌ی مناسب اهمیت دارد. به عنوان مثال، تابع هزینه متضاد به خوبی تابع هزینه‌ سه‌گانه عمل خواهد کرد اگر هر دو از استراتژی یکسانی به منظور نمونه‌برداری استفاده کنند.در این قسمت خلاصه‌ای از تابع هزینه و استراتژی نمونه‌گیری پیشنهاد شده ارائه داده و در بخش بعدی جزئیات آن را شرح می‌دهیم:1- نمونه‌ها در روش نمونه‌گیری جدید به طور یکنواخت و با توجه به فاصله‌ی نسبی که از یکدیگر دارند انتخاب می‌شوند. این استراتژی، بایاس ناشی از هندسه‌ی فضای تعبیه شده را اطلاح کرده و همزمان تضمین می‌کند که هر داده از شانس انتخاب شدن برخوردار است. این روش نمونه‌برداری منجر به واریانس(انحراف) کمتری از گرادیان‌ها شده و در نتیجه فرایند آموزش را پایدار می‌سازد که این کار امبدینگ کیفی بهتری را صرف نظر از نوع تابع هزینه نتیجه خواهد داد.2- بدیهی است که تابع هزینه نیز مهم است. ما یک تابع هزینه مبتنی بر حاشیه را به عنوان تعمیمی از تابع هزینه سه‌گانه پیشنهاد می‌دهیم. این تابع هزینه تنها نمونه‌های مثبت را تشویق می‌کند که نزدیک یکدیگر باشند، نه اینکه تا حد ممکن آن‌ها را به هم نزدیک کند. این امر از یک سو محدودیت‌های غیرضروری را کاهش داده و از سوی دیگر تابع هزینه را مقاوم تر می‌کند. علاوه بر آن، با استفاده از رگریسون ایزوتونیک، تابع هزینه پیشنهادی به جای کار با فواصل مطلق، بر روی ترتیب نسبی نقاط تمرکز می‌کند.3 روش پیشنهادی:در این قسمت فرموله سازی مسئله اصلی را انجام می‌دهیم ولی به خاطر محدودیت در تعداد صفحات گزارش از ذکر یک سری جذئیات مانند روابط ریاضی مربوط به توابع هزینه‌ی متضاد و سه‌گانه، همچنین استراتژی های مختلف نمونه‌گیری مانند استخراج منفی سخت و نیمه-سخت خودداری می‌کنیم. فرض کنید (xi)f امبدینگ یا تعبیه‌ای از داده‌ی xi باشد، که در آن f یک شبکه عمیق با یک سری مجموعه پارامتر باشد. در اغلب مواقع، خروجی (xi)f نرمال می‌شود تا فرایند آموزش از ثبات بیشتری برخوردار باشد. هدف ما یادگیری یک امبدینگ یا تعبیه است که نقاط داده مشابه را نزدیک نگه می‌دارد، در حالی که نقاط متفاوت را از هم جدا می‌کند. بطور رسمی فاصله‌ی بین دو نقطه‌ی i و j را به صورت Dij تعریف می‌کنیم. هدف آن است که برای هر جفت داده‌ی مثبت این فاصله کوچک بوده و برای هر جفت داده‌ی منفی این فاصله بزرگ باشد.در این قسمت، ابتدا مشکلات معمول روش‌های نمونه‌برداری را شرح داده و در ادامه روش نمونه‌برداری خود را ادائه می‌دهیم. همچنین در انتهای این بخش، یک تابع هزینه‌ جدید و کارآمد به منظور بهبود نتایج موجود ارائه می‌کنیم.مشکلات معمول روش‌های نمونه‌برداری:مشکل بایاس:برای درک اینکه هنگام نمونه‌برداری یکنواخت منفی چه اتفاقی می‌افتد، به یاد داشته باشید که فضای تعبیه شده‌ی ما به ابرکره‌ی واحد n بعدی، برای n های بزرگ تر از 128، محدود می‌باشد. در این شرایط، اگر داده‌ها بر روی ابرکره و به صورت یکنواخت توزیع شده باشند، توزیع فاصله‌ی زوج نقاط از رابطه‌ی 1 تبعیت کرده و شکل توزیع آن در شکل 1 نمایش داده شده است.رابطه 1شکل 1همان گونه که از شکل 1 مشخص است، توزیع فاصله‌ی زوج نقاط، در فضای با ابعاد بالا، از توزیع نرمال با میانگین رادیکال 2 و واریانس 1/2n تبعیت می‌کند. به بیان دیگر، اگر نمونه‌های منفی به طور یکنواخت پراکنده شوند و به طور تصادفی از آن‌ها نمونه‌برداری کنیم، احتمالا نمونه‌هایی بدست می‌آوریم که در فاصله‌ی رادیکال 2 از هم قرار دارند. برای مقدار آستانه‌ی کمتر از رادیکال 2، هیچ گونه ضرری ایجاد نشده و درنتیجه هیچ پیشرفتی در فرایند یادگیری صورت نمی‌گیرد. از آنجایی که فضای تعبیه شده‌ی آموخته شده، از توزیع بسیار مشابهی تبعیت می‌کند لذا استدلال صورت گرفته برای آن صادق است.مشکل واریانس:نمونه‌برداری از نمونه‌های منفی که خیلی سخت هستند، موضوع متفاوتی را ایجاد می‌کند. به عنوان مثال، یک جفت منفی t:= (a, n) یا سه تایی منفی t:=(a,p,n) را درنظر بگیرید. گرادیان نسبت به نمونه منفی تابع (Xn)f به صورت زیر است:رابطه 2در رابطه 2، عبارتی که در (t)w ضرب می‌شود تعیین کننده‌ی جهت گرادیان می‌باشد. مشکل زمانی بوجود می‌آید که مخرج این ضریب، عدد کوچکی بوده و از طرف دیگر تخمین ما از فضای تعبیه شده نویزی باشد. به عنوان مثال اگر نویز z به اندازه کافی بزرگ باشد، جهت گرادیان توسط نویز z تعیین می‌شود.شکل 2شکل 2، خروجی نرم nuclear ماتریس کواریانس را به منظور تعیین جهت گرادیان نمایش می‌دهد، زمانی که نویز گوسی داریم. همان گونه که در شکل 2 کاملا مشخص است، زمانی که نمونه‌های منفی خیلی نزدیک و یا سخت باشند، گرادیان حاصل واریانس بالایی داشته و نسبت سیگنال به نویز پایینی دارد.روش پیشنهادی برای نمونه برداری(Distance weighted sampling):با توجه به مشکلات بیان شده، ما یک توزیع نمونه‌گیری جدید را پیشنهاد می‌کنیم که ضمن کنترل واریانس، بایاس(سوگیری) را نیز تصحیح می‌کند. مشخصاً، ما به طور یکنواخت و با توجه به فاصله‌ی زوج نقاط منفی نمونه برداری می‌کنیم. نمونه‌های حاصل از این نوع نمونه برداری، به جای اینکه در اطراف یک منطقه کوچک جمع شده باشند، در کل فضا پخش می‌شوند. به منظور اجتناب از نمونه‌های نویزی در این روش نمونه برداری، وزن‌ها را محدود می‌کنیم. در این روش نمونه ‌برداری، بعد از انتخاب anchor، نمونه‌ی منفی بر اساس رابطه‌ی 3 انتخاب می‌شود.رابطه 3شکل 3 نمونه‌های شبیه سازی شده از استراتژی‌های مختلف را به همراه واریانش گرادیان مربوط به هر کدام را مقایسه می‌کند.شکل 3استراتژی استخراج منفی سخت همواره نمونه‌های را انتخاب می‌کند که واریانس بالایی دارند. این امر به گرادیان‌های (مشتق‌های) نویزی منجر می‌شود که نمی‌تواند به طور موثر دو نمونه‌ را از هم جدا کرده و درنتیجه منجر به فروپاشی مدل خواهد شد. منظور از فروپاشی آن است که تمام داده‌ها به یک منطقه نگاشت خواهند شد. نمونه گیری تصادفی تنها نمونه‌های آسان و دور از همی را انتخاب می‌کند که هیچ گونه ضرری ایجاد نکرده و درنتیجه هیچ پیشرفتی در فرایند یادگیری صورت نمی‌گیرد. استخراج منفی نیمه-سخت یک مجموعه‌ی محدود بینابینی از نمونه‌ها را پیدا کرده و نمونه‌های منفی را از آن مجموعه انتخاب می‌کند. اگرچه انتخاب نمونه‌ها از این مجموعه‌ی محدود ممکن است در ابتدا موجب همگرایی سریع شبکه شود، ولی در برخی مواقع ممکن است هیچ نمونه‌ای باقی نمانده و درنتیجه شبکه از پیشرفت باز ماند.نمونه‌گیری وزنی از راه دور طیف وسیعی از مثال‌ها را ارائه می‌دهد، بنابراین به طور پیوسته نمونه‌های آموزنده را در حین کنترل واریانس تولید می‌کند. در ادامه و در بخش بعد، تاثیر مثبت این روش نمونه‌برداری را بر روی توابع هزینه‌ی مختلف مورد ارزیابی قرار خواهیم داد.ارائه تابع هزینه جدید:دو تفاوت کلیدی وجود دارد که به طور کلی توضیح می دهد که چرا تابع هزینه‌ی سه‌گانه بهتر از تابع هزینه‌ی متضاد عمل می کند. تفاوت اول به این موضوع مربوط می‌شود که تابع هزینه‌ی سه‌گانه مقدار آستانه‌ی از پیش تعریف شده‌ای برای جداسازی تصاویر مشابه و غیرمشابه در نظر نمی‌گیرد. این امر علاوه بر افزایش تحمل‌پذیری مدل در برابر داده‌های پرت، این ویژگی را به مدل اضافه می‌کند که واریانس داده‌های داخلی مربوط به هر دسته به صورت آزادانه تعیین شود. تفاوت دوم به سیاست‌های متفاوت دو مدل در انتخاب نمونه‌های منفی بر می‌گردد. درواقع، تابع خطای سه‌گانه فقط مستلزم این است که نمونه‌های مثبت نزدیک‌تر از نمونه‌های منفی باشند، در حالی که تابع خطای متضاد تلاش می‌کند تا تمام مثال‌های مثبت را تا حد امکان به هم نزدیک کند که مورد دوم ضروری نیست.شکل 4اگر به شکل بالا توجه کنید، شکل مقعر مربوط به تابع خطا برای نمونه‌های منفی (نمودار سبز رنگ قسمت b) در تابع خطای سه‌گانه کاملا قابل مشاهده است. به طور خاص، باید توجه داشته باشید که برای نمونه‌های منفی سخت، گرادیان نسبت به نمونه‌های منفی به صفر نزدیک می‌شود. درنتیجه، درک این نکته که چرا ترکیب استراتژی استخراج منفی سخت و تابع هزینه‌ی سه‌گانه منجر به فروپاشی مدل می‌شود آنچنان دشوار نیست: ترکیب استراتژی و تابع هزینه‌ی مذکور موجب تولید گرادیان جذب کننده‌ی بزرگ از نمونه‌های مثبت شده و در مقابل گرادیان دفع کننده‌ی کوچکی از نمونه‌های منفی تولید می‌کند، بنابراین همه‌ نقاط در یک نقطه جمع شده که این امر موجب فروپاشی مدل می‌شود. برای رفع این مشکل، معمولا از مجذور فاصله‌ها در تابع هزینه‌ی سه‌گانه استفاده می‌شود که رابطه‌ی آن به صورت زیر می‌باشد.رابطه 4تابع هزینه‌ی مبتنی بر حاشیه:مشکلات ذکر شده ما را بر آن داشت تا تابع هزینه‌ی جدیدی ارائه کنیم که از یک طرف همانند تابع هزینه‌ی سه‌گانه از انعتاف پذیری بالایی برخوردار باشد، از طرف دیگر همانند تابع هزینه‌ی متضاد از نظر محاسباتی مقرون به صرفه باشد. برای این کار از ایده‌ی موجود در رگرسیون ترتیبی استفاده کردیم که در آن فقط ترتیب نسبی امتیازات اهمیت دارد. یعنی تنها کافی است همگذری مجموعه نقاط موجود در هر دو مجموعه را بدانیم. رگرسیون ایزوتونیک با تخمین چنین آستانه‌ای، به طور جداگانه، از این ایده استفاده کرده و سپس امتیازات حاصل را متناسب با مقدار آستانه جریمه می‌کند. ما نیز از این ترفند استفاده کرده و تنها به جای تابع امتیاز، آن را بر روی فواصل زوج نقاط اعمال می‌کنیم. تابع هزینه‌ی پیشنهادی به صورت زیر تعریف می‌شود:رابطه 5در این رابطه، بتا متغیری است که مرز بین زوج نمونه‌های مثبت و منفی را تعیین می‌کند،آلفا حاشیه و یا مارجین جدایی را کنترل می‌کند. yij بسته به اینکه نمونه‌های i و j به یک دسته تعلق داشته باشند(1) یا خیر(1-). شکل 4 این تابع هزینه را تحت عنوان margin based loss به تصویر کشده است. اگر به رابطه‌ی 5 توجه کنید، مستقل از اینکه yij مثبت و یا منفی 1 باشد، یک جریمه به اندازه‌ی مارجین آلفا به تابع هزینه اعمال می‌شود. در نتیجه، تایع هزینه‌ی تعریف شده بسیار شبیه به دسته‌بند بردار پشتیبان عمل خواهد کرد.برای برخوردار شدن از ویژگی انعطاف پذیری در تعیین مرز، همانند آنچه تابع خطای سه‌گانه از آن برخوردار بود، ما به یک پارامتر مرزی انعطاف پذیرتر از بتا نیاز داریم که به مولفه‌ی کلاس-خاص و نمونه-خاص وابسته باشد. به عبارت دیگر، برای تعیین بتا خواهیم داشت:رابطه 6از آنجایی که انتخاب بتا کلاس-خاص و نمونه-خاص به صورت دستی امکان پذیر نیست، لذا از رابطه‌ی 5 نسبت به بتا گرادیان گرفته و از آن برای یادگیری این پارامترها استفاده می‌کنیم. حاصل این گرادیان در رابطه‌ی 7 نمایش داده شده است.رابطه 7هر چه بتا بزرگتر باشد برای ما مطلوب تر است، زیرا مقادیر بزرگتر بتا به معنی استفاده‌ی بهتر از فضای تعبیه شده می‌باشد. از این رو، برای تنظیم کردن بتا، ما یک هایپرپارامتر v را به کار می‌گیریم(متحد می‌کنیم) که ما را به مسئله‌ی بهینه‌سازی زیر سوق می‌دهد:رابطه 8در ادامه می‌توان نشان داد که مجموع متغیرهای کی‌سی برابر (margin)R بوده که کی‌سی‌ها جواب معادله‌ی بهینه‌سازی زیر می‌باشند:رابطه 10همان گونه که از رابطه‌ی 10 مشخص است، این یک رگرسیون ایزوتونیک است که بر روی خطای مطلق تعریف شده است. با توجه به رابطه‌ی بالا مشخص شد که تابع هزینه‌ی مبتنی بر حاشیه مقدار به روز رسانی‌های حداقل-تلاش برای حفظ ترتیب نسبی داده‌ها است. این تابع هزینه بر روی ارتباطات نسبی موجود بین داده‌ها توجه می‌کند، به عبارت دیگر، بر روی تفکیک و جداسازی فاصله‌های جفت نمونه‌های مثبت و منفی تمرکز می‌کند. و این برخلاف توابع هزینه‌ی سنتی مانند تابع خطای متضاد می‌باشد که در آن ضررها نسبت به یک مقدار آستانه‌ از پیش تعیین شده تعریف می‌شوند.4 بررسی نتایج:در حالت کلی از توبع هزینه‌ و روش‌های نمونه برداری ارائه شده، برای اهداف مختلفی از جمله بازیابی تصویر، خوشه‌بندی و مواردی از این دست استفاده می‌شود. در این قسمت با توجه به محدودیت‌های موجود به مقایسه‌ی نتایج حاصل در مسئله‌ی خوشه‌بندی و بازیابی تصویر می‌پردازیم. برای این منظور از سه مجموعه داده‌ی Stanford Online Products، CARS196 و CUB200-2011 استفاده می‌کنیم. همچنین، از معیار NMI برای تحلیل و بررسی نتاج حاصل در مسئله‌ی خوشه‌بندی و از معیار Recall@k برای بررسی نتایج حاصل در مسئله‌ی بازیابی تصویر استفاده می‌کنیم.بررسی نتایج حاصل از روش نمونه‌برداری جدید:اگر برای مسئله‌ی بازیابی تصویر از مجموعه داده‌ی Stanford Online Products استفاده کرده و خروجی توابع هزینه‌ را به ازای استفاده از روش‌های نمونه برداری مختلف گزارش کنیم، نتیجه‌ی حاصل به فرم زیر می‌باشد.جدول 2 – خروجی معیار Recall@K بر روی مجموعه داده Stanford Online Productsنکته‌ی جالب توجه در مورد جدول بالا آن است که توابع هزینه‌ی یکسان با استراتژی‌های متفاوت انتخاب نمونه، به نتایج متفاوتی دست می‌یابند. به طور خاص، در حالی که تابع هزینه‌ی متضاد با نمونه‌گیری تصادفی نتایج بسیار بدتری نسبت به تابع هزینه سه‌گانه به همراه دارد، عملکرد آن هنگام استفاده از روش نمونه‌گیری مشابه با تابع هزینه‌ی سه‌گانه به طور قابل توجهی بهبود می‌یابد. درواقع، این آزمایش یک سوءتفاهم رایج در مورد تفاوت میان تابع هزینه‌ی متضاد و سه‌گانه را برطرف می‌کند. اینکه قدرت تابع هزینه‌‍‌ی سه‌گانه تنها به تابع خطای آن محدود نمی‌شود، بلکه مهمتر از آن، این قدرت از روش نمونه برداری آن نشات می‌گیرد. علاوه بر این، روش پیشنهادی (نمونه‌گیری وزنی از راه دور) تقریبا همواره موجب بهبود عملکرد توابع هزینه‌ی مختلف شده که نشان از کارآمدی روش پیشنهادی می‌باشد.مقایسه‌ی روش پیشنهادی با بهترین توابع هزینه‌ی موجود:در این قسمت قصد داریم خروجی حاصل از تابع هزینه‌ی مبتنی بر حاشیه را با بهترین توابع هزینه‌ی موجود مقایسه کنیم. نکته‌ی جالب توجه آن است که روش پیشنهادی بر روی هر سه مجموعه داده و برای هر دو مسئله‌ی خوشه‌بندی و بازیابی تصاویر، به پاسخ‌های بهتری نسبت به روش‌های موجود دست یافته که برای مشاهده‌ی تمام نتایج باید به مقاله‌ مراجعه کنید. در جدول شماره دو، خروجی روش پیشنهادی را به ازای معیارهای NMI و Recall@K و بر روی مجموعه داده Stanford Online Prodicts، با سایر روش‌ها مقایسه کردیم. همان طور که در جدول زیر مشخص است، تابع هزینه‌ی مبتنی بر حاشیه از نسخه‌های مختلف تابع هزینه‌ی سه‌گانه مانند LiftedStruct، StructClustering، PDDM و N-pairs بهتر عمل می‌کند. همچنین روش پیشنهادی تنها با استفاده از یک فضای تعبیه شده‌ی 128 بعدی برای هر تصویر به نتایج بهتری نسبت به روش HDC دست یافته است که از 3 بردار تعبیه شده برای هر تصویر استفاده می‌کند.جدول 3- خروجی معیارهای Recall@K و NMI بر روی مجموعه داده Stanford Online Products5 نتیجه گیری:در این مقاله نشان دادیم که استراتژی نمونه‌گیری به همان اندازه و چه بسا بیشتر از تابع هزینه در مسئله‎ی یادگیری عمیق تعبیه شده اهمیت دارد. با توجه به نتایج حاصل، روش نمونه‌گیری ارائه شده (نمونه‌گیری وزنی از راه دور) موجب بهبود عملکرد توابع هزینه‌ی متفاوت از جمله تابع هزینه‌ی سه‌گانه و متضاد شده است. علاوه بر آن یک تابع هزینه‌ی مبتنی بر حاشیه در این مقاله ارائه شده که از یک طرف محدودیت‌های غیرضروری تابع هزینه‌ی متضاد را کاهش داده و از طرف دیگر از انعطاف پذیری تابع هزینه‌ی سه‌گانه استفاده کرده است. در انتها نشان دادیم که ترکیب تابع هزینه‌ی مبتنی بر حاشیه و استراتژی نمونی برداری وزنی از راه دور، در مسائلی نظیر بازیابی تصاویر، خوشه‌بندی و مسائلی از این دست، به طور قابل توجهی از سایر توابع هزینه عملکرد بهتری دارد. محمدجواد عباسی محمدجواد عباسی Sun, 17 Jul 2022 09:20:46 +0430 تحلیل و بررسی معماری شبکه موبایل نت و بهبودهای آن https://virgool.io/@m_56937946/%D8%AA%D8%AD%D9%84%DB%8C%D9%84-%D9%88-%D8%A8%D8%B1%D8%B1%D8%B3%DB%8C-%D9%85%D8%B9%D9%85%D8%A7%D8%B1%DB%8C-%D8%B4%D8%A8%DA%A9%D9%87-%D9%85%D9%88%D8%A8%D8%A7%DB%8C%D9%84-%D9%86%D8%AA-%D9%88-%D8%A8%D9%87%D8%A8%D9%88%D8%AF%D9%87%D8%A7%DB%8C-%D8%A2%D9%86-wnieoogoygrf 1 مقدمه: از زمان پیدایش شبکه کانولوشنی AlexNet در بینایی کامپیوتر و برنده شدن مسابقه ILSVRC 2012، شبکه‌های عصبی کانولوشنی بسیار محبوب شده و در بسیاری از زمینه‌های بینایی کامپیوتر تحول ایجاد کرده اند. با گذر زمان، شبکه‌های عمیق‌تر، پهن‌تر و البته پیچیده‌تر مانند GoogleNet، ResNet، ResNext و غیره برای رسیدن به دقت بالاتر مطرح شد. با وجود پیچیدگی شبکه‌ها، تلاش بر این بوده که تعداد پارامترهای کل شبکه کمتر شود و انصافا همواره طراحی کارآمدتری را شاهد بودیم. اما تمرکز اصلی در طراحی این شبکه‌ها دقت بود. همواره جای خالی شبکه‌های با سایز کوچک و سرعت بالابا قابلیت استفاده در سیستم‌های با منابع محدود نظیر سیستم‌های تعبیه شده و موبایل‌ها احساس می‌شد. بر همین اساس، دسته جدیدی از شبکه‌های کانولوشنی سبک با پارامترهای کمتر، سرعت اجرای بیشتر و البته دقت قابل‌قبول شکل گرفت. یکی از شاخص‌ترین شبکه‌های سبک، شبکه عصبی موبایل نت (MobileNet) نام دارد. این شبکه توسط محققان شرکت گوگل و با هدف طراحی شبکه‌های کارآمد، سبک، سریع و با دقت قابل‌قبول مطرح شده است. محققان امیدوارند با کاهش میزان محاسبات (با طراحی و یا اصلاح لایه‌های موجود) و عمیق‌تر کردن شبکه‌ها به توازن مناسبی بین دقت و سرعت شبکه‌ها دست یابند.2 ساختار کلی شبکه های موبایل نت:معرفی کانولوشن استاندارد:برای آشنایی حداقلی با موضوع، توضیح مختصری درباره‌ی لایه‌ی کانولوشن استاندارد ارائه می‌کنیم. لایه‌ی کانولوشن استاندارد شامل دو مرحله‌ی فیلتر و ادغام است که طی آن در مرحله‌ی اول (فیلتر) از m عدد کرنل با ابعاد k*k استفاده کرده و در تصویر ورودی ضرب می‌کند و در ادامه (ادغام) خروجی حاصل از هر یک از m کرنل حاصل را با هم جمع می‌کند. در نتیجه، به ازای اعمال یک مرحله کانولوشن معمولی m عدد فیچر جدید داریم که هر یک از آن‌ها از اعمال یک کرنل مجزا با ابعاد k*k بدست امده است.شبکه موبایل‌نت نسخه‌ی یک:همان گونه که در مقدمه اشاره کردیم، محققان شرکت گوگل به منظور طراحی شبکه‌ای کارآمد با قابلیت اجرا بر روی سیستم‌های با منابع محدود، اقدام به طراحی شبکه‌ی موبایل‌نت کردند. یکی از مشکلات کانولوشن استاندارد میزان محاسبات بالای آن می‌باشد که امکان استفاده از آن را در این نوع سیستم‌ها کاهش می‌دهد. درنتیجه، محققان از نوع دیگری از لایه‌ی کانولوشن به نام کانولوشن Depthwise Separable که به محاسبات کمتری در مقایسه با کانولوشن استاندارد نیاز دارد استفاده کردند.کانولوشن Depthwise separable(dws):کانولوشن depthwise separable(dws) قلب تپنده‌ی شبکه‌ی موبایل نت است. این مدل از کانولوشن به منظور کاهش بار محاسبات از دو لایه با نام‌های کانولوشن عمقی (depthwise convolution) و کانولوشن نقطه ای (pointwise convolution) به جای کانولوشن استاندارد استفاده می‌کند. نحوه‌ی کار به این صورت است که در ابتدا و در لایه‌ی depthwise convolution از یک عدد کرنل k*k استفاده شده و نتیجه‌ی حاصل را برخلاف کانولوشن استاندارد با هم ترکیب نمی‌کنیم. در ادامه، لایه‌ی pointwise convolution از m عدد کرنل c*1*1 (c تعداد کانال‌های رنگی تصویر ورودی است) به منظور تولید فیچرهای جدید استفاده می‌کند. depthwise separable convolution محاسبات مورد نیاز را به میزان قابل توجهی به نسبت کانولوشن معمولی کاهش می‌دهد. در این رابطه، k و m به ترتیب سایز کرنل کانولوشن عمقی و تعداد فیچرمپ‌های (کانال‌های رنگی) مربوط به خروجی است. شکل زیر نمای کلی یک بلاک کانولوشن depthwise separable را نشان می‌دهد.نمای کلی یک بلاک کانولوشن depthwise separableبرای مشاهده‌ی ساختار کلی شبکه‌ی موبایل‌نت نسخه‌ی یک، می‌توانید به این لینک مراجعه کنید:ساختار کلی موبایل‌نت نسخه 1این شبکه از کنار هم قرار دادن 13 بلوک پایه تشکیل شده و در مجموع 4.2 میلیون پارامتر دارد. به منظور شهود بهتر ساختار شبکه، لایه‌های BatchNorm و ReLU در طراحی آن ذکر نشده است.اگرچه این شبکه به اندازه‌ی کافی کوچک و سریع می‌باشد ولی در بسیاری از مواقع امکان دارد برای کاربردهای خاص به شبکه‌ی کوچک‌تری نیاز داشته باشیم. لذا، نویسندگان این مقاله با معرفی دو ضریب تحت عنوان فاکتور پهنا و فاکتور وضوح این امکان را فراهم کردند. شیوه‌ی کار به این صورت است که با استفاده از فاکتور پهنا می‌توان کانال‌های رنگی تصویر ورودی و خروجی را کاهش داد. در ادامه و با استفاده از فاکتور وضوح می‌توان اندازه‌ی تصویر ورودی و درنتیجه اندازه‌ی تصاویر ورودی به لایه‌های بعد را کنترل کرده و کاهش داد. درنتیجه، با اعمال این تغییرات شبکه‌ی کوچکتر و سریع‌تری حاصل می‌شود.شبکه موبایت‌نت نسخه دو:این طراحی جدید در سال 2019 و توسط محققان شرکت گوگل صورت گرفته است. در طراحی این نسخه از شبکه‌ی موبایل‌نت، از یک ساختار جدید پسماند معکوس به عنوان بلاک پایه استفاده شده است که شکل زیر جزئیات آن را نمایش می‌دهد.بلاک پایه مورد استفاده در شبکه MobileNet v2این بلاک پایه، همانند نسخه اول شبکه موبایل نت، از کانولوشن عمقی و سطحی استفاده کرده است. اگر به شکل بالا توجه کنید مشخص است که علارقم استفاده از کانولوشن‌های عمقی و سطحی، یک سری تفاوت‌های با ساختار پایه‌ی قبلی دارد که در ادامه آن‌ها را شرح می‌دهیم.تفاوت‌های موجود در این ساختار و علت آن:1- استفاده از اتصال پرشی یا skip connection: این اتصال به منظور بهبود عملکرد شبکه در عملیات پس انتشار خطا اضافه شده است. درواقع، این اتصال امکان آن را فراهم می‌آورد که گرادیان از مسیرهای میانبر عبور کرده و عملکرد شبکه در عملیات پس انتشار خطا بهبود یابد. همچنین با وجود این اتصالات، مدل می‌تواند تابع همانی را یاد بگیرد که تضمین می‌کند لایه‌های بالاتر حداقل به خوبی لایه‌ی پایین‌تر عمل می‌کنند و نه بدتر از آن.2- اضافه کردن یک لایه تحت عنوان expansion layer: این لایه یک لایه‌ی کانولوشن نقطه‌ای است که موجب غنای هرچه بیشتر تصویر ورودی می‌شود. درواقع، افزایش فیچرمپ‌های ورودی موجب می‌شود شبکه، در مرحله‌ی بعد و زمانی که از کانولوشن سطحی استفاده می‌کند، تابع پیچیده‌تری را بیاموزد.3- عدم استفاده از تابع غیرخطی ReLU در انتهای لایه‌ی Projection: نویسندگان این مقاله با انجام یک سری آزمایش متوجه شدند که اضافه کردن لایه‌ی غیرخطی، زمانی که تعداد فیچرمپ‌های ورودی کم است، موجب از دادن اطلاعات می‌شود. درنتیجه، در بلاک دیاگرام پایه، بعد از لایه‌ی Projection که یک کانولوشن نقطه‌ای بوده و تعداد فیچرمپ‌های خروجی هر بلاک را کاهش می‌دهد از لایه‌ی غیرخطی ReLU استفاده نمی‌شود.ذکر دو نکته:نکته اول: شرط وجود اتصال پرشی (skip connection) در این شبکه آن است که گام و یا stride در شبکه‌ی کانولوشن یک بوده و در ادامه تعداد فیچرمپ‌ها (کانال‌های رنگی) یکسان باشد. درغیر اینصورت مجاز به استفاده از اتصال پرشی در این ساختار نمی‌باشیم. درنتیجه، بسته به اندازه‌ی گام از یکی از دو شکل زیر به عنوان بلاک پایه در ساختار شبکه استفاده می‌کنیم.بلاک پایه مورد استفاده در شبکه MobileNet v2 با گام‌های متفاوتنکته دوم: در این شبکه از نسخه‌ی محدود شده‌ی تابع غیرخطی ReLUاستفاده می‌شود. در واقع، نویسندگان مقاله در آزمایش‌های خود با تابع غیرخطی ReLU6 به نتایج بهتری دست یافتند.برای مشاهده‌ی ساختار کلی شبکه‌ی موبایل‌نت نسخه‌ی دو، می‌توانید به این لینک مراجعه کنید:ساختار کلی موبایل‌نت نسخه 2این شبکه از 17 بلوک پایه تشکیل شده و در مجموع 3.4 میلیون پارامتر دارد.شبکه‌ی موبایل‌نت نسخه سه:این نسخه از شبکه‌ی موبایل‌نت، یک پیشرفت و گام رو به جلو برای طراحی شبکه‌های عمیق با قابلیت اجرا بر روی سیستم‌هایی با منابع محدود، از جمله موبایل و سیستم‌های تعبیه شده، می‌باشد. در این مقاله، محققان از دو منظر مختلف اقدام به اصلاح معماری‌های موجود و بهبود نتایج حاصل کرده‌اند. ابتدا، از Network Search به عنوان ابزاری بسیار قدرتمند برای کشف (طراحی) و بهینه سازی معماری شبکه بهره برده‌اند. سپس، چندین مؤلفه جدید را نیز برای بهبود بیشتر نتایج مدل نهایی معرفی و به آن اضافه کردند که در ادامه خلاصه‌ای از هر دو منظر ارائه می‌کنیم.منظر اول: استفاده از Network Searchهمان طور که در بالا اشاره شد، Network search ابزاری قدرتمند در طراحی و بهینه‌سازی معماری شبکه‌های عصبی می‌باشد. محققان در این مقاله از ترکیبی از Platform-aware NAS و الگوریتم NetAdapt برای این منظور استفاده کردند. با این ترتیب که ابتدا، از Platform-aware NAS برای جستجوی ساختار کلی شبکه بوسیله‌ی بهینه‌سازی هر بلاک‌ آن بهره می‌گیرد. سپس، از الگوریتم NetAdapt به منظور جستجوی هر لایه برای تعیین تعداد فیلترهای مناسب استفاده می‌کنند.منظر دوم: بهبود شبکهبه منظور بهبود عملکرد شبکه‌ی طراحی شده، لایه‌های پرهزینه‌ی موجود در ابتدا و انتهای شبکه را بازطراحی کرده و در ادامه از یک تابع غیرخطی جدید، h-swish، به جای تابع غیر خطی ReLU استفاده می‌شود که تاثیر زیادی در بهبود عملکرد شبکه دارد.علاوه بر لایه‌های ابتدایی یک سری لایه‌های انتهایی در این نسخه وجود دارند که نیاز به محاسبات زیاد داشته و موجب کندی هرچه بیشتر شبکه می‌شوند. محققان برای کاهش میزان این محاسبات و افزایش سرعت شبکه، لایه‌ی average pooling بلاک آخر را جابجا کرده و قبل از لایه‌ی Expantsion بلاک آخر قرار می‌دهند. با این کار، میزان محاسبات به دلیل استفاده از لایه‌ی Average poolingبه شدت کاهش می‌یابد. همچنین، لایه‌های Depthwiseو pointwise convolutionدر بلاک آخر بلااستفاده شده و آن‌ها را از شبکه حذف می‌کنیم. شکل حاصل به صورت زیر است:شکل حاصل از بازطراحی شبکهبازطراحی لایه آخر، میزان تاخیر را به اندازه‌ی 7 میلی ثانیه کاهش می‌دهد که معادل 11% زمان اجرا می‌باشد. از طرف دیگر، این تغییرات 30 میلیون از تعداد جمع و ضرب‌های کل شبکه می‌کاهد و هیچ افت دقتی را به شبکه تحمیل نمی‌کند.لایه‌ی دیگری که موجب تاخیر در شبکه می‌شود، لایه ابتدایی شبکه است که از 32 کرنل 3*3 برای ساخت فیچرمپ‌های ابتدایی استفاده می‌شود که با توجه به بررسی‌های انجام شده این ویژگی‌ها شامل افزونگی زیادی می‌باشد. نویسندگان مقاله به منظور بهبود عملکرد شبکه، در لایه‌ی ابتدایی از تعداد کمتری کرنل (16) بهره گرفتند و در ادامه با استفاده از تابع فعال‌ساز جدید اقدام به کاهش افزونگی‌های موجود در شبکه‌ی حاصل کردند.یکی از توابع غیرخطی که استفاده از آن موجب بهبود دقت شبکه‌های عصبی می‌شود، تابع swish است که از طریق رابطه‌ی 1 محاسبه می‌شود:رابطه 1از آنجایی که محاسبه‌ی تابع سیگموید در موبایل بسیار هزینه‌بر است، لذا استفاده از این تابع بسیار هزینه‌بر است. لذا محققان سعی کردند با تمهیداتی این مشکل را برطرف کنند که در ادامه به آن‌ها اشاره می‌کنیم.تمهید اول:به جای استفاده از تابع swish، از تابع h-swish استفاده می‌شود که رفتاری تقریبا مشابه با تابع swish دارد و از طر یق رابطه 2 محاسبه می‌شود.رابطه 2تمهید دوم:محققان ادعا کردند که استفاده از تابع غیرخطی swish در لایه‌های انتهایی شبکه موثرتر است. درنتیجه، از تابع h-swish تنها در نیمه‌ی دوم معماری پیشنهادی خود استفاده کرده و در سایر موارد از تابع ReLU بهره گرفتند.دو طراحی مختلف با نام‌های MobileNet V3- Large & Small برای موبایل‌نت نسخه‌ی سوم وجود دارد که بسته به میزان منابع موجود یکی از آن‌ها انتخاب می‌شوند. برای مشاهده‌ی ساختار کلی هر یک از آن‌ها می‌توانید به این لینک مراجعه کنید:ساختار کلی موبایل‌نت نسخه 3بررسی نتایج:در حالت کلی از شبکه‌های ارائه شده برای اهداف مختلفی از جمله دسته‌بندی، تشخیص و شناسایی اشیاء، تقسیم‌بندی معنایی و مواردی از این دست استفاده می‌شود. در این قسمت با توجه به محدودیت‌های موجود به مقایسه‌ی نتایج حاصل در مسئله‌ی دسته‌بندی بسنده خواهیم کرد.بررسی نتایج نسخه‌ی اول شبکه‌ی موبایل‌نت:نسخه‌ی اول شبکه‌ی موبایل‌نت از جمله تجربه‌های موفقی است است که توانسته تعادل خوبی بین تعداد پارامترها و دقت خروجی برقرار کند. درواقع این شبکه با استفاده از لایه‌ی depthwise separable convolution توانسته تعداد پارامترهای شبکه‌های کانولوشنی را به طور چشمگیری کاهش داده و درمقابل به دقت مناسبی نیز دست یابد. این شبکه در حالت کلی 4.9 میلیون پارامتر دارد، در صورتی است که اگر در این ساختار از لایه‌های کانولوشن معمولی استفاده می‌شد تعداد پارامترهای آن‌ به 29 میلیون می‌رسید. از طرف دیگر، این شبکه با تعداد پارامترهای اندک به دقت‌های بسیار مناسبی دست یافته است. به عنوان مثال، موبایل نت با تعداد پارامترهای کمتر نسبت به شبکه‌ی GoogleNet (6.8 میلیون پارامتر) به دقت بیشتری (حدود یک درصد) بر روی داده‌ی ImageNet دست یافته است. همچنین شبکه‌ی خوش‌نام VGG، با 140 میلیون پارامتر، فقط به دقتی حدود یک درصد بهتر از شبکه‌ی موبایل نت با 4.2 میلیون پارامتر دست یافته است. نتایج حاصل از این شبکه در جدول زیر نمایش داده شده است.نتایج نسخه اول شبکه موبایل نت بر روی مجموعه داده ImageNetبررسی نتایج نسخه‌ی دوم شبکه‌ی موبایل‌نت:جدول زیر دقت نسخه‌ی دوم شبکه‌ی موبایل نت را با دیگر شبکه‌های موجود و بر روی مجموعه داده‌ ImageNetگزارش می‌کند.نتایج نسخه دوم شبکه موبایل نت بر روی مجموعه داده ImageNetبا توجه به جدول بالا، این شبکه توانسته با تعداد پارامتر (و در زمان) کمتر نسبت به نسخه‌ی قبلی خود، به دقت بیشتری دست یابد که نشان دهنده‌ی طراحی مناسب و کارامد آن است. همچنین، نسخه‌ی دوم شبکه‌ی موبایل نت عملکرد بهتری در مقابل شبکه‌ی shufleNet با تعداد پارامترهای یکسان داشته و با افزایش تعدا پارامترها توانسته به دقت بیشتری نسبت به شبکه‌ی NasNet-A دست یابد.بررسی نتایج نسخه‌ی سوم شبکه‌ی موبایل‌نت:جدول زیر دقت نسخه‌ی سوم شبکه‌ی موبایل نت را با دیگر شبکه‌های موجود و بر روی مجموعه داده‌ ImageNetگزارش می‌کند.نتایج نسخه دوم شبکه موبایل نت بر روی مجموعه داده ImageNetبا توجه به جدول بالا، این شبکه توانسته با تعداد پارامتر (و در زمان) کمتر نسبت به نسخه‌ی قبلی خود، به دقت بیشتری دست یابد که نشان دهنده‌ی طراحی مناسب و کارامد آن است. همچنین، نسخه‌ی دوم شبکه‌ی موبایل نت عملکرد بهتری در مقابل شبکه‌ی shufleNet با تعداد پارامترهای یکسان داشته و با افزایش تعدا پارامترها توانسته به دقت بیشتری نسبت به شبکه‌ی NasNet-A دست یابد.همان گونه که در جدول بالا مشخص است، نسخه‌سوم شبکه‌ی موبایل‌نت 3.2% نتایج نسخه‌ی قبلی را بهبود داده است و نتایج حاصل با نتایج شبکه‌ی MnasNet-A1 و Proxyless، بهترین شبکه‌ها‌ی موجود با قابلیت اجرا بر روی سیستم‌های محدود، قابل مقایسه است. همان گونه که از جدول بالا مشخص است، نسخه‌ی محدود شده‌ی این شبکه (V3-large 0.75)، به نتایج بهتری نسبت هر دو نسخه‌ی قبلی دست یافته که نشان دهنده‌ی کارایی هرچه بیشتر این شبکه می‌باشد.یکی از نتایج قابل توجه در این نمودار، مربوط به نسخه‌ی کوچک این شبکه (V3-Small) می‌باشد که نسبت به نمونه‌ی Mnas-small به نتایج بهتری دست یافته است. درواقع، این شبکه توانسته به دقتی بیشتری، حدود 2.5 درصد، نسبت به Mnas-small دست یابد که بسیار جالب توجه میباشد، زیرا شبکه‌ی Mnas-small یکی از بهترین شبکه‌های طراحی شده برای سیستم‌های محدود می‌باشد.4 نتیجه گیری:در این گزارش ایده‌ی طراحی نسخه اول شبکه‌ی MobileNet با قابلیت اجرا بر روی سیستم‌های با منابع محدود مورد بررسی قرار گرفت. در این گزارش، ابتدا لایه‌ی کانولوشن depthwise separable به عنوان هسته‌ی اصلی این شبکه معرفی و چگونگی استفاده از آن شرح داده شد.در گام بعد، ایده‌ی نسخه‌ی دوم این شبکه، در اضافه کردن یک لایه پرشی (Skip Connection) و کانولوشن نقطه‌ای تحت عنوان Expansion layer به بلاک پایه، شرح داده شده است.در انتها نیز ایده‌ی نسخه‌ی سوم این شبکه مورد بررسی قرار گرفت که از Network Search به منظور طراحی و بهینه سازی معماری شبکه بهره برده است. سپس، چندین مؤلفه جدید را نیز برای بهبود بیشتر نتایج مدل نهایی معرفی و به آن اضافه کرده است.در انتهای این گزارش، عملکرد این شبکه برای مسئله‌ی دسته‌بندی بر روی مجموعه داده‌ی ImageNet مورد ارزیابی قرار گرفته است. محمدجواد عباسی محمدجواد عباسی Sun, 17 Jul 2022 08:08:52 +0430