یکی از مهمترین ویژگیهای سامانه بینایی انسان، توانایی بازشناسی اشیاء با دقت و سرعتبالا و مستقل از تغییرات آن شئ در محیطهای گوناگون است. این ویژگی همواره موردتوجه دانشمندان حوزه هوش مصنوعی و بینایی ماشین[1] بوده و باعث توسعه مدلهای محاسباتی مختلفی با الگوبرداری از سازوکار این سامانه شده است.
روشهای مرسوم یادگیری ماشین در توانایی پردازش دادهی اصلی در حالت خام خود محدودیت داشتند. برای دهه ها ساخت یک سیستم تشخیص دهنده الگو[2] یا یک سیستم یادگیرنده، نیازمند یک مهندسی دقیق برای طراحی استخراجکننده ویژگی[3] مناسب بود. استخراجکننده ویژگی، وظیفه تبدیل دادهی خام (برای مثال مقادیر پیکسلهای موجود در یک عکس) به یک بازنمایی مناسب یا به شکل یک بردار ویژگی را بر عهده دارد[1].
یادگیری بازنمایی[4] یا یادگیری ویژگیها[5] مجموعهای از روشها هستند که اجازه میدهند ماشین با دادهی خام تغذیه شوند و بهصورت خودکار بازنمایی لازم برای تشخیص یا طبقهبندی را فرابگیرند. روشهای یادگیری عمیق درواقع روشهای یادگیری بازنمایی با چند سطح از بازنمایی هستند. در هر یک از این سطوح با محاسبه ساده ولی غیرخطی[6]یک بازنمایی در یک سطح به سطح بالاتر ایجاد میشود. این بازنمایی از داده خام شروعشده و با افزایش سطوح کاملتر میشوند [1].
با افزایش سطوح و انتقالات، ویژگیهای پیچیدهتری استخراج میشوند، پس میتوان انتظار داشت با افزایش این سطوح توابع خیلی پیچیده نیز یاد گرفته شوند. برای مسائل طبقهبندی، یک بازنمایی سطح بالا از ورودی برای تفکیک کلاسها و مقاومت در برابر تغییرات ضروری است. برای مثال یک تصویر بهصورت یک آرایه از مقادیر پیکسلها بیان میشود، در ویژگیهای یاد گرفتهشده در سطح اول بازنمایی، معمولاً حضور یا عدم حضور یک لبه در زاویه و مکان مشخص در تصویر بیان میشود. لایهی دوم معمولاً شکل کلیای که با ترکیب خاصی از لبهها ایجاد میشود را با مقاومت اندکی در مکان لبهها را تشخیص میدهد. لایهی سوم به ترکیبی پیچیدهتری که شامل قسمتهایی از اشیا مشابه است پاسخ میدهد و لایههای بعدی با ترکیب این قسمتها، شیء را تشخیص میدهند.
نکتهی مهم در یادگیری ژرف این است که لایههای تشخیصدهندهی ویژگیها توسط انسان طراحی نشدهاند بلکه آنها از دادهی خام با استفاده از یک روش یادگیری همه منظوره آموختهشدهاند. یادگیری ژرف پیشرفت چشمگیری در حل مسائلی که جامعهی هوش مصنوعی سالهای زیادی را صرف حل آنها کرده بود، ایجاد کرد و به یک ابزار کارآمد برای حل مسائل در تمامی حوزهها و علوم تبدیل شد.
بر اساس مطالعات انجامشده، بهترین روشها برای بازشناسی اشیاء و بازشناسی چهره روشهای مبتنی بر یادگیری عمیق و بهطور خاص شبکههای عصبی کانولوشنالی هستند.
یادگیری عمیق یک زیرشاخه از یادگیری ماشینی و بر مبنای مجموعهای از الگوریتمها است که در تلاش هستند مفاهیم انتزاعی سطح بالا در دادگان را مدل نمایند که این فرایند را با استفاده از یک گراف عمیق که دارای چندین لایه پردازشی متشکل از چندین لایه تبدیلات خطی[7] و غیرخطی هستند، مدل میکنند. در سالهای اخیر خصوصاً پس از سال 2012 با مقاله الکس کریجوسکی و پیشرفت چشمگیر مدلهای مبتنی بر یادگیری عمیق در استخراج ویژگی و طبقهبندی اشیاء در مقایسه به روشهای پیشین راهکارهای مبتنی بر یادگیری عمیق به پیشرفتهای موردتوجه قرارگرفتهاند.
بنا بر اهداف پروژه، معماریها و مدلهای معروف کانولوشنالی موردبررسی قرار گرفتند تا معماری مناسب انتخاب شود. در این بخش به مبانی شبکههای کانولوشنالی عمیق پرداخته خواهد شد و در ادامه معماریهای مطرح ارائهشده در سالهای اخیر مطرح میگردند.
[1] Machine vision
[2] Pattern Recognition
[3] Feature Extractor
[4] Representation Learning
[5] Feature Learning
[6] Nonlinear
[7] Linear