نحوه طبقه‌ بندی عمیق تصویر Hyperspectral با CNN متنی (مقاله ترجمه شده)

چکیده

در این مقاله که یک شبکه عصبی کانولوشن عمیق جدید (CNN) که عمیق‌تر و گسترده‎‌تر از شبکه‌های عمیق موجود برای طبقه‌بندی تصویر Hyperspectral است ارائه شده است. برخلاف روش‌های فعلی پیشرفته در طبقه‌بندی تصویر Hyperspectral مبتنی بر CNN، شبکه پیشنهاد شده به نام CNN عمیق متنی، می‌تواند به‌طور مطلوب تعاملات متقابل محتوا را با بهره‌برداری از روابط فضایی-طیفی محلی از بردارهای پیکسل همسایه، بررسی کند. بهره‌برداری مشترک اطلاعات spatio-spectral توسط فیلترکانولوشن چند مقیاسی که به عنوان جزء اولیه خط لوله پیشنهادی CNN مورد استفاده قرار می‌گیرد، به دست می‌آید. ویژگی‌های اولیه فضایی و طیفی نگاشت‌های حاصل از فیلترکانولوشن چند مقیاسی را با هم ترکیب می کنند تا یک ویژگی مشترک فضایی طیفی ایجاد کنند. ویژگی مشترک نشان‌دهنده ویژگی‌های طیفی و فضایی غنی از تصویر Hyperspectral است و سپس از طریق یک شبکه کاملا متقارن تغذیه می‌شود که در نهایت برچسب مربوطه هر pixelvector را پیش‌بینی می‌کند. مجموعه داده‌های استفاده شده در روش پیشنهادی: مجموعه داده‌های Pines هند، مجموعه داده‌های Salinas و مجموعه داده‌های دانشگاه Pavia. مقایسۀ‌ی عملکرد نشان می‌دهد که عملکرد سازگاری پیشرفته در رویکرد پیشنهادی بر روی وضعیت فعلی در سه مجموعه داده نشان داده شده است.

مقدمه

اخیرا، شبکه‌های عصبی کانولوشن عمیق (DCNN) برای طیف گسترده‌ای از وظایف ادراکی بصری مانند تشخیص / طبقه‌بندی شی، تشخیص عمل / فعالیت و غیره مورد استفاده قرار گرفته است. به دنبال موفقیت قابل توجه DCNN در نمایش تصویر / ویدیو، قابلیت‌های منحصر به فرد خود را از استخراج زیر ساختارهای غیرخطی از داده‌های تصویری و همچنین شناخت مقوله‌های محتوای معنایی با بهینه‌سازی پارامترهای چند لایه استخراج می‌کند. اخیرا تلاش‌های بیشتری برای استفاده از روش‌های مبتنی بر یادگیری عمیق برای طبقه‌بندی HEX (HIPS) صورت گرفته است [1] - [8]. با این حال، در حال حاضر مجموعه داده‌های HSI در مقیاس بزرگ در دسترس نیستند، که منجر به فراگیری بهینه DCNN با تعداد پارامترهای زیاد بنا به عدم وجود نمونه‌های آموزش دیده می‌گردد. دسترسی محدود به داده‌های گسترده، رویکردهای مبتنی بر CNN برای طبقه‌بندی HSI [1] - [6]  را از استفاده‌ی شبکه‌های عمیق‌تر و گسترده‌تر منع می‌کند که می‌تواند به‌طور بالقوه بهتر از اطلاعات طیفی و فضایی بسیار غنی موجود در تصاویر hypersepctral استفاده کند.

از این رو، رویکردهای مدرن و پیشرفته مبتنی بر CNN، بیشتر به استفاده از شبکه‌های کوچک مقیاس با تعداد لایه‌ها و گره‌های نسبتا کمتر در هر لایه برای کاهش هزینه عملکرد تمرکز می‌کنند. عمیق‌تر و گسترده‌تر به معنای استفاده از تعداد نسبتا بیشتری لایه (عمق) و گره در هر لایه (عرض) است. به این ترتیب، کاهش ابعاد طیفی تصویربرداری hypersepctral به طور کلی از طریق تطبیق با تکنیک‌های کم عمق، مانند تجزیه و تحلیل مولفه‌های اصلی (PCA)، تشخیص اختیاری موضعی (BLDE) [3]، تجزیه و تحلیل اختلال محدودیت زوج و اختلاف ناپیوستگی (PCDA-NSD) [10] و غیره است. با این حال، بهره‌برداری از شبکه‌های بزرگ در مقیاس بزرگ، هنوز هم مطلوب است تا به‌طور مشترک از زیرساخت‌های غیرخطی ساختار طیفی و فضایی داده‌های Hyperspectral ساکن در فضای ویژگی‌های چند بعدی استفاده کند. در روش پیشنهادی، قصد داریم یک شبکه عمیق‌تر و وسیع‌تر با توجه به مقادیر محدود داده‌های Hyper-Terra بسازیم که بتواند به‌طور مشترک از اطلاعات طیفی و مکانی هم بهره بگیرد. برای مقابله با مسائل مربوط به آموزش شبکه بزرگ مقیاس در مقدار محدودی از داده‌ها، یک مفهوم به تازگی معرفی شده از "یادگیری وابسته" را به اثبات می‌رسانیم که نشان‌دهنده توانایی قابل توجه برای افزایش قابلیت‌های شبکه‌های بزرگ است. یادگیری وابسته [11] اساس یادگیری زیرگروههای لایه‌ها به نام ماژول‌ها است به‌طوری‌که هر یک از ماژول‌ها  توسط سیگنال وابسته، که تفاوت بین خروجی مورد نظر و ورودی ماژول است بهینه می‌شود، همانطور که در شکل 1a نشان داده شده است، ساختار وابسته از شبکه‌ها باعث افزایش قابل توجهی در عمق و عرض شبکه می‌شود که منجر به افزایش یادگیری و در نهایت بهبود عملکرد تولید می‌شود. بنابراین، شبکه پیشنهاد شده نیاز به پیش پردازش برای کاهش ابعاد داده‌های ورودی ندارد.

کارهای مرتبط

ارائه‌ی مسیری عمیق‌تر با CNN برای شناسایی اشیا / طبقه‌بندی

LeCun و همکارانش اولین CNN عمیق به نام LeNet5 [15]  را که شامل دو لایه کانولوشن، دو لایه‌ی کاملا متصل و یک لایه اتصال Gaussian با لایه‌های اضافی برای جمع آوری بود، معرفی کرده است. با ظهور پایگاه‌های تصویری در مقیاس وسیع و تکنولوژی پیشرفته محاسباتی، شبکه‌های نسبتا عمیق‌تر و گسترده‌تر مانند AlexNet [16]  در مجموعه داده‌های تصویری وسیع مانند ImageNet [17]  ساخته شدند. AlexNet از پنج لایه کانولوشن با سه لایه کاملا متصل استفاده می‌کند. Simonyan و Zisserman [18]  عمق CNN را با VGG-16، با 16 لایه کانولوشن، به طور قابل توجهی افزایش داده‌اند. Szegedy و همکارانش [12] یک شبکه 22 لایه عمیق را به نام GoogLeNet با استفاده از پردازش چندمرحله‌ای معرفی کرده‌اند که با استفاده از مفهوم "ماژول آغازگر" به دست می‌آید. He و همکارانش [11] یک شبکه عمیق‌تر از آنچه قبلا استفاده کرده بودند با استفاده از یک روش یادگیری جدید به نام «یادگیری وابسته» ساختند که می‌تواند به طور قابل توجهی بهبود کارایی آموزش شبکه‌های عمیق را افزایش دهد.

شبکه‌ های عصبی عمیق

در این بخش ابتدا مدل CNN که به طور گسترده مورد استفاده قرار می‌گیرید با عنوان AlexNet شرح داده می‌شود و سپس معماری کل شبکه پیشنهادی مورد بحث قرار می‌گیرد. دو عنصر کلیدی شبکه پیشنهادی، «بانک فیلتر چندمقیاسی کانولوشن» و «یادگیری وابسته» توضیح داده می‌شود. در نهایت روند یادگیری شبکه در انتهای بخش بحث می‌شود.

شبکه عصبی مصنوعی عمیق

مدل CNN عمیق که استفاده شده شامل چندین لایه از نورون‌ها است، که هر کدام از آنها یک سطح متفاوتی از ویژگی‌های غیرخطی را از ورودی که از ویژگی‌های سطح پایین به بالا است، استخراج می‌کند. غیرخطی بودن در هر لایه با استفاده از یک کارکرد غیرخطی برای تولید لایه‌ها در هر لایه انجام می‌شود. شبکه پیشنهادی اساسا یک شبکه عصبی کانولوشن با یک تابع فعال غیرخطی است که در [16] استفاده شده است. در این بخش ابتدا معماری AlexNet، یک مدل CNN عمیق، همانطور که در شکل 2 نشان داده شده است، را توصیف می‌کنیم تا پایه‌ای برای درک معماری شبکه پیشنهادی ارائه شود. AlexNet شامل پنج لایه کانولوشن و سه لایه کاملا متصل است.

نتایج تجربی

مجموعه داده‌ها و پایه‌ها

عملکرد طبقه‌بندی HSI بر روی مجموعه داده‌های پیشنهاد شده ارزیابی شد: مجموعه داده‌های هند، مجموعه داده‌های سالیناس و مجموعه داده‌های دانشگاه پاویا، همانطور که در شکل 6 نشان داده شده است.145 × 145 پیکسل و 220 نوار طیفی انعکاسی محدوده‌ی 0.4 تا 2.5 میکرومتر را با وضوح فضایی 20 متر پوشش می‌دهد. داده‌های دانشگاه هند در ابتدا دارای 16 کلاس است، اما ما فقط 8 کلاس را با تعداد نسبتا زیادی از نمونه‌ها استفاده می‌کنیم. مجموعه داده Salinas حاوی 216 × 512 پیکسل و 224 نوار طیفی است. که شامل 16 کلاس است و با وضوح بالای فضایی 3.7 متر مشخص می‌شود. مجموعه داده‌های دانشگاه پاویا حاوی 610 × 340 پیکسل با 103 نوار طیفی است که محدوده طیفی از 0.43 تا 0.86 میکرومتر با وضوح فضایی 1.3 متر را پوشش می‌دهد. 9 کلاس در مجموعه داده وجود دارد. برای مجموعه داده‌های Salinas و مجموعه داده‌های دانشگاه پاویا، ما از همه کلاس‌ها استفاده می‌کنیم چون هر دو مجموعه داده شامل کلاس‌هایی با تعداد نسبتا کم نمونه نیستند.

نتیجه‌ گیری

در روش پیشنهادی، یک شبکه عصبی کانولوشن کامل با مجموع 9 لایه ایجاد کرده‌ایم که بسیار عمیق‌تر از دیگر شبکه‌های کانولوشن موجود برای طبقه بندی HSI است. به‌طورکلی به خوبی شناخته شده است که شبکه‌ی عمیق بهینه می‌تواند منجر به بهبود عملکرد در شبکه‌های کم عمق شود. برای افزایش بهره‌وری یادگیری، شبکه‌ی پیشنهادی آموزش دیده در نمونه‌های آموزشی نسبتا ضعیف، یک روش یادگیری جدید معرفی شده که با نام یادگیری وابسته مورد استفاده قرار گرفته است. برای استفاده از اطلاعات طیفی و فضایی تعبیه شده در تصاویر Hyperspectral، شبکه‌ی پیشنهاد شده به طور مشترک از تعامل فضایی محلی با استفاده از یک بانک فلیتر multiscale در مرحله اولیه شبکه استفاده می‌کند. بانک فيلتر چندرسانه‌اي شامل سه فيلتر کانولوشن با اندازه‌هاي مختلف مي‌باشد: دو فيلتر (3 × 3 و 5 × 5) براي بهره‌برداري از همبستگي فضايي محلي استفاده مي‌شود در حالي که 1 × 1 براي پاسخ دادن به همبستگي‌هاي طيفي استفاده مي‌شود.

همانطور که در نتایج تجربی پشتیبانی می‌شود، شبکه‌ی پیشنهاد شده عملکرد پیشرفته‌ی طبقه‌بندی در سه مجموعه داده‌ی معیار را براساس رویکردهای حاضر با استفاده از معماری‌های مختلف CNN ارائه می‌دهد. عملکرد بهبود یافته عمدتا از 1) استفاده از یک شبکه عمیق‌تر با آموزش‌های پیشرفته و 2) بهره‌برداری مشترک از اطلاعات فضایی طیفی است. عمق (تعداد لایه‌ها) و عرض (تعداد هسته‌های مورد استفاده در هر لایه) از شبکه پیشنهاد شده و همچنین تعدادی از ماژول‌های یادگیری وابسته توسط اعتبار متقابل تعیین می‌شود. عملکرد طبقه‌بندی نیز نشان می‌دهد که شبکه‌ی پیشنهادی با دو ماژول یادگیری وابسته بهتر از آن است که دارای تنها یک ماژول باشد که از اثربخشی یادگیری وابسته در شبکه پیشنهادی پشتیبانی می‌کند.

این مقاله ISI در سال 2017 در نشریه آی تریپل ای و در مجله معاملات در پردازش تصویر، توسط شعبه پردازش تصویر منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله نحوه طبقه‌ بندی عمیق تصویر Hyperspectral با CNN متنی در سایت ای ترجمه مراجعه نمایید.