چکیده
در این مقاله که یک شبکه عصبی کانولوشن عمیق جدید (CNN) که عمیقتر و گستردهتر از شبکههای عمیق موجود برای طبقهبندی تصویر Hyperspectral است ارائه شده است. برخلاف روشهای فعلی پیشرفته در طبقهبندی تصویر Hyperspectral مبتنی بر CNN، شبکه پیشنهاد شده به نام CNN عمیق متنی، میتواند بهطور مطلوب تعاملات متقابل محتوا را با بهرهبرداری از روابط فضایی-طیفی محلی از بردارهای پیکسل همسایه، بررسی کند. بهرهبرداری مشترک اطلاعات spatio-spectral توسط فیلترکانولوشن چند مقیاسی که به عنوان جزء اولیه خط لوله پیشنهادی CNN مورد استفاده قرار میگیرد، به دست میآید. ویژگیهای اولیه فضایی و طیفی نگاشتهای حاصل از فیلترکانولوشن چند مقیاسی را با هم ترکیب می کنند تا یک ویژگی مشترک فضایی طیفی ایجاد کنند. ویژگی مشترک نشاندهنده ویژگیهای طیفی و فضایی غنی از تصویر Hyperspectral است و سپس از طریق یک شبکه کاملا متقارن تغذیه میشود که در نهایت برچسب مربوطه هر pixelvector را پیشبینی میکند. مجموعه دادههای استفاده شده در روش پیشنهادی: مجموعه دادههای Pines هند، مجموعه دادههای Salinas و مجموعه دادههای دانشگاه Pavia. مقایسۀی عملکرد نشان میدهد که عملکرد سازگاری پیشرفته در رویکرد پیشنهادی بر روی وضعیت فعلی در سه مجموعه داده نشان داده شده است.
مقدمه
اخیرا، شبکههای عصبی کانولوشن عمیق (DCNN) برای طیف گستردهای از وظایف ادراکی بصری مانند تشخیص / طبقهبندی شی، تشخیص عمل / فعالیت و غیره مورد استفاده قرار گرفته است. به دنبال موفقیت قابل توجه DCNN در نمایش تصویر / ویدیو، قابلیتهای منحصر به فرد خود را از استخراج زیر ساختارهای غیرخطی از دادههای تصویری و همچنین شناخت مقولههای محتوای معنایی با بهینهسازی پارامترهای چند لایه استخراج میکند. اخیرا تلاشهای بیشتری برای استفاده از روشهای مبتنی بر یادگیری عمیق برای طبقهبندی HEX (HIPS) صورت گرفته است [1] - [8]. با این حال، در حال حاضر مجموعه دادههای HSI در مقیاس بزرگ در دسترس نیستند، که منجر به فراگیری بهینه DCNN با تعداد پارامترهای زیاد بنا به عدم وجود نمونههای آموزش دیده میگردد. دسترسی محدود به دادههای گسترده، رویکردهای مبتنی بر CNN برای طبقهبندی HSI [1] - [6] را از استفادهی شبکههای عمیقتر و گستردهتر منع میکند که میتواند بهطور بالقوه بهتر از اطلاعات طیفی و فضایی بسیار غنی موجود در تصاویر hypersepctral استفاده کند.
از این رو، رویکردهای مدرن و پیشرفته مبتنی بر CNN، بیشتر به استفاده از شبکههای کوچک مقیاس با تعداد لایهها و گرههای نسبتا کمتر در هر لایه برای کاهش هزینه عملکرد تمرکز میکنند. عمیقتر و گستردهتر به معنای استفاده از تعداد نسبتا بیشتری لایه (عمق) و گره در هر لایه (عرض) است. به این ترتیب، کاهش ابعاد طیفی تصویربرداری hypersepctral به طور کلی از طریق تطبیق با تکنیکهای کم عمق، مانند تجزیه و تحلیل مولفههای اصلی (PCA)، تشخیص اختیاری موضعی (BLDE) [3]، تجزیه و تحلیل اختلال محدودیت زوج و اختلاف ناپیوستگی (PCDA-NSD) [10] و غیره است. با این حال، بهرهبرداری از شبکههای بزرگ در مقیاس بزرگ، هنوز هم مطلوب است تا بهطور مشترک از زیرساختهای غیرخطی ساختار طیفی و فضایی دادههای Hyperspectral ساکن در فضای ویژگیهای چند بعدی استفاده کند. در روش پیشنهادی، قصد داریم یک شبکه عمیقتر و وسیعتر با توجه به مقادیر محدود دادههای Hyper-Terra بسازیم که بتواند بهطور مشترک از اطلاعات طیفی و مکانی هم بهره بگیرد. برای مقابله با مسائل مربوط به آموزش شبکه بزرگ مقیاس در مقدار محدودی از دادهها، یک مفهوم به تازگی معرفی شده از "یادگیری وابسته" را به اثبات میرسانیم که نشاندهنده توانایی قابل توجه برای افزایش قابلیتهای شبکههای بزرگ است. یادگیری وابسته [11] اساس یادگیری زیرگروههای لایهها به نام ماژولها است بهطوریکه هر یک از ماژولها توسط سیگنال وابسته، که تفاوت بین خروجی مورد نظر و ورودی ماژول است بهینه میشود، همانطور که در شکل 1a نشان داده شده است، ساختار وابسته از شبکهها باعث افزایش قابل توجهی در عمق و عرض شبکه میشود که منجر به افزایش یادگیری و در نهایت بهبود عملکرد تولید میشود. بنابراین، شبکه پیشنهاد شده نیاز به پیش پردازش برای کاهش ابعاد دادههای ورودی ندارد.
کارهای مرتبط
ارائهی مسیری عمیقتر با CNN برای شناسایی اشیا / طبقهبندی
LeCun و همکارانش اولین CNN عمیق به نام LeNet5 [15] را که شامل دو لایه کانولوشن، دو لایهی کاملا متصل و یک لایه اتصال Gaussian با لایههای اضافی برای جمع آوری بود، معرفی کرده است. با ظهور پایگاههای تصویری در مقیاس وسیع و تکنولوژی پیشرفته محاسباتی، شبکههای نسبتا عمیقتر و گستردهتر مانند AlexNet [16] در مجموعه دادههای تصویری وسیع مانند ImageNet [17] ساخته شدند. AlexNet از پنج لایه کانولوشن با سه لایه کاملا متصل استفاده میکند. Simonyan و Zisserman [18] عمق CNN را با VGG-16، با 16 لایه کانولوشن، به طور قابل توجهی افزایش دادهاند. Szegedy و همکارانش [12] یک شبکه 22 لایه عمیق را به نام GoogLeNet با استفاده از پردازش چندمرحلهای معرفی کردهاند که با استفاده از مفهوم "ماژول آغازگر" به دست میآید. He و همکارانش [11] یک شبکه عمیقتر از آنچه قبلا استفاده کرده بودند با استفاده از یک روش یادگیری جدید به نام «یادگیری وابسته» ساختند که میتواند به طور قابل توجهی بهبود کارایی آموزش شبکههای عمیق را افزایش دهد.
شبکه های عصبی عمیق
در این بخش ابتدا مدل CNN که به طور گسترده مورد استفاده قرار میگیرید با عنوان AlexNet شرح داده میشود و سپس معماری کل شبکه پیشنهادی مورد بحث قرار میگیرد. دو عنصر کلیدی شبکه پیشنهادی، «بانک فیلتر چندمقیاسی کانولوشن» و «یادگیری وابسته» توضیح داده میشود. در نهایت روند یادگیری شبکه در انتهای بخش بحث میشود.
شبکه عصبی مصنوعی عمیق
مدل CNN عمیق که استفاده شده شامل چندین لایه از نورونها است، که هر کدام از آنها یک سطح متفاوتی از ویژگیهای غیرخطی را از ورودی که از ویژگیهای سطح پایین به بالا است، استخراج میکند. غیرخطی بودن در هر لایه با استفاده از یک کارکرد غیرخطی برای تولید لایهها در هر لایه انجام میشود. شبکه پیشنهادی اساسا یک شبکه عصبی کانولوشن با یک تابع فعال غیرخطی است که در [16] استفاده شده است. در این بخش ابتدا معماری AlexNet، یک مدل CNN عمیق، همانطور که در شکل 2 نشان داده شده است، را توصیف میکنیم تا پایهای برای درک معماری شبکه پیشنهادی ارائه شود. AlexNet شامل پنج لایه کانولوشن و سه لایه کاملا متصل است.
نتایج تجربی
مجموعه دادهها و پایهها
عملکرد طبقهبندی HSI بر روی مجموعه دادههای پیشنهاد شده ارزیابی شد: مجموعه دادههای هند، مجموعه دادههای سالیناس و مجموعه دادههای دانشگاه پاویا، همانطور که در شکل 6 نشان داده شده است.145 × 145 پیکسل و 220 نوار طیفی انعکاسی محدودهی 0.4 تا 2.5 میکرومتر را با وضوح فضایی 20 متر پوشش میدهد. دادههای دانشگاه هند در ابتدا دارای 16 کلاس است، اما ما فقط 8 کلاس را با تعداد نسبتا زیادی از نمونهها استفاده میکنیم. مجموعه داده Salinas حاوی 216 × 512 پیکسل و 224 نوار طیفی است. که شامل 16 کلاس است و با وضوح بالای فضایی 3.7 متر مشخص میشود. مجموعه دادههای دانشگاه پاویا حاوی 610 × 340 پیکسل با 103 نوار طیفی است که محدوده طیفی از 0.43 تا 0.86 میکرومتر با وضوح فضایی 1.3 متر را پوشش میدهد. 9 کلاس در مجموعه داده وجود دارد. برای مجموعه دادههای Salinas و مجموعه دادههای دانشگاه پاویا، ما از همه کلاسها استفاده میکنیم چون هر دو مجموعه داده شامل کلاسهایی با تعداد نسبتا کم نمونه نیستند.
نتیجه گیری
در روش پیشنهادی، یک شبکه عصبی کانولوشن کامل با مجموع 9 لایه ایجاد کردهایم که بسیار عمیقتر از دیگر شبکههای کانولوشن موجود برای طبقه بندی HSI است. بهطورکلی به خوبی شناخته شده است که شبکهی عمیق بهینه میتواند منجر به بهبود عملکرد در شبکههای کم عمق شود. برای افزایش بهرهوری یادگیری، شبکهی پیشنهادی آموزش دیده در نمونههای آموزشی نسبتا ضعیف، یک روش یادگیری جدید معرفی شده که با نام یادگیری وابسته مورد استفاده قرار گرفته است. برای استفاده از اطلاعات طیفی و فضایی تعبیه شده در تصاویر Hyperspectral، شبکهی پیشنهاد شده به طور مشترک از تعامل فضایی محلی با استفاده از یک بانک فلیتر multiscale در مرحله اولیه شبکه استفاده میکند. بانک فيلتر چندرسانهاي شامل سه فيلتر کانولوشن با اندازههاي مختلف ميباشد: دو فيلتر (3 × 3 و 5 × 5) براي بهرهبرداري از همبستگي فضايي محلي استفاده ميشود در حالي که 1 × 1 براي پاسخ دادن به همبستگيهاي طيفي استفاده ميشود.
همانطور که در نتایج تجربی پشتیبانی میشود، شبکهی پیشنهاد شده عملکرد پیشرفتهی طبقهبندی در سه مجموعه دادهی معیار را براساس رویکردهای حاضر با استفاده از معماریهای مختلف CNN ارائه میدهد. عملکرد بهبود یافته عمدتا از 1) استفاده از یک شبکه عمیقتر با آموزشهای پیشرفته و 2) بهرهبرداری مشترک از اطلاعات فضایی طیفی است. عمق (تعداد لایهها) و عرض (تعداد هستههای مورد استفاده در هر لایه) از شبکه پیشنهاد شده و همچنین تعدادی از ماژولهای یادگیری وابسته توسط اعتبار متقابل تعیین میشود. عملکرد طبقهبندی نیز نشان میدهد که شبکهی پیشنهادی با دو ماژول یادگیری وابسته بهتر از آن است که دارای تنها یک ماژول باشد که از اثربخشی یادگیری وابسته در شبکه پیشنهادی پشتیبانی میکند.
این مقاله ISI در سال 2017 در نشریه آی تریپل ای و در مجله معاملات در پردازش تصویر، توسط شعبه پردازش تصویر منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله نحوه طبقه بندی عمیق تصویر Hyperspectral با CNN متنی در سایت ای ترجمه مراجعه نمایید.