هوش مصنوعی گوگل (Google AI) دو خانواده جدید شبکه‌های عصبی با نام‌های EfficientNetV2 و CoAtNet را برای شناسایی تصویر معرفی می‌کند

منتشر شده در marktechpost به تاریخ ۱۷ سپتامبر ۲۰۲۱
لینک منبع Google AI Introduces Two New Families of Neural Networks Called 'EfficientNetV2' and 'CoAtNet' For Image Recognition

همانطور که مدل‌های شبکه عصبی و اندازه داده‌های آموزشی افزایش می‌یابد، کارایی آموزش به یک عامل مهم برای یادگیری عمیق تبدیل شده‌است. GPT-3 یک مثال عالی برای نشان دادن میزان اهمیت کارآیی آموزش است، زیرا هفته‌ها آموزش با هزاران GPU برای نشان دادن قابلیت‌های قابل توجه در یادگیری چند مرحله‌ای طول می‌کشد.

برای حل این مشکل، تیم گوگل هوش مصنوعی دو خانواده از شبکه‌های عصبی را برای تشخیص تصویر معرفی می‌کند. اول EfficientNetV2، متشکل از CNN (شبکه‌های عصبی کانولوشن) با یک مجموعه داده در مقیاس کوچک برای بهره‌وری آموزش سریع‌تر مانند ImageNet1k (با ۲۸ / ۱ میلیون تصویر) است. دوم، یک مدل ترکیبی به نام CoAtNet است که کانولوشن و خود-توجهی را برای دستیابی به دقت بالاتر در مجموعه داده‌های بزرگ مقیاس مانند ImageNet21 (با ۱۳ میلیون تصویر) و JFT (با میلیاردها تصویر) ترکیب می‌کند. طبق گزارش تحقیق گوگل، EfficientNetV2 و CoAtNet هر دو ۴ تا ۱۰ برابر سریع‌تر هستند در حالی که به دقت بالای ۹۰.۸۸٪ در مجموعه داده ImageNet که به خوبی تثبیت شده‌است، دست می‌یابند.

خانوادهEfficientNetV2: مدل‌هایی برای آموزش سریع‌تر و اندازه کوچک‌تر

خانواده EfficientNetV2 بر اساس معماری EfficientNet قبلی ساخته شده است. تیم گوگل هوش مصنوعی موانع سرعت آموزشی بر روی TPUها/GUهای مدرن را مورد مطالعه قرار داد تا مدل اصلی را بهبود بخشد. آن‌ها موارد زیر را یافتند:

· آموزش با اندازه‌های بزرگ تصویر منجر به استفاده بیشتر از حافظه می‌شود، که این امر منجر به کاهش سرعت در TPUها/GPUها می‌شود.

· پیچیدگی‌های عمیق در TPUها/GPUها ناکارآمد هستند زیرا آن‌ها کاربرد سخت‌افزاری کمی دارند.

· روش یکپارچه مقیاس‌بندی ترکیبی که معمولاً مورد استفاده قرار می‌گیرد و هر مرحله از شبکه‌های کانولوشن را به طور مساوی افزایش می‌دهد، غیر بهینه است.

تیم تحقیقاتی گوگل هم یک جستجوی معماری عصبی آگاه (NAS) که در آن سرعت آموزش در هدف بهینه‌سازی گنجانده شده است و هم یک روش مقیاس‌بندی که مراحل مختلف را به صورت غیر یکنواخت مقیاس‌بندی می‌کند را برای رسیدگی به این مسائل همانطور که در بالا توضیح داده شد پیشنهاد می‌کند.

تیم تحقیقاتی گوگل مدل‌های EfficientNetV2 را در ImageNet و چند مجموعه داده یادگیری انتقالی دیگر ارزیابی می‌کند. در ImageNet، مدل‌های EfficientNetV2 نسبت به مدل‌های قبلی با سرعت آموزش ۵-۱۱ برابر سریع‌تر و اندازه مدل تا ۶.۸ برابر کوچک‌تر عملکرد بهتری دارند.

خانوادهCoAtNet: سرعت سریع‌تر و مدل‌های دقت بالاتر برای تشخیص تصویر با مقیاس بزرگ

در CoAtNet (CoAtNet: پیوند با کانولوشن و توجه برای همه مقادیر داده)، تیم تحقیقاتی روش‌هایی را برای ترکیب کانولوشن و خود-توجهی برای توسعه شبکه‌های عصبی سریع و دقیق برای تشخیص تصاویر در مقیاس بزرگ مورد مطالعه قرار دادند. با ترکیب کانولوشن و خود-توجهی، مدل‌های ترکیبی پیشنهادی می‌توانند هم به ظرفیت بیشتر و هم به تعمیم بهتر دست یابند.

گروه تحقیق به دو دیدگاه مهم در رابطه با یافته‌های COATNet دست یافت:

· به طور طبیعی می‌توان از طریق توجه نسبی ساده، کانولوشن عمیق و خود-توجهی را متحد کرد.

· چیدمان عمودی لایه‌های کانولوشن و لایه‌های توجه به گونه‌ای که ظرفیت و محاسبات مورد نیاز در هر مرحله (رزولوشن) را در نظر بگیرد، به طور شگفت‌انگیزی در بهبود تعمیم، ظرفیت و بازده موثر است.

براساس دیدگاه‌های بالا، تیم تحقیقاتی گوگل یک خانواده از مدل‌های ترکیبی متشکل از هم کانولوشن و هم توجه، به نام CoAtNets را ایجاد کرد.

طبق داده‌های مقاله تحقیقاتی گوگل، مدل CoAtNet از مدل‌های ViT و انواع آن در تعدادی از مجموعه داده‌ها مانند ImageNet1K، ImageNet21K و JFT بهتر عمل می‌کند. در مقایسه با شبکه‌های کانولوشن، CoAtNet رفتار عملکردی مشابهی را در یک مجموعه داده در مقیاس کوچک مانند ImageNet1K نشان می‌دهد.

این متن با استفاده از ربات مترجم مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.