من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
یک ایده از فیزیک کمک میکند که هوش مصنوعی در ابعاد بالاتر ببیند
چاپشده در: مجله Quanta به تاریخ ۹ ژانویه ۲۰۲۰
نویسنده: John Pavlus
لینک مقاله اصلی: https://www.quantamagazine.org/an-idea-from-physics-helps-ai-see-in-higher-dimensions-20200109/
این مقاله توسط ربات ترجمیار و به صورت خودکار ترجمه شده و میتواند به صورت محدود دارای اشکالات ترجمه باشد.
کامپیوترها اکنون میتوانند ماشینها را رانندگی کنند، قهرمانان جهان را در بازیهای تخته مانند شطرنج و گو شکست دهند و حتی نثر بنویسند. انقلاب در هوش مصنوعی تا حد زیادی ناشی از قدرت یک نوع خاص از شبکه عصبی مصنوعی است که طراحی آن از لایههای متصل نورونها در قشر بینایی پستانداران الهامگرفته است. این شبکههای عصبی کانولوشنی (CNN) به طرز شگفت انگیزی در یادگیری الگوهای دادههای دو بعدی به خصوص در وظایف بینایی کامپیوتری مانند تشخیص کلمات و اشیا دستنویس در تصاویر دیجیتال مهارت دارند.
اما هنگامی که برای مجموعه دادهها بدون یک هندسه مسطح استفاده میشود، مدلهای اشکال نامنظم مورد استفاده در انیمیشن کامپیوتری ۳ بعدی، یا ابرهای نقطهای تولید شده توسط ماشینهای خودکار برای نگاشت محیط اطراف خود - این معماری یادگیری ماشین قدرتمند به خوبی کار نمیکند. در حدود سال ۲۰۱۶، یک رشته جدید به نام یادگیری عمیق هندسی با هدف حذف CNN از زمینهای هموار (۲ بعدی) پدیدار شد.
اکنون محققان با یک چارچوب نظری جدید برای ساختن شبکههای عصبی ارائه کردهاند که میتوانند الگوها را در هر نوع سطح هندسی یاد بگیرد. این «شبکههای عصبی همحجم با هم مقیاس» یا به اختصار gauge CNNs، که در دانشگاه آمستردام و مرکز تحقیقات هوش مصنوعی کوالکام توسط تاکو کوهن، موریس ویلر، برکن کیکاناوغلو و مکس ویلینگ توسعه داده شد، میتواند الگوها را نه تنها در آرایههای ۲ بعدی پیکسل، بلکه بر روی کره و اشیا منحنی نامتقارن شناسایی کند. ویلینگ گفت: «این چارچوب یک پاسخ نسبتا قطعی برای این مشکل یادگیری عمیق در سطوح منحنی است.»
در حال حاضر، سنجش CNNها در دادههای آب و هوایی شبیهسازی شده جهانی، به میزان زیادی از پیشینیان خود در الگوهای یادگیری پیشی گرفتهاند، که به طور طبیعی در یک کره نقشهبرداری شدهاند. الگوریتمها همچنین ممکن است برای بهبود دید هواپیماهای بدون سرنشین و وسایل نقلیه خود مختار که اشیا را در سهبعدی میبینند و برای تشخیص الگوها در دادههای جمعآوریشده از سطوح منحنی نامنظم قلب، مغز یا دیگر اندامها مفید باشند. راهحل محققان برای یادگیری عمیق برای کار فراتر از زمینهای مسطح نیز ارتباطات عمیقی با فیزیک دارد. نظریههای فیزیکی که جهان را توصیف میکنند، مانند نظریه نسبیت عام آلبرت انیشتین و مدل استاندارد فیزیک ذرات، یک ویژگی به نام «برابری پیمانهای» را نشان میدهند؛ این بدان معنی است که مقادیر در جهان و روابط آنها به چارچوبهای اختیاری مرجع (یا gauge) وابسته نیستند؛ آنها ثابت باقی میمانند که آیا یک ناظر در حال حرکت است یا ایستاده، و مهم نیست که اعداد چقدر از یک قانون فاصله دارند. اندازهگیریها در این اندازهگیریهای مختلف باید به گونهای به یکدیگر همگرا شوند که روابط اساسی بین چیزها را حفظ کند.
برای مثال، تصور کنید که طول یک زمین فوتبال را در یارد اندازهگیری کنید، سپس آن را دوباره به متر اندازهگیری کنید. اعداد تغییر خواهند کرد، اما به روشی قابلپیشبینی. به طور مشابه، دو عکاس که از یک شی از دو نقطه دید مختلف عکس میگیرند، تصاویر متفاوتی ایجاد خواهند کرد، اما آن تصاویر میتوانند به یکدیگر مرتبط باشند. برابری واریانس تضمین میکند که مدلهای فیزیکدانان از واقعیت، صرفنظر از دیدگاه یا واحد اندازهگیری آنها، ثابت میمانند. و gauge CNNs همین فرض را در مورد دادهها دارد.
کایل کرنمر، یک فیزیکدان در دانشگاه نیویورک که یادگیری ماشین را برای دادههای فیزیک ذرات بکار میبرد، گفت: «همان ایده [ از فیزیک ] که هیچ جهت گیری خاصی ندارد - آنها میخواستند آن را به شبکههای عصبی اعمال کنند و آنها فهمیدند که چطور این کار را انجام دهند.»
فرار از زمینهای مسطح
مایکل برونشتاین، دانشمند علوم کامپیوتر در کالج امپریال لندن، اصطلاح «یادگیری عمیق هندسی» را در سال ۲۰۱۵ برای توصیف تلاشهای در حال تکوین برای از بین بردن زمینهای مسطح و طراحی شبکههای عصبی که میتوانند الگوها را در دادههای غیر مسطح یاد بگیرند، ابداع کرد. این اصطلاح - و تلاش برای تحقیق - به زودی به کار گرفته شد.
برونشتاین و همکارانش میدانستند که فراتر رفتن از صفحه اقلیدسی نیازمند آن است که آنها یکی از روشهای محاسباتی اساسی را که شبکههای عصبی را در تشخیص تصویر دوبعدی در وهله اول بسیار موثر میکرد، مجددا تصور کنند. این روش، که کانولوشن نامیده میشود، اجازه میدهد یک لایه از شبکه عصبی یک عملیات ریاضی روی تکههای کوچک دادههای ورودی انجام دهد و سپس نتایج را به لایه بعدی در شبکه انتقال دهد.
برانشتاین توضیح می دهد: «شما میتوانید به کانولوشن فکر کنید، تقریبا به عنوان یک پنجره کشویی.» یک شبکه عصبی کانولوشنی بسیاری از این «پنجرهها» را بر روی فیلترهای داده مانند، با هر کدام که برای تشخیص نوع خاصی از الگو در دادهها طراحی شدهاست، به تصویر میکشد. در مورد یک عکس گربهای، یک سیانان آموزشدیده ممکن است از فیلترهایی استفاده کند که ویژگیهای سطح پایین را در پیکسلهای ورودی خام، مانند لبهها تشخیص میدهند. این ویژگیها به لایههای دیگر شبکه منتقل میشوند، که پیچش اضافی انجام میدهند و ویژگیهای سطح بالاتر مانند چشم، دنباله یا گوشهای مثلثی را استخراج میکنند. یک سی ان ان آموزشدیده برای تشخیص گربهها در نهایت از نتایج این پیچیدگیهای لایهای برای تعیین یک برچسب - مثلا «گربه» یا «غیر گربه» - به کل تصویر استفاده خواهد کرد.
اما این رویکرد تنها بر روی یک صفحه کار میکند. وقتی سطحی که میخواهید تحلیل خود را روی آن انجام دهید منحنی میشود، پس اساسا دچار مشکل میشوید. انجام یک کانولوشن بر روی یک سطح منحنی - که در هندسه به عنوان یک منیفولد شناخته میشود - بسیار شبیه نگه داشتن مربع کوچکی از کاغذ گراف شفاف در یک کره و تلاش برای ردیابی دقیق خط ساحلی گرینلند است. شما نمیتوانید میدان را بدون این که کاغذ را جا بیندازید بر روی گرینلند فشار دهید، که به این معنی است که وقتی دوباره آن را صاف کنید، نقاشی شما تغییر شکل خواهد یافت. اما نگه داشتن مربع کاغذ مماس بر کره در یک نقطه و دنبال کردن لبه (گرینلند) در حالی که از طریق این مقاله (تکنیکی به نام طرح Mercator دیده میشود)نیز باعث ایجاد انحراف خواهد شد. متناوبا، شما میتوانید کاغذ نمودار خود را به جای یک کره روی یک نقشه دنیای مسطح قرار دهید، اما پس از آن فقط آن تحریفات را تکرار میکنید - مانند این واقعیت که کل لبه بالایی نقشه در واقع تنها یک نقطه روی کره زمین را نشان میدهد (قطب شمال). و اگر منیفولد یک کره تمیز مانند کره نباشد، اما چیزی پیچیدهتر یا نامنظمتر مانند شکل سهبعدی یک بطری، یا یک پروتئین تا خورده، انجام کانولوشن روی آن حتی سختتر میشود.
برونشتاین و همکارانش یک راهحل برای مشکل کانولوشن بر روی منیفولدهای غیر اقلیدسی در سال ۲۰۱۵ پیدا کردند، با تصور مجدد پنجره کشویی به عنوان چیزی شبیه به تار عنکبوت دایرهای نسبت به یک تکه کاغذ گراف، به طوری که بتوانید آن را به کره (یا هر سطح منحنی) بدون چین دادن، کش دادن یا پاره کردن آن فشار دهید.
تغییر ویژگیهای فیلتر کشویی به این روش، سیانان را در درک روابط هندسی خاص بسیار بهتر میکند. برای مثال، شبکه میتواند به طور خودکار تشخیص دهد که یک شکل سهبعدی در دو حالت مختلف خم شدهاست - مانند یک شکل انسان ایستاده و یک شکل انسان بلند کردن یک پا - نمونههایی از یک شی بودند، به جای دو شی کاملا متفاوت. این تغییر همچنین شبکه عصبی را در یادگیری بسیار موثرتر کردهاست. برونشتاین گفت: «سیانانهای استاندارد از میلیون ها نمونه شکل [ و مورد نیاز ] برای هفتهها استفاده می کند. ما از چیزی مانند ۱۰۰ شکل در حالتهای مختلف استفاده کردیم و شاید نیم ساعت آموزش دادیم.»
در همان زمان، تاکو کوهن و همکارانش در آمستردام شروع به نزدیک شدن به همان مشکل از جهت مخالف کردند. در سال ۲۰۱۵، کوهن، یک دانشجوی فارغالتحصیل در آن زمان، در مورد چگونگی رفع مشکل محدودیت یادگیری عمیق به زمینهای مسطح مطالعه نمیکرد. در عوض، او به آنچه که فکر میکرد یک مشکل عملی مهندسی است. او علاقهمند بود: بهرهوری دادهها، یا چگونگی آموزش شبکههای عصبی با نمونههای کمتر از هزاران یا میلیون هایی که اغلب نیاز داشتند. کوهن گفت: «باید بگوییم که روشهای یادگیری عمیق، یادگیرندگان بسیار کندی هستند. اگر شما به سیانان آموزش دهید که گربهها را بشناسد (با توجه به منبع بیپایان تصاویر گربه در اینترنت)، این مساله مشکل است. اما اگر میخواهید که شبکه چیزی مهمتر، مانند گرههای سرطانی در تصاویر بافت ریه را شناسایی کند، پس یافتن دادههای آموزشی کافی - که نیاز به دقت پزشکی، برچسب گذاری مناسب و عاری از مسایل حریم خصوصی دارند - چندان آسان نیست. هرچه مثالهای کمتری برای آموزش شبکه نیاز باشد، بهتر است.
کوهن میدانست که یک راه برای افزایش کارایی داده یک شبکه عصبی مجهز کردن آن به فرضیات خاص در مورد دادهها از قبل است، برای مثال، یک تومور ریه هنوز یک تومور ریه است، حتی اگر در یک تصویر چرخانده یا منعکس شده باشد. معمولا، یک شبکه کانولوشنی باید این اطلاعات را با آموزش نمونههای زیادی از یک الگو در جهت گیری های مختلف از نو یاد بگیرد. در سال ۲۰۱۶، کوهن و ولینگ در نوشتن مقالهای همکاری کردند که تعریف میکرد چگونه برخی از این فرضیات را در یک شبکه عصبی به عنوان تقارنهای هندسی کدگذاری کنند. این رویکرد آنقدر خوب عمل کرد که تا سال ۲۰۱۸، کوهن و همکار نویسنده ماری وینکل آن را حتی بیشتر تعمیم دادند، و نتایج امیدوار کننده در تشخیص سرطان ریه در اسکنهای CT را نشان دادند: شبکه عصبی آنها میتوانست شواهد بصری بیماری را با استفاده از تنها یک دهم دادههای استفادهشده برای آموزش شبکههای دیگر شناسایی کند.
این مقاله توسط ربات ترجمیار و به صورت خودکار ترجمه شده و میتواند به صورت محدود دارای اشکالات ترجمه باشد.
برای ادامه مطالعه این مقاله در مقالهخوان ترجمیار به صورت رایگان از این لینک استفاده کنید.
مطلبی دیگر از این انتشارات
چگونه عادتهای بد خواب میتواند خطر آسم شما را دو برابر کند؟
مطلبی دیگر از این انتشارات
۱۳ مورد از بهترین بازیها برای بازی با همکاران
مطلبی دیگر از این انتشارات
کنکاشی عمیق در OpenAI CLIP با نورونهای چندوجهی