یک ایده از فیزیک کمک می‌کند که هوش مصنوعی در ابعاد بالاتر ببیند


‌روش‌های جدید یادگیری عمیق، که در شناسایی تومورهای ریه در سی‌تی‌اسکن با دقت بیشتری نسبت به گذشته نشان داده‌اند، روزی می‌توانند منجر به تشخیص بهتر پزشکی شوند.
‌روش‌های جدید یادگیری عمیق، که در شناسایی تومورهای ریه در سی‌تی‌اسکن با دقت بیشتری نسبت به گذشته نشان داده‌اند، روزی می‌توانند منجر به تشخیص بهتر پزشکی شوند.
چاپ‌شده در: مجله Quanta به تاریخ ۹ ژانویه ۲۰۲۰
نویسنده: John Pavlus
لینک مقاله اصلی: https://www.quantamagazine.org/an-idea-from-physics-helps-ai-see-in-higher-dimensions-20200109/

این مقاله توسط ربات ترجمیار و به صورت خودکار ترجمه شده و می‌تواند به صورت محدود دارای اشکالات ترجمه باشد.

کامپیوترها اکنون می‌توانند ماشین‌ها را رانندگی کنند، قهرمانان جهان را در بازی‌های تخته مانند شطرنج و گو شکست دهند و حتی نثر بنویسند. انقلاب در هوش مصنوعی تا حد زیادی ناشی از قدرت یک نوع خاص از شبکه عصبی مصنوعی است که طراحی آن از لایه‌های متصل نورون‌ها در قشر بینایی پستانداران الهام‌گرفته است. این شبکه‌های عصبی کانولوشنی (CNN) به طرز شگفت انگیزی در یادگیری الگوهای داده‌های دو بعدی به خصوص در وظایف بینایی کامپیوتری مانند تشخیص کلمات و اشیا دست‌نویس در تصاویر دیجیتال مهارت دارند.

اما هنگامی که برای مجموعه داده‌ها بدون یک هندسه مسطح استفاده می‌شود، مدل‌های اشکال نامنظم مورد استفاده در انیمیشن کامپیوتری ۳ بعدی، یا ابرهای نقطه‌ای تولید شده توسط ماشین‌های خودکار برای نگاشت محیط اطراف خود - این معماری یادگیری ماشین قدرتمند به خوبی کار نمی‌کند. در حدود سال ۲۰۱۶، یک رشته جدید به نام یادگیری عمیق هندسی با هدف حذف CNN از زمین‌های هموار (۲ بعدی) پدیدار شد.

اکنون محققان با یک چارچوب نظری جدید برای ساختن شبکه‌های عصبی ارائه کرده‌اند که می‌توانند الگوها را در هر نوع سطح هندسی یاد بگیرد. این «شبکه‌های عصبی هم‌حجم با هم مقیاس» یا به اختصار gauge CNNs، که در دانشگاه آمستردام و مرکز تحقیقات هوش مصنوعی کوالکام توسط تاکو کوهن، موریس ویلر، برکن کیکان‌اوغلو و مکس ویلینگ توسعه داده شد، می‌تواند الگوها را نه تنها در آرایه‌های ۲ بعدی پیکسل، بلکه بر روی کره و اشیا منحنی نامتقارن شناسایی کند. ویلینگ گفت: «این چارچوب یک پاسخ نسبتا قطعی برای این مشکل یادگیری عمیق در سطوح منحنی است.»

در حال حاضر، سنجش CNNها در داده‌های آب و هوایی شبیه‌سازی شده جهانی، به میزان زیادی از پیشینیان خود در الگوهای یادگیری پیشی گرفته‌اند، که به طور طبیعی در یک کره نقشه‌برداری شده‌اند. الگوریتم‌ها همچنین ممکن است برای بهبود دید هواپیماهای بدون سرنشین و وسایل نقلیه خود مختار که اشیا را در سه‌بعدی می‌بینند و برای تشخیص الگوها در داده‌های جمع‌آوری‌شده از سطوح منحنی نامنظم قلب، مغز یا دیگر اندام‌ها مفید باشند. راه‌حل محققان برای یادگیری عمیق برای کار فراتر از زمین‌های مسطح نیز ارتباطات عمیقی با فیزیک دارد. نظریه‌های فیزیکی که جهان را توصیف می‌کنند، مانند نظریه نسبیت عام آلبرت انیشتین و مدل استاندارد فیزیک ذرات، یک ویژگی به نام «برابری پیمانه‌ای» را نشان می‌دهند؛ این بدان معنی است که مقادیر در جهان و روابط آن‌ها به چارچوب‌های اختیاری مرجع (یا gauge) وابسته نیستند؛ آن‌ها ثابت باقی می‌مانند که آیا یک ناظر در حال حرکت است یا ایستاده، و مهم نیست که اعداد چقدر از یک قانون فاصله دارند. اندازه‌گیری‌ها در این اندازه‌گیری‌های مختلف باید به گونه‌ای به یکدیگر همگرا شوند که روابط اساسی بین چیزها را حفظ کند.

برای مثال، تصور کنید که طول یک زمین فوتبال را در یارد اندازه‌گیری کنید، سپس آن را دوباره به متر اندازه‌گیری کنید. اعداد تغییر خواهند کرد، اما به روشی قابل‌پیش‌بینی. به طور مشابه، دو عکاس که از یک شی از دو نقطه دید مختلف عکس می‌گیرند، تصاویر متفاوتی ایجاد خواهند کرد، اما آن تصاویر می‌توانند به یکدیگر مرتبط باشند. برابری واریانس تضمین می‌کند که مدل‌های فیزیک‌دانان از واقعیت، صرف‌نظر از دیدگاه یا واحد اندازه‌گیری آن‌ها، ثابت می‌مانند. و gauge CNNs همین فرض را در مورد داده‌ها دارد.

کایل کرنمر، یک فیزیکدان در دانشگاه نیویورک که یادگیری ماشین را برای داده‌های فیزیک ذرات بکار می‌برد، گفت: «همان ایده [ از فیزیک ] که هیچ جهت گیری خاصی ندارد - آن‌ها می‌خواستند آن را به شبکه‌های عصبی اعمال کنند و آن‌ها فهمیدند که چطور این کار را انجام دهند.»

فرار از زمین‌های مسطح

مایکل برونشتاین، دانشمند علوم کامپیوتر در کالج امپریال لندن، اصطلاح «یادگیری عمیق هندسی» را در سال ۲۰۱۵ برای توصیف تلاش‌های در حال تکوین برای از بین بردن زمین‌های مسطح و طراحی شبکه‌های عصبی که می‌توانند الگوها را در داده‌های غیر مسطح یاد بگیرند، ابداع کرد. این اصطلاح - و تلاش برای تحقیق - به زودی به کار گرفته شد.

برونشتاین و همکارانش می‌دانستند که فراتر رفتن از صفحه اقلیدسی نیازمند آن است که آن‌ها یکی از روش‌های محاسباتی اساسی را که شبکه‌های عصبی را در تشخیص تصویر دوبعدی در وهله اول بسیار موثر می‌کرد، مجددا تصور کنند. این روش، که کانولوشن نامیده می‌شود، اجازه می‌دهد یک لایه از شبکه عصبی یک عملیات ریاضی روی تکه‌های کوچک داده‌های ورودی انجام دهد و سپس نتایج را به لایه بعدی در شبکه انتقال دهد.

برانشتاین توضیح می دهد: «شما می‌توانید به کانولوشن فکر کنید، تقریبا به عنوان یک پنجره کشویی.» یک شبکه عصبی کانولوشنی بسیاری از این «پنجره‌ها» را بر روی فیلترهای داده مانند، با هر کدام که برای تشخیص نوع خاصی از الگو در داده‌ها طراحی شده‌است، به تصویر می‌کشد. در مورد یک عکس گربه‌ای، یک سی‌ان‌ان آموزش‌دیده ممکن است از فیلترهایی استفاده کند که ویژگی‌های سطح پایین را در پیکسل‌های ورودی خام، مانند لبه‌ها تشخیص می‌دهند. این ویژگی‌ها به لایه‌های دیگر شبکه منتقل می‌شوند، که پیچش اضافی انجام می‌دهند و ویژگی‌های سطح بالاتر مانند چشم، دنباله یا گوش‌های مثلثی را استخراج می‌کنند. یک سی ان ان آموزش‌دیده برای تشخیص گربه‌ها در نهایت از نتایج این پیچیدگی‌های لایه‌ای برای تعیین یک برچسب - مثلا «گربه» یا «غیر گربه» - به کل تصویر استفاده خواهد کرد.

شبکه‌های کانولوشن چگونه می‌بینند
شبکه‌های کانولوشن چگونه می‌بینند

اما این رویکرد تنها بر روی یک صفحه کار می‌کند. وقتی سطحی که می‌خواهید تحلیل خود را روی آن انجام دهید منحنی می‌شود، پس اساسا دچار مشکل می‌شوید. انجام یک کانولوشن بر روی یک سطح منحنی - که در هندسه به عنوان یک منیفولد شناخته می‌شود - بسیار شبیه نگه داشتن مربع کوچکی از کاغذ گراف شفاف در یک کره و تلاش برای ردیابی دقیق خط ساحلی گرینلند است. شما نمی‌توانید میدان را بدون این که کاغذ را جا بیندازید بر روی گرینلند فشار دهید، که به این معنی است که وقتی دوباره آن را صاف کنید، نقاشی شما تغییر شکل خواهد یافت. اما نگه داشتن مربع کاغذ مماس بر کره در یک نقطه و دنبال کردن لبه (گرینلند) در حالی که از طریق این مقاله (تکنیکی به نام طرح Mercator دیده می‌شود)نیز باعث ایجاد انحراف خواهد شد. متناوبا، شما می‌توانید کاغذ نمودار خود را به جای یک کره روی یک نقشه دنیای مسطح قرار دهید، اما پس از آن فقط آن تحریفات را تکرار می‌کنید - مانند این واقعیت که کل لبه بالایی نقشه در واقع تنها یک نقطه روی کره زمین را نشان می‌دهد (قطب شمال). و اگر منیفولد یک کره تمیز مانند کره نباشد، اما چیزی پیچیده‌تر یا نامنظم‌تر مانند شکل سه‌بعدی یک بطری، یا یک پروتئین تا خورده، انجام کانولوشن روی آن حتی سخت‌تر می‌شود.

برونشتاین و همکارانش یک راه‌حل برای مشکل کانولوشن بر روی منیفولدهای غیر اقلیدسی در سال ۲۰۱۵ پیدا کردند، با تصور مجدد پنجره کشویی به عنوان چیزی شبیه به تار عنکبوت دایره‌ای نسبت به یک تکه کاغذ گراف، به طوری که بتوانید آن را به کره (یا هر سطح منحنی) بدون چین دادن، کش دادن یا پاره کردن آن فشار دهید.

تغییر ویژگی‌های فیلتر کشویی به این روش، سی‌ان‌ان را در درک روابط هندسی خاص بسیار بهتر می‌کند. برای مثال، شبکه می‌تواند به طور خودکار تشخیص دهد که یک شکل سه‌بعدی در دو حالت مختلف خم شده‌است - مانند یک شکل انسان ایستاده و یک شکل انسان بلند کردن یک پا - نمونه‌هایی از یک شی بودند، به جای دو شی کاملا متفاوت. این تغییر همچنین شبکه عصبی را در یادگیری بسیار موثرتر کرده‌است. برونشتاین گفت: «سی‌ان‌ان‌های استاندارد از میلیون ها نمونه شکل [ و مورد نیاز ] برای هفته‌ها استفاده می کند. ما از چیزی مانند ۱۰۰ شکل در حالت‌های مختلف استفاده کردیم و شاید نیم ساعت آموزش دادیم.»

در همان زمان، تاکو کوهن و همکارانش در آمستردام شروع به نزدیک شدن به همان مشکل از جهت مخالف کردند. در سال ۲۰۱۵، کوهن، یک دانشجوی فارغ‌التحصیل در آن زمان، در مورد چگونگی رفع مشکل محدودیت یادگیری عمیق به زمین‌های مسطح مطالعه نمی‌کرد. در عوض، او به آنچه که فکر می‌کرد یک مشکل عملی مهندسی است. او علاقه‌مند بود: بهره‌وری داده‌ها، یا چگونگی آموزش شبکه‌های عصبی با نمونه‌های کم‌تر از هزاران یا میلیون هایی که اغلب نیاز داشتند. کوهن گفت: «باید بگوییم که روش‌های یادگیری عمیق، یادگیرندگان بسیار کندی هستند. اگر شما به سی‌ان‌ان آموزش دهید که گربه‌ها را بشناسد (با توجه به منبع بی‌پایان تصاویر گربه در اینترنت)، این مساله مشکل است. اما اگر می‌خواهید که شبکه چیزی مهم‌تر، مانند گره‌های سرطانی در تصاویر بافت ریه را شناسایی کند، پس یافتن داده‌های آموزشی کافی - که نیاز به دقت پزشکی، برچسب گذاری مناسب و عاری از مسایل حریم خصوصی دارند - چندان آسان نیست. هرچه مثال‌های کمتری برای آموزش شبکه نیاز باشد، بهتر است.

کوهن می‌دانست که یک راه برای افزایش کارایی داده یک شبکه عصبی مجهز کردن آن به فرضیات خاص در مورد داده‌ها از قبل است، برای مثال، یک تومور ریه هنوز یک تومور ریه است، حتی اگر در یک تصویر چرخانده یا منعکس شده‌ باشد. معمولا، یک شبکه کانولوشنی باید این اطلاعات را با آموزش نمونه‌های زیادی از یک الگو در جهت گیری های مختلف از نو یاد بگیرد. در سال ۲۰۱۶، کوهن و ولینگ در نوشتن مقاله‌ای هم‌کاری کردند که تعریف می‌کرد چگونه برخی از این فرضیات را در یک شبکه عصبی به عنوان تقارن‌های هندسی کدگذاری کنند. این رویکرد آنقدر خوب عمل کرد که تا سال ۲۰۱۸، کوهن و هم‌کار نویسنده ماری وینکل آن را حتی بیشتر تعمیم دادند، و نتایج امیدوار کننده در تشخیص سرطان ریه در اسکن‌های CT را نشان دادند: شبکه عصبی آن‌ها می‌توانست شواهد بصری بیماری را با استفاده از تنها یک دهم داده‌های استفاده‌شده برای آموزش شبکه‌های دیگر شناسایی کند.

این مقاله توسط ربات ترجمیار و به صورت خودکار ترجمه شده و می‌تواند به صورت محدود دارای اشکالات ترجمه باشد.
برای ادامه مطالعه این مقاله در مقاله‌خوان ترجمیار به صورت رایگان از این لینک استفاده کنید.