از نیرو استفاده کنید!

منتشر‌شده در: وبلاگ SyncedReview به تاریخ ۹ آپریل ۲۰۲۰
لینک منبع: Use the Force! AI Predicts Human-Object Contact Points and Forces From Video

«این یک میدان انرژی است که توسط همه موجودات زنده ایجاد می‌شود، ما را احاطه کرده و به ما نفوذ می‌کند، کهکشان را به هم متصل می‌کند» به این ترتیب جیدی ارباب اوبی-وان کنوبی «نیرو» را به لوک اسکای واکر توضیح می‌دهد. نیروهای نامریی و در عین حال قدرتمند طبیعت نیز مورد علاقه محققان یادگیری ماشین امروزی هستند، که در آن درک انرژی، نیروها و فیزیک برای توسعه کاربردهای هوش مصنوعی در دنیای واقعی حیاتی است.


نیرو در واقع همه جا هست. در فیزیک، یک نیرو، هر تعاملی است که وقتی صفر نباشد، حرکت یک جسم را تغییر دهد. انسان‌ها نیاز ندارند که دوباره فکر کنند تا فیزیک را در بیشتر تعاملات بین انسان و اشیا کشف کنند و ما همچنین می‌توانیم به طور ساده به ویدئوها نگاه کنیم و از آن‌ها تقلید کنیم. اما این به طور طبیعی برای ماشین‌ها اتفاق نمی‌افتد.

در یک مطالعه جدید، محققانی از مرکز تحقیقات هوش مصنوعی فیس بوک، دانشگاه واشنگتن، UIUC، و دانشگاه کارنگی ملون از شبیه‌ساز فیزیک برای یادگیری پیش‌بینی نیروهای فیزیکی در ویدئوهای تعامل انسان با اشیا استفاده می‌کنند.

محققان می‌گویند که تشخیص فعلی یا رویکردهای هندسی فاقد قابلیت نمایش عمل هستند، و روش خود را برای بهبود درک فیزیکی تعاملات انسان و ماشین پیشنهاد می‌کنند:  « در حالی که هدف توانایی استنباط این نیروها مطلوب است، اما متاسفانه (اگر غیر ممکن نباشد) بدست آوردن نظارت مستقیم برای این کار خسته‌کننده است.» نظارت سیگنال‌های ضروری را برای برچسب گذاری داده‌های آموزشی فراهم می‌کند، اما به دست آوردن برچسب‌های حقیقت زمینی برای نیروها چالشی است که حل‌نشده باقی می‌ماند. آیا راه دیگری برای نظارت وجود دارد؟ تیم مشاهده کرد که یک درک کامل هندسی می‌تواند با شبیه‌سازی اثرات نیروهای فیزیکی بر روی اشیا بازیابی شود، و از یک شبیه‌ساز فیزیک برای نظارت استفاده کرد.

هدف از شبیه‌سازی، تقلید از حرکات مشاهده‌شده در ویدئوهای تعاملی است. محققان ویدئوهای که نشان‌دهنده تعامل انسان با یک شی هستند را وارد می‌کنند و مدل حرکت شی، نقاط تماس و نیروها را به عنوان خروجی استخراج می‌کند. برای یادگیری چگونگی تغییر دینامیک اشیا، محققان نیروها را در شبیه‌سازی‌های فیزیکی اعمال می‌کنند، که در آن مدل یاد می‌گیرد چگونه با به حداقل رساندن خطا در تصویر شی به قاب دوربین و پیش‌بینی دقیق نقاط تماس، بهینه‌سازی کند.

هندسه شی می‌تواند در سراسر تعامل تغییر کند - به عنوان مثال زمانی که دستی یک دسته را بالا می‌برد؛ در حالی که نقاط تماس دست به شی نیز می‌تواند چالش برانگیز باشد برای مثال زمانی که رشته‌های گیتار انگشتان به هم متصل می‌شوند. برای اینکه جدول کار رسم شود، تیم چارچوب مطالعه را محدود کرد و فرض کرد که تعاملات با یک شی مشخص و سفت و سخت هستند و تنها شامل یک دست پنج انگشتی با اعمال نیرو هستند.

برای آموزش سیستم، محققان مجموعه‌ای از ویدئوهای دستکاری اشیا را جمع‌آوری کردند که نشان می‌داد شرکت کنندگان مختلف انسانی هشت شی رایج را برمی‌دارند و حرکت می‌دهند: پارچ، بطری سفید کننده، ماهی‌تابه، مته، چکش، هواپیمای اسباب‌بازی، سوپ و بطری خردل. آن‌ها همچنین توضیحات نقاط کلیدی و نقاط تماس در هر چارچوب، و نقاط تماس سه‌بعدی هر تعامل را اضافه کردند.

این تیم می‌گوید که این روش نیروهای معنی‌دار از ویدئوها و اثرات آن‌ها بر نقاط تماس پیش‌بینی‌شده را نشان می‌دهد، که امکان تقلید دقیق حرکات در شبیه‌سازی فیزیک را فراهم می‌کند. انتخاب ارزشمند دیگر دور از این مطالعه این است که نقطه تماس و پیش‌بینی نیرو به شدت هم‌بسته هستند و بهینه‌سازی مشترک عملکرد در هر دو کار را بهبود می‌بخشد.

محققان بر این باورند که این مطالعه یک گام مهم رو به جلو در کنار هم قرار دادن عمل و ادراک در یک چارچوب مشترک است، و همچنین پیش‌بینی این مدل از نیروهای فیزیکی می‌تواند به تسریع روال‌های یادگیری رباتیک کمک کند.


این متن با استفاده از ربات مترجم مقالات یادگیری ماشین ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.