بررسی چابکی روبات‌های الهام گرفته از طبیعت

منتشر‌شده در: وبلاگ هوش مصنوعی گوگل به تاریخ ۳ آپریل ۲۰۲۰
لینک منبع: Exploring Nature-Inspired Robot Agility

چه سگی در حال تعقیب توپ باشد و چه اسبی در حال پرش از روی موانع، حیوانات می‌توانند به راحتی فعالیت‌های بسیار چابک و سریع را انجام دهند. توسعه روبات‌هایی که قادر به تکرار این رفتارهای سریع هستند می‌تواند فرصت‌هایی را برای استقرار روبات‌ها برای وظایف پیچیده در جهان واقعی ایجاد کند. اما طراحی کنترل‌کننده‌هایی که روبات‌های پادار را قادر به انجام این رفتارهای سریع می‌کنند می‌تواند یک کار بسیار چالش برانگیز باشد. در حالی که یادگیری تقویتی روشی است که اغلب برای توسعه خودکار مهارت‌های رباتیک مورد استفاده قرار می‌گیرد، تعدادی از موانع فنی باقی می‌مانند و در عمل هنوز هم سربار کارهای دستی قابل‌توجهی وجود دارد. طراحی کارکردهای پاداش که منجر به مهارت‌های موثر می‌شوند، خود می‌تواند نیاز به بینش تخصصی زیادی داشته باشد، و اغلب شامل یک فرآیند پاداش طولانی برای هر مهارت مطلوب است. علاوه بر این، استفاده از یادگیری تقویتی برای روبات‌های پا نه تنها به الگوریتم‌های کارآمد نیاز دارد، بلکه به مکانیزم‌هایی نیز نیاز دارد که روبات‌ها را قادر سازد تا ایمن باقی بمانند و پس از افتادن، بدون کمک مکرر انسان، بازیابی شوند.

در این پست، ما در مورد دو پروژه اخیر خود با هدف پرداختن به این چالش‌ها بحث خواهیم کرد. اول، توضیح می‌دهیم که چگونه روبات‌ها می‌توانند با تقلید از حرکات حیوانات واقعی، حرکات سریع و روان مانند یورتمه رفتن و پریدن را بیاموزند. سپس، سیستمی را برای خودکارسازی آموزش مهارت‌های حرکت در دنیای واقعی مورد بحث قرار می‌دهیم، که به روبات‌ها اجازه می‌دهد تا با حداقل کمک انسان راه بروند.

یادگیری مهارت‌های حرکتی روباتیک سریع با تقلید از حیوانات

در «یادگیری مهارت‌های بهینه‌سازی روباتیک چابک با تقلید از حیوانات»، ما چارچوبی ارائه می‌دهیم که یک کلیپ حرکت مرجع ثبت‌شده از یک حیوان (در این مورد یک سگ) را می‌گیرد و از یادگیری تقویتی برای آموزش یک سیاست کنترلی استفاده می‌کند که ربات را قادر به تقلید از حرکت در دنیای واقعی می‌سازد. با ارائه حرکات مرجع متفاوت به سیستم، ما قادر به آموزش یک ربات چهارپا برای انجام مجموعه متنوعی از رفتارهای سریع، از یورتمه‌های سریع گرفته تا خیزهای پویا و چرخش‌های مختلف هستیم. این سیاست‌ها در درجه اول در شبیه‌سازی آموزش داده می‌شوند و سپس با استفاده از یک تکنیک تطبیق فضای پنهان به دنیای واقعی منتقل می‌شوند که می‌تواند به طور موثر یک سیاست را با استفاده از تنها چند دقیقه اطلاعات از ربات واقعی تطبیق دهد.

تقلید حرکت

ما با جمع‌آوری کلیپ های حرکت یک سگ واقعی که مهارت‌های مختلف حرکت کردن را انجام می‌دهد شروع می‌کنیم. سپس، ما از یادگیری تقویتی برای آموزش یک سیاست کنترل برای تقلید از حرکات سگ استفاده می‌کنیم. این سیاست‌ها در یک شبیه‌سازی فیزیکی برای ردیابی حالت حرکت مرجع در هر گام زمانی آموزش داده می‌شوند. سپس، با استفاده از حرکات مرجع مختلف در تابع پاداش، می‌توانیم یک ربات شبیه‌سازی شده را آموزش دهیم تا از مهارت‌های مختلف تقلید کند.

شکل ۱:یادگیری تقویتی برای آموزش یک ربات شبیه‌سازی شده برای تقلید از حرکات مرجع از یک سگ استفاده می‌شود. تمام شبیه‌سازی‌ها با استفاده از PyBullet انجام شده‌است.
شکل ۱:یادگیری تقویتی برای آموزش یک ربات شبیه‌سازی شده برای تقلید از حرکات مرجع از یک سگ استفاده می‌شود. تمام شبیه‌سازی‌ها با استفاده از PyBullet انجام شده‌است.

با این حال، از آنجا که عموما شبیه‌سازها تنها یک تقریب بزرگ از دنیای واقعی ارایه می‌دهند، سیاست‌های آموزش‌دیده در شبیه‌سازی اغلب وقتی بر روی یک ربات واقعی مستقر می‌شوند عملکرد ضعیفی دارند. بنابراین، ما از تکنیک تطبیق فضای پنهان موثر نمونه برای انتقال سیاست آموزش‌دیده در شبیه‌سازی به دنیای واقعی استفاده می‌کنیم.

اول، برای تشویق سیاست برای یادگیری رفتارهایی که در برابر تغییرات دینامیک مقاوم هستند، ما دینامیک شبیه‌سازی را با مقادیر فیزیکی مختلف، مانند جرم و اصطکاک ربات تصادفی می‌کنیم. از آنجا که ما به مقادیر این پارامترها در طول آموزش در شبیه‌سازی دسترسی داریم، همچنین می‌توانیم آن‌ها را با استفاده از یک کدگذار یادگرفته به نمایش با ابعاد پایین نگاشت کنیم. سپس این کدگذاری به عنوان یک ورودی اضافی به سیاست در طول آموزش داده می‌شود. از آنجا که پارامترهای فیزیکی ربات واقعی به طور پیشینی‌پذیر مشخص نیست، در هنگام بکارگیری سیاست برای یک ربات واقعی، ما کد کننده را حذف می‌کنیم و به طور مستقیم به دنبال مجموعه‌ای از پارامترها در فضای پنهان می‌گردیم که ربات را قادر به اجرای موفقیت‌آمیز مهارت‌های مورد نظر در دنیای واقعی می‌سازد. این تکنیک اغلب قادر است سیاستی را برای دنیای واقعی با استفاده از کم‌تر از ۸ دقیقه داده‌های دنیای واقعی اتخاذ کند.

شکل ۲:مقایسه سیاست‌ها قبل و بعد از تطبیق بر روی ربات واقعی. قبل از انطباق، ربات مستعد افتادن است. اما پس از انطباق، سیاست‌ها قادر به اجرای مداوم مهارت‌های مورد نظر هستند.
شکل ۲:مقایسه سیاست‌ها قبل و بعد از تطبیق بر روی ربات واقعی. قبل از انطباق، ربات مستعد افتادن است. اما پس از انطباق، سیاست‌ها قادر به اجرای مداوم مهارت‌های مورد نظر هستند.

نتایج

با استفاده از این روش، ربات یاد می‌گیرد که از مهارت‌های مختلف حرکت از یک سگ، شامل گونه‌های مختلف راه رفتن، مانند راه رفتن ساده، یورتمه رفتن و همچنین حرکت سریع چرخشی را تقلید کند.

شکل ۳:ربات از مهارت‌های مختلف یک سگ تقلید می‌کند.
شکل ۳:ربات از مهارت‌های مختلف یک سگ تقلید می‌کند.

علاوه بر تقلید از حرکات سگ‌های واقعی، تقلید از حرکات قاب کلید هنرمند-انیمیشنی شامل چرخش دینامیکی نیز امکان پذیر است:

شکل ۴:مهارت‌ها با تقلید از حرکات فریم های کلیدی هنرمند-انیمیشنی یاد گرفتند: قدم‌های جانبی، پیچ و پیچ.
شکل ۴:مهارت‌ها با تقلید از حرکات فریم های کلیدی هنرمند-انیمیشنی یاد گرفتند: قدم‌های جانبی، پیچ و پیچ.


یادگیری راه رفتن در دنیای واقعی با تلاش انسانی بسیار کم

روش بالا قادر است تا سیاست‌ها را در شبیه‌سازی آموزش دهد و سپس آن‌ها را با دنیای واقعی تطبیق دهد. با این حال، وقتی کار شامل پدیده‌های فیزیکی پیچیده و متنوع است، لازم است که مستقیما از تجربه دنیای واقعی درس بگیریم. اگر چه یادگیری بر روی روبات‌های واقعی به بهترین عملکرد برای کارهای دستی دست یافته‌است (به عنوان مثال، QT-Opt) ، اما استفاده از همان روش‌ها برای روبات‌های پادار دشوار است چون ممکن است ربات به خود آسیب برساند و یا منطقه آموزشی را ترک کند که پس از آن نیاز به مداخله انسان دارد.

شکل ۵:یک سیستم یادگیری خودکار برای روبات‌های پادار باید چالش‌های ایمنی و اتوماسیون را حل کند.
شکل ۵:یک سیستم یادگیری خودکار برای روبات‌های پادار باید چالش‌های ایمنی و اتوماسیون را حل کند.

در «یادگیری راه رفتن در دنیای واقعی با تلاش انسانی کم» (قابل مطالعه در مقاله‌خوان ترجمیار)، ما یک سیستم یادگیری خودکار با اجزای نرم‌افزاری و سخت‌افزاری، با استفاده از یک روند یادگیری چند وظیفه‌ای، یک یادگیرنده با محدودیت ایمنی، و چندین مولفه سخت‌افزاری و نرم‌افزاری که به دقت طراحی شده‌اند، توسعه دادیم. یادگیری چند وظیفه‌ای با ایجاد یک برنامه یادگیری که ربات را به سمت مرکز فضای کاری هدایت می‌کند، مانع از خروج ربات از منطقه آموزشی می‌شود. همچنین با طراحی یک محدودیت ایمنی که آن را با نزول با گرادیان دوگانه حل می‌کنیم، تعداد آبشارها را کاهش می‌دهیم.

برای هر حرکت، زمانبند کاری را انتخاب می‌کند که در آن جهت راه رفتن مورد نظر به سمت مرکز اشاره می‌کند. به عنوان مثال، با فرض اینکه ما دو کار داریم، راه رفتن به جلو و عقب، زمانبند کار رو به جلو را انتخاب می‌کند اگر ربات در پشت فضای کاری باشد، و بالعکس برای کار رو به عقب. در اواسط قسمت، یادگیرنده مراحل نزول گرادیان دوگانه را برای بهینه‌سازی تکراری محدودیت‌های هدف و ایمنی کار، به جای در نظر گرفتن آن‌ها به عنوان یک هدف واحد، اتخاذ می‌کند. اگر ربات سقوط کرده باشد، ما یک کنترل‌کننده راه‌اندازی خودکار را احضار کرده و به قسمت بعدی می‌رویم.

شکل ۶:ما اتوماسیون و چالش‌های ایمنی را با یادگیری چند وظیفه، یک الگوریتم SAC با محدودیت ایمنی، و یک کنترل‌کننده راه‌اندازی مجدد خودکار حل می‌کنیم.
شکل ۶:ما اتوماسیون و چالش‌های ایمنی را با یادگیری چند وظیفه، یک الگوریتم SAC با محدودیت ایمنی، و یک کنترل‌کننده راه‌اندازی مجدد خودکار حل می‌کنیم.

نتایج

این چارچوب به طور موفقیت آمیزی سیاست‌ها را از ابتدا به سمت مسیرهای مختلف بدون دخالت انسان هدایت می‌کند.

شکل ۷:تصاویری از فرآیند آموزش بر روی سطح صاف بدون ریست‌ها مجدد توسط انسان.
شکل ۷:تصاویری از فرآیند آموزش بر روی سطح صاف بدون ریست‌ها مجدد توسط انسان.

پس از آموزش، امکان هدایت ربات با یک کنترل‌کننده از راه دور وجود دارد. توجه داشته باشید که چگونه می توان به ربات دستور داد تا با استفاده از کنترلر به جای خود برگردد. طراحی دستی این عمل به دلیل ساختار پای مسطح ربات دشوار است، اما به طور خودکار با استفاده از یادگیرنده چند نمونه‌ای خودکار ما کشف می‌شود.

شکل ۸:ما سیاست‌های حرکت را برای راه رفتن در چهار جهت آموزش می‌دهیم که به ما این امکان را می‌دهد تا ربات را به صورت تعاملی با یک کنترل‌کننده بازی کنترل کنیم.
شکل ۸:ما سیاست‌های حرکت را برای راه رفتن در چهار جهت آموزش می‌دهیم که به ما این امکان را می‌دهد تا ربات را به صورت تعاملی با یک کنترل‌کننده بازی کنترل کنیم.

این سیستم همچنین ربات را قادر می‌سازد تا در سطوح چالش برانگیزتری مانند تشک فوم حافظه‌دار و پادری با شکاف هدایت شود.

شکل ۹:حرکت در مسیرهای پرچالش
شکل ۹:حرکت در مسیرهای پرچالش


نتیجه‌گیری

در این دو مقاله، ما روش‌هایی را برای تولید مجدد مجموعه متنوعی از رفتارها با روبات‌های چهارگانه ارایه می‌دهیم. گسترش این خط کار برای یادگیری مهارت‌ها از ویدئوها نیز یک مسیر هیجان‌انگیز خواهد بود که به طور قابل‌توجهی می‌تواند حجم داده‌هایی که روبات‌ها می‌توانند از آن‌ها یاد بگیرند را افزایش دهد. ما همچنین علاقمند به استفاده از سیستم آموزش خودکار برای محیط‌ها و وظایف پیچیده‌تر دنیای واقعی هستیم.


این متن با استفاده از ربات مترجم مقالات یادگیری ماشین ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.