من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
بررسی چابکی روباتهای الهام گرفته از طبیعت
منتشرشده در: وبلاگ هوش مصنوعی گوگل به تاریخ ۳ آپریل ۲۰۲۰
لینک منبع: Exploring Nature-Inspired Robot Agility
چه سگی در حال تعقیب توپ باشد و چه اسبی در حال پرش از روی موانع، حیوانات میتوانند به راحتی فعالیتهای بسیار چابک و سریع را انجام دهند. توسعه روباتهایی که قادر به تکرار این رفتارهای سریع هستند میتواند فرصتهایی را برای استقرار روباتها برای وظایف پیچیده در جهان واقعی ایجاد کند. اما طراحی کنترلکنندههایی که روباتهای پادار را قادر به انجام این رفتارهای سریع میکنند میتواند یک کار بسیار چالش برانگیز باشد. در حالی که یادگیری تقویتی روشی است که اغلب برای توسعه خودکار مهارتهای رباتیک مورد استفاده قرار میگیرد، تعدادی از موانع فنی باقی میمانند و در عمل هنوز هم سربار کارهای دستی قابلتوجهی وجود دارد. طراحی کارکردهای پاداش که منجر به مهارتهای موثر میشوند، خود میتواند نیاز به بینش تخصصی زیادی داشته باشد، و اغلب شامل یک فرآیند پاداش طولانی برای هر مهارت مطلوب است. علاوه بر این، استفاده از یادگیری تقویتی برای روباتهای پا نه تنها به الگوریتمهای کارآمد نیاز دارد، بلکه به مکانیزمهایی نیز نیاز دارد که روباتها را قادر سازد تا ایمن باقی بمانند و پس از افتادن، بدون کمک مکرر انسان، بازیابی شوند.
در این پست، ما در مورد دو پروژه اخیر خود با هدف پرداختن به این چالشها بحث خواهیم کرد. اول، توضیح میدهیم که چگونه روباتها میتوانند با تقلید از حرکات حیوانات واقعی، حرکات سریع و روان مانند یورتمه رفتن و پریدن را بیاموزند. سپس، سیستمی را برای خودکارسازی آموزش مهارتهای حرکت در دنیای واقعی مورد بحث قرار میدهیم، که به روباتها اجازه میدهد تا با حداقل کمک انسان راه بروند.
یادگیری مهارتهای حرکتی روباتیک سریع با تقلید از حیوانات
در «یادگیری مهارتهای بهینهسازی روباتیک چابک با تقلید از حیوانات»، ما چارچوبی ارائه میدهیم که یک کلیپ حرکت مرجع ثبتشده از یک حیوان (در این مورد یک سگ) را میگیرد و از یادگیری تقویتی برای آموزش یک سیاست کنترلی استفاده میکند که ربات را قادر به تقلید از حرکت در دنیای واقعی میسازد. با ارائه حرکات مرجع متفاوت به سیستم، ما قادر به آموزش یک ربات چهارپا برای انجام مجموعه متنوعی از رفتارهای سریع، از یورتمههای سریع گرفته تا خیزهای پویا و چرخشهای مختلف هستیم. این سیاستها در درجه اول در شبیهسازی آموزش داده میشوند و سپس با استفاده از یک تکنیک تطبیق فضای پنهان به دنیای واقعی منتقل میشوند که میتواند به طور موثر یک سیاست را با استفاده از تنها چند دقیقه اطلاعات از ربات واقعی تطبیق دهد.
تقلید حرکت
ما با جمعآوری کلیپ های حرکت یک سگ واقعی که مهارتهای مختلف حرکت کردن را انجام میدهد شروع میکنیم. سپس، ما از یادگیری تقویتی برای آموزش یک سیاست کنترل برای تقلید از حرکات سگ استفاده میکنیم. این سیاستها در یک شبیهسازی فیزیکی برای ردیابی حالت حرکت مرجع در هر گام زمانی آموزش داده میشوند. سپس، با استفاده از حرکات مرجع مختلف در تابع پاداش، میتوانیم یک ربات شبیهسازی شده را آموزش دهیم تا از مهارتهای مختلف تقلید کند.

با این حال، از آنجا که عموما شبیهسازها تنها یک تقریب بزرگ از دنیای واقعی ارایه میدهند، سیاستهای آموزشدیده در شبیهسازی اغلب وقتی بر روی یک ربات واقعی مستقر میشوند عملکرد ضعیفی دارند. بنابراین، ما از تکنیک تطبیق فضای پنهان موثر نمونه برای انتقال سیاست آموزشدیده در شبیهسازی به دنیای واقعی استفاده میکنیم.
اول، برای تشویق سیاست برای یادگیری رفتارهایی که در برابر تغییرات دینامیک مقاوم هستند، ما دینامیک شبیهسازی را با مقادیر فیزیکی مختلف، مانند جرم و اصطکاک ربات تصادفی میکنیم. از آنجا که ما به مقادیر این پارامترها در طول آموزش در شبیهسازی دسترسی داریم، همچنین میتوانیم آنها را با استفاده از یک کدگذار یادگرفته به نمایش با ابعاد پایین نگاشت کنیم. سپس این کدگذاری به عنوان یک ورودی اضافی به سیاست در طول آموزش داده میشود. از آنجا که پارامترهای فیزیکی ربات واقعی به طور پیشینیپذیر مشخص نیست، در هنگام بکارگیری سیاست برای یک ربات واقعی، ما کد کننده را حذف میکنیم و به طور مستقیم به دنبال مجموعهای از پارامترها در فضای پنهان میگردیم که ربات را قادر به اجرای موفقیتآمیز مهارتهای مورد نظر در دنیای واقعی میسازد. این تکنیک اغلب قادر است سیاستی را برای دنیای واقعی با استفاده از کمتر از ۸ دقیقه دادههای دنیای واقعی اتخاذ کند.

نتایج
با استفاده از این روش، ربات یاد میگیرد که از مهارتهای مختلف حرکت از یک سگ، شامل گونههای مختلف راه رفتن، مانند راه رفتن ساده، یورتمه رفتن و همچنین حرکت سریع چرخشی را تقلید کند.

علاوه بر تقلید از حرکات سگهای واقعی، تقلید از حرکات قاب کلید هنرمند-انیمیشنی شامل چرخش دینامیکی نیز امکان پذیر است:

یادگیری راه رفتن در دنیای واقعی با تلاش انسانی بسیار کم
روش بالا قادر است تا سیاستها را در شبیهسازی آموزش دهد و سپس آنها را با دنیای واقعی تطبیق دهد. با این حال، وقتی کار شامل پدیدههای فیزیکی پیچیده و متنوع است، لازم است که مستقیما از تجربه دنیای واقعی درس بگیریم. اگر چه یادگیری بر روی روباتهای واقعی به بهترین عملکرد برای کارهای دستی دست یافتهاست (به عنوان مثال، QT-Opt) ، اما استفاده از همان روشها برای روباتهای پادار دشوار است چون ممکن است ربات به خود آسیب برساند و یا منطقه آموزشی را ترک کند که پس از آن نیاز به مداخله انسان دارد.

در «یادگیری راه رفتن در دنیای واقعی با تلاش انسانی کم» (قابل مطالعه در مقالهخوان ترجمیار)، ما یک سیستم یادگیری خودکار با اجزای نرمافزاری و سختافزاری، با استفاده از یک روند یادگیری چند وظیفهای، یک یادگیرنده با محدودیت ایمنی، و چندین مولفه سختافزاری و نرمافزاری که به دقت طراحی شدهاند، توسعه دادیم. یادگیری چند وظیفهای با ایجاد یک برنامه یادگیری که ربات را به سمت مرکز فضای کاری هدایت میکند، مانع از خروج ربات از منطقه آموزشی میشود. همچنین با طراحی یک محدودیت ایمنی که آن را با نزول با گرادیان دوگانه حل میکنیم، تعداد آبشارها را کاهش میدهیم.
برای هر حرکت، زمانبند کاری را انتخاب میکند که در آن جهت راه رفتن مورد نظر به سمت مرکز اشاره میکند. به عنوان مثال، با فرض اینکه ما دو کار داریم، راه رفتن به جلو و عقب، زمانبند کار رو به جلو را انتخاب میکند اگر ربات در پشت فضای کاری باشد، و بالعکس برای کار رو به عقب. در اواسط قسمت، یادگیرنده مراحل نزول گرادیان دوگانه را برای بهینهسازی تکراری محدودیتهای هدف و ایمنی کار، به جای در نظر گرفتن آنها به عنوان یک هدف واحد، اتخاذ میکند. اگر ربات سقوط کرده باشد، ما یک کنترلکننده راهاندازی خودکار را احضار کرده و به قسمت بعدی میرویم.

نتایج
این چارچوب به طور موفقیت آمیزی سیاستها را از ابتدا به سمت مسیرهای مختلف بدون دخالت انسان هدایت میکند.

پس از آموزش، امکان هدایت ربات با یک کنترلکننده از راه دور وجود دارد. توجه داشته باشید که چگونه می توان به ربات دستور داد تا با استفاده از کنترلر به جای خود برگردد. طراحی دستی این عمل به دلیل ساختار پای مسطح ربات دشوار است، اما به طور خودکار با استفاده از یادگیرنده چند نمونهای خودکار ما کشف میشود.

این سیستم همچنین ربات را قادر میسازد تا در سطوح چالش برانگیزتری مانند تشک فوم حافظهدار و پادری با شکاف هدایت شود.

نتیجهگیری
در این دو مقاله، ما روشهایی را برای تولید مجدد مجموعه متنوعی از رفتارها با روباتهای چهارگانه ارایه میدهیم. گسترش این خط کار برای یادگیری مهارتها از ویدئوها نیز یک مسیر هیجانانگیز خواهد بود که به طور قابلتوجهی میتواند حجم دادههایی که روباتها میتوانند از آنها یاد بگیرند را افزایش دهد. ما همچنین علاقمند به استفاده از سیستم آموزش خودکار برای محیطها و وظایف پیچیدهتر دنیای واقعی هستیم.
این متن با استفاده از ربات مترجم مقالات یادگیری ماشین ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
تکنیکهای پردازش زبان طبیعی (NLP) که هر دانشمند داده باید بداند.
مطلبی دیگر از این انتشارات
چگونه یک سند DOCX را به یک فایل PPTX تبدیل کنیم
مطلبی دیگر از این انتشارات
گوگل از هوش مصنوعی برای طراحی نسل بعدی تراشههای هوش مصنوعی با سرعت بیشتری نسبت به بشر استفاده میکند