تکنیکی جدید برای ساخت رباتهای چند منظوره مؤثرتر
آدام زوی | MIT News
تصور کنید میخواهید رباتی را آموزش دهید تا بتواند از ابزارهای مختلف استفاده کرده و به سرعت یاد بگیرد که در خانه شما تعمیرات انجام دهد. برای این کار، به حجم عظیمی از دادههای مربوط به استفاده از ابزار نیاز خواهید داشت.
مجموعههای دادههای رباتیک موجود بهطور گستردهای متفاوت هستند؛ برخی شامل تصاویر رنگی و برخی دیگر شامل اثرات لمسی هستند. دادهها همچنین میتوانند در حوزههای مختلفی مانند شبیهسازی یا نمایشهای انسانی جمعآوری شوند. هر مجموعه داده ممکن است یک وظیفه و محیط خاص را ثبت کند.
ادغام کارآمد دادهها از منابع مختلف در یک مدل یادگیری ماشین دشوار است، به همین دلیل بسیاری از روشها فقط از یک نوع داده برای آموزش ربات استفاده میکنند. اما رباتهایی که به این شکل آموزش میبینند و تنها دادههای خاصی را دریافت میکنند، اغلب قادر به انجام وظایف جدید در محیطهای ناآشنا نیستند.
برای آموزش رباتهای چندمنظوره بهتر، محققان MIT تکنیکی را توسعه دادهاند که از مدلهای مولدی هوش مصنوعی به نام مدلهای انتشار برای ترکیب چندین منبع داده در حوزهها، حالتها و وظایف مختلف استفاده میکند.
آنها یک مدل انتشار جداگانه برای یادگیری استراتژی، یا سیاست، برای انجام یک وظیفه با استفاده از یک مجموعه داده خاص آموزش میدهند. سپس، سیاستهای یادگرفته شده توسط مدلهای انتشار را ترکیب کرده و سیاست عمومی ایجاد میکنند که به ربات امکان انجام وظایف متعدد در محیطهای مختلف را میدهد.
این رویکرد آموزشی در شبیهسازیها و آزمایشهای واقعی به ربات امکان داد تا وظایف مختلف استفاده از ابزار را انجام داده و به وظایف جدیدی که در طول آموزش ندیده بود، تطبیق یابد. این روش، معروف به ترکیب سیاستها (PoCo)، در مقایسه با تکنیکهای پایه بهبود 20 درصدی در عملکرد وظایف را به همراه داشت.
لیر وی وانگ، دانشجوی فارغالتحصیل مهندسی برق و علوم کامپیوتر و نویسنده اصلی مقالهای در مورد PoCo میگوید: «رسیدگی به ناهمگونی در مجموعه دادههای رباتیک مانند مشکل مرغ و تخممرغ است. اگر میخواهیم از دادههای زیادی برای آموزش سیاستهای عمومی ربات استفاده کنیم، ابتدا باید رباتهای قابلاستفاده برای جمعآوری این دادهها داشته باشیم. به نظر من، استفاده از همه دادههای ناهمگون موجود، مشابه کاری که محققان با ChatGPT انجام دادهاند، یک گام مهم برای حوزه رباتیک است.»
همنویسندگان وانگ شامل جیالیانگ ژائو، دانشجوی فارغالتحصیل مهندسی مکانیک؛ ییلون دو، دانشجوی فارغالتحصیل EECS؛ ادوارد آدلسون، استاد علوم بینایی و عضو آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL)؛ و نویسنده ارشد راس تدریک، استاد مهندسی برق و کامپیوتر، هوافضا و مهندسی مکانیک، و عضو CSAIL هستند. این تحقیق در کنفرانس رباتیک: علوم و سیستمها ارائه خواهد شد.
ترکیب مجموعه دادههای پراکنده
یک سیاست رباتیک یک مدل یادگیری ماشین است که ورودیها را دریافت کرده و از آنها برای انجام یک عمل استفاده میکند. در مورد یک بازوی رباتیک، این استراتژی میتواند یک مسیر یا سری از موقعیتها باشد که بازو را برای برداشتن یک چکش و استفاده از آن برای کوبیدن یک میخ حرکت میدهد.
مجموعه دادههایی که برای یادگیری سیاستهای رباتیک استفاده میشوند، معمولاً کوچک و متمرکز بر یک وظیفه و محیط خاص هستند، مانند بستهبندی اقلام در یک انبار.
وانگ میگوید: «هر انبار رباتیک تریلیونها بایت داده تولید میکند، اما این دادهها فقط به همان نصب ربات خاص و کار بر روی آن بستهها تعلق دارند. این ایدهآل نیست اگر میخواهید از همه این دادهها برای آموزش یک ماشین عمومی استفاده کنید.»
محققان MIT تکنیکی را توسعه دادهاند که میتواند مجموعهای از دادههای کوچکتر، مانند آنهایی که از بسیاری از انبارهای رباتیک جمعآوری شدهاند، سیاستهای جداگانهای از هر یک یاد بگیرد و سیاستها را به گونهای ترکیب کند که به ربات امکان عمومیسازی به وظایف مختلف را بدهد.
آنها هر سیاست را با استفاده از نوعی مدل مولدی هوش مصنوعی به نام مدل انتشار نشان میدهند. مدلهای انتشار، که اغلب برای تولید تصاویر استفاده میشوند، یاد میگیرند که نمونههای جدید دادهای ایجاد کنند که شبیه نمونههای یک مجموعه داده آموزشی باشد.
اما به جای آموزش مدل انتشار برای تولید تصاویر، محققان آن را برای تولید یک مسیر برای ربات آموزش میدهند. آنها این کار را با افزودن نویز به مسیرهای یک مجموعه داده آموزشی انجام میدهند. مدل انتشار به تدریج نویز را حذف کرده و خروجی خود را به یک مسیر اصلاح میکند.
این تکنیک، معروف به سیاست انتشار، قبلاً توسط محققان MIT، دانشگاه کلمبیا و موسسه تحقیقات تویوتا معرفی شده بود. PoCo بر اساس این کار سیاست انتشار ساخته شده است.
تیم هر مدل انتشار را با یک نوع مجموعه داده متفاوت آموزش میدهد، مانند یکی با نمایشهای ویدئویی انسانی و دیگری از راهاندازی بازوی ربات.
سپس محققان ترکیب وزنی از سیاستهای جداگانهای که توسط همه مدلهای انتشار یاد گرفته شدهاند انجام میدهند، خروجی را به طور مداوم اصلاح میکنند تا سیاست ترکیبی اهداف هر سیاست جداگانه را برآورده سازد.
بیشتر از مجموع اجزا
وانگ میگوید: «یکی از مزایای این رویکرد این است که میتوانیم سیاستها را ترکیب کنیم تا بهترین نتایج را به دست آوریم. به عنوان مثال، یک سیاست آموزشدیده بر اساس دادههای دنیای واقعی ممکن است بتواند به مهارت بیشتری دست یابد، در حالی که یک سیاست آموزشدیده بر اساس شبیهسازی ممکن است بتواند به تعمیم بیشتری دست یابد.»
چون سیاستها جداگانه آموزش داده میشوند، میتوان سیاستهای انتشار را ترکیب و تطبیق داد تا نتایج بهتری برای یک وظیفه خاص به دست آورد. یک کاربر همچنین میتواند دادههایی در یک حالت یا حوزه جدید اضافه کند با آموزش یک سیاست انتشار اضافی با آن مجموعه داده، به جای شروع از ابتدا.
محققان PoCo را در شبیهسازی و بر روی بازوهای رباتیکی واقعی آزمایش کردند که وظایف مختلف استفاده از ابزارها، مانند استفاده از چکش برای کوبیدن میخ و چرخاندن یک جسم با اسپاتولا را انجام میدادند. PoCo منجر به بهبود 20 درصدی در عملکرد وظایف در مقایسه با روشهای پایه شد.
وانگ میگوید: «موضوع جالب این بود که وقتی تنظیمات را به پایان رساندیم و آن را بصری کردیم، به وضوح دیدیم که مسیر ترکیبی بسیار بهتر از هر کدام به تنهایی به نظر میرسد.»
در آینده، محققان میخواهند این تکنیک را به وظایف بلند مدت اعمال کنند که در آن ربات یک ابزار را برداشته، استفاده کرده و سپس به ابزار دیگری تغییر دهد. آنها همچنین میخواهند مجموعه دادههای بزرگتر رباتیکی را برای بهبود عملکرد ترکیب کنند.
جیم فن، دانشمند ارشد تحقیقات در انویدیا و رهبر ابتکار AI Agents، که در این کار دخیل نبود، میگوید: «ما به هر سه نوع داده نیاز خواهیم داشت تا در رباتیک موفق شویم: دادههای اینترنتی، دادههای شبیهسازی و دادههای واقعی ربات. نحوه ترکیب آنها به طور مؤثر سوال میلیون دلاری خواهد بود. PoCo یک گام محکم در مسیر درست است.»
این تحقیق بخشی از سوی آمازون، سازمان علوم و فناوری دفاعی سنگاپور، بنیاد ملی علوم ایالات متحده و موسسه تحقیقات تویوتا تأمین مالی شده است.
تحلیل خبر
توسعه تکنیک PoCo در MIT نشاندهنده پیشرفت قابل توجهی در زمینه رباتیک است. با استفاده از مدلهای انتشار و ترکیب سیاستها، محققان به رباتها امکان میدهند که بتوانند وظایف مختلفی را در محیطهای متفاوت انجام دهند. این تکنیک میتواند مشکلات ناهمگونی دادهها را حل کند و به بهبود عملکرد رباتها در وظایف مختلف کمک کند.
این رویکرد جدید نه تنها عملکرد رباتها را بهبود میبخشد، بلکه میتواند به ایجاد رباتهایی با قابلیتهای گستردهتر و کارآمدتر منجر شود. از نظر کاربردهای عملی، این پیشرفت میتواند در صنایع مختلف از جمله لجستیک، پزشکی و خدمات خانگی تحولات بزرگی ایجاد کند.
با این حال، هنوز نیاز به تحقیقات بیشتر و آزمایشهای عملی برای بهبود و گسترش این تکنیک وجود دارد. ترکیب مؤثر دادههای اینترنتی، شبیهسازی و دادههای واقعی رباتیکی همچنان یک چالش مهم است، اما PoCo یک گام اساسی در جهت رسیدن به رباتهای چند منظوره و هوشمندتر است.
PoCo چیست و مقاله درباره چه موضوعی صحبت میکند؟
مقاله درباره تکنیکی به نام PoCo (ترکیب سیاستها) صحبت میکند که توسط محققان MIT توسعه داده شده است. این تکنیک برای آموزش رباتهای چندمنظوره به کار میرود، به طوری که رباتها بتوانند وظایف مختلفی را در محیطهای متنوع انجام دهند.
PoCo چیست؟
PoCo مخفف ترکیب سیاستها است. این تکنیک از مدلهای مولدی هوش مصنوعی به نام مدلهای انتشار استفاده میکند. مدلهای انتشار قادرند با استفاده از دادههای آموزشی، نمونههای جدیدی شبیه به آنها تولید کنند. در این تکنیک، هر مدل انتشار یک استراتژی یا سیاست خاص را برای انجام یک وظیفه خاص یاد میگیرد. سپس این سیاستهای جداگانه با هم ترکیب میشوند تا یک سیاست عمومی ایجاد شود که به ربات امکان انجام وظایف مختلف را در محیطهای متفاوت میدهد.
موضوع مقاله
مقاله درباره چالشهای آموزش رباتها برای انجام وظایف مختلف با استفاده از دادههای متنوع صحبت میکند. دادههای موجود برای آموزش رباتها اغلب کوچک و مخصوص یک وظیفه و محیط خاص هستند. این مسئله باعث میشود که رباتها نتوانند به خوبی با وظایف جدید و محیطهای ناآشنا سازگار شوند.
محققان MIT با استفاده از تکنیک PoCo این مشکل را حل کردهاند. آنها ابتدا مدلهای انتشار جداگانهای را با استفاده از مجموعه دادههای مختلف آموزش میدهند. سپس این سیاستهای یادگرفته شده را با هم ترکیب میکنند تا یک سیاست عمومی ایجاد شود که به ربات امکان انجام وظایف مختلف را در محیطهای متنوع میدهد.
در آزمایشهای انجام شده، این تکنیک توانست عملکرد رباتها را تا 20 درصد نسبت به روشهای پایه بهبود بخشد. این نشان میدهد که PoCo یک گام مهم در جهت توسعه رباتهای چندمنظوره و هوشمندتر است.
تحلیل
توسعه تکنیک PoCo میتواند تحول بزرگی در زمینه رباتیک ایجاد کند. این تکنیک به رباتها امکان میدهد که با استفاده از دادههای متنوع و ترکیب آنها، وظایف مختلفی را با دقت و کارایی بیشتری انجام دهند. این پیشرفت میتواند به کاربردهای عملی گستردهتری در صنایع مختلف از جمله لجستیک، پزشکی و خدمات خانگی منجر شود. با این حال، همچنان نیاز به تحقیقات و آزمایشهای بیشتری برای بهبود و گسترش این تکنیک وجود دارد.
https://news.mit.edu/2024/technique-for-more-effective-multipurpose-robots-0603
chatgpt 4o