سهراب خان‌بدر | Sohrab Khanbadr
سهراب خان‌بدر | Sohrab Khanbadr
خواندن ۸ دقیقه·۸ ماه پیش

تکنیکی جدید برای ساخت ربات‌های چند منظوره مؤثرتر

تکنیکی جدید برای ساخت ربات‌های چند منظوره مؤثرتر

آدام زوی | MIT News

تصور کنید می‌خواهید رباتی را آموزش دهید تا بتواند از ابزارهای مختلف استفاده کرده و به سرعت یاد بگیرد که در خانه شما تعمیرات انجام دهد. برای این کار، به حجم عظیمی از داده‌های مربوط به استفاده از ابزار نیاز خواهید داشت.

مجموعه‌های داده‌های رباتیک موجود به‌طور گسترده‌ای متفاوت هستند؛ برخی شامل تصاویر رنگی و برخی دیگر شامل اثرات لمسی هستند. داده‌ها همچنین می‌توانند در حوزه‌های مختلفی مانند شبیه‌سازی یا نمایش‌های انسانی جمع‌آوری شوند. هر مجموعه داده ممکن است یک وظیفه و محیط خاص را ثبت کند.

ادغام کارآمد داده‌ها از منابع مختلف در یک مدل یادگیری ماشین دشوار است، به همین دلیل بسیاری از روش‌ها فقط از یک نوع داده برای آموزش ربات استفاده می‌کنند. اما ربات‌هایی که به این شکل آموزش می‌بینند و تنها داده‌های خاصی را دریافت می‌کنند، اغلب قادر به انجام وظایف جدید در محیط‌های ناآشنا نیستند.

برای آموزش ربات‌های چندمنظوره بهتر، محققان MIT تکنیکی را توسعه داده‌اند که از مدل‌های مولدی هوش مصنوعی به نام مدل‌های انتشار برای ترکیب چندین منبع داده در حوزه‌ها، حالت‌ها و وظایف مختلف استفاده می‌کند.

آن‌ها یک مدل انتشار جداگانه برای یادگیری استراتژی، یا سیاست، برای انجام یک وظیفه با استفاده از یک مجموعه داده خاص آموزش می‌دهند. سپس، سیاست‌های یادگرفته شده توسط مدل‌های انتشار را ترکیب کرده و سیاست عمومی ایجاد می‌کنند که به ربات امکان انجام وظایف متعدد در محیط‌های مختلف را می‌دهد.

این رویکرد آموزشی در شبیه‌سازی‌ها و آزمایش‌های واقعی به ربات امکان داد تا وظایف مختلف استفاده از ابزار را انجام داده و به وظایف جدیدی که در طول آموزش ندیده بود، تطبیق یابد. این روش، معروف به ترکیب سیاست‌ها (PoCo)، در مقایسه با تکنیک‌های پایه بهبود 20 درصدی در عملکرد وظایف را به همراه داشت.

لیر وی وانگ، دانشجوی فارغ‌التحصیل مهندسی برق و علوم کامپیوتر و نویسنده اصلی مقاله‌ای در مورد PoCo می‌گوید: «رسیدگی به ناهمگونی در مجموعه داده‌های رباتیک مانند مشکل مرغ و تخم‌مرغ است. اگر می‌خواهیم از داده‌های زیادی برای آموزش سیاست‌های عمومی ربات استفاده کنیم، ابتدا باید ربات‌های قابل‌استفاده برای جمع‌آوری این داده‌ها داشته باشیم. به نظر من، استفاده از همه داده‌های ناهمگون موجود، مشابه کاری که محققان با ChatGPT انجام داده‌اند، یک گام مهم برای حوزه رباتیک است.»

هم‌نویسندگان وانگ شامل جیالیانگ ژائو، دانشجوی فارغ‌التحصیل مهندسی مکانیک؛ ییلون دو، دانشجوی فارغ‌التحصیل EECS؛ ادوارد آدلسون، استاد علوم بینایی و عضو آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL)؛ و نویسنده ارشد راس تدریک، استاد مهندسی برق و کامپیوتر، هوافضا و مهندسی مکانیک، و عضو CSAIL هستند. این تحقیق در کنفرانس رباتیک: علوم و سیستم‌ها ارائه خواهد شد.

ترکیب مجموعه داده‌های پراکنده

یک سیاست رباتیک یک مدل یادگیری ماشین است که ورودی‌ها را دریافت کرده و از آن‌ها برای انجام یک عمل استفاده می‌کند. در مورد یک بازوی رباتیک، این استراتژی می‌تواند یک مسیر یا سری از موقعیت‌ها باشد که بازو را برای برداشتن یک چکش و استفاده از آن برای کوبیدن یک میخ حرکت می‌دهد.

مجموعه داده‌هایی که برای یادگیری سیاست‌های رباتیک استفاده می‌شوند، معمولاً کوچک و متمرکز بر یک وظیفه و محیط خاص هستند، مانند بسته‌بندی اقلام در یک انبار.

وانگ می‌گوید: «هر انبار رباتیک تریلیون‌ها بایت داده تولید می‌کند، اما این داده‌ها فقط به همان نصب ربات خاص و کار بر روی آن بسته‌ها تعلق دارند. این ایده‌آل نیست اگر می‌خواهید از همه این داده‌ها برای آموزش یک ماشین عمومی استفاده کنید.»

محققان MIT تکنیکی را توسعه داده‌اند که می‌تواند مجموعه‌ای از داده‌های کوچکتر، مانند آن‌هایی که از بسیاری از انبارهای رباتیک جمع‌آوری شده‌اند، سیاست‌های جداگانه‌ای از هر یک یاد بگیرد و سیاست‌ها را به گونه‌ای ترکیب کند که به ربات امکان عمومی‌سازی به وظایف مختلف را بدهد.

آن‌ها هر سیاست را با استفاده از نوعی مدل مولدی هوش مصنوعی به نام مدل انتشار نشان می‌دهند. مدل‌های انتشار، که اغلب برای تولید تصاویر استفاده می‌شوند، یاد می‌گیرند که نمونه‌های جدید داده‌ای ایجاد کنند که شبیه نمونه‌های یک مجموعه داده آموزشی باشد.

اما به جای آموزش مدل انتشار برای تولید تصاویر، محققان آن را برای تولید یک مسیر برای ربات آموزش می‌دهند. آن‌ها این کار را با افزودن نویز به مسیرهای یک مجموعه داده آموزشی انجام می‌دهند. مدل انتشار به تدریج نویز را حذف کرده و خروجی خود را به یک مسیر اصلاح می‌کند.

این تکنیک، معروف به سیاست انتشار، قبلاً توسط محققان MIT، دانشگاه کلمبیا و موسسه تحقیقات تویوتا معرفی شده بود. PoCo بر اساس این کار سیاست انتشار ساخته شده است.

تیم هر مدل انتشار را با یک نوع مجموعه داده متفاوت آموزش می‌دهد، مانند یکی با نمایش‌های ویدئویی انسانی و دیگری از راه‌اندازی بازوی ربات.

سپس محققان ترکیب وزنی از سیاست‌های جداگانه‌ای که توسط همه مدل‌های انتشار یاد گرفته شده‌اند انجام می‌دهند، خروجی را به طور مداوم اصلاح می‌کنند تا سیاست ترکیبی اهداف هر سیاست جداگانه را برآورده سازد.

بیشتر از مجموع اجزا

وانگ می‌گوید: «یکی از مزایای این رویکرد این است که می‌توانیم سیاست‌ها را ترکیب کنیم تا بهترین نتایج را به دست آوریم. به عنوان مثال، یک سیاست آموزش‌دیده بر اساس داده‌های دنیای واقعی ممکن است بتواند به مهارت بیشتری دست یابد، در حالی که یک سیاست آموزش‌دیده بر اساس شبیه‌سازی ممکن است بتواند به تعمیم بیشتری دست یابد.»

چون سیاست‌ها جداگانه آموزش داده می‌شوند، می‌توان سیاست‌های انتشار را ترکیب و تطبیق داد تا نتایج بهتری برای یک وظیفه خاص به دست آورد. یک کاربر همچنین می‌تواند داده‌هایی در یک حالت یا حوزه جدید اضافه کند با آموزش یک سیاست انتشار اضافی با آن مجموعه داده، به جای شروع از ابتدا.

محققان PoCo را در شبیه‌سازی و بر روی بازوهای رباتیکی واقعی آزمایش کردند که وظایف مختلف استفاده از ابزارها، مانند استفاده از چکش برای کوبیدن میخ و چرخاندن یک جسم با اسپاتولا را انجام می‌دادند. PoCo منجر به بهبود 20 درصدی در عملکرد وظایف در مقایسه با روش‌های پایه شد.

وانگ می‌گوید: «موضوع جالب این بود که وقتی تنظیمات را به پایان رساندیم و آن را بصری کردیم، به وضوح دیدیم که مسیر ترکیبی بسیار بهتر از هر کدام به تنهایی به نظر می‌رسد.»

در آینده، محققان می‌خواهند این تکنیک را به وظایف بلند مدت اعمال کنند که در آن ربات یک ابزار را برداشته، استفاده کرده و سپس به ابزار دیگری تغییر دهد. آن‌ها همچنین می‌خواهند مجموعه داده‌های بزرگتر رباتیکی را برای بهبود عملکرد ترکیب کنند.

جیم فن، دانشمند ارشد تحقیقات در انویدیا و رهبر ابتکار AI Agents، که در این کار دخیل نبود، می‌گوید: «ما به هر سه نوع داده نیاز خواهیم داشت تا در رباتیک موفق شویم: داده‌های اینترنتی، داده‌های شبیه‌سازی و داده‌های واقعی ربات. نحوه ترکیب آن‌ها به طور مؤثر سوال میلیون دلاری خواهد بود. PoCo یک گام محکم در مسیر درست است.»

این تحقیق بخشی از سوی آمازون، سازمان علوم و فناوری دفاعی سنگاپور، بنیاد ملی علوم ایالات متحده و موسسه تحقیقات تویوتا تأمین مالی شده است.

تحلیل خبر

توسعه تکنیک PoCo در MIT نشان‌دهنده پیشرفت قابل توجهی در زمینه رباتیک است. با استفاده از مدل‌های انتشار و ترکیب سیاست‌ها، محققان به ربات‌ها امکان می‌دهند که بتوانند وظایف مختلفی را در محیط‌های متفاوت انجام دهند. این تکنیک می‌تواند مشکلات ناهمگونی داده‌ها را حل کند و به بهبود عملکرد ربات‌ها در وظایف مختلف کمک کند.

این رویکرد جدید نه تنها عملکرد ربات‌ها را بهبود می‌بخشد، بلکه می‌تواند به ایجاد ربات‌هایی با قابلیت‌های گسترده‌تر و کارآمدتر منجر شود. از نظر کاربردهای عملی، این پیشرفت می‌تواند در صنایع مختلف از جمله لجستیک، پزشکی و خدمات خانگی تحولات بزرگی ایجاد کند.

با این حال، هنوز نیاز به تحقیقات بیشتر و آزمایش‌های عملی برای بهبود و گسترش این تکنیک وجود دارد. ترکیب مؤثر داده‌های اینترنتی، شبیه‌سازی و داده‌های واقعی رباتیکی همچنان یک چالش مهم است، اما PoCo یک گام اساسی در جهت رسیدن به ربات‌های چند منظوره و هوشمندتر است.



PoCo چیست و مقاله درباره چه موضوعی صحبت می‌کند؟

مقاله درباره تکنیکی به نام PoCo (ترکیب سیاست‌ها) صحبت می‌کند که توسط محققان MIT توسعه داده شده است. این تکنیک برای آموزش ربات‌های چندمنظوره به کار می‌رود، به طوری که ربات‌ها بتوانند وظایف مختلفی را در محیط‌های متنوع انجام دهند.

PoCo چیست؟

PoCo مخفف ترکیب سیاست‌ها است. این تکنیک از مدل‌های مولدی هوش مصنوعی به نام مدل‌های انتشار استفاده می‌کند. مدل‌های انتشار قادرند با استفاده از داده‌های آموزشی، نمونه‌های جدیدی شبیه به آن‌ها تولید کنند. در این تکنیک، هر مدل انتشار یک استراتژی یا سیاست خاص را برای انجام یک وظیفه خاص یاد می‌گیرد. سپس این سیاست‌های جداگانه با هم ترکیب می‌شوند تا یک سیاست عمومی ایجاد شود که به ربات امکان انجام وظایف مختلف را در محیط‌های متفاوت می‌دهد.

موضوع مقاله

مقاله درباره چالش‌های آموزش ربات‌ها برای انجام وظایف مختلف با استفاده از داده‌های متنوع صحبت می‌کند. داده‌های موجود برای آموزش ربات‌ها اغلب کوچک و مخصوص یک وظیفه و محیط خاص هستند. این مسئله باعث می‌شود که ربات‌ها نتوانند به خوبی با وظایف جدید و محیط‌های ناآشنا سازگار شوند.

محققان MIT با استفاده از تکنیک PoCo این مشکل را حل کرده‌اند. آن‌ها ابتدا مدل‌های انتشار جداگانه‌ای را با استفاده از مجموعه داده‌های مختلف آموزش می‌دهند. سپس این سیاست‌های یادگرفته شده را با هم ترکیب می‌کنند تا یک سیاست عمومی ایجاد شود که به ربات امکان انجام وظایف مختلف را در محیط‌های متنوع می‌دهد.

در آزمایش‌های انجام شده، این تکنیک توانست عملکرد ربات‌ها را تا 20 درصد نسبت به روش‌های پایه بهبود بخشد. این نشان می‌دهد که PoCo یک گام مهم در جهت توسعه ربات‌های چندمنظوره و هوشمندتر است.

تحلیل

توسعه تکنیک PoCo می‌تواند تحول بزرگی در زمینه رباتیک ایجاد کند. این تکنیک به ربات‌ها امکان می‌دهد که با استفاده از داده‌های متنوع و ترکیب آن‌ها، وظایف مختلفی را با دقت و کارایی بیشتری انجام دهند. این پیشرفت می‌تواند به کاربردهای عملی گسترده‌تری در صنایع مختلف از جمله لجستیک، پزشکی و خدمات خانگی منجر شود. با این حال، همچنان نیاز به تحقیقات و آزمایش‌های بیشتری برای بهبود و گسترش این تکنیک وجود دارد.


https://news.mit.edu/2024/technique-for-more-effective-multipurpose-robots-0603

chatgpt 4o

چیزی مثبت بگو، و چیز مثبت خواهی دید." — جیم تامپسون من کیستم ؟ من کجا هستم ؟ من چه میخواهم ؟
شاید از این پست‌ها خوشتان بیاید