من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
استفاده از آموزش تقویتی برای خودروهای خودران
منتشر شده در towardsdatascience به تاریخ ۲۸ نوامبر ۲۰۲۱
لینک منبع Applying of Reinforcement Learning for Self-Driving Cars
یک رویکرد گسترده از کاربرد هوش مصنوعی برای خودروهای خودران، رویکرد یادگیری نظارت شده و بالاتر از همه، برای حل الزامات ادراک است. اما یک ماشین خودران بسیار شبیه به یک ربات و یک عامل در رویکرد یادگیری تقویتی (RL) است. آیا ما میتوانیم یک رویکرد یادگیری تحت نظارت را با یک رویکرد یادگیری تقویتی جایگزین کنیم؟ عیب یک رویکرد نظارتی، تعصب انسانی درگیر در کل فرآیند AI، از جمعآوری دادهها تا استقرار مدل است.
تعامل با محیط مهمترین وظیفه یک ماشین خود-راننده است. ادراک اولین گام است که در حال حاضر مبتنی بر هوش مصنوعی است و یک رویکرد نظارتی اعمال میشود. در این رویکرد، باید در نظر داشته باشید که وسیله نقلیه در یک محیط باز در حال رانندگی است و باید مدل خود را با تمام صحنه ها و سناریوهای ممکن در دنیای واقعی آموزش دهید. تنوع صحنهها و سناریوها مشکل اصلی است که تسلا، ویمو و کروز باید با جمعآوری دادههای بیشتر و بیشتر و اعتبارسنجی عملیاتهای سیستم براساس دادههای جمعآوریشده، آن را حل کنند. چگونه میتوانیم مطمئن شویم که یک ماشین خود-راننده قبلا تمام سناریوهای ممکن را یاد گرفته و بر هر موقعیتی تسلط پیدا کردهاست؟
یادگیری تقویتی
یادگیری تقویتی (RL) میتواند راه حلی برای این مشکل باشد. رویکرد RL به این معنی است که یک عامل اطلاعات محیطی را جمعآوری میکند و بر اساس یک سیاست تعریفشده برای به حداکثر رساندن پاداشها، از یک حالت به حالت بعدی سوئیچ میکند. یک نماینده به عنوان مغز یک ماشین خود-راننده چه اقداماتی را انجام میدهد؟ برای ساده نگه داشتن آن، سه اقدام شتاب، کاهش شتاب و فرمان مهمترین اقداماتی هستند که بر پویایی وسیله نقلیه و ایمنی جاده تاثیر میگذارند. مخاطره آمیزترین تصمیم، هدایت فرمان است و کم اهمیت ترین تصمیم، ترمزگیری است. چگونه میتوانیم یک سیاست و یک تابع پاداش را در یک فرآیند یادگیری تقویتی برای یک نماینده به عنوان راننده تعریف کنیم؟
تابع پاداش
برای تعریف تابع پاداش، میتوانیم به جنبههای مختلفی مانند مصرف برق، ایمنی تمام کاربران جاده، یا بهترین راه ناوبری برای رسیدن سریعتر به مقصد و حرکت ایمن نگاه کنیم. ما باید بین پاداشهای کوتاهمدت مانند رانندگی ایمن و پاداش بلند مدت مانند رسیدن زودتر به مقصد تفاوت قائل شویم. یک نماینده، در این مورد، یک ماشین خود-راننده، نیاز به نظارت بر محیط و درک این موضوع دارد که کدام ایالت جدید میتواند حداکثر پاداش را دریافت کند، به عنوان مثال، سرعت، کاهش سرعت یا فرمان، و تمام پارامترها و متغیرهای مرتبط دیگر.
جامعه رانندگی بسیار آهسته و محافظهکارانه یا ترمز مکرر توسط ماشین خود-راننده را نمیپذیرد. دو راهحل برای واکنش به یک رویداد حساس به ایمنی وجود دارد. یکی از آنها به حالت امن قدیمیتر برگشته و دومی به دنبال یک «حالت امن» جدید است. از آنجا که مشخص نیست که آیا «حالت امن» قبلی هنوز هم ایمن است، یافتن یک «حالت امن» جدید تنها راهحل قابلاعتماد است، و حالت امن قدیمیتر یک راهحل در میان تمام شرایط ممکن دیگر است. با این حال، اگر یک نماینده تصمیم به بازگشت به حالت در گذشته بگیرد، نماینده نیاز به یک ارزیابی پاداش جدید خواهد داشت، و پاداش موجود دیگر معتبر نخواهد بود.
در اینجا چالش پیدا کردن فاصله زمانی برای انجام یک ارزیابی پاداش جدید به موازات سایر فعالیتهای نماینده است. پاداش در طول زمان بسته به وضعیت و پویایی رانندگی تغییر میکند. به طور کلی، حفظ فاصله ایمن از سایر وسایل نقلیه در ترافیک جادهای میتواند با ارزش بیشتری پاداش داده شود. این استدلال شبیه ترمز غیر ضروری است که فاصله تا ماشین را بعد از ماشین خود-راننده کوتاه میکند.
نظارت بر محیط اطراف
یک ماشین خود-راننده اطلاعات محیطی مرتبط مانند نوع جاده یا علائم ترافیک را از طریق سنسورهای درون-وسیله نقلیه جمعآوری میکند و یا آن را از راه دور از وسایل نقلیه دیگر و یا زیرساخت دریافت میکند. آیا تمام اطلاعات لازم توسط یک ماشین خود-راننده را می توان اندازهگیری کرد؟ نه، همه چیز، حداقل هیچ داده تاریخی مانند سبک رانندگی وجود ندارد. چگونه میتوانیم اندازهگیری کنیم که آیا خودروهای خود-راننده با رانندگان دیگر در یک جاده ترافیکی مختلط یا دیگر وسایل نقلیه خود-راننده همکاری میکنند؟
ما باید قبل از طراحی هر نماینده برای رانندگی مستقل براساس رویکرد یادگیری تقویتی به چنین سوالاتی پاسخ دهیم. جامعه قبول نخواهد کرد که یک نماینده برای مدت طولانی همکاری نداشته باشد و ما باید چنین رفتاری را اندازهگیری و کنترل کنیم.
به نظر میرسد استفاده از یادگیری نظارت شده برای پایش محیطی همچنان راه حل مناسبی باشد. ما باید با جدا کردن بخش ادراک از بخش تصمیمگیری، پیچیدگی تصمیمگیری نماینده را کاهش دهیم. تمام دادههای جمعآوریشده توسط سنسورهای محیطی باید برچسب زده شوند و با مانور مناسب برای تسهیل فرآیند طراحی یادگیری تقویتی مرتبط باشند.
انتخاب سیاست برای یک نماینده
انتخاب یک سیاست بهینه برای یک نماینده به عنوان یک وسیله نقلیه خودکار به دلیل سناریوهای ممکن بسیار پیچیده است. یک نماینده باید مشکلات مختلف را بسته به وضعیت ترافیک حل کند و یک پاسخ یا سیاست مناسب براساس این وضعیت پیدا کند. در مورد بیش از یک سیاست معتبر، یک نماینده باید به طور انعطافپذیر بین سیاستهای مناسب دیگر تغییر کند یا چندین سیاست را برای محاسبه پاداش برای حالتهای احتمالی بعدی ترکیب کند.
همانطور که در این مقاله توضیح داده شد، یک راه حل ممکن برای یافتن بهترین خط مشی استفاده از رفتار رانندگان با تجربه و توزیع مرتبط به عنوان مرجع و تلاش برای بازتولید این رفتار از طریق نماینده است. با این حال، این مقاله یک سناریوی خاص، «اجتناب از موانع استاتیک» را برای رانندگی انسان مانند با یادگیری تقویت عمیق تجزیه و تحلیل میکند، که باید مورد بحث قرار گیرد که چگونه میتواند به تمام سناریوهای ممکن گسترش یابد.
راهحل دیگر، همان طور که در این مقاله توضیح داده شد، یک رویکرد سلسله مراتبی است. مانورهای حمایتشده، مانند رانندگی در کوچه، تغییر مسیر به سمت راست، و تغییر مسیر به سمت چپ، انتخاب شدند. هر مانور سیاست و حکومت خود را دارد و باید به طور جداگانه آموزش داده شود و همچنین باید یک سیاست اصلی برای انتخاب مانور مناسب وجود داشته باشد. این راهحل یک RL چند عاملی را توصیف میکند و تنها یک عامل در هر نقطه از زمان فعال است و ما به اطلاعات بیشتری برای تغییر بین تمام عوامل نیاز داریم.
جداسازی مانورها پیچیدگی رانندگی خودران را حل نمیکند، زیرا باید استدلال کنیم که همه مانورها، از جمله همه تغییرات، قبلاً در فرآیند طراحی و آزمایش در نظر گرفته شدهاند و جابهجایی بین مانورها نیز با خیال راحت انجام میشود. از این رو، بعید است که این رویکرد یک ماشین کاملا خود-راننده را فراهم کند که در هر موقعیت و سناریو رقابت کند.
رانندگی یک کار پیچیده است و حداقل سطح اطلاعاتی برای اطمینان از رانندگی ایمن مورد نیاز است، زیرا ما در حال حاضر مقرراتی در مورد چگونگی گرفتن گواهینامه رانندگی داریم. بسیاری از پارامترها مانند پارامترهای دینامیک وسیله نقلیه مانند سرعت، شتاب، موقعیت، شیب و غیره و همچنین پارامترهای محیطی بر مانور رانندگی تاثیر میگذارند. دامنه طراحی عملیاتی (ODD) باید پارامترهایی را مشخص کند که رویکرد یادگیری تقویتی را تحتتاثیر قرار میدهند. مانورهای رانندگی چندگانه تنها یک جنبه در دامنه طراحی هستند و ما باید RL را با در نظر گرفتن تمام پارامترها براساس ODD آموزش دهیم.
این متن با استفاده از ربات ترجمه مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
زبان Ptpython: یک REPL پایتون بهتر
مطلبی دیگر از این انتشارات
پیشرفت بیوشیمی ممکن است به زودی تنفس بیماران آسمی را آسانتر کند
مطلبی دیگر از این انتشارات
۵ عادت که من از دانشمندان دادههای موفق در مایکروسافت آموختم