استفاده از آموزش تقویتی برای خودروهای خودران

منتشر شده در towardsdatascience به تاریخ ۲۸ نوامبر ۲۰۲۱
لینک منبع Applying of Reinforcement Learning for Self-Driving Cars

یک رویکرد گسترده از کاربرد هوش مصنوعی برای خودروهای خودران، رویکرد یادگیری نظارت شده و بالاتر از همه، برای حل الزامات ادراک است. اما یک ماشین خودران بسیار شبیه به یک ربات و یک عامل در رویکرد یادگیری تقویتی (RL) است. آیا ما می‌توانیم یک رویکرد یادگیری تحت نظارت را با یک رویکرد یادگیری تقویتی جایگزین کنیم؟ عیب یک رویکرد نظارتی، تعصب انسانی درگیر در کل فرآیند AI، از جمع‌آوری داده‌ها تا استقرار مدل است.

تعامل با محیط مهم‌ترین وظیفه یک ماشین خود-راننده است. ادراک اولین گام است که در حال حاضر مبتنی بر هوش مصنوعی است و یک رویکرد نظارتی اعمال می‌شود. در این رویکرد، باید در نظر داشته باشید که وسیله نقلیه در یک محیط باز در حال رانندگی است و باید مدل خود را با تمام صحنه ها و سناریوهای ممکن در دنیای واقعی آموزش دهید. تنوع صحنه‌ها و سناریوها مشکل اصلی است که تسلا، وی‌مو و کروز باید با جمع‌آوری داده‌های بیشتر و بیشتر و اعتبارسنجی عملیات‌های سیستم براساس داده‌های جمع‌آوری‌شده، آن را حل کنند. چگونه می‌توانیم مطمئن شویم که یک ماشین خود-راننده قبلا تمام سناریوهای ممکن را یاد گرفته و بر هر موقعیتی تسلط پیدا کرده‌است؟

یادگیری تقویتی

یادگیری تقویتی (RL) می‌تواند راه حلی برای این مشکل باشد. رویکرد RL به این معنی است که یک عامل اطلاعات محیطی را جمع‌آوری می‌کند و بر اساس یک سیاست تعریف‌شده برای به حداکثر رساندن پاداش‌ها، از یک حالت به حالت بعدی سوئیچ می‌کند. یک نماینده به عنوان مغز یک ماشین خود-راننده چه اقداماتی را انجام می‌دهد؟ برای ساده نگه داشتن آن، سه اقدام شتاب، کاهش شتاب و فرمان مهم‌ترین اقداماتی هستند که بر پویایی وسیله نقلیه و ایمنی جاده تاثیر می‌گذارند. مخاطره آمیزترین تصمیم، هدایت فرمان است و کم اهمیت ترین تصمیم، ترمزگیری است. چگونه می‌توانیم یک سیاست و یک تابع پاداش را در یک فرآیند یادگیری تقویتی برای یک نماینده به عنوان راننده تعریف کنیم؟

تابع پاداش

برای تعریف تابع پاداش، می‌توانیم به جنبه‌های مختلفی مانند مصرف برق، ایمنی تمام کاربران جاده، یا بهترین راه ناوبری برای رسیدن سریع‌تر به مقصد و حرکت ایمن نگاه کنیم. ما باید بین پاداش‌های کوتاه‌مدت مانند رانندگی ایمن و پاداش بلند مدت مانند رسیدن زودتر به مقصد تفاوت قائل شویم. یک نماینده، در این مورد، یک ماشین خود-راننده، نیاز به نظارت بر محیط و درک این موضوع دارد که کدام ایالت جدید می‌تواند حداکثر پاداش را دریافت کند، به عنوان مثال، سرعت، کاهش سرعت یا فرمان، و تمام پارامترها و متغیرهای مرتبط دیگر.

جامعه رانندگی بسیار آهسته و محافظه‌کارانه یا ترمز مکرر توسط ماشین خود-راننده را نمی‌پذیرد. دو راه‌حل برای واکنش به یک رویداد حساس به ایمنی وجود دارد. یکی از آن‌ها به حالت امن قدیمی‌تر برگشته و دومی به دنبال یک «حالت امن» جدید است. از آنجا که مشخص نیست که آیا «حالت امن» قبلی هنوز هم ایمن است، یافتن یک «حالت امن» جدید تنها راه‌حل قابل‌اعتماد است، و حالت امن قدیمی‌تر یک راه‌حل در میان تمام شرایط ممکن دیگر است. با این حال، اگر یک نماینده تصمیم به بازگشت به حالت در گذشته بگیرد، نماینده نیاز به یک ارزیابی پاداش جدید خواهد داشت، و پاداش موجود دیگر معتبر نخواهد بود.

در اینجا چالش پیدا کردن فاصله زمانی برای انجام یک ارزیابی پاداش جدید به موازات سایر فعالیت‌های نماینده است. پاداش در طول زمان بسته به وضعیت و پویایی رانندگی تغییر می‌کند. به طور کلی، حفظ فاصله ایمن از سایر وسایل نقلیه در ترافیک جاده‌ای می‌تواند با ارزش بیشتری پاداش داده شود. این استدلال شبیه ترمز غیر ضروری است که فاصله تا ماشین را بعد از ماشین خود-راننده کوتاه می‌کند.

نظارت بر محیط‌ اطراف

یک ماشین خود-راننده اطلاعات محیطی مرتبط مانند نوع جاده یا علائم ترافیک را از طریق سنسورهای درون-وسیله نقلیه جمع‌آوری می‌کند و یا آن را از راه دور از وسایل نقلیه دیگر و یا زیرساخت دریافت می‌کند. آیا تمام اطلاعات لازم توسط یک ماشین خود-راننده را می توان اندازه‌گیری کرد؟ نه، همه چیز، حداقل هیچ داده تاریخی مانند سبک رانندگی وجود ندارد. چگونه می‌توانیم اندازه‌گیری کنیم که آیا خودروهای خود-راننده با رانندگان دیگر در یک جاده ترافیکی مختلط یا دیگر وسایل نقلیه خود-راننده هم‌کاری می‌کنند؟

ما باید قبل از طراحی هر نماینده برای رانندگی مستقل براساس رویکرد یادگیری تقویتی به چنین سوالاتی پاسخ دهیم. جامعه قبول نخواهد کرد که یک نماینده برای مدت طولانی هم‌کاری نداشته باشد و ما باید چنین رفتاری را اندازه‌گیری و کنترل کنیم.

به نظر می‌رسد استفاده از یادگیری نظارت شده برای پایش محیطی همچنان راه حل مناسبی باشد. ما باید با جدا کردن بخش ادراک از بخش تصمیم‌گیری، پیچیدگی تصمیم‌گیری نماینده را کاهش دهیم. تمام داده‌های جمع‌آوری‌شده توسط سنسورهای محیطی باید برچسب زده شوند و با مانور مناسب برای تسهیل فرآیند طراحی یادگیری تقویتی مرتبط باشند.

انتخاب سیاست برای یک نماینده

انتخاب یک سیاست بهینه برای یک نماینده به عنوان یک وسیله نقلیه خودکار به دلیل سناریوهای ممکن بسیار پیچیده است. یک نماینده باید مشکلات مختلف را بسته به وضعیت ترافیک حل کند و یک پاسخ یا سیاست مناسب براساس این وضعیت پیدا کند. در مورد بیش از یک سیاست معتبر، یک نماینده باید به طور انعطاف‌پذیر بین سیاست‌های مناسب دیگر تغییر کند یا چندین سیاست را برای محاسبه پاداش برای حالت‌های احتمالی بعدی ترکیب کند.

همانطور که در این مقاله توضیح داده شد، یک راه حل ممکن برای یافتن بهترین خط مشی استفاده از رفتار رانندگان با تجربه و توزیع مرتبط به عنوان مرجع و تلاش برای بازتولید این رفتار از طریق نماینده است. با این حال، این مقاله یک سناریوی خاص، «اجتناب از موانع استاتیک» را برای رانندگی انسان مانند با یادگیری تقویت عمیق تجزیه و تحلیل می‌کند، که باید مورد بحث قرار گیرد که چگونه می‌تواند به تمام سناریوهای ممکن گسترش یابد.

راه‌حل دیگر، همان طور که در این مقاله توضیح داده شد، یک رویکرد سلسله مراتبی است. مانورهای حمایت‌شده، مانند رانندگی در کوچه، تغییر مسیر به سمت راست، و تغییر مسیر به سمت چپ، انتخاب شدند. هر مانور سیاست و حکومت خود را دارد و باید به طور جداگانه آموزش داده شود و همچنین باید یک سیاست اصلی برای انتخاب مانور مناسب وجود داشته باشد. این راه‌حل یک RL چند عاملی را توصیف می‌کند و تنها یک عامل در هر نقطه از زمان فعال است و ما به اطلاعات بیشتری برای تغییر بین تمام عوامل نیاز داریم.

جداسازی مانورها پیچیدگی رانندگی خودران را حل نمی‌کند، زیرا باید استدلال کنیم که همه مانورها، از جمله همه تغییرات، قبلاً در فرآیند طراحی و آزمایش در نظر گرفته شده‌اند و جابه‌جایی بین مانورها نیز با خیال راحت انجام می‌شود. از این رو، بعید است که این رویکرد یک ماشین کاملا خود-راننده را فراهم کند که در هر موقعیت و سناریو رقابت کند.

رانندگی یک کار پیچیده است و حداقل سطح اطلاعاتی برای اطمینان از رانندگی ایمن مورد نیاز است، زیرا ما در حال حاضر مقرراتی در مورد چگونگی گرفتن گواهی‌نامه رانندگی داریم. بسیاری از پارامترها مانند پارامترهای دینامیک وسیله نقلیه مانند سرعت، شتاب، موقعیت، شیب و غیره و همچنین پارامترهای محیطی بر مانور رانندگی تاثیر می‌گذارند. دامنه طراحی عملیاتی (ODD) باید پارامترهایی را مشخص کند که رویکرد یادگیری تقویتی را تحت‌تاثیر قرار می‌دهند. مانورهای رانندگی چندگانه تنها یک جنبه در دامنه طراحی هستند و ما باید RL را با در نظر گرفتن تمام پارامترها براساس ODD آموزش دهیم.

این متن با استفاده از ربات ترجمه مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.