یادگیری تقویتی (Reinforcement Learning) روشی در یادگیری ماشین است که مدلها از طریق تعامل با محیط و دریافت پاداش یا جریمه یاد میگیرند. هدف اصلی، حداکثر کردن پاداشها از طریق آزمایش و خطا است.
اجزای اصلی یادگیری تقویتی:
عامل (Agent): تصمیمگیرنده.
محیط (Environment): شرایطی که عامل با آن تعامل دارد.
وضعیت (State): موقعیت فعلی عامل در محیط.
اقدام (Action): تصمیم عامل برای تغییر وضعیت.
پاداش (Reward): بازخورد مثبت یا منفی بر اساس اقدام عامل.
سیاست (Policy): استراتژی عامل برای تصمیمگیری.
تابع ارزش (Value Function): تخمین پاداشهای آینده برای هر وضعیت.
تابع Q: تخمین ارزش هر اقدام در یک وضعیت خاص.
مفاهیم کلیدی:
اکتشاف (Exploration): کشف مسیرهای جدید.
بهرهبرداری (Exploitation): استفاده از تجربیات قبلی.
سیگنال پاداش: هدایت یادگیری با بازخوردهای محیط.
فرآیند مارکوف: تصمیمگیری بر اساس وضعیت فعلی.
مثال:
در بازی مار و پله، عامل (بازیکن) با محیط (صفحه بازی) تعامل دارد، از وضعیت فعلی (خانهها) و پاداشها (نردبانها) برای رسیدن به هدف (خانه ۱۰۰) استفاده میکند.
کاربردها: بازیهای رایانهای، رباتیک، و بهینهسازی مسائل پیچیده.