مدل های یادگیری تقویتی بر اساس پاداش یا جریمه در ازای اقدامات انجام شده پیشبینی انجام میدهند. سیستم های یادگیری تقویتی دستورالعمل هایی تولید میکنند که شامل بهترین استراتژی برای گرفتن بیشترین جایزه است.
سیستم های یادگیری تقویتی برای آموزش ربات ها به جهت انجام بهتر وظایف استفاده میشوند. مانند راه رفتن اطراف یک اتاق و یا مانند نرم افزار AlphaGo که بازی سنتی Go را بازی میکند.