فهرست مطالب:
معرفی یادگیری تقویتی
برنامه نویسی پویا
اجزا یک سیستم یادگیری تقویتی
محیط
تابع پاداش
تابع مقدار
Q-Learning
معرفی
الگوریتم یادگیری
مثالی از یک عامل
مثالی از برج هانوی
اثبات همگرایی
یادگیری Q برای MDP غیرقطعی
روش های مونت کارلو در یادگیری تقویتی
ویژگیها
سیاست first visit MC
کنترل مونت کارلو
همگرایی مونت کارلو
on line policy و off linepolicy
منابع
جهت دانلود اینجا کلیک کنید