loading...
همه چیز از همه جا
mrx بازدید : 9 چهارشنبه 28 بهمن 1394 نظرات (0)

فهرست مطالب:
معرفی یادگیری تقویتی
برنامه نویسی پویا
اجزا یک سیستم یادگیری تقویتی
 محیط
 تابع پاداش
 تابع مقدار
 Q-Learning
 معرفی
 الگوریتم یادگیری
 مثالی از یک عامل
 مثالی از برج هانوی
 اثبات همگرایی
 یادگیری Q برای MDP غیرقطعی
 روش های مونت کارلو در یادگیری تقویتی
 ویژگیها
 سیاست first visit MC
 کنترل مونت کارلو
 همگرایی مونت کارلو
on line policy و off linepolicy
منابع




جهت دانلود اینجا کلیک کنید
ارسال نظر برای این مطلب

کد امنیتی رفرش
اطلاعات کاربری
  • فراموشی رمز عبور؟
  • نویسندگان
    آمار سایت
  • کل مطالب : 30878
  • کل نظرات : 9
  • افراد آنلاین : 296
  • تعداد اعضا : 1
  • آی پی امروز : 581
  • آی پی دیروز : 504
  • بازدید امروز : 11,059
  • باردید دیروز : 3,458
  • گوگل امروز : 0
  • گوگل دیروز : 1
  • بازدید هفته : 14,517
  • بازدید ماه : 14,517
  • بازدید سال : 120,238
  • بازدید کلی : 2,250,451