loading...
همه چیز از همه جا
mrx بازدید : 9 چهارشنبه 28 بهمن 1394 نظرات (0)

فهرست مطالب:
معرفی یادگیری تقویتی
برنامه نویسی پویا
اجزا یک سیستم یادگیری تقویتی
 محیط
 تابع پاداش
 تابع مقدار
 Q-Learning
 معرفی
 الگوریتم یادگیری
 مثالی از یک عامل
 مثالی از برج هانوی
 اثبات همگرایی
 یادگیری Q برای MDP غیرقطعی
 روش های مونت کارلو در یادگیری تقویتی
 ویژگیها
 سیاست first visit MC
 کنترل مونت کارلو
 همگرایی مونت کارلو
on line policy و off linepolicy
منابع




جهت دانلود اینجا کلیک کنید
ارسال نظر برای این مطلب

کد امنیتی رفرش
اطلاعات کاربری
  • فراموشی رمز عبور؟
  • نویسندگان
    آمار سایت
  • کل مطالب : 30878
  • کل نظرات : 9
  • افراد آنلاین : 12
  • تعداد اعضا : 1
  • آی پی امروز : 166
  • آی پی دیروز : 247
  • بازدید امروز : 1,279
  • باردید دیروز : 551
  • گوگل امروز : 0
  • گوگل دیروز : 4
  • بازدید هفته : 1,830
  • بازدید ماه : 5,750
  • بازدید سال : 82,544
  • بازدید کلی : 2,212,757