腾讯视频
强化学习入门
全21集 · 9200次播放
简介
专辑列表

07:58
强化学习 - 第一讲 - 序列决策问题

23:58
强化学习 - 第二讲 - 马尔可夫决策过程

15:58
强化学习 - 第三讲 - 马尔可夫决策过程样例

12:29
强化学习 - 第四讲 - 马尔可夫决策过程的值迭代算法

10:03
强化学习 - 第五讲 - 期望最大搜索树中的值迭代

12:37
强化学习 - 第六讲 - 马尔可夫决策过程的策略评估算法

13:17
强化学习 - 第七讲 - 马尔可夫决策过程的策略迭代算法

15:03
强化学习 - 第八讲 - 无模型方法的问题设定

14:14
强化学习 - 第九讲 - 基于模型的策略评估

15:59
强化学习 - 第十讲 - 无模型设定下的策略评估 - 蒙特卡洛方法

19:15
强化学习 - 第十一讲 - 无模型设定下的策略评估 - 时序差分方法

15:30
强化学习 - 第十二讲 - 无模型设定的策略评估算法对比

06:56
强化学习 - 第十三讲 - 无模型下的策略控制问题设定

18:23
强化学习 - 第十四讲 - 无模型下的策略控制 - 蒙特卡洛策略评估

14:56
强化学习 - 第十五讲 - 无模型下的策略控制 - 蒙特卡洛策略提升

12:39
强化学习 - 第十六讲 - 无模型下的策略控制 - 时序差分算法

11:32
强化学习 - 第十七讲 - 值近似方法 - 状态的泛化

10:38
强化学习 - 第十八讲 - 值近似方法 - 函数近似的方法

08:59
强化学习 - 第十九讲 - 值近似方法 - 策略评估的问题设定

11:58
强化学习 - 第二十讲 - 值近似方法 - 策略评估算法

14:54
强化学习 - 第二十一讲 - 值近似方法 - 策略控制