强化学习入门
全21集 · 8855次播放
简介
专辑列表
07:58
强化学习 - 第一讲 - 序列决策问题
23:58
强化学习 - 第二讲 - 马尔可夫决策过程
15:58
强化学习 - 第三讲 - 马尔可夫决策过程样例
12:29
强化学习 - 第四讲 - 马尔可夫决策过程的值迭代算法
10:03
强化学习 - 第五讲 - 期望最大搜索树中的值迭代
12:37
强化学习 - 第六讲 - 马尔可夫决策过程的策略评估算法
13:17
强化学习 - 第七讲 - 马尔可夫决策过程的策略迭代算法
15:03
强化学习 - 第八讲 - 无模型方法的问题设定
14:14
强化学习 - 第九讲 - 基于模型的策略评估
15:59
强化学习 - 第十讲 - 无模型设定下的策略评估 - 蒙特卡洛方法
19:15
强化学习 - 第十一讲 - 无模型设定下的策略评估 - 时序差分方法
15:30
强化学习 - 第十二讲 - 无模型设定的策略评估算法对比
06:56
强化学习 - 第十三讲 - 无模型下的策略控制问题设定
18:23
强化学习 - 第十四讲 - 无模型下的策略控制 - 蒙特卡洛策略评估
14:56
强化学习 - 第十五讲 - 无模型下的策略控制 - 蒙特卡洛策略提升
12:39
强化学习 - 第十六讲 - 无模型下的策略控制 - 时序差分算法
11:32
强化学习 - 第十七讲 - 值近似方法 - 状态的泛化
10:38
强化学习 - 第十八讲 - 值近似方法 - 函数近似的方法
08:59
强化学习 - 第十九讲 - 值近似方法 - 策略评估的问题设定
11:58
强化学习 - 第二十讲 - 值近似方法 - 策略评估算法
14:54
强化学习 - 第二十一讲 - 值近似方法 - 策略控制