强化学习入门
全21集 · 8855次播放
简介
专辑列表
强化学习 - 第一讲 - 序列决策问题
07:58
强化学习 - 第一讲 - 序列决策问题
强化学习 - 第二讲 - 马尔可夫决策过程
23:58
强化学习 - 第二讲 - 马尔可夫决策过程
强化学习 - 第三讲 - 马尔可夫决策过程样例
15:58
强化学习 - 第三讲 - 马尔可夫决策过程样例
强化学习 - 第四讲 - 马尔可夫决策过程的值迭代算法
12:29
强化学习 - 第四讲 - 马尔可夫决策过程的值迭代算法
强化学习 - 第五讲 - 期望最大搜索树中的值迭代
10:03
强化学习 - 第五讲 - 期望最大搜索树中的值迭代
强化学习 - 第六讲 - 马尔可夫决策过程的策略评估算法
12:37
强化学习 - 第六讲 - 马尔可夫决策过程的策略评估算法
强化学习 - 第七讲 - 马尔可夫决策过程的策略迭代算法
13:17
强化学习 - 第七讲 - 马尔可夫决策过程的策略迭代算法
强化学习 - 第八讲 - 无模型方法的问题设定
15:03
强化学习 - 第八讲 - 无模型方法的问题设定
强化学习 - 第九讲 - 基于模型的策略评估
14:14
强化学习 - 第九讲 - 基于模型的策略评估
强化学习 - 第十讲 - 无模型设定下的策略评估 - 蒙特卡洛方法
15:59
强化学习 - 第十讲 - 无模型设定下的策略评估 - 蒙特卡洛方法
强化学习 - 第十一讲 - 无模型设定下的策略评估 - 时序差分方法
19:15
强化学习 - 第十一讲 - 无模型设定下的策略评估 - 时序差分方法
强化学习 - 第十二讲 - 无模型设定的策略评估算法对比
15:30
强化学习 - 第十二讲 - 无模型设定的策略评估算法对比
强化学习 - 第十三讲 - 无模型下的策略控制问题设定
06:56
强化学习 - 第十三讲 - 无模型下的策略控制问题设定
强化学习 - 第十四讲 - 无模型下的策略控制 - 蒙特卡洛策略评估
18:23
强化学习 - 第十四讲 - 无模型下的策略控制 - 蒙特卡洛策略评估
强化学习 - 第十五讲 - 无模型下的策略控制  - 蒙特卡洛策略提升
14:56
强化学习 - 第十五讲 - 无模型下的策略控制 - 蒙特卡洛策略提升
强化学习 - 第十六讲 - 无模型下的策略控制  - 时序差分算法
12:39
强化学习 - 第十六讲 - 无模型下的策略控制 - 时序差分算法
强化学习 - 第十七讲 -  值近似方法 - 状态的泛化
11:32
强化学习 - 第十七讲 - 值近似方法 - 状态的泛化
强化学习 - 第十八讲 -  值近似方法 - 函数近似的方法
10:38
强化学习 - 第十八讲 - 值近似方法 - 函数近似的方法
强化学习 - 第十九讲 -  值近似方法 - 策略评估的问题设定
08:59
强化学习 - 第十九讲 - 值近似方法 - 策略评估的问题设定
强化学习 - 第二十讲 -  值近似方法 - 策略评估算法
11:58
强化学习 - 第二十讲 - 值近似方法 - 策略评估算法
强化学习 - 第二十一讲 -  值近似方法 - 策略控制
14:54
强化学习 - 第二十一讲 - 值近似方法 - 策略控制