腾讯视频

首页电视剧电影综艺动漫少儿纪录片游戏 VIP会员 NBA

下载客户端

视频极速下载

本地视频播放

桌面便捷访问

立即体验客户端

续费开通电视特权

我的游戏礼包

登录之后可以

同步多端观看记录

参与互动讨论

观看更个性化内容

领取专属游戏礼包

立即登录

强化学习 - 第一讲 - 序列决策问题

07:58

强化学习 - 第一讲 - 序列决策问题

强化学习 - 第二讲 - 马尔可夫决策过程

23:58

强化学习 - 第二讲 - 马尔可夫决策过程

强化学习 - 第三讲 - 马尔可夫决策过程样例

15:58

强化学习 - 第三讲 - 马尔可夫决策过程样例

强化学习 - 第四讲 - 马尔可夫决策过程的值迭代算法

12:29

强化学习 - 第四讲 - 马尔可夫决策过程的值迭代算法

强化学习 - 第五讲 - 期望最大搜索树中的值迭代

10:03

强化学习 - 第五讲 - 期望最大搜索树中的值迭代

强化学习 - 第六讲 - 马尔可夫决策过程的策略评估算法

12:37

强化学习 - 第六讲 - 马尔可夫决策过程的策略评估算法

强化学习 - 第七讲 - 马尔可夫决策过程的策略迭代算法

13:17

强化学习 - 第七讲 - 马尔可夫决策过程的策略迭代算法

强化学习 - 第八讲 - 无模型方法的问题设定

15:03

强化学习 - 第八讲 - 无模型方法的问题设定

强化学习 - 第九讲 - 基于模型的策略评估

14:14

强化学习 - 第九讲 - 基于模型的策略评估

强化学习 - 第十讲 - 无模型设定下的策略评估 - 蒙特卡洛方法

15:59

强化学习 - 第十讲 - 无模型设定下的策略评估 - 蒙特卡洛方法

强化学习 - 第十一讲 - 无模型设定下的策略评估 - 时序差分方法

19:15

强化学习 - 第十一讲 - 无模型设定下的策略评估 - 时序差分方法

强化学习 - 第十二讲 - 无模型设定的策略评估算法对比

15:30

强化学习 - 第十二讲 - 无模型设定的策略评估算法对比

强化学习 - 第十三讲 - 无模型下的策略控制问题设定

06:56

强化学习 - 第十三讲 - 无模型下的策略控制问题设定

强化学习 - 第十四讲 - 无模型下的策略控制 - 蒙特卡洛策略评估

18:23

强化学习 - 第十四讲 - 无模型下的策略控制 - 蒙特卡洛策略评估

强化学习 - 第十五讲 - 无模型下的策略控制 - 蒙特卡洛策略提升

14:56

强化学习 - 第十五讲 - 无模型下的策略控制 - 蒙特卡洛策略提升

强化学习 - 第十六讲 - 无模型下的策略控制 - 时序差分算法

12:39

强化学习 - 第十六讲 - 无模型下的策略控制 - 时序差分算法

强化学习 - 第十七讲 - 值近似方法 - 状态的泛化

11:32

强化学习 - 第十七讲 - 值近似方法 - 状态的泛化

强化学习 - 第十八讲 - 值近似方法 - 函数近似的方法

10:38

强化学习 - 第十八讲 - 值近似方法 - 函数近似的方法

强化学习 - 第十九讲 - 值近似方法 - 策略评估的问题设定

08:59

强化学习 - 第十九讲 - 值近似方法 - 策略评估的问题设定

强化学习 - 第二十讲 - 值近似方法 - 策略评估算法

11:58

强化学习 - 第二十讲 - 值近似方法 - 策略评估算法

强化学习 - 第二十一讲 - 值近似方法 - 策略控制

14:54

强化学习 - 第二十一讲 - 值近似方法 - 策略控制