深度强化学习实验室-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度强化学习实验室

专栏成员

91

文章

170702

阅读量

44

订阅数

DeepMind发布强化学习库 RLax

ajax 强化学习 git github 开源

强化学习主要用于研究学习系统（智能体）的问题，该学习系统必须学习与环境进行交互的信息。智能体和环境在不连续的步骤上进行交互。在每个步骤中，智能体都会选择一个动作，并会提供一个返回的环境状态（观察）状态（部分）和标量反馈信号（奖励）。智能体的行为以行为的概率分布为特征，该分布取决于对环境（策略）的过去观察。智能体寻求一种策略，该策略将从任何给定步骤中最大化从该点开始（返回）将收集的折扣累积奖励。智能体策略或环境动态本身通常是随机的。在这种情况下，回报是一个随机变量，并且通常将更精确的智能体策略指定为在智能体和环境的随机性下最大化回报期望（值）的策略。

深度强化学习实验室

2020-02-25

8310

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态