DeepMind开源强化学习库TRFL,可在TensorFlow中编写强化学习智能体

编译:chux

出品:ATYUN订阅号

今天,DeepMind开源了一个新的构建模块库,用于在TensorFlow中编写强化学习(RL)智能体。名为TRFL(发音为’truffle’),它代表了其内部用于大量最成功的代理的关键算法组件的集合,如DQN,DDPG和IMPALA(Importance Weighted Actor Learner Architecture)。

典型的深度强化学习智能体由大量的交互组件组成:至少,这些组件包括环境和代表值或策略的一些深层网络,但它们通常还包括诸如环境的学习模型之类的组件,伪奖励函数或replay系统。

这些部分倾向于以微妙的方式进行交互(通常没有在论文中详细记录,正如Henderson及其同事所强调的那样),因此很难在如此大的计算图中识别错误。OpenAI最近的一篇博客文章通过分析强化学习代理的一些最流行的开源实现突出了这个问题,并发现10个中有6个“有社区成员发现并由作者确认的微妙错误”。

解决这个问题的一种方法是帮助研究界试图从论文中再现结果,这是通过开源的完整智能体实现。例如,这是我们最近使用v-trace代理的可扩展分布式实现所做的。这些大型智能体代码库对于再现研究非常有用,但也很难修改和扩展。一种不同且互补的方法是提供可靠的,经过良好测试的通用构建块实现,可以在各种不同的RL代理中使用。此外,通过使用一致的API将这些核心组件抽象到单个库中,可以更轻松地组合源自各种不同论文中的创意。

TRFL库包括实现经典RL算法以及更尖端技术的功能。此处提供的损失函数和其他操作在纯TensorFlow中实现。它们不是完整的算法,但是在构建全功能RL代理时需要实现特定于RL的数学运算。

对于基于价值的强化学习,团队提供TensorFlow ops用于在离散动作空间中学习,例如TD-learning,Sarsa,Q-learning及其变体,以及用于实现连续控制算法的操作,例如DPG。

库中还包括用于学习分配价值功能的操作。这些操作支持批次,并通过将其输送到TensorFlow Optimiser来返回可以最小化的损失。一些损失函数在批次转换(例如Sarsa,Q learning)上运行,而其他一些损失在多批轨迹上运行(例如Q lambda,Retrace)。

对于基于策略的方法,实用程序可以轻松实现A2C等在线方法,以及支持非政策纠正技术,如v-trace。另外还支持连续动作空间中的策略梯度的计算。

最后,TRFL还提供了UNREAL所使用的辅助伪奖励函数的实现,它可以提高各种领域的数据效率。

这不是一次性发布。由于此库在DeepMind内部广泛使用,因此团队将继续维护它,并随着时间的推移添加新功能。团队也希望得到更广泛的RL社区对此库的贡献。

TRFL库由DeepMind的研究工程团队创建。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-10-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

盘点丨2018 年热门 Python 库丨TOP20

在解决数据科学任务和挑战方面,Python继续处于领先地位。去年,我对当时热门的Python库进行了总结。今年,我在当中加入新的库,重新对2018年热门Pyth...

1752
来自专栏人工智能LeadAI

译文 | 与TensorFlow的第一次接触(一)

本人对一直对高性能网络服务器,分布式存储比较感兴趣,在BAT时也一直从事架构开发,并没有做过机器学习相关工作,平时喜欢阅读分析开源代码,到目前为止已分析完约8套...

3426
来自专栏星回的实验室

推荐系统从0到1[二]:个性化召回

前文说完数据的基础积累,包括用户画像和内容画像的构建,接下来我们可以正式着手开始推荐了。以新闻推荐举例来说,推荐可以有很多策略,包括基于用户兴趣画像语义的策略(...

1.8K6
来自专栏BestSDK

50种机器学习和人脸识别API,收藏好!以后开发不用找啦

API 是一套用于构建软件程序的协议和工具。对于应用开发者而言,有了开放的 API,就可以直接调用其他公司做好的功能为我所用,这在很大程度上提升了工作效率。本文...

1773
来自专栏思影科技

结构脑网络的模块性分离,支持青年时期大脑功能执行的提升

宾夕法尼亚大学精神病学系的Satterthwaite等人在Current Biology期刊上发表了一项研究,用来解释青年时期的执行功能活动和大脑结构网络的成熟...

3747
来自专栏思影科技

PNAS:婴儿早期记忆能力比我们想象的要高

近日来自意大利帕多瓦大学的Silvia Benavides-Varela教授在美国国家科学院院刊(PNAS)上发表了一篇关于婴儿早期记忆的研究,这一工作使用近红...

35513
来自专栏人工智能头条

从零实现来理解机器学习算法:书籍推荐及克服障碍的技巧

1485
来自专栏AI研习社

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

深度学习是人工智能发展最为迅速的领域之一,Google、Facebook、Microsoft 等巨头都围绕深度学习重点投资了一系列新兴项目,他们也一直在支持一些...

3614
来自专栏新智元

【深度】基于论文,对谷歌 TPU 的最全分析和专业评价

【新智元导读】本文以 Google 最新公开的 TPU 论文《在数据中心中对张量处理器进行性能分析》的译本为基础,对该论文及 TPU 进行了评价。 源起 2...

5014
来自专栏华章科技

数据挖掘:手把手教你做文本挖掘

文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无...

572

扫码关注云+社区