强化学习最新项目研究进展

文章来源：企鹅号 - 习悦智能

1 Ai2Thor仿真环境

强化学习是机器学习的重点研究领域之一，模型通过自身的不断试错，获得奖励或惩罚，从而获得不同情况下的决策判定能力。强化学习的基本组件包含：环境、代理（与环境进行交互的对象）、动作（环境下可行的动作集合）、反馈（针对动作获得的回报，包含正反馈或负反馈）。环境作为其四大因素之一，若要模型在真实场景的环境下进行不断试错是不太实际的。因此，现在有很多研究致力于创建虚拟环境供强化学习模型所使用，从而弥补虚拟与现实中的鸿沟。

本文提出了一个新的环境框架AI2-THOR，它为人工智能agent提供了一个虚拟的室内环境，场景模拟了室内真实的装修效果，且高度仿真。下图为其中几个场景的示意图，如厨房、卧室、淋浴间、客厅等。

在该环境下，agent可以与各种家具、家电等目标进行交互，如打开冰箱、推翻椅子、将电脑放在桌子上等。

相比于同类的其他框架，AI2-THOR的优势在于可以与环境中的物体进行互动，基于现实中的物理规则，具备高度的逼真性。此外，框架提供了python api供使用者调用。

论文：AI2-THOR: An Interactive 3D Environment for Visual AI

Arxiv：https://arxiv.org/abs/1712.05474

网站：http://ai2thor.allenai.org

Github：https://github.com/allenai/ai2thor

2 DeepMind控制套件

为了推动强化学习在实体控制方面的研究，DeepMind推出了控制套件，专注于持续控制任务，如分离具备类似单元（位置、速度、力等）的观察结果，而不是将其串联成一个向量。

如上图所示，Control Suite中的任务可以分为14个领域，也就是14类物理模型，上排从左到右分别是：体操机器人Acrobot，（两节钟摆）、杯中小球、倒立摆、猎豹形机器人、手指、鱼、单足跳跃机器人，下排从左到右分别是人形机器人、机械手、钟摆、质点、形似两节手臂的Reacher、游泳机器人、步行者。

论文：DeepMind Control Suite

Arxiv：https://arxiv.org/abs/1801.00690

Github：https://github.com/deepmind/dm_control

环境：Python、MuJoCo

3 AI安全网格测试

随着人工智能系统在现实世界中变得越来越普遍及实用，确保它们行为的安全性将变得直观重要。迄今为止，大多数人工智能安全性技术研究集中在如何更深入、理论性的了解不安全行为的性质和形成原因。本文中，作者转向经验测试方面，提出了一套专门用于衡量“安全行为”的简单强化学习环境。

作者提出的这九个环境被称为网格世界（gridworld）。每个网格世界由棋盘状的二维网格组成。除了标准奖励功能之外，作者还为每个环境设计了一个性能函数。代理的行为是为了最大化其奖励功能，例如收集尽可能多的苹果或以最少的移动步数到达特定位置。但是，对代理人不可见的性能评估函数，用于衡量我们实际上希望代理人做什么，也就是在实现目标的同时确保安全性。

文章：AI Safety Gridworlds

Arxiv：https://arxiv.org/abs/1711.09883

Github：https://github.com/deepmind/ai-safety-gridworlds

环境要求：Python 2.7、pycolab

4 MAgent强化学习研究平台

MAgent是一个多智能体的强化学习研究平台, 用于帮助理解群体智能和社会现象学。与现有的研究平台不同，现有平台大多只支持一个或多个agent，而MAgent专注于支持需要数百至数百万agent的任务和应用程序。在agent之间的相互作用中，不仅可以研究agent最优策略的学习算法，而且更重要的是能够观察和理解AI社会中出现的个体的行为和社会现象，包括沟通语言、领导力、利他主义。MAgent具有很高的可扩展性，可以在单个GPU服务器上托管多达一百万个agent。MAgent还为AI研究人员提供灵活的配置，以设计他们的定制环境和代理。

下图是MAgent可视化模拟红蓝两军战斗的demo，通过训练一个共享参数DQN模型，最后宏观上智能体学会一些协同策略：包围进攻（图1），合力追击（图2）：

文章：MAgent: A Many-Agent Reinforcement Learning Platform for Artificial Collective Intelligence

Arxiv：https://arxiv.org/abs/1712.00600

Github：https://github.com/geek-ai/MAgent

环境：Linux、OS X、Python 2.7 or python 3

以上就是全部内容啦~关注“习悦智能”，获取更多行业新鲜资讯~

发表于: 2018-01-082018-01-08 15:02:53
原文链接：http://kuaibao.qq.com/s/20180108G0EJT700?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

强化学习最新项目研究进展

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐