强化学习最新项目研究进展

1 Ai2Thor仿真环境

强化学习是机器学习的重点研究领域之一,模型通过自身的不断试错,获得奖励或惩罚,从而获得不同情况下的决策判定能力。强化学习的基本组件包含:环境、代理(与环境进行交互的对象)、动作(环境下可行的动作集合)、反馈(针对动作获得的回报,包含正反馈或负反馈)。环境作为其四大因素之一,若要模型在真实场景的环境下进行不断试错是不太实际的。因此,现在有很多研究致力于创建虚拟环境供强化学习模型所使用,从而弥补虚拟与现实中的鸿沟。

本文提出了一个新的环境框架AI2-THOR,它为人工智能agent提供了一个虚拟的室内环境,场景模拟了室内真实的装修效果,且高度仿真。下图为其中几个场景的示意图,如厨房、卧室、淋浴间、客厅等。

在该环境下,agent可以与各种家具、家电等目标进行交互,如打开冰箱、推翻椅子、将电脑放在桌子上等。

相比于同类的其他框架,AI2-THOR的优势在于可以与环境中的物体进行互动,基于现实中的物理规则,具备高度的逼真性。此外,框架提供了python api供使用者调用。

论文:AI2-THOR: An Interactive 3D Environment for Visual AI

Arxiv:https://arxiv.org/abs/1712.05474

网站:http://ai2thor.allenai.org

Github:https://github.com/allenai/ai2thor

2 DeepMind控制套件

为了推动强化学习在实体控制方面的研究,DeepMind推出了控制套件,专注于持续控制任务,如分离具备类似单元(位置、速度、力等)的观察结果,而不是将其串联成一个向量。

如上图所示,Control Suite中的任务可以分为14个领域,也就是14类物理模型,上排从左到右分别是:体操机器人Acrobot,(两节钟摆)、杯中小球、倒立摆、猎豹形机器人、手指、鱼、单足跳跃机器人,下排从左到右分别是人形机器人、机械手、钟摆、质点、形似两节手臂的Reacher、游泳机器人、步行者。

论文:DeepMind Control Suite

Arxiv:https://arxiv.org/abs/1801.00690

Github:https://github.com/deepmind/dm_control

环境:Python、MuJoCo

3 AI安全网格测试

随着人工智能系统在现实世界中变得越来越普遍及实用,确保它们行为的安全性将变得直观重要。迄今为止,大多数人工智能安全性技术研究集中在如何更深入、理论性的了解不安全行为的性质和形成原因。本文中,作者转向经验测试方面,提出了一套专门用于衡量“安全行为”的简单强化学习环境。

作者提出的这九个环境被称为网格世界(gridworld)。每个网格世界由棋盘状的二维网格组成。除了标准奖励功能之外,作者还为每个环境设计了一个性能函数。代理的行为是为了最大化其奖励功能,例如收集尽可能多的苹果或以最少的移动步数到达特定位置。但是,对代理人不可见的性能评估函数,用于衡量我们实际上希望代理人做什么,也就是在实现目标的同时确保安全性。

文章:AI Safety Gridworlds

Arxiv:https://arxiv.org/abs/1711.09883

Github:https://github.com/deepmind/ai-safety-gridworlds

环境要求:Python 2.7、pycolab

4 MAgent强化学习研究平台

MAgent是一个多智能体的强化学习研究平台, 用于帮助理解群体智能和社会现象学。与现有的研究平台不同,现有平台大多只支持一个或多个agent,而MAgent专注于支持需要数百至数百万agent的任务和应用程序。在agent之间的相互作用中,不仅可以研究agent最优策略的学习算法,而且更重要的是能够观察和理解AI社会中出现的个体的行为和社会现象,包括沟通语言、领导力、利他主义。MAgent具有很高的可扩展性,可以在单个GPU服务器上托管多达一百万个agent。MAgent还为AI研究人员提供灵活的配置,以设计他们的定制环境和代理。

下图是MAgent可视化模拟红蓝两军战斗的demo,通过训练一个共享参数DQN模型,最后宏观上智能体学会一些协同策略:包围进攻(图1),合力追击(图2):

文章:MAgent: A Many-Agent Reinforcement Learning Platform for Artificial Collective Intelligence

Arxiv:https://arxiv.org/abs/1712.00600

Github:https://github.com/geek-ai/MAgent

环境:Linux、OS X、Python 2.7 or python 3

以上就是全部内容啦~关注“习悦智能”,获取更多行业新鲜资讯~

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180108G0EJT700?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区