前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >有限数据下强化学习算法超越人类,​清华叉院助理教授解读EfficientZero

有限数据下强化学习算法超越人类,​清华叉院助理教授解读EfficientZero

作者头像
机器之心
发布2023-03-29 17:56:26
6330
发布2023-03-29 17:56:26
举报
文章被收录于专栏:机器之心

强化学习(RL)目前在许多应用中取得了巨大的成功。然而,强化学习的采样效率(sample efficiency)仍然是一个关键的挑战,目前大部分强化学习算法需要巨大的训练数据,例如需要数百万,甚至数十亿次在环境中采样训练。最近,有一些基于图像的 RL 算法在采样效率方面取得了重大进展,然而,如何在强化学习较为通用的基准 Atari(雅达利)游戏上达到人类水平仍然难以实现。

在一篇 NeurIPS 2021 论文中,清华大学交叉信息研究院高阳研究组提出了一种接受图像观测输入的高采样效率算法 EfficientZero,它基于之前 model-based 算法 MuZero。作者在基于图像观测的 model-based 强化学习算法上提出三点改进用于提升算法的采样效率并且保持高性能:时序一致性,预测阶段回报,修正目标价值。

  • 论文链接:https://arxiv.org/abs/2111.00210 
  • 项目链接:https://github.com/YeWR/EfficientZero

在这三点改进下,EfficientZero 在 Atari 100k 的基准测试中实现了 190.4% 的平均人类性能和 116.0% 的中值性能,而这个任务只有两小时的真实游戏时间,这是第一次在如此有限数据下强化学习算法能够超越人类水平。此外,EfficientZero 的性能也接近 DQN 在 2 亿帧训练数据下的性能,然而所需要的数据降至约 500 分之一。

除了 Atari 游戏,研究还在机器控制的模拟环境 DMControl 100 基准下进行了部分环境的测试,性能同样是最佳,且与基于状态输入的 SAC 算法接近。实验表明,EfficientZero 的高采样效率和高性能可以更适配现实世界的环境,EfficientZero 或许能够使得强化学习算法在真实环境中有所突破。

11 月 24 日晚 7 点,机器之心 NeurIPS 2021 线上系列分享邀请到该论文作者之一、清华大学交叉信息研究院助理教授高阳为我们解读这项研究。该论文的第一作者为清华大学交叉信息研究院 2020 级博士生叶葳蕤,通讯作者为高阳助理教授。其他作者包括美国加州大学伯克利分校教授 Pieter Abbeel、交叉信息研究院 2020 级硕士生刘绍淮以及加州大学伯克利分校博士生 Thanard Kurutach。

分享主题:Mastering Atrai Games with Limited Data

分享摘要:本工作提出了一种 model-based 算法 EfficientZero,它在 MuZero 这类算法上提出了三点改进,使得强化学习算法能够在有限训练数据下取得较高的性能。同时 EfficientZero 也是第一个在 Atari 100k 基准上取得超过人类平均水平的算法,比 DQN 所需数据减少了 500 倍。

嘉宾简介:高阳,博士毕业于加州大学伯克利分校,现任交叉信息研究院助理教授,其主要研究方向为计算机视觉和强化学习。

分享时间:11 月 24 日 19:00-20:00

直播间:关注机动组视频号,北京时间 11 月 24 日开播。

交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「强化学习」即可加入。

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

  • 点击阅读原文,访问机动组官网,观看往期回顾;
  • 关注机动组服务号,获取每周直播预告。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云直播
云直播(Cloud Streaming Services,CSS)为您提供极速、稳定、专业的云端直播处理服务,根据业务的不同直播场景需求,云直播提供了标准直播、快直播、云导播台三种服务,分别针对大规模实时观看、超低延时直播、便捷云端导播的场景,配合腾讯云视立方·直播 SDK,为您提供一站式的音视频直播解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档