专栏首页arxiv.org翻译专栏了解递归策略网络的有限状态表示(CS LG)
原创

了解递归策略网络的有限状态表示(CS LG)

本文中,我们介绍了一种理解递归策略网络有限状态机(FSM)表示的方法。最近的研究成果大都集中在最小化FSM来获得高层次的洞察力,然而,最小化会通过合并语义上不同的状态模糊更深入的理解。相反,我们的方法从一个未实现的机器开始,并应用更多可解释的缩减以保留关键决策点,我们还提供了一个卓越的工具,以便更深入地了解观察在决定中的作用。我们对来自7个Atari游戏和3个控制基准的策略案例进行研究,表明了本方法洞察了以前工作中没有注意到的方面。

原文题目:Understanding Finite-State Representations of Recurrent Policy Networks

原文:We introduce an approach for understanding finite-state machine (FSM) representations of recurrent policy networks. Recent work focused on minimizing FSMs to gain high-level insight, however, minimization can obscure a deeper understanding by merging states that are semantically distinct. Conversely, our approach starts with an unminimized machine and applies more-interpretable reductions that preserve the key decision points of the policy. We also contribute a saliency tool to attain a deeper understanding of the role of observations in the decisions. Our case studies on policies from 7 Atari games and 3 control benchmarks demonstrate that the approach can reveal insights that have not been noticed in prior work.

原文作者:Mohamad H. Danesh, Anurag Koul, Alan Fern, Saeed Khorram

原文链接:https://arxiv.org/abs/2006.03745

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 基于互信息正则化策略梯度的隐私约束策略(CS LG)

    随着强化学习技术越来越多地应用于现实世界的决策问题,人们的注意力已转向这些算法如何使用潜在的敏感信息。我们认为培训策略的任务是最大化奖励,同时通过行动将某些敏感...

    毛艺漩8078803
  • 学习合作: 多智能体导航中的紧急通信(CS LG)

    人工智能中的紧急通信已经被用来研究语言进化,以及开发学习与人类交流的人工系统。我们展示了在不同的网格世界环境中代理执行协同导航任务来了解一个可解释的通信协议,使...

    用户7095611
  • 三大运营商展开VR布局,谁才能脱颖而出?

    随着5G牌照的发放,中国也开始逐渐进入5G时代。而VR作为5G场景下的首要应用场景,受到了各大运营商的紧密关注。不论是电信、移动、还是联通,都陆续展开了VR方面...

    VRPinea
  • 两个水壶相互倒水—水壶问题

    有两个容量分别为 x升 和 y升 的水壶以及无限多的水。请判断能否通过使用这两个水壶,从而可以得到恰好 z升 的水? 如果可以,最后请用以上水壶中的一或两个来盛...

    ZONGLYN
  • 重磅综述—从fMRI动态角度窥探认知与神经病理学机制

    人类行为包括许多因其动态特性而突出的方面。为了量化它的神经基础,时间分辨的功能磁共振成像方法在过去十年得到了发展。在这篇综述中,我们概念性地组织了一个广泛的动态...

    悦影科技
  • DeepCrawl:回合制策略游戏的深度强化学习(CS lg)

    在本文中,我们介绍了DeepCrawl,一个适用于iOS和Android的可完全播放的Roguelike游戏,其中所有代理均受使用深度强化学习(DRL)训练的政...

    木樾233
  • 访问控制技术

    访问控制技术是指:防止对任何资源进行未授权的访问,从而使计算机系统在合法的范围内使用,用户身份及其所归属的某项定义组来限制用户对某些信息项的访问,或限制对某些控...

    网络安全观
  • 什么是命名数据网络NDN?

    命名数据网络(Named Data Networking, NDN)经常出现在5G、边缘计算相关的文献书籍上,那NDN究竟是何方神圣?一起来了解一下吧!

    边缘计算
  • Jeff Dean 演讲直播:自主机器学习成为谷歌大脑最新研究热点(PPT)

    【新智元导读】谷歌大脑负责人 Jeff Dean 今天上午在 UCSB 做了题为《通过大规模深度学习构建智能系统》的演讲。新智元结合 UCSB CS 在 Twi...

    新智元
  • 异步 Q-Learning 的样本复杂度:更敏锐的分析和方差减少技术(CS LG)

    异步 Q-learning 的目的是基于行为策略诱导的马尔科夫样本的单一轨迹,学习马尔科夫决策过程(MDP)的最优行动值函数(或Q-function)。专注于一...

    刘持诚
  • CA数字认证系统为何要用NTP时钟服务器?

    1、CA系统各个设备众多,计算机网络中各主机和服务器等网络设备的时间基本处于无序的状态。随着计算机网络应用的不断涌现,计算机的时间同步问题成为愈来愈重要的事情。...

    NTP网络同步时钟
  • 【NDN实验】ndnSIM: NDN simulator for NS-3 全文翻译

    Alexander Afanasyev, Ilya Moiseenko, and Lixia Zhang

    魏晓蕾
  • 自学习AI智能体第一部分:马尔可夫决策过程

    这是关于自学习AI智能体系列的第一篇文章,或者我们可以更准确地称之为 – 深度强化学习。本系列文章的目的不仅仅是让你对这些概念有一个直观的认识。而是想让你更深入...

    AiTechYun
  • 自学习 AI 智能体第一部分:马尔科夫决策过程

    这是关于自学习AI智能体系列的第一篇文章,或者更准确地称之为 - 深度强化学习。 本系列的目的不仅仅是让你对这些主题有所了解。 相反,我想让你更深入地理解深度强...

    AI研习社
  • 通过知识蒸馏迁移归纳偏差(CS LG)

    在数据或计算资源受限的许多任务或场景中,或者在测试时训练数据不能完全代表实际条件的情况下,拥有正确的归纳偏差是至关重要的,然而,定义、设计并有效地适应归纳偏差并...

    Elva
  • 自学习 AI 智能体第二部分:深度 Q 学习

    深度学习的数学指导。 在关于深度强化学习的多系列的第二部分中,我将向你介绍 AI 主体如何学习在具有离散动作空间的环境中表示的有效方法。

    AI研习社
  • 基于模型的强化学习中的Delta模式网络(CS LG)

    这项工作致力于解决人工智能的未解决问题-学习迁移的效率低下。在强化学习领域中用于解决此问题的机制之一是基于模型的方法。 在本文中,我们正在扩展模式网络方法,该方...

    小童
  • 深度学习在医学影像上的应用(二)——图像重建及后处理,标注,回归,配准,图像超分辨率

    上一篇给大家介绍了深度学习在医学影像上分类的应用案例,这一篇我将分享深度学习在医学影像上关于图像重建及后处理,图像标注,图像配准,图像超分辨率和回归的应用。

    医学处理分析专家
  • 【 ASO项目使用的技术】之切换IP的实现(三种切换IP的方式,涉及两种实现方案:基于DoSources0、递归执行切换任务)

    方案一:使用performSelectorOnMainThread 结合递归来执行切换IP的任务

    公众号iOS逆向

扫码关注云+社区

领取腾讯云代金券