专栏首页arxiv.org翻译专栏利用神经网络虚拟自玩求解大规模扩展型网络安全博弈

利用神经网络虚拟自玩求解大规模扩展型网络安全博弈

在现实世界中,确保网络基础设施的安全非常重要。在网络域中部署安全资源以抵御攻击者的问题可以建模为网络安全游戏(NSGs)。不幸的是,现有的方法,包括基于深度学习的方法,对于解决大规模的大规模大规模NSGs是低效的。本文提出了一种新的学习范式NSG-NFSP,用于解决基于神经虚拟自我游戏(NFSP)的大规模扩展形式NSG。我们的主要贡献包括:(1)将NFSP中的最佳反应策略网络改造为从行为-状态对到行为-价值的映射,使NSGs中最佳反应策略的计算成为可能;ii)将NFSP代理的平均策略网络转换为基于度量的分类器,帮助代理仅在法律行为而不是所有行为上分配分配;iii)使NFSP具有高水平的行动,这有利于NSG的培训效率和稳定性;以及iv)通过学习有效的图节点嵌入来利用NSG图中包含的信息。我们的算法在可伸缩性和解决方案质量方面都显著优于最先进的算法。

原文题目:Solving Large-Scale Extensive-Form Network Security Games via Neural Fictitious Self-Play

原文:Securing networked infrastructures is important in the real world. The problem of deploying security resources to protect against an attacker in networked domains can be modeled as Network Security Games (NSGs). Unfortunately, existing approaches, including the deep learning-based approaches, are inefficient to solve large-scale extensive-form NSGs. In this paper, we propose a novel learning paradigm, NSG-NFSP, to solve large-scale extensive-form NSGs based on Neural Fictitious Self-Play (NFSP). Our main contributions include: i) reforming the best response (BR) policy network in NFSP to be a mapping from action-state pair to action-value, to make the calculation of BR possible in NSGs; ii) converting the average policy network of an NFSP agent into a metric-based classifier, helping the agent to assign distributions only on legal actions rather than all actions; iii) enabling NFSP with high-level actions, which can benefit training efficiency and stability in NSGs; and iv) leveraging information contained in graphs of NSGs by learning efficient graph node embeddings. Our algorithm significantly outperforms state-of-the-art algorithms in both scalability and solution quality.

原文链接:https://arxiv.org/abs/2106.00897

原文作者:Wanqi Xue, Youzhi Zhang, Shuxin Li, Xinrun Wang, Bo An, Chai Kiat Yeo

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 浙大提出会打德扑的「自我博弈」AI,还会玩射击游戏

    随着深度强化学习的快速发展,AI 已经在围棋等信息完整的游戏中战胜了人类专业玩家。然而,「星际争霸」等信息不完整游戏的研究还没有取得同样的进展。这类研究的一大问...

    机器之心
  • 浙大提出会打德扑的「自我博弈」AI,还会玩射击游戏

    随着深度强化学习的快速发展,AI 已经在围棋等信息完整的游戏中战胜了人类专业玩家。然而,「星际争霸」等信息不完整游戏的研究还没有取得同样的进展。这类研究的一大问...

    小小詹同学
  • Neural Fictitious Self Play——从博弈论到深度强化学习

    用户1107453
  • ICML论文|阿尔法狗CTO讲座: AI如何用新型强化学习玩转围棋扑克游戏

    6月19日(美国时间)在纽约举行的国际机器学习大会(ICML)上,来自谷歌、Facebook以及顶尖研究学府的科学家们通过论文和讲座,分享了最尖端的机器学习研究...

    AI科技评论
  • Alphastar再登Nature!星际争霸任一种族,战网狂虐99.8%人类玩家

    今天,Deepmind在《自然》杂志发布最新研究:在不设限制的情况下,以Grandmaster级别玩一场完整游戏,并放出了相关游戏视频和论文,相关数据显示,Al...

    大数据文摘
  • 【AlphaGo Zero Nature围棋论文翻译与笔记】不使用人类知识通过强化学习精通围棋!

    【导读】Google DeepMind AlphaGo团队在Nature上发表两篇论文《Mastering the game of Go without Hum...

    WZEARW
  • 教你用 Python 和 Keras 建立自己的 AlphaZero

    作者David Foster。 翻译 | 黄伟聪 董星 校对 | 凡江 ? 在这篇文章,我会试着阐明三件事: AlphaZero之所以是人工智能前...

    AI研习社
  • 从α到μ:DeepMind棋盘游戏AI进化史

    本文将简单介绍这些算法的演进历程。未来,DeepMind 能否创造出这一系列的终极算法 OmegaZero 呢?

    机器之心
  • 为什么在深度学习中,AlphaGo Zero是一个巨大的飞跃?

    1983年的电影“战争游戏”有一个令人难忘的高潮,即超级计算机WOPR(战争操作计划响应)被要求自行训练,以发现一个不可能获胜的游戏概念。Mathew Brod...

    AiTechYun
  • 自学如何使用Python和Keras构建你自己专属的AlphaZero系统

    近日,Applied Data Science的联合创始人David Foster发表了一份详细的教程,意在教你搭建一套属于自己的AlphaZero系统。以下是...

    AiTechYun
  • 《自然》论文详解:AlphaGo 背后的深度神经网络和树搜索

    Nature 封面论文:Mastering the game of Go with deep neural networks and tree search(通...

    新智元
  • AlphaGo背后的力量:蒙特卡洛树搜索入门指南

    选自int8 Blog 机器之心编译 我们都知道 DeepMind 的围棋程序 AlphaGo,以及它超越人类的强大能力,也经常会听到「蒙特卡洛树搜索」这个概念...

    机器之心
  • 40张图看懂扑克AI对抗人类30年历史,解密冷扑大师前世今生

    【新智元导读】2017年是AI在扑克上取得突破的一年,冷扑大师Libratus和DeepStack 相继完胜人类,实现对人类专业级玩家的超越,毫无疑问是里程碑式...

    新智元
  • 【Nature重磅封面】Google人工智能击败欧洲围棋冠军,3月挑战世界冠军!

    围棋一直被视为人工智能最难破解的游戏。就在今天,《Nature》杂志以封面论文的形式,介绍了 Google DeepMind 开发的人工智能程序 AlphaGo...

    新智元
  • AlphaGo的制胜秘诀:蒙特卡洛树搜索初学者指南

    用户1737318
  • 7 Papers & Radios | NeurIPS 2020最佳论文;全卷积网络实现E2E目标检测

    论文 1:No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium

    机器之心
  • 2020年CCF-腾讯犀牛鸟基金课题介绍(一)——机器学习

    ? 腾讯公司和中国计算机学会于2013年共同发起的CCF-腾讯犀牛鸟基金(以下简称犀牛鸟基金),始终致力于支持海内外青年学者开展前沿学术研究与技术实践。犀牛鸟...

    腾讯高校合作
  • 听说你刚中了NIPS?恭喜(研究德扑、老鼠胡须等AI的都入围了)

    允中 发自 凹非寺 量子位 出品 | 公众号 QbitAI ? 今天凌晨,NIPS 2017开始揭榜。 作为机器学习领域的顶级会议,NIPS 2017共收到32...

    量子位
  • 不只是围棋!AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero

    选自arXiv 作者:David Silver等 机器之心编译 在 DeepMind 发表 Nature 论文介绍 AlphaGo Zero 之后,这家公司一直...

    机器之心

扫码关注云+社区

领取腾讯云代金券