人工智能科学论文摘要20篇(2019-07-17)

Ludii一般博弈系统综述

原文标题:An Overview of the Ludii General Game System

地址:https://arxiv.org/abs/1907.00240

作者:Matthew Stephenson, Éric Piette, Dennis J. N. J. Soemers, Cameron Browne

摘要:DLP旨在利用现代技术对1000多个传统的战略游戏进行重构和分析。该项目的关键方面之一是开发Ludii,一个通用的游戏系统,将能够建模和发挥完整的游戏范围所需的这个项目。这项工作将为新的人工智能挑战创造广泛的可能性。在本文中,我们描述了许多可以使用的Ludii的特性。这包括使用Ludii游戏描述语言设计和修改游戏,创建能够玩这些游戏的代理,以及该系统相对于以前的一般游戏软件具有的几个优点。

两种一般博弈系统Ludii和RBG的实证评价

原文标题:An Empirical Evaluation of Two General Game Systems: Ludii and RBG

地址:https://arxiv.org/abs/1907.00244

作者:Éric Piette, Matthew Stephenson, Dennis J. N. J. Soemers, Cameron Browne

摘要:虽然通用游戏(GGP)系统可以促进人工智能(AI)中用于游戏的有用研究,但它们往往在计算上效率低下,并且对特定类别的游戏有些专门化。然而,自今年年初以来,出现了两种通用游戏系统,它们提供了最先进的学术状态的有效替代品-游戏描述语言(GDL)。按照出版顺序,这些是常规的BoardGames语言(RBG)和Ludii系统。本文对Ludii进行了实验评价。在这里,我们主要关注两个新系统在任何GGP系统的两个关键属性上的比较:简单/清晰(例如人的可读性)和效率。

Ludii和XCSP:游戏与解决逻辑难题

原文标题:Ludii and XCSP: Playing and Solving Logic Puzzles

地址:https://arxiv.org/abs/1907.00245

作者:Cédric Piette, Éric Piette, Matthew Stephenson, Dennis J. N. J. Soemers, Cameron Browne

摘要:许多著名的单人游戏,通常被称为智力游戏,可以证明是NP-完整的.事实上,这类复杂性包含数百个谜题,因为人们特别喜欢完成一个棘手的难题,比如数独,但也喜欢在完成后轻松检查解决方案的能力。因此,使用约束编程自然适合解决这些问题。本文以Ludii通用游戏系统中的逻辑难题为研究对象,提出用XCSP形式来求解CSP中的逻辑难题。

作为竞赛平台的Ludii

原文标题:Ludii as a Competition Platform

地址:https://arxiv.org/abs/1907.00246

作者:Matthew Stephenson, Éric Piette, Dennis J. N. J. Soemers, Cameron Browne

摘要:Ludii是一个通用游戏系统,作为ERC资助的数字路德姆项目(DLP)的一部分。它的主要目标是建模、玩和分析各种传统的策略游戏,而Ludii也有潜力支持广泛的人工智能研究主题和竞赛。本文描述了我们打算使用Ludii系统进行的一些未来竞争和挑战,重点介绍了它的一些最重要的方面,这些方面可能会导致许多算法改进和新的研究方向。我们将我们提出的竞争动机、目标和框架与现有的一般游戏竞赛进行了比较和比较,阐明了每个平台的优势和弱点。

基于公平约束的机器人团队资源分配强化学习

原文标题:Reinforcement Learning with Fairness Constraints for Resource Distribution in Human-Robot Teams

地址:https://arxiv.org/abs/1907.00313

作者:Houston Claure, Yifang Chen, Jignesh Modi, Malte Jung, Stefanos Nikolaidis

摘要:在机器人和运筹学方面的许多工作都集中在最优资源分配上,其中一个Agent动态地决定如何在不同的候选对象之间依次分配资源。然而,大多数工作忽略了候选人甄选中公平的概念。在机器人将资源分配给人类团队成员的情况下,过分偏袒表现最好的队友会对团队动态和系统接受产生负面影响。提出了一种具有公平约束的多武器强盗算法,该算法将资源分配给不同技术水平的人类队友。在这个问题中,机器人不知道每个人类队友的技能水平,而是通过观察他们的表现来学习它。我们将公平性定义为对每个人类队友在整个任务中被选择的最小比率的限制。我们为算法的性能提供了理论保证,并进行了大规模的用户研究,对算法的公平性进行了调整。结果表明,资源分配的公平性对用户对系统的信任有显著的影响。

人工智能价值协调的伦理效用函数的必要性变化

原文标题:Requisite Variety in Ethical Utility Functions for AI Value Alignment

地址:https://arxiv.org/abs/1907.00430

作者:Nadisha-Marie Aliman, Leon Kester

摘要:价值比对是人工智能安全研究中一个重要的复杂课题,近年来从不同的角度对其进行了研究。然而,尚未就促进人工智能价值调整的道德效用功能的设计达成最终共识。考虑到找出系统解决方案的紧迫性,我们假设,从一个简单的事实开始,人工智能的效用函数不违反人类的伦理直觉,它就必须是这些直觉的模型,并反映它们的多样性,这可能是有用的。因此,与生物有机体有关的最精确的模型是科学模型,而生物有机体具有诸如道德判断等概念的大脑。因此,为了更好地评估人类道德的多样性,我们进行了一项跨学科的分析,将安全心态应用于这一问题,并总结了来自神经科学和心理学的各种相关背景知识。作为一种合适的伦理框架,我们将其与增强功利主义联系起来,以此来补充这一信息。在此基础上,我们提出了第一个实用的准则来设计近似的伦理目标函数,以更好地捕捉人类道德判断的多样性。最后,我们总结并处理未来可能的挑战。

复杂置信函数理论中的证据距离测度

原文标题:Evidential distance measure in complex belief function theory

地址:https://arxiv.org/abs/1907.00716

作者:Fuyuan Xiao

摘要:本文提出了一种证据距离测度,它可以度量由复数组成的复杂基本信念分配(CBBAs)之间的差异或差异。当CBBAs从复数退化为实数(即BBAs)时,所提出的距离将退化为Jousselme等人的距离,从而为在复平面空间的一般框架下度量证据之间的差异提供了一种很有前途的方法。

基于人工智能的舰队竞争中模块化与自主性的协同分析

原文标题:Analysis of the Synergy between Modularity and Autonomy in an Artificial Intelligence Based Fleet Competition

地址:https://arxiv.org/abs/1907.01405

作者:Xingyu Li, Mainak Mitra, Bogdan I. Epureanu

摘要:通过分析攻防博弈中自主车队之间竞争的博弈论模型,提出了一种新的评估车辆模块性的方法。本文提出了一种通过对基于智能Agent模型的高保真仿真结果进行决策树拟合来获得启发式操作策略的方法。建立了考虑军事资源和以往决策影响的多阶段博弈理论模型。揭示了作战策略的纳什均衡,并对其特点进行了探讨。通过比较不同作战情况下决策过程的结果,分析了机队模块化的优点。

深度强化学习的中介视角研究

原文标题:Perspective Taking in Deep Reinforcement Learning Agents

地址:https://arxiv.org/abs/1907.01851

作者:Aqeel Labash, Jaan Aru, Tambet Matiisen, Ardi Tampuu, Raul Vicente

摘要:洞察力是指从另一个人的观点出发的能力。这种技能并不是人类独有的,因为像黑猩猩这样的其他动物也会表现出来。它是有效的社会互动的基本能力,包括合作、竞争和交流。在这项工作中,我们将介绍我们在构建具有这种能力的人工代理方面的进展。为了达到这个目的,我们完成了一项从黑猩猩身上进行的实验激发的透视任务。我们证明,人工神经网络控制的代理可以通过强化学习,完成简单的测试,需要透视能力。特别是,当代理拥有有关环境中对象的分配中心信息时,就可以更容易地学习这种能力。构建具有透视能力的人工代理将有助于逆向工程如何在我们的大脑中完成基本的思维理论计算。

一种动态风险敏感顺序决策方案

原文标题:A Scheme for Dynamic Risk-Sensitive Sequential Decision Making

地址:https://arxiv.org/abs/1907.04269

作者:Shuai Ma, Jia Yuan Yu, Ahmet Satir

摘要:提出了一种动态环境下具有风险敏感目标和约束的序贯决策方案。将神经网络训练成具有风险敏感约束的参数空间到风险空间和策略映射的逼近器。对于目标和约束是或可以用收益均值和方差函数估计的风险敏感问题,我们生成一个综合数据集作为训练数据。定义目标过程的参数可能是动态的,也就是说,它们可能随时间而变化,因此我们在指定的时间间隔内对它们进行采样,以处理这些动态。我们证明:大多数风险度量可以使用收益差异来估计;利用状态增强变换,在风险敏感的情况下,可以求解具有随机报酬的马尔可夫决策过程建模的实际问题;通过数值实验验证了该方案的有效性。

使用组装空间量化路径

原文标题:Quantifying the pathways to life using assembly spaces

地址:https://arxiv.org/abs/1907.04649

作者:Stuart M. Marshall, Douglas Moore, Alastair R. G. Murray, Sara I. Walker, Leroy Cronin

摘要:我们提出了路径组装的概念,以探索构建对象所需的外部信息的数量。为了量化这些信息,我们提出了一种方法,通过将对象解构成不可约的部分,然后沿着任何路径重建对象的最小步骤数评估,从而确定该对象中包含的路径装配信息量。这种方法的数学形式化使用装配空间。通过找到在该空间内装配物体的路径中包含的最小步骤数,我们可以比较根据i_PA=log(X_N_X)/(X)的路径装配指数(PA)获得多少信息(I),其中对于PA=x的最终产品,N是可以在x步内创建的对象集合,而NPA是这些对象的子集,具有精确的路径组装指数PA=x。将这种形式应用于1D中形成的对象,2D和3D空间允许我们识别世界上或更宽的宇宙中具有高装配数的物体。我们建议PA大于阈值的物体是重要的,因为它们是唯一可识别的,它们必须是由生物或工艺过程产生的,而不是仅仅通过无偏的随机过程而产生的装配。我们认为这一方法是必要的,以帮助确定新的物理和化学规律,以了解什么是生命,通过量化生命所做的。

人工智能:儿童游戏

原文标题:Artificial Intelligence: A Child's Play

地址:https://arxiv.org/abs/1907.04659

作者:Ravi Kashyap

摘要:我们讨论了创造人工智能的任何努力的目标,人工智能,并提供了一个可能的替代方案。智力可能是好奇心留给自由幻想的意外结果,最好的例子是一个嬉戏的婴儿。这表明,我们在人工智能上的尝试可能被误导了;我们真正需要努力的东西可以被称为人为的好奇心,交流和智力的产生是这些努力的结果。为了实现这一无意而又受欢迎的后果,需要提出一份基本的指导原则清单。我们讨论了这些基本理论可能是什么,以及为什么它们的建立需要在已经建立起来的知识库和好奇心将带来的新信息之间形成联系,可能还在增长。随着更多的调查结果和更多的债券被发酵,我们需要一种定期减少数据量的方法;从这个意义上说,重要的是要抓住已经积累的数据的关键特征,或者对收集到的数据进行总结。我们从这条推理的直觉开始,用一系列模型(和迭代改进)将其形式化,这些模型是使智力孵化成为现实所必需的。我们的讨论为图灵测试和Searle的中文房间论证提供了概念上的修改。我们将讨论未来对社会的影响,因为人工智能将成为生活中不可或缺的一部分。

广义信念函数:不确定性建模与处理的新概念

原文标题:Generalized Belief Function: A new concept for uncertainty modelling and processing

地址:https://arxiv.org/abs/1907.04719

作者:Fuyuan Xiao

摘要:本文从另一个角度推广了复平面上的信念函数。我们首先在复数的基础上提出了复质量函数的概念,称为复基本信念分配,它是Dempster&Shafer证据理论中传统质量函数的推广。在求复质量函数的基础上,推广了置信函数和似然函数。特别是当复质量函数由复数退化为实数时,广义相信函数和似然函数分别退化为DSE理论中的传统信念函数和似然函数。

先验信念对政策类型影响的实证研究

原文标题:An Empirical Study on the Practical Impact of Prior Beliefs over Policy Types

地址:https://arxiv.org/abs/1907.05247

作者:Stefano V. Albrecht, Jacob W. Crandall, Subramanian Ramamoorthy

摘要:许多代理应用程序要求代理快速学习如何与以前未知的其他代理交互。为了解决这个问题,研究人员研究了基于其他代理的观察到的一组策略上计算后验信念的学习算法。后信念由先前的信念作为补充,它规定了在观察任何行动之前政策的主观可能性。在本文中,我们提出了第一次全面的实证研究,在重复的相互作用中,先验信念对政策的实际影响。我们表明,先前的信念可以对这些方法的长期性能产生重大影响,影响的大小取决于规划范围的深度。此外,我们的结果表明,自动方法可以用来计算具有一致性能效应的先验信念。这表明以前的信念可以作为手动参数被消除,取而代之的是自动计算。

奖励推进:基于最大因果熵原理的转换政策

原文标题:Reward Advancement: Transforming Policy under Maximum Causal Entropy Principle

地址:https://arxiv.org/abs/1907.05390

作者:Guojun Wu, Yanhua Li, Zhenming Liu, Jie Bao, Yu Zheng, Jieping Ye, Jun Luo

摘要:摘要:许多现实世界中的人类行为可以被描述为一个连续的决策过程,如城市旅行者对交通方式和路线的选择(Wu等,2017年)。与机器控制的选择不同的是,机器一般遵循完全理性,采用报酬最高的政策,研究表明,人类代理人在有限理性下做出次优决策(陶、罗德和科克伦,2014年)。这种行为可以用最大因果熵(MCE)原理来建模(Ziebart,2010年)。本文定义并研究了一个一般的报酬转化问题(即报酬推进问题):在MCE原则下,将Agent的策略从原来的策略恢复到预定的目标策略的附加奖励函数的范围。我们证明,给定一个MDP和一个目标策略,有无限多额外的奖励函数可以实现预期的策略转换。此外,我们还提出了一种算法,以最小的“成本”进一步提取额外的奖励,以实现策略转换。

MLR(记忆、学习和识别):一种通用的认知模型-应用于智能机器人和系统控制

原文标题:MLR (Memory, Learning and Recognition): A General Cognitive Model -- applied to Intelligent Robots and Systems Control

地址:https://arxiv.org/abs/1907.05553

作者:Aras R. Dargazany

摘要:本文介绍了智能机器人与系统控制的新视角。提出并提出的认知模型:记忆、学习和识别(MLR),旨在弥合机器人、人工智能、认知科学和神经科学之间的差距。目前存在的差距阻碍了我们整合这四个研究领域目前的进展和成就,这四个研究领域正在积极尝试以应用为基础的方式或以通用的方式定义智能。这一认知模型更具体地定义了智力,参数化和细节化。所提出的MLR模型主要是基于为机器人和系统提供的数据集和系统控件,帮助我们建立一个独立于其应用领域和平台的机器人和系统的通用控制模型。本文主要是提出和引入这一概念,并试图在小范围内证明这一概念,首先是通过实验。该概念也适用于其他不同平台的实时仿真。

基于视觉分析的过程漂移综合检测

原文标题:Comprehensive Process Drift Detection with Visual Analytics

地址:https://arxiv.org/abs/1907.06386

作者:Anton Yeshchenko, Claudio Di Ciccio, Jan Mendling, Artem Polyvyanyy

摘要:最近的研究将概念漂移的思想引入到过程挖掘中,以便能够分析业务流程随时间的变化。然而,这种研究还没有解决漂移分类、钻探和量化的挑战。本文提出了一种新的过程漂移管理技术-视觉漂移检测(VDD)。该技术首先对从执行业务流程的记录日志中发现的基于相似性的声明性流程约束进行聚类,然后在识别的集群上应用变更点检测来检测漂移。VDD通过详细的可视化和对漂移的解释来补充这些特性。我们的评估,无论是在合成日志还是实际日志上,都展示了该技术的所有上述功能.

棋盘游戏游戏在人工智能游戏学习中的教育与研究

原文标题:General Board Game Playing for Education and Research in Generic AI Game Learning

地址:https://arxiv.org/abs/1907.06508

作者:Wolfgang Konen

摘要:我们提出了一个新的通用棋盘游戏(GBG)的游戏和学习框架。GBG定义了棋盘游戏、游戏状态及其AI代理的通用接口。它允许一个人在不同的游戏中运行不同代理人的比赛。它标准化了棋盘游戏和学习的那些部分,否则将是冗长和重复的部分在编码。GBG适用于任意1,2,.,N人棋盘游戏.它使一个通用TD(λ)-n元组代理第一次可用于任意游戏。在不同的比赛中,TD(λ)-n元组被发现优于MCTS等其他非专利药物。GBG的目标是从教育的角度出发,帮助学生在游戏学习领域更快地开始。GBG还通过收集越来越多的游戏和人工智能代理来评估它们在有意义的比赛中的优势和泛化能力,从而达到研究的目的。报告了初步成功的教育和研究成果。

逻辑条件句、监督和选择任务

原文标题:Logic Conditionals, Supervenience, and Selection Tasks

地址:https://arxiv.org/abs/1907.06773

作者:Giovanni Sileno

摘要:认知经济原则要求,只有简化领域的概念化,才能引入有关对象、属性和关系的概念。出乎意料的是,经典的逻辑条件,指定在正式概念化要素中的结构,并不总是满足这一关键原则。本文认为,这一要求被\emph{Supervenience}捕获,在此进一步确定为压缩所必需的属性。由此得出的理论对Wason的选择任务中可以观察到的经验提出了另一种解释,将人的表现与处理压缩能力的条件联系起来,而不是与逻辑必然性联系起来。

利用深度强化学习训练柔性机器人

原文标题:On Training Flexible Robots using Deep Reinforcement Learning

地址:https://arxiv.org/abs/1907.00269

作者:Zach Dwiel, Madhavun Candadai, Mariano Phielipp

摘要:在过去的几十年中,机器人在受控环境中的应用蓬勃发展,训练机器人使用其硬件动态模型开发的控制策略来执行任务已经证明是非常有效的。然而,在许多现实世界中,环境的不确定性、机器人的安全要求和普遍的能力使得刚性工业机器人不适合。这引起了开发柔性机器人硬件控制策略的研究兴趣,而建立柔性机器人硬件的动力学模型具有很大的挑战性。本文在其他领域深入强化学习(DRL)成功的启发下,系统地研究了DRL策略搜索方法在柔性机器人训练中的有效性。结果表明,DRL能够在不同程度的灵活性下成功地学习复杂任务的高效、健壮的策略。我们还注意到,使用深度确定性策略梯度的DRL可能对传感器的选择很敏感,添加更多的信息传感器并不一定会使任务更容易学习。

声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券