学界 | FAIR等机构联合提出IntPhys:你的智能系统的物理知识,比得上婴儿吗?

选自arXiv

机器之心编译

参与:Nurhachu Null、刘晓坤

婴儿和许多动物对物体的相互作用有直观理解,并能逐步掌握物体恒常性、因果关系、重力、形状不变性等直观、非语言概念。受此启发,Facebook AI Research 等机构联合提出了一个评估框架和基准数据集 IntPhys,通过测试系统区分可能与不可能事件的能力,来诊断其对直观物理的理解程度。该项目对于无监督学习和现实交互系统等应用有重要意义。

1. 引言

尽管机器视觉在许多任务(面部识别 [ 68]、目标识别 [ 33,26] 、目标分割 [ 52] 等)上取得了引人瞩目的进展,但是人工系统对复杂场景的理解还远远达不到人类水平。场景理解不仅涉及目标分割和跨时间目标追踪,还涉及目标之间的空间和时间关系表征,并能够预测它们在物理世界中的交互方式。

实验证据表明,非常小的婴儿和许多动物确实对物体的相互作用有直观的理解,他们利用这种「直观的物理学」来预测未来的物体状态并规划他们的行动 [ 4 ]。在 2 - 4 个月的时候,婴儿就能够从物体恒常性、实体性和时空连续性的角度分析视觉输入 [ 29,65] 。在 6 个月的时候,他们理解了稳定、支持和因果关系的概念 [63,6,5] 。在 8 到 10 个月之间,他们掌握了重力、惯性和碰撞动量守恒的概念;10 至 12 个月之间,他们掌握了形状不变性 [ 70 ]。这种隐性知识是直观的和非语言的(相对于物理课中教授的形式化知识),并且遵循与早期语言习得平行的发展路径。这两种情况都发展快速、自发,而且没有护理人员的明确培训 [ 53 ]。

在生物体中,直观物理是一种潜在的构造:它只能通过对特定任务(如计划、解决问题)的影响来间接地观察和衡量,或者在人类中,通过口头描述和解释来观察和衡量。还可以通过测量对「魔术」的惊讶反应来揭示,即对物理上不可能发生的事件(例如物体不知从哪里消失或出现、相互穿越或无视重力等)表示无法理解或好奇。直观物理的潜在性质对视觉系统提出了两个难题:评估挑战和工程挑战。

评估挑战可以表述为:给定一个人工视觉系统,定义一个量化该系统对(直观)物理了解程度的度量。可能的解决方案是通过真实世界的应用来测量直观物理现象,比如视觉问答 ( VQA )、目标追踪或行动规划(见图 1)。然而,这可能会遇到两种风险: ( a ) 数据集偏差;( b ) 测量噪声。第一个风险(又称之为 Clever Hans 问题 [ 28 ])是现实生活中的应用程序数据集经常存在的固有统计偏差,这使得有时只需最小程度的干预就可以获得良好的性能,有时却相反。第二种风险是系统的整体性能是其各部分性能的复杂函数;因此,如果一个 VQA 系统比另一个具有更好的性能,这可能不是因为它更好地理解物理,而是因为它有更好的语言模型。

我们提出了一个框架,称之为「物理合理性测试」,它以无任务和无模型的方式直接评估系统的直观物理能力。这一框架的灵感来源于对婴儿和动物直观物理的研究。它将物理推理过程重塑为一个简单的是非分类问题:呈现简单场景的视频,并询问所描绘的事件在物理上是否可能。技巧在于准备匹配的视频集,其中物理背离在可能与不可能的电影帧之间引入最小差异。通过改变物理背离的性质,可以探索不同类型的推理 (关于物体及其属性的规律、关于物体移动和交互的规律等)。

考虑到我们的方法涉及到自然界中不能自发出现的事件,它应该作为一种诊断测试,而不是一种训练物理推理系统的实用方法。然而,它的优点在于,它可以应用于已经在其他任务上训练的各种系统。只要这些系统对计算给定场景的全局标量数的要求最小,我们就可以将其解释为「合理性」得分。任何基于概率或重构误差的系统都可以容易地得到这样的分数。

工程挑战可表述如下:构建一个系统,尽可能多地融入直观的物理(至少像婴儿一样,作为初始阶段)。我们已经放弃使用不可能事件的视频来训练这样一个系统,理由是我们需要注重实用性。另一种使用带有高级标注(物理实体、定律或关系等)的监督学习方法,也是不切实际的。首先,系统可以在不执行完整 3D 重建的情况下对场景具有良好的物理理解。第二,婴儿无需输入任何高级标签就可以学习直观物理。事实上,他们只经历「积极」的物理事件(物理上可能的事件)。此外,婴儿可以从他们的环境中获得有用的反馈,因为他们在运动控制方面变得更有能力,尽管这种反馈只存在于可能发生的事件中。所以,解决该挑战的一种方法是构建无监督或弱监督的系统,该系统使用婴儿可获得的相同类型的数据 (即,大量的感官观察数据、有限但信息丰富的环境反馈、仅包含积极事件的实例),来学习物理定律。

这里,我们提出了一个直观物理的基准 IntPhys,其目标是同时尝试解决评估挑战和工程挑战。它由一个 python 接口游戏引擎(UnrealEngine 4)构建的合成视频组成,实现了逼真的物理效果和精确的控制。训练集仅包括积极事件,即由固定不动的智能体从第一人称角度观看可能事件的视频。这可能比婴儿面临的任务更困难,因为婴儿可以探索和与环境互动。但是有趣的地方在于,通过这种简化输入可以获得多大程度的直观物理能力,这种输入在现实世界中很容易通过摄像机大量收集。此外,这使得模型的比较更加容易,因为它们都使用相同的训练数据。测试集是根据我们的评估框架构建的,也就是说,它要求系统输出合理性得分,并根据其将可能视频与不可能视频区分的能力进行评估。该测试集还可以用作以其他方式(真实视频、虚拟环境中的交互式训练等)训练的系统的独立诊断评估 [58,27,10]。

图 2:具有物体恒常性的最小训练集设计的图示。具有一个、两个物体和一个限流器的静态条件示意图。在两个可能的视频 (绿色箭头) 中,物体的数量保持不变,尽管存在遮挡。在两个不可能的视频 (红色箭头) 中,物体的数量发生变化 (从 1 变为 2 或从 2 变为 1 )。

4 IntPhys 基准(V1.0)

我们在本文介绍 IntPhys 的第一个版本。IntPhys 是一个基准,目标是解决视觉系统中直观物理能力的工程和评估挑战。第一版的重点是无监督学习,只测试问题层次结构的第一个模块 ( O1,物体恒常性)。未来的版本将包括表 1 中更多的模块。

表 1:直观物理框架的概念模块列表。

该基准由三个部分组成:( 1 ) 仅包含在虚拟环境中移动和交互的简单无生命物体的物理上可能的事件的训练集;( 2 ) 包含物理上可能的和物理上不可能的视频的开发集和测试集,如上所述以元组匹配; ( 3 ) 评估软件。通过这三个组成部分,以及对测试集的人类合理性判断结果,为人类感知建模算法提供了参考。

图 3:训练集中的帧示例。

表 2:使用 MTurk 对 IntPhys(模块 O1)测试集中的人类合理性判断的平均错误率。*代表根据我们的入选标准,此数据点已被「强制」为零。

图 6:语义掩码预测器的输出示例。从左到右:输入图像、真实语义掩码、预测语义掩码。

论文:IntPhys: A Framework and Benchmark for Visual Intuitive Physics Reasoning(一个用于视觉直观物理推理的评估框架和基准数据集)

论文地址:https://arxiv.org/pdf/1803.07616.pdf

摘要:为了达到人类在复杂视觉任务中的表现性能,人工系统需要在宏观对象、运动、力等方面融入对世界的理解。在婴儿直观物理研究的启发下,我们提出了一个评估框架,通过测试给定系统区分视频中可能与不可能事件的能力,来诊断给定系统对直观物理的理解程度。测试要求系统计算整个视频的物理合理性得分。它没有偏见,可以测试一系列具体的物理推理技能。然后,我们介绍了新基准数据集的第一个版本,该版本旨在通过使用游戏引擎构建的视频,以无监督的方式学习直观物理。我们介绍了两个用未来帧预测目标训练的深层神经网络基线系统,并在可能 vs 不可能的辨别任务上进行了测试。通过将结果与人类数据进行比较分析,我们对未来帧预测体系结构的潜力和局限性给出了新见解。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-04-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

一文读懂量子机器学习:量子算法基石已经奠定

【新智元导读】在计算能力增加和算法进步的推动下,机器学习技术已成为从数据中寻找模式的强大工具。量子系统能生产出一些非典型(atypical)模式,而一般认为经典...

34460
来自专栏专知

【下载】面向机器智能的TensorFlow实践书籍和代码

【导读】自2015年11月TensorFlow第一个开源版本发布以来,它便迅速跻身于最激动人心的机器学习库的行列,并在科研、产品和教育等领域正在得到日益广泛的应...

46880
来自专栏新智元

【干货】吴恩达博士论文:用增强学习做无人机

【新智元导读】吴恩达2003年申请加州大学伯克利分校计算机科学博士的毕业论文。该论文在肯定了增强学习取得的进展的基础上,就“回报函数塑造”(shaping re...

64680
来自专栏大数据文摘

专访乔治亚理工宋乐教授:用强化学习为图论组合优化问题寻找“元算法”

55220
来自专栏AI科技评论

学界 | 全景照片不怕歪!Facebook 用神经网络矫正扭曲的地平线

AI科技评论按:最近微博上的全景照片很火呀,相比各位都已经在自己的iPhone或者iPad上品鉴了多家IT公司的办公室、游玩了多个旅游胜地、享受了被小猫小狗环绕...

40370
来自专栏机器学习算法工程师

重磅!一文彻底读懂智能对话系统!当前研究综述和未来趋势

作者:蒙 康 编辑:王抒伟 笔者在最近的研究中发现了一篇非常好的有关对话系统的论文,《A Survey on Dialogue Systems:Recent...

1.2K60
来自专栏PPV课数据科学社区

学习攻略 | 机器学习 学习路线图

1. 引言 也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;也习惯...

72580
来自专栏大数据文摘

深度特征合成:自动化特征工程的运作机制

将机器学习的方法推广到新问题仍然存在着不小的挑战,其中最严峻的问题之一,就是人工提取特征的复杂性和高时间耗费性,本文就将带你了解自动化特征提取方法。

16650
来自专栏新智元

【深度】申省梅颜水成团队获国际非受限人脸识别竞赛IJB-A冠军,主要负责人熊霖技术分享

作者:熊霖 赵健 徐炎 采访:闻菲 【新智元导读】开发出精确的和可扩展的无约束人脸识别算法,是生物识别和计算机视觉领域长期以来不断追求的目标。为了促进非受限...

59170
来自专栏机器人网

一图了解人工智能之机器学习学习路径

1. 引言 也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;也习惯...

477130

扫码关注云+社区

领取腾讯云代金券