https://www.groundai.com/project/unsupervised-learning-of-latent-physical-properties-using-perception-prediction-networks/
https://arxiv.org/abs/1807.09244v2
基于感知预测网络的潜在物理无监督学习
David Zheng 计算机科学与人工智能实验室,麻省理工学院 Vinson Luo 斯坦福大学计算机科学系 Jiajun Wu 麻省理工学院计算机科学与人工智能实验室 Joshua B. Tenenbaum 麻省理工学院 计算机科学与人工智能实验室
作者简介 ArXiV页面于2018年7月24日提交 14 30分钟阅读
抽象
我们提出了一个框架,用于从他们的交互中完全无监督地学习潜在对象属性:感知预测网络(PPN)。由提取潜在对象属性的表示的感知模块和使用这些提取的属性来模拟系统动态的预测模块组成,PPN可以纯粹从对象动态的样本以端到端的方式进行训练。PPN学习的潜在对象属性的表示不仅足以准确地模拟由先前看不见的对象组成的系统的动态,而且还可以直接转换为人类可解释的属性(例如,。质量,恢复系数)以完全无监督的方式。至关重要的是,PPN还可以推广到新的场景:它们基于梯度的训练可以应用于许多动态系统,并且它们基于图形的结构功能可以应用于由不同数量的对象组成的系统。我们的结果证明了基于图形的神经架构在以对象为中心的推理和预测任务中的功效,我们的模型有可能在尚未被充分理解的系统中发现相关的对象属性。
图1:模型概述。PPN遵循的无监督对象属性发现范例从对象动态的样本中提取属性向量以准确地预测那些相同对象的新轨迹。将无监督学习方法应用于学习的向量允许提取人类可解释的对象属性。
1简介
物体的物理特性与物理定律相结合,决定了物体在我们的世界中移动和相互作用的方式。为我们观察的对象分配属性有助于我们总结我们对这些对象的理解,并更好地预测他们未来的行为。通常,这些特性的发现可以在很少的监督下进行。例如,通过观察射手投射几个箭头,我们可以得出结论,诸如弓弦的张力,风的强度和方向以及箭头的质量和阻力系数等属性会影响箭头的最终轨迹。即使从全新的微观世界中获得观察结果,人类仍然能够学习表征系统的相关物理特性[ 1 ]。
我们的工作利用神经关系网络的最新进展,以无人监督的方式学习系统的潜在物理特性。特别地,神经关系架构 [ 2,3 ]已证明能够准确模拟涉及具有已知物理特性的物体的复杂物理相互作用。关系网络有几个特征使它们特别适合我们的任务:它们是完全可区分的,允许它们应用于各种不同的情况,而不需要任何架构改变; 他们有一个模块化的基于图形的结构,可以推广不同数量的对象; 它们的基本架构可以很容易地应用于动态预测和潜在属性的学习。
我们使用关系网络来构建感知预测网络(PPN),这是一种新颖的系统,它使用表示学习[ 4 ]范例纯粹通过观察来提取物理系统属性的编码。与先前仅使用关系网络预测具有已知属性值的对象状态的神经关系架构不同,我们使用关系网络来创建感知网络,其从观察中导出属性值,以及预测网络,它预测给定属性值的对象位置。PPN能够纯粹通过观察由具有不同属性值的对象组成的系统的动态来导出与物理模拟相关的潜在属性的无监督表示。这些学到的表征可以直接转化为人类可解释的属性,例如质量和恢复系数。
我们系统的一个重要方面是泛化,人类在推断新系统的潜在特性时表现出色。我们提出的系统在几种形式的推广下是稳健的,我们提出的实验证明了我们的无监督方法即使在训练和测试期间面对不同数量的对象以及在先前看不见的范围内的属性值时也能辨别可解释属性的能力。
我们评估PPN的两个主要功能:对看不见的对象的动态预测的准确性以及模型学习的属性的可解释性。https://arxiv.org/abs/1807.09244v2。最终,
图2:模型架构。PPN将观察到的状态序列
O
1
,
...
,
O
T
以及初始状态
R
0
作为输入
,
以开始新的推出。使用交互网络从观察状态导出代码矢量
C
1
,
...
,
C
T
,并且由感知网络产生最终属性矢量
Z.
然后,预测网络利用属性向量来递归地预测未来对象状态
R
1
,
R
2
,
......
给定初始状态
R
0
的新推出。我们训练PPN以最小化预测的展开状态与那些时间步的地面实况状态之间的L2距离。
2相关工作
建模直观的物理的以前的方法分为两大类已经基本上下降:自上而下的方法,其中推断物理参数为现有符号的物理引擎 [ 1,5,6,7,8,9 ],和自下而上的方法,其直接预测的物理量或未来给定的运动观测 [ 10,11,12,13,14,15,16 ]。虽然自上而下的方法能够很好地推广到其底层物理引擎支持的任何情况(例如,不同数量的对象,以前看不见的属性值等),但它们很难适应其底层描述语言不支持的情况。 ,需要手动修改以支持新类型的交互。另一方面,自下而上的方法通常能够在不进行任何进一步修改的情况下学习以前看不见的情况的动态,尽管它们通常缺乏以与自上而下方法相同的方式进行推广的能力。
最近,一种混合方法使用了神经网络的关系,更一般的类基于图的神经网络的特定实例 [ 17,18 ],以获得自顶向下的泛化好处接近而不需要底层物理引擎。关系网络依赖于使用交换和关联操作(通常是向量加法)来组合对象状态向量之间的成对交互,以便预测未来的对象状态 [ 19 ]。这些网络在模拟多个物体动力学方面取得了成功,包括库仑电荷,物体碰撞(有和没有完美的弹性)和弹簧张力 [ 2,3, 20, 21 ]。与自上而下的方法非常相似,关系网络能够将对象位置和速度的预测推广到不同数量的对象(例如,训练6个对象并在9上进行测试),而不对网络权重进行任何修改; 此外,它们是完全可区分的架构,可以通过梯度下降在各种相互作用上进行训练。我们的论文以一种新颖的方式利用了交互网络,首次证明了其作为感知模块的功效,以及作为无监督表示学习的构建模块。
另外的研究已经研究了潜在对象属性的监督和无监督学习,试图反映人类能够在物理环境中执行的对象属性的推断 [ 1 ]。吴 等人。 [ 9 ]利用深度模型和固定物理定律来估计质量,体积和原始视频输入材料等属性。Fraccaro 等人。 [ 22 ]使用变分自动编码器导出单个弹跳球域的潜在状态,然后使用卡尔曼滤波进行模拟。Chang 等。 [ 3 ]证明了他们的基于关系网络的物理模拟器还能够通过将每种可能性的模拟输出与现实进行比较来对一组离散的可能属性值进行最大似然推断。我们的论文更进一步,通过显示物理属性可以从多个对象的原始运动数据中学习。最近,Kipf 等人。 [ 23 ]也利用关系网络来推断对象之间的分类交互的身份; 相反,我们的论文关注的是对象属性的学习。
3型号
3.1感知预测网络
PPN观察具有未知潜在属性(例如,质量,恢复系数)的对象的物理动态,并学习生成可用于稍后模拟的这些对象属性的有意义的表示。完整网络概述如图1所示。PPN由以下两个部分组成:
所述感知网络作为输入上的对象的运动的帧的序列在短观察窗。它为场景中的每个对象输出属性向量,该对象编码该对象的相关潜在物理属性。每个输入帧是一组状态向量,由每个对象的位置和瞬时速度组成。在训练期间,没有给出属性向量的直接监督目标。
该预测网络使用由感知网络生成从不同的起始构型模拟的对象的属性向量。网络将感知网络生成的属性向量和所有对象的新初始状态向量作为输入。它的输出是从新的起始状态向外展示对象的未来状态。预测网络的训练目标是漫游序列的基本事实状态。
我们使用交互网络[ 2 ]实现感知和预测网络 ,这是一种完全可区分的特定类型的神经关系网络,并且可以推广到任意数量的对象。这使得我们能够仅使用预测网络的推出目标的监督信号来使用梯度下降来端对端地训练两个网络,因为感知网络输出的属性向量直接馈送到预测网络中。
3.2互动网络
交互网络(IN)是用作感知和预测网络的构建块的关系网络。在高层次上,交互网络使用多层感知器(MLP)来实现两个模块化函数,即关系模型
f
rel
和对象模型
f
obj
,它们用于转换一组特定于对象的输入特征
{
x
(
1
)
,
...
,
x
(
N
)
}
成为一组特定于对象的输出特征
{
y
(
1
)
,
...
,
y
(
N
)
}
,其中
Ñ
是在一个系统中的对象的数量。给定输入的特征在于用于两个物体
我
和
Ĵ
,
˚F
相对
计算对象的“效果”载体
Ĵ
上对象
我
如
ë
(
我
,
Ĵ
)
=
˚F
相对
(
X
(
我
)
,
X
(
Ĵ
)
)
。对象上的净效果
我
,
È
(
我
)
,是所有成对的效果的矢量和
Σ
Ĵ
对象
i
上的
≠
i
e
(
i
,
j
)
。最后,对象
i
的输出由
y
(
i
)
=
f
obj
(
x
(
i
)
,
e
(
i
)
)给出
。重要的是,
f
obj
和
f
rel
是应用于所有对象和对象 - 对象交互的共享函数,允许网络在可变数量的对象之间进行泛化。
交互网络能够为具有复杂物理动态的系统学习状态到状态的转换函数。然而,更一般地,交互网络可以用于对输入和输出特征特定于特定对象的函数进行建模,并且输入和输出之间的关系对于每个对象是相同的。虽然我们的预测网络使用交互网络来模拟状态转换,但我们的感知网络使用交互网络从观察到的证据中对对象潜在属性的值进行增量更新。
3.3感知网络
感知网络产生特定于对象的属性向量,
Ž
,从观察到的状态的序列
Ó
。如图2所示,我们的感知网络是一个循环神经网络,它使用交互网络作为其核心重复单元。感知网络以特定于对象的代码矢量
C
1开始
,初始化为零矢量,每个对象具有一些固定大小的
L
C.
在每个步骤
t
,IN接收先前的代码矢量
C
t
-
1
,以及最后两个观察到的状态,
O
t
-
1
和
O
t
,以产生更新的代码矢量,
Ç
吨
,还的大小
大号
Ç
。在处理所有
T
O
观察帧之后,感知网络将最终代码矢量
C
T
O
馈送到单个代码到属性MLP中,该MLP将每个对象的代码矢量转换为每个对象的大小为
L
Z
的“未中心”属性向量。我们将未中心属性向量的最终集合表示为
Z
u
。
在许多物理系统中,以绝对标度测量物体的潜在特性可能是不可能或不合需要的。例如,在两个球弹性碰撞的系统中,碰撞只能告知我们每个物体相对于另一个物体的质量,而不是它们的绝对质量值。为了允许绝对属性值的推断,我们让每个系统的第一个对象充当参考对象并在每个系统中采用相同的属性值。在这样做时,我们可以通过观察它们相对于引用对象的值来推断所有其他对象的绝对属性值。为了执行相对于参考对象的推断,我们“中心”通过从每个对象的非中心属性向量中减去所述参考对象的非中心属性向量,从而产生最终的特性向量的属性向量
Ž
。请注意,这可确保引用对象的属性向量始终为零向量,同意其属性已知为常量的事实。我们可以用以下公式总结感知网络:
C
1
=
0
(1)
C
t
=
IN
p
È
(
Ç
吨
-
1
∥
ö
吨
-
1
∥
Ò
吨
)
,
用于
吨
=
2
,
...
,
Ť
Ô
(2)
Z
(
i
)
你
=
MLP
p
È
(
Ç
(
我
)
Ť
ø
)
,
为
我
=
1
,
...
,
Ñ
(3)
Z
(
i
)
=
Ž
(
我
)
Ü
-
Ž
(
1
)
Ü
,
为
我
=
1
,
...
,
Ñ
(4)
其中
∥
是逐个对象的连接运算符,
IN
p
e
是感知交互网络,
MLP
p
e
是代码到属性MLP,
Z
(
1
)
u
是参考对象的未中心属性向量。
3.4预测网络
预测网络使用由感知网络产生的属性向量,从新的初始状态
R
0
执行系统的状态到状态的推出。与感知网络一样,预测网络是具有交互网络核心的递归神经网络。在步骤
吨
,所述IN发生在以前的状态矢量,
- [R
吨
-
1
,和属性向量,
Ž
,并输出下一状态矢量,的预测
ř
吨
。换一种说法,
ř
吨
=
IN
p
- [R
(
- [R
吨
-
1
∥
Ž
)
,
用于
吨
=
1
,
。
。
。
,
T
R.
(5)
其中
IN
p
r
是预测交互网络,
T
R
是推出帧的数量。
模型的预测损失是
{
R
t
}
t
=
1 ...
T
R
的预测值和真值之间的总MSE 。
4实验
4.1物理系统
对于我们的实验,我们专注于二维域,其中潜在属性推理任务和随后的动态预测任务都具有挑战性。在所有系统中,第一个对象充当参考对象并具有固定属性。可以相对于引用对象的属性推断出所有其他对象的属性。我们评估以下域中的PPN(参见图5):
相同质量的弹簧球具有称为“弹簧弹”的虚拟属性,并且相互作用就好像所有物体对都由胡克定律所控制的弹簧相连1。参考物体的弹簧电荷为1,而所有其他物体的弹簧电荷从对数均匀中随机选择2分布在
[
0.25
,
4
]
。连接任何给定物体的弹簧的弹簧常数是两个物体的弹簧电荷的乘积,并且所有弹簧的平衡距离是固定的常数。
完美弹性弹跳球固定半径的球在一个封闭的盒子中弹性地互相弹跳。基准物体具有1的质量的每个其他球具有从日志均匀分布随机独立选择的质量比
[
0.25
,
4
]
。围绕球的四个壁具有无限质量并且不移动。
非弹性弹跳球基于前一个领域,我们通过添加恢复系数(COR)作为每个对象的另一个不同的潜在属性来引入额外的复杂性。碰撞的COR是沿着垂直于接触平面的轴的两个碰撞物体之间的最终相对速度与初始相对速度的比率。在一完全弹性域,例如,所有的碰撞将具有为1的COR在我们的新的域,每个对象具有从均匀选取的随机COR
[
0.5
,
1
]
。参考对象的COR为
0.75
。用于计算两个球之间碰撞的动力学的COR被定义为两个碰撞对象的COR的最大值。当球与墙碰撞时,球的COR用于碰撞。
对于每个域,我们培养PPN上用6-对象数据集
10周
6
的样品和验证上用6-对象数据集
10个
5
样品。每个样本由50个观察帧组成,用作感知网络的输入,24个展开帧由预测网络用作目标。我们在3个对象,6个对象和9个对象的测试集上评估了我们的模型,每个测试集有
10
5个
样本。
此外,我们还希望展示PPN能够推广到潜在属性超出训练期间所见值范围的新对象。对于这个实验,我们在一个新的2对象完全弹性球数据集上测试我们的模型,其中包含
10
5个
样本。第一球的质量保持固定为1,而第二个球的质量是从11个值范围从选择的
32
-
1
至
32
,对数标度均匀间隔。我们在弹簧域上执行类似的实验,使用与第二个对象的弹簧电荷相同的11个值。
我们使用物质-js3,一种通用的刚体物理引擎,用于生成地面实况数据。在所有模拟中,球都包含在
512
px
×
512
px的封闭盒中。每个球的半径为50像素,随机初始化的位置使得球没有重叠。在弹簧域,初始x和y速度分量均匀地随机选自范围
[
-
15
,
15
]
PX /秒,平衡位移用于每个弹簧是150,并且所有的球的质量为
10
4
。在完全弹性球域,初始速度分量被从范围内选择
[
-
9
,
9
]
像素/秒。在非弹性球结构域,它们是从范围内选择
[
-
13
,
13
]
PX /秒。每个数据集的帧以
120
fps 进行采样。
在我们的弹跳球数据集的创建中,我们使用拒绝采样来过滤掉模拟,其中一些物体潜在的属性不能从观察帧推断出来。在两个弹跳球域中,我们必须能够推断出每个物体的质量。为了保证这一点,每个对象必须直接与参考对象发生碰撞,或者通过一系列碰撞间接地与它对联。对于非弹性域,我们必须确保也可以推断出每个对象的COR。在球 - 球碰撞中,只有较高的物体COR用于确定碰撞动力学,因此只能从碰撞中推断出较高的物体COR。因此,每个球必须与较低COR的球或墙壁碰撞。
4.2模型架构
泉 完美的弹性球 非弹性球
零件 # EVR
R
2
w /对数电荷 EVR
R
2
w / log质量 EVR
R
2
w / log质量
R
2
w / COR
1 0.94 0.95 0.99 0.94 0.73 0.90 0.02
2 0.06 0.02 0.006 0 0.27 0.02 0.81
3 0 0 0 0 0.006 0 0
4 0 0 0 0 0 0 0
表1:主成分分析。在属性向量上应用PCA产生的主要成分与人类可解释的潜在属性(如COR和质量对数)高度相关。我们计算每个训练集的属性向量的前四个主要组成部分的统计数据。解释方差比或EVR是主成分的解释方差,作为总方差的一部分,
R
2
是主成分与特定地面实况属性之间的样本间相关性的平方。值小于
10
-
3
舍入到0。
#培训数据 #Test Objects 泉 完美的弹性球 非弹性球
R
2
w /对数电荷
R
2
w / log质量
R
2
w / log质量
R
2
w / COR
10
五
6 0.60 0.91 0.55 0.03
2
×
10
5
6 0.95 0.96 0.95 0.65
5
×
10
5
6 0.94 0.94 0.91 0.77
10
6
6 0.95 0.94 0.90 0.80
10
6
3 0.90 0.97 0.92 0.86
9 0.87 0.92 0.90 0.68
表2:数据效率和对象泛化的数量。PPN学习用10捕获物理属性
当给定
2
×
10
5个
实例时,
5个
训练数据点和收敛。它的预测可以很好地推广到具有不同数量对象的样本外测试集。我们在6个对象的数据集上训练PPN,并在由6个,3个和9个对象组成的全新数据集上进行测试。在上面,我们使用属性向量的第一主成分来预测对数质量时报告
R
2
,并使用第二主成分来预测COR(对于非弹性球情况)。注意,即使在3和9个对象的情况下,PPN也能够提取具有高
R
2的
质量和恢复系数。
图3:质量预测与参考距离。两个6对象弹跳球数据集上的样本外
R
2
用于预测不同参考距离处的对数质量。PPN必须结合一系列中间质量推论,以准确地推断具有大参考距离的物体的质量。
我们为所有实验使用单一模型架构。我们将
L
C
(每个代码矢量的大小)设置为25和
L
Z
(每个属性向量的大小)为15.模型中的所有MLP,包括交互网络中的MLP,都使用具有ReLU激活的线性隐藏层和线性输出层。
遵循Battaglia 等人的整体结构 。 [ 2 ],感知网络的核心由4层关系为中心的MLP的与大小
[
75
,
75
,
75
,
50
]
,并与尺寸的3层对象为中心的MLP
[
50
,
50
,
25
]
。最终的代码矢量由IN供给到尺寸的另一对象为中心的MLP输出
[
15
,
15
,
15
]
,以产生尺寸的最终潜在特性矢量
15
。该预测网络的核心由5层关系为中心的MLP与尺寸
[
100
,
100
,
100
,
100
,
50
]
,并与尺寸的3层对象为中心的MLP
[
50
,
50
,
4
]
用来预测每个物体的下一个位置和速度。
使用单个训练损失对感知网络和预测网络进行端到端训练,我们将其称为预测损失。预测损失是在24个推出时间步长期间所有对象的预测与实际状态向量的MSE的未加权和。此外,我们在感知和预测网络的“效果”层上应用L2正则化。这种正规化促进了交互过程中的最小信息交换,并证明是对不同数量的对象进行泛化的关键组成部分。我们通过网格搜索为每个正则化项选择了惩罚因子。我们也尝试了使用
β
-VAE正规化 [ 24,25 ] 在属性向量上,以鼓励学习可解释和分解的属性。
为了在模拟长滚动时提高稳定性,我们在推出期间向每个状态向量添加了少量高斯噪声,迫使模型自我纠正错误。根据经验,我们发现设置噪音标准。开发。等于
0.001
×
标准。开发。每个状态向量元素的值在整个数据集稳定的卷展位置,而不会影响损失。
我们训练模型
150个
历元和优化使用亚当的参数 [ 26 ]用小批量大小256。我们使用与的学习率开始了瀑布时间表
5
×
10
-
4
,并通过按比例缩小
0.8
每次验证错误,估计超过
10个
时期的窗口,停止下降。
5结果
5.1提取潜在属性
我们的结果表明,对象的物理属性在感知网络输出的属性向量中被成功编码。实际上,我们可以通过在训练期间对感知网络生成的属性向量应用主成分分析(PCA)来提取弹簧电荷,质量和COR的人类可解释概念。我们发现每个属性向量的第一个主成分与弹簧域中的弹簧电荷对数和两个弹跳球域中的对象质量对数高度相关。在非弹性球域中,我们还发现属性向量的第二主成分与COR高度相关。表1显示了所有三个域中学习属性向量的前4个主成分中的每一个的解释方差比(EVR),以及当每个成分用于预测地面实况对象属性时的
R
2
4。由于PCA是一种无监督技术,因此可以在没有质量和COR的先验概念的情况下发现这些标量,并且我们可以使用某些主成分的EVR之间的数量级差异来识别哪些成分代表有意义的属性并且仅仅捕获噪声。
我们还发现每个学习的属性向量仅包含有关其关联对象的信息,而不包含任何其他对象。我们通过使用线性最小二乘来计算每个对象的基本真实潜在属性与所有其他对象的属性向量的串联之间的样本内
R
2
来测试该假设。对于三个域中的每一个及其相关的潜在性质,该
R
2
小于5%。
为了测试我们的感知网络的泛化属性,我们在使用感知网络(在6个对象动力学上训练)和PCA来预测具有不同数量的对象的测试集的属性值时计算样本外的
R
2
,如如表2所示。该表还显示了在给定不同数量的训练实例时PPN如何执行。在所有弹跳球测试装置中,对于我们在
10
6个
数据点训练的模型,对数质量的OOS
R
2
高于90%,COR 的OOS
R
2
高于68%,对数弹簧的OOS
R
2
用于泉域超过87%。
我们还将PPN与LSTM-PPN基线进行比较。LSTM-PPN用堆叠的LSTM替换PPN中的每个感知和预测网络。与交互网络不同,LSTM不会按对象分解输入和输出。相反,每个对象的状态向量被连接并一起处理,并且为所有对象学习单个属性向量。表3显示LSTM-PPN没有学习有意义的潜在性质。在每种情况下,真实对象属性和属性向量之间的线性最小二乘样本
R
2
小于
2
%
。我们还在特性向量
Z
的正则化项中试验了不同的
β
值
如在
β-
VAE中 [ 25 ]。
β
的值不会影响PPN在学习对象属性上的表现。
对于两个弹跳球域,通过碰撞推断出对象的相对质量,但并非所有对象都直接与参考对象碰撞。我们将对象的参考距离定义为观察期间所需的最小碰撞次数,以将对象的质量与参考对象的质量相关联。例如,对参考距离为3的物体的推断取决于两个中间物体的质量的推断。图3显示了每个6对象测试集的PPN预测
R
2
和参考距离之间的关系。虽然
R
2
有衰变
由于参考距离在推理期间由于复合误差而增加,PPN清楚地证明了使用传递性来推断具有大参考距离的物体的质量的能力。
方法 泉 弹性球 非弹性球
记录费用 原木质量 原木质量 COR
LSTM 0.02 0.03 0.02 0.03
PPN(
β
=
0
) 0.95 0.94 0.90 0.80
PPN(
β
=
0.01
) 0.95 0.93 0.93 0.79
PPN(
β
=
1
) 0.92 0.94 0.93 0.65
表3:与基线方法比较。不同的值,
β
的调整项,如
β
-VAE不显著改变PPN的性能。PPN始终优于基线LSTM。
图4:平均欧几里德预测误差。上:对于每个测试集的所有时间步长和样本的平均欧几里德预测误差,测量为帧宽的分数。对于每个域,PPN和GPIN在6个对象系统上进行训练,并在具有6个,3个和9个对象的新系统上进行测试。下图:针对6个对象场景中的每个场景的不同展开时间步长的平均欧几里德预测误差。3对象和9对象场景的图表表现出类似的行为。
6球 3个球 9球
真正 模型 真正 模型 真正 模型
泉
完全弹性
无弹性
图5:部署轨迹。从六个测试集中的每一个中抽取样本展开轨迹(超过24个步骤)。每个域的模型都在6个对象样本上进行训练,并在6个,3个和9个对象样本上进行测试。
图6:属性值泛化。对于弹簧和完全弹性球域,2对象测试集中的第二个对象的预测属性值与真实属性值。真实的属性值范围从
32
到
1
到
32
,绿色区域
4
到
1
到
4
表示在训练期间PPN看起来的属性值。误差条显示95%置信区间。总的来说,PPN继续对训练集之外的质量和弹簧电荷值做出合理的预测,尽管对弹簧电荷比以前遇到的物体的预测明显更差。
5.2推出预测
尽管PPN的主要目标是对潜在物理属性进行无监督学习,但网络也可用于模拟物体动力学。为了评估PPN的预测性能,我们使用平均欧几里德预测误差,或者地面实况和预测的推出位置之间的平均欧几里德范数,对所有样本和对象进行平均。我们将PPN的性能与两个基准进行比较。该平均性能完美装(MPPR)基线输出从起始状态的完美部署,但错误地假定所有物体的质量和春季收费1.无弹性球域,它也假定所有对象CORS是0.75。在地面实测性能相互作用网络(GPIN)基准测试是一个与PPN预测网络具有相同结构的IN。与PPN不同,它可以直接访问地面实况潜在值作为输入,但它仍然只能在6个对象的数据集上进行训练。图4列出了三种模型对各种场景的平均欧几里德预测误差,并显示了不同展开步骤的预测误差如何变化。PPN的平均欧几里德预测误差明显优于MPPR基线,并且合理地接近GPIN模型,特别是对于弹簧和完全弹性的球数据集。
最后,图5显示了PPN的推出轨迹的可视化。随机选择的模拟可以在http://ppn.csail.mit.edu找到。与原始IN一样,PPN的推出对早期时间段内的小预测误差很敏感,但在视觉上仍具有说服力。
5.3推广到新对象
我们的实验还探索了对属性值超出训练集中找到的范围的对象的推广。我们测试在2对象完全弹性的测试组,其中所述第二球的质量变化从PPN框架
32
-
1
至
32
。范围内的质量值
[
0.25
,
4
]
被训练集内发现,而在此范围之外的质量值所需要的PPN与其质量的了解推断它先前未暴露于值。我们执行在弹簧上的域,其中,所述第二对象的弹簧电荷变化从一个类似的实验
32
-
1
至
32
。图6绘制两个域中第二个球的真实和预测属性值之间的关系,使用第5.1节中描述的相同PCA技术进行预测。
在完全弹性的球域中,PPN继续提供准确的质量预测,即使真正的值远远超出训练范围,尽管总体倾向于低估大质量值并高估小质量值。在弹簧域中,PPN能够相对较好地预测具有大弹簧电荷的物体,但是在弹簧电荷低的物体上表现不佳。这可能是由于与低弹性收费对象往往整体感觉非常小的弹簧力,使得电荷之间的差异其实
32
-
1
和
16
-
1
比电荷之间的差异明显要少得多
16
和
32
。
6讨论
我们已经提出了PPN,这是一种能够以完全无监督的方式从物体动力学样本中发现潜在物体属性的模型。通过我们的实验,我们不仅展示了PPN学习的对象属性的表示足以准确地模拟相同定律下新系统的动态; 而且这些学习的表征可以很容易地转化为相关的,人类可解释的属性,例如通过主成分分析的质量和恢复系数。
PPN通过推广到新的场景来证明鲁棒性,而动态预测或潜在属性推断的准确性几乎没有损失。通过使用交互网络作为我们感知和预测模块的基本构建块,我们使模型能够扩展到任意数量的对象和交互,而无需进行架构更改。特别地,我们的感知网络体系结构是关系和循环网络的简单但有效的组合,其可以在涉及交互对象的其他时间序列推断任务中有用。我们还建立了PPN能够推断出在培训期间看到的值范围之外的潜在性质,进一步增强了其发现新系统相关潜在特性的潜力。
几个扩展将进一步改善我们的模型对潜在对象属性的一般发现的适用性。特别是,基于网络的交互架构无法解决的一些常见问题类别:任意形状的刚体之间的碰撞检测,密集流体模拟等。将交互网络扩展到基于粒子的对象表征是一个充满希望的未来研究方向 [ 27 ]。
虽然交互网络框架通常可扩展到任意数量的对象,但是由于所有对象之间存在交互项,处理所有对象所需的计算时间与对象的数量成比例地缩放,使得它对于非常大的系统是不实际的。提高感知和预测模块的计算效率的一种方法是仅考虑来自目标对象附近的对象的相互作用(具有大多数相互作用仅在较短长度尺度上强的解释),类似于Chang等人。[ 3 ]。一个较小的全球互动网仍然可以用来模拟更远距离的互动。
PPN提供了一种有前途的方法,用于导出控制系统动态的基础属性,此外还是一种能够推断潜在未知对象属性的更通用的可学习物理引擎。完全无监督的操作方式及其许多泛化特性使PPN适用于各种系统,甚至可以在尚未被充分理解的领域中发现相关的潜在特性。
7致谢
我们感谢Michael Chang的重要见解和匿名审稿人的有用建议。这项工作得到了ONR MURI N00014-16-1-2007,脑,机器和机器中心(NSF#1231216),Facebook和丰田研究所的支持。
脚注
由胡克定律控制的弹簧连接的两个物体受力
F
=
-
k
(
x
-
x
0
)
,其中
k
是弹簧的弹簧常数,
x
是两个物体之间的距离,
x
0
是弹簧的平衡距离。力沿着连接两个物体的直线引导,但符号不同:如果
x
>
x
0
则是有吸引力的,如果
x
<
x
0
则是排斥的。
我们在
[
A
,
B
]
上使用短语log-uniform distribution 来表示
exp
的分布
(
x
)
,其中
x
在区间
[
log。]
上随机均匀绘制
A
,
日志
B
]
。
http://brm.io/matter-js/
默认情况下,PCA生成的属性值与我们的地面实况值不会达到相同的比例。出于相关性分析的目的,我们线性地缩放预测以匹配均值和标准。开发。事实真相潜在价值观。
参考
Tomer Ullman,AndreasStuhlmüller,Noah Goodman和Joshua B Tenenbaum。 从动态场景中学习物理。 在认知科学学会的年会,2014年
Peter Battaglia,Razvan Pascanu,Matthew Lai,Danilo Jimenez Rezende,et al。 用于学习对象,关系和物理的交互网络。 “ 神经信息处理系统进展”,2016年。
Michael B Chang,Tomer Ullman,Antonio Torralba和Joshua B Tenenbaum。 一种基于对象的组合物学习物理动力学的方法。 2017 年国际学习代表会议。
Yoshua Bengio,Aaron Courville和Pascal Vincent。 代表性学习:回顾和新观点。 关于模式分析和机器智能的IEEE交易,35(8):1798-1828,2013。
Peter W Battaglia,Jessica B Hamrick和Joshua B Tenenbaum。 模拟作为物理场景理解的引擎。 美国国家科学院院刊,110(45):18327-18332,2013。
Christopher Bates,Peter Battaglia,Ilker Yildirim和Joshua B Tenenbaum。 人类使用概率模拟预测液体动力学。 在认知科学学会的年会,2015年。
Jessica Hamrick,Peter Battaglia和Joshua B Tenenbaum。 内部物理模型指导关于物体动力学的概率判断。 在2011年认知科学学会年会上。
Jiajun Wu,Ilker Yildirim,Joseph J Lim,Bill Freeman和Josh Tenenbaum。 伽利略:通过将物理引擎与深度学习相结合来感知物理对象属性。 “ 神经信息处理系统进展”,2015年。
Jiajun Wu,Joseph J Lim,Hongyi Zhang,Joshua B Tenenbaum和William T Freeman。 物理101:从未标记的视频中学习物理对象属性。 在2016 年英国机器视觉会议上。
Pulkit Agrawal,Ashvin V Nair,Pieter Abbeel,Jitendra Malik和Sergey Levine。 学习戳戳:直观物理学的经验学习。 “ 神经信息处理系统进展”,2016年。
Sebastien Ehrhardt,Aron Monszpart,Niloy J Mitra和Andrea Vedaldi。 学习一个物理的长期预测器。 arXiv preprint arXiv:1703.00247,2017。
Katerina Fragkiadaki,Pulkit Agrawal,Sergey Levine和Jitendra Malik。 学习用于打台球的物理视觉预测模型。 在2016 年国际学习代表会议上。
Adam Lerer,Sam Gross和Rob Fergus。 通过实例学习砌块塔的物理直觉。 在2016 年国际机器学习会议上。
Roozbeh Mottaghi,Hessam Bagherinezhad,Mohammad Rastegari和Ali Farhadi。 牛顿场景理解:展开静态图像中物体的动态。 在IEEE计算机视觉和模式识别会议上,2016年。
Roozbeh Mottaghi,Mohammad Rastegari,Abhinav Gupta和Ali Farhadi。 â€?如果......会发生什么?学会预测图像中力的影响。 在2016 年欧洲计算机视觉会议上。
Ilya Sutskever,Geoffrey E Hinton和Graham W Taylor。 复发时间限制的boltzmann机器。 “ 神经信息处理系统进展”,2009年。
Franco Scarselli,Marco Gori,Ah Chung Tsoi,Markus Hagenbuchner和Gabriele Monfardini。 图神经网络模型。 IEEE Transactions on Neural Networks,20(1):61-80,2009。
Yujia Li,Daniel Tarlow,Marc Brockschmidt和Richard Zemel。 门控图序列神经网络。 在2016 年国际学习代表会议上。
David Raposo,Adam Santoro,David Barrett,Razvan Pascanu,Timothy Lillicrap和Peter Battaglia。 从纠缠的场景表示中发现对象及其关系。 2017 年ICLR研讨会。
Nicholas Watters,Andrea Tacchetti,Theophane Weber,Razvan Pascanu,Peter Battaglia和Daniel Zoran。 视觉互动网络。 在神经信息处理系统的进展,2017年。
Jiajun Wu,Erika Lu,Pushmeet Kohli,Bill Freeman和Josh Tenenbaum。 通过视觉去动画学习看物理。 在神经信息处理系统的进展,2017年。
Marco Fraccaro,Simon Kamronn,Ulrich Paquet和Ole Winther。 无监督学习的解缠结识别和非线性动力学模型。 在神经信息处理系统的进展,2017年。
Thomas Kipf,Ethan Fetaya,Kuan-Chieh Wang,Max Welling和Richard Zemel。 交互系统的神经关系推理。 在2018 年国际机器学习会议上。
Diederik P Kingma和Max Welling。 自动编码变分贝叶斯。 2014年国际学习代表大会。
Irina Higgins,Loic Matthey,Arka Pal,Christopher Burgess,Xavier Glorot,Matthew Botvinick,Shakir Mohamed和Alexander Lerchner。 beta-vae:使用受约束的变分框架学习基本视觉概念。 2017 年国际学习代表会议。
Diederik P Kingma和Jimmy Ba。 亚当:随机优化的一种方法。 在2015 年学习代表国际会议上。
Damian Mrowca,Chengxu Zhuang,Elias Wang,Nick Haber,Li Fei-Fei,Joshua B Tenenbaum和Daniel LK Yamins。 物理预测的灵活神经表示。 arXiv preprint arXiv:1806.08047,2018。
无监督学习Laten ...
抽象
1简介
2相关工作
3型号
4实验
5结果
5.1提取潜在属性......
5.2推出预测
5.3推广到新目标......
6讨论
7致谢
展开全部
回到顶部
转到底部
相关论文
一种基于成分对象的物理动力学习方法
一种基于成分对象的物理动力学习方法
视觉交互网络
视觉交互网络
物理预测的灵活神经表示
物理预测的灵活神经表示
*
225174