具备 RN 模块的神经网络具有处理非结构化输入的能力(如一张图片或一组语句),同时推理出事物其后隐藏的关系。 使用 RN 的网络可以处理桌子上的各种形状(球体、立方体等)物体组成的场景。...大约 150 帧内,VIN 的预测近似于真值模拟。之后虽然有所不同,但依然能产生看上去合理的动态预测。 VIN 包括两种机制:视觉模块和物理推理模块。...二者结合能够将视觉场景处理成一系列有区别的物体,并学习物理规则的一套隐式系统,从而预测未来物体会发生什么。 研究人员在多种系统中测试了 VIN 的能力,包括桌球撞击、行星系统的引力关系等。...而其动态预测器则可以通过计算它们的交互和动态来这些状态的未来情况,从而预测出一个任意长度的物理轨迹。...我们发现,仅需要 6 个输入视频帧,该视觉交互网络就可以生成精准的未来轨迹,且这些轨迹的时间步数都是数以百计的,可涵盖大量的物理系统。
在连续大约 150 帧的视频中,VIN 给出了极为接近的模拟,这之后的预测结果从肉眼看来也算是合理的。...结合在一起,VIN 的两大模块能够处理一段视觉场景,并且预测其中每个不同物体在现实物理规律下会发生的情况。...作者在摘要中写道,只需一眼,人类便能对一系列不同的物理系统的未来状态做出各种各样的预测。...动态预测器则通过计算物体之间的相互作用和力学关系,学习将这些状态向前推进,从而产生任意长度的预测物理轨迹。 ?...作者发现,在只有 6 帧输入视频的情况下,VIN 可以生成各种物理系统中几百个时间步长的预测轨迹,而且这些轨迹都是准确的。
Alahi等人[1]使用LSTMs对行人之间的相互作用进行建模,并进行相应的预测。Ma等人[19]提出利用博弈论的概念来模拟行人之间的相互作用,同时预测未来的轨迹。...一些工作也集中在动态物体的短期预测上[7,22]。[28]使用可变自动编码器[26,20]对密集的像素级短期轨迹进行预测,该编码器聚焦于预测视频的未来帧,而无需显式地推理每像素运动。...为了实现这一目标,我们开发了一种单级检测器,它以多帧为输入,对未来物体的运动轨迹进行检测、跟踪和短期运动预测。我们的输入表示是一个4D张量,它在多个时间帧上对3D空间的占用网格进行编码。...我们将读者引用到图4中,以了解我们的架构。 然后我们添加两个卷积层分支,如图5所示。第一个执行二元分类以预测作为车辆的概率。第二个预测当前帧上的边界框以及未来的n-1帧。...此外,增加预测损失仅在当前帧上提供类似的检测结果,但是,它使我们能够解码轨迹并提供输出更平滑检测的证据,从而提供最佳性能,即在IoU 0.7上mAP比单帧检测器好6%个点。 ?
如图是预测结果的展示。模拟场景有障碍物,还有有21人在7个群行走,开始目标放置在地图的4个角上。 • 左:人的初始位置用彩色圆圈显示,每种颜色对应一组。...如图所示,SoPhie预测在社会性和物理性似乎合理的轨迹。 为此,该方法结合场景所有代理的影响以及场景上下文。 ? 下面分析SoPhie的细节。...注意模块由两个注意机制组成,分别称为社交和物理注意组件。物理注意力从训练数据中了解场景中的空间(物理)约束,并专注于每个代理在物理上可行的未来路径。...最后是一些结果图:SoPhie的物理和社会注意力正确预测并修复Social GAN错误的三个示例场景。在所有图将过去和预测的轨迹分别绘制为线和分布。其中以白色突出显示物理注意力机制的权重图。...假设模型学习的轨迹表示比空间局部代理能够更有效地推断周围代理的重要性。为了模拟人-人交互,不需独立预测每个人的未来位置;相反,在多个人之间联合推理并耦合彼此预测以捕获之间的交互。
该模型是根据从大量真实视频序列中自动提取的运动轨迹进行训练的。在输入图像的条件下,模型会预测出神经随机运动纹理,用于描述每个像素未来的运动轨迹。...由此产生的频率空间纹理可以转化为密集的长距离像素运动轨迹,这些轨迹可用于合成未来帧,将静态图像转化为逼真的动画。...为了避免预测庞大的输出表示,许多先前的动画制作方法要么自动生成视频帧,要么通过额外的时间嵌入独立预测每个未来输出帧。...然而,这两种方法都不能确保生成的视频帧在时间上的长期一致性,而且都会生成随时间漂移或偏离的视频。...另一种方法是通过向 LDM 注入额外的频率嵌入,在每个频率上独立预测运动频谱图,但这会导致频域上的预测不相关,从而导致不切实际的运动。
1简介 物体的物理特性与物理定律相结合,决定了物体在我们的世界中移动和相互作用的方式。为我们观察的对象分配属性有助于我们总结我们对这些对象的理解,并更好地预测他们未来的行为。...PPN由以下两个部分组成: 所述感知网络作为输入上的对象的运动的帧的序列在短观察窗。它为场景中的每个对象输出属性向量,该对象编码该对象的相关潜在物理属性。...每个输入帧是一组状态向量,由每个对象的位置和瞬时速度组成。在训练期间,没有给出属性向量的直接监督目标。 该预测网络使用由感知网络生成从不同的起始构型模拟的对象的属性向量。...第一球的质量保持固定为1,而第二个球的质量是从11个值范围从选择的 32 - 1 至 32 ,对数标度均匀间隔。我们在弹簧域上执行类似的实验,使用与第二个对象的弹簧电荷相同的11个值。...每个数据集的帧以 120 fps 进行采样。 在我们的弹跳球数据集的创建中,我们使用拒绝采样来过滤掉模拟,其中一些物体潜在的属性不能从观察帧推断出来。
是根据从大量真实视频序列中自动提取的运动轨迹,来进行模型训练。 以输入图像为条件,训练后的模型预测「神经随机运动纹理」:一组运动基础系数,用于描述每个像素未来的轨迹。...为了避免预测如此大的输出表示,许多先前的动画方法要么自回归地生成视频帧,要么通过额外的时间嵌入独立预测每个未来的输出帧。...为了解决上述问题,研究人员在频率域中表示输入场景的每像素运动纹理(即所有像素的完整运动轨迹),并将运动预测问题表述为一种多模态的图像到图像的转换任务。...首先,研究人员使用逆时域FFT(快速傅里叶变换)在每个像素点p处计算运动轨迹场 这些运动轨迹场决定了每一个输入像素在未来每一个时间步长的位置。...这使得研究人员将物体的物理响应的图像空间二维运动位移场写为傅里叶谱系数与每个模拟时间步骤t的复模态坐标,以及时间t的加权和。
为了模拟社会互动,作者需要了解Agent人及其周围环境的动态,以预测他们未来的行为并防止任何崩溃。 规划决定将车辆带到目的地,同时避开障碍物,从而生成参考路径或轨迹。...03 轨迹预测 为了安排安全高效的导航,自动驾驶汽车应该考虑周围其他智能体的未来轨迹。轨迹预测是一项极具挑战性的任务,最近引起了很多关注,它可以预测场景中所有动态智能体的当前和过去状态。...第二部分是“轨迹”,它需要预测Agent在接下来的N个未来帧中的一组可能的未来位置,称为路点。这建立了他们与其他Agent以及道路的互动。...HERE语义图的一个有用特征是,它们通过定义数据子集来实现特定驾驶场景的模型训练和评估。 基本的E2E驾驶模型采用一系列过去的图像(例如,最后K帧)和地图渲染,并预测未来时间步长的转向角和速度。...基于数字孪生的方法旨在使用来自传感器和物理模型的数据,在模拟环境中构建真实世界物理实体的地图,以实现反映相应物理实体(如AR(增强现实)和MR(混合现实))的整个生命周期过程的作用。
但是,神经网络不是像物理学家那样将信息提炼成几个易于解释的规则,而是一个黑匣子,以不可预测且难以解释的方式将其获得的知识分布在成千上万个节点上。...因此,Renner的团队设计了一种“整体化”的神经网络:两个子网仅通过少数几个链接就可以相互连接了。第一个子网络将像典型的神经网络一样从数据中学习,第二个子网络将利用该学习成果来进行和检验新的预测。...最初的测试之一是给网络提供有关从地球上看火星和太阳在天空中运动的模拟数据。从这个角度来看,火星的绕日轨道似乎是不稳定的,例如它会周期性地“逆行”,从而逆转其方向。...几个世纪前,天文学家一直认为地球处于宇宙的中心,并通过行星在天空中称为行星轮的小圆圈运动来解释火星的运动。...加拿大多伦多大学的物理学家马里奥·克伦(Mario Krenn)说,该团队的神经网络提出了哥白尼式的火星轨迹公式,重新发现了“科学史上最重要的转变之一”。 ?
机器学习 (ML) 推动了科学的巨大进步,从粒子物理学到结构生物学再到宇宙学,机器学习能够在大型数据集中学习特征,对不同的对象进行分类,并执行参数推断,以及更具开创性的应用,例如自回归语言模型、预测蛋白质结构...论文作者之一 Miles Cranmer 推特截图 具体而言,该研究提出了一种采用机器学习方法,通过观察自动发现实际物理系统的控制方程和隐藏属性。...研究者训练了一个图神经网络,通过 30 年的轨迹数据来模拟太阳系的太阳、行星和大型卫星的动力学。...在这里,太阳系的太阳、行星和卫星的(相对)位置和速度被表示为输入图的节点,而天体之间可能的物理交互(例如力)被表示为图的边。该研究将基于 GN 的模拟器与 30 年来观测到的太阳系轨迹进行了拟合。...对于像 Phoebe、Hyperion 和 Nereid 这样的天体,由于它们是非常小的卫星,对其他天体轨迹的影响可以忽略不计。因此,只要它们的质量很小就不会以任何方式影响系统。
具体而言,该研究提出了一种采用机器学习方法,通过观察自动发现实际物理系统的控制方程和隐藏属性。研究者训练了一个图神经网络,通过 30 年的轨迹数据来模拟太阳系的太阳、行星和大型卫星的动力学。...在这里,太阳系的太阳、行星和卫星的(相对)位置和速度被表示为输入图的节点,而天体之间可能的物理交互(例如力)被表示为图的边。该研究将基于 GN 的模拟器与 30 年来观测到的太阳系轨迹进行了拟合。...首先使用标准的 Transformer 文本编码器从文本查询中提取语言特征,使用时空编码器从视频帧中提取视觉特征。接着将这些特征传递给多模态 Transformer 以输出几个对象预测序列。...GBRT 输入设置可以在时间序列预测领域提高 ARIMA 和原版 GBRT 等精心配置的模型所产生的预测性能; 三,研究者比较了 GBRT 与各种 SOTA 深度学习时间序列预测模型的性能,并验证了它在单变量和双变量时间序列预测任务中的竞争力...在本文中,研究者们以 X 光安检场景为例,首先从域间偏移产生原因入手,结合常见的自然场景变化,分析外生和内生域间偏移的异同点。
最近,LSTMs还被证明有可能模仿实验或模拟产生的轨迹,在获得大量过去数据的情况下,对未来短时间内做出准确的预测。...这项工作中,研究人员考虑了RNNs,特别是LSTMs的另一种可以说是新颖的用途,在进行预测时,与以前的工作相比,这些预测在很长一段时间内都是有效的,但只是在统计意义上。...尽管只在短时间内有效,这里研究人员感兴趣的是来自化学和生物物理学的问题,其中强调的是更多的是在统计上有效的预测,在极长的时间内有效。...通过使用一个字符级的语言模型,有效地预测未来的字符,给定序列中迄今为止的字符,可以学习被映射到字符中的MD轨迹的演变。...3.7 从单分子力谱轨迹学习 研究人员使用LSTM模型从以10.9 pN的恒定力进行的多态核糖开关的单分子力谱实验中学习。
也就是说,让机器自学哥白尼时代的基础物理知识和相关轨道运行信息,它能够自行得出“太阳中心说”的结论,甚至还自行推出了哥白尼提出的的火星运动轨迹公式。...这一发现堪称在人类科学史上的“高光时刻”之一,不仅在天文学上,在历史、宗教领域都带来了不可超越的重大影响。 据nature报道,这一人类花了几个世纪才弄清楚的行星运转规律, 也可以被算法短时间模拟。...但是,神经网络无法自动将这些信息提炼成几个易于解释的规则,它是一个黑匣子,以一种无法预测且难以解释的方式,将其获得的知识分布在成千上万个结点上。...他认为,这些技术是我们理解并跟上物理学中其他更复杂现象的希望。 Renner的团队希望开发机器学习技术,以帮助物理学家解决目前存在的量子力学矛盾。...神经网络准确地预测了三体运动,并正确模拟出相近轨迹间的散度,与Brutus方法的计算结果极其相近。
首先,生物体不会维持关于世界事态的静态假设,但也可以构建内部动态 无论是瞬时轨迹还是未来状态 使其能够预测在不同时间尺度发生的事件的发展。其次,这些动态假设可以通过运动来实现。...这种层次结构可以推广到在参考帧之间执行⻬次变换,例如透视投影[57]。然而,单独的连续模型在现实世界中缺乏有效的可用性,因为它只能处理当前的感官状态,而不能执行任何形式的未来规划。...然而,在之前的所有模拟中,我们只考虑了单自由度手臂,而在现实生活中,我们通常处理更复杂的运动结构,例如人体。...这种方法也与主动预测编码[104]和递归神经程序[105]有一些类比,它们通过递归地将参考帧变换应用于场景的各个部分来解决计算机视觉中的部分‑整体层次结构学习问题。...这些实体中的每一个都有自己的动力学,允许代理预测例如移动球的轨迹。然后,该单元被扩展以构建复杂的层次结构,例如,用于模拟人体运动学[44],并执行更通用的参考系变换,例如透视投影[57]。
近年来,生成模型取得了显著进展,其中视频生成正在成为一个新的前沿领域。这些生成视频模型的一个重要应用是,在多样化的互联网规模数据上以无监督方式学习,用于构建预测世界模型。...如图 3a 所示,初始上下文帧 包含丰富的上下文信息,通过 N 个 token 独立地进行 token 化和重构: 相比之下,由于上下文帧和未来帧之间存在时间冗余,只有必要的变化信息如移动对象的位置和姿态...对于奖励预测,他们没有学习独立的奖励预测器,而是在每个观察的最后一个 token 的隐藏状态上添加了一个线性头(linear head)。...接下来该研究分析了大规模预训练 iVideoGPT 在未见过的 BAIR 数据集上的零样本视频预测能力。...这表明,尽管由于预训练数据的多样性不足,模型在完全未见过的机器人上的零样本泛化能力有限,但它有效地将场景上下文与运动动态分离开来。
从大规模视频中学习 E2E 驾驶模型 目的是学习一种通用的车辆运动模型,而这个端到端的训练架构学会从单目相机数据预测今后车辆运动的分布。如图应用一个FCN-LSTM 结构做到这种运动轨迹预测。...这种通用模型,输入像素,还有车辆的历史状态和当今状态,预测未来运动的似然函数,其定义为一组车辆动作或者运动粒度(离散和连续)。...命令和图像等测试数据一起作为输入,可以用指向任务的向量取代命令构成任务条件的模拟学习。 第二个:分支。命令作为一个开关在专用的子模块之间的切换。...物理系统: 虚拟和实际环境: 自动驾驶的失败预测 驾驶模型在交通繁忙的地区、复杂的路口、糟糕的天气和照明条件下很可能失败。...如图给出传感器数据在进入NN模型之前的预处理流水线框图,需要时间同步,空间对齐。
行人移动模拟是在特定场景中微观模拟大量人员移动的过程,主要关注群体交互对人群移动的影响。...早期的研究方法尝试在社会物理学的研究领域,以基于物理规则的模型来解释行人运动背后的机制,进而从异质特性背后抽离出行人运动的本质特征,例如社会力模型。这些方法存在模拟轨迹不够真实自然的问题。...因此,将这种知识融入在去噪中间过程中的含噪数据上的操作是困难的。 同时,行人移动模拟涉及多个行人和多个时间帧的数据生成任务。现有的方法通常利用扩散模型,一次性生成整个序列。...然而,在本工作的问题中,一次性生成整个模拟轨迹无法在每个时间帧对每个行人结合社会力模型进行有效的引导。 此外,由于生成数据的高维性质,一次性生成可能会遇到效率和有效性问题。...提出的扩散模型利用图的节点和边信息、历史状态和行人终点信息作为条件输入,并利用扩散模型采样行人未来加速度在下一个时间帧的分布,进而更新下一时刻所有行人的状态。迭代这一过程即可实现任意时长的行为模拟。
单模态轨迹:预测方法输出单个或多个交通参与者的未来轨迹;多模态轨迹:预测方法利用每个未来轨迹的概率为交通参与者生成多模态未来轨迹;交互:预测方法输出行为意图以帮助预测。...2.4 蒙特卡洛方法通常,在没有任何线性或模型高斯性质假设的情况下,预测状态分布的解析表达式通常是未知的。蒙特卡罗方法可以近似模拟状态分布。它随机采样输入变量,并应用物理模型生成潜在的未来轨迹。...Holger等人[52]使用转向角和全局坐标作为HMM的输入来预测驾驶员的操作。基于HMM,乔等人[53]提出了一种称为HMTP*的算法,该算法自适应地选择参数,以动态变化的速度模拟真实场景。...基于SGAN,Yang等人[148]设计了行人轨迹预测模型,重点关注如何更有效地提取交互相关因素并生成各种可行轨迹,该模型在SGAN的基础上添加了潜在变量预测器以估计潜在变量。...5)建立基准:需要一个基准,在更复杂的环境中使用标准的统一度量和地图可用数据集。该基准应允许使用避障场景和非凸约束进行长期和多模态预测,并允许使用不同的历史范围预测不同预测范围的未来轨迹。
领取专属 10元无门槛券
手把手带您无忧上云