1.Kick Back & Relax: Learning to Reconstruct the World by Watching SlowTV(ICCV 2023)

标题:放松身心:通过观看 SlowTV 学习重建世界
作者:Jaime Spencer, Chris Russell, Simon Hadfield, Richard Bowden
文章链接:https://arxiv.org/abs/2307.10713
项目代码:https://github.com/jspenmar/slowtv_monodepth







摘要:
自监督单目深度估计 (SS-MDE) 具有扩展到大量数据的潜力。不幸的是,现有方法仅限于汽车领域,导致模型无法推广到自然或室内环境等复杂环境。为了解决这个问题,我们提出了一个由 YouTube 策划的大规模 SlowTV 数据集,其中包含的数据比现有汽车数据集多一个数量级。SlowTV 包含来自丰富多样环境的 170 万张图像,例如全球季节性远足、风景驾车和水肺潜水。使用该数据集,我们训练了一个 SS-MDE 模型,该模型为大量室内/室外数据集提供零样本泛化。尽管使用了更高效的架构,但最终的模型优于所有现有的 SSL 方法,并缩小了与受监督 SoTA 的差距。我们还引入了一系列最佳实践,以进一步最大限度地提高性能和零样本泛化。这包括 1) 纵横比增强、2) 相机固有估计、3) 支持帧随机化和 4) 灵活的运动估计。代码可从此 https URL 获取。
2.MonoNeRF: Learning Generalizable NeRFs from Monocular Videos without Camera Pose(ICML 2023)

标题:MonoNeRF:从没有相机姿势的单目视频中学习可推广的 NeRF
作者:Yang Fu, Ishan Misra, Xiaolong Wang
文章链接:https://arxiv.org/abs/2210.07181
项目代码:https://oasisyang.github.io/mononerf/





摘要:
我们提出了一种可推广的神经辐射场 - MonoNeRF,它可以在静态场景中移动的大规模单目视频上进行训练,而无需任何深度和相机姿势的真实注释。MonoNeRF遵循基于自动编码器的架构,其中编码器估计单目深度和相机姿态,解码器基于深度编码器特征构造多平面NeRF表示,并使用估计的相机渲染输入帧。学习受到重建误差的监督。一旦学习了模型,它就可以应用于多种应用,包括深度估计、相机姿态估计和单图像新颖视图合成。更多定性结果可在以下网址获得:此 https URL 。
3.EigenTrajectory: Low-Rank Descriptors for Multi-Modal Trajectory Forecasting(ICCV 2023)

标题:EigenTrajectory:用于多模态轨迹预测的低秩描述符
作者:Inhwan Bae, Jean Oh, Hae-Gon Jeon
文章链接:https://arxiv.org/abs/2307.09306
项目代码:https://github.com/InhwanBae/EigenTrajectory








摘要:
捕捉高维社会互动和可行的未来对于预测轨迹至关重要。为了解决这种复杂性,人们尝试通过参数曲线拟合(例如贝塞尔曲线和 B 样条函数)来降低输出变量的维数。然而,这些起源于计算机图形领域的函数不适合解释社会可接受的人类动态。在本文中,我们提出了 EigenTrajectory ( ET ),一种轨迹预测方法,它使用新颖的轨迹描述符形成一个紧凑的空间,这里称为 ET 空间,代替欧几里得空间,用于表示行人运动。我们首先通过低秩近似来降低轨迹描述符的复杂性。我们将行人的历史路径转换为由时空主成分表示的 ET 空间,并将其输入现成的轨迹预测模型中。模型的输入和输出以及社交交互都在相应的 ET 空间中收集和聚合。最后,我们提出了一种基于轨迹锚的细化方法,以覆盖所提出的 ET 空间中所有可能的未来。大量实验表明,我们的 EigenTrajectory 预测器可以显着提高现有轨迹预测模型在公共基准上的预测精度和可靠性,表明所提出的描述符适合表示行人行为。代码可在此 https URL 公开获取。
语言模型:太长我不看。斯坦福新研究:上下文太长,模型会略过中间不看


12种模态,一个学习框架,Meta-Transformer实现骨干网络大一统

