1.Full-Body Articulated Human-Object Interaction(ICVV 2023 oral)

标题:全身关节式人机交互
作者:Nan Jiang, Tengyu Liu, Zhexuan Cao, Jieming Cui, Zhiyuan zhang, Yixin Chen, He Wang, Yixin Zhu, Siyuan Huang
文章链接:https://arxiv.org/abs/2212.10621
项目代码:https://rl-at-scale.github.io/








摘要:
3D HOI 的细粒度捕获可增强人类活动理解并促进下游视觉任务,包括动作识别、整体场景重建和人体运动合成。尽管其意义重大,但现有的研究大多假设人类仅使用少数身体部位与刚性物体进行交互,从而限制了其范围。在本文中,我们解决了 f-AHOI 的挑战性问题,其中整个人体与铰接物体相互作用,铰接物体的各个部分通过可移动关节连接。我们提出了 CHAIRS,一个大规模动作捕捉的 f-AHOI 数据集,由 46 名参与者和 81 个铰接式刚性可坐物体之间 16.2 小时的多功能交互组成。CHAIRS 在整个交互过程中提供人类和铰接物体的 3D 网格,以及逼真且物理上合理的全身交互。我们展示了 CHAIRS 与物体姿态估计的价值。通过学习 HOI 中的几何关系,我们设计了第一个模型,利用人体姿势估计来处理全身交互过程中铰接物体姿势和形状的估计。给定图像和估计的人体姿势,我们的模型首先重建对象的姿势和形状,然后根据学习到的交互先验优化重建。在两种评估设置下(例如,无论是否了解物体的几何形状/结构),我们的模型都显着优于基线。我们希望 CHAIRS 能够促进社区实现更细粒度的交互理解。我们将公开数据/代码。
2.Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction Clips(ICVV 2023 oral)

标题:日常手部物体交互片段的扩散引导重建
作者:Yufei Ye, Poorvi Hebbar, Abhinav Gupta, Shubham Tulsiani
文章链接:https://arxiv.org/abs/2309.05663
项目代码:https://judyye.github.io/diffhoi-www/






摘要:
我们解决从短视频剪辑中重建手部物体交互的任务。给定输入视频,我们的方法将 3D 推理作为每个视频的优化,并恢复对象形状的神经 3D 表示以及随时间变化的运动和手部清晰度。虽然输入视频自然地提供了一些多视图线索来指导 3D 推理,但由于遮挡和有限的视点变化,这些线索本身是不够的。为了获得准确的 3D,我们使用通用数据驱动的先验来增强多视图信号以指导重建。具体来说,我们学习一个扩散网络来对以手部配置和类别标签为条件的对象(几何)渲染的条件分布进行建模,并利用它作为先验来指导重建场景的新颖视图渲染。我们对 6 个对象类别的以自我为中心的视频进行实证评估,并观察到相对于之前的单视图和多视图方法的显着改进。最后,我们展示了我们的系统重建 YouTube 中的任意剪辑的能力,显示第一人称和第三人称交互。
3.PPR: Physically Plausible Reconstruction from Monocular Videos(ICVV 2023 oral)

标题:PPR:从单目视频中进行物理上合理的重建
作者:Gengshan Yang Shuo Yang John Z. Zhang Zachary Manchester Deva Ramanan
文章链接:https://arxiv.org/abs/2304.05977
项目代码:https://gengshan-y.github.io/ppr/








摘要:
给定单目视频,我们构建铰接物体和环境的 3D 模型,其 3D 配置满足动力学和接触约束。我们的方法的核心是利用可微的物理模拟来帮助视觉重建。我们通过坐标下降将可微物理模拟与可微渲染结合起来,这不仅可以实现 3D 重建,还可以实现视频中物理系统参数的端到端优化。我们证明了对四足动物和人类的单眼视频进行物理信息重建的有效性。它减少了仅通过视觉线索难以解决的重建伪影(例如尺度模糊、不平衡姿势和脚交换),并产生更好的脚接触估计。