近年来,通过基于体渲染技术的神经隐式表面学习来实现多视图三维重建成为计算机三维视觉领域研究的热点。然而,目前仍然存在一个关键性问题亟待解决:现有的方法缺乏明确的多视图几何约束,因此通常无法实现几何一致的三维重建。为了应对这一问题,我们提出了一种几何一致的神经隐式多视图三维重建算法。首先,我们从理论上分析了基于积分的体渲染技术和基于空间点的符号距离函数(SDF)建模之间存在着固有偏差。为了消除这一偏差,我们直接定位到SDF网络的零测度集,并通过利用来自运动恢复结构(SFM)的稀疏三维信息和多视图立体视觉(MVS)中的光度一致性约束来显式地对表面进行多视图几何优化。这保证了我们的符号距离函数优化无偏,并使得多视图几何约束聚焦于真正表面的优化。大量实验表明,我们提出的方法在复杂的精细结构和大范围的平滑区域都实现了高质量的三维重建,从而在性能上大大优于现有技术。
摘要:本文提出了InstantMesh,这是一个用于从单视角图像生成即时3D网格的前馈框架,具有当前非常优秀的生成质量和显著的训练可扩展性。
1.Geometry-Guided Ray Augmentation for Neural Surface Reconstruction with Sparse Views
神经辐射场(NeRF)已经成为一种流行的新视图合成方法。虽然 NeRF 正在快速泛化到更广泛的应用以及数据集中,但直接编辑 NeRF 的建模场景仍然是一个巨大的挑战。一个重要的任务是从 3D 场景中删除不需要的对象,并与其周围场景保持一致性,这个任务称为 3D 图像修复。在 3D 中,解决方案必须在多个视图中保持一致,并且在几何上具有有效性。
论文标题:Multi-View Vision-to-Geometry Knowledge Transfer for 3D Point Cloud Shape Analysis
---- 新智元报道 来源:我爱计算机视觉 作者:孔维航 【新智元导读】在三维重建任务中,由于数据量大、弱纹理、遮挡、反射等问题,如何高效准确地实现多视图立体视觉仍然是一个具有挑战性的问题。 多视图立体视觉(MVS)一直是计算机视觉研究的一个热点。它的目的是从多个已知相机姿态的图像中建立密集的对应关系,从而产生稠密的三维点云重建结果。在过去的几年里,人们在提高稠密三维重建的质量上付出了很大的努力,一些算法如PMVS、GIPUMA以及COLMAP等取得了令人印象深刻的效果。 然而,在三维重建任务中,
最近的一些工作表明,预训练的2D生成模型可以应用于3D生成。如Dreamfusion和Magic3D,它们利用2D扩散模型作为优化3D重构方法(如NeRF)的监督,通过得分蒸馏采样(SDS)进行优化。然而,由于这些模型仅具有2D知识,它们只能提供单视图的监督,生成的图像容易受到多视图一致性问题的困扰,其结果通常包含严重的瑕疵。
现有方法的生成外观,特别是在遮挡区域,逼真性很差。我们认为现有方法的性能不佳是由于训练数据的有限多样性导致的。然而,扩展现有的2D服装人类数据集还需要大量的人工注释。为了解决这个限制,我们提出了一种简单而有效的算法,可以从单一图像中创建一个3D一致纹理的人类,而无需依赖经过策划的2D服装人类数据集进行外观合成。
通常来说,只给出一个2D图像,人类就能够毫不费力地推断出底层场景的丰富3D结构。由于从2D推断3D本身是一个模糊的任务。
1.NoPose-NeuS: Jointly Optimizing Camera Poses with Neural Implicit Surfaces for Multi-view Reconstruction
几天前,同济大学公布了一条重磅消息:本校学生陈涵晟获得CVPR2022最佳学生论文奖,这也是CVPR自2001年设立最佳学生论文奖以来,获奖论文的第一作者首次来自中国高校。
Pri3D:Can 3D Priors Help 2D Representation Learning? (ICCV2021) 代码地址:https://github.com/Sekunde/Pri3
ICCV2019已经过去一段时间,但比较优秀好的文献我们还是值得慢慢去品,值得深入阅读去体会作者的意图,从中学习精髓,去发现更多的创新点。
机器之心专栏 作者:杨雯琦 S3-NeRF 通过利用不同点光源下捕获的单视图图像学习神经反射场(neural reflectance field)以重建场景的 3D 几何和材质信息。与依赖于视图间照片一致性(photo-consistency)的多视图场景重建(multi-view scene reconstruction)不同,S3-NeRF 主要利用图像中的 shading 和 shadow 信息来推断可见 / 不可见区域的场景几何。 目前图像 3D 重建工作通常采用恒定自然光照条件下从多个视点(mul
这是我之前在泡泡机器人上翻译的文章,放在这里做个备份,原文链接:https://www.sohu.com/a/334072786_715754
原文:Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator
感谢我们「3D视觉从入门到精通」知识星球嘉宾为我们带来的主题为基于多视图几何方式的三维重建视频讲解,星球成员可免费观看学习。备注:作者来自武汉大学在读博士,精通多视图几何算法。
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
腾讯旗下顶级视觉研发平台腾讯优图,官宣有13篇论文入选,居业界实验室前列,其中3篇被选做口头报告(Oral),该类论文占总投稿数的4.3%(200/4323)。
两年一度的国际计算机视觉大会 (International Conference on Computer Vision,ICCV) 将于 2019 年 10 月 27 日 - 11 月 2 日在韩国首尔举行,近日论文收录名单揭晓,腾讯优图共有13篇论文入选,居业界实验室前列,其中3篇被选做口头报告(Oral),该类论文仅占总投稿数的4.3%(200/4323)。
本文是PatchMatchStereo[1]第二篇拾遗,主要讲解PatchMatch的深度/视差传播策略,以及在其基础上,介绍几种基于PatchMatch的改进传播策略,分别是ETH的Gipuma[2]方法和华中科技大学的ACMM[3]。不同于SGM在极线纠正之后的影像上进行同名极线(核线)上搜索,PatchMatchStereo在整个视差空间内进行搜索,既保证全局搜索的准确性,又提升了算法的效率。但其本身的传播策略无法极尽GPU效能,以至于PMS的立体像对视差估计速度比较慢。直到Gipuma等方法提出新的传播策略后,才使得GPU加速和PatchMatch算法在多视图立体中应用成为可能,因此,本文主要介绍传统方法中的视差/深度传播策略,并简要介绍一个在传播方面的经典深度学习方法。
摘要:以多视图点云配准为研究对象,对近二十余年的多视图点云配准相关研究工作进行了全面的分类归纳及总结。首先,阐述点云数据及多视图点云配准的概念。根据配准的任务不同,将多视图点云配准分为多视图点云粗配准和多视图点云精配准两大类,并对其各自算法的核心思想及算法改进进行介绍,其中,多视图点云粗配准算法进一步分为基于生成树和基于形状生成两类;多视图点云精配准算法进一步分为基于点云的点空间、基于点云的帧空间变换平均、基于深度学习和基于优化四类。然后,介绍了四种多视图点云配准数据集及主流多视图配准评价指标。最后,对该研究领域研究现状进行总结,指出存在的挑战,并给出了未来研究展望。
2D 扩散模型极大地简化了图像内容的创作流程,2D 设计行业也因此发生了变革。近来,扩散模型已扩展到 3D 创作领域,减少了应用程序(如 VR、AR、机器人技术和游戏等)中的人工成本。有许多研究已经对使用预训练的 2D 扩散模型,生成具有评分蒸馏采样(SDS)损失的 NeRFs 方法进行了探索。然而,基于 SDS 的方法通常需要花费数小时来优化资源,并且经常引发图形中的几何问题,比如多面 Janus 问题。
1.PointLLM: Empowering Large Language Models to Understand Point Clouds
备注:研究方向+地点+学校/公司+昵称,更快通过申请,长按加细分领域技术交流群,目前有细分领域:图像分割、图像目标检测、论文写作、车道检测、模型优化、目标跟踪、SLAM、点云处理(分割检测)、深度学习。
然而,让AI仅用单一视角的2D照片集合,无监督地生成高质量的多视角图像和3D形状,可真是要把它难倒了。
1.PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification(ICLR 2023)
模糊复杂目标的高真实感建模和渲染对于许多沉浸式 VR/AR 应用至关重要,其中物体的亮度与颜色和视图强相关。在本文中,来自上海科技大学的研究者提出了一种使用卷积神经渲染器为模糊目标生成不透明辐射场的新方案,这是首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案,并以任意新视角生成全局一致的 alpha 蒙版。
想象一下你正在打造一辆可探测周围环境的自动驾驶车。你要如何让你的车感知行人、骑自行车的人以及其他车辆,以安全行驶呢?你可以给它装上相机,但效果并不是特别好:你面对的是整个 3D 环境,相机拍摄到的只是把它拍扁之后的 2D 图像,然后再尝试从这个 2D 图像中复原你真正需要用到的 3D 信息(比如与车前面的行人、汽车间的距离)。然而,一旦将 3D 环境挤压成 2D 图像,很多对你来说最重要的信息就会丢失,并且将这些信息重新拼凑起来十分困难——即使使用最先进的算法,也容易出错。
计算机视觉入门的一些综述类文章和经典pdf书籍,【3D视觉工坊】按照不同领域帮大家划分了下,涉及图像处理、计算机视觉、自动驾驶、立体视觉、深度估计、姿态估计、OpenCV、SLAM、点云处理、多视图几何、三维重建等~ 综述类文章 双目视觉的匹配算法综述 基于立体视觉深度估计的深度学习技术研究(综述) 单目图像的深度图估计:综述 机器视觉表面缺陷检测综述 A Review on Object PoseRecovery: from 3D Bounding Box Detectors to Full 6D Pos
动态视图合成是在给定输入视频的情况下渲染出真实动态场景的新视图,这是计算机视觉和图形学中一个长期存在的研究问题。这个问题的关键在于从多视角视频中有效地重建动态场景的 4D 表示,并允许在任意视点和时间上保持高保真度和实时渲染。
基于单幅图像进行三维重建是一项具有重要应用价值的任务,但实现起来也非常困难,需要模型对对自然世界具有广泛的先验知识。
想象一下,如果你正在建造一辆自动驾驶汽车,它需要了解周围的环境。为了安全行驶,你的汽车该如何感知行人、骑车的人以及周围其它的车辆呢?你可能会想到用一个摄像头来满足这些需求,但实际上,这种做法似乎效果并不好:你面对的是一个三维的环境,相机拍摄会使你把它「压缩」成二维的图像,但最后你需要将二维图像恢复成真正关心的三维图像(比如你前方的行人或车辆与你的距离)。在相机将周围的三维场景压缩成二维图像的过程中,你会丢掉很多最重要的信息。试图恢复这些信息是很困难的,即使我们使用最先进的算法也很容易出错。
作者:Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
1.Full-Body Articulated Human-Object Interaction(ICVV 2023 oral)
Self-supervised Learning of Depth Inference for Multi-view Stereo (CVPR2021)
1.Im4D: High-Fidelity and Real-Time Novel View Synthesis for Dynamic Scenes
去考虑看一张椅子的照片。即使我们以前从未见过这样的椅子,但我们人类有出色的能力,可以从这单张照片中推断出这张椅子的三维形状。可以证明人类经验主义的一个更具代表性的例子就是,我们和椅子共处于同一个物理空间中,并从不同的角度积累信息,在我们的脑海中可以组建起这个椅子的三维形状。这个复杂的二维到三维的推理任务,我们是怎样完成的?我们又是使用什么样的线索? 从仅有的几个视角,我们是怎样无缝整合这些信息并且建立一个整体的三维场景模型?
1.MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion
1.LiDAR-NeRF: Novel LiDAR View Synthesis via Neural Radiance Fields
目前,三维重建技术已在游戏、电影、测绘、定位、导航、自动驾驶、VR/AR、工业制造以及消费品领域等方面得到了广泛的应用。方法同样也层出不穷,我们将这些方法依据原理分为两类:
1.Implicit Autoencoder for Point Cloud Self-supervised Representation Learning(ICCV 2023)
1.DiffusionEngine: Diffusion Model is Scalable Data Engine for Object Detection
2021年9月29日,来自加拿大蒙特利尔大学魁北克人工智能研究所 (Mila) 的唐建等人在ICLR上发表文章,将3D几何信息整合到图自监督学习模型中,提出了图多视图预训练 (GraphMVP) 框架,为下游的分子性质预测任务提供了更精准的预测方法。
自主导航是机器人基础性和关键性技术,是机器人实现其他更高级任务的前提。视觉 SLAM (Simultaneous Localization And Mapping) 利用视觉传感器获取环境图像信息,基于多视图几何算法构建环境地图。视觉SLAM技术广泛应用于无人驾驶、元宇宙、游戏、智能机器人等领域。在无人驾驶方面,一些大厂如腾讯、阿里、百度、华为、小米、商汤等企业投入重金研发,开放大量关于视觉SLAM职位。同时,国内许多独角兽无人驾驶公司如Momenta、AutoX、小马智能和图森未来等举重金招募视觉SLAM人才。随着元宇宙的火爆,国内互联网巨头尤其字节跳动,纷纷将大量资金投入元宇宙,致使视觉SLAM人才进一步稀缺,引发视觉SLAM更高的薪酬与福利。
毫无疑问,3d方向,是非常值得研究的,包括深度估计,立体匹配,3d检测(包括单目,双目,lidar和rgbd,19年也终于出现了真正的点云卷积pointconv),3d分割,三维重建,3dlandmark,并且我个人认为如何减少3d标注,完全使用多视图几何做是一个很有意义,有前途,并且有挑战的方向。3d部分具体说来包括:
人类具有一种与生俱来的能力,可以轻松地想象3D几何和虚构出从不同角度看物体的外观,这基于他们对世界的先验知识。
在当今世界,开发能够理解世界 3D 数据的系统至关重要。例如自动驾驶汽车需要 3D 理解才能移动并避免与物体碰撞。相比之下AR/VR 应用程序可以帮助人们进行日常活动,例如想象沙发是否适合客厅。
当给你看一张椅子的照片时,你是可以从这张单幅照片中推断出椅子的三维形状的,即使你以前可能从未见过这样的椅子。我们经历的一个更具有代表性的例子是,在与椅子的物理空间相同时,从不同的角度收集信息,以建立我
领取专属 10元无门槛券
手把手带您无忧上云