首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

密集单目 SLAM 的概率体积融合

通过以下方式为每个像素给出生成的深度估计: 其中 wi 是学习的权重(更多细节可以在 Raft [23] 中找到),di 是我们正在计算深度的像素周围的低分辨率逆深度图中像素的逆深度(a 3 × 3...(7)式,为待计算像素周围低分辨率逆深度图中某个像素的逆深度方差。我们将逆深度和不确定性上采样 8 倍,从 69 × 44 分辨率到 512 × 384 分辨率。...权重初始化为零,W0 = 0,TSDF 初始化为截断距离 τ,φ0 = τ(在我们的实验中,τ = 0.1m)。上面的公式作为移动加权平均值,在使用的权重函数方面非常灵活。...请注意,如果一种方法仅估计几个准确的点(例如 Droid),则准确度可以达到 0。粗体为最佳方法,斜体为次优,- 表示未重建网格。 表 2....从表中可以看出,我们提出的方法在准确性方面表现最好,差距很大(与 Tandem 相比高达 90%,与 V1 03 的基线相比高达 92%),而 Tandem 达到了第二 -整体最佳准确度。

80830

SIGGRAPH Asia 2023 | 利用形状引导扩散进行单张图像的3D人体数字化

尽管最近的3D生成模型展现了在3D一致的人体数字化方面的潜力,但这些方法在适应各种服装外观方面表现不佳,而且结果缺乏逼真感。...然后,通过反向渲染将这些合成的多视图图像融合,得到给定人物的完全贴图的高分辨率3D网格。实验证明,该方法优于先前的方法,并实现了对来自单一图像的各种着装人体的逼真360度合成,包括复杂纹理。...最后,我们通过考虑合成的多视图图像中的轻微不对齐来执行多视图融合,以获得完全贴图的高分辨率3D人体网格。...这可能限制了方法的适用性,因为它在处理不同姿势和形状的人体时可能会遇到挑战。 基于训练数据的通用性: 方法通常使用现成的3D形状重建方法和人体重新调整方法,这些方法在训练时使用了3D地面实况数据。...虽然3D人体数字化通常依赖于在3D或2D中进行过筛选的人体中心数据集,但我们的方法首次通过利用通用大规模扩散模型实现了卓越的合成结果。

47310
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    RoadBEV:鸟瞰视图下的路面重建

    然而,图像视角下的RSR存在固有的缺点。对于特定像素的深度估计实际上是沿垂直于图像平面的方向找到最佳bin,如图1(b)中的橙色点所示。深度方向与路面存在一定的角度偏差。...如图2(d)所示,我们将横向和纵向方向上的道路网格分辨率设置为3.0cm,这足够细致,因为在汽车工程中,我们感兴趣的最小道路不平坦波长约为10cm。...此外,AdaBins通过直接回归实现了比其他方法更高的准确性,验证了对bins进行分类的必要性。进一步地,表1中所有基于立体视觉的模型在性能上都远远优于基于单目视觉的模型。...段内网格的绝对高度误差取平均值。这种分析方法不同于全局粗略的评估,它深入到模型的性能并给出更全面的评价。我们的RoadBEV-mono在整个范围内明显优于其他对比的深度估计模型。...在0.5cm的更密集采样下,即最佳类别分辨率,性能反而下降。较小的间隔可能会由于透视效果而引入重复采样特征,特别是在远距离处,邻近体素会投影到同一像素上。

    43610

    RS 视觉定位中的跨任务难题与 GeoGround 的解决方案 !

    refGeo整合了来自遥感的四个现有视觉定位数据集,并引入了一个新的航空车辆视觉定位数据集(AVVG)。AVVG将传统的2D视觉定位扩展到3D环境,使VLMs能够从2D航空图像中感知3D空间。...例如,Shikra[3]直接将HBB文本化为支持视觉定位任务,但其离散坐标输出对于像素级任务是不够的。...相对于之前的RS视觉定位数据集,其主要的优势在于: 3D视觉定位:该数据集利用无人机和摄像机参数将像素坐标映射到摄像机坐标系,首次将RS视觉定位任务的二维平面扩展到三维空间。...这证实了作者的方法在增强区域级理解的同时,并未牺牲 VLMs 的整体图像理解能力。 Ablation Study 混合监督的影响。表7展示了作者提出的混合监督方法中各个组件的消融研究。...由于RS中的目标相对较小,使用最近下采样方法会导致小目标的 Mask 信息丢失,从而导致显著的性能降低。

    13010

    虚拟在左,真实在右:德国学者用AI合成一亿像素逼真3D图像,可任意旋转

    一亿个像素点是什么概念?说白了,这些3D图像太逼真了。 再看看合成图和原图的对比,简直和拍照没啥区别。 这项研究最近在推特上收到了很大的关注,网友纷纷回应:impressive!...它通过使用相机参数将每个点投影到图像空间,将其呈现为单个像素大小的碎片。 如果该像素点通过一个测试,它就会在神经网络输出图像中占据一个描述符。所有未被点着色的像素都由从背景颜色填充。...由于我们将点渲染为单个像素大小的碎片,输出的图像可能会非常稀疏,这取决于点云的空间分辨率和相机距离。 因此,以不同的比例渲染多个图层,使输出图像密集化,并处理遮挡和照明问题。...首先,去掉批归一化层,因为它们将中间图像的均值和标准差归一化为固定值。这会使得总传感器辐照度(类似光强概念)丢失,并且无法从3D点传播到最终图像。...此外,如果场景的亮度范围相当大(大于 1 : 400),会以对数方式存储神经点描述符。否则,神经描述符将线性存储。对于对数描述符,在光栅化过程中将其转换为线性空间,以便卷积操作仅使用线性亮度值。

    69530

    3D点云中高效的多分辨率平面分割方法

    然后提取这些集群上的连接组件,并通过 RANSAC 确定最佳平面拟合。最后,合并平面片段并在最佳分辨率上细化分割。在实验中,展示了该方法的效率和质量,并将其与其他最先进的方法进行了比较。...按照 Rabbani 的方法,我们将方向直方图离散化为近似等距的倾斜角和方位角。公式(1)中的曲率方程提供了法线估计中不确定性的度量。...网格的分辨率是根据面元的分辨率来选择的。我们将每个面元位置投射到网格中并标记占用的网格单元。...否则,我们只是将这些点关联到最近的平面。 实验结果 30 幅 ABW 测试图像的分辨率为 512× 512 像素。该数据集还结合评估工具提供了地面实况分割。...在实验中,将改方法与使用 SegComp 数据库的最先进方法进行了比较。实验结果表明,我们以高帧率和高质量处理 3D 激光和深度传感器(例如 Kinect)的 3D 点云。

    68420

    使用扩散模型从文本提示中生成3D点云

    在本文中,我们探索了一种用于生成 3D 对象的替代方法,该方法仅需 1-2 分钟即可在单个 GPU 上生成 3D 模型。...在高斯扩散下,我们定义了一个噪声过程: 直观而言,这个过程将高斯噪声逐渐添加到信号中,每个时间步长添加的噪声量由某个噪声时间表β 决定。...由于我们的 3D 数据集与原始 GLIDE 训练集相比较小,因此我们仅在 5% 的时间内从 3D 数据集中采样图像,其余 95% 使用原始数据集。...然而,其他几项工作使用 CLIP R-Precision 评估 3D 生成,我们在表 1 中与这些方法进行了比较。...我们的方法生成的点云必须在渲染前进行预处理。将点云转换为网格是一个难题,我们使用的方法有时会丢失点云本身中存在的信息。

    1.2K30

    关于使用深度学习进行三维点云几何压缩

    三维点云在计算机视觉、自动驾驶、增强现实、智慧城市、虚拟现实等领域得到了广泛的应用。而高压缩比、低损耗的三维点云压缩方法是提高数据传输效率的关键。...所以这里提出了一种基于深度学习的三维点云压缩方法,该压缩方法在细节重构方面的性能优于其他网络。这使它可以在保持可容忍的损失的情况下,达到比现有技术更高的压缩比。...通过点的颜色,我们能够知道点的稠密,从而得到椅子的其他属性。 2. 体素 体素是体积元素(Volume Pixel)的简称,是数字数据于三维空间分割上的最小单位。...折叠操作是将特征与二维网格样本结合,将二维网格折叠成三维模型。这个操作可以节省大量的内存。他们的在点云重建中,折叠操作是一种有效的扩展维度的方法,如。...该结构由三个不同分辨率的输出层组成。第一个输出层的输出给出整个点云的基本框架,后面的输出层逐渐为框架添加了更多的细节。后一层的输出依赖于前一层的输出。

    75110

    MLOD:基于鲁棒特征融合方法的多视点三维目标检测

    因此,可以用不同视图标记的数据训练目标检测器,以避免特征提取器的退化。MLOD在KITTI 3D目标检测基准测试中实现了最好的性能。...点云沿着地平面的法线在[0, 2.5米]之间被划分为5个相等的切片(slices),并且每个切片产生高度通道,每个网格单元表示该单元中的点的最大高度。 该模型采用U-Net结构作为BEV特征提取器。...由于深度信息在前视图是不连续的,因此使用最近邻内插算法获得大小调整过的深度图。然后将nk×nk深度图等分成k×k网格。这样,每个网格单元表示k×k图像特征图对应像素的深度信息。...因此,每个网格单元表示k×k图像特征映射中的对应像素的深度信息。因此,为了保留3D边界框内的图像特征或没有深度信息,我们将前景掩码设置为 ? 其中dmax和dmin分别是3D边框的最大和最小深度值。...但是,MLOD方法在KITTI测试集上比AVOD差。这可能是由MLOD和AVOD中使用不同地平面引起的。评估表明,该方法可以达到当前最佳性能。 表I:MLOD与当前3D目标检测器的性能比较 ?

    1.2K30

    不可思议!英伟达新技术训练NeRF模型最快只需5秒,代码已开源

    NeRF 是在 2020 年由来自加州大学伯克利分校、谷歌、加州大学圣地亚哥分校的研究者提出,其能够将 2D 图像转 3D 模型,可以利用少数几张静态图像生成多视角的逼真 3D 图像。...上述方法的一个重要共性是将神经网络输入映射到更高维空间的编码过程,这是从紧凑模型中提取高近似精度的关键。在这些编码中,最成功的是那些可训练、特定于任务的数据结构,它们承担了很大一部分学习任务。...英伟达将一串网格映射到相应的固定大小的特征向量阵列。低分辨率下,网格点与阵列条目呈现 1:1 映射;高分辨率下,阵列被当作哈希表,并使用空间哈希函数进行索引,其中多个网格点为每个阵列条目提供别名。...与以往工作不同的是,训练过程中数据结构在任何点都不需要结构更新。 然后是高效性。英伟达的哈希表查找是 ,不需要控制流。...所有分辨率下的哈希表都可以并行地查询。 下图 3 展示了多分辨率哈希编码中的执行步骤: 2D 多分辨率哈希编码示意图。

    1.5K20

    不可思议!英伟达新技术训练NeRF模型最快只需5秒,单张RTX 3090实时渲染,已开源

    NeRF 是在 2020 年由来自加州大学伯克利分校、谷歌、加州大学圣地亚哥分校的研究者提出,其能够将 2D 图像转 3D 模型,可以利用少数几张静态图像生成多视角的逼真 3D 图像。...上述方法的一个重要共性是将神经网络输入映射到更高维空间的编码过程,这是从紧凑模型中提取高近似精度的关键。在这些编码中,最成功的是那些可训练、特定于任务的数据结构,它们承担了很大一部分学习任务。...英伟达将一串网格映射到相应的固定大小的特征向量阵列。低分辨率下,网格点与阵列条目呈现 1:1 映射;高分辨率下,阵列被当作哈希表,并使用空间哈希函数进行索引,其中多个网格点为每个阵列条目提供别名。...与以往工作不同的是,训练过程中数据结构在任何点都不需要结构更新。 然后是高效性。英伟达的哈希表查找是 ,不需要控制流。...所有分辨率下的哈希表都可以并行地查询。 下图 3 展示了多分辨率哈希编码中的执行步骤: 2D 多分辨率哈希编码示意图。

    1.4K20

    嵌入基础模型的高斯溅射

    然而,大多数现有方法主要集中在3D几何和外观估计或基于封闭类别数据集的3D对象检测和场景分割上。然而,为了使智能代理能够与物理世界平稳互动,仅仅理解由预先识别的标签特征化的空间子集是不足够的。...对于给定的具有均值位置 的 3D 高斯,我们首先将 编码为特征向量 =(),其中 是我们的多分辨率哈希表参数。...我们将较小尺度的预先计算的 CLIP 特征金字塔中的嵌入通过双线性插值缩放到最大尺度的特征图,并通过对它们进行平均来生成混合特征图。...我们将渲染的特征都归一化为单位范数,然后计算损失。 实验 FMGS 无缝地集成了3D 高斯和多分辨率哈希编码,支持逼真的渲染和开放式词汇的物体检测。...本文提供了FMGS 在不受控制的现实世界场景中的开放式词汇物体检测(或定位)性能,如表 1 所示。 表 1 图 3 展示了其可视化结果。

    34210

    3D-COCO数据集开源 | COCO数据集迎来3D版本开源,为COCO数据集带来3D世界的全新任务,2D-3D完美对齐 !

    通过使用基于IoU的方法,作者将每个MS-COCO [1]标注与最佳的3D模型匹配,以提供2D-3D对齐。3D-COCO的开源特性是首创,应该为3D相关主题的新研究铺平道路。...作者展示了一个基于IoU检索的自动类别驱动方法,用于匹配每个MS-COCO [1] 2D标注与数据集中在形状和几何相似性方面最佳的3D模型。...关于所有这些数据集的相关信息在表1中进行了总结。3D-COCO背后的动机是提供一个通用的目标数据集,解决大多数场景理解和3D重建任务。...关于MS-COCO[1]语义类别、它们的标识符和模型的所有信息在表2中总结。...如果边界框中的像素数与图像中的像素数之比低于一个阈值(此处为 1\% ),则可以检测到此情况。然后,将标注标记为 is\_small 。 标注由单个标注中出现的几个实例组成(图3b)。

    63410

    InstantMesh:利用稀疏视图大规模重建模型从单张图像高效生成3D网格

    输入视图和分辨率:在训练过程中,我们随机选择一组6个图像作为输入,并将另外4个图像作为监督信号用于每个对象。为了与Zero123++的输出分辨率保持一致,所有输入图像都调整为320×320像素。...网格作为3D表示:先前基于LRM的方法输出triplane,需要进行体素渲染以合成图像。在训练过程中,体素渲染消耗大量内存,阻碍了对高分辨率图像和法线进行监督。...我们分别在表2、表3和表4中报告了不同评估集上的定量结果。对于每个指标,我们突出显示了所有方法中排名前三的结果,颜色较深表示结果更好。...我们还可以观察到InstantMesh的PSNR略低于最佳基线,这表明新视图在像素级上对地面真实性的忠实度较低,因为它们是由多视图扩散模型“幻想”出来的。...从表2、3和4中可以看出,“NeRF”变体在指标上略微优于“Mesh”变体。我们认为这是由于FlexiCubes的网格分辨率有限,当提取网格表面时会丢失细节。

    2.5K10

    Ross、何恺明等人提出PointRend:渲染思路做图像分割,显著提升Mask R-CNN性能

    例如,渲染器将模型(如 3D 网格)映射到点阵图像,即像素的规则网格。尽管输出是基于规则网格的,但计算并不按照网格来均匀分配。常见的图形学策略是,对图像平面中被自适应选择点的不规则子集计算出像素值。...所谓渲染,即是将模型(如 3D 网格)显示为像素的规则网格,即图像。...尽管输出表示为规则网格,但其底层物理实体(如 3D 模型)是连续的,使用物理和几何推理(如光线追踪)可在图像平面的任意真值点查询其物理占用(physical occupancy)等属性。...点选择策略:选择少量真值点执行预测,避免对高分辨率输出网格中的所有像素进行过度计算; 2....在实例分割任务中,PointRend 应用于每个区域,通过对一组选中点执行预测,以从粗糙到细粒度的方式计算掩码(见图 3)。

    86600

    视频数据训练太慢?试试UT-Austin&FAIR提出的多重网格训练,加速4.5倍,还能提点!

    训练慢导致研究周期长,阻碍了视频理解研究的进展。按照训练图像模型的标准做法,视频模型训练使用了固定的mini-batch形状,即固定数量的片段,帧和空间大小。 然而,最佳形状是什么?...高分辨率模型表现良好,但训练缓慢。低分辨率模型训练速度更快,但精确度较低。受数值优化中多重网格方法的启发,作者提出使用具有不同时空分辨率的可变mini-batch形状。...方法 受数值分析中解决粗网格和细网格交替优化问题的多重网格方法的启发,本文的核心观察是用于训练视频模型的底层采样网格在训练过程中是可变的。...作者将通过实验研究两个问题:1) 是否有一组具有网格schedule的网格可以在不损失精度的情况下实现更快的训练?2)如果是,它是否能够在不进行修改的情况下有力地推广到新模型和数据集? 3.1....视频具有一定数量的帧和每帧的像素,这些帧和像素通过记录设备的时间和空间分辨率(取决于多个相机属性)与物理世界相关。当在训练mini-batch中使用这些源视频之一时,使用采样网格对其进行重新采样。

    1K11

    快7倍 | SpirDet基于降采样正交重参化+稀疏解码器有效减少延迟,同时提升小目标检测精度

    在表3中,作者在IRSTD-1K 数据集上比较了各种模型,该数据集以最小的目标比例和最高的分辨率著称。...在表5中,作者对SpirDet与其他基于深度学习的网络在SIRST3和NUST数据集上进行了比较实验。...前面的结果强调展示了SpirDet在复杂红外场景中卓越的模型定位能力( P_{d} 和 F_{a} )以及详尽的学习能力( MIoU )。...一些红外小目标检测器分别计算了不同数据集中像素值的平均值和方差,如图8(a)所示,并使用标准化方法对输入图像进行规范化。这种策略倾向于使不同图像间的像素值分布均匀化。...首先,通过应用下采样正交性(DO),目标特征在特征图中明显不同,而不使用DO的特征图包含更多的背景干扰。其次,在没有DO的特征中,一些通道将小目标信息退化为了全零特征,这种情况在实施DO时不会出现。

    36810

    MSLTNet开源 | 4K分辨率+125FPS+8K的参数量,怎养才可以拒绝这样的模型呢?

    具体来说,提出的MSLT网络首先使用拉普拉斯金字塔技术将输入图像分解为高和低频层,然后依次通过像素自适应线性变换来纠正不同层,这种实现方式是通过高效的双边网格学习或1×1卷积来实现的。...据作者所知,MSEC是第一个基于深度学习的曝光校正方法。该方法将图像分解为高频和低频部分,并逐步校正曝光错误。然而,MSEC有超过700万个参数,在高分辨率图像上的效率不足。...Light-weight Image Enhancement Networks 为了追求轻量级和高效的模型,一种简单的方法是将模型应用于低分辨率输入,然后将输出放大到高分辨率。但高频细节会丢失。...在图6中,作者提供了ME数据集中的"Manor"和SICE数据集中的"Mountain"的校正图像,分别由比较方法生成。更多视觉比较结果可参见补充文件。...从表6可以看出,当HFD中的CFD模块数量从1增加到5时,作者的MSLT性能提高,然后降低,达到最佳结果需要三个CFD。这表明上下文转换的多模块增强。然而,提取冗余特征没有必要使用太多CFD模块。

    47010

    增强无界 3D 高斯扫描与视图一致的 2D 扩散优先级,3DGS-Enhancer在NVS增强中的先进效果 !

    通过增强处理,这些图像将进一步用于微调3DGS模型,从而提升其在重建和渲染方面的质量。 这项工作创新地将3D一致图像修复的艰巨任务转化为视频修复任务,这是基于多视图一致性和视频时间一致性的类比。...基于这种推理,作者将新视图与参考视图之间的距离规范化为 0 到 1。视角距离参考视图越远,其置信度越高。 像素级置信度。...在3DGS-Enhancer中,作者将缩放图的这三个通道相乘,以获得像素级置信度。对于生成的图像中的每个像素,置信度越高,对训练3DGS模型的监督权重就越大。...表2和图5的结果总结表明,作者的方法在非分布环境中优于 Baseline 方法,突显了在无界环境中令人瞩目的泛化能力。 Ablation Study 真实图像作为参考视图。...表格3中的“像素置信度”是基于在良好重构区域中密度较小的高斯分布的像素级置信度,使用颜色渲染 Pipeline 计算体积。

    19410

    图像处理基础知识--建议掌握

    (1)图像分辨率 图像中每单位长度上的像素数目,称为图像的分辨率,其单位为像素/英寸(PPI)或是像素/厘米。在相同尺寸的两幅图像中,高分辨率的图像包含的像素比低分辨率的图像包含的像素多。...2、图像数学模型的应用原则 在图像处理中,根据任务和目的的不同,经常会采用不同的模型来处理图像,或者在不同的阶段是用不同的模型,保证系统的最佳性能。...(1)采样 采样是将空间上连续的图像变换成离散的点,采样频率越高,还原的图像越真实。 采样把一幅连续图像在空间上分割成 M×N 个网格,每个网格用一亮度值来表示。一个网格称为一个像素。...此数字矩阵M×N就作为计算机处理的对象了。灰度级一般为0-255(8bit量化)。下图表示的是如何将连续的转化为离散的情况。...在图像压缩中,有三种基本的数据冗余:编码冗余;像素间冗余;视觉冗余。

    1.7K10
    领券