首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    ECCV 2022 | VisDB:基于学习的密集人体鲁棒估计

    从单目图像估计 3D 人体姿势和形状是动作重定向、虚拟化身和人类动作识别等各种应用的关键任务。这是一个具有根本挑战性的问题,因为深度模糊和人类外表的复杂性会随着关节、衣服、照明、视角和遮挡而变化。为了通过紧凑的参数表示复杂的 3D 人体,诸如 SMPL 之类的基于模型的方法已在社区中得到广泛使用。然而,SMPL 参数以整体方式表示人体,导致通过直接它们的参数无法灵活适应真实世界图像。更重要的是,当人体在图像中不完全可见时,基于回归的方法往往会失败,例如,被遮挡或在框架外。在这项工作中,作者的目标是学习与输入图像并且对部分身体情况具有鲁棒性的人体估计。

    02

    深度学习——目标检测(3)YOLO1SSD

    前言:RCNN系列一般都是分为两个步骤,下面介绍one-stage方法,SSD和yolo算法 目标检测近年来已经取得了很重要的进展,主流的算法主要分为两个类型: (1)two-stage方法,如R-CNN系算法,其主要思路是先通过启发式方法(selective search)或者CNN网络(RPN)产生一系列稀疏的候选框,然后对这些候选框进行分类与回归,two-stage方法的优势是准确度高; (2)one-stage方法,如Yolo和SSD,其主要思路是均匀地在图片的不同位置进行密集抽样,抽样时可以采用不同尺度和长宽比,然后利用CNN提取特征后直接进行分类与回归,整个过程只需要一步,所以其优势是速度快,但是均匀的密集采样的一个重要缺点是训练比较困难,这主要是因为正样本与负样本(背景)极其不均衡(参见Focal Loss),导致模型准确度稍低。 各种方法速度如下:

    01

    Improving 3D Object Detection with Channel-wise Transformer

    尽管近年来点云三维物体检测取得了快速进展,但缺乏灵活和高性能的建议细化仍然是现有最先进的两级检测器的一大障碍。 之前的3D建议精炼工作依赖于人为设计的组件,如关键点采样、集合抽象和多尺度特征融合,以产生强大的3D目标表示。 然而,这些方法捕获点之间丰富的上下文依赖关系的能力有限。 在本文中,我们利用高质量的区域提议网络和一个Channel-wise Transformer架构,以最少的手工设计构成了我们的两阶段3D目标检测框架(CT3D)。 建议的CT3D同时对每个建议中的点特征执行提议感知的嵌入和信道上下文聚合。 具体来说,CT3D利用建议的关键点进行空间情境建模,并在编码模块中学习注意力传播,将建议映射到点嵌入。 接下来,一个新的信通道译码模块通过通道重加权有效地合并多级上下文来丰富查询键交互,这有助于实现更准确的目标预测。 大量实验表明,我们的CT3D方法具有良好的性能和可扩展性。 值得一提的是,在KITTI测试3D检测基准上,CT3D在中型车类别中实现了81.77%的AP,优于最先进的3D检测器。

    02

    Center-based 3D Object Detection and Tracking

    三维物体通常表示为点云中的三维框。 这种表示模拟了经过充分研究的基于图像的2D边界框检测,但也带来了额外的挑战。 3D世界中的目标不遵循任何特定的方向,基于框的检测器很难枚举所有方向或将轴对齐的边界框匹配到旋转的目标。 在本文中,我们提出用点来表示、检测和跟踪三维物体。 我们的框架CenterPoint,首先使用关键点检测器检测目标的中心,然后回归到其他属性,包括3D尺寸、3D方向和速度。 在第二阶段,它使用目标上的额外点特征来改进这些估计。 在CenterPoint中,三维目标跟踪简化为贪婪最近点匹配。 由此产生的检测和跟踪算法简单、高效、有效。 CenterPoint在nuScenes基准测试中实现了最先进的3D检测和跟踪性能,单个模型的NDS和AMOTA分别为65.5和63.8。 在Waymo开放数据集上,Center-Point的表现远远超过了之前所有的单一模型方法,在所有仅使用激光雷达的提交中排名第一。

    01
    领券