学习
实践
活动
专区
工具
TVP
写文章

【目标检测系列】非极大值抑制(NMS)各类变体汇总

(2)对每个物体类边界框(B_BOX),按照分类置信度降序排列。 (3)在某一类,选择置信度最高边界框B_BOX1,将B_BOX1从输入列表中去除,并加入输出列表。 公式Si代表了每个边框得分,M当前得分最高框,bi剩余框某一个,Nt设定阈值,可以看到,当IoU大于Nt时,该边框得分直接0,相当于被舍弃掉了,从而有可能造成边框漏检。 Adaptive NMS 研究背景 为了解决行人检测任务目标过于密集问题,本文对soft-NMS又进行了优化,提出了一种自适应非极大值抑制(Adaptive NMS)行人检测后处理方法,通过网络预测目标周边密集和稀疏程度 该方法对于双阶段和单阶段检测器都有效果,在密集行人数据库CityPersons和CrowdHuman上都能提升现有的检测器效果。本文已被CVPR2019接受Oral。 但Align方法也存在一个缺点,即对每一个区域都采取固定数量采样,但区域有大有小,都采取同一个数量,显然不是最优方法。

1.9K10
  • 广告
    关闭

    2023新春采购节

    领8888元新春采购礼包,抢爆款2核2G云服务器95元/年起,个人开发者加享折上折

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    三星3D版「AI上色」算法:神经网络实时渲染真实视频

    渲染图像流程如下:首先使用普通摄像机扫描目标,使用普通软件(如 Agisoft Metashape)生成 3D ,将云和视频输入神经网络,这样就可以渲染目标图片了。 然后,研究人员将描述器映射到虚拟相机,使用 SfM 进行预估(这和带颜色映射到相机类似),并将这些映射输入到 ConvNet 。 训练过程,研究人员将从多场景中学习 ConvNet,并泛化到其它场景。在测试过程,对于未见 RGB(D) 图像,他们重复训练流程,但是会固定 ConvNet 权重,只优化描述器。 论文提出基于神经描述器系统可以成功地重现网格划分较为困难细节,并且与 Direct RenderNet 系统相比模糊度更小。 ? 他们还在图 3 至图 6(显示验证集框展示了不同方法定性对比结果。 总的来说,定量和定性对比结果都显示出了使用作为几何代理优势。

    62420

    那些一键抠图软件是怎么做到?这些语义分割方法了解一下

    选自Medium 作者:Bharath Raj 机器之心编译 参与:Geek AI、张倩 分类问题是整个图像分配一个标签,而语义分割则是将从属于同一类对象看成一个整体,图像每一个像素分配一个标签 为了对像素之间关系建模,我们还考虑了将一对标签(u,v)分配给一对像素(x,y)代价,这被称为成对代价。我们可以考虑相邻像素对(网格 CRF)或者考虑图像所有像素对(密集 CRF)。 ? 然后通过双线性插值或者一系列转卷积对编码后输出进行上采样。这组转卷积通常被称为解码器(decoder)。 ? FCN 下采样和上采样过程。 尽管这个基础架构很有效,但是它也有一些缺点。 其中一个缺点就是由于转卷积(或称反卷积)操作输出不均匀重叠而导致棋盘状伪影存在。 ? 棋盘状伪影形成过程。 另一个缺点是,由于编码过程损失了一部分信息,导致边界分辨率很低。 另一方面,当模型对一个类信度很高时,焦点损失(紫色,gamma=2)不会对模型造成如此大影响(即置信度 80% 情况下损失接近于 0)。 ?

    43140

    Mobile3DRecon:手机上实时单眼3D重建

    与大多数现有的仅使用基于3D模型在线生成技术或离线表面网格生成技术不同,本文提供了一种全新在线增量网格生成方法来实现快速在线密集表面网格重建,以满足实时AR应用需求。 一、背景与贡献 本文提出了以多视图关键帧深度估计方法,该方法即使在具有一定姿态误差无纹理区域中也可以鲁棒地估计密集深度,消除由姿势误差或无纹理区域引起不可靠深度,并通过深度神经网络进一步优化了噪声深度 随着密集网格逐渐在后端被重建出来,高级别的AR应用程序可以使用这种实时密集网格和6DoF SLAM姿势前端用户提供逼真的AR效果,比如遮挡和碰撞等。 对于带有标签l图像像素x,成本汇总是通过递归计算相邻方向成本来完成。 ? 基于置信度深度滤波利用SGM不确定度测量来计算置信度,同时也考虑了局部深度一致性。 ? ? 通过反投影进行多视图SGM和相应点深度估计结果。 基于置信度深度滤波后结果及其对应结果 在基于DNN参考及其相应之后最终深度估计结果。 ?

    63450

    在手机上实现实时单眼3D重建

    与大多数现有的仅使用基于3D模型在线生成技术或离线表面网格生成技术不同,本文提供了一种全新在线增量网格生成方法来实现快速在线密集表面网格重建,以满足实时AR应用需求。 一、背景与贡献 本文提出了以多视图关键帧深度估计方法,该方法即使在具有一定姿态误差无纹理区域中也可以鲁棒地估计密集深度,消除由姿势误差或无纹理区域引起不可靠深度,并通过深度神经网络进一步优化了噪声深度 随着密集网格逐渐在后端被重建出来,高级别的AR应用程序可以使用这种实时密集网格和6DoF SLAM姿势前端用户提供逼真的AR效果,比如遮挡和碰撞等。 对于带有标签l图像像素x,成本汇总是通过递归计算相邻方向成本来完成。 基于置信度深度滤波利用SGM不确定度测量来计算置信度,同时也考虑了局部深度一致性。 通过反投影进行多视图SGM和相应点深度估计结果。 基于置信度深度滤波后结果及其对应结果 在基于DNN参考及其相应之后最终深度估计结果。

    40320

    AAAI 2021 | 时序动作提名生成网络

    ,能够高效地给大量密集分布候选提名生成高精度边界预测和可靠信度分数。 第一种是“自顶向下”方式,候选提名大多基于滑动窗口或者是预先定义好尺度和比例且均匀分布框来进行边界回归,然后采用一个二分类器来评估提名信度分数。 最终,三个子分支分别进行监督训练和测试结果融合,从而达到最佳信度图预测质量(其中,置信度图中像素(i, j) 代表一个起始点i,持续时间j 候选提名对应信度分数)。 ? 其中第一行THUMOS14视频,第二行ActivityNet-1.3数据集中视频。 ? 同时,着重解决了现有方法忽略密集分布提名关系建模和尺度不平衡等问题,显著提升了对于密集分布候选提名信度评估质量。实验结果表明,BSN++在主流数据集上算法性能和效率上均取得了一致提升。

    38130

    Center-based 3D Object Detection and Tracking

    与已经深入研究二维检测问题相比,三维检测提出了一系列有趣挑战:首先,是稀疏,大多数三维物体都没有测量。 其次,结果输出是一个三维框,它通常没有与任何全局坐标系很好地对齐。 Vote3Deep利用以特征中心投票有效地处理等距3D体素上稀疏3D。 根据应用程序域不同,非最大抑制(NMS)可能是合理。3D目标检测 设 三维位置 和反射率r测量值无序。 三维物体检测目标是从该预测鸟瞰图中一组三维物体包围框 。 现代3D物体检测器使用3D编码器将云量化到常规容器。 然后,基于网络一个容器内所有点提取特征。 然后,3D编码器将这些特征集合到其主要特征表示。 速度估计需要时间序列[6]。 在我们实现,我们将以前帧转换并合并到当前参考帧,并通过时间差(速度)来预测当前帧和过去帧之间物体位置差异。

    88010

    计算机视觉最新进展概览(2021年7月4日到2021年7月10日)

    我们表明,使用无标记数据与嘈杂学生训练方法,我们可以提高在密集零售场景精确检测目标的技术水平。 我们还表明,随着未标记数据数量增加,模型性能也会增加。 在本文中,我们调查了一个很大程度上被忽视方法——置信度后处理校准。 因此,预测边界框位置不准确,形状变形。 在本文中,我们提出了一种新邻域投票方法,结合邻域预测来改善严重变形伪激光雷达目标检测。 为了进一步放大前景感兴趣区域(foreground region of interest, ROI)伪激光雷达与背景点之间差异,我们还将二维前景像素ROI预测得分编码相应伪激光雷达。 扩展分支以目标检测模块最终特征图为输入,生成隐式函数,每个对应体素中心生成语义分布。 我们在一个大型户外数据集nuScenes-lidarseg上演示了我们结构性能。

    59240

    深度学习系列四: SGPN

    背景引入 分割概念 语义分割:对图像每个像素或每个都划分出对应类别 实例分割:实例分割是物体检测+语义分割综合体。 整体框架 首先使用PointNet/PointNet++来获取Np个全局和局部特征,然后在特征基础上计算三个属性矩阵相似矩阵(Similarity Matrix)、置信度矩阵(Confidence 如果两个是一个桌子、一个椅子的话,我们就让它们距离比 K2 大,在训练时候 K1 要比 K2 小一,在实验我们发现用这种 double hinge loss 方式,会让结果更好一,比 K1 SGPN相似矩阵一个可视化结果,表示了一个指定点到其余距离。红色箭头处表示指定位置,颜色表示相似度,黑色表示你距离较近。 但是在两个实例相邻区域,则可能属于两个实例;本文方案就是将该随机设置某一个实例。

    1K30

    CVPR2022 | 曾经火爆全网算法!升级版来袭,支持卡通形象!

    基于学习到密集深度图,我们进一步建议利用它们来估计捕捉人头关键运动稀疏面部关键。以更密集方式,深度还用于学习 3D 感知跨模态(即外观和深度)注意力,以指导生成运动场以扭曲源图像表示。 模型框架 我们首先引入了一种自监督几何学习方法,可以自动从人脸视频恢复密集 3D 几何,而不需要任何昂贵 3D 标注数据。 基于学习到密集深度图,进一步使用深度图来估计稀疏面部关键,以捕捉人体头部关键运动。以更密集方式,深度还用于学习 3D 感知跨模态注意力以改进生成结果。 运动流掩码估计密集 2D 运动场分配不同信度值,而遮挡图旨在掩盖由于头部旋转变化而应修复特征图区域,有效嵌入学习深度图 ,以更密集方式促进生成。。 我们将学习到的人脸深度图及其对应 3d 可视化。学习到密集 3D 面部结构显然非常有益,并有显着改善。 此外,我们将密集深度感知注意力图可视化。

    28520

    激光雷达深度补全

    SIGAI特约作者 meteorshowers 研究方向:语意分割、检测、双目匹配 摘要 对于自动驾驶汽车和机器人,使用激光雷达是必不可少,以实现精确深度预测。 深度补全任务目标是从稀疏和不规则生成密集深度预测,然后将预测深度信息映射到2D平面。最近有一些优秀工作,提出了一种精确完成RGB图像引导稀疏LiDAR图新方法。 介绍 深度补全预测是将来自稀疏深度信息补全生成密集深度图。在许多计算机视觉应用,精确深度值至关重要。近年来,由于工业需求,这项任务受到关注。 该框架基于晚期融合方法信息映射融合了全局和局部信息。图2显示该结构可以纠正LiDAR输入错误。 方法[2] 我们方法作用于3D投影到2D平面。这里深度补全问题被认为是回归问题。 事实上,在具有准确且足够LiDAR位置,局部网络将产生具有高置信度深度预测,而全局信息将用于LiDAR数据不正确或稀缺地方,例如在物体边界处。

    1.3K30

    【SFFAI分享】郑武:CIA-SSD:自信IoU可知单阶物体检测器【附PPT与视频资料】

    相比于RGB图片作为感知数据,往往更加鲁棒,特别是在雾天或者夜晚,依然能够提供精确地物体三维坐标,而RGB图片在这些情形则很难通过像素确定物体位置。 另外,特性使得研究者可以快速地获取物体深度信息,这对于RGB图片来说则是一个难题。所以,相比于基于RGB图片检测器,采用检测器往往能够获得更高精度。 图3展示了一个不对齐样例,我在每个预测bounding box旁边给出了confidence和realIoU, 可以看到两个红色框样本,置信度更高0.94预测样本反而real IoU更低, 我们观察到,近距离预测框通常比较准确,因为非常密集,能够提供非常充分物体位置信息;而远处预测框则容易出现偏差,因为非常稀疏,特别是在预测框方向上,容易出现左右摇摆。 图 18 基于这三,我们CIA-SSD在三维单阶检测器获得了最高精度,并且取得了非常高推理速度。 SFFAI招募! ?

    31330

    动态实例分割SOLOv2,更快更强更精准!

    一个类别分支,预测每个网格所处物体类别,每个网格对应一个C维类别向量(C类别数),总类别矩阵大小S x S x C;一个mask分支预测每个网格所属物体mask,总mask矩阵大小H x 现实图片中,由于目标实例并不会很密集,所以计算SxS个网格mask会有大量计算冗余,作者在SOLOv1给出解决方案是对mask预测分支进行分解,分别为预测 x-分支和y-分支,以降低计算量和内存占用 从FPN构造mask分支预测前特征: ? 作者另一个重要更新是发明了Matrix NMS方法。 SOLOv2达得了新SOTA,使用Res-DCN-101-FPN,AP 达到41.7!比Mask RCNN 高近 4 个百分。 除了精度高,速度也是SOLOv2亮点,精度与Mask R-CNN相近SOLO-512 在V100GPU上可达31.3 fps! ?

    1K40

    模型层layers

    其中tf.keras.Lambda匿名模型层只适用于构造没有学习参数模型层。 二,内置layers 一些常用内置模型层简单介绍如下。 基础层 Dense:密集连接层。 一般放在Dense层后面,等价于在Dense层中指定activation。 Dropout:随机零层。训练期间以一定几率将输入0,一种正则化手段。 Conv2DTranspose:二维卷积转层,俗称反卷积层。并非卷积逆操作,但在卷积核相同情况下,当其输入尺寸是卷积操作输出尺寸情况下,卷积转输出尺寸恰好是卷积操作输入尺寸。 一种比Onehot更加有效对离散特征进行编码方法。一般用于将输入单词映射稠密向量。嵌入层参数需要学习。 LSTM:长短记忆循环网络层。最普遍使用循环网络层。 三,自定义layers 如果自定义模型层没有需要被训练参数,一般推荐使用Lamda层实现。 如果自定义模型层有需要被训练参数,则可以通过对Layer基类子类化实现。

    27820

    基于深度学习图像语义分割算法综述

    它在图像哪个位置? 更具体地说,图像语义分割目标是将图像每个像素所属类别进行标注。因为我们是预测图像每个像素,这个任务通常被称为密集预测(dense prediction)。 ? 而典型卷积运算将视野中所有值求积并在相应位置输出单个值,而转卷积恰恰相反。对于转卷积,低分辨率特征图中某个值,乘以卷积核权重值,将这些加权值映射到输出特征图。 ? 然而,这是以降低空间分辨率代价。 空洞卷积为获得宽感受野提供了另一种方法,其可以保持完整空间维度。如下图所示,用于空洞卷积值是在某个指定扩张率(dilation rate)下间隔开。 ? Dice系数最初针对二进制数据而提出,计算公式如下: ? 因为我们目标mask是二进制,所以我们首先将预测结果在目标mask0像素清零。 对于剩余像素,我们基本上是在惩罚低置信度预测值;该表达式值越高(在分子),Dice系数越高。

    1.7K21

    LaserNet:一种高效自动驾驶概率三维目标探测器

    LaserNet通过以下几个步骤实现三维检测: 使用传感器固有范围视场来构建一个密集输入图像; 图像通过全卷积网络生成一组预测; 对于图像每个激光雷达,预测一个类概率,并在俯视图中对边界框架进行概率分布回归 ; 每个激光雷达分布通过均值漂移聚类进行组合,以降低单个预测噪声; 检测器进行端到端训练,在边界框架上定义损失; 用一种新自适应非最大抑制(NMS)算法来消除重叠边框分布。 预测概率分布最大改进是预测边界框架分布。当仅预测平均边界框时,公式(6)简单平均,公式(9)框角损失。此外,边界框得分在本例是类概率。 或者,我们可以使用软NMS来重新评估置信度,但是这打破了对置信度概率解释。通过自适应NMS算法,保持了概率解释,并获得了更好性能。 ? 对于自动驾驶而言,运行时性能同样重要。 如有补充请大家积极留言,并且希望大家能够在阅读论文或者有推荐论文或者开源代码,只要和相关,都可以留言给群主,如果有必要将会出与你推荐相关资料。希望大家能够积极参与分享。

    1.1K40

    基于深度学习图像语义分割算法综述

    它在图像哪个位置? 更具体地说,图像语义分割目标是将图像每个像素所属类别进行标注。因为我们是预测图像每个像素,这个任务通常被称为密集预测(dense prediction)。 ? 而典型卷积运算将视野中所有值求积并在相应位置输出单个值,而转卷积恰恰相反。对于转卷积,低分辨率特征图中某个值,乘以卷积核权重值,将这些加权值映射到输出特征图。 ? 然而,这是以降低空间分辨率代价。 空洞卷积为获得宽感受野提供了另一种方法,其可以保持完整空间维度。如下图所示,用于空洞卷积值是在某个指定扩张率(dilation rate)下间隔开。 ? Dice系数最初针对二进制数据而提出,计算公式如下: ? 因为我们目标mask是二进制,所以我们首先将预测结果在目标mask0像素清零。 对于剩余像素,我们基本上是在惩罚低置信度预测值;该表达式值越高(在分子),Dice系数越高。

    1.2K42

    2018-04-17

    Abstract:鉴于近年来人脸检测和识别技术取得重大进展,我们想测试他们能否卡通人脸工作 - 这一领域目前尚未开发,主要是由于缺乏丰富数据集和传统方法失败在这些上。 我们还引入了一个小型数据库,其中包含属于IIIT-CFW数据库50位公众人物的卡通人脸15个关键位置坐标。 首先,常用关键(landmark)人脸模型假定所有的关键都是可见,因此不适用于大型姿势。其次,从正面视图到配置文件视图,大型姿势脸部外观变化更为剧烈。 获得对于密集叶子叶子有希望分割结果。 仅使用图像标签监督,以完全卷积方式CNN分类器可以生成类别响应map,该图指定每个图像位置处分类置信度。我们观察到,类别响应地图中局部最大值,即峰值通常对应于每个实例内存在强烈视觉线索。

    50620

    ECCV 2022 | VisDB:基于学习密集人体鲁棒估计

    有/没有可见性建模密集人体估计 考虑到大多数现有的 3D 人体数据集缺乏密集可见性注释,作者从密集 UV 估计获得伪真实值。 从基于图像密集 UV 估计获得可见性标签伪地面实况,这也被用作额外监督信号,以更好地将我们预测与输入图像对齐。 作者展示了密集可见性预测如何用于鲁棒的人体估计。 方法 VisDB方法结构图,其中紫色可见,橙色不可见 先导:基于热图表示 给定输入图像,基于热图先验方法每个人体关节和网格顶点估计三个一维热图 H=\left\{H^x, H^y, H z 轴热图,我们预测一个二进制遮挡标签 S^z ,它指定深度方向可见性。 作者提出了一种可见性感知密集体表示,VisDB。我们从密集 UV 对应获得可见性伪地面实况,并训练网络来预测 3D 坐标以及每个人体关节和顶点截断和遮挡标签。

    17320

    关注

    腾讯云开发者公众号
    10元无门槛代金券
    洞察腾讯核心技术
    剖析业界实践案例
    腾讯云开发者公众号二维码

    相关产品

    • 云服务器

      云服务器

      云端获取和启用云服务器,并实时扩展或缩减云计算资源。云服务器 支持按实际使用的资源计费,可以为您节约计算成本。 腾讯云服务器(CVM)为您提供安全可靠的弹性云计算服务。只需几分钟,您就可以在云端获取和启用云服务器,并实时扩展或缩减云计算资源。云服务器 支持按实际使用的资源计费,可以为您节约计算成本。

    相关资讯

    热门标签

    活动推荐

    扫码关注腾讯云开发者

    领取腾讯云代金券