前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2020413 | 10篇计算机视觉检测分类相关论文(附GitHub代码)

2020413 | 10篇计算机视觉检测分类相关论文(附GitHub代码)

作者头像
代码医生工作室
发布2020-04-14 16:31:38
9300
发布2020-04-14 16:31:38
举报
文章被收录于专栏:相约机器人相约机器人

1.RetinaTrack:在线单级联合检测和跟踪

标题:RetinaTrack: Online Single Stage Joint Detection and Tracking

备注:Accepted to CVPR 2020

链接:https://arxiv.org/abs/2003.13870

GitHub:https://github.com/cheind/py-motmetrics

摘要:传统上,多对象跟踪和对象检测是使用单独的系统执行的,大多数先前的工作仅专注于这些方面之一。跟踪系统显然可以从获得准确的检测中受益,但是,文献中有充分的证据表明检测器可以从跟踪中受益,例如,可以帮助随着时间推移平滑预测。在本文中,我们专注于自动驾驶的“检测跟踪”范例,其中两个任务都是关键任务。我们提出了一种概念上简单有效的联合检测和跟踪模型RetinaTrack,该模型修改了流行的单阶段RetinaNet方法,使其适合实例级嵌入训练。通过对Waymo Open Dataset的评估,我们显示 我们的性能优于最新的跟踪算法,同时所需的计算量也大大减少。我们认为,我们简单而有效的方法可以作为该领域未来工作的坚实基础。

2.M2M:通过大到小翻译的不平衡分类

标题:M2m: Imbalanced Classification via Major-to-minor Translation

备注:12 pages; Accepted to CVPR 2020

链接:https://arxiv.org/abs/2004.00431

GitHub:https://github.com/alinlab/M2m

摘要:在大多数实际情况下,标记的训练数据集是高度不平衡的,在这种情况下,深度神经网络难以推广到平衡的测试标准。在本文中,我们探索了一种新颖而简单的方法,通过转换频率较高的类中的样本(例如图像)来增加频率较低的类,从而缓解了这一问题。这种简单的方法使分类器能够通过转移和利用多数信息的多样性来学习少数类的更一般化的特征。我们在各种类别不平衡数据集上的实验结果表明,与其他现有的重新采样或重新加权方法相比,该方法显着改善了少数群体的泛化能力。

3.边界感知密集特征指示器用于点云中的单级3D对象检测

标题:Boundary-Aware Dense Feature Indicator for Single-Stage 3D Object Detection from Point Clouds

链接:https://arxiv.org/abs/2004.00186

GitHub:https://github.com/nutonomy/second.pytorch

摘要:基于点云的3D对象检测已变得越来越流行。一些方法建议直接从原始点云定位3D对象,以避免信息丢失。但是,这些方法具有复杂的结构和大量的计算开销,从而限制了其在实时场景中的广泛应用。一些方法选择先将点云数据转换为紧凑的张量,然后利用现成的2D检测器来提出3D对象,这要快得多,并且可以达到最新的结果。

4.注释误差对YOLOv3无人机探测的影响

标题:Effect of Annotation Errors on Drone Detection with YOLOv3

链接:https://arxiv.org/abs/2004.01059

GitHub:https://github.com/aybora/CVPR2020-Anti-UAV-OGAM-Correction/

摘要:随着深度网络的最新发展,具有深度学习骨干的对象检测和跟踪算法得到了显着改进。但是,这种快速发展导致需要大量带注释的标签。即使对于大多数这些数据集,尤其是对于视频注释,这种半自动注释过程的细节并不清楚,尤其是对于视频注释,通常也会采用一些自动标记过程。不幸的是,这样的方法可能导致错误的注释。在这项工作中,模拟了对象检测问题的不同类型的注释错误,并在训练和测试阶段检查了带有错误注释的流行的最新对象检测器YOLOv3的性能。

5.DFNet:用于显著目标检测的鉴别特征提取和集成网络

标题:DFNet: Discriminative feature extraction and integration network for salient object detection

链接:https://arxiv.org/abs/2004.01573

GitHub:https://github.com/Sina-Mohammadi/DFNet

摘要:尽管卷积神经网络具有强大的特征提取功能,但显着性检测仍存在一些挑战。在本文中,我们着眼于挑战的两个方面:i)由于显着对象以各种大小出现,因此使用单尺度卷积将无法捕获正确的大小。而且,使用多尺度卷积而不考虑其重要性可能会使模型混淆。ii)使用多层功能有助于模型使用本地和全局上下文。

6.用于动作检测的双流AMTnet

标题:Two-Stream AMTnet for Action Detection

链接:https://arxiv.org/abs/2004.01494

GitHub:https://github.com/gurkirt/AMTNet

摘要:在本文中,我们提出了两流AMTnet,它利用了基于视频的动作表示[1]和增量动作管生成[2]的最新进展。当前的动作检测器的大多数遵循基于帧的表示,后期融合之后是离线动作管构建步骤。这些是次优的,因为:基于帧的特征几乎不编码时间关系;后期融合限制了网络学习强大的时空特征;最后,离线动作管生成不适用于许多现实世界中的问题,例如自动驾驶,人机交互等。

7. 基于激光雷达的三维视频对象在线检测-基于图的消息传递和时空转换器注意

标题:LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention

备注:Accepted to CVPR 2020. Code: this https URL

链接:https://arxiv.org/abs/2004.01389

GitHub:https://github.com/yinjunbo/3DVID

摘要:现有的基于LiDAR的3D对象检测器通常专注于单帧检测,而忽略连续点云帧中的时空信息。在本文中,我们提出了一种在点云序列上运行的端到端在线3D视频对象检测器。所提出的模型包括空间特征编码组件和时空特征聚集组件。在前一个组件中,提出了一种新颖的支柱消息传递网络(PMPNet)对每个离散点云帧进行编码。它通过迭代消息传递从其邻居自适应地收集有关某个支柱节点的信息,从而有效地扩大了支柱特征的接收范围。在后一部分中,我们提出了一个时空变压器GRU(AST-GRU)来汇总时空信息,通过专注的内存门控机制增强了传统的ConvGRU。AST-GRU包含一个空间变压器注意(STA)模块和一个时间变压器注意(TTA)模块,它们可以分别强调前景对象和对齐动态对象。实验结果表明,提出的3D视频对象检测器在大规模nuScenes基准上达到了最先进的性能。

8.SSN:用于点云中多类目标检测的形状特征网络

标题:SSN: Shape Signature Networks for Multi-class Object Detection from Point Clouds

链接:https://arxiv.org/abs/2004.02774

GitHub:https://github.com/xinge008/SSN

摘要:多类3D对象检测旨在对点云中多个类别的对象进行定位和分类。由于点云的性质,即非结构化,稀疏和嘈杂,未充分利用有益于多类别识别的某些特征,例如形状信息。在本文中,我们提出了一种新颖的3D形状签名来探索来自点云的形状信息。通过结合对称,凸包和切比雪夫拟合的操作,所提出的形状信号不仅紧凑,有效,而且对噪声也很鲁棒,这是软约束,可以提高多类判别的特征能力。基于提出的形状签名,我们开发了用于3D对象检测的形状签名网络(SSN),该网络由金字塔特征编码部分,形状感知分组头和明确的形状编码目标。实验表明,该方法在两个大型数据集上的性能明显优于现有方法。此外,我们的形状签名可以充当即插即用的组件,并且消融研究表明其有效性和良好的可扩展性。

9.类锚点聚类:训练开放集分类器的一种基于距离的损失

标题:Class Anchor Clustering: a Distance-based Loss for Training Open Set Classifiers

链接:https://arxiv.org/abs/2004.02434

GitHub:https://github.com/KaiyangZhou/pytorch-center-loss

摘要:现有的开放集分类器通过测量网络对数空间中的距离来区分已知输入和未知输入,假设已知输入比未知输入更接近训练数据。但是,这种方法通常事后应用到经过交叉熵损失训练的网络中,这既不能保证也不会鼓励希望的聚类行为。为了克服此限制,我们引入了类锚定聚类(CAC)损失。CAC是完全基于距离的损失,它明确地鼓励训练数据在logit空间中围绕类依赖的锚点周围形成紧密的簇。我们证明,经过CAC损失训练的开放集分类器优于具有挑战性的TinyImageNet数据集上的所有最新技术,在AUROC中的性能提高了2.4%。此外,在许多其他相关的数据集上,我们的方法优于其他基于距离的最新方法。我们将公开提供CAC的代码。

10. 基于多域解缠表示学习的跨域人脸呈现攻击检测

标题:Cross-domain Face Presentation Attack Detection via Multi-domain Disentangled Representation Learning

备注:Accepted by CVPR2020

链接:https://arxiv.org/abs/2004.01959

GitHub:https://github.com/seetaface/SeetaFaceEngine

https://github.com/aleju/imgaug

摘要:面部表情攻击检测(PAD)已经成为面部识别系统中亟待解决的问题。传统方法通常假定测试和训练在同一领域内;结果,它们可能无法很好地推广到看不见的场景中,因为为PAD学习的表示形式可能会过度适合训练集中的主题。有鉴于此,我们提出了一种针对跨域人脸PAD的高效解缠表示学习方法。我们的方法包括解缠表示学习(DR-Net)和多领域学习(MD-Net)。DR-Net通过生成模型学习了一对编码器,可以将PAD信息特征与主题区分特征区分开。来自不同域的解缠结特征被馈送到MD-Net,MD-Net为最终的跨域人脸PAD任务学习与域无关的特征。在几个公共数据集上的大量实验验证了所提出的跨域PAD方法的有效性。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档