前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2020422 | 10篇计算机视觉检测分类相关论文(附GitHub代码)

2020422 | 10篇计算机视觉检测分类相关论文(附GitHub代码)

作者头像
代码医生工作室
发布2020-05-09 10:45:03
1.6K0
发布2020-05-09 10:45:03
举报
文章被收录于专栏:相约机器人

1.实例感知、上下文聚焦和内存高效的弱监督对象检测

Instance-aware, Context-focused, and Memory-efficient Weakly Supervised Object Detection

备注:Accepted to CVPR 2020

链接:https://arxiv.org/abs/2004.04725

GitHub:https://github.com/NVlabs/wetectron

摘要:通过减少训练过程中对强大监督的需求,弱监督学习已成为一种用于目标检测的引人注目的工具。但是主要挑战仍然存在:(1)对象实例的区分可能是模棱两可的;(2)检测器倾向于聚焦于区分部分而不是整个对象;(3)没有事实依据,对象建议就必须是多余的,以提高召回率,从而导致大量内存消耗。解决这些挑战非常困难,因为通常需要消除不确定性和简单的解决方案。为了解决这些问题,开发了一个实例感知和针对上下文的统一框架。它采用了实例感知的自训练算法和可学习的Concrete DropBlock,同时设计了一种内存有效的顺序批反向传播。极大地提高了基线。此外,该方法是第一个对基于ResNet的模型和弱监督视频对象检测进行基准测试的方法。

2.ConourNet:朝着精确的任意形状场景文本检测又迈进了一步

ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection

备注:Accepted by CVPR2020

链接:https://arxiv.org/abs/2004.04940

GitHub:https://github.com/wangyuxin87/ContourNet

摘要:近年来,场景文本检测得到了快速发展。但是仍然存在两个主要挑战:1)许多方法在文本表示中存在误报;2)场景文本的大规模差异使网络很难学习样本。在本文中,我们提出了ContourNet,它可以有效地解决这两个问题,并朝着精确的任意形状文本检测迈出了一步。首先,提出了一种对规模不敏感的自适应区域提议网络(Adaptive-RPN),通过仅关注预测边界框与真实边界框之间的联合交集(IoU)值来生成文本提议。然后,一种新颖的局部正交纹理感知模块(LOTM)在两个正交方向上对投标特征的局部纹理信息进行建模,并用一组轮廓点表示文本区域。考虑到强单向或弱正交激活通常是由假阳性图案(例如条纹)的单调纹理特征引起的,因此我们的方法通过仅在两个正交方向上输出具有高响应值的预测来有效地抑制这些假阳性。这样可以更准确地描述文本区域。在三个具有挑战性的数据集(Total-Text,CTW1500和ICDAR2015)上进行的大量实验证明,方法可以达到最先进的性能。

3.动态R-CNN:通过动态训练实现高质量目标检测

Dynamic R-CNN: Towards High Quality Object Detection via Dynamic Training

链接:https://arxiv.org/abs/2004.06002

GitHub:https://github.com/hkzhang95/DynamicRCNN

摘要:尽管近年来两级目标检测器不断提高先进水平的性能,但训练过程本身还远非晶体。在这项工作中,首先指出固定网络设置和动态训练过程之间的不一致问题,这会极大地影响性能。例如,固定标签分配策略和回归损失函数无法适应提案的分布变化,因此不利于训练高质量的检测器。因此建议动态R-CNN根据训练期间提议的统计信息自动调整标签分配标准(IoU阈值)和回归损失函数的形状(SmoothL1 Loss的参数)。这种动态设计更好地利用了训练样本,并推动了检测器以适应更多高质量的样本。具体来说,方法以1.9%的AP和5.5%的AP改进了ResNet-50-FPN基线在MS COCO数据集上,没有额外的开销。

4.UC-Net:通过条件变分自动编码器的不确定性启发的RGB-D显着性检测

UC-Net: Uncertainty Inspired RGB-D Saliency Detection via Conditional Variational Autoencoders

备注:Accepted by IEEE CVPR 2020 (ORAL). Code: this https URL

链接:https://arxiv.org/abs/2004.05763

GitHub:https://github.com/JingZhang617/UCNet

摘要:在本文中,提出了第一个框架(UCNet),该框架通过从数据标记过程中学习来将不确定性用于RGB-D显着性检测。现有的RGB-D显着性检测方法将显着性检测任务视为点估计问题,并按照确定性学习流程生成单个显着性图。受显着性数据标记过程的启发,提出了通过条件变分自动编码器的概率RGB-D显着性检测网络,以对人类注释不确定性进行建模,并通过在潜在空间中进行采样为每个输入图像生成多个显着性图。通过提出的显着性共识过程,能够基于这些多个预测生成准确的显着性图。

5.MLCVNet:用于3D对象检测的多级上下文VoteNet

MLCVNet: Multi-Level Context VoteNet for 3D Object Detection

备注:To be presented at CVPR 2020

链接:https://arxiv.org/abs/2004.05679

GitHub:https://github.com/NUAAXQ/MLCVNet

摘要:在本文中,通过利用自注意力机制和多尺度特征融合捕获多级上下文信息来解决3D对象检测任务。大多数现有的3D对象检测方法可以单独识别对象,而无需考虑这些对象之间的上下文信息。相比较而言,我们提出了多级上下文投票网(MLCVNet),以基于最新的投票网来关联地识别3D对象。我们在VoteNet的投票和分类阶段引入了三个上下文模块,以在不同级别上对上下文信息进行编码。具体地,在投票给它们对应的对象质心点之前,采用补丁到补丁上下文(PPC)模块来捕获点补丁之间的上下文信息。随后,在提议和分类阶段之前合并了一个对象到对象上下文(OOC)模块,以捕获对象候选对象之间的上下文信息。

6.用于X射线图像中COVID-19模式检测的高效深度学习模型

Towards an Efficient Deep Learning Model for COVID-19 Patterns Detection in X-ray Images

备注:Copyright 2020 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works

链接:https://arxiv.org/abs/2004.05717

GitHub:https://github.com/lindawangg/COVID-Net

摘要:面对由新的冠状病毒SARS-CoV-2引起的COVID-19大流行,如今已成为人类面临的最重大挑战之一。减慢病毒传播的关键因素是快速诊断和隔离感染患者。尽管如此,由于大流行,用于COVID-19鉴定的标准方法RT-PCR既耗时又供不应求。世界各地的研究人员一直在尝试寻找替代的筛查方法。在这种情况下,应用于患者胸部X光的深度学习已显示出对COVID-19鉴定的巨大希望。尽管获得了成功,但是这些方法的计算成本仍然很高,这给它们的可访问性和可用性带来了困难。因此,在这项工作中,我们解决了一个假设,即可以使用更紧凑的模型在总体精度和COVID-19灵敏度方面实现更好的性能。为了检验该假设,提出了对EfficientNet系列模型的修改。通过这样做,我们可以生成高质量的模型,其总体准确度为91.4%,COVID-19,灵敏度为90%,阳性预测为100%,而参数却比基线模型少30倍左右。

7.DeepFake进化:面部区域分析和假检测性能

DeepFakes Evolution: Analysis of Facial Regions and Fake Detection Performance

链接:https://arxiv.org/abs/2004.07532

GitHub:https://github.com/MarekKowalski/FaceSwap

摘要:过去几年中,媒体法医学吸引了很多关注,部分原因是对DeepFakes的担忧日益增加。自第一代的最初DeepFake数据库(例如UADFV和FaceForensics ++)到第二代的最新数据库(例如Celeb-DF和DFDC)以来,已经进行了许多视觉改进,使得虚假视频几乎无法被人眼分辨。这项研究针对面部区域和假冒检测性能对第一代和第二代DeepFake进行了详尽的分析。在我们的实验框架中考虑了两种不同的方法:i)选择整个面部作为伪造检测系统的输入,以及ii)选择特定的面部区域(例如眼睛或鼻子)作为伪造检测系统的输入。在我们的实验结果中,我们着重指出即使是最新的第二代DeepFake数据库中最强大的最新假检测器也能达到较差的假检测结果,均等错误率的结果范围为15%至30%。这些结果表明有必要进行进一步的研究以开发更复杂的伪造检测系统。

8.标题:用于动作检测的异步交互聚合

Asynchronous Interaction Aggregation for Action Detection

链接:https://arxiv.org/abs/2004.07485

GitHub:https://github.com/MVIG-SJTU/AlphAction

摘要:了解交互是视频动作检测的重要组成部分。提出了异步交互聚合网络(AIA),该网络利用不同的交互来增强动作检测。其中有两个关键设计:一个是采用统一范式来建模和集成多种类型的交互的交互聚合结构(IA)。另一个是异步内存更新算法(AMU),它使我们能够通过动态建模非常长期的交互来获得更好的性能,而无需花费大量的计算成本。提供的经验证据表明,网络可以从集成交互中获得显着的准确性,并且易于端到端训练。方法报告了AVA数据集的最新技术性能,增益为3.7 mAP(12。与我们强大的基准相比,验证分组的相对改善幅度为6%)。数据集UCF101-24和EPIC-Kitchens上的结果进一步说明了我们方法的有效性。

9.LiteDenseNet:一种轻量级的高光谱图像分类网络

LiteDenseNet: A Lightweight Network for Hyperspectral Image Classification

链接:https://arxiv.org/abs/2004.08112

GitHub:https://github.com/lironui/LiteDenseNet

摘要:近年来,基于深度学习的高光谱图像(HSI)分类一直是一个吸引人的领域。然而,作为一种数据驱动算法,深度学习方法通常需要大量的计算资源和高质量的标记数据集,而高性能计算和数据注释的成本却很高。在本文中,为了减少对大量计算和标记样本的依赖,提出了一种基于DenseNet的轻量级网络体系结构(LiteDenseNet),用于高光谱图像分类。受GoogLeNet和PeleeNet的启发,我们设计了一个3D双向密集层,以捕获输入的局部和全局特征。由于卷积是一项计算量大的操作,因此引入了组卷积以进一步降低计算成本和参数大小。从而,参数的数量和计算的耗费明显少于对抗性深度学习方法,这意味着LiteDenseNet具有更简单的架构和更高的效率。在6个广泛使用的高光谱数据集上的一系列定量经验表明,即使在缺少标记样品的情况严重的情况下,所提出的LiteDenseNet仍能获得最先进的性能。

10.一种新的用于从X射线图像中检测COVID-19的改进型深卷积神经网络

A New Modified Deep Convolutional Neural Network for Detecting COVID-19 from X-ray Images

链接:https://arxiv.org/abs/2004.08052

GitHub:https://github.com/mr7495/covid19

摘要:在本文中使用引入的训练技术训练了多个深度卷积网络,以将X射线图像分为三类:正常,肺炎和COVID-19,基于两个开源数据集。不幸的是,以前有关该主题的大多数作品都没有共享其数据集,因此只需要处理covid19病例的少量数据。数据包含属于COVID-19感染者的180幅X射线图像,因此尝试应用一些方法以获得最佳效果。在这项研究中,介绍了一些训练技术,这些技术可以在很少有COVID-19的情况下帮助网络更好地学习,并且还提出了由Xception和ResNet50V2网络组成的神经网络。该网络通过利用两个健壮网络提取的多个特征来获得最佳精度。在本文中,尽管进行了其他研究,但已经在11302张图像上测试了网络,以报告网络在实际情况下可以实现的实际精度。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档