最近几年点云的三维目标检测一直很火,从早期的PointNet、PointNet++,到体素网格的VoxelNet,后来大家觉得三维卷积过于耗时,又推出了Complex-yolo等模型把点云投影到二维平面,用图像的方法做目标检测,从而加速网络推理。
选自arXiv.org 作者:Kaiming He等 机器之心编译 参与:黄小天、吴攀 近日,Facebook 人工智能研究部门(FAIR)发布了一篇题为《Mask R-CNN》的新论文,描述了一种简
在机器学习中,分类器将类别标签分配给数据点。例如,图像分类器针对图像中存在哪些对象产生类别标签(例如,鸟,飞机)。一个卷积神经网络,或CNN的简称,是一种类型的分类,在解决这个问题,其过人之处!
卷积神经网络新手指南之二 引言 本文将进一步探讨有关卷积神经网络的更多细节,注:以下文章中部分内容较为复杂,为了保证其简明性,部分内容详细解释的研究文献会标注在后。 步幅和填充 让我们看回之前的转换层
最先进的目标检测网络依赖于区域建议算法来假设目标位置。SPPnet和Faster R-CNN等技术的进步,降低了检测网络的运行时间,但是暴露了区域提案计算的瓶颈。在这项工作中,我们引入了一个与检测网络共享全图像卷积特性的区域建议网络(RPN),从而实现了几乎免费的区域建议。RPN是一个完全卷积的网络,它同时预测每个位置的目标边界和目标得分。对RPN进行端到端训练,生成高质量的区域建议,Faster R-CNN对其进行检测。通过共享卷积特性,我们进一步将RPN和Faster R-CNN合并成一个单独的网络——使用最近流行的具有“Attention”机制的神经网络术语,RPN组件告诉统一的网络去哪里看。对于非常深的VGG-16型号,我们的检测系统在GPU上帧率为5帧(包括所有步骤),同时在PASCAL VOC 2007、2012和MS COCO数据集上实现了最先进的目标检测精度,每张图像只有300个proposal。在ILSVRC和COCO 2015年的比赛中,Faster R-CNN和RPN是在多个赛道上获得第一名的基础。
对Facebook而言,想要提高用户体验,就得在图像识别上做足功夫。 AI 研习社此前报道《Facebook AML实验室负责人:将AI技术落地的N种方法》(上 ,下篇)就提到,做好图像识别,不仅能让Facebook的用户更精准搜索到想要的图片,为盲人读出图片中包含的信息,还能帮助用户在平台上销售物品、做社交推荐等等。 近日, FAIR部门的研究人员在这一领域又有了新的突破——他们提出一种目标实例分割(object instance segmentation)框架Mask R-CNN,该框架较传统方法操
典型的目标检测假定训练和测试数据来自同一个理想分布,但是在实际中这通常是不满足的。这种分布的错误匹配将会导致一个明显的性能下降。这篇工作我们旨在提升目标检测的跨域鲁棒性。我们在两个层级上解决域偏移问题:(1)、图像级偏移,例如图像的风格、亮度等。(2)、实例级偏移,例如目标的外观、尺寸等。基于最近的最先进的目标检测器Faster R-CNN来构建我们的方法,我们设计了两个域适配组件,图像级和实例级,来减少域矛盾。这两个域适配组件基于H散度理论,并且用对抗训练方式训练的域分类器来实现。不同级别的域分类器用连续正则化进一步加强,目的是在Faster R-CNN模型上学习一个域不变RPN。使用多个数据集包括Cityscapes,KITTI,SIM10K等来评估我们新提出的方法。结果证明对各种域迁移场景的鲁邦目标检测,我们提出的方法很有效。
之前的深度卷积神经网络(CNNs)都需要输入的图像尺寸固定(比如224×224)。这种人为的需要导致面对任意尺寸和比例的图像或子图像时降低识别的精度。为什么会降低精度呢?由于输入的图像大小固定,即数据维度固定,但是现实样本中往往很多样本是大小不一的,为了产生固定输入大小的样本,有两种主要的预处理措施:
在过去几个月中,我一直在实验室中研究提升目标检测的方法。在这之中我获得的最大启发就是意识到:学习目标检测的最佳方法就是自己动手实现这些算法,而这正是本教程引导你去做的。
的特征图.将结果输入到两层具有 400 个神经元节点的全连接层中,然后使用 softmax 函数进行分类--表示 softmax 单元输出的 4 个分类出现的概率。
选自Medium 作者:Ayoosh Kathuria 机器之心编译 目标检测是深度学习近期发展过程中受益最多的领域。随着技术的进步,人们已经开发出了很多用于目标检测的算法,包括 YOLO、SSD、Mask RCNN 和 RetinaNet。在本教程中,我们将使用 PyTorch 实现基于 YOLO v3 的目标检测器,后者是一种快速的目标检测算法。该教程一共有五个部分,本文包含其中的前三部分。 在过去几个月中,我一直在实验室中研究提升目标检测的方法。在这之中我获得的最大启发就是意识到:学习目标检测的最佳方
目标检测是深度学习近期发展过程中受益最多的领域。随着技术的进步,人们已经开发出了很多用于目标检测的算法,包括 YOLO、SSD、Mask RCNN 和 RetinaNet。在本教程中,我们将使用 PyTorch 实现基于 YOLO v3 的目标检测器,后者是一种快速的目标检测算法。该教程一共有五个部分,本文包含其中的前三部分。
目标检测是深度学习中应用比较多的领域。近年来,人们开发了许多用于对象检测的算法,其中包括YOLO,SSD,Mask RCNN和RetinaNet。
其中,bx、by表示汽车中点,bh、bw分别表示定位框的高和宽。以图片左上角为(0,0),以右下角为(1,1),这些数字均为位置或长度所在图片的比例大小。
我们提出了一种新的对象检测方法——拐角网络,该方法利用单一的卷积神经网络将对象的左上角和右下角作为一对关键点检测出来。通过检测成对的关键点,我们消除了设计一组锚箱的需要,通常使用单级检测器。除了我们的新公式,我们还引入了角池化,这是一种新的池化层,可以帮助网络更好地定位角。实验表明,在MS COCO上,CornerNet实现了42.2%的AP,优于现有的所有一级检测器。
选自arXiv 作者:Zeming Li、Chao Peng、Gang Yu、Xiangyu Zhang、Yangdong Deng、Jian Sun 机器之心编译 参与:路雪、刘晓坤 基于当前用预训练分类器开发目标检测器的方法的固有缺陷,来自清华大学和旷视的研究者提出了专用于目标检测的骨干网络 DetNet。DetNet 可在保持高分辨率特征图和大感受野的同时,高效地执行目标检测任务,并可以自然地扩展到实例分割任务上。在 MSCOCO 数据集的目标检测和实例分割任务上,DetNet 都取得了当前最佳的结果
英文原文:https://ujjwalkarn.me/2016/08/11/intuitive-explanation-convnets/
本文的主要贡献是将附加上下文引入到最先进的一般目标检测中。为了实现这一点,我们首先结合了一个最先进的分类器和一个快速检测框架。然后,我们使用反褶积层来增加SSD+Residual-101,以在目标检测中引入额外的大规模上下文,并提高准确性,特别是对于小目标,我们将生成的系统DSSD称为反卷积单阶段检测器。虽然这两个贡献很容易在高层进行描述,但是一个简单的实现是不会成功的。相反,我们展示了仔细添加额外的学习转换阶段,特别是反褶积中的前馈连接模块和一个新的输出模块,使这种新方法成为可能,并为进一步的检测研究形成了一个潜在的前进道路。结果表明,PASCAL VOC和COCO 检测。我们的513×513输入的DSSD在VOC2007测试中实现了81.5%的mAP,在VOC 2012测试中实现了80.0%的mAP,在COCO上实现了33.2%的mAP,在每个数据集上都优于目前最先进的R-FCN方法。
本系列为吴恩达老师《深度学习专项课程(Deep Learning Specialization)》学习与总结整理所得,对应的课程视频可以在这里查看。
这次我们学习构建神经网络的另一个问题,定位分类问题。这意味着我们不仅需要判断图片中是不是一辆车,还要在图片中将他标记出来。“定位”的意思是判断汽车在图片中的具体位置。 分类定位问题通常只有一个较大对象位于图片中间位置,我们要对它进行识别和定位。而在对象检测问题中,图片中可以含有多个对象。甚至单张图片中会有多个不同分类的对象。因此,图片分类的思路可以帮助学习分类定位,而对象定位的思路有助于学习对象检测。 图片分类问题:例如,输入一张图片到多层卷积神经网络,它会输出一个特征向量,并反馈给softmax单元来预测图片类型。
AI 科技评论按:去年 10 月,香港中文大学-商汤联合实验室在 OpenMMLab 的首版计划中,开放了 MMCV 和 MMDetection(初期版本)。其初衷是为了在计算机视觉的一些重要方向建立统一而开放的代码库,并不断把新的算法沉淀其中。在过去的半年多时间,这些代码库已经产生了重要影响,越来越多的 MMLab 以外的研究团队开始把 MMDetection 作为实现新的目标检测算法的基础,并不断将其新算法回馈到 MMDetection 中。
卷积神经网络(Convolutional Neural Network,CNN)是一种在计算机视觉领域取得了巨大成功的深度学习模型。它们的设计灵感来自于生物学中的视觉系统,旨在模拟人类视觉处理的方式。在过去的几年中,CNN已经在图像识别、目标检测、图像生成和许多其他领域取得了显著的进展,成为了计算机视觉和深度学习研究的重要组成部分。
对整张图片进行卷积操作,一次得到所有预测值,如果足够幸运,神经网络便可以识别出目标的位置
卷积神经网络(Convolutional Neural Network,CNN)是一种在计算机视觉领域取得了巨大成功的深度学习模型。它们的设计灵感来自于生物学中的视觉系统,旨在模拟人类视觉处理的方式。在过去几年中,CNN已经在图像识别、目标检测、图像生成和许多其他领域取得了显著的进展,成为了计算机视觉和深度学习研究的重要组成部分。
卷积运算:原图像*卷积核=新图像,经常用来做边缘检测 人造核:手动指定权重,改善效果
前言:faster-RCNN是区域卷积神经网络(RCNN系列)的第三篇文章,是为了解决select search方法找寻region proposal速度太慢的问题而提出来的,整个faster-RCNN的大致框架依然是沿袭了fast-RCNN的基本能结构,只不过在region proposal的产生上面应用了专门的技术手段——区域推荐网络(region proposal network,即RPN),这是整个faster最难以理解的地方,本文也将以他为重点进行说明。鉴于篇幅较长,本次系列文章将分为3篇来说明:
全卷积的 one-stage目标检测器(FCOS),对每个像素进行预测的方式来解决目标检测问题,类似于语义分割。FCOS 不需要 anchor box,同时也不需要 proposals,由于消除了对预定义 anchor 的依赖,因此避免了与 anchor box相关的复杂计算,同时还避免了与 anchor相关的所有超参数,例如:尺寸、宽高比、数量等,通常这些参数对最终检测性能非常敏感。FCOS 优于之前的 anchor-based one-stage detectors。
这是一个称为FVNet的框架,从点云生成3D前视图提议和目标检测。它包括两步:生成前视图提议和估计3D边框参数。
这篇是看完吴恩达老师的 deeplearning.ai 课程里目标检测课程的学习笔记,文章的图片主要来自课程。
深度神经网络采用空间金字塔池化模块或编解码器结构进行语义分割。前者通过多速率、多有效视场的过滤或池化操作,能够编码多尺度背景信息;后者通过逐步恢复空间信息,能够捕获更清晰的物体边界。在本研究中,我们建议结合这两种方法的优点。具体来说,我们提出的模型DeepLabv3+扩展了DeepLabv3,通过添加一个简单但有效的解码器模块来细化分割结果,特别是沿着对象边界。我们进一步探索了Xception模型,并将深度可分离卷积应用于Atrous空间金字塔池和解码器模块,从而获得更快、更强的编码器-解码器网络。我们在PASCAL VOC 2012和Cityscapes数据集上验证了该模型的有效性,在没有任何后处理的情况下,测试集的性能分别达到了89.0%和82.1%。
在嵌入式系统上运行的高效点云3D目标检测对于许多机器人应用(包括自动驾驶)都非常重要。大多数以前的工作试图使用基于Anchor的检测方法来解决它,这有两个缺点:后处理相对复杂且计算量大;调整Anchor点参数非常棘手,并且是一个tricky。本文是第一个使用AFDet( anchor free and Non-Maximum Suppression free one stage detector)来解决这些缺点的公司。借助简化的后处理环节可以在CNN加速器或GPU上高效地处理整个AFDet。并且,在KITTI验证集和Waymo Open Dataset验证集上,AFDet无需花哨的技巧,就可以与其他Anchor-based的3D目标检测方法竞争。
无监督域适配在各种计算机视觉任务重很关键,比如目标检测、实例分割和语义分割。目的是缓解由于域漂移导致的性能下降问题。大多数之前的方法采用对抗学习依赖源域和目标域之间的单模式分布,导致在多种场景中的结果并不理想。为此,在本文中,我们设计了一个新的空口岸注意力金字塔网络来进行无监督域适配。特别的,我们首先构建了空间金字塔表示来获得目标在不同尺度的内容信息。以任务指定的信息为引导,在每个尺度上,我们组合了密集的全局结构表示和局部纹理模式,有效的使用了空间注意力截止。采用这种方式,网络被强迫关注内容信息由区别力的地方来进行域适配。我们在各种由挑战性的数据集上进行了昂贵的实验,对目标检测、实例分割和语义分割进行了域适配,这证明了我们的方法比最佳的方法有了很大的提升。
我们提出了基于区域的全卷积网络,用于精确和有效的目标检测。与之前的基于区域的检测器(如Fast/Faster R-CNN)相比,我们的基于区域的检测器是全卷积的,几乎所有计算都在整个图像上共享。为了实现这一目标,我们提出了位置敏感的分数映射来解决图像分类中的平移不变性与目标检测中的平移方差之间的矛盾。因此,我们的方法可以很自然地采用完全卷积的图像分类器骨干网络,如最新的残差网络(ResNets),用于目标检测。我们使用101层ResNet在PASCAL VOC数据集上显示了很有竞争的结果(例如,在2007年的集上显示了83.6%的mAP)。同时,我们的结果在测试时的速度为每张图像170ms,比Faster R-CNN对应图像快2.5-20倍。
作者:Tong He、Zhi Zhang、Hang Zhang、Zhongyue Zhang、Junyuan Xie、Mu Li
自 2012 年 AlexNet 大展神威以来,研究者已经提出了各种卷积架构,包括 VGG、NiN、Inception、ResNet、DenseNet 和 NASNet 等,我们会发现模型的准确率正稳定提升。
您只需看一次(YOLO)是快速、准确的单阶段目标检测器。最近发布的YOLO v4与其他目标检测器相比,显示出非常好的结果。
当我们听说卷积神经网络(CNN)时,我们通常会想到计算机视觉。CNN负责图像分类方面的重大突破,是目前大多数计算机视觉系统的核心,从Facebook的自动照片标签到自动驾驶汽车。
今天为大家介绍一篇CVPR 2018的一篇目标检测论文《Single-Shot Refinement Neural Network for Object Detection》,简称为RefineDet。RefineDet从网络结构入手,结合了one-stage目标检测算法和two-stage目标检测算法的优点重新设计了一个在精度和速度均为SOTA的目标检测网络。论文的思想值得仔细推敲,我们下面来一起看看。论文源码和一作开源的代码链接见附录。
来源:机器之心 本文长度为2698字,建议阅读4分钟 本文通过构建同一个神经网络,对比当前最流行的 10 种深度学习框架。 [ 导读 ]近日,Ilia Karmanov 在 Medium 发表了一篇题为《Neural Net in 10 Frameworks (Lessons Learned)》的文章,其内容源自一个 GitHub 项目,其中作者通过构建同一个神经网络,对比了当前最流行的 10 种深度学习框架,其中 Caffe2 和 MXNet 在准确度和训练时长上处于领先位置。该项目甚至还得到了 FA
选自Medium 作者:Ilia Karmanov 机器之心编译 参与:路雪、黄小天 近日,Ilia Karmanov 在 Medium 发表了一篇题为《Neural Net in 10 Frameworks (Lessons Learned)》的文章,其内容源自一个 GitHub 项目,其中作者通过构建同一个神经网络,对比了当前最流行的 10 种深度学习框架,其中 Caffe2 和 MXNet 在准确度和训练时长上处于领先位置。该项目甚至还得到了 FAIR 研究者、各大框架创始人(比如贾扬清)的支持。机器
近日,Ilia Karmanov 在 Medium 发表了一篇题为《Neural Net in 10 Frameworks (Lessons Learned)》的文章,其内容源自一个 GitHub 项目,其中作者通过构建同一个神经网络,对比了当前最流行的 10 种深度学习框架,其中 Caffe2 和 MXNet 在准确度和训练时长上处于领先位置。该项目甚至还得到了 FAIR 研究者、各大框架创始人(比如贾扬清)的支持。机器之心对该文进行了编译。 项目GitHub链接:https://github.com/i
卷积神经网络(CNN)是一种神经网络,通常用于图像分类、目标检测和其他计算机视觉任务。CNN的关键组件之一是特征图,它是通过对图像应用卷积滤波器生成的输入图像的表示。
临近中国的春节,Google 团队也不休假,趁着中国人每年一度大迁徙,他们在 arXiv 放出了 DeepLabv3+,在语义分割领域取得新的 state-of-the-art 水平。那今天就开始好好说说这一系列的操作,有兴趣的您,我们一起去进行深入学习讨论! 今天先讲讲DeepLab v1的那些知识。 原文地址:Semantic image segmentation with deep convolutional nets and fully connected CRFs 收录:ICLR 2015 (In
原标题 | Demystifying Object Detection and Instance Segmentation for Data Scientists
FCN是基于深度学习的语义分割的开山之作,尽管现在很多方法都超越了FCN,但它的思想仍然有很重要的意义。
更深层次的神经网络更难训练。我们提出了一个残差学习框架来简化网络的训练,这些网络比以前使用的网络要深入得多。我们显式地将层重新表示为参考层输入的学习剩余函数,而不是学习未引用的函数。我们提供了全面的经验证据表明,这些剩余网络更容易优化,并可以从大幅增加的深度获得精度。在ImageNet数据集上,我们评估了高达152层的剩余网—比VGG网[41]深8×,但仍然具有较低的复杂性。这些残差网的集合在ImageNet测试集上的误差达到3.57%,该结果在ILSVRC 2015年分类任务中获得第一名。我们还对CIFAR-10进行了100层和1000层的分析。在许多视觉识别任务中,表征的深度是至关重要的。仅仅由于我们的深度表示,我们获得了28%的相对改进的COCO对象检测数据集。深度残差网是我们参加ILSVRC & COCO 2015竞赛s1的基础,并在ImageNet检测、ImageNet定位、COCO检测、COCO分割等方面获得第一名。
RCNN首次将卷积操作引入检测领域用于提取特征,然而现有的深度卷积网络需要输入固定尺寸的图片,这个需求可能会导致对于任意scale/size的图片的识别精确度下降。【深度卷积神经网络由卷积层和全连接层组成,卷积层对于任意大小的图片都可以进行卷积运算提取特征,输出任意大小的特征映射,而全连接层由于本身的性质需要输入固定大小的特征尺度,所以固定尺寸的需求来自于FC层,即使对输入图片进行裁剪、扭曲等变换,调整到统一的size,也会导致原图有不同程度失真、识别精度受到影响】SPPNet提出了**“空间金字塔池化”**消除这种需求,不管图像大小是多大,在整张图片上只需要计算一次,就可以得到整幅图像的特征图,经过池化都会输出一个固定长度的表征。
本文提出一种使用单个卷积神经网络的新型物体检测方法: CornerNet. 本文通过将目标定义为成对关键点,消除了单阶段检测网络中对anchor box的需要. 除了新颖的网络形式外,本文还介绍了角落池化(corner pooling):一种新的池化方式,它可以帮助网络更好地定位物体的边角。 实验表明,CornerNet在MS COCO上实现了42.1%的AP,优于所有现有的单阶段检测模型。
三维物体通常表示为点云中的三维框。 这种表示模拟了经过充分研究的基于图像的2D边界框检测,但也带来了额外的挑战。 3D世界中的目标不遵循任何特定的方向,基于框的检测器很难枚举所有方向或将轴对齐的边界框匹配到旋转的目标。 在本文中,我们提出用点来表示、检测和跟踪三维物体。 我们的框架CenterPoint,首先使用关键点检测器检测目标的中心,然后回归到其他属性,包括3D尺寸、3D方向和速度。 在第二阶段,它使用目标上的额外点特征来改进这些估计。 在CenterPoint中,三维目标跟踪简化为贪婪最近点匹配。 由此产生的检测和跟踪算法简单、高效、有效。 CenterPoint在nuScenes基准测试中实现了最先进的3D检测和跟踪性能,单个模型的NDS和AMOTA分别为65.5和63.8。 在Waymo开放数据集上,Center-Point的表现远远超过了之前所有的单一模型方法,在所有仅使用激光雷达的提交中排名第一。
领取专属 10元无门槛券
手把手带您无忧上云