无监督域适配在各种计算机视觉任务重很关键,比如目标检测、实例分割和语义分割。目的是缓解由于域漂移导致的性能下降问题。大多数之前的方法采用对抗学习依赖源域和目标域之间的单模式分布,导致在多种场景中的结果并不理想。为此,在本文中,我们设计了一个新的空口岸注意力金字塔网络来进行无监督域适配。特别的,我们首先构建了空间金字塔表示来获得目标在不同尺度的内容信息。以任务指定的信息为引导,在每个尺度上,我们组合了密集的全局结构表示和局部纹理模式,有效的使用了空间注意力截止。采用这种方式,网络被强迫关注内容信息由区别力的地方来进行域适配。我们在各种由挑战性的数据集上进行了昂贵的实验,对目标检测、实例分割和语义分割进行了域适配,这证明了我们的方法比最佳的方法有了很大的提升。
现有的深度卷积神经网络(CNNs)需要一个固定大小的输入图像(如224×224)。这一要求是“人为的”,可能会降低对任意大小/尺度的图像或子图像的识别精度。在这项工作中,我们为网络配备了另一种池化策略,“空间金字塔池”,以消除上述要求。这种新的网络结构称为SPP-net,可以生成固定长度的表示,而不受图像大小/比例的影响。金字塔池对物体变形也有很强的鲁棒性。基于这些优点,SPP-net一般应改进所有基于cnn的图像分类方法。在ImageNet 2012数据集中,我们证明了SPP-net提高了各种CNN架构的准确性,尽管它们的设计不同。在Pascal VOC 2007和Caltech101数据集中,SPP-net实现了最先进的分类结果使用单一的全图像表示和没有微调。在目标检测中,spp网络的能力也很重要。利用SPP-net算法,只对整个图像进行一次特征映射计算,然后将特征集合到任意区域(子图像),生成固定长度的表示形式,用于训练检测器。该方法避免了卷积特征的重复计算。在处理测试图像时,我们的方法比R-CNN方法快24-102×,而在Pascal VOC 2007上达到了更好或相近的精度。在2014年的ImageNet Large Scale Visual Recognition Challenge (ILSVRC)中,我们的方法在所有38个团队中目标检测排名第二,图像分类排名第三。本文还介绍了本次比赛的改进情况。
这方面最经典的文章是2007年Tom Mertens等人发表的《Exposure Fusion》一文,用简单的篇幅和公式描述了一个非常优异的合成过程,虽然在2019年Charles Hessel发表了一篇《Extended Exposure Fusion》的文章中,提出了比Exposure Fusion更为优异的合成效果,但是代价是更高昂的计算成本,而Exposure Fusion也已经相当优秀了,本文主要简单记录下个人的Exposure Fusion优化过程。
动机 尽管两阶段检测器取得了成功,那么问题就是:一个简单的单阶段能达到类似的精度吗?单阶段应用于目标位置、尺度和纵横比的常规、密集采样。最近在YOLO和SSD等单阶段上的研究显示出了很有前景的结果,与
基于局部拉普拉斯金字塔的Edge-aware滤波器是在2011年由Adobe 公司的研究员Sylvain Paris(大神级人物,写了很多文章)提出的,我在4年前曾经参考有关代码实现过这个算法,但是速度也是非常慢的,所以当时也没有继续做深入的研究,前段时间做另外一个算法时仔细的研究了下高斯和拉普拉斯金子塔的优化,因此又抽时间仔细的分析了算法的论文和代码,由于论文的理论部分还有一些我没有想清楚,因此在这里我只对研读过程中涉及的代码方面的优化做个解读。
Feature pyramids are a basic component in recognition systems for detecting objects at different scales. But recent deep learning object detectors have avoided pyramid representations, in part because they are compute and memory intensive. In this paper , we exploit the inherent multi-scale, pyramidal hierarchy of deep convolutional networks to construct feature pyramids with marginal extra cost. A topdown architecture with lateral connections is developed for building high-level semantic feature maps at all scales. This architecture, called a Feature Pyramid Network (FPN), shows significant improvement as a generic feature extractor in several applications. Using FPN in a basic Faster R-CNN system, our method achieves state-of-the-art singlemodel results on the COCO detection benchmark without bells and whistles, surpassing all existing single-model entries including those from the COCO 2016 challenge winners. In addition, our method can run at 6 FPS on a GPU and thus is a practical and accurate solution to multi-scale object detection. Code will be made publicly available.
特征金字塔是不同尺度目标识别系统的基本组成部分。但最近的深度学习对象检测器已经避免了金字塔表示,部分原因是它们需要大量的计算和内存。本文利用深卷积网络固有的多尺度金字塔结构构造了具有边际额外成本的特征金字塔。提出了一种具有横向连接的自顶向下体系结构,用于在所有尺度上构建高级语义特征图。该体系结构称为特征金字塔网络(FPN),作为一种通用的特征提取器,它在几个应用程序中得到了显著的改进。在一个基本的Fasater R-CNN系统中使用FPN,我们的方法在COCO检测基准上实现了最先进的单模型结果,没有任何附加条件,超过了所有现有的单模型条目,包括来自COCO 2016挑战赛冠军的条目。此外,我们的方法可以在GPU上以每秒6帧的速度运行,因此是一种实用而准确的多尺度目标检测解决方案。
讲论文前先捋一下CNN网络结构相关的知识,论文的思想主要来自两个,一个是特征金字塔结构,一个是Non-local网络:
目标的多尺度变化在目标检测中是一个很重要的问题,利用特征层多尺度(或anchor多尺度)是一种有效的解决方案。Anchor box用于将所有可能的Instance box离散为有限数量的具有预先定义的位置、尺度和纵横比的box。Instance box和Anchor box基于IOU重叠率来匹配。当这种方法集成到特征金字塔的时候,大的anchor通常和上部的特征相映射,小的anchor通常和下部的特征相映射,如下图所示。这是基于启发式的,即上层特征图有更多的语义信息适合于检测大的目标,而下层特征图有更多的细粒度细节适合于检测小目标。然而,这种设计有两个局限性:1)启发式引导的特征选择;2)基于覆盖锚取样。在训练过程中,每个实例总是根据IoU重叠匹配到最近的锚盒。而锚框则通过人类定义的规则(如框的大小)与特定级别的功能映射相关联。因此,为每个实例选择的特性级别完全基于自组织启发式。例如,一个汽车实例大小50×50像素和另一个类似的汽车实例规模60×60像素可能分配到两个不同的特征层,而另一个40×40像素大小的实例可能被分配到和50x50相同的特征层,如下图所示。
人脸检测是自动人脸识别系统中的一个关键环节。早期的人脸识别研究主要针对具有较强约束条件的人脸图象(如无背景的图象),往往假设人脸位置一直或者容易获得,因此人脸检测问题并未受到重视。
预告一下,最近无事,根据个人多年的证券操作策略和自己的浅显的AI时间序列的算法知识,还有自己Javascript的现学现卖,在微信小程序上弄了个简单的辅助系统。我先试试效果如何,不错的话将来弄个文章给大家介绍介绍。
https://github.com/electech6/ORB_SLAM2_detailed_comments
今日洞见 文章作者/配图来自ThoughtWorks:王健。 本文所有内容,包括文字、图片和音视频资料,版权均属ThoughtWorks公司所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发布/发表。已经本网协议授权的媒体、网站,在使用时必须注明"内容来源:ThoughtWorks洞见",并指定原文链接,违者本网将依法追究责任。 从一次回顾会议开始 “要不……我们不做……代码审查了……试试?”还记得当有人抛出这个建议时周围同学的表情,那种表情用两个字加两个标点符号就可以形容:“
这是一种通过直接模仿两阶段特征来训练一阶段检测器的新颖高效框架,旨在缩小一阶段和两阶段检测器之间的精度差距。在COCO上,基于ResNeXt-101可达46.1 mAP!
提出了一种简单有效的单阶段目标检测模块——特征选择无锚定(FSAF)模块。它可以插入到具有特征金字塔结构的单阶段检测器中。FSAF模块解决了传统基于锚点检测的两个局限性:1)启发式引导的特征选择;2)基于覆盖锚取样。FSAF模块的总体思想是将在线特征选择应用于多水平无锚分支的训练。具体来说,一个无锚的分支被附加到特征金字塔的每一层,允许在任意一层以无锚的方式进行盒编码和解码。在训练过程中,我们动态地将每个实例分配到最合适的特性级别。在推理时,FSAF模块可以通过并行输出预测与基于锚的分支联合工作。我们用无锚分支的简单实现和在线特性选择策略来实例化这个概念。在COCO检测轨道上的实验结果表明,我们的FSAF模块性能优于基于锚固的同类模块,而且速度更快。当与基于锚点的分支联合工作时,FSAF模块在各种设置下显著地改进了基线视网膜网,同时引入了几乎自由的推理开销。由此产生的最佳模型可以实现最先进的44.6%的映射,超过现有的COCO单单阶段检测器。
本文分享 NeurIPS 2021 论文『Aligning Pretraining for Detection via Object-Level Contrastive Learning』MSRA提出对象级对比学习的目标检测预训练方法!性能SOTA!
论文:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 空间金字塔池化,大神何恺明于2014年写的paper: 论文地址:https://arxiv.org/pdf/1406.4729.pdf RCNN在2013年发表后,大佬在2014年提出了空间金字塔池化,性能和准确率都大幅提高,且在后面很多网络中都延续了这一思想。这篇文章比较长,我们也基于论文将其大体翻译了一下,伙伴们要耐心看呀! 那么让我们一起开始学习吧!先放上大佬的照片来镇楼:
了解操作系统对内存的管理机制后,现在可以去看下 Go 语言是如何利用底层的这些特性来优化内存的。Go 的内存管理基本上参考 tcmalloc 来实现的,只是细节上根据自身的需要做了一些小的优化调整。
从本系列前面的文章我们已经了解到,对于分割任务而言,上下文信息的利用情况对于分割的效果是有明显影响的。这里我们就具体谈谈这个影响的原因。
该论文提出了一种有效且快速的场景解析方法。通常,提高场景解析或语义分割性能的常用方法是获得具有强大语义表示的高分辨率特征图。广泛使用的有两种策略:使用带孔(空洞)卷积或特征金字塔进行多尺度特征的融合,但会有计算量大、稳定性的考验。
愿意写代码的人一般都不太愿意去写文章,因为代码方面的艺术和文字中的美学往往很难兼得,两者都兼得的人通常都已经被西方极乐世界所收罗,我也是只喜欢写代码,让那些字母组成美妙的歌曲,然后自我沉浸在其中自得其乐。而今天,在清明之际,在踏青时节,我还是忍不住停下来歇歇脚,稍微共享一下最近一直研究的一个非常基础的算法和应用 - 多目标多角度的模板匹配。
深度残差金字塔网络是CVPR2017年的一篇文章,由韩国科学技术院的Dongyoon Han, Jiwhan Kim发表,改善了ResNet。其改用加法金字塔来逐步增加维度,还用了零填充直连的恒等映射,网络更宽,准确度更高,超过了DenseNet,泛化能力更强。论文原文见附录。
近年来,随着星载成像技术的飞速发展,光学遥感图像中的目标检测受到了广泛的关注。虽然许多先进的研究工作都使用了强大的学习算法,但不完全特征表示仍然不能有效地、高效地处理图像变形,尤其是目标缩放和旋转。为此,我们提出了一种新的目标检测框架,称为光学遥感图像检测器(ORSIm检测器),它集成了多种通道特征提取、特征学习、快速图像金字塔匹配和增强策略。ORSIm检测器采用了一种新颖的空频信道特征(SFCF),它综合考虑了频域内构造的旋转不变信道特征和原始的空间信道特征(如颜色信道和梯度幅度)。随后,我们使用基于学习的策略对SFCF进行了改进,以获得高级或语义上有意义的特性。在测试阶段,通过对图像域中尺度因子的数学估计,实现了快速粗略的通道计算。对两种不同的机载数据集进行了大量的实验结果表明,与以往的先进方法相比,该方法具有优越性和有效性。
对用卷积神经网络进行目标检测方法的一种改进,通过提取多尺度的特征信息进行融合,进而提高目标检测的精度,特别是在小物体检测上的精度。FPN是ResNet或DenseNet等通用特征提取网络的附加组件,可以和经典网络组合提升原网络效果。
机器之心专栏 作者:李俊 近日,CVPR 2017获奖论文公布,引起了业内极大的关注。但除了这些获奖论文,还有众多精彩的论文值得一读。因此在大会期间,国内自动驾驶创业公司 Momenta 联合机器之心
检测输电和配电塔对于电力网的安全可靠运行至关重要,因为这些塔的位置和数量是设计电力网络拓扑和规划其扩展的关键参数。将遥感(RS)和深度学习技术相结合作为一种广泛采用的目标检测方法具有多种优势,包括能够快速覆盖大面积、减少人为错误以及提高检测精度。卷积神经网络(CNNs)已成为深度学习中的主要方法,因为它们可以从原始图像像素自动学习判别特征,捕捉图像区域之间的复杂空间关系,并获得更好的检测性能。基于CNN的主流目标检测器可以分为基于 Anchor 框和无需 Anchor 框两类。基于 Anchor 框的检测器使用预定义的 Anchor 框来预测目标位置和大小,这提供了更好的准确性,但可能会受到 Anchor 框设计偏差的影响。无需 Anchor 框的检测器直接回归目标的中心和大小,不使用 Anchor 框。
通过使用金字塔池化模块(Pyramid Pooling Module),在整合基于不同区域的上下文后,PSPNet在效果上超过了FCN、DeepLab和DilatedNet等时下最佳的方法。
金字塔特征表示是解决目标检测中尺度变化挑战的常见做法。然而,不同特征尺度的不一致是基于特征金字塔的single-shot检测器的主要限制。在这项工作中,研究者提出了一种新颖的数据驱动的金字塔特征融合策略,称为自适应空间特征融合 (ASFF)。它学习了空间过滤冲突信息以抑制不一致性的方法,从而提高了特征的尺度不变性,并引入了free inference overhead。
文章:A robust, real-time and calibration-free lane departure warning system
【导读】本篇博文我们一起来讨论总结一下目标检测任务中用来处理目标多尺度的一些算法。视觉任务中处理目标多尺度主要分为两大类:
特征金字塔在需要多尺度特征的图像理解任务中已被证明是强大的。多尺度特征学习的最新方法侧重于使用具有固定拓扑结构的神经网络跨空间和尺度执行特征交互。
前面已经讲解完了RCNN系列的三篇论文,目标检测项目也基本可以跑起来了。今天要讲的FPN也是Two Stage目标检测算法中非常值得推敲的论文,它进一步优化了Faster-RCNN,使得对小目标的检测效果更好,所以一起来看看吧。
其实学编程关键是学习其思想,如果你精通了一门,再去学其他的时候也很容易上手。C不会过时的,尤其是在unix、linux操作平台上,学好C是必须的。
上一次我介绍了一个计算摄影技术构成的"动作放大器",它能够高效的将视频中的难以用肉眼察觉的变化分离出来,并在重新渲染过程中进行放大,生成新的视频。这里面的典型代表是欧式视频动作放大。
本次, 由香港中文大学(CUHK)和商汤科技(SenseTime)提出的金字塔场景解析网络(Pyramid Scene Parsing Network, PSPNet)已经过审阅。
论文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Zheng_Foreground-Aware_Relation_Network_for_Geospatial_Object_Segmentation_in_High_Spatial_CVPR_2020_paper.pdf
在深度学习目标检测中,特别是人脸检测中,由于分辨率低、图像模糊、信息少、噪声多,小目标和小人脸的检测一直是一个实用和常见的难点问题。然而,在过去几年的发展中,也出现了一些提高小目标检测性能的解决方案。本文将对这些方法进行分析、整理和总结。
前言: 这篇文章主要使用特征金字塔网络来融合多层特征,改进了CNN特征提取。作者也在流行的Fast&Faster R-CNN上进行了实验,在COCO数据集上测试的结果现在排名第一,其中隐含的说明了其在小目标检测上取得了很大的进步。其实整体思想比较简单,但是实验部分非常详细和充分。 摘要: 特征金字塔是多尺度目标检测系统中的一个基本组成部分。近年来深度学习目标检测特意回避金字塔特征表示,因为特征金字塔在计算量和内存上很昂贵。所以作者利用了深度卷积神经网络固有的多尺度、多层级的金字塔结构去构建特征金字塔网络。
SIFT成名已久,但理解起来还是很难的,一在原作者Lowe的论文对细节提到的非常少,二在虽然网上有许多相应博文,但这些博文云里雾里,非常头疼,在查看了许多资料了,下面贴出我自己的一些理解,希望有所帮助。
Github:https://github.com/ccc013/AI_algorithm_notes
不务正业预警 眼看着一个学期又告一段落,几个月来拢共还是没写几篇博客。不过手头上倒是还积累着不少资料值得一写,趁着新春得闲可以好好梳理梳理了。
自动驾驶感知需要对3D几何和语义进行建模。现有的方法通常侧重于估计3D边界框,忽略了更精细的几何细节,难以处理一般的、词汇表外的目标。为了克服这些限制,本文引入了一种新的3D占用预测任务,旨在从多视图图像中估计目标的详细占用和语义。为了促进这项任务,作者开发了一个标签生成pipeline,为给定场景生成密集的、可感知的标签。该pipeline包括点云聚合、点标签和遮挡处理。作者基于Waymo开放数据集和nuScenes数据集构造了两个基准,从而产生了Occ3D Waymo和Occ3D nuScene基准。最后,作者提出了一个模型,称为“粗略到精细占用”(CTF-Occ)网络。这证明了在3D占用预测任务中的优越性能。这种方法以粗略到精细的方式解决了对更精细的几何理解的需求。
尺度,顾名思义就是说图像的尺寸和分辨率。在我们进行图像处理的时候,会经常对源图像的尺寸进行放大或者缩小的变换,进而转换为我们指定尺寸的目标图像。在对图像进行放大和缩小的变换的这个过程,我们称为尺度调整。
学习ORB-SLAM3单目视觉SLAM中,发现有很多知识点需要展开和深入,同时又需要对系统有整体的认知,为了强化记忆,记录该系列笔记,为自己图方便,也希望对大家有所启发。
计算机视觉中的特征点提取算法比较多,但SIFT除了计算比较耗时以外,其他方面的优点让其成为特征点提取算法中的一颗璀璨的明珠。SIFT算法的介绍网上有很多比较好的博客和文章,我在学习这个算法的过程中也参看网上好些资料,即使评价比较高的文章,作者在文章中对有些比较重要的细节、公式来历没有提及,可能写博客的人自己明白,也觉得简单,因此就忽略了这些问题,但是对刚入门的人来说,看这些东西,想搞清楚这些是怎么来的还是比较费时费力的。比如SIFT算法中一个重要的操作:求取描述子的主方向。好多文章只是一提而过或忽略,然后直接给出一个公式,SIFT算法的原作者也提使用抛物线插值,但是具体怎么插的就不太详尽了,对于初学者来说更是不知所云。因此本文打算在参看的文章上对有关这些细节给出一些比较详细的说明,还有本文尽量对操作过程配备对应图片或示意图说明,同时附上robwhesss开源SIFT C代码对应程序块并给予注解,方便理解。
为了检测到变化尺寸的目标,基于特征金字塔的检测器,在不同特征层之间,基于在k特征图上的决策,例如下图(a)所示,基线检测器使用在特征层 上的特征图 。
针对小目标检测网络,CV领域一般用的是特征金字塔。即将原图以不同的比例采样,然后得到不同分辨率的图像进行训练和测试,在多数情况下是有效的。但是特征金字塔的计算、内存和时间开销都非常大,导致在工程中应用是及其困难。FPN(即特征金字塔)提出了一个独特的特征金字塔网络来避免图像金字塔产生的超高计算量,同时可以较好的处理目标检测中的尺度变化问题,对于小目标检测具有很强的鲁棒性。
领取专属 10元无门槛券
手把手带您无忧上云