首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

现有的深度卷积神经网络(CNNs)需要一个固定大小的输入图像(如224×224)。这一要求是“人为的”,可能会降低对任意大小/尺度的图像或子图像的识别精度。在这项工作中,我们为网络配备了另一种池化策略,“空间金字塔池”,以消除上述要求。这种新的网络结构称为SPP-net,可以生成固定长度的表示,而不受图像大小/比例的影响。金字塔池对物体变形也有很强的鲁棒性。基于这些优点,SPP-net一般应改进所有基于cnn的图像分类方法。在ImageNet 2012数据集中,我们证明了SPP-net提高了各种CNN架构的准确性,尽管它们的设计不同。在Pascal VOC 2007和Caltech101数据集中,SPP-net实现了最先进的分类结果使用单一的全图像表示和没有微调。在目标检测中,spp网络的能力也很重要。利用SPP-net算法,只对整个图像进行一次特征映射计算,然后将特征集合到任意区域(子图像),生成固定长度的表示形式,用于训练检测器。该方法避免了卷积特征的重复计算。在处理测试图像时,我们的方法比R-CNN方法快24-102×,而在Pascal VOC 2007上达到了更好或相近的精度。在2014年的ImageNet Large Scale Visual Recognition Challenge (ILSVRC)中,我们的方法在所有38个团队中目标检测排名第二,图像分类排名第三。本文还介绍了本次比赛的改进情况。

02

SSD: Single Shot MultiBox Detector

本文提出了一个使用单一深度神经网络对图像中的目标进行检测的方法。本文的方法称为SSD,根据每个feature map位置不同的宽高比和尺度,将Bounding Box的输出离散为Bounding Box先验的集合。在预测时,网络产生置信度,认为每个先验对应感兴趣的目标,并对先验进行调整,以便更好地匹配目标的形状。此外,该网络结合了来自具有不同分辨率的多个特征图的预测,以自然地处理不同大小的目标。SSD模型相对于需要目标建议的方法(如R-CNN和MultiBox)是简单的,因为它完全抛弃了生成建议的步骤,并将所有计算封装在一个网络中。这使得SSD易于训练,并且易于集成到需要检测组件的系统中。在ILSVRC DET和PASCAL VOC数据集上的实验结果证实,SSD的性能与使用目标建议步骤的方法相当,但速度要快100-1000倍。与其他单阶段方法相比,SSD具有相似或更好的性能,为训练和推理提供了统一的框架。

01

农林业遥感图像分类研究[通俗易懂]

遥感图像处理是数字图像处理技术中的一个重要组成部分,长期以来被广泛应用于农林业的遥感测绘,防灾减灾等领域。本文旨在通过深度学习技术从遥感影像中分类出农田和林业地块。手工从遥感图像中分类出农田和林业区域分类虽然准确但是效率低下,并且很多采用传统图像分割技术的方法泛化性能差,不适合场景复杂的遥感图像。经实践证明,使用深度学习技术在各种计算机视觉任务中都取得了良好的效果,因此本文首先使用先进的深度学习框架进行分类实验,例如使用PSPNet,UNet等作为分割网络对遥感图像数据集进行分类与分割训练。这些框架在ImageNet,COCO,VOC等数据集上表现很好,但是由于遥感图像数据集相对于ImageNet,COCO等数据集,不仅检测对象相对较小而且可供学习的数据集样本较少,需要针对这一特点进行优化。本文经过多次实验将高分辨率的图像切割成合适大小分辨率的图像以减小神经网络的输入,同时进行图片的预处理和数据增强来丰富学习样本。同时在真实情况下,农林区域易受到拍摄视角,光照等造成分割对象重叠,因此本文提出一种处理分割对象重叠的处理策略,来优化边界预测不准确的情况,使用该方法后准确率有明显提升。经实验证明,本文所提出的基于深度学习的农林业遥感影像分割在开源遥感图像数据集上的取得了94.08%的准确率,具有较高的研究价值 农林业遥感图像数据(图1)对于许多与农林业相关的应用至关重要。例如作物类型和产量监测,防灾减灾以及对粮食安全工作的研究和决策支持。最初,这些数据主要由政府机构使用。如今,蓬勃发展的农林业技术也需要在农场管理,产量预测和林业规划等各种应用领域进行革新。以往农林业地块的高质量遥感图像数据主要是手动在高分辨率图像中分割出来的,即通过土地功能不同引起的颜色,亮度或纹理的差异与周围区域 亮度或纹理的差异与周围区域区分开来。尽管农林业遥感图像的手动分类可以非常准确,但是非常耗时耗力。 图1.1:农田的遥感图像分割 定期更新农林业遥感图像数据的需求日益增加扩大了自动化分割农林业遥感图像的需求。 与ImageNet、VOC2007、COCO等目标检测/分类数据集中的大多数图像相比,农林业遥感图像中的对象相对简单。例如,人体的图像数据看起来要复杂得多,因为它包含各种不同纹理和形状的子对象(面部,手部,衣服等)。因此,优化传统的图像分割以及深度学习技术来设计用于农林业遥感图像分割的算法是非常重要的。该模型需要正确地排除不需要进行分割的对象(房屋,工厂,停车场等),区分具有几乎相似的光谱特性的相邻区域和可见度差的边界区域,并且正确地分割出所需的对象。 1.2 选题来源与经费支持 本研究课题来源于计算机与信息工程学院 随着传感器技术,航空航天技术,图像处理技术快速的发展,利用卫星遥感图像进行深度学习处理广泛应用于生产实际中。由于农林业遥感图像场景复杂,使用传统图像处理分割算法效果差且泛化性能弱,本文使用深度学习方法,在现有的的深度学习模型上训练,优化,最终提出一种一种优化后的深度学习模型,经测试,该模型在收集的农林业遥感图像数据集上可以准确的分割出所需的对象,本文提出的模型主要解决如下几个难点:

02

FASA: Feature Augmentation and Sampling Adaptationfor Long-Tailed Instance Segmentation

最近的长尾实例分割方法在训练数据很少的稀有目标类上仍然很困难。我们提出了一种简单而有效的方法,即特征增强和采样自适应(FASA),该方法通过增强特征空间来解决数据稀缺问题,特别是对于稀有类。特征增强(FA)和特征采样组件都适用于实际训练状态——FA由过去迭代中观察到的真实样本的特征均值和方差决定,我们以自适应损失的方式对生成的虚拟特征进行采样,以避免过度拟合。FASA不需要任何精心设计的损失,并消除了类间迁移学习的需要,因为类间迁移通常涉及大量成本和手动定义的头/尾班组。我们展示了FASA是一种快速、通用的方法,可以很容易地插入到标准或长尾分割框架中,具有一致的性能增益和很少的附加成本。

01

AAAI 2023 Oral | 回归元学习,基于变分特征聚合的少样本目标检测实现新SOTA

机器之心专栏 腾讯优图实验室 少样本目标检测器通常在样本较多的基础类进行训练,然后在样本较少的新颖类上进行微调,其学习到的模型通常偏向于基础类,并且对新颖类样本的方差敏感。为了解决这个问题,腾讯优图实验室联合武汉大学提出了基于变分特征聚合的少样本目标检测模型 VFA,大幅刷新了 FSOD 指标。本工作已入选 AAAI 2023 Oral。 不同于传统的目标检测问题,少样本目标检测(FSOD)假设我们有许多的基础类样本,但只有少量的新颖类样本。其目标是研究如何将基础类的知识迁移到新颖类,进而提升检测器对新颖类

01

DEAP:使用生理信号进行情绪分析的数据库(三、实验分析与结论)

研究人员提出了一个分析人类情感状态的多模态数据集DEAP。该数据集来源于记录32名参与者的脑电图(EEG)和周围生理信号,每个人观看40段一分钟长的音乐视频片段。参与者根据唤醒,效价,喜欢/不喜欢,主导和熟悉程度对每个视频进行评分。在32位参与者中,有22位还录制了正面面部视频。提出了一种新颖的刺激选择方法,该方法通过使用来自last.fm网站的情感标签进行检索,视频高亮检测和在线评估工具来进行。提供了对实验过程中参与者评分的广泛分析。脑电信号频率和参与者的评分之间的相关性进行了调查。提出了使用脑电图,周围生理信号和多媒体内容分析方法对唤醒,效价和喜欢/不喜欢的等级进行单次试验的方法和结果。最后,对来自不同模态的分类结果进行决策融合。该数据集已公开提供,研究人员鼓励其他研究人员将其用于测试他们自己的情感状态估计方法。

02

基于CNN目标检测方法(RCNN,Fast-RCNN,Faster-RCNN,Mask-RCNN,YOLO,SSD)行人检测

对于一张图片,R-CNN基于selective search方法大约生成2000个候选区域,然后每个候选区域被resize成固定大小(227×227)并送入一个CNN模型中,使用AlexNet来提取图像特征,最后得到一个4096维的特征向量。然后这个特征向量被送入一个多类别SVM分类器中,预测出候选区域中所含物体的属于每个类的概率值。每个类别训练一个SVM分类器,从特征向量中推断其属于该类别的概率大小。为了提升定位准确性,R-CNN最后又训练了一个边界框回归模型。训练样本为(P,G),其中P=(Px,Py,Pw,Ph)为候选区域,而G=(Gx,Gy,Gw,Gh)为真实框的位置和大小。G的选择是与P的IoU最大的真实框,回归器的目标值定义为:

01

Dynamic Head: Unifying Object Detection Heads with Attentions

1、摘要 在目标检测中,定位和分类相结合的复杂性导致了方法的蓬勃发展。以往的工作试图提高各种目标检测头的性能,但未能给出一个统一的视图。在本文中,我们提出了一种新的动态头网络框架,以统一目标检测头部与注意。该方法通过将特征层次间、空间位置间、任务感知输出通道内的多自注意机制相结合,在不增加计算开销的情况下显著提高了目标检测头的表示能力。进一步的实验证明了所提出的动态头在COCO基准上的有效性和效率。有了标准的ResNeXt-101-DCN主干网,我们在很大程度上提高了性能,超过了流行的目标检测器,并在54.0 AP达到了新的最先进水平。此外,有了最新的变压器主干网和额外的数据,我们可以将当前的最佳COCO结果推至60.6 AP的新记录。 2、简介 物体检测是回答计算机视觉应用中“什么物体位于什么位置”的问题。在深度学习时代,几乎所有现代目标检测器[11,23,12,35,28,31,33]都具有相同的范式——特征提取的主干和定位和分类任务的头部。如何提高目标检测头的性能已成为现有目标检测工作中的一个关键问题。 开发一个好的目标检测头的挑战可以概括为三类。首先,头部应该是尺度感知的,因为多个具有极大不同尺度的物体经常共存于一幅图像中。其次,头部应该是空间感知的,因为物体通常在不同的视点下以不同的形状、旋转和位置出现。第三,头部需要具有任务感知,因为目标可以有不同的表示形式(例如边界框[12]、中心[28]和角点[33]),它们拥有完全不同的目标和约束。我们发现最近的研究[12,35,28,31,33]只关注于通过各种方式解决上述问题中的一个。如何形成一个统一的、能够同时解决这些问题的头,仍然是一个有待解决的问题。 本文提出了一种新的检测头,即动态头,将尺度感知、空间感知和任务感知结合起来。如果我们把一个主干的输出(即检测头的输入)看作是一个具有维级×空间×通道的三维张量,我们发现这样一个统一的头可以看作是一个注意学习问题。一个直观的解决方案是在这个张量上建立一个完整的自我注意机制。然而,优化问题将是太难解决和计算成本是不可承受的。 相反地,我们可以将注意力机制分别部署在功能的每个特定维度上,即水平层面、空间层面和渠道层面。尺度感知的注意模块只部署在level维度上。它学习不同语义层次的相对重要性,以根据单个对象的规模在适当的层次上增强该特征。空间感知注意模块部署在空间维度上(即高度×宽度)。它学习空间位置上的连贯区别表征。任务感知的注意模块部署在通道上。它根据对象的不同卷积核响应指示不同的特征通道来分别支持不同的任务(如分类、框回归和中心/关键点学习)。 这样,我们明确实现了检测头的统一注意机制。虽然这些注意机制分别应用于特征张量的不同维度,但它们的表现可以相互补充。在MS-COCO基准上的大量实验证明了我们的方法的有效性。它为学习更好的表示提供了很大的潜力,可以利用这种更好的表示来改进所有类型的对象检测模型,AP增益为1:2% ~ 3:2%。采用标准的ResNeXt-101-DCN骨干,所提出的方法在COCO上实现了54:0%的AP新状态。此外,与EffcientDet[27]和SpineNet[8]相比,动态头的训练时间为1=20,但表现更好。此外,通过最新的变压器主干和自我训练的额外数据,我们可以将目前的最佳COCO结果推至60.6 AP的新纪录(详见附录)。 2、相关工作 近年来的研究从尺度感知、空间感知和任务感知三个方面对目标检测器进行了改进。 Scale-awareness. 由于自然图像中经常同时存在不同尺度的物体,许多研究都认为尺度感知在目标检测中的重要性。早期的研究已经证明了利用图像金字塔方法进行多尺度训练的重要性[6,24,25]。代替图像金字塔,特征金字塔[15]被提出,通过将下采样卷积特征串接一个金字塔来提高效率,已经成为现代目标检测器的标准组件。然而,不同层次的特征通常从网络的不同深度中提取,这就造成了明显的语义差距。为了解决这种差异,[18]提出了从特征金字塔中自下而上的路径增强较低层次的特征。后来[20]通过引入平衡采样和平衡特征金字塔对其进行了改进。最近,[31]在改进的三维卷积的基础上提出了一种金字塔卷积,可以同时提取尺度和空间特征。在这项工作中,我们提出了一个尺度感知注意在检测头,使各种特征级别的重要性自适应的输入。 Spatial-awareness. 先前的研究试图提高物体检测中的空间意识,以更好地进行语义学习。卷积神经网络在学习图像[41]中存在的空间变换方面是有限的。一些工作通过增加模型能力(大小)[13,32]或涉及昂贵的数据扩展[14]来缓解这个问题,这导致了在推理和训练中极高的计算成本。随后,提出了新的卷积算子来改进空间变换的学习。[34]提出使用膨胀卷积来聚合来自指数扩展的接受域的上下文信息。[7]提出了一种可变形的卷积来对具有额外自学习偏移量的

02

MIMOSA: 用于分子优化的多约束分子采样

今天给大家介绍一篇佐治亚理工学院Tianfan Fu等人发表在AAAI 2021上的文章“MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization”。分子优化促进药物发现,其目标是产生新的有效分子,使药物特性最大化,同时保持与输入分子的相似性。现有的生成模型和强化学习方法在同时优化多种药物属性方面仍面临一定困难。为此,本文提出多约束分子采样框架—MIMOSA,使用输入分子作为初始采样框架,并从目标分布中采样分子。MIMOSA首先预先训练两个属性不可知图神经网络(GNN),分别用于分子拓扑和子结构类型预测,其中子结构可以是原子或单环。MIMOSA用GNN进行迭代预测,并且采用三种基本的子结构操作(添加、替换、删除)来生成新的分子和相关的权重。权重可以编码多个约束,包括相似性约束和药物属性约束,在此基础上选择有前途的分子进行下一次预测。MIMOSA能够灵活地对多种属性和相似性约束进行编码,且高效地生成满足各种属性约束的新分子,在成功率方面比最佳基线改进高达49.6%。

04

Multimodal UnsupervisedImage-to-Image Translation

无监督图像到图像的翻译是计算机视觉中一个重要且具有挑战性的问题。给定源域中的图像,目标是学习目标域中相应图像的条件分布,而不需要看到任何相应图像对的示例。虽然这种条件分布本质上是多模式的,但现有的方法过于简化了假设,将其建模为确定性的一对一映射。因此,它们无法从给定的源域图像生成不同的输出。为了解决这一限制,我们提出了一种多模式无监督图像到图像翻译(MUNIT)框架。我们假设图像表示可以分解为域不变的内容代码和捕获域特定属性的样式编码。为了将图像翻译到另一个域,我们将其内容编码与从目标域的样式空间采样的随机样式代码重新组合。我们分析了所提出的框架,并建立了几个理论结果。与最先进的方法进行比较的大量实验进一步证明了所提出的框架的优势。此外,我们的框架允许用户通过提供示例风格图像来控制翻译输出的风格。

03
领券