很早之前就对动态权重比较感兴趣,最开始接触动态权重,是17年师兄师姐的一篇论文[1]。动态权重,或者称为自适应权重,可以广泛应用于多场景、多模态、多国家、多任务、多标签等各种任务的不平衡学习中。出于完整性,本文先对不平衡问题进行总结。
语义分割是计算机Vision 中的一项关键任务,需要对输入图像进行精确的像素级分类。在最先进的技术中广泛使用的传统方法,如全卷积网络(FCN),使用深度卷积神经网络(ConvNet)作为编码器或基本模型和分割解码器来生成密集预测。先前的工作旨在通过增强上下文信息或结合多尺度信息来提高性能,利用ConvNet架构固有的多尺度和层次属性。
现有的深度卷积神经网络(CNNs)需要一个固定大小的输入图像(如224×224)。这一要求是“人为的”,可能会降低对任意大小/尺度的图像或子图像的识别精度。在这项工作中,我们为网络配备了另一种池化策略,“空间金字塔池”,以消除上述要求。这种新的网络结构称为SPP-net,可以生成固定长度的表示,而不受图像大小/比例的影响。金字塔池对物体变形也有很强的鲁棒性。基于这些优点,SPP-net一般应改进所有基于cnn的图像分类方法。在ImageNet 2012数据集中,我们证明了SPP-net提高了各种CNN架构的准确性,尽管它们的设计不同。在Pascal VOC 2007和Caltech101数据集中,SPP-net实现了最先进的分类结果使用单一的全图像表示和没有微调。在目标检测中,spp网络的能力也很重要。利用SPP-net算法,只对整个图像进行一次特征映射计算,然后将特征集合到任意区域(子图像),生成固定长度的表示形式,用于训练检测器。该方法避免了卷积特征的重复计算。在处理测试图像时,我们的方法比R-CNN方法快24-102×,而在Pascal VOC 2007上达到了更好或相近的精度。在2014年的ImageNet Large Scale Visual Recognition Challenge (ILSVRC)中,我们的方法在所有38个团队中目标检测排名第二,图像分类排名第三。本文还介绍了本次比赛的改进情况。
Author : Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik
paper链接:https://arxiv.org/abs/1909.00169.pdf
目标检测是计算机视觉领域中的一个基础视觉识别问题,在近几十年得到了广泛研究。视觉目标检测即在给定图像中找出属于特定目标类别的对象及其准确位置,并为每个对象实例分配对应的类别标签。
知识图谱(KGs)包含了许多真实世界的知识,在许多领域都发挥着重要重用,但是大型的知识图谱构建过程需要大量的人工介入。随着语言模型(LMs)的发展,其参数囊括的知识也是极其丰富且应用广泛的,同时语言模型的训练并不需要太多人工干涉。因此,有不少研究证明LMs可以替代KGs,但是这真的是正确的吗?或许我们需要重新审视一下这个观点。
脑电图(EEG)是一个复杂的信号,一个医生可能需要几年的训练并利用先进的信号处理和特征提取方法,才能正确解释其含义。而如今机器学习和深度学习的发展,大量的研究和应用表明它们在从原始数据提取特征并分类方面有很大的潜力。因此这篇综述回顾了从 2010 年到 2018 年的 156 篇将 DL(Deep Learning,深度学习)应用在 EEG 的文章,这些论文涵盖了不同的应用领域,如枕测、睡眠、脑机接口、认知和情感监测,并从大量的文献中提取趋势并突出有趣的方法,以便为未来的研究提供信息并制定建议。
为什么学习统计学习?理解不同技术背后的理念非常重要,它可以帮助你了解如何使用以及什么时候使用。同时,准确评估一种方法的性能也非常重要,因为它能告诉我们某种方法在特定问题上的表现。此外,统计学习也是一个很有意思的研究领域,在科学、工业和金融领域都有重要的应用。最后,统计学习是训练现代数据科学家的基础组成部分。 统计学习方法的经典研究主题包括: 线性回归模型 感知机 k 近邻法 朴素贝叶斯法 决策树 Logistic 回归与最大熵模型 支持向量机 提升方法 EM 算法 隐马尔可夫模型 条件随机场 之后我将介绍
为什么学习统计学习?理解不同技术背后的理念非常重要,它可以帮助你了解如何使用以及什么时候使用。同时,准确评估一种方法的性能也非常重要,因为它能告诉我们某种方法在特定问题上的表现。此外,统计学习也是一个
本文提出了一个使用单一深度神经网络对图像中的目标进行检测的方法。本文的方法称为SSD,根据每个feature map位置不同的宽高比和尺度,将Bounding Box的输出离散为Bounding Box先验的集合。在预测时,网络产生置信度,认为每个先验对应感兴趣的目标,并对先验进行调整,以便更好地匹配目标的形状。此外,该网络结合了来自具有不同分辨率的多个特征图的预测,以自然地处理不同大小的目标。SSD模型相对于需要目标建议的方法(如R-CNN和MultiBox)是简单的,因为它完全抛弃了生成建议的步骤,并将所有计算封装在一个网络中。这使得SSD易于训练,并且易于集成到需要检测组件的系统中。在ILSVRC DET和PASCAL VOC数据集上的实验结果证实,SSD的性能与使用目标建议步骤的方法相当,但速度要快100-1000倍。与其他单阶段方法相比,SSD具有相似或更好的性能,为训练和推理提供了统一的框架。
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 17 个在目标检测任务上曾取得 SOTA 的经典模型。 第 1 期:R-CNN、SPP-Net、Fast R-CNN、Faster R-C
当初写这篇博客的初衷只是记录自己学习SSD的一些心得体会,纯属学习笔记,后来由于工作上的需要,需要对小伙伴进行目标检测方面的培训,后来就基于这篇博客进行了扩展,逐渐演变成了现在的样子,本文力求从一个初学者的角度去讲述目标检测和SSD(但是需要你具备CNN的基础),尽量使用通俗的语言并结合图表的方式让更多初学者更容易理解SSD这个算法,但是一个人的时间精力有限,不可能深入理解SSD的每一个细节,加上表达能力也有限,自己理解了的东西不一定在文中能够说明白,文中有什么不妥的地方,欢迎大家批评指正,也欢迎留言一起交流讨论。
模式分类(pattern classification)和机器学习(machine learning)是非常热的话题,几乎在所有的现代应用程序中都得到了应用:例如邮局中的光学字符识别(OCR),电子邮件过滤,超市条形码扫描,等等。 在这篇文章中,我会简要描述一个典型的监督学习任务的主要概念,这些概念将作为将来的文章和实现各种学习算法的基础。 机器学习和模式分类 预测建模是建立一个能够进行预测的模型的通用概念。通常情况下,这样的模型包括一个机器学习算法,以便从训练数据集中学习某些属性做出这些预测。 预测建模可
作者:Xiongwei Wu, Doyen Sahoo, Steven C.H. Hoi
遥感图像处理是数字图像处理技术中的一个重要组成部分,长期以来被广泛应用于农林业的遥感测绘,防灾减灾等领域。本文旨在通过深度学习技术从遥感影像中分类出农田和林业地块。手工从遥感图像中分类出农田和林业区域分类虽然准确但是效率低下,并且很多采用传统图像分割技术的方法泛化性能差,不适合场景复杂的遥感图像。经实践证明,使用深度学习技术在各种计算机视觉任务中都取得了良好的效果,因此本文首先使用先进的深度学习框架进行分类实验,例如使用PSPNet,UNet等作为分割网络对遥感图像数据集进行分类与分割训练。这些框架在ImageNet,COCO,VOC等数据集上表现很好,但是由于遥感图像数据集相对于ImageNet,COCO等数据集,不仅检测对象相对较小而且可供学习的数据集样本较少,需要针对这一特点进行优化。本文经过多次实验将高分辨率的图像切割成合适大小分辨率的图像以减小神经网络的输入,同时进行图片的预处理和数据增强来丰富学习样本。同时在真实情况下,农林区域易受到拍摄视角,光照等造成分割对象重叠,因此本文提出一种处理分割对象重叠的处理策略,来优化边界预测不准确的情况,使用该方法后准确率有明显提升。经实验证明,本文所提出的基于深度学习的农林业遥感影像分割在开源遥感图像数据集上的取得了94.08%的准确率,具有较高的研究价值 农林业遥感图像数据(图1)对于许多与农林业相关的应用至关重要。例如作物类型和产量监测,防灾减灾以及对粮食安全工作的研究和决策支持。最初,这些数据主要由政府机构使用。如今,蓬勃发展的农林业技术也需要在农场管理,产量预测和林业规划等各种应用领域进行革新。以往农林业地块的高质量遥感图像数据主要是手动在高分辨率图像中分割出来的,即通过土地功能不同引起的颜色,亮度或纹理的差异与周围区域 亮度或纹理的差异与周围区域区分开来。尽管农林业遥感图像的手动分类可以非常准确,但是非常耗时耗力。 图1.1:农田的遥感图像分割 定期更新农林业遥感图像数据的需求日益增加扩大了自动化分割农林业遥感图像的需求。 与ImageNet、VOC2007、COCO等目标检测/分类数据集中的大多数图像相比,农林业遥感图像中的对象相对简单。例如,人体的图像数据看起来要复杂得多,因为它包含各种不同纹理和形状的子对象(面部,手部,衣服等)。因此,优化传统的图像分割以及深度学习技术来设计用于农林业遥感图像分割的算法是非常重要的。该模型需要正确地排除不需要进行分割的对象(房屋,工厂,停车场等),区分具有几乎相似的光谱特性的相邻区域和可见度差的边界区域,并且正确地分割出所需的对象。 1.2 选题来源与经费支持 本研究课题来源于计算机与信息工程学院 随着传感器技术,航空航天技术,图像处理技术快速的发展,利用卫星遥感图像进行深度学习处理广泛应用于生产实际中。由于农林业遥感图像场景复杂,使用传统图像处理分割算法效果差且泛化性能弱,本文使用深度学习方法,在现有的的深度学习模型上训练,优化,最终提出一种一种优化后的深度学习模型,经测试,该模型在收集的农林业遥感图像数据集上可以准确的分割出所需的对象,本文提出的模型主要解决如下几个难点:
选自KDnuggets 作者:James Le 机器之心编译 参与:路雪、刘晓坤、蒋思源 「数据科学家比程序员擅长统计,比统计学家擅长编程。」本文介绍了数据科学家需要掌握的十大统计技术,包括线性回归、分类、重采样、降维、无监督学习等。 不管你对数据科学持什么态度,都不可能忽略分析、组织和梳理数据的重要性。Glassdoor 网站根据大量雇主和员工的反馈数据制作了「美国最好的 25 个职位」榜单,其中第一名就是数据科学家。尽管排名已经顶尖了,但数据科学家的工作内容一定不会就此止步。随着深度学习等技术越来越普遍
不管你对数据科学持什么态度,都不可能忽略分析、组织和梳理数据的重要性。Glassdoor 网站根据大量雇主和员工的反馈数据制作了「美国最好的 25 个职位」榜单,其中第一名就是数据科学家。尽管排名已经顶尖了,但数据科学家的工作内容一定不会就此止步。随着深度学习等技术越来越普遍、深度学习等热门领域越来越受到研究者和工程师以及雇佣他们的企业的关注,数据科学家继续走在创新和技术进步的前沿。
目标检测(Object Detection) 就是一种基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,通俗点说就是给定一张图片要精确的定位到物体所在位置,并完成对物体类别的识别。其准确性和实时性是整个系统的一项重要能力。
最近的长尾实例分割方法在训练数据很少的稀有目标类上仍然很困难。我们提出了一种简单而有效的方法,即特征增强和采样自适应(FASA),该方法通过增强特征空间来解决数据稀缺问题,特别是对于稀有类。特征增强(FA)和特征采样组件都适用于实际训练状态——FA由过去迭代中观察到的真实样本的特征均值和方差决定,我们以自适应损失的方式对生成的虚拟特征进行采样,以避免过度拟合。FASA不需要任何精心设计的损失,并消除了类间迁移学习的需要,因为类间迁移通常涉及大量成本和手动定义的头/尾班组。我们展示了FASA是一种快速、通用的方法,可以很容易地插入到标准或长尾分割框架中,具有一致的性能增益和很少的附加成本。
代码地址:https://github.com/aloyschen/tensorflow-yolo3
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 19 个在图像分割任务上曾取得 SOTA 的经典模型。 第 1 期:FCN、ReSeg、U-Net、ParseNet、DeepMask、S
机器之心专栏 腾讯优图实验室 少样本目标检测器通常在样本较多的基础类进行训练,然后在样本较少的新颖类上进行微调,其学习到的模型通常偏向于基础类,并且对新颖类样本的方差敏感。为了解决这个问题,腾讯优图实验室联合武汉大学提出了基于变分特征聚合的少样本目标检测模型 VFA,大幅刷新了 FSOD 指标。本工作已入选 AAAI 2023 Oral。 不同于传统的目标检测问题,少样本目标检测(FSOD)假设我们有许多的基础类样本,但只有少量的新颖类样本。其目标是研究如何将基础类的知识迁移到新颖类,进而提升检测器对新颖类
论文: Incremental Few-Shot Object Detection
计算机视觉中最基本和最广泛研究的挑战之一是目标检测。该任务旨在在给定图像中绘制多个对象边界框,这在包括自动驾驶在内的许多领域非常重要。通常,这些目标检测算法可以分为两类:单阶段模型和多阶段模型。在这篇文章中,我们将通过回顾该领域一些最重要的论文,深入探讨用于对象检测的多阶段管道的关键见解。
基于视觉的3D占用预测旨在估计周围 ego-vehicle 所包围的 3D Voxel 的空间占用状态,这为 3D 场景提供了全面的 3D 理解。通过将整个空间划分为 Voxel 并预测其占用和语义信息,3D 占用网络赋予了通用的物体表示能力,其中超出词汇的物体和异常情况可以很容易地表示为 _[占用;未知]_。
2014年R-CNN横空出世,首次将卷积神经网络带入目标检测领域。受SPPnet启发,rbg在15年发表Fast R-CNN,它的构思精巧,流程更为紧凑,大幅提高目标检测速度。
研究人员提出了一个分析人类情感状态的多模态数据集DEAP。该数据集来源于记录32名参与者的脑电图(EEG)和周围生理信号,每个人观看40段一分钟长的音乐视频片段。参与者根据唤醒,效价,喜欢/不喜欢,主导和熟悉程度对每个视频进行评分。在32位参与者中,有22位还录制了正面面部视频。提出了一种新颖的刺激选择方法,该方法通过使用来自last.fm网站的情感标签进行检索,视频高亮检测和在线评估工具来进行。提供了对实验过程中参与者评分的广泛分析。脑电信号频率和参与者的评分之间的相关性进行了调查。提出了使用脑电图,周围生理信号和多媒体内容分析方法对唤醒,效价和喜欢/不喜欢的等级进行单次试验的方法和结果。最后,对来自不同模态的分类结果进行决策融合。该数据集已公开提供,研究人员鼓励其他研究人员将其用于测试他们自己的情感状态估计方法。
本文就Image Segmentation Using Deep Learning: A Survey 第三章的模型进行了分析和介绍,第一第二章的基础指示可以看原文进行学习,相关知识有很多这里就不班门弄斧了。 最好是一边读原文一边看本文效果更佳原文连接 能力有限,水平一般,抱着学习的态度分享此文,有不准确的地方还请各位大佬斧正!
对于一张图片,R-CNN基于selective search方法大约生成2000个候选区域,然后每个候选区域被resize成固定大小(227×227)并送入一个CNN模型中,使用AlexNet来提取图像特征,最后得到一个4096维的特征向量。然后这个特征向量被送入一个多类别SVM分类器中,预测出候选区域中所含物体的属于每个类的概率值。每个类别训练一个SVM分类器,从特征向量中推断其属于该类别的概率大小。为了提升定位准确性,R-CNN最后又训练了一个边界框回归模型。训练样本为(P,G),其中P=(Px,Py,Pw,Ph)为候选区域,而G=(Gx,Gy,Gw,Gh)为真实框的位置和大小。G的选择是与P的IoU最大的真实框,回归器的目标值定义为:
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 16 个在目标检测任务上曾取得 SOTA 的经典模型。 第 1 期:R-CNN、SPP-Net、Fast R-CNN、Faster R-C
Mask RCNN是何凯明大神以及Faster RCNN作者Ross B. Girshick等多人发表于ICCV 2017。我们知道对于图像分类来说
语义分割(Semantic Segmentation)是图像处理和机器视觉一个重要分支,其目标是精确理解图像场景与内容。语义分割是在像素级别上的分类,属于同一类的像素都要被归为一类,因此语义分割是从像素级别来理解图像的。如下如所示的照片,属于人的像素部分划分成一类,属于摩托车的像素划分成一类,背景像素划分为一类。
1、摘要 在目标检测中,定位和分类相结合的复杂性导致了方法的蓬勃发展。以往的工作试图提高各种目标检测头的性能,但未能给出一个统一的视图。在本文中,我们提出了一种新的动态头网络框架,以统一目标检测头部与注意。该方法通过将特征层次间、空间位置间、任务感知输出通道内的多自注意机制相结合,在不增加计算开销的情况下显著提高了目标检测头的表示能力。进一步的实验证明了所提出的动态头在COCO基准上的有效性和效率。有了标准的ResNeXt-101-DCN主干网,我们在很大程度上提高了性能,超过了流行的目标检测器,并在54.0 AP达到了新的最先进水平。此外,有了最新的变压器主干网和额外的数据,我们可以将当前的最佳COCO结果推至60.6 AP的新记录。 2、简介 物体检测是回答计算机视觉应用中“什么物体位于什么位置”的问题。在深度学习时代,几乎所有现代目标检测器[11,23,12,35,28,31,33]都具有相同的范式——特征提取的主干和定位和分类任务的头部。如何提高目标检测头的性能已成为现有目标检测工作中的一个关键问题。 开发一个好的目标检测头的挑战可以概括为三类。首先,头部应该是尺度感知的,因为多个具有极大不同尺度的物体经常共存于一幅图像中。其次,头部应该是空间感知的,因为物体通常在不同的视点下以不同的形状、旋转和位置出现。第三,头部需要具有任务感知,因为目标可以有不同的表示形式(例如边界框[12]、中心[28]和角点[33]),它们拥有完全不同的目标和约束。我们发现最近的研究[12,35,28,31,33]只关注于通过各种方式解决上述问题中的一个。如何形成一个统一的、能够同时解决这些问题的头,仍然是一个有待解决的问题。 本文提出了一种新的检测头,即动态头,将尺度感知、空间感知和任务感知结合起来。如果我们把一个主干的输出(即检测头的输入)看作是一个具有维级×空间×通道的三维张量,我们发现这样一个统一的头可以看作是一个注意学习问题。一个直观的解决方案是在这个张量上建立一个完整的自我注意机制。然而,优化问题将是太难解决和计算成本是不可承受的。 相反地,我们可以将注意力机制分别部署在功能的每个特定维度上,即水平层面、空间层面和渠道层面。尺度感知的注意模块只部署在level维度上。它学习不同语义层次的相对重要性,以根据单个对象的规模在适当的层次上增强该特征。空间感知注意模块部署在空间维度上(即高度×宽度)。它学习空间位置上的连贯区别表征。任务感知的注意模块部署在通道上。它根据对象的不同卷积核响应指示不同的特征通道来分别支持不同的任务(如分类、框回归和中心/关键点学习)。 这样,我们明确实现了检测头的统一注意机制。虽然这些注意机制分别应用于特征张量的不同维度,但它们的表现可以相互补充。在MS-COCO基准上的大量实验证明了我们的方法的有效性。它为学习更好的表示提供了很大的潜力,可以利用这种更好的表示来改进所有类型的对象检测模型,AP增益为1:2% ~ 3:2%。采用标准的ResNeXt-101-DCN骨干,所提出的方法在COCO上实现了54:0%的AP新状态。此外,与EffcientDet[27]和SpineNet[8]相比,动态头的训练时间为1=20,但表现更好。此外,通过最新的变压器主干和自我训练的额外数据,我们可以将目前的最佳COCO结果推至60.6 AP的新纪录(详见附录)。 2、相关工作 近年来的研究从尺度感知、空间感知和任务感知三个方面对目标检测器进行了改进。 Scale-awareness. 由于自然图像中经常同时存在不同尺度的物体,许多研究都认为尺度感知在目标检测中的重要性。早期的研究已经证明了利用图像金字塔方法进行多尺度训练的重要性[6,24,25]。代替图像金字塔,特征金字塔[15]被提出,通过将下采样卷积特征串接一个金字塔来提高效率,已经成为现代目标检测器的标准组件。然而,不同层次的特征通常从网络的不同深度中提取,这就造成了明显的语义差距。为了解决这种差异,[18]提出了从特征金字塔中自下而上的路径增强较低层次的特征。后来[20]通过引入平衡采样和平衡特征金字塔对其进行了改进。最近,[31]在改进的三维卷积的基础上提出了一种金字塔卷积,可以同时提取尺度和空间特征。在这项工作中,我们提出了一个尺度感知注意在检测头,使各种特征级别的重要性自适应的输入。 Spatial-awareness. 先前的研究试图提高物体检测中的空间意识,以更好地进行语义学习。卷积神经网络在学习图像[41]中存在的空间变换方面是有限的。一些工作通过增加模型能力(大小)[13,32]或涉及昂贵的数据扩展[14]来缓解这个问题,这导致了在推理和训练中极高的计算成本。随后,提出了新的卷积算子来改进空间变换的学习。[34]提出使用膨胀卷积来聚合来自指数扩展的接受域的上下文信息。[7]提出了一种可变形的卷积来对具有额外自学习偏移量的
翻译 | 王柯凝 编辑 | Just 出品 | 人工智能头条(公众号ID:AI_Thinker) ▌介绍 关于卷积神经网络从交通灯识别到更实际的应用,我经常听到这样一个问题:“会否出现一种深度学习“魔法”,它仅用图像作为单一输入就能判断出食物质量的好坏?”简而言之,在商业中需要的就是这个: 当企业家面对机器学习时,他们是这样想的:欧姆蛋的“质量(quality)”是好的 这是一个不适定问题的例子:解决方案是否存在,解决方案是否唯一且稳定还没办法确定,因为“完成”的定义非常模糊(更不用说实现了)。虽然
近年来,随着深度学习的快速发展,基于卷积神经网络(CNN)的计算机视觉技术在工业领域得到了广泛的应用。目前,机器视觉表面缺陷检测是CNN在工业上最成熟的应用之一。接下来我们将介绍深度学习在表面缺陷检测领域的概述。
Fast-RCNN基本实现端对端(除了proposal阶段外),下一步自然就是要把proposal阶段也用CNN实现(放到GPU上)。这就出现了Faster-RCNN,一个完全end-to-end的CNN对象检测模型。
今天给大家介绍一篇佐治亚理工学院Tianfan Fu等人发表在AAAI 2021上的文章“MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization”。分子优化促进药物发现,其目标是产生新的有效分子,使药物特性最大化,同时保持与输入分子的相似性。现有的生成模型和强化学习方法在同时优化多种药物属性方面仍面临一定困难。为此,本文提出多约束分子采样框架—MIMOSA,使用输入分子作为初始采样框架,并从目标分布中采样分子。MIMOSA首先预先训练两个属性不可知图神经网络(GNN),分别用于分子拓扑和子结构类型预测,其中子结构可以是原子或单环。MIMOSA用GNN进行迭代预测,并且采用三种基本的子结构操作(添加、替换、删除)来生成新的分子和相关的权重。权重可以编码多个约束,包括相似性约束和药物属性约束,在此基础上选择有前途的分子进行下一次预测。MIMOSA能够灵活地对多种属性和相似性约束进行编码,且高效地生成满足各种属性约束的新分子,在成功率方面比最佳基线改进高达49.6%。
本文为《A comprehensive survey of LIDAR-based 3D object detection methods with deep learning for autonomous driving》译文的基础上稍作修改提炼,方便大家学习理解。
深度学习算法解决了数个难度级别逐渐上升的计算机视觉任务。在我先前的博文中,我已详细阐述了广为人知的两个任务:图像分类和目标检测。图像语义分割的难点在于将各个像素点分类到某一实例,再将各个实例(分类结果)与实体(大象,人,道路,天空等)一一对应。这任务即场景理解的一部分:深度学习模型怎样能更好地学习视觉内容的全局语境?
翻译 | 人工智能头条(ID:AI_Thinker) 参与 | 林椿眄 本文概述了 Facebook AI Research(FAIR)近期在计算机视觉领域的研究进展,内容主要包括基础结构模块的创新、卷积神经网络、one shot 检测模块等,以及一些在实例分割方面的创新方法,并介绍了弱半监督学习方式下实例分割的研究进展。下面将逐一介绍,文中的一些引用可在文末的参考文献中找到。 ▌Feature Pyramid Networks( 特征金字塔网络) 首先,我们要介绍的是著名的特征金字塔网络[1](这是发表在
在深度学习时代,目标检测取得了显著的进展,但高度依赖昂贵的人工标注。因此,半监督学习越来越受到研究兴趣的青睐,它利用 未标注 数据来提高检测器性能,而不只是依赖标注。
作者:Jingyi Wang, Yu Liu, Hanlin Tan, Maojun Zhang
又有一周没更新了,不知道进入研究生阶段写博客时间为什么这么上。上周四接到自己第一本书的三审意见需要进行修改。本想着慢慢修改的,结果上周五晚上接到通知北京印刷厂为迎国庆9月开始停业直至10月下旬。没办法必须为新书修改让路,像赶在8月末上式,虽然不知道能不能在8月末把书印出来。这也导致本应该周末整理完Fast R-CNN的笔记有拖了一周。
无监督图像到图像的翻译是计算机视觉中一个重要且具有挑战性的问题。给定源域中的图像,目标是学习目标域中相应图像的条件分布,而不需要看到任何相应图像对的示例。虽然这种条件分布本质上是多模式的,但现有的方法过于简化了假设,将其建模为确定性的一对一映射。因此,它们无法从给定的源域图像生成不同的输出。为了解决这一限制,我们提出了一种多模式无监督图像到图像翻译(MUNIT)框架。我们假设图像表示可以分解为域不变的内容代码和捕获域特定属性的样式编码。为了将图像翻译到另一个域,我们将其内容编码与从目标域的样式空间采样的随机样式代码重新组合。我们分析了所提出的框架,并建立了几个理论结果。与最先进的方法进行比较的大量实验进一步证明了所提出的框架的优势。此外,我们的框架允许用户通过提供示例风格图像来控制翻译输出的风格。
YouTube 等在线视频共享平台需要了解感知视频质量(即用户对视频质量的主观感知),以便更好地优化和改善用户体验。视频质量评估(VQA)试图通过使用客观的数学模型来模拟用户的主观意见,建立视频信号和感知质量之间的联系。传统的视频质量指标,例如峰值信噪比 (PSNR) 和视频多方法评估融合 (VMAF),都是基于参考的,重点关注的是目标视频和参考视频之间的相对差异。这些指标很适合专业生成的内容(PGC),例如电影等。它们假设参考视频具有原始质量,并从相对差异中推断出目标视频的绝对质量。
大数据文摘授权转载自AI科技评论 编译:Jocelyn 编辑:陈彩娴 本文对视觉-语言(VL)智能按时间顺序进行了全面调研,并将这一领域的发展总结为三个阶段: 第一个阶段是2014-2018年,其间,专门的模型被设计用于不同的任务。第二个时代是2019-2021年,在此期间,通过使用有着高质量标签的VL数据集进行预训练,神经网络模型能够学习视觉和语言的联合表征。最后,随着2021年CLIP的出现,第三个时代开始了,此时研究人员寻求在更大的弱标签数据集上预训练VL模型,并通过VL预训练获得性能强大的基于零样
领取专属 10元无门槛券
手把手带您无忧上云