文中所有蓝色字体均为链接,部分外部链接无法在文章内部直接跳转,请点击阅读原文以访问链接。
来源:机器之心本文约2000字,建议阅读5分钟本文教你以不同方式修改图像属性来更改其分类器输出。 本文中,来自谷歌、 希伯来大学、 MIT 等机构的研究者提出了一种新的分类器可视化解释方法——StylEx,该方法能以不同方式修改图像属性来更改其分类器输出。 神经网络可以非常出色地执行各种任务,但它们是如何做出决定的呢?例如,在图像分类任务中,模型是如何确定一张图像属于这一类而不是属于另一类,这通常是一个谜题。解释神经网络如何做决策的过程,可能会在某些领域产生重大的社会影响,例如医学图像分析和自动驾驶。 以前
神经网络可以非常出色地执行各种任务,但它们是如何做出决定的呢?例如,在图像分类任务中,模型是如何确定一张图像属于这一类而不是属于另一类,这通常是一个谜题。解释神经网络如何做决策的过程,可能会在某些领域产生重大的社会影响,例如医学图像分析和自动驾驶。
大家好,我是阿潘,今天给大家分享一篇最新的成果《Explaining in Style: Training a GAN to explain a classifier in StyleSpace》,以前对分类器进行视觉解释的方法,例如注意力图突出显示图像中的哪些区域影响分类,但它们没有解释 这些区域内的【属性】决定了分类结果。本文提出了一种新的分类器视觉解释方法。StylEx 会自动发现和可视化影响分类器的【解耦属性】。它允许通过单独操作这些属性来探索单个属性的影响(更改一个属性不会影响其他属性)
CVPR2018: Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatio-tempora
【新智元导读】如今,网络中每天会产生海量的图像文件,而对于这些图片进行安全性鉴定是非常有必要的。很多公司都会使用图像鉴定API对裸露或违法照片进行自动过滤和修改。本文便实现并比较了谷歌、微软、亚马逊等公司的鉴定API能力。
这是前一篇文章的继续,在这第篇文章中,我们将讨论纹理分析在图像分类中的重要性,以及如何在深度学习中使用纹理分析。
今天将分享预测糖尿病黄斑病变 (DM) 患者的抗 VEGF 治疗结果完整实现版本,为了方便大家学习理解整个流程,将整个流程步骤进行了整理,并给出详细的步骤结果。感兴趣的朋友赶紧动手试一试吧。
ML.NET 是 Microsoft 开源的针对 .NET 应用程序的 跨平台机器学习库,允许您使用 C#、F# 或任何其他 .NET 语言执行机器学习任务。此外,ML.NET 支持在其他机器学习框架中构建的模型,如TensorFlow,ONNX,PyTorch 等,它也具有极高的性能,可用于各种机器学习任务。
ECCV 2020已圆满落幕。会议收到了1360篇论文投稿,其中包含104篇Oral论文、160篇Spotlight论文和1096篇Poster论文。为了更好地了解ECCV 2020的会议内容,来自深度学习专业的博士生Yassine Ouali整理了论文投稿的数据,并从以下五大主题总结了一些取得突破性成就的论文,对其进行了简要概述:
机器之心发布 作者:Hongge Chen 近日,针对深度学习系统的对抗性样本攻击问题,来自麻省理工学院,加州大学戴维斯分校,IBM Research 和腾讯 AI Lab 的学者在 arXiv 上发表论文提出对于神经网络图像标注系统(neural image captioning system)的对抗样本生成方法。实验结果显示图像标注系统能够很容易地被欺骗。 深度学习系统正在越来越广泛地应用于各种场景中,帮助人类完成许多繁琐的工作。但是在很多方面上,计算机科学家们并不完全理解深度学习的工作机理。最近的研究
本文分享论文『Prompting Visual-Language Models for Efficient Video Understanding』,用 CLIP 做多个视频任务!上交&牛津提出基于 Prompt 将CLIP 拓展到多个视频任务,在 open-set 场景中效果极佳!
原文链接 / https://yassouali.github.io/ml-blog/eccv2020/
与我的CVPR2020帖子类似,为了了解今年会议的总体趋势,我将在这篇博客文章中总结一些引起我注意的论文(列出一些),并对整个会议进行概括。
作者:Qiantong Xu、Gao Huang、Yang Yuan、Chuan Guo、Yu Sun、Felix Wu、Kilian Weinberger
对于离散值预测问题,我们可以使用诸如softmax回归这样的分类模型。softmax回归模型有多个输出单元。本章以softmax回归模型为例,介绍神经网络中的分类模型。
近年来,机器学习的进步使我们仅用几行代码就能生成惊为天人的艺术作品。如果可以将艺术作品的原型设计速度提高100倍,让用户真正地与创作媒介合为一体,效果会怎么样呢? 如果我们可以用机器学习的模式来扩展生物学习的模式,那么机器显然不是我们的艺术竞争对手,而是提高我们艺术创造力的途径。 本期,Siraj将教大家通过在Keras中用TensorFlow后端编写Python脚本,把原图像变成任意艺术家的风格,从而实现风格迁移。 【雷锋字幕组】招募进行时 我们是一个由海内外优秀开发者组成的志愿者团队,致力于经典机器学习
来源:Paperweekly本文约3300字,建议阅读9分钟本次文章介绍我们于 ICME-2022 发表的一项通过定位语义块来加速图像分类的工作。 论文标题: Localizing Semantic Patches for Accelerating Image Classification 论文链接: https://arxiv.org/pdf/2206.03367.pdf 代码链接: https://github.com/winycg/AnchorNet 01. 引言 本文的动机在于输入图片中通常存在大
深度卷积神经网络最近在一系列图像识别基准测试中取得了最先进的性能,包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络,它预测一个边界框和图像中每个目标类别的置信度得分。这样的模型捕获目标周围的整个图像上下文,但是如果不天真地复制每个实例的输出数量,就不能处理图像中相同目标的多个实例。在这项工作中,我们提出了一个显著性激发的神经网络模型用于检测,它预测了一组与类无关的边界框,以及每个框的一个得分,对应于它包含任何感兴趣的目标的可能性。模型自然地为每个类处理可变数量的实例,并允许在网络的最高级别进行跨类泛化。我们能够在VOC2007和ILSVRC2012上获得具有竞争力的识别性能,同时只使用每张图像中预测的前几个位置和少量的神经网络评估。
译者 | 王柯凝 【 AI 科技大本营导读】目前,计算机视觉是深度学习领域最热门的研究领域之一。计算机视觉实际上是一个跨领域的交叉学科,包括计算机科学(图形、算法、理论、系统、体系结构),数学(信息检索、机器学习),工程学(机器人、语音、自然语言处理、图像处理),物理学(光学 ),生物学(神经科学)和心理学(认知科学)等等。许多科学家认为,计算机视觉为人工智能的发展开拓了道路。 那么什么是计算机视觉呢? 这里给出了几个比较严谨的定义: ✦ “对图像中的客观对象构建明确而有意义的描述”(Ballard&B
目前,计算机视觉是深度学习领域最热门的研究领域之一。计算机视觉实际上是一个跨领域的交叉学科,包括计算机科学(图形、算法、理论、系统、体系结构),数学(信息检索、机器学习),工程学(机器人、语音、自然语言处理、图像处理),物理学(光学 ),生物学(神经科学)和心理学(认知科学)等等。许多科学家认为,计算机视觉为人工智能的发展开拓了道路。
本报告从三个方面介绍基于概率主题模型的高分辨率遥感图像非监督语义分割,首先介绍语义分割基本的内涵和完成语义分割所涉及到的一些方法,其次介绍一些常见的概率主题模型,最后介绍一些简单的应用。
对于许多任务来说,收集注释良好的图像数据集来训练现代机器学习算法的成本高得令人望而却步。一个吸引人的替代方案是渲染合成数据,其中地面实况注释是自动生成的。不幸的是,纯基于渲染图像训练的模型往往无法推广到真实图像。为了解决这一缺点,先前的工作引入了无监督的领域自适应算法,该算法试图在两个领域之间映射表示或学习提取领域不变的特征。在这项工作中,我们提出了一种新的方法,以无监督的方式学习像素空间中从一个域到另一个域的转换。我们基于生成对抗性网络(GAN)的模型使源域图像看起来像是从目标域绘制的。我们的方法不仅产生了合理的样本,而且在许多无监督的领域自适应场景中以很大的优势优于最先进的方法。最后,我们证明了适应过程可以推广到训练过程中看不到的目标类。
人脸识别的可解释性是深度学习领域中的一个很大挑战,当前的方法通常缺乏网络比较和量化可解释结果的真相。本文作者定义了一种新的评估方案,称为“修复游戏”,通过生成一个网络注意力图,为量化评价哪些图像区域有助于人脸匹配提供了基本事实。
2020年,通用模型产生了经济价值,特别是GPT-3,它的出现证明了大型语言模型具有惊人的语言能力,并且在执行其他任务方面也毫不逊色。
你可能不会做披萨饼,但现在你的深度学习模型已经学会了。麻省理工学院最新发布的深度学习模型PizzaGAN通过基于组合层的GAN模型来学习如何训练GAN模型以识别制作披萨饼。 该模型分为两部分:
假设您的系统是使用复杂的机器学习流水线构建的, 并且您希望提高系统的性能。你应该在哪些方面努力改进?通过将错误归因于流水线的特定组件, 您可以决定如何排定工作的优先级。
目前计算机视觉(CV,Computer Vision)与自然语言处理(NLP,Natural Language Process)是深度学习的主要研究领域。而计算机视觉的三大任务是图像分类、目标检测和目标分割。
之前我们介绍了使用 Keras 和深度学习的多标签分类(multi-label classification),参阅 https://goo.gl/e8RXtV。今天我们将讨论一种更为先进的技术——多输出分类(multi-output classification)。
新智元专栏 作者:张皓(南京大学) 【新智元导读】深度学习目前已成为发展最快、最令人兴奋的机器学习领域之一。本文以计算机视觉的重要概念为线索,介绍深度学习在计算机视觉任务中的应用,包括网络压缩、细粒度图像分类、看图说话、视觉问答、图像理解、纹理生成和风格迁移、人脸识别、图像检索、目标跟踪等。 网络压缩(network compression) 尽管深度神经网络取得了优异的性能,但巨大的计算和存储开销成为其部署在实际应用中的挑战。有研究表明,神经网络中的参数存在大量的冗余。因此,有许多工作致力于在保
在一些社交媒体平台,每次你上传照片或视频时,它的人脸识别系统会试图从这些照片和视频中得到更多信息。比如,这些算法会提取关于你是谁、你的位置以及你认识的其他人的数据,并且,这些算法在不断改进。
事实证明,深度学习在大量标记数据的学习中是非常有效的。很少有shot learning,相反,试图学习只有少数标签数据。
【新智元导读】深度学习目前已成为发展最快、最令人兴奋的机器学习领域之一。本文以计算机视觉的重要概念为线索,介绍深度学习在计算机视觉任务中的应用,包括网络压缩、细粒度图像分类、看图说话、视觉问答、图像理解、纹理生成和风格迁移、人脸识别、图像检索、目标跟踪等。 网络压缩(network compression) 尽管深度神经网络取得了优异的性能,但巨大的计算和存储开销成为其部署在实际应用中的挑战。有研究表明,神经网络中的参数存在大量的冗余。因此,有许多工作致力于在保证准确率的同时降低网路复杂度。 低秩近似
作者 | 张皓(南京大学) 引言 深度学习目前已成为发展最快、最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高质量的开源深度学习框架可供使用。然而,论文通常非常简明扼要并假设读
这是译自斯坦福CS231n课程笔记image classification notes,由课程教师Andrej Karpathy授权进行翻译。本篇教程由杜客翻译完成。非常感谢那些无偿奉献的大师,在此代表所有爱好学习者向您们致敬,谢谢!
声音也是识别对象的一种重要数据源。其中根据声音来识别声音所处的环境也是语音识别的研究内容之一。今天对NIPS 2016年的这篇文章SoundNet: Learning Sound Representations from Unlabeled Video,(论文项目所在地址为:https://projects.csail.mit.edu/soundnet/)进行了复现,觉得这篇文章的做法挺有意义的。
本次课将首先介绍生成模型的概念以及适用场景。进一步讲解基于能量的模型,包括受限玻尔兹曼机(RBM)和深度玻尔兹曼机等。它们既是早期的神经网络模型,也是经典的生成模型。接着介绍目前常见的深度生成模型,包括自编码器和变分自编码器。最后,介绍生成对抗网络(GAN)及其变种。
基于扩散模型的解码器能够通过给定信息的解码器,生成很多不一样的图片 ,语义信息和风格比较接近,只是细节不一样。
【导读】神经网络在计算机视觉领域有着广泛的应用。只要稍加变形,同样的工具和技术就可以有效地应用于广泛的任务。在本文中,我们将介绍其中的几个应用程序和方法,包括语义分割、分类与定位、目标检测、实例分割。
由于没有实例级类别标注,对于弱监督目标检测网络要精确的预测目标的位置具有挑战性。大多数现有的方法倾向于通过使用双阶段的学习过程来解决该问题,即多实例学习检测器,然后是具有边界框回归的强监督学习检测器。
计算机视觉是目前深度学习领域最热门的研究领域之一。它位于许多学术科目的交汇点,如计算机科学(图形学,算法,理论,系统,建筑),数学(信息检索,机器学习),工程学(机器人学,语音,自然语言处理,图像处理),物理学(光学) ,生物学(神经科学)和心理学(认知科学)。由于计算机视觉代表了对视觉环境及其背景的相对理解,许多科学家认为,该领域由于其跨域掌握为人工智能铺平了道路。
计算机视觉是当前最热门的研究之一,是一门多学科交叉的研究,涵盖计算机科学(图形学、算法、理论研究等)、数学(信息检索、机器学习)、工程(机器人、NLP等)、生物学(神经系统科学)和心理学(认知科学)。由于计算机视觉表示对视觉环境及背景的相对理解,很多科学家相信,这一领域的研究将为人工智能行业的发展奠定基础。 那么,什么是计算机视觉呢?下面是一些公认的定义: 从图像中清晰地、有意义地描述物理对象的结构(Ballard & Brown,1982); 由一个或多个数字图像计算立体世界的性质(Trucco & Ve
计算机视觉是当前最热门的研究之一,是一门多学科交叉的研究,涵盖计算机科学(图形学、算法、理论研究等)、数学(信息检索、机器学习)、工程(机器人、NLP等)、生物学(神经系统科学)和心理学(认知科学)。由于计算机视觉表示对视觉环境及背景的相对理解,很多科学家相信,这一领域的研究将为人工智能行业的发展奠定基础。
【导读】近日,机器学习工程师Tarang Shah发布一篇文章,探讨了机器学习中模型的度量指标的相关问题。本文首先介绍了机器学习中两个比较直观和常用的度量指标:精确度和召回率,然后详细讲解了目标检测领
以下段落旨在更详细地介绍 ML 系统如何呈现自身以及当今与现实世界中的应用程序开发相关的主要挑战。
在机器学习领域,对于大多数常见问题,通常会有多个模型可供选择。当然,每个模型会有自己的特性,并会受到不同因素的影响而表现不同。
生成对抗网络(GAN)[19] 是由一对存在竞争关系的神经网络——生成器和判别器——组成的深度神经网络架构。通过交替优化两个目标函数训练该模型,这样可以让生成器 G 学会产生与真实图像类似的样本,还能让判别器 D 学会更好地甄别真假数据。这种范式潜力巨大,因为它可以学会生成任何数据分布。这种模型已经在一些计算机视觉问题上取得了一定成果,例如文本到图像的转换 [56] 和图像到图像的转换 [24,59]、超分辨率 [31] 以及逼真的自然图像生成 [25]。
这项工作是神经信息研究所开发的车辆驾驶员辅助系统的一部分。这是一个扩展现有驾驶员辅助系统的概念。在实际生产的系列车辆中,主要使用雷达等传感器和用于检测天气状况的传感器来获取驾驶相关信息。数字图像处理的使用大大扩展了信息的频谱。本文的主要目标是检测和分类车辆环境中的障碍物,以帮助驾驶员进行驾驶行为的决策过程。图像由安装在后视镜上的CCD摄像头获取,并观察车辆前方区域。在没有任何约束的情况下,所提出的方法也适用于后视图。解决了目标检测和经典化的主要目标。目标检测基于纹理测量,并且通过匹配过程来确定目标类型。匹配质量和目标类别之间的高度非线性函数是通过神经网络实现的。
新智元报道 来源:eurekalert.org 编辑:肖琴 【新智元导读】多伦多大学研究人员设计新算法,通过动态地干扰人脸识别工具来保护用户的隐私。结果表明,他们的系统可以将原本可检测到的人脸比例
机器之心原创 作者:思源 近日,百度发布了用于花卉识别的移动端应用,这种基于全卷积注意力网络的细粒度识别方法在计算和准确度上都有非常强大的优势。在百度主任研发架构师陈凯和资深研发工程师胡翔宇的解释下,本文首先将介绍什么是细粒度识别,以及一般的细粒度识别方法,然后重点解析百度基于强化学习和全卷积注意力网络的细粒度识别模型。五一出游赏花,为女朋友解释解释细粒度识别也是极好的。 细粒度识别的概念其实非常简单,即模型需要识别非常精细的子类别。例如百度的花卉识别应用,模型不仅需要如一般识别问题那样检测出物体是不是
领取专属 10元无门槛券
手把手带您无忧上云