将深度卷积神经网络(Convolutional Neural Networks, 简称CNNs)用于图像识别在研究领域吸引着越来越多目光。由于卷积神经网络结构非常适合模型并行的训练,因此以模型并行+数据并行的方式来加速Deep CNNs训练,可预期取得较大收获。Deep CNNs的单机多GPU模型并行和数据并行框架是腾讯深度学习平台的一部分,腾讯深度学习平台技术团队实现了模型并行和数据并行技术加速Deep CNNs训练,证实模型拆分对减少单GPU上显存占用有效,并且在加速比指标上得到显著收益,同时可
本文是腾讯深度学习系列文章的第三篇,聚焦于腾讯深度学习平台Mariana中深度卷积神经网络Deep CNNs的多GPU模型并行和数据并行框架。 将深度卷积神经网络(Convolutional Neural Networks, 简称CNNs)用于图像识别在研究领域吸引着越来越多目光。由于卷积神经网络结构非常适合模型并行的训练,因此以模型并行+数据并行的方式来加速Deep CNNs训练,可预期取得较大收获。Deep CNNs的单机多GPU模型并行和数据并行框架是Mariana的一部分,Mariana技术团队
刚刚,吴恩达在推特上宣布了团队的最新进展:利用MRNet深度学习技术新开发了一种算法,可用于膝关节磁共振成像(MRI)的异常检测。
作者:Irwan Bello、Barret Zoph、Ashish Vaswani、Jonathon Shlens、Quoc V. Le
本文解读一篇由港中大(深圳)与哈工大合作发表在CVPR2019的超分辨方向的论文,该工作与几篇近年的文章密切相关,相关部分我已在文中做了必要的说明和解释,更多细节可点击文章末尾的论文链接深入了解。
萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 图像领域,已经限制不住AI算法大牛们的身手了。 现在,随着视频产业火热发展,相关算法也正成为计算机视觉研究的新潮流。 毕竟日常生活中,无论是视频通话、还是网课直播,都涉及大量的视频处理算法。 但如果这些算法性能不高的话,视频就会出现卡顿、降低分辨率的情况,体验极差。 (想象视频通话时,画面卡成PPT的情况,已经开始生气了……) 因此,降低视频算法计算量,一直是国内外AI视觉算法大牛们致力研究的问题。 最近有两篇CVPR 2021的论文,就引起
它们教算法模型学会了自己“省算力”,将视频处理算法的计算效率提升了几倍不止,性能也并不下降!
GTA 也叫“侠盗猎车手”,是R星旗下一款超高人气动作冒险类游戏,目前已经发售至第五版。
TensorMask 密集实例分割效果示例。左图:示例图;右图:局部放大。图中可以看到,不仅较大和较小的物体都得到了较为完善的勾画,物体之间相互遮挡的边缘也能够正确地处理。
代码: https://github.com/Z-Zheng/ChangeStar
本文提出一种使用单个卷积神经网络的新型物体检测方法: CornerNet. 本文通过将目标定义为成对关键点,消除了单阶段检测网络中对anchor box的需要. 除了新颖的网络形式外,本文还介绍了角落池化(corner pooling):一种新的池化方式,它可以帮助网络更好地定位物体的边角。 实验表明,CornerNet在MS COCO上实现了42.1%的AP,优于所有现有的单阶段检测模型。
1 摘要 无监督的图像到图像转换方法学习任务是:将给定类别的图像映射/转换到不同类别的“类似”图像。 尽管当前方法取得了巨大成功,但需要在训练时获取源类和目标类中的许多图像;这极大地限制了它们的使用。
论文地址: https://arxiv.org/pdf/2108.07002.pdf
1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
针对复杂环境中车道线检测效率低的问题,提出了一种基于多层感知器(MLP)的车道线检测算法(LaneMLP)。
在机器学习领域里,Dropout 是一个较为重要的方法,其可以暂时丢弃一部分神经元及其连接,进而防止过拟合,同时指数级、高效地连接不同网络架构。
为解决复杂环境下的目标视觉检测,人工场景与实际场景平行研究三部曲:
基于生成对抗网络(GAN)的动漫人物生成近年来兴起的动漫产业新技术。传统的GAN模型利用反向传播算法,通过生成器和判别器动态对抗,得到一个目标生成模型。由于训练过程不稳定,网络难以收敛,导致生成的图像缺乏多样性和准确性,甚至会产生模式崩溃。本文基于深度学习,参考相关实战项目pytorch-book,学习网络的训练方法,采用经过标准化处理和分类的动漫人物面部图像知乎用户何之源分享的素材,训练DCGAN,实现动漫人物图像自动生成。在训练过程中,控制实验参数,进行定量分析和优化,得到可自动生成动漫人物图像的生成器模型。主要工作如下:
PNG (460, 460) RGB {'srgb': 0, 'gamma': 0.45455, 'dpi': (96, 96)} None
呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!
行人检测是计算机视觉中的经典问题,也是长期以来难以解决的问题。和人脸检测问题相比,由于人体的姿态复杂,变形更大,附着物和遮挡等问题更严重,因此准确的检测处于各种场景下的行人具有很大的难度。在本文中,将为大家回顾行人检测算法的发展历程。
NVIDIA的研究人员与学术界的合作者共同开发了一种新的基于深度学习的标识定位(landmark localization)架构,该架构用于寻找图像特定部分的精确位置。此外,他们还提出了一种基于半监督学习的新型训练程序,该程序允许探索没有实际标记的图像以提高模型的准确性。
近日,由麻省理工学院(MIT)电子工程与计算机科学(ECCS)实验室多位博士所著的医学影像AI论文被CVPR 2019收录。
在多数数据和机器学习的blog里,特征工程 Feature Engineering 都很少被提到。做模型的或者搞Kaggle比赛的人认为这些搞feature工作繁琐又不重要不如多堆几个模型,想入手实际问题的小朋友又不知道怎么提取feature来建模型。我就用个性化推荐系统做个例子,简单说说特征工程在实际的问题里是怎么做。 定义 特征工程 Feature Engineering 在一篇Kaggle bloghttp://blog.kaggle.com/2014/08 ... best/ 上
Transformer跨界计算机视觉虽然已取得了一些不错的成绩,但大部分情况下,它还是落后于最先进的卷积网络。
现有的深度卷积神经网络(CNNs)需要一个固定大小的输入图像(如224×224)。这一要求是“人为的”,可能会降低对任意大小/尺度的图像或子图像的识别精度。在这项工作中,我们为网络配备了另一种池化策略,“空间金字塔池”,以消除上述要求。这种新的网络结构称为SPP-net,可以生成固定长度的表示,而不受图像大小/比例的影响。金字塔池对物体变形也有很强的鲁棒性。基于这些优点,SPP-net一般应改进所有基于cnn的图像分类方法。在ImageNet 2012数据集中,我们证明了SPP-net提高了各种CNN架构的准确性,尽管它们的设计不同。在Pascal VOC 2007和Caltech101数据集中,SPP-net实现了最先进的分类结果使用单一的全图像表示和没有微调。在目标检测中,spp网络的能力也很重要。利用SPP-net算法,只对整个图像进行一次特征映射计算,然后将特征集合到任意区域(子图像),生成固定长度的表示形式,用于训练检测器。该方法避免了卷积特征的重复计算。在处理测试图像时,我们的方法比R-CNN方法快24-102×,而在Pascal VOC 2007上达到了更好或相近的精度。在2014年的ImageNet Large Scale Visual Recognition Challenge (ILSVRC)中,我们的方法在所有38个团队中目标检测排名第二,图像分类排名第三。本文还介绍了本次比赛的改进情况。
Transformer 作为一种基于注意力的编码器 - 解码器架构,不仅彻底改变了自然语言处理(NLP)领域,还在计算机视觉(CV)领域做出了一些开创性的工作。与卷积神经网络(CNN)相比,视觉 Transformer(ViT)依靠出色的建模能力,在 ImageNet、COCO 和 ADE20k 等多个基准上取得了非常优异的性能。 正如德克萨斯大学奥斯汀分校的计算机科学家 Atlas Wang 说:我们有充分的理由尝试在整个 AI 任务范围内尝试使用 Transformer。 因此,无论是学术界的研究人员,
卷积神经网络通常从训练数据中学习有用的特征。第一个卷积层学习到的特征往往是视任务而定的一些训练数据的基本元素。例如,在图像数据中,学习到的特征可以体现边缘和斑点。在后续的网络层中,这些学习到的特征可以表现更加抽象,更高级的特点。
机器之心发布 作者:Mr. AI 近日,华为推出了 HiSR 超分辨率技术,该模型借助第一款人工智能手机芯片 Kirin 970 和深度学习算法将低分辨率图片转化生成高清图片,并在移动端实现了快速预览高清图片的效果。本文简要介绍了华为 HiSR 模型的结构与效果。 前言 超分辨率算法是一种将低分辨率图片重建为尺寸更大、像素更多、质量更高的计算机视觉技术。最常见的传统图像处理算法是双三次插值(Bicubic Interpolation),该方法能创造出比双线性插值更平滑的图像边缘,且速度也较快。但是 Bicu
卷积神经网络在检测图像中的物体时优于其他神经网络结构。很快,研究人员改进了 CNN 来进行对象定位与检测,并称这种结构为 R-CNN(Region-CNN)。R-CNN 的输出是具有矩形框和分类的图像,矩形框围绕着图像中的对象。以下是 R-CNN 的工作步骤:
行人检测( Pedestrian Detection)一直是计算机视觉研究中的热点和难点。行人检测要解决的问题是:找出图像或视频帧中所有的行人,包括位置和大小,一般用矩形框表示,和人脸检测类似,这也是典型的目标检测问题。
滤波算法是一类用于处理信号和图像中噪声的算法。它们通常通过在信号或图像上应用一个滤波器来实现这一目的。常见的滤波算法包括均值滤波、中值滤波、高斯滤波等。
论文标题:GANILLA: Generative Adversarial Networks for Image to Illustration Translation
当前的基于 CNN 的图像识别模型确实能在许多任务中得到很高的识别准确率、也得到了许多实际应用,但 CNN 模型的泛化性和鲁棒性仍然远逊于人类视觉 —— 面对经过细微修改的、或者带有噪声的图像,人类的视觉识别几乎不受影响,而 CNN 的识别准确率则可能大幅波动;场景和视角也能显著影响 CNN 的表现,更别提从很少的样本学习物体识别了。
最近耗费了巨大的心思为客户设计了人脸识别系统。这是我第一次利用人工智能技术为客户和自己产生收益。虽说人脸识别技术到目前为止已经非常成熟,但从“知行合一”的角度而言,很多人并没有真正掌握其根本原理,之所以有这个结论是因为,我相信绝大多数技术工作者自己无法通过编码来实现一套可商用的人脸识别系统,对技术而言,你做不到就等于你不懂。
选自OpenReview 机器之心编译 机器之心编辑部 Transformer 用在图像识别上会存在计算效率过低的挑战,最近一篇向 ICLR 2021 大会提交的论文似乎很好地解决了这一问题,其研究的 PyTorch 代码也已在 GitHub 上开源。 在自然语言处理领域(NLP)成为重要力量的 Transformer 技术最近已经开始在计算机视觉领域展现自己的实力。不过到目前为止,由于 Transformer 注意力机制对内存的需求是输入图像的二次方,所以这一方向还存在一些挑战。 近日,Lambda
DNS 隐蔽通道简介 DNS 通道是隐蔽通道的一种,通过将其他协议封装在DNS协议中进行数据传输。 由于大部分防火墙和入侵检测设备很少会过滤DNS流量,这就给DNS作为隐蔽通道提供了条件,从而可以利用它实现诸如远程控制、文件传输等操作,DNS隐蔽通道也经常在僵尸网络和APT攻击中扮演着重要的角色。 DNS隐蔽通道可以分为直连和中继两种模式。直连也就是Client直接和指定的目标DNS Server(授权的NS 服务器)连接,通过将数据编码封装在DNS协议中进行通信,这种方式速度快,但是限制比较多,很多场景不
近年来,合成孔径雷达(SAR)被广泛地应用于农业、水洋、军事等领域。而研究SAR图像中的水域信息对洪涝灾害的预警监测、水域管理等具有重要意义。特别是,利用水域分割实现宽幅SAR图像中准确的陆地剔除,可以明显降低舰船目标检测虚警率,从而大幅提升检测性能。
行人检测是计算机视觉中的经典问题,也是长期以来难以解决的问题。和人脸检测问题相比,由于人体的姿态复杂,变形更大,附着物和遮挡等问题更严重,因此准确的检测处于各种场景下的行人具有很大的难度。在本文中,SIGAI将为大家回顾行人检测算法的发展历程。
卷积可能是目前深度学习中最重要的概念了。卷积和卷积网络是引发深度学习去完成几乎任何机器学习任务的最前沿地概念。但是什么使卷积这么强大?它是如何工作的?在这篇博客中,我将解释卷积,帮助你彻底了解卷积。这篇博客文章也会有很多数学细节,但我会从概念的角度来解释,这里面的基础数学每个人都应该能够理解。本博文的第一部分针对任何想要了解深度学习里卷积和卷积网络的一般概念的人。本博文的第二部分是高级概念,旨在进一步增强对深度学习研究人员和专家的卷积的理解。
最近一直在看卷积神经网络,想改进改进弄出点新东西来,看了好多论文,写了一篇综述,对深度学习中卷积神经网络有了一些新认识,和大家分享下。
由于深度学习的进步,图像到图像的翻译最近受到了极大的关注。大多数工作都集中在以无监督的方式学习一对一映射或以有监督的方式进行多对多映射。然而,更实用的设置是以无监督的方式进行多对多映射,由于缺乏监督以及复杂的域内和跨域变化,这更难实现。为了缓解这些问题,我们提出了示例引导和语义一致的图像到图像翻译(EGSC-IT)网络,该网络对目标域中的示例图像的翻译过程进行调节。我们假设图像由跨域共享的内容组件和每个域特定的风格组件组成。在目标域示例的指导下,我们将自适应实例规范化应用于共享内容组件,这使我们能够将目标域的样式信息传输到源域。为了避免翻译过程中由于大的内部和跨领域变化而自然出现的语义不一致,我们引入了特征掩码的概念,该概念在不需要使用任何语义标签的情况下提供粗略的语义指导。在各种数据集上的实验结果表明,EGSC-IT不仅将源图像转换为目标域中的不同实例,而且在转换过程中保持了语义的一致性。
本文为粉丝投稿,原文链接:https://zhuanlan.zhihu.com/p/701844704。
上周,Geoffrey Hinton和他的团队发表了两篇论文,介绍了一种基于所谓的capsules(胶囊)的全新类型的神经网络。除此之外,该团队还发布了一种叫做“dynamic routing bet
领取专属 10元无门槛券
手把手带您无忧上云