首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

高通CVPR神研究:视频处理计算量降低78%,教卷积层自己“挑像素”,卡成PPT的视频纵享丝滑

萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 图像领域,已经限制不住AI算法大牛们的身手了。 现在,随着视频产业火热发展,相关算法也正成为计算机视觉研究的新潮流。 毕竟日常生活中,无论是视频通话、还是网课直播,都涉及大量的视频处理算法。 但如果这些算法性能不高的话,视频就会出现卡顿、降低分辨率的情况,体验极差。 (想象视频通话时,画面卡成PPT的情况,已经开始生气了……) 因此,降低视频算法计算量,一直是国内外AI视觉算法大牛们致力研究的问题。 最近有两篇CVPR 2021的论文,就引起

01

基础 | 如何通过DCGAN实现动漫人物图像的自动生成?

基于生成对抗网络(GAN)的动漫人物生成近年来兴起的动漫产业新技术。传统的GAN模型利用反向传播算法,通过生成器和判别器动态对抗,得到一个目标生成模型。由于训练过程不稳定,网络难以收敛,导致生成的图像缺乏多样性和准确性,甚至会产生模式崩溃。本文基于深度学习,参考相关实战项目pytorch-book,学习网络的训练方法,采用经过标准化处理和分类的动漫人物面部图像知乎用户何之源分享的素材,训练DCGAN,实现动漫人物图像自动生成。在训练过程中,控制实验参数,进行定量分析和优化,得到可自动生成动漫人物图像的生成器模型。主要工作如下:

01

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

现有的深度卷积神经网络(CNNs)需要一个固定大小的输入图像(如224×224)。这一要求是“人为的”,可能会降低对任意大小/尺度的图像或子图像的识别精度。在这项工作中,我们为网络配备了另一种池化策略,“空间金字塔池”,以消除上述要求。这种新的网络结构称为SPP-net,可以生成固定长度的表示,而不受图像大小/比例的影响。金字塔池对物体变形也有很强的鲁棒性。基于这些优点,SPP-net一般应改进所有基于cnn的图像分类方法。在ImageNet 2012数据集中,我们证明了SPP-net提高了各种CNN架构的准确性,尽管它们的设计不同。在Pascal VOC 2007和Caltech101数据集中,SPP-net实现了最先进的分类结果使用单一的全图像表示和没有微调。在目标检测中,spp网络的能力也很重要。利用SPP-net算法,只对整个图像进行一次特征映射计算,然后将特征集合到任意区域(子图像),生成固定长度的表示形式,用于训练检测器。该方法避免了卷积特征的重复计算。在处理测试图像时,我们的方法比R-CNN方法快24-102×,而在Pascal VOC 2007上达到了更好或相近的精度。在2014年的ImageNet Large Scale Visual Recognition Challenge (ILSVRC)中,我们的方法在所有38个团队中目标检测排名第二,图像分类排名第三。本文还介绍了本次比赛的改进情况。

02

EXEMPLAR GUIDED UNSUPERVISED IMAGE-TOIMAGETRANSLATION WITH SEMANTIC CONSISTENCY

由于深度学习的进步,图像到图像的翻译最近受到了极大的关注。大多数工作都集中在以无监督的方式学习一对一映射或以有监督的方式进行多对多映射。然而,更实用的设置是以无监督的方式进行多对多映射,由于缺乏监督以及复杂的域内和跨域变化,这更难实现。为了缓解这些问题,我们提出了示例引导和语义一致的图像到图像翻译(EGSC-IT)网络,该网络对目标域中的示例图像的翻译过程进行调节。我们假设图像由跨域共享的内容组件和每个域特定的风格组件组成。在目标域示例的指导下,我们将自适应实例规范化应用于共享内容组件,这使我们能够将目标域的样式信息传输到源域。为了避免翻译过程中由于大的内部和跨领域变化而自然出现的语义不一致,我们引入了特征掩码的概念,该概念在不需要使用任何语义标签的情况下提供粗略的语义指导。在各种数据集上的实验结果表明,EGSC-IT不仅将源图像转换为目标域中的不同实例,而且在转换过程中保持了语义的一致性。

01
领券