专栏首页深度学习技术前沿【抠图中的注意力机制】HAttMatting---让抠图变得如此简单!

【抠图中的注意力机制】HAttMatting---让抠图变得如此简单!

【导读】图像抠图(Image Matting)是一个无论在工业界或者视觉研究领域都有非常重要价值的研究课题。从2000年开始,在进行图像抠图及相近研究问题的研究过程中,诞生了类似GrabCut、Guided Filter、Closed Form Matting、Poisson Matting、Bayesian Matting等等对各计算机视觉以及计算机图形学研究都有深远影响的工作。在好莱坞的动作大片、迪士尼的动画巨作、Office以及Adobe PhotoShop的一些功能中都能够看到抠图算法的身影。

求解抠图问题需要我们对一张图像,分别求解出它的前景、背景以及alpha matte。alpha matte是我们常说的alpha通道,基于alpha 通道我们可以将前景和任意背景进行重新组合得到新的图像。因此alpha matte是和原图同大小的一个单通道图像,每个像素都对应于原RGB图像相同位置像素的alpha值。根据基本假设,对于一张RGB 图像,每个像素在R、G、B这三个通道上的强度(intensity)是由前景以及背景的凸组合构成的,即

,

这里

代指Image,

代表第

个像素下第

个通道的前景像素强度(pixel intensity),

代表第

个像素下第

个通道的背景像素强度(pixel intensity)。对于一张图片而言,由于我们只知道它的R、G、B三个通道的像素强度,因此对于每一个像素而言,我们有三个方程分别对应RGB三个通道,同时我们需要求解

以及

一共7个未知数。三个方程七个未知数,这是妥妥的未知数个数大于方程个数,解可以有无穷多个,属于经典的视觉研究中的反问题,难度非常的大。

怎样实现既高质量又无需用户交互的图像抠图一直是学术界和工业界在努力追求的目标,近日,随着CVPR2020论文的正式公开,有这样一篇文章,在自动抠图领域又向前走了一步,本篇文章我将为大家介绍CVPR2020中的这篇Image Matting论文,看看它提出来哪些新的解决方法:

论文标题

  • 论文作者及团队:来自大连理工大学、大连大学、郑州大学,其中第一作者有两位,分别是博士生乔羽和硕士生刘宇豪。
  • 代码地址:
  • https://github.com/wukaoliu/CVPR2020-HAttMatting
  • 论文链接:
  • http://openaccess.thecvf.com/content_CVPR_2020/papers/Qiao_Attention-Guided_Hierarchical_Structure_Aggregation_for_Image_Matting_CVPR_2020_paper.pdf

论文摘要

Abstract:现有的基于深度学习的抠图算法主要依靠高级语义特征来改进alpha mattes的整体结构。然而,我们认为从cnn中提取的高级语义对alpha感知会导致语义不平等,我们应该调节高级语义信息和低级外部特征,从而来改进前景细节。在本文中,我们提出了一种端到端分层的注意力抠图网络(HAttMatting),它可以在不增加额外输入的情况下从单张RGB图像中预测出更好的alpha抠图结构。具体地说,我们利用空间和通道相结合的注意力机制,以一种新颖的方式对外部结构和金字塔特征进行整合。这种混合注意机制可以从精细的边界和自适应的语义来感知alpha mattes。本文还引入了融合结构相似性(SSIM)、均方误差(MSE)和对抗损失所构成的混合损失函数,从而使得训练网络进一步改善整体前景结构。此外,我们构建了一个由59,600张训练图片和1000张测试图片(总计有646个distinct foreground alpha mattes)组成的大规模Image matting数据集,进一步提高了层次结构聚合模型的鲁棒性。大量的实验表明,该算法能够捕获复杂的前景结构,并且将单幅RGB图像作为输入的话,能达到SOTA的性能效果。

论文实现方法

论文中提出的图像抠图网络 HAttMatting 架构,以单幅RGB图像为输入,通过特征提取网络(FEM)提取多层特征。然后,将最深层的、语义丰富的特征输入到所提出的层级注意力机制(HAM)模块中,通过对高级语义进行自适应的特征筛选来实现Image Matting中 Class-Agnotisc 且 Matting-Adaptive 的特征,进而以此作为引导信息,对包含结构,纹理细节信息的低维特征执行空间注意力,以此达到对 Matting 边缘细节补全和优化的目的。

通过这种方式,HAttMatting 利用 FG 定位+boundary 优化,并辅之以对抗网络用于提升可视化效果,随之对网络的输出进行二倍上行采样,得到原始图像分辨率大小的Alpha Matte作为输出。

该方法的核心思想:在高级特征中消除冗余语义,在空间层面中消除无用的BG细节,然后将它们聚合在一起来预测准确的alpha mattes。为此,本文便采用通道注意结构来提取金字塔特征,同时利用空间注意机制来消除FG外的图像纹理细节。

Distinctions-646 数据集

上面的图片是我们的Distinctions-646数据集中的一个样例,该数据集包括646个单独的FG图像组成。我们将FG对象划分为596和50,然后按照DIM中的合成规则生成59,600张训练图像和1000张测试图像。

效果展示

论文作者采用了Image Matting领域通用的四个评价(SAD, MSE, Grad, Conn)指标对该方法分别在 Adobe 数据集[1]和自建的 Distinctions-646 上进行了定性评估。

在Adobe数据上对比的方法都是ImageMatting领域最新的模型,如Late fusion,Context-aware,Indexnet等。从结果上来看,该方法在无需Trimap的众多方法中达到SOTA,甚至在一些指标上超越了基于Trimap的一些方法。

在自身的Distinctions-646数据集上也对一些公开源码的Matting模型进行了重新训练和预测,其提出的HAttMatting模型也实现了SOTA的结果。

该方法在Adobe[1]的一千张测试集上,可以达到平均0.2s一张图片的处理速度,这对于今后模型迁移至视频流任务和实时性要求较高的任务也是一个很好的铺垫。

数据可视化

从在Adobe[1]数据的可视化结果来看,本文的方法在无需Trimap做辅助的情况下也可以达到一个很好的效果。

除了标准测试集上的结果展示外,研究人员从网络上搜索的一些自然图片和这些图片预测的AlphaMatte结果如上图所示。

Conclusion

在本文中,我们提出了一种分层的注意力抠图网络(HAttMatting),它可以从单张RGB图像中预测高质量的alpha mattes。HAttMatting采用通道注意力来提取的匹配语义信息,用空间注意机制来消除FG外的图像纹理细节。大量的实验表明,我们的分层结构聚合能够有效地从输入图像中提取出高水平和低水平的特征,并在不需要外部三映射的情况下实现高质量的alpha mattes。

在未来,我们将探索更有效的策略来改进我们的注意力机制,我们相信它可以更有效地聚合高级语义和外部信息,从而进一步提高我们的网络的泛化性和鲁棒性。后续,我们还会围绕通用物体快速高精准的抠图来展开研究,以此来进一步扩展问题,并缩小合成数据和自然图像之间的差异,提高应用价值。

本文分享自微信公众号 - 深度学习技术前沿(gh_a540734f538c),作者:murufeng

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-06-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 计算机视觉的数据增广技术大盘点!附涨点神器,已开源!

    如果要把深度学习开发过程中几个环节按重要程度排个序的话,相信准备训练数据肯定能排在前几位。要知道一个模型网络被编写出来后,也只是一坨代码而已,和智能基本不沾边,...

    深度学习技术前沿公众号博主
  • ECCV 2020 | 腾讯 AI Lab 16篇入选论文解读

    来自Tencent AI实验室。本文主要介绍 ECCV 2020 中腾讯 AI Lab 16篇入选论文。

    深度学习技术前沿公众号博主
  • 一文详述Attention最新进展

    动机:只给定物体类别的话,网络往往只关注最具有判别性的信息,无法挖掘到整个物体信息。能否设计一种drop操作,每次迭代时drop最具判别性的信息,强迫网络关注其...

    深度学习技术前沿公众号博主
  • 系列3 | CV领域这样入门进阶才是对滴

    如果,你手中有一张256*256分辨率的图像,想让它降低为128*128分辨率,可以将源图像划分成2*2的子图像块,然后将2*2的子图像块的所有像素颜色均按照F...

    计算机视觉研究院
  • 【AI白身境】深度学习必备图像基础

    图像是什么?这个问题大家都有自己的答案。我的答案是,图像是一门语言,是人类文明的象征。

    用户1508658
  • 用AI给裸女自动“穿”上比基尼,妈妈再也不担心我“辣眼睛”了

    互联网的内容繁杂,一不小心就会看到一些“辣眼睛”的内容,比如裸女,这也是为什么我们需要审核人员的存在。当然,受益于 AI 技术的发展,现在很多审核工作已经自动化...

    用户1737318
  • TuiGAN: Learning Versatile Image-to-ImageTranslation with Two Unpaired Images

    一个无监督的图像-图像转换(UI2I)任务处理学习两个域之间的映射没有配对的图像。虽然现有的UI2I方法通常需要来自不同领域的大量未配对的图像进行训练,但是在许...

    于小勇
  • “无中生有”计算机视觉探奇

    用户1737318
  • “无中生有”计算机视觉探奇

    大数据文摘
  • Self-supervised Image Enhancement Network Training with Low Light Images Only

    现有的图像增强数据集都是通过合成或者调整曝光时间得到的,但存在两个问题:①如何确保预先训练的网络可以用于不同设备、不同场景和不同照明条件下收集的图像,而不是构建...

    Natalia_ljq

扫码关注云+社区

领取腾讯云代金券