TSR:基于深度学习的超分辨率技术及应用

前言

在去年10月,谷歌发表了一篇论文讲述了他们推出的一项新技术RAISR(Rapid and Accurate Image Super-Resolution),利用机器学习将低分辨率图像转化为高分辨率图像。这项技术能够在节省带宽75%的情况下分辨率效果达到甚至超过原图,同时速度能够提升大约10到100倍。于是很快RAISR成为该领域的行业标杆。

近日腾讯QQ空间联合优图实验室也推出的他们在此领域的最新技术TSR(Tencent Super Resolution)。本项目采用深度神经网络来识别图片内容并进行图片内容的细节重构,能够通过机器学习来识别图片的内容与纹理,从而能够将图片进行高清重建, 达到业界(NTIRE2017)领先水平,使用本技术可以极大的提高用户体验。本技术能够在图片size只有原来25%的情况下将图片还原到与原图的同等效果,在空间的应用可以节省用户75%的流量。本项目业界首创实现了一种多核异构GPU/CPU加速技术,能够使用深度学习模型摆脱昂贵的GPU设备,可以在普通的用户手机端运行。

1、创新特性名(name)如 产品名:

TSR:基于深度学习的超分辨率技术及应用

2、主创团队名(who)

社交平台部 & 优图实验室

3、创意点的产品功能/使用场景介绍(what/where)

TSR(Tencent Super Resolution)是一种采用深度神经网络来进行图片超分辨率的技术。在深度神经网络的算法处理下,能够通过识别图片的内容与轮廓高清重建图片的细节与局部特征,把一张模糊的图片变得非常清晰,从而达到很好的视觉效果。目前已经应用到QQ空间图片高清放大查看。

同时TSR能够保证图片大小只有原来25%的情况下,完全重构图片的纹理与色彩,在节省带宽75%的情况下通过智能算法重构达到与原来图片一样的清晰度。目前应用到QQ空间大图浏览。

TSR是业界首次实现移动端使用深度神经网络进行超分辨率,并保证图片能够实时进行处理。即使在用户的普通Andriod手机,也可以使用这项技术。

在空间的应用效果如下图:

4、创新点的创新之处的具体描述(innovation)——评审创新性

本项目是业界首次将深度学习的超分辨率技术实现落地应用地项目。在这之前,超分辨率技术的研究一直停留在学术界与实验室。本项目是业界首创实现在移动端进行深度神经网络学习学习即使在普通AND机器上也可以运行本模型。

TSR是目前业界领先的超分辨率技术,不管是在处理速度与处理效果上都超过之前行业的标杆GOOGLE的超分辨率技术RAISR。在处理速度在RAISR的基础上提升40%。处理效果上的提升也很明显。

TSR与RAISR的效果性能对比:

对于图片细节与纹理的处理来看,TSR对比RAISR在细节还原上有着更出色的表现:

其次,TSR是目前业界首创并且也是唯一能够将基于深度学习的超分分辨率技术落地并应用到移动端的技术。在用户的普通的手机上,也可以很好的运行TSR并取得不错的效果。

最后,基于TSR衍生出来的深度学习框架RapidNet是目前业界最优的移动端深度学习框架,对比CAFFE2与TENSORFLOW框架,性能提升平均达到20倍。能够把深度学习落地到普通手机。

TSR已经提交三项核心专利技术。相关研究结果已经投递 CVPR 2018。

5、创意如何产生的(创新点相关小故事)(why)

QQ空间相册作为用户主UGC数据的主要战场与社交场合,我们一直在关注这里的图片质量与流量优化。如何较大节省用户流量的情况下,提高用户的体验与图片质量,特别是部分历史老照片怎么样高清还原提供给用户,一直是我们追求的目标。

随着深度学习在图片内容识别,分类中的应用,我们关注到学习界结合深度学习的超分辨率技术能够达到较好的效果。同时去年7月,GOOGLE也发表了论文推出了超分辨率技术RAISR,怎么样把超分辨率技术应用到我们实际项目中来,成为我们的驱动力。

随着Jiayajia,yuwingtai,等一批学术大牛的加入,基于腾讯自己的超分辨率技术 (TSR)项目在Karl, Simon, Vincent等支持下正式立项。我们的目标是打造业界领先的超分辨率技术,并创造性的把超分辨率技术迁移到用户普通的手机终端。使用用户普通的AND手机也可以进行深度学习算法处理,从而实际节省用户流量和提高用户体验。同时推动深度学习从后台向移动端演进。

经过半年的研究突破,TSR项目落地。不但对标学习界有较好的效果,而且创新性的把超分辨率技术在实际项目中落地,能够节省用户75%的流量,也是业界进行移动端跑深度神经网络并达到实时效果的首创。

6、怎么实现的(how)——评审创新点的复杂度

首先,我们训练并实现了一个10层的深度卷积神经网络,对比目前学术界研究的神经网络,本网络能够很好的解决CheckerBoard Artifacts和对于部分图片处理文理不清晰问题。通过神经网络能够抽象出图片的整体特殊,识别图片的纹理与内容,根据图片的纹理与内容进行图片的高清细节重建,从而达到远超过原图的视觉效果。

通过控制卷积神经网络的层数与每层的CHANEL数,在简化整体计算量的情况下,能够很好的解决图片过于平滑,纹理不清晰的问题。通过精简化设计,TSR能够保证模型在只有4。6KB的基础上有不错的处理效果。

神经网络结构图如下:

TSR采用了二次插值对图片进行预处理,这样能够对比较模糊的UGC图片也能取得较好的效果。针对人眼对于颜色与亮度的敏感程度,对图片采用Cbcr与Y通道分离,只对Y通道数据进行超分处理的方法提高处理速度。

针对个模型采用PRelu作为激活函数以得到更快的收敛速度与更好的网络表达能力。采用基于Adam(Adaptive Moment Estimation)的梯度下降法求解神经网络模型的具体参数。

具体的模型训练上,我们先采用1W张用户真实图片,通过调整图片颜色,高度,对比度,施转,左右反转等操作构造上百W个用户训练样本集。采用压缩的方法将训练样本图片宽高各压缩到原来的1/2,这部分图片经过超分处理后再与原来的图片的效果进行比较,根据对比效果进行调整模型参数。

与业界的训练该方法不同,除了对比图片的损失(PSNR)外,我们同时引入了可视化评测系统,使用用户的真实图片进行可视化评测。已达到最佳的超分效果。

经评测,我们的模型在图片处理的两项关键指标PSNR与处理速度上均达到业界领先水平。在处理速度上,TSR领先于目前主流的超分辨率技术。同时,对摄像效果不那么好的图片,TSR也能取得不错的效果。

TSR与学术界前沿超分辨率技术对比如下图(NTIRE2017数据,400* 300 放大到 800 * 600,硬件环境:Titan XP workstation)。 可以看到在处理速度与图片效果来看,TSR都处于业界领先水平。

同时,TSR是业务首创的将超分辨率技术应用到移动端的技术。目前主流的深度神经网络模型一般在后台的高性能GPU机器上运行,对机器性能要求比较高。TSR基于对超分技术与移动端手机架构的深入研究,提出基于手机端深度学习架构,能够充分使用移动端的GPU和CPU资源,使用异构并行计算技术与数据并行处理技术进行加速。对比业务的主流框架如CAFFE2与TENSORFLOW ,性能提高10倍以上,内存消耗降低95%。是目前唯一能够在普通的Andriod手机上也可以运行的技术。

深度学习从后台迁移到后台手机端,TSR主要首创了如下关键技术。

1) TSR独创分块加速技术,把图片分成很多小块通过神经网络进行处理。分块加速技术充分使用CPU的多核特性,使用进行多核并行计算。使用算法对图片的纹理复杂度进行识别和智能处理,大大提高图片的处理速率。

如下图示,通过智能识别可以加速蓝框中图块的处理过程。

2)其次,TSR是业界首次采用异构多核CPU/GPU加速技术。能够根据用户手机的GPU与CPU能力进行任务的智能划分,联合GPU/CPU进行处理以达到较好的处理效果。

3)第三,TSR打造了统一移动端并行加速框架RapidNet。深度融合了基于AND平台的opencl GPU并行计算加速技术与基于IOS平台的METAL 加速技术。对于基于ARM结构的CPU,充分利用neon SIMD技术和线程池技术。对比业界主流的机器学习平台,速度提高10倍以上。

TSR/RapidNet架构如下图所示:

TSR对比业界的处理效果:

4)第四,TSR采用了动态探测与模型动态加载技术,保证了手机端全覆盖。TSR会动态探测手机的处理能力,针对不同手机实时加载不同的模型,从而能够保证所有性能的手机客户端都可以使用这种技术,保证了手机端的全覆盖。

通过超分辨率技术在QQ空间的项目实施,可以达到节省空间75%的图片流量,同时预计可以节省存储150P。

7、产品的意义对未来的展望(for future)

1)可以应用到业界所有的图片处理,使用本技术能够给用户节省75%流量,大大降低图片传输的带宽。目前已经应用的QQ用户普通的图片浏览,达到节省75%流量的情况下达到同等视觉效果。

同时,在如QQ,微信,天天P图,动漫业务都是TSR的目标使用场景。

2)本技术可用于所有对图片质量要求较高的场景,通过基于TSR的超分辨率技术可以智能修复用户的老照片,模糊的图片,能够把普通图片变成清晰图像。目前已在最新版QQ上使用,用户进行放大查看图片细节时可以达到“无限”缩放的高清效果

3)同时本技术带来的另一个收益是打开了移动端进行AI相关的深度机器模型学习的大门。在此之前需要采购昂贵GPU设备才可以运行的深度神经网络,现在在用户的普通手机上也可以运行,这项技术可以极大的推动手机端进行神经网络处理的进程,对于像人脸识别,OCR识别,背景识别,人物美妆等实时应用可以达到同等效果。

8、TSR处理效果样例:

用户原图与经TSR处理后的图片对比(左边是原图,右边是超分辨率(TSR)处理的图片)

细节对比:

TSR处理后效果对比

细节对比:

TSR处理后效果对比:

细节对比:

TSR处理后效果对比:

细节对比:

TSR处理后效果对比:

细节对比:

用户普通图片压缩75%再进行TSR处理后跟原图进行对比效果(左边是原图,右边是SIZE压缩到25%后使用TSR进行还原的图片效果):

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

【AI听】微软刷新了SQuAD记录!聊天机器人居然懂人类情感?谷歌大脑「神经网络优化器搜索」又双叒叕更新……

本周关键词 SQuAD|聊天机器人 计算机视觉|谷歌大脑 主播 | 吴璇 NO/1 上周,微软又刷新了SQuAD记录... 今年7月,斯坦福大学发起的SQuA...

38011
来自专栏AI科技评论

学界 | 联合哈佛大学,Google 要用人工智能来预测地震余震

雷锋网消息,近日,来自 Google 人工智能部门和哈佛大学的研究人员已经建立了一个人工智能模型,能够预测大地震后长达一年的余震位置。该模型训练了近几十年来的 ...

552
来自专栏机器之心

专访 | 网易有道 CEO 周枫:需求为先的 AI 技术赋能

机器之心原创 作者:邱陆陆 机器翻译领域正经历又一次骤雨疾风般的变革。2014 年,Yoshua Bengio 组做出了第一个循环网络编码器-解码器神经机器翻译...

3258
来自专栏新智元

金融大鳄索罗斯再度唱空中国经济,深度学习能预测金融危机?

【新智元导读】金融大鳄索罗斯日前发表评论,他看空中国经济,目前正在做空亚洲货币。今天,《人民日报》海外版刊文斥责索罗斯的“唱空论”。那么,中国情况究竟怎样?芬兰...

3948
来自专栏机器之心

前沿 | AI预测地震余震:哈佛大学新研究登上Nature

大地震发生后的数周、数月内,周边地区经常会发生强烈余震,再次损害已经遭受破坏的社区,极大阻碍了恢复重建工作。

743
来自专栏理论坞

用像素艺术表现你最喜爱的电视节目

像素艺术是一种由缺乏而形成的艺术,以像素为单位,一个点一个点去绘制出图像,也有人称之为点画法或像素艺术 ( Pixel Art )。在80年代的8位元电子游戏里...

712
来自专栏新智元

Andrej Karpathy:监督学习、无监督学习、人脑模拟和AGI的未来(83 PPT下载)

【新智元导读】Andrej Karpathy是深度学习和计算机视觉专家、特斯拉人工智能部门主管,他最近在 Y Conf 作题为《通用人工智能从何处来?》的演讲,...

3348
来自专栏AI科技评论

港科大教授权龙:计算机视觉下一步将走向三维重建 | CCF-GAIR 2018

雷锋网 AI 科技评论按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办...

1024
来自专栏量子位

简单易懂解释机器学习:以在线赌博和游戏公司为例

编译 | 量子位 若朴 赌徒往往依赖直觉,庄家偏爱铁一般的事实。他们的最终结局,殊途同归于预测。对于在线赌博和游戏公司而言,他们可以藉由用户鼠标的每次点击获得大...

3808
来自专栏腾讯高校合作

犀牛鸟人物丨专访刘偲老师:图像之美像素级语义理解研究

1823

扫码关注云+社区