TSR:基于深度学习的超分辨率技术及应用

前言

在去年10月,谷歌发表了一篇论文讲述了他们推出的一项新技术RAISR(Rapid and Accurate Image Super-Resolution),利用机器学习将低分辨率图像转化为高分辨率图像。这项技术能够在节省带宽75%的情况下分辨率效果达到甚至超过原图,同时速度能够提升大约10到100倍。于是很快RAISR成为该领域的行业标杆。

近日腾讯QQ空间联合优图实验室也推出的他们在此领域的最新技术TSR(Tencent Super Resolution)。本项目采用深度神经网络来识别图片内容并进行图片内容的细节重构,能够通过机器学习来识别图片的内容与纹理,从而能够将图片进行高清重建, 达到业界(NTIRE2017)领先水平,使用本技术可以极大的提高用户体验。本技术能够在图片size只有原来25%的情况下将图片还原到与原图的同等效果,在空间的应用可以节省用户75%的流量。本项目业界首创实现了一种多核异构GPU/CPU加速技术,能够使用深度学习模型摆脱昂贵的GPU设备,可以在普通的用户手机端运行。

1、创新特性名(name)如 产品名:

TSR:基于深度学习的超分辨率技术及应用

2、主创团队名(who)

社交平台部 & 优图实验室

3、创意点的产品功能/使用场景介绍(what/where)

TSR(Tencent Super Resolution)是一种采用深度神经网络来进行图片超分辨率的技术。在深度神经网络的算法处理下,能够通过识别图片的内容与轮廓高清重建图片的细节与局部特征,把一张模糊的图片变得非常清晰,从而达到很好的视觉效果。目前已经应用到QQ空间图片高清放大查看。

同时TSR能够保证图片大小只有原来25%的情况下,完全重构图片的纹理与色彩,在节省带宽75%的情况下通过智能算法重构达到与原来图片一样的清晰度。目前应用到QQ空间大图浏览。

TSR是业界首次实现移动端使用深度神经网络进行超分辨率,并保证图片能够实时进行处理。即使在用户的普通Andriod手机,也可以使用这项技术。

在空间的应用效果如下图:

4、创新点的创新之处的具体描述(innovation)——评审创新性

本项目是业界首次将深度学习的超分辨率技术实现落地应用地项目。在这之前,超分辨率技术的研究一直停留在学术界与实验室。本项目是业界首创实现在移动端进行深度神经网络学习学习即使在普通AND机器上也可以运行本模型。

TSR是目前业界领先的超分辨率技术,不管是在处理速度与处理效果上都超过之前行业的标杆GOOGLE的超分辨率技术RAISR。在处理速度在RAISR的基础上提升40%。处理效果上的提升也很明显。

TSR与RAISR的效果性能对比:

对于图片细节与纹理的处理来看,TSR对比RAISR在细节还原上有着更出色的表现:

其次,TSR是目前业界首创并且也是唯一能够将基于深度学习的超分分辨率技术落地并应用到移动端的技术。在用户的普通的手机上,也可以很好的运行TSR并取得不错的效果。

最后,基于TSR衍生出来的深度学习框架RapidNet是目前业界最优的移动端深度学习框架,对比CAFFE2与TENSORFLOW框架,性能提升平均达到20倍。能够把深度学习落地到普通手机。

TSR已经提交三项核心专利技术。相关研究结果已经投递 CVPR 2018。

5、创意如何产生的(创新点相关小故事)(why)

QQ空间相册作为用户主UGC数据的主要战场与社交场合,我们一直在关注这里的图片质量与流量优化。如何较大节省用户流量的情况下,提高用户的体验与图片质量,特别是部分历史老照片怎么样高清还原提供给用户,一直是我们追求的目标。

随着深度学习在图片内容识别,分类中的应用,我们关注到学习界结合深度学习的超分辨率技术能够达到较好的效果。同时去年7月,GOOGLE也发表了论文推出了超分辨率技术RAISR,怎么样把超分辨率技术应用到我们实际项目中来,成为我们的驱动力。

随着Jiayajia,yuwingtai,等一批学术大牛的加入,基于腾讯自己的超分辨率技术 (TSR)项目在Karl, Simon, Vincent等支持下正式立项。我们的目标是打造业界领先的超分辨率技术,并创造性的把超分辨率技术迁移到用户普通的手机终端。使用用户普通的AND手机也可以进行深度学习算法处理,从而实际节省用户流量和提高用户体验。同时推动深度学习从后台向移动端演进。

经过半年的研究突破,TSR项目落地。不但对标学习界有较好的效果,而且创新性的把超分辨率技术在实际项目中落地,能够节省用户75%的流量,也是业界进行移动端跑深度神经网络并达到实时效果的首创。

6、怎么实现的(how)——评审创新点的复杂度

首先,我们训练并实现了一个10层的深度卷积神经网络,对比目前学术界研究的神经网络,本网络能够很好的解决CheckerBoard Artifacts和对于部分图片处理文理不清晰问题。通过神经网络能够抽象出图片的整体特殊,识别图片的纹理与内容,根据图片的纹理与内容进行图片的高清细节重建,从而达到远超过原图的视觉效果。

通过控制卷积神经网络的层数与每层的CHANEL数,在简化整体计算量的情况下,能够很好的解决图片过于平滑,纹理不清晰的问题。通过精简化设计,TSR能够保证模型在只有4。6KB的基础上有不错的处理效果。

神经网络结构图如下:

TSR采用了二次插值对图片进行预处理,这样能够对比较模糊的UGC图片也能取得较好的效果。针对人眼对于颜色与亮度的敏感程度,对图片采用Cbcr与Y通道分离,只对Y通道数据进行超分处理的方法提高处理速度。

针对个模型采用PRelu作为激活函数以得到更快的收敛速度与更好的网络表达能力。采用基于Adam(Adaptive Moment Estimation)的梯度下降法求解神经网络模型的具体参数。

具体的模型训练上,我们先采用1W张用户真实图片,通过调整图片颜色,高度,对比度,施转,左右反转等操作构造上百W个用户训练样本集。采用压缩的方法将训练样本图片宽高各压缩到原来的1/2,这部分图片经过超分处理后再与原来的图片的效果进行比较,根据对比效果进行调整模型参数。

与业界的训练该方法不同,除了对比图片的损失(PSNR)外,我们同时引入了可视化评测系统,使用用户的真实图片进行可视化评测。已达到最佳的超分效果。

经评测,我们的模型在图片处理的两项关键指标PSNR与处理速度上均达到业界领先水平。在处理速度上,TSR领先于目前主流的超分辨率技术。同时,对摄像效果不那么好的图片,TSR也能取得不错的效果。

TSR与学术界前沿超分辨率技术对比如下图(NTIRE2017数据,400* 300 放大到 800 * 600,硬件环境:Titan XP workstation)。 可以看到在处理速度与图片效果来看,TSR都处于业界领先水平。

同时,TSR是业务首创的将超分辨率技术应用到移动端的技术。目前主流的深度神经网络模型一般在后台的高性能GPU机器上运行,对机器性能要求比较高。TSR基于对超分技术与移动端手机架构的深入研究,提出基于手机端深度学习架构,能够充分使用移动端的GPU和CPU资源,使用异构并行计算技术与数据并行处理技术进行加速。对比业务的主流框架如CAFFE2与TENSORFLOW ,性能提高10倍以上,内存消耗降低95%。是目前唯一能够在普通的Andriod手机上也可以运行的技术。

深度学习从后台迁移到后台手机端,TSR主要首创了如下关键技术。

1) TSR独创分块加速技术,把图片分成很多小块通过神经网络进行处理。分块加速技术充分使用CPU的多核特性,使用进行多核并行计算。使用算法对图片的纹理复杂度进行识别和智能处理,大大提高图片的处理速率。

如下图示,通过智能识别可以加速蓝框中图块的处理过程。

2)其次,TSR是业界首次采用异构多核CPU/GPU加速技术。能够根据用户手机的GPU与CPU能力进行任务的智能划分,联合GPU/CPU进行处理以达到较好的处理效果。

3)第三,TSR打造了统一移动端并行加速框架RapidNet。深度融合了基于AND平台的opencl GPU并行计算加速技术与基于IOS平台的METAL 加速技术。对于基于ARM结构的CPU,充分利用neon SIMD技术和线程池技术。对比业界主流的机器学习平台,速度提高10倍以上。

TSR/RapidNet架构如下图所示:

TSR对比业界的处理效果:

4)第四,TSR采用了动态探测与模型动态加载技术,保证了手机端全覆盖。TSR会动态探测手机的处理能力,针对不同手机实时加载不同的模型,从而能够保证所有性能的手机客户端都可以使用这种技术,保证了手机端的全覆盖。

通过超分辨率技术在QQ空间的项目实施,可以达到节省空间75%的图片流量,同时预计可以节省存储150P。

7、产品的意义对未来的展望(for future)

1)可以应用到业界所有的图片处理,使用本技术能够给用户节省75%流量,大大降低图片传输的带宽。目前已经应用的QQ用户普通的图片浏览,达到节省75%流量的情况下达到同等视觉效果。

同时,在如QQ,微信,天天P图,动漫业务都是TSR的目标使用场景。

2)本技术可用于所有对图片质量要求较高的场景,通过基于TSR的超分辨率技术可以智能修复用户的老照片,模糊的图片,能够把普通图片变成清晰图像。目前已在最新版QQ上使用,用户进行放大查看图片细节时可以达到“无限”缩放的高清效果

3)同时本技术带来的另一个收益是打开了移动端进行AI相关的深度机器模型学习的大门。在此之前需要采购昂贵GPU设备才可以运行的深度神经网络,现在在用户的普通手机上也可以运行,这项技术可以极大的推动手机端进行神经网络处理的进程,对于像人脸识别,OCR识别,背景识别,人物美妆等实时应用可以达到同等效果。

8、TSR处理效果样例:

用户原图与经TSR处理后的图片对比(左边是原图,右边是超分辨率(TSR)处理的图片)

细节对比:

TSR处理后效果对比

细节对比:

TSR处理后效果对比:

细节对比:

TSR处理后效果对比:

细节对比:

TSR处理后效果对比:

细节对比:

用户普通图片压缩75%再进行TSR处理后跟原图进行对比效果(左边是原图,右边是SIZE压缩到25%后使用TSR进行还原的图片效果):

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

3 条评论
登录 后参与评论

相关文章

来自专栏灯塔大数据

塔说 | 比特币的价格今年会达到10万美元吗?有人用蒙特卡罗方法预测了一下

前言 科技博客作者 Xoel López Barata 正尝试着用简单的蒙特卡罗模拟方法,来预测比特币的每日收益,并试图预测至今年年底,比特币的价格最可能达到多...

3385
来自专栏人工智能头条

上海联通大数据与机器学习驱动的离网预测模型

1244
来自专栏腾讯音视频实验室

AI黑科技:超低码率看实时高清视频

怎么样才能不增加上行码率的情况下,让用户在接收端可以看到更高清的实时视频呢?

4K8
来自专栏机器之心

学界 | 哈佛大学提出在云、边缘与终端设备上的分布式深度神经网络DDNN

选自arXiv 机器之心编译 参与:李亚洲 近年来,深度神经网络在多种应用上取得了极大的成功,网络架构也变得越来越深。以卷积神经网络为例,从 1998 年 Le...

3547
来自专栏携程技术中心

干货 | 京东JIMI用户未来意图预测技术揭秘

作者简介 邹波,京东JIMI核心算法架构师,致力于NLP领域和深度学习方向。目前负责用户未来意图预测,智能分流,会话结束预测等项目,极大的提高了客服工作效率,同...

4278
来自专栏机器之心

专栏 | 阿里iDST CVPR 2017论文解读:视频衣物精确检索

机器之心专栏 作者:方广、磐君、思淘 在 CVPR 2017 开幕当天的文章《CVPR 2017国内外亮点论文汇集:史上最盛大会议,华人占据半壁江山》中,我们...

3488
来自专栏媒矿工厂

视频体验评估标准(uVES1.0)模型及算法解读

视频业务快速发展,已经从强调用户规模走向注重提升服务品质的阶段。消费者对观看体验的要求不断提高,提升视频用户体验质量已经成为视频服务的主要竞争因素。

1130
来自专栏AI研习社

分布式机器学习时代即将来临?谷歌推出“Federated Learning”

传统机器学习方法,需要把训练数据集中于某一台机器或是单个数据中心里。谷歌等云服务巨头还建设了规模庞大的云计算基础设施,来对数据进行处理。现在,为利用移动设备上的...

33411
来自专栏CDA数据分析师

原创重磅!数据分析在交易欺诈领域的应用

一 交易欺诈简介 1.1 交易欺诈简介 交易欺诈一般是指第三方欺诈,即所发生的交易非持卡人本人意愿的交易。通常是不法分子利用各种渠道窃取卡信息,进行伪造卡作案。...

2556
来自专栏YoungGy

消费者理论概述

消费者理论是构建经济学大厦的基石。 本文先从优化问题讲起,构建经济学基本的benefit-cost模型,然后从消费者的角度阐述consumer theory...

1979

扫码关注云+社区