专栏首页AIWalker深度学习替代手机ISP可行吗?

深度学习替代手机ISP可行吗?

paper, code

手机拍照的流行,复杂的相机ISP方案的需要更多的努力以提升成像效果。作者在本文中证实:简简单单无需任何关于传感器和光学信息的端到端深度学习模块即可替代大多主流ISP方案。作者提出一种新颖的金字塔CNN架构(PyNet)用于细粒度图像复原,它可以隐含的完成所有ISP过程(比如图像去马赛克、图像去噪、白平衡、颜色与对比度矫正、对摩尔纹等)。该模型可以直接将传感器采集的RAW数据转为到RGB空间,效果媲美高端数码相机,同时不依赖于手机ISP信息。为验证所提方法在真实数据上的有效性,作者收集了1W全分辨率RAW-RGB图像对(采用华为P20相机采集,以及佳能5D单反)。实验表明:所提方法可以轻易达到P20的ISP处理效果。

Datasets

上图给出了作者所构建的RAW-RGB数据样例。由于所采集的数据集可能并非完美对齐,作者首先进行对齐(SIFT+RANSAC),然后进行裁剪(448x448),仅仅裁剪相似度在0.9以上的图像块。最终得到48043对RAW-RGB数据,其中46.8K用于训练,1.2K用于测试。

Method

上图给出了作者所设计的金字塔CNN架构PyNet,它包含5个尺度的特征。在训练过程中,作者采用逐级训练方式,先训练最底层,然后训练次一层级特征,直到期望分辨率输出为止,合计训练6次。

不同于其他已有方法采用特定的损失函数,该文逐级采用不同的损失函数:

  • Level4-5: 作者认为该部分特征主要目的在于全局颜色、亮度与对比度矫正,所以选用了MSE损失;
  • Level2-3: 作者认为该部分特征主要目的在于全局内容复原(颜色和形状信息),所以作者采用了感知损失(VGG)与MSE损失(4:1);
  • Level1: 作者认为该尺度为原始图像尺度空间,主要用于局部图像矫正(纹理增强、噪声移除、局部颜色处理等),因此采用了SSIM、感知损失以及MSE损失(0.75:1:0.05)。

Experiments

作者采用tensorflow框架进行模型训练与测试,硬件平台为Nvidia Tesla V00GPU,优化器选用Adam,学习旅为5e-5。在上述GPU下,该网络处理2944x3958图像大约耗时3.8s。 作者通过实验对如下三个问题进行了答复:

  • 相比其他image2image网络架构,所提架构的处理效果如何?如下图所示,作者所设计的网络结构具有更好的视觉效果。
  • 所提方案能否泛化到其他手机传感器?如下图所示,作者所设计方案可以泛化到黑莓K1手机且具有良好的视觉效果,如果在K1数据上进行训练应当可以得到更好的效果。

Conclusion

该文主要贡献包含以下几点:

  • 一个端端到的用于解决RAW2RGB的深度学习解决方案;
  • 一种新颖的金字塔CNN架构用于全局与局部图像复原任务;
  • 一个包含1W数量的RAW-RGB数据集;
  • 充分而完备的实验对比分析。

尽管该文取得极好的处理效果,但从实际应用来看,用深度学习替代手机ISP还是不太可行,归根结底还是手机芯片的算力约束。GPU都需要3.8s,而手机拍照需要实时或接近实习,超过1s无疑是无法满足实际应用需求的。不过该文提供了一个很好模型设计和训练思路,还是值得花点时间研究以下。

本文分享自微信公众号 - AIWalker(happyaiwalker),作者:HappyAIWalker

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-11-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 韩松团队新作 | MCUNet | IoT设备+微型机器学习时代已经到来了

    基于单片机(Microcontroller Units, MCU)的微型IoT设备上的机器学习应用是非常有价值的,但同时也极具挑战:单片机的内存要比手机内存小...

    AIWalker
  • CANet|拼接注意力网络

    该文提出一种用于low-level视觉任务(包含压缩伪影移出、图像降噪)的通用框架,作者提出一种新颖的Concatenated Attention Neura...

    AIWalker
  • ICME2020最佳学生论文SPANet,另附Attention中的空间结构反思

    注意力机制在CV领域取得了极大成功,比如SENet、SKNet、DANet、PSANet、CBAM等注意力机制方法。在该文中,作者提出一种空间金字塔注意力网络...

    AIWalker
  • 【译】《Understanding ECMAScript6》- 第七章-Promise

    目录 异步编程 Promise基础 链式Promise 多重Promise响应 Promise继承 总结 异步操作是JavaScript最强大的功能之一。Jav...

    寒月十八
  • 简单的运动模糊效果实现

    逍遥剑客
  • React入门级小白指北及常见问题解答

    腾讯NEXT学位
  • salesforce零基础学习(九十一)Facet

    说Facet以前,我们先说一下浏览器加载解析以及渲染的过程。浏览器获取一个HTML的文件时,会按照自上向下的顺序进行解析,并在加载过程中进行渲染。对html解析...

    用户1169343
  • python接口测试之http请求

    python的强大之处在于提供了很多的标准库,这些标准库可以直接调用,本节部分,重点学习和总结在接口测试中Python的Http请求的库的学习。

    无涯WuYa
  • Docker 网络

    本文介绍 Docker 网络。 官方文档:https://docs.docker.com/engine/userguide/networking/ 网络类型 b...

    康怀帅
  • Alexa研究人员通过减少数据不平衡,可将AI系统错误率降低30%

    平衡的训练数据是分类器的主要障碍,当一类样本不成比例地对语料库做出贡献时,分类器自然会比其他类型更频繁地遇到它,因此有可能对它产生偏见。

    AiTechYun

扫码关注云+社区

领取腾讯云代金券