NVIDIA开发新的基于深度学习的算法，实时为黑白视频上色

AiTechYun

发布于 2018-09-26 11:50:26

9760

发布于 2018-09-26 11:50:26

文章被收录于专栏：ATYUN订阅号

编译：chux

出品：ATYUN订阅号

手动着色黑白视频是需要大量劳动力且繁琐的过程。但是现在，由NVIDIA研究人员开发的一种新的基于深度学习的算法有望使这个过程变得更加容易，新的框架允许视觉艺术家简单地着色场景中的一个帧，并且AI可以实时地将场景的其他部分着色。

“视频在帧之间包含高度冗余的信息。这种冗余已在视频压缩和编码进行了广泛研究，但较少的探索更先进的视频处理，例如着色的视频，”研究员Sifei Liu在论文中指出，“现在，只需几个关键帧就可以通过在稀疏位置进行注释来轻松实现整个视频的着色。”

卷积神经网络仅从一个彩色帧中推断出颜色应该是什么，并在剩余帧中填充颜色。这项工作的独特之处在于，可以通过交互式方法实现随之而来的着色，其中用户注释图像的一部分，从而产生成品。

团队使用NVIDIA TITAN XP GPU，多个数据集用于颜色，HDR和掩模传播的数百个视频训练这个混合网络。以颜色和掩模传播为例，Liu在MS-COCO数据集生成的合成帧对上预先训练模型，然后在ACT数据集上微调网络，该数据集包含7260个视频序列，大约600000帧。

Switchable Temporal Propagation Network（STPN）框架包含一个线性传播模块，可以提供各种视频属性，如颜色，高动态范围组件（HDR），以及从关键帧到不包含此类特性的所有其他帧的对象掩码。轻量级卷积神经网络根据帧的内容指导传播。

框架速度很快，可以实时实现结果。如研究中所解释的，该方法还产生比先前几种最先进方法更好的定量结果。

Liu和团队在论文中指出，“这些图像的人工特性更不明显，颜色也更有活力，STPN提供了一种在视频中随时间传播信息的通用方法。在未来，我们将探索如何结合中级和高级视觉线索，例如检测，跟踪，语义/实例分割，用于时间传播。”

这项工作将于9月8日至14日在德国慕尼黑举行的欧洲计算机视觉会议（ECCV）上展出。

论文：arxiv.org/pdf/1804.08758.pdf

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-09-11，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度