专栏首页相约机器人迈克尔杰克逊的4K高清修复视频技术解码

迈克尔杰克逊的4K高清修复视频技术解码

近日网上的一个迈克尔杰克逊代表作《Smooth Criminal》MV官方高清修复版,的视频赚足了大家的眼球。这次的高清修复不仅分辨率达到了4K,原本的25帧录像也提升到了60帧。逼真得甚至可以看清MJ领带上得问题,完全就像是使用现代设备拍摄的一样。

经典的东西每次观赏都会赏心悦目。再加上有AI的黑科技助力,仿佛迈克尔杰克逊穿越回来一般。这是我们在欣赏经典之余,不由得感慨,AI时代真的到来了,而且它正在改变着我们的生活。

从事AI领域的你是否也想做个高清视频试试?接下来我们就为大家解码一下,该视频背后的技术。

早在迈克尔杰克逊的这个4K高清发布以前,就有人将以前的电影进行过转换,最著名的当属人类历史上的第一部电影《火车进站》的4K转换。它是由Denis Shiryaev实现的。Denis Shiryaev在将每帧图片提高到4K基础上,还将帧率提高到每秒60帧。

这部《火车进站》125年前的电影采用了 35mm格式胶片制作,由于当时的放映机由手摇进行驱动,其原始帧率大概在16帧到24帧之间。在修复过程中,他使用的转换工具是Topaz实验室的Gigapixel AI以及DAIN image 图像编辑应用程序。

Gigapixel AI软件与DAIN模型

Gigapixel AI软件内嵌专有的插值算法,在分析图像的同时能够识别图像的细节和结构,即使将图像放大 600%,也能保证图像的清晰。值得一提的是,电影中的部分图像是通过GAN生成的。DAIN就是这一类GAN模型中的一种。

DAIN可对电影中的帧进行预测,并将其插入现有视频之中。换句话说, DAIN分析并映射视频剪辑,然后在现有图像之间插入生成的填充图像。

DAIN全称是深度感知视频帧内插(Depth-Aware Video Frame Interpolation)。它提出了一种通过探索深度信息来检测遮挡的方法, 借用PWC光流coarse-to-fine的思路,尝试解决large motions的问题。使用学习的分层特征和深度作为上下文信息,更好的合成中间帧。

视频帧插值的目的是在原始帧之间合成不存在的帧。但是由于大的物体运动或遮挡,插帧的质量通常会比较低。

DAIN模型的架构

DAIN效果类似于英伟达开源的Super SloMo,却比英伟达的算法效果更清晰、帧率更高,可以把30fps的进一步插帧到480fps。

提示:

英伟达开源的Super SloMo是一个里程碑是的4K高清转化技术。该项目的地址如下:

https://github.com/avinashpaliwal/Super-SloMo/

训练数据集:

http://www.cs.ubc.ca/labs/imager/tr/2017/DeepVideoDeblurring/DeepVideoDeblurring_Dataset_Original_High_FPS_Videos.zip

训练完成模型下载:

https://drive.google.com/open?id=1IvobLDbRiBgZr3ryCRrWL8xDbMZ-KnpF

论文地址: https://arxiv.org/pdf/1712.00080.pdf

DAIN的体系架构如下:

给定两个时刻的输入帧,先估计光流和深度图,然后使用建议的深度感知流投影层生成中间流。

然后,模型基于光流和局部插值内核对输入帧、深度图和上下文特征进行扭曲,合成输出帧。

这种模型紧凑、高效且完全可微分。定量和定性的结果表明,DAIN在各种数据集上均优于最新的帧插值方法。

DAIN模型的训练细节

DAIN模型使用了Charbonnier Loss作为损失函数,它是真实帧和混合帧之间的残差,是一种L1 loss的变种,只不过加了一个正则项。

所采用的训练数据集是Vimeo90K,其有51312个三元组用于训练,其中每个三元组包含3个连续的视频帧,分辨率为256×448像素。

在训练是,用网络模型来预测每个三元组的中间帧(即,t=0.5)。在测试时,可以令模型生成任意的中间帧。另外,还通过水平和垂直翻转以及颠倒三元组的时间顺序来增加训练数据。

在具体的训练策略中,使用了AdaMax优化器,分别设置 β1 and β2为0.9 和 0.999,并将核估计、上下文提取和帧合成网络的初始学习率设置为1e−4。

由于流估计和深度估计网络都是从预先训练的模型初始化而来的,因此分别使用较小的学习率1e−6和1e−7。另外还对整个模型进行30个epoch的联合训练,然后将每个网络的学习率降低0.2倍,并针对另外10个epoch对整个模型进行微调。

在NVIDIA Titan X(Pascal)GPU卡上训练模型,大约用了5天达到收敛状态。

论文下载地址:

https://arxiv.org/pdf/1904.00830.pdf

Github地址:

https://github.com/baowenbo/DAIN

小白福音

DAIN模型的作者可以说是相当的贴心,还提供了一个工具给没有任何AI基础的用户使用,具体链接如下:

http://distinctai.net/fps

该链接中已经提供了预训练模型,使我们不必再花费大量精力去训练。

后续扩展

DAIN模型可以堪称当前最好的视频修复模型。如果说还需要进一步提升的话,会是在模型的性能方面。另外基于单张图片的补全镜头功能也为视频处理提供了新的方向。未来或许会看到,AI能够让我们看到现有视频以外的世界。

图片的补全镜头功能可以理解为用GAN的“想象力”补全一张图片镜头外的世界,如下图所示:

当然它也可以递归更多:

该研究来自斯坦福大学, 项目地址:

https://github.com/bendangnuksung/Image-OutPainting

它采取的方法是基于一项早稻田大学的研究。来自早稻田大学的三位老师提出了一种局部和全局一致的图像补全方法。在使用卷积神经网络,填充任意形状的缺失区域来补全图像后,使用全局和局部的情景鉴别器来区分真实图像和被补全图像。图像补全网络与鉴别器网络分别被训练后,再利用GAN损失函数统一训练。这个的方法可以生成图像中未出现的片段,能够自然地完成具有高度特定的结构(如面部)的图像。

看到这么多惊艳的成果,相信未来在图像领域还会催生出更多的有趣研究,让我们拭目以待。

更多资源

想要了解更多的GAN网络吗?

这里有个项目链接,列出了所有的GAN论文和相关的代码。一眼望去没有尽头,部分截图如下:

相关地址如下,拿走不谢:

https://github.com/kozistr/Awesome-GANs

本文分享自微信公众号 - 相约机器人(xiangyuejiqiren),作者:代码医生

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-06-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 98%都认错,图像识别AI遇上对抗性图像竟变“瞎子”

    近几年来,计算机视觉有了很大的改善,但仍然有可能犯严重的错误。犯错如此之多,以至于有一个研究领域致力于研究AI经常误认的图片,称为“对抗性图像”。可以把它们看作...

    代码医生工作室
  • 腾讯AI制霸王者荣耀,世界杯5V5 「绝悟」绝杀职业玩家,1天训练强度超人类440年

    昨日,腾讯AI Lab研发的智能体「绝悟」在王者荣耀世界冠军杯半决赛特设环节,与职业选手职业选手赛区联队的5v5对决中获胜!

    代码医生工作室
  • 写在人工智能退潮时

    金融大鳄索罗斯曾经说过:世界经济史是一部基于假象和谎言的连续剧。要获得财富,做法就是认清其假象,投入其中,然后在假象被公众认识之前退出游戏。

    代码医生工作室
  • 大白话解释模型产生过拟合的原因!

    今天郭江师兄在实验室讲解了全体机器学习会第一章的知识,大家讨论了一下过拟合的知识,这里我根据自己的理解,整理了一下原因,力求同最通俗的语言来描述,可能不是太严谨...

    AI研习社
  • 按部就班的吴恩达机器学习网课用于讨论(9)

    需要选择合适的模型,能够正确的训练模型,并更好的拟合数据。如下的例子是房价面积和价格的线性回归模型,

    嘘、小点声
  • 学 AI 和机器学习的人必须关注的 6 个领域

    近期热门的话题, 人们开始重新讨论这一基本定义----什么是人工智能(AI)。有些人将 AI 重新命名为「认知计算」或「机器智能」,而其他人则错误地将 AI ...

    AI研习社
  • 学界 | 大白话解释模型产生过拟合的原因

    AI科技评论按:本文原作者忆臻,原载于作者的知乎专栏。 今天郭江师兄在实验室讲解了全体机器学习会第一章的知识,大家讨论了一下过拟合的知识,这里我根据自己的理解,...

    AI科技评论
  • Linux从入门到精通之监控软件Cacti

    今天我们来讲一下监控软件Cacti。Cacti的工作结构是:C/S模式采集监控数据,B/S模式管理检测平台,其实呢Cacti利用的是SNMP(简单网络管理协议)...

    DevinGeng
  • 最常用的决策树算法!Random Forest、Adaboost、GBDT 算法

    本文主要介绍基于集成学习的决策树,其主要通过不同学习框架生产基学习器,并综合所有基学习器的预测结果来改善单个基学习器的识别率和泛化性。

    Datawhale
  • 【AI初识境】如何增加深度学习模型的泛化能力

    机器学习方法训练出来一个模型,希望它不仅仅是对于已知的数据(训练集)性能表现良好,对于未知的数据(测试集)也应该表现良好,也就是具有良好的generalizat...

    用户1508658

扫码关注云+社区

领取腾讯云代金券