本周AI热点回顾：给Deepfake 假脸做 X-Ray、飞桨助力打造肺炎筛查和预评估AI系统

用户1386409

发布于 2020-03-04 10:05:01

2.1K0

发布于 2020-03-04 10:05:01

文章被收录于专栏：PaddlePaddle

CVPR 2020：给Deepfake 假脸做 X-Ray

换脸，是滥用深度学习的结果之一。自从 Deepfakes、FaceSwap 等应用开源以后，开发者能自己生成各种换脸视频，网络上也开始流传层出不穷的「假视频」。弗吉尼亚州 7 月将 Deepfake 滥用列入非法范畴、推特 11 月发布首个反 Deepfake 策略、谷歌 10 月发布 FaceForensics 基准数据集以反对假视频。

然而，尽管有了应对措施，换脸算法也在不断改进，但很难有一个通用的算法能检测不同模型生成的合成图。

人脸变换中的两种模式，我们常见的是第二种，将目标人脸的各种姿态表情都迁移到原来的人脸中。

目前有不同的算法生成换脸图像，甚至以后会有越来越多的新算法生成更生动的换脸视频。但目前主流的检测方法是，在真实图像与伪造图像上训练一个二分类模型，希望它能判别出来。如果训练数据都是 Deepfakes 生成的，那么显然它不太能判断 FaceSwap 生成的伪造图像。

微软亚洲研究院常务副院长郭百宁表示：「现在我们提出了一个方法，它既不需要了解换脸后的图像数据，也不需要知道换脸算法，就能对图像做『X-Ray』，鉴别出是否换脸，以及指出换脸的边界。」

所以新模型 Face X-Ray 具有两大属性：能泛化到未知换脸算法、能提供可解释的换脸边界。要获得这样的优良属性，诀窍就藏在换脸算法的一般过程中。如下所示，大多数换脸算法可以分为检测、修改以及融合三部分。与之前的研究不同，Face X-Ray 希望检测第三阶段产生的误差。

换脸模型的典型过程，之前的研究都在检测换脸带来的误差，而 Face X-Ray 希望检测到融合的边界。

DL 真的能识别融合过程中的缺陷吗？郭百宁博士表示，在图像采集过程中，每一张图像都有其独特的特征，它们可能来源于拍摄硬件，或者处理软件。只要不是一体生成的图像，它们在融合的过程中都会留下线索，这些线索人眼看不到，但深度学习能捕获。

论文地址：

https://arxiv.org/pdf/1912.13458.pdf

信息来源：机器之心

业内独家开源！百度飞桨助力连心医疗打造肺炎筛查和预评估AI系统！

2月28日，连心医疗基于百度飞桨平台开发上线“基于CT影像的肺炎筛查与病情预评估AI系统”，已首先在湖南郴州湘南学院附属医院投入使用。

该系统基于连心医疗在医学影像领域积累的核心AI技术，结合飞桨开源框架和视觉领域技术领先的PaddleSeg开发套件研发，可快速检测识别肺炎病灶，为病情诊断提供病灶的数量、体积、肺部占比等定量评估信息。同时辅以双肺密度分布的直方图和病灶勾画叠加显示等可视化手段，为临床医生筛查和预诊断患者肺炎病情提供定性和定量依据，提升医生诊断和评估效率。而基于AI技术打造的CT影像肺炎筛查与病情预评估系统的上线，能有效帮助临床医生缓解工作压力，加快患者诊疗速度，为缓解医疗资源不足和取得抗疫的最终胜利提供助力。

（图：百度飞桨助力连心医疗开发的基于CT影像的肺炎筛查及病情预评估AI系统）

首先落地在湘南学院附属医院的这套AI肺炎筛查和预评估系统，可在几十秒内完成对患者CT影像的病灶检测、病灶轮廓勾画、双肺密度分布直方图及肺部病灶的数量、体积、肺部占比等全套定量指标的计算与展示。其中，该系统在测试数据集上的病灶检测精度和召回率分别达到92%和97%，做到在保证高病灶检出精度的基础上防止漏检。在系统研发过程中，湘南学院附属医院为该系统的算法训练数据提出了严谨的标注标准，为算法模型的上线提出了严格的验收要求，在系统的功能模块设计上也提供了专业的临床指导意见。

基于共同的积极承担社会责任的企业担当，秉持用科技服务于社会的共识，为了促进围绕医学影像分析的新冠肺炎诊疗研究的行业发展，百度飞桨助力连心医疗在业内首次开源上述系统中的肺炎CT影像分析AI模型，并在百度飞桨平台上开放，为全行业的研究和研发提供一把“利器”，也期待更多的医院和算法研究者参与到基于AI的医学影像大数据抗疫产品研发中来，为抗疫临床研究和临床产品研发贡献力量。

在线演示地址：

https://www.paddlepaddle.org.cn/hub/scene/pneumonia

开源模型在线教程：

https://aistudio.baidu.com/aistudio/projectDetail/289819

定制化训练和服务平台：

https://ai.baidu.com/easydl/

信息来源：飞桨PaddlePaddle

谷歌开放Open Images V6，首增语音、文本、鼠标轨迹同步注释

谷歌的900万注释图像数据集Open Images，再次进化。

这一次的V6版本，不仅增加1400种视觉关系注释类型，新增2350万个经过人工验证的图像级标签，包含250万个人类动作注释，还更新了新特性局部叙事（localized narratives）。

所谓局部叙事，是一种全新的多模式注释形式，包括所描述对象的同步语音、文本和鼠标轨迹。

图源：谷歌博客

在Open Images V6中，有50万图像适用这一模式。同时，谷歌也发布了COCO数据集的完整12.3万图像的局部叙事。谷歌表示，这部分注释数据里，鼠标轨迹总长度约为6400公里；要念完所有的文本叙述，需要1.5年时间。

在研究、利用视觉和语言之间的联系时，通常会使用图像字幕，即图像及其描述文本之间的配对。那么问题来了，文本中每个单词都对应到图像的哪一个部分呢？

局部叙事，这时就派上了用场。这些注释由注释人员完成。注释人员在念出图像描述文本的同时，会将鼠标移动到单词对应的图像区域上。

并且，他们会手动纠正自动语音识别结果，确保语音、文本和鼠标轨迹三者对应正确且同步。

Open Images是谷歌在2016年推出的大规模图像数据集，包括大约900万张图片，标注了数千个图像类别。

2019年，谷歌释出Open Images V5，新增了对图像分割掩码的注释。分割对象样本近280万个，覆盖350个类别，成为最大分割掩码数据集。并且从2018年开始，谷歌就基于Open Images数据集发起了系列挑战赛谷歌希望，通过Open Images V6，能进一步刺激人们对真实场景的理解。

信息来源：量子位

AI 复活已故漫画家手冢治虫，出版新作续写传奇

如果漫画家手冢治虫还活着，会在漫画中描绘出什么样的未来？AI 是否能够帮他呈现？

2 月 27 日，由 AI 设计并绘制的已故手冢治虫的新漫画《ぱいどん》（《Paidon》），在漫画杂志《モーニング》（《Morning》）中发表了第一部分。

被誉为漫画之神的手冢治虫，是现代日式漫画的鼻祖。有人这样形容他：手冢治虫之于日本，如凯撒之于罗马。他在 24 岁时创作的《铁臂阿童木》轰动日本，26 岁的作品《火之鸟》至今仍普遍被认为是日本漫画界的最高杰作。

2019 年 10 月，日本东芝存储器公司 Kioxia 发起名为「TEZUKA2020」的项目，旨在通过 AI 与人类合作，挑战手冢治虫创作新漫画，以此向他致敬。这部由 AI 设计并绘制的漫画，是如何体现出手冢治虫的风格的？是否足够接近手冢治虫作品的神韵呢？

AI 技术通过学习手冢治虫作品的画风和思想，还原手冢治虫的作品，并在此基础上打造新的漫画作品。该漫画对手冢治虫的 65 部作品进行了分析，其中包括《火之鸟》和《怪医黑杰克》等经典作品。

通过分析其作品，人工智能产生了角色设计和基本故事情节。据悉，新漫画的主人公是 AI 学习了 6000 张角色图像之后生成的。之后由专业创作者添加诸如服装和对话之类的元素以完善作品。

机器人绘制漫画新作主角

对于角色绘图，他们使用了「StyleGAN」的样式模型，并基于 NVIDIA 的真人面部学习模型，以及未来大学开发的技术，从漫画中提取了成千上万手冢治虫的各种角色图像，继而通过迁移学习生成了这些图像。

信息来源：HyperAI超神经

GhostNet: 超越 MobileNetV3 的轻量级网络 | CVPR 2020

同样精度，速度和计算量均少于此前SOTA算法。这就是华为诺亚方舟实验室提出的新型端侧神经网络架构GhostNet。

GhostNet的核心是Ghost模块，与普通卷积神经网络相比，在不更改输出特征图大小的情况下，其所需的参数总数和计算复杂度均已降低，而且即插即用。在ImageNet分类任务中，GhostNet在各种计算复杂度级别上始终优于其他竞争对手，比如谷歌的MobileNet系列、旷视的ShuffleNet系列、IGCV3、ProxylessNAS、FBNet、MnasNet等等。

谷歌的MobileNet团队，以及旷视的ShuffleNet团队，最近想了不少办法来构建低计算量的深度神经网络。但他们采取的深度卷积或混洗操作，依旧是在卷积上下功夫——用较小的卷积核（浮点运算）。

华为诺亚实验室的团队没有沿着这条路前进，而是另辟蹊径：

“特征图对”中的一个特征图，可以通过廉价操作（上图中的扳手）将另一特征图变换而获得，则可以认为其中一个特征图是另一个的“幻影”。

于是就有GhostNet的基础——Ghost模块，用更少的参数，生成与普通卷积层相同数量的特征图，其需要的算力资源，要比普通卷积层要低，集成到现有设计好的神经网络结构中，则能够降低计算成本。Ghost bottleneck主要由两个堆叠的Ghost模块组成。第一个用作扩展层，增加了通道数。第二个用于减少通道数，以与shortcut路径匹配。然后，使用shortcut连接这两个Ghost模块的输入和输出。

如果你有兴趣，可以收好下面的传送门：

论文地址： https://arxiv.org/abs/1911.11907

项目开源地址： https://github.com/huawei-noah/ghostnet

信息来源：AI有道

二阶梯度优化新崛起，超越 Adam

常见的最优化器，如 Adam、AdaGrad、SGD+Momentum 等，都是一阶的。但是二阶梯度的收敛速度相比它们就快了太多。近日，谷歌研究者联合普林斯顿大学等，提出了真正应用的二阶梯度最优化器 Shampoo，让这个理论上颇有前景的设想变为现实。目前，无论是从理论还是应用层面来说，机器学习中的优化都是以随机梯度下降等一阶梯度方法为主。囊括二阶梯度和/或二阶数据统计的二阶优化方法虽然理论基础更强，但受限于计算量、内存和通信花销等因素，二阶梯度优化方法的普及度不高。

可能你用各种框架搭建过各种神经网络，同时也尝试过调用 Adam、AdaGrad、SGD+Momentum 等形形色色的最优化器。但是你会发现，它们都采用一阶梯度，二阶梯度似乎仍然遥遥无期。

然而在谷歌大脑与普林斯顿大学等研究者的努力下，二阶梯度优化终于在实战大模型上展现出独特的优势。

研究者表示，为了缩短理论和实际优化效果之间的差距，该论文提出了一种二阶优化的概念性验证，并通过一系列重要的算法与数值计算提升，证明它在实际深度模型中能有非常大的提升。具体而言，在训练深度模型过程中，二阶梯度优化 Shampoo 能高效利用由多核 CPU 和多加速器单元组成的异构硬件架构。并且在大规模机器翻译、图像识别等领域实现了非常优越的性能，要比现有的顶尖一阶梯度下降方法还要好。

它在 WMT 英-法翻译数据集上的效果如下，它采用的是标准的 Transformer。除了这一个实验，研究者还测试了 Big Transformer 以及 ImageNet 上的 ResNet，这些实验结果都展示在后文中。

WMT'14 英法翻译数据集上的 Transformer，二阶梯度算法 Shampoo 在迭代数上快了 1.95 倍，且就算要计算二阶梯度，每一次迭代也只慢了 16%，总体上来说节省了 40% 的执行时间。

论文地址：https://arxiv.org/abs/2002.09018

本周论文推荐

5、A Comprehensive Survey on Transfer Learning（迁移学习）

作者：Fuzhen Zhuang, Zhiyuan Qi, Keyu Duan, Dongbo Xi, Yongchun Zhu, Hengshu Zhu, Senior Member, IEEE, Hui Xiong, Senior Member, IEEE, and Qing He

摘要：迁移学习的目的是通过迁移包含在不同但相关的源域中的知识来提高目标学习者在目标域上的学习表现。这样，可以减少对大量目标域数据的依赖，以构建目标学习者。由于其广泛的应用前景，迁移学习已经成为机器学习中一个热门和有前途的领域。虽然已经有一些关于迁移学习的有价值的和令人印象深刻的综述，但这些综述介绍的方法相对孤立，缺乏迁移学习的最新进展。随着迁移学习领域的迅速扩大，对相关研究进行全面的回顾既有必要也有挑战。本文试图将已有的迁移学习研究进行梳理使其系统化，并对迁移学习的机制和策略进行全面的归纳和解读，帮助读者更好地了解当前的研究现状和思路。与以往的文章不同，本文从数据和模型的角度对40多种具有代表性的迁移学习方法进行了综述。还简要介绍了迁移学习的应用。为了展示不同迁移学习模型的性能，我们使用了20种有代表性的迁移学习模型进行实验。这些模型是在三个不同的数据集上执行的，即Amazon Reviews，Reuters-21578和Office-31。实验结果表明，在实际应用中选择合适的迁移学习模型是非常重要的。。