7 Papers & Radios | 迪士尼百万像素级换脸；语义分割损失函数综述

机器之心

发布于 2020-07-09 15:00:25

7630

文章被收录于专栏：机器之心机器之心

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周的重要论文有迪士尼开发的百万像素级换脸技术，以及马萨诸塞大学阿默斯特分校女性学者Shruti Jadon的语义分割损失函数汇总。

目录：

Discovering Symbolic Models from Deep Learning with Inductive Biases
Neural Architecture Design for GPU-Efficient Networks
High-Resolution Neural Face Swapping for Visual Effects
A survey of loss functions for semantic segmentation
HAT: Hardware-Aware Transformers for Efficient Natural Language Processing
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
Towards a new generation of artificial intelligence in China
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文1：Discovering Symbolic Models from Deep Learning with Inductive Biases

作者：Miles Cranmer、Alvaro Sanchez-Gonzalez、Peter Battaglia、Rui Xu等
论文链接：https://arxiv.org/pdf/2006.11287.pdf
GitHub地址：https://github.com/MilesCranmer/symbolic_deep_learning

摘要：如何将深度模型转换为符号方程？来自普林斯顿、DeepMind 等机构的研究人员提出了一种解决方案：结合深度学习和符号回归实现这一目标。具体来说，他们通过引入强归纳偏置来提取深度模型的符号表示。

该方法的工作原理是：首先在监督设置下训练 GNN，同时鼓励稀疏潜在表示，然后对学得模型的组件应用符号回归，从而提取显式物理关系。该研究发现，这一方法可以从神经网络中提取正确的已知公式，包括力学定律和哈密顿动力学。此外，研究者还将该方法应用于宇宙学示例，即暗物质模拟中，并发现了一个新的解析公式。该公式可以基于邻近宇宙结构的质量分布预测暗物质的浓度。

此外，相比 GNN 本身，使用该方法从 GNN 提取的符号表达式能够更好地泛化至分布外（out-of-distribution）数据。该方法为解释神经网络，以及基于神经网络学得的表示发现新的物理学原理提供了新的方向。

该研究实验中所使用的 GNN 内部结构。

结合 GNN 和符号回归提取分析表达式的过程。

表中「Best, with mass」行即为使用该研究方法提取的公式。

推荐：该研究充分结合了符号模型和深度模型二者各自的优势。

论文2：Neural Architecture Design for GPU-Efficient Networks

作者：Ming Lin、Hesen Chen、Xiuyu Sun、Qi Qian、Hao Li、Rong Jink
论文链接：https://arxiv.org/pdf/2006.14090.pdf

摘要：众所周知，许多关键任务的系统都基于GPU进行推理，这不仅要求高识别准确率，而且要求较低的响应时间。尽管许多研究致力于通过深度模型的结构优化来进行有效推理，但其中的大多数并未利用现代GPU架构进行快速推理，从而导致性能欠佳。

为了解决这个问题，来自阿里的研究者基于大量的实证研究提出了设计GPU端高效网络的通用原则。这种设计原理使我们能够以一种简单轻便的方法有效地搜索GPU端高效的网络结构，这与大多数设计复杂且计算量大的神经架构搜索方法相反。基于提出的框架，研究者设计了一种GPU端高效的网络，简称为GENet。他们在多个GPU平台和推理引擎上进行了广泛的评估，结果在ImageNet上实现81.3%以上的top-1准确率，并且GENet比GPU上的EfficienNet快了6.4倍。

GENet结构图。

在V100 GPU上批大小为64和T4 GPU上批大小为32时，GENet与其他模型在ImageNet数据集上的top-1准确率和网络延迟比较。

在V100 FP16、T4 FP16和T4 INT8三种情况下，GENet与其他模型的准确率、延迟和加速度结果比较。

推荐：值的关注的是，在高精度设置下，GENet模型还优于比EfficientNet更高效的大多数SOTA模型。

论文3：High-Resolution Neural Face Swapping for Visual Effects

作者：J. Naruniec 等
论文链接：https://studios.disneyresearch.com/2020/06/29/high-resolution-neural-face-swapping-for-visual-effects/

摘要：近日迪士尼在欧洲图形学会透视研讨会（EGSR）上发表研究，展示了首个百万像素逼真换脸技术。他们提出了一种在图像和视频中实现全自动换脸的算法。据研究者称，这是首个渲染百万像素逼真结果的方法，且输出结果具备时序一致性。

具体来说，该研究提出了一个渐进式训练的多路 comb 网络，以及一种保持亮度和对比度的混合方法。虽然渐进式训练能够生成高分辨率图像，但将架构和训练数据扩展至两人以上可以使生成的表情具备更高的保真度。此外，在将生成的表情合成到目标人脸时，研究者调整混合策略，以保持对比度和低频光照。最后，研究者在人脸关键点稳定算法中融入了一种细化策略，以实现时序稳定性，这对于处理高分辨率视频来说至关重要。

在实验部分，研究者通过控制变量研究来验证该方法对换脸质量的影响，并与流行的 SOTA 方法进行了比较。

该方法生成的换脸图像。

整体流程。

从左到右依次为：目标图像、源图像、该方法在 1024×1024 和 256×256 分辨率下的成像效果，以及其他三种方法的成像效果。

推荐：据研究者称，这是首个渲染百万像素逼真结果的方法，且输出结果具备时序一致性。

论文4：A survey of loss functions for semantic segmentation

作者：Shruti Jadon
论文链接：https://arxiv.org/pdf/2006.14822.pdf

摘要：图像分割一直是非常活跃的研究领域，因为它具有修复医疗保健漏洞以及帮助大众的潜力。在过去五年里，各种论文提出了不同情况下所使用的不同客观损失函数，例如偏差数据和稀疏分割等。

在本文中，来自马萨诸塞大学阿默斯特分校的研究者总结了大多数广泛用于图像分割的已知损失函数，并列出了利用它们实现模型更快更好的收敛的情况。此外，研究者还引入了新的logcosh骰子损失函数，并将其在NBFS颅骨剥离数据集上的性能与广泛使用的损失函数进行了比较。最后验证了某些损失函数在所有数据集上表现良好，并且可以作为未知分布数据集的不错选择。

语义分割损失函数类型。

几种损失函数在Dice系数、敏感性和特异性三方面的比较。

推荐：本文作者Shruti Jadon是一位女性学者，现为Juniper Networks公司的软件工程师，主要从事资源预测工作。

论文5：HAT: Hardware-Aware Transformers for Efficient Natural Language Processing

作者：Hanrui Wang、Zhanghao Wu、Zhijian Liu等
论文链接：https://arxiv.org/pdf/2005.14187.pdf
GitHub地址：https://github.com/mit-han-lab/hardware-aware-transformers

摘要：为了获得更高效和快速的 Transformer 模型，MIT 等机构的研究者提出了 HAT: Hardware-Aware Transformers，借助神经网络搜索（NAS）技术，在搜索过程中加入硬件反馈，来对每一个硬件平台设计一个专用的高效 Transformer 网络结构。

在搜索空间上，他们提出打破之前设计 Transformer 的两点陈规。其一，研究者提出「任意编码器 - 解码器注意力」（Arbitrary Encoder-Decoder Attention），允许解码器获得多个和任意某些个编码器的输出，从而使得编码器不同的抽象层的信息都可以被解码器获取和使用；其二，研究者提出「异构层”（Heterogenous Layers」来使得每层都可以有不同的隐藏层维度（Hidden Dim）和注意力头数 (Head Number)，编 / 解码器也可以有不同的词向量长度 (Embedding Dim) 和层数等等。

研究者在四个机器翻译任务（WMT‘14 EN-De（英语 - 德语）、WMT’14 EN-Fr（英语 - 法语）、WMT’19 EN-DE（英语 - 德语）和 IWSLT‘14 De-En（德语 - 英语）），以及三个不同的硬件平台（树莓派、Intel CPU 和 Nvidia GPU）上验证了论文所提方法的有效性。

HAT 为每个硬件设计一个高效专用网路。

HAT的任意编码器-解码器注意力。

HAT的异构层。

推荐：在同样的精度下，相比于基线 Transformer， HAT 可以获得 3 倍加速，3.7 倍模型压缩。

论文6：GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

作者：Dmitry Lepikhin、HyoukJoong Lee 、Yuanzhong Xu等
论文链接：https://arxiv.org/pdf/2006.16668v1.pdf

摘要：神经网络缩放对于使用大量训练数据和计算来提升现实世界机器学习应用中的模型质量至关重要。尽管这种缩放趋势已被证实是确保更好模型质量的可靠方法，但在实现路径上仍存在挑战，例如计算成本、易于编程以及在并行设备上的高效实现等问题。

在本文中，来自谷歌的研究者提出了GShard模块，它是由一组轻量级注释API和XLA编译器的扩展组成。通过使用自动分片，GShard使我们能够扩展具有超过6000亿个参数的稀疏门控专家混合层（MOE）的多语言神经机器翻译Transformer模型。

具有MoE层的Transformer编码器缩放图示。

算法2：position-wise MoE层的前向传递。

具有不同数量的expert和层的MoE模型性能比较。

推荐：该模块的亮点在于以一种优雅的方式来表达各种并行计算模式，并且对现有模型代码的更改却很小。

论文7：Towards a new generation of artificial intelligence in China

作者：Fei Wu、Cewu Lu、Mingjie Zhu等
论文链接：https://www.nature.com/articles/s42256-020-0183-4

摘要：今年 6 月，由 AI 青年科学家联盟 · 梧桐汇牵头，联盟学术委员会主席、中国工程院院士潘云鹤作为通讯作者，15 名来自中国学界和 AI 产业界的领军人物联手，在 Nature Machine Intelligence 上发表了论文《Towards a new generation of artificial intelligence in China》。

研究者在这篇论文中解读了新一代人工智能（NGAI）发展规划、中国产学研合作经验，以及人工智能技术在日常消费、金融、医疗和自动驾驶等领域的应用。

将人工智能与中国社会经济发展相结合的主要国家平台。

推荐：这是中国人首次在国际顶级学术期刊上发表关于中国 AI 全景的论文。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. COVID-19 Literature Knowledge Graph Construction and Drug Repurposing Report Generation. (from Jiawei Han, Shih-Fu Chang, James Pustejovsky, Martha Palmer)

2. Relevance-guided Supervision for OpenQA with ColBERT. (from Christopher Potts, Matei Zaharia)

3. Dialog as a Vehicle for Lifelong Learning. (from Raymond J. Mooney)

4. Facts as Experts: Adaptable and Interpretable Neural Memory over Symbolic Knowledge. (from William W. Cohen)

5. LSBert: A Simple Framework for Lexical Simplification. (from Xindong Wu)

6. Graph Optimal Transport for Cross-Domain Alignment. (from Lawrence Carin)

7. GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. (from Zhifeng Chen)

8. Adversarial Mutual Information for Text Generation. (from Xian-Sheng Hua, Deng Cai)

9. Fact-based Text Editing. (from Hang Li)

10. Lightme: Analysing Language in Internet Support Groups for Mental Health. (from Luis Salvador-Carulla)

本周 10 篇 CV 精选论文是：

1. Deep Isometric Learning for Visual Recognition. (from Jitendra Malik)

2. Self-Supervised Learning of a Biologically-Inspired Visual Texture Model. (from Eero P. Simoncelli)

3. Perspective Plane Program Induction from a Single Image. (from William T. Freeman, Joshua B. Tenenbaum)

4. Object Goal Navigation using Goal-Oriented Semantic Exploration. (from Abhinav Gupta, Ruslan Salakhutdinov)

5. Uncertainty-aware multi-view co-training for semi-supervised medical image segmentation and domain adaptation. (from Alan Yuille)

6. Designing and Learning Trainable Priors with Non-Cooperative Games. (from Jean Ponce, Julien Mairal)

7. Learning Surrogates via Deep Embedding. (from Jiri Matas)

8. Swapping Autoencoder for Deep Image Manipulation. (from Jun-Yan Zhu, Eli Shechtman, Alexei A. Efros)

9. Automatic Crack Detection on Road Pavements Using Encoder Decoder Architecture. (from Xiaopeng Chen)

10. Tackling Occlusion in Siamese Tracking with Structured Dropouts. (from Arnold W. M. Smeulders)

本周 10 篇 ML 精选论文是：

1. Accelerated Message Passing for Entropy-Regularized MAP Inference. (from Peter Bartlett, Michael I. Jordan)

2. Convolutional Neural Network Training with Distributed K-FAC. (from Ian T. Foster)

3. Biologically Inspired Mechanisms for Adversarial Robustness. (from Tomaso Poggio)

4. Learning and Planning in Average-Reward Markov Decision Processes. (from Richard S. Sutton)

5. Federated Learning and Differential Privacy: Software tools analysis, the Sherpa.ai FL framework and methodological guidelines for preserving data privacy. (from Francisco Herrera)

6. Adaptive Procedural Task Generation for Hard-Exploration Problems. (from Silvio Savarese, Li Fei-Fei)

7. Exponentially Weighted l_2 Regularization Strategy in Constructing Reinforced Second-order Fuzzy Rule-based Model. (from Witold Pedrycz)

8. Causal Discovery in Physical Systems from Videos. (from Antonio Torralba, Dieter Fox)

9. Debiased Contrastive Learning. (from Antonio Torralba)

10. Relative Deviation Margin Bounds. (from Corinna Cortes, Mehryar Mohri)

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-07-05，如有侵权请联系 cloudcommunity@tencent.com 删除

https