7 Papers & Radios | 当支持向量机遇上神经网络；EagerPy实现多框架无缝衔接

机器之心

发布于 2020-09-08 10:07:18

4140

文章被收录于专栏：机器之心机器之心

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周值得关注的论文有支持向量机向神经网络的扩展性研究，以及API 统一、干净且适配 PyTorch、TF 的新型 EagerPy 框架。

目录：

AMBERT: A PRE-TRAINED LANGUAGE MODEL WITH MULTI-GRAINED TOKENIZATION
Graph Embedding for Combinatorial Optimization: A Survey
DeLighT: Very Deep and Light-weight Transformer
Neural Representation Learning for Natural Language Processing
Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs
Self-supervised learning through the eyes of a child
EagerPy: Writing Code That Works Natively with PyTorch, TensorFlow, JAX, and NumPy
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：AMBERT: A PRE-TRAINED LANGUAGE MODEL WITH MULTI-GRAINED TOKENIZATION

作者：Xinsong Zhang、李航
论文链接：https://arxiv.org/pdf/2008.11869.pdf

摘要：近日，字节跳动 Xinsong Zhang、李航两位研究者在细粒度和粗粒度标记化的基础上，提出了一种新的预训练语言模型，他们称之为 AMBERT（一种多粒度 BERT）。在构成上，AMBERT 具有两个编码器。对于英文，AMBERT 将单词序列（细粒度标记）和短语序列（粗粒度标记）作为标记化后的输入，其中使用一个编码器处理单词序列，另一个编码器处理短语序列，并利用两个编码器之间的共享参数，最终分别创建单词和短语的上下文表示序列。

研究团队已经在一些中文和英文的基准数据集（包括 CLUE、GLUE、SQuAD 和 RACE）上进行了实验。实验结果表明，AMBERT 的性能几乎在所有情况下都优于现有的最佳性能模型。

AMBERT 模型整体框架。

CLUE 任务上 AMBERT 与当前最优模型的比较。

GLUE 任务上 AMBERT 与当前最优模型的比较。

推荐：尤其是对于中文而言，AMBERT 的提升效果显著

论文 2：Graph Embedding for Combinatorial Optimization: A Survey

作者：Yun Peng、Byron Choi、Jianliang Xu
论文链接：https://arxiv.org/pdf/2008.12646.pdf

摘要：在这篇论文中，中国香港浸会大学的研究者对近来用于解决组合优化（combinatorial optimization, CO）的图嵌入方法进行了综述。大多数图嵌入方法分为两个阶段：图预处理和 ML 模型学习。所以，本文也从图预处理任务和 ML 模型两个角度来分类图嵌入工作。此外，本文还总结了近来用于探索图嵌入的图组合优化方法。

IsoNN 架构。

使用层级粗化图（coarsened graph）的图嵌入。

使用图嵌入的 CO 方法汇总。

推荐：本文还对该领域未来的研究方向进行了展望。

论文 3：DeLighT: Very Deep and Light-weight Transformer

作者：Sachin Mehta、Marjan Ghazvininejad、Srinivasan Iyer 等
论文链接：https://arxiv.org/abs/2008.00623

摘要：Google 团队提出的 NLP 经典之作 Transformer 由 Ashish Vaswani 等人在 2017 年发表的论文《Attention Is All You Need》中提出。但由于模型参数量过大，该模型训练困难、部署不方便，研究人员一直在探究如何优化 Transformer。近日，来自华盛顿大学和 FAIR 的 Sachin Mehta 等人提出了一个网络结构较深但轻量级的 Transformer——DeLighT。

DeLighT 能够更高效地分配参数，主要表现在：1）每个 Transformer 块使用结构较深但参数较少的 DExTra；2）在所有块上使用逐块缩放（block-wise scaling），使靠近输入的 DeLighT 块比较浅且窄，靠近输出的 DeLighT 块比较宽且深。总的来说，DeLighT 的网络深度是标准 transformer 模型的 2.5 到 4 倍，但参数量和计算量都更少。

(a, b) DeFINE 单元和 DExTra 之间的对比。(c, d) 标准 transformer 模块与 DeLighT 模块中的 block-wise 对比。

均匀缩放 vs 逐块缩放。

模型在机器翻译语料库上的结果。与标准 transformers 相比，DeLighT 模型用更少的参数就能达到类似的性能。

推荐：与之前的工作不同，该论文展示了对每个 Transformer 块使用 DExTra 以及基于所有块使用逐块缩放时，能够实现参数的高效分配。

论文 4：Neural Representation Learning for Natural Language Processing

作者：刘鹏飞
论文链接：http://pfliu.com/Thesis/thesis.pdf

摘要：这是复旦大学计算机应用与技术博士生刘鹏飞的博士论文。本文工作围绕着以下问题展开：1）对于不同粒度的文本（词语、句子、句对），如何设计合理的结构，使得模型可以学习到适合最终任务的表示？深度学习的到来使得自然语言处理中的研究工作由原来的特征工程过渡到了现在的结构工程，而对于文本的表示学习，首先要解决的最基本问题就是寻找合适的归纳偏置，使得模型可以更好地对输入文本进行编码。而本文分别针对不同粒度的文本信号，进行相应的网络结构探索，希望找到更适合下游任务的结构偏置。2）如何进行针对性的迁移学习？有针对性地进行迁移是指我们要对迁移的知识 “按需分配”，这就要求我们学习的知识应该具备可迁移性，此外，我们还要对已有的知识进行可理解分析，从而可以分离我们真正需要的知识，最终实现知识的定向迁移。

神经语义表示学习过程示意图。

神经张量网络可视化。

习语感知组合网络的子模块结构。

推荐：刘鹏飞的导师之一为著名学者邱锡鹏。

论文 5：Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

作者：Alexia Jolicoeur-Martineau、Ioannis Mitliagkas
论文链接：https://arxiv.org/abs/1910.06922

摘要：在这篇论文中，研究者阐述了如何从同一框架中得到 SVM 和梯度惩罚 GAN。据论文一作介绍，这项研究的灵感来自她的博士资格考试。在准备过程中，她学习了 SVM，并思考了这个问题：「如果将 SVM 推广到神经网络会发生什么？」顺着这个思路，研究者发现了 SVM、GAN、Wasserstein 距离之间的关系。

该研究将最大间隔分类器（MMC）的概念扩展到任意范数和非线性函数。支持向量机是 MMC 的一个特例。研究者发现，MMC 可以形式化为积分概率度量（Integral Probability Metrics，IPM）或具备某种形式梯度范数惩罚的分类器。这表明它与梯度惩罚 GAN 有直接关联。该研究表明，Wasserstein GAN、标准 GAN、最小二乘 GAN 和具备梯度惩罚的 Hinge GAN 中的判别器都是 MMC，并解释了 GAN 中最大化间隔的作用。

实际使用中的 Soft-SVM。

推荐：据论文一作介绍，这项研究的灵感来自她的博士资格考试。

论文 6：Self-supervised learning through the eyes of a child

作者：A. Emin Orhan、Vaibhav V. Gupta、Brenden M. Lake
论文链接：https://arxiv.org/pdf/2007.16189.pdf

摘要：在这篇论文中，研究者的目标是利用自监督深度学习技术和 SAYCam 数据集对上述问题进行初步探索。该数据集的规模和纵深可以帮助研究者训练一个大规模模型。他们选择使用自监督学习方法，可以避免儿童无法获得的额外监督信息。研究者用没有标签的原始视频训练自监督模型，希望能从中提取出有用的高级别视觉表征。然后，他们利用儿童环境中的常见物体类别来测试模型的区分能力，以此来评估模型学到的视觉表征，这里只使用线性 readout。

实验结果首次表明，使用通用的自监督学习方法，基于从儿童角度收集的自然视频学习到了强大的、高级别视觉表征。这些视觉表征可以支持：1）在复杂视觉分类任务中获得高准确率；2）对自然变换保持不变性；3）从少量的训练示例泛化至未见过的类别。

将整个视频数据集划分为有限数量的等时长时间类别。

所有模型在线性分类任务上的 top-1 分类准确率。

4 个更具挑战性分类任务上的测试结果。

推荐：该研究对 SAYCam 数据集的创新性应用得到了一些研究者的肯定和赞赏。

论文 7：EagerPy: Writing Code That Works Natively with PyTorch, TensorFlow, JAX, and NumPy

作者：Jonas Rauber、Matthias Bethge、Wieland Brendel
论文链接：https://arxiv.org/abs/2008.04175v1

摘要：在本文中，来自德国图宾根大学和图宾根伯恩斯坦计算神经科学中心的研究者将 eager execution 进行了扩展，提供了一个新的 Python 框架 EagerPy，它可以编写自动且原生地适配 PyTorch、TensorFlow、Jax 和 Numpy 的代码。EagerPy 对库开发者和用户都有裨益。EagerPy 能够编写与框架无关（framework-agnostic）的代码，这些代码可以与 PyTorch、TensorFlow、Jax 和 NumPy 实现原生地适配。

首先对于新库开发者而言，他们不仅可以选择同时支持上述这几个主流深度学习框架或者为每个框架重新实现库，而且可以对代码重复进行处理。其次对于这些库的使用者而言，他们也可以更轻松地切换深度学习框架，并且不会被特定的第三方库锁定。

框架无关的范数函数。

EagerPy 和原生张量之间的转换。

推荐：EagerPy 对库开发者和用户都有裨益。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. Neural Generation Meets Real People: Towards Emotionally Engaging Mixed-Initiative Conversations. (from Christopher D. Manning)

2. Cross-Utterance Language Models with Acoustic Error Sampling. (from P. C. Woodland)

3. SuperPAL: Supervised Proposition ALignment for Multi-Document Summarization and Derivative Sub-Tasks. (from Ido Dagan)

4. Learning to summarize from human feedback. (from Alec Radford)

5. Two Step Joint Model for Drug Drug Interaction Extraction. (from Yueting Zhuang)

6. Repurposing TREC-COVID Annotations to Answer the Key Questions of CORD-19. (from Prasenjit Mitra)

7. Text Modular Networks: Learning to Decompose Tasks in the Language of Existing Models. (from Peter Clark)

8. Automated Storytelling via Causal, Commonsense Plot Ordering. (from Mark O. Riedl)

9. Biomedical named entity recognition using BERT in the machine reading comprehension framework. (from Lei Wang)

10. A Simple Global Neural Discourse Parser. (from Jonathan Berant)

本周 10 篇 CV 精选论文是：

1. Seeing wake words: Audio-visual Keyword Spotting. (from Andrew Zisserman)

2. Inducing Predictive Uncertainty Estimation for Face Recognition. (from Andrew Zisserman)

3. Perceiving Humans: from Monocular 3D Localization to Social Distancing. (from Sven Kreiss)

4. A Review of Single-Source Deep Unsupervised Visual Domain Adaptation. (from Alberto L. Sangiovanni-Vincentelli, Sanjit A. Seshia, Kurt Keutzer)

5. All About Knowledge Graphs for Actions. (from Larry S. Davis)

6. Active Deep Densely Connected Convolutional Network for Hyperspectral Image Classification. (from Bing Liu)

7. A Scene-Agnostic Framework with Adversarial Training for Abnormal Event Detection in Video. (from Mubarak Shah)

8. Ref-NMS: Breaking Proposal Bottlenecks in Two-Stage Referring Expression Grounding. (from Wei Liu, Shih-Fu Chang)

9. Long-Term Anticipation of Activities with Cycle Consistency. (from Bernt Schiele)

10. Continual Prototype Evolution: Learning Online from Non-Stationary Data Streams. (from Tinne Tuytelaars)

本周 10 篇 ML 精选论文是：

1. Learning explanations that are hard to vary. (from Bernhard Schölkopf)

2. Training Deep Neural Networks with Constrained Learning Parameters. (from James A. Hendler)

3. Distance Encoding -- Design Provably More Powerful GNNs for Structural Representation Learning. (from Jure Leskovec)

4. Are Deep Neural Networks "Robust"?. (from Peter Meer)

5. Robust, Accurate Stochastic Optimization for Variational Inference. (from Aki Vehtari)

6. A Wholistic View of Continual Learning with Deep Neural Networks: Forgotten Lessons and the Bridge to Active and Open World Learning. (from Visvanathan Ramesh)

7. Bounded Risk-Sensitive Markov Game and Its Inverse Reward Learning Problem. (from Masayoshi Tomizuka)

8. RKT : Relation-Aware Self-Attention for Knowledge Tracing. (from Jaideep Srivastava)

9. Process Mining Meets Causal Machine Learning: Discovering Causal Rules from Event Logs. (from Marlon Dumas)

10. A Mathematical Introduction to Generative Adversarial Nets (GAN). (from Yang Wang)

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-09-06，如有侵权请联系 cloudcommunity@tencent.com 删除

https