2019年5项深度学习研究论文

代码医生工作室

发布于 2019-12-19 11:56:15

6710

发布于 2019-12-19 11:56:15

文章被收录于专栏：相约机器人

作者 | http://rubikscode.net/

来源 | Medium

编辑 | 代码医生团队

对于整个深度学习和机器学习来说，今年是重要的一年。事情正在迅速发生，这些技术的应用数量正在增加。克服了鸿沟，深度学习处于早期多数阶段。在这个疯狂的世界中保持最新状态的最佳方法是阅读有关该主题的重要论文。在本文中，将重点介绍今年产生重大影响的5篇论文。

XLNet：用于语言理解的广义自回归预训练

在这里阅读完整的论文。

https://arxiv.org/pdf/1906.08237.pdf

可以在此处找到本文随附的代码。

https://github.com/zihangdai/xlnet?source=post_page-----1ec363f29e85----------------------

从去年开始，NLP领域就一直受BERT（来自变压器的双向编码器表示）的统治，但是在2019年，获得了新的王者XLNet。来自CMU和Google的研究人员采用的这种新架构在20个任务上通常比BERT表现出色。确实大吃一惊。问题在于，对BERT进行了输入损坏的训练，这会导致预训练与精调之间的差异。简而言之，将替换输入令牌序列中的一定数量的令牌通过使用特殊符号[MASK]进行编码，然后对BERT进行了训练，以使用双向上下文从损坏的输入中恢复原始令牌以进行重建。

XLNet仍在使用这种自动编码方法，但与自动回归语言建模结合使用。这种语言建模使用上下文来预测下一个单词。但是此上下文仅限于方向，可以是正向或反向。如果尝试预测句子中的某个单词（标记），会查看该单词之前或之后的单词以对其进行预测。最著名的自回归语言模型是Transformer。XLNet正在使用更高级的Transformer-XL体系结构。

本质上，自回归语言建模和BERT具有相对于其他语言的优势，而XLNet则在兼顾两者优势的同时巧妙地避免了它们的劣势。就像BERT，XLNet利用双向上下文中，这意味着字之前和之后，应预测令牌被考虑在内。另一方面，作为一种自回归语言模型， XLNet不依赖输入数据损坏，因此避免了BERT的限制。

通过可转换架构搜索进行网络修剪

在这里阅读完整的论文。

https://arxiv.org/pdf/1905.09717.pdf

可以在此处找到本文随附的代码。

https://github.com/D-X-Y/NAS-Projects?source=post_page-----1ec363f29e85----------------------

网络修剪是深度学习的一个有趣的领域。这种方法的思想是分析神经网络的结构，并在其中找到“ 死点 ”和有用的参数。例如，也许某些层实际上在增加损耗。然后可以提出一种新的架构，称为修剪网络，具有估计的深度和宽度。之后可以将来自原始网络的有用参数传输到新网络。这对于深度卷积神经网络特别有用，它对于在嵌入式系统中进行部署可能会变得很大且不切实际。在这种情况下，网络修剪可以降低的成本计算过度参数化的 CNN。

传统的网络修剪方法如下所示：

本文实际上建议了这种方法：

从本质上讲，在一开始就进行了大型网络的训练。然后通过传输体系结构搜索（TAS）提出了搜索小型网络的深度和宽度的建议。最后，使用知识提炼将大型网络中的知识转移到小型网络中。

Demucs：用于音乐源的Deep Extractor，已混合了其他未标记的数据

在这里阅读完整的论文。

https://arxiv.org/pdf/1909.01174v1.pdf

可以在此处找到本文随附的代码。

https://github.com/facebookresearch/demucs

当一些歌曲被记录时，每个仪器被记录分别为单独的轨道或杆。后来，在混音和母带阶段，这些词干被合并在一起并创建了歌曲。本文的目的是找到一种逆转这一过程的方法，这意味着从完成的歌曲中提取每个词根。这个问题的灵感来源可以在所谓的“鸡尾酒会效应”中找到。这是人脑从一个充满聊天室的环境中分离出来并专注于单个对话的能力，它可以消除周围的噪音。

所提出的体系结构融合了SING神经网络体系结构和Wave-U-Net的思想。第一个用于符号到乐器的音乐合成，而另一个是从混音中提取词干的方法之一。本质上，LSTM和卷积层的组合与U-Net架构相结合。卷积层用于架构的编码部分，而LSTM层用于解码部分。为了提高模型性能，不使用批量归一化层。该模型相对于其他体系结构如何表现？该结果可以看出这里。

https://ai.honu.io/papers/demucs/index.html

StarGAN v2：多个域的多样化图像合成

在这里阅读完整的论文。

https://arxiv.org/pdf/1912.01865v1.pdf

可以在此处找到本文随附的代码。

https://github.com/clovaai/stargan-v2

我们爱GAN！特别是在图像创建和处理方面。这个领域中一个非常有趣的问题就是所谓的图像到图像转换问题，希望将特征从一个图像域转移到另一个图像域。在这里，图像域代表可以归类为视觉上独特的类别的一组图像。喜欢CycleGAN和StarGAN等旨在解决此问题的解决方案，因此可以想像几天前看到StarGAN v2纸时我们多么兴奋。

本文还解决了另一个问题-域的可伸缩性。这意味着它可以一次解决多个图像域的问题。本质上，此体系结构依赖于StarGAN早期版本的成功并为其添加样式层。它由四个模块组成。第一个模块是生成器，它负责将输入图像转换为反映域特定样式的输出图像。接下来是Mapping Network Transformer，它将潜在代码转换为多个域的样式代码。第三个是样式编码器，它提取图像的样式并将其提供给生成器。最后，鉴别器区分来自多个域的真实和伪造图像。

深度感知视频帧插值

在这里阅读完整的论文。

https://arxiv.org/pdf/1904.00830

可以在此处找到本文随附的代码。

https://github.com/baowenbo/DAIN?source=post_page-----1ec363f29e85----------------------

视频帧合成是信号处理的有趣子领域。通常，这都是关于在现有视频中合成视频帧的。如果在视频帧之间完成他的操作，则称为插值，而在视频帧之后进行此操作，则称为外插。视频帧插值是一个长期存在的话题，并且已经在文献中进行了广泛的研究。在本章中，探索了一篇有趣的论文，该论文利用了深度学习技术。通常，由于较大的物体运动或遮挡，插值的质量会降低。在本文中，作者使用深度学习通过探索深度信息来检测遮挡。