是时候放弃递归神经网络了！

AI科技评论

发布于 2020-02-21 18:24:18

6630

发布于 2020-02-21 18:24:18

作者 | Riccardo Di Sipio

编译 | JocelynWang

编辑 | 丛末

有人说，不同语言之间的翻译，与其说是一门科学，不如说是一门艺术。

NLP 领域的机器学习工程师 Riccardo Di Sipio 日前提出了一个观点：使用卷积网络要比使用循环神经网络来做 NLP 研究，要幸福得多——是时候放弃循环神经网络了！

基于这一观点，他从卷积网络本身的基本原理出发，论述了为什么 NLP 不再需要循环神经网络的原因。

我们来看：

不久前，人工智能科学家侯世达（Douglas Hofstadter）就在 The Atlantic 上发表的一篇论文中指出，目前机器翻译尚处于「浅薄」的阶段。

文章阅读地址：https://www.theatlantic.com/technology/archive/2018/01/the-shallowness-of-google-translate/551570/

尽管机器翻译存在局限性，但难以否认的是，自动翻译软件在许多情况下都有良好的效果，而其背后的技术在任何存在信息从一个领域流动到另一个领域的语境中都具有广泛的应用，例如基因组学中从 RNA 到蛋白质编码的翻译过程。

直到 2015年，序列到序列的映射（或者说翻译）使用的主要方法都是循环神经网络，特别是长短期记忆（LSTM）网络。

我在前一篇文章中介绍了这些网络架构的基础知识，我还谈到了 LSTM 被应用于大型强子对撞机的顶部夸克对衰变的运动学重建过程。这篇文章链接如下：

https://medium.com/towards-artificial-intelligence/what-have-bidirectional-lstm-neural-networks-to-do-with-top-quarks-2cbed7feda47

然后，出现了一些新的方法：比如残差网路架构和注意力机制的提出，为针对这类任务的更通用的框架的实现铺平了道路。

值得一提的是，这些新颖的网路架构还解决了另一个问题：事实上，由于 RNN 固有的时序性，很难利用这种网络在像 GPU 这样的并行系统上进行训练。而这一点正是卷积神经网络使用起来非常方便的地方。

在数学中，卷积表示的是当函数 f 作用于另一个函数 g 时生成第三个函数的一种运算：

此运算不应与调制（例如 AM 传输中的 EM 信号）混淆，调制是将两个函数简单相乘。求知欲强的人可能会深究到：时间空间中的卷积傅里叶变换，实质上是频率空间中的调制，即：

所以这两种运算虽然密切相关，但切不可被混淆。

在计算机科学的离散世界中，积分被求和取代，两函数之间的乘法由矩阵间的乘法代替。用行话来说，就是将卷积核应用到图像上来生成卷积特征，一次卷积将生成一个新的特征。在下面每一对图像中，当对左边部分发生一次卷积变换，将于右边部分产生一个新的值，如下图所示：

在对这个序列的操作中，图像（灰色矩阵）由一个卷积核（橙色矩阵）卷积操作以获得卷积特征（绿色矩阵）。

通常来说，卷积核是一个网络的权值矩阵，必须通过某种算法（如：反向传播）计算，才能得到它的期望输出。

这种操作的一个很好并且非常重要的特性是，一旦「图片」被加载到记忆中，不同的卷积核会对其进行操作，这样就可以减少输入/输出（I/O）次数，从而更好地利用带宽。通常，卷积操作由以下两种方式执行：

降维：这正是上图中的例子，例如将 4x4 图像被 2x2 卷积核降维至 3x3 图像，这称为有效填充。
维数保持不变：在这种情况下，在使用卷积核之前，原始图像用其周围的零来进行填充。例如，一个 4x4 图像被填充到5x5 矩阵中，然后被一个 2x2 卷积核核进行卷积操作后缩小为4x4 图像（原大小）。这称为相同的填充。

在卷积之后，通常会进行池化操作：在每个卷积块中，只将最大值传递到下一层。此操作用于降低图片维数以及过滤噪声。降维的关键是通过信息压缩来寻找更高水平的特征。

常用的做法是，通过将上述两个步骤的板块链合在一起，来构建一个卷积神经网络。一些成功的网络架构案例如下：

AlexNet（2012）：该网络共包含 8 层；其中前 5 层是卷积层，其中一部分卷积层后面连着最大池化层，最后 3 层为全连接层。这个网络利用 ReLU 而不是 tanh 或 sigmoid 作为激活函数。
VGGNet（2014）：顾名思义，这是一个非常深的卷积网络，它一共包括 16 层。与 AlexNet 类似，它仅有 3x3 卷积核，但有许多滤波器。它是目前用于从图像中提取特征的最为主流的方法。
GoogLeNet（2014）：这个网络的灵感来源于较为久远的 LeNet，但在其基础上又利用了 Inception 模块。在引入它之前，CNN 只是通过将卷积层叠得越来越深来实现。为说明在相似图像中信息可以在不同尺度范围内传播，该网络在同一层上使用几种不同大小的卷积核（如：1x1、3x3、5x5…），然后将它们的输出连接，再把九个类似上述的模块堆叠起来。由于深度网络受到梯度消失问题的影响，更新的实现使用的是残差网络架构。
ResNet（2015）：残差神经网络具有显著的批量标准化（Batch Normalization）和跳跃连接特征。跳跃连接指的是网络中的信息通过跳过某些层走捷径。这里的「技巧」是通过残差块获得的。另外一种类似于残差网络架构的方法被称为高速公路网络（Highway Networks）。