最强多层感知机？谷歌科学家用β-LASSO武装MLP，缩小与卷积网络的差距

机器之心

发布于 2020-08-05 17:24:21

4330

发布于 2020-08-05 17:24:21

机器之心报道

编辑：魔王、杜伟、小舟

如何从头开始学习卷积？谷歌高级研究科学家 Behnam Neyshabur 使用最小描述长度（MDL）作为指导原则，提出了 LASSO 算法的一个简单变体 β-LASSO。将 β-LASSO 应用到多层感知机（MLP）后，MLP 在 CIFAR-10、CIFAR-100 和 SVHN 数据集上的 SOTA 结果得到显著提升。

多层感知机（MLP）在 CIFAR-10 数据集上的最高准确率是多少？

65%？那是之前。

谷歌新研究用 LASSO 算法的变体 β-LASSO 武装 MLP，将其在 CIFAR-10 数据集上的准确率提升到 85%。

这项研究突破性地解决了从头开始学习卷积的问题，并大大提高了 MLP 的性能。

这篇刚刚上传到 arxiv 的论文，在国外社交网络上引起了大家的广泛关注与讨论。

我们首先来看这篇论文的具体内容。

论文地址：https://arxiv.org/pdf/2007.13657.pdf

卷积是计算机视觉架构中最重要的组件。随着机器学习趋向于减少专家偏见（expert bias）以及从数据中学习，那么很自然地，接下来的一步应该是从头开始学习类似卷积的结构。然而，事实证明这并不容易。例如，当前的 SOTA 架构搜索算法使用卷积作为一种已有的模块，而不是从数据中从头开始学习。

为了理解引起卷积的归纳偏置，研究者使用最小描述长度（MDL）作为指导原则，发现在某些情况下，它确实可以说明架构的性能。

为了用小的描述长度找出架构，研究者提出了 LASSO 算法的一个简单变体 β-LASSO。将其应用于全连接网络进行图像分类任务时，它可以学习具备局部连接的架构，并且在 CIFAR-10 数据集上达到了 SOTA 准确率（85.19%），在 CIFAR-100 数据集上达到了 59.56% 的准确率，在 SVHN 上实现了 94.07% 的准确率，缩小了全连接网络和卷积网络之间的差距。

该研究的主要贡献包括：

提出了具备研究卷积所需特性的浅层（s-conv）和深层（d-conv）全卷积网络。通过对 s-conv 和 d-conv 以及它们的局部连接和全连接版本进行系统性实验，研究者发现了深度、局部连接和共享权重的作用。

局部连接似乎对性能的影响最大。
深度的优势是提升内存和计算效率。因此，对具备更多参数的浅层架构进行长时间训练可以弥补深度不够造成的大部分性能损失。
如果没有共享权重，深度的优势会进一步减少。

此外，研究者以最小描述长度作为指导原则，来研究哪些架构的泛化能力更强：

研究表明 MDL 受参数数量的限制，研究者用实验表明，用更少的参数拟合训练集的架构一定程度上比过参数化架构的泛化能力更强。
该研究证明用于架构搜索的基于 MDL 的泛化约束（MDL-based generalization bound for architectures search，表明找到架构的稀疏性）对泛化能力有很大的影响。但是，只有在结构简单时，共享权重才有效。

受 MDL 的启发，研究者提出了一种新的训练算法 β-lasso。它是 lasso 的一种变体，比 lasso 具备更强的软阈值，以找出参数量少的架构，也就是具有小的描述长度的架构。以下是关于 β-lasso 的实验发现：

使用 β-lasso 算法在 CIFAR10、CIFAR-100、SVHN 上训练的全连接网络，均实现 SOTA 性能。值得一提的是，与卷积网络不同，这些结果不受置换像素（permuting pixel）的影响。
该研究表明，使用 β-lasso 算法学得的网络比其局部连接版本使用的参数更少。通过可视化滤波器，研究者发现 β-lasso 算法确实学习了局部连接。它还学会了在局部邻域中更稀疏地采样，以增加感受野（receptive field），同时保证参数数量较少。
研究者还用 β-lasso 训练了不同卷积核大小的 ResNet18，发现对于全部实验数据集和卷积核大小，β-lasso 的性能均优于 SGD。

解耦深度、权重共享和局部连接

这项研究提出了两种全卷积网络 d-conv 和 s-conv，它们不仅在图像分类任务上性能良好，还可以根据相应卷积网络中的通道数量和输入图像大小实现预期的缩放。

下图 1 展示了 d-conv 和 s-conv 的网络架构以及缩放情况：

下表 1 展示了 d-conv、s-conv、它们的变体以及 3-FC 模型在 CIFAR-10、CIFAR-100 和 SVHN 三个数据集上的测试准确率结果：

由上表可以得出以下四项结论：

局部性（locality）非常重要。对于深层和浅层架构来说，在三个数据集上，局部连接网络和对应全连接网络之间的差距要比卷积和局部连接网络的差距大得多。这表明，卷积的主要优势来自于局部连接。
（大多数情况下，）浅层架构最终会赶上深层架构。虽然深层结构训练更长时间似乎并不能提升性能，但在所有数据集上，增加浅层架构的训练时长可以显著地提升性能。因此，在训练迭代次数达到 4000 时，深层和浅层架构之间的差距明显缩小。
在没有权重共享的情况下，深层结构的优势会消失。s-fc 在所有实验中均优于 d-fc。并且，当训练迭代次数达到 4000 时，d-local 和 s-local 相对于彼此并没有表现出明显的优势。
全连接网络的结构非常重要。s-fc 在所有实验中均大幅领先 3-fc 和 d-fc。更有趣的是，s-fc 与 3-fc 具备相同的参数量和深度，但前者第一层的隐藏单元数量远多于后者。

将 MDL 作为指导原则

最小描述长度（MDL）原则是将奥卡姆剃刀形式化后的一种结果。其想法是，在给予假说集合的情况下，能产生最多资料压缩效果的那个假说是最好的。它于 1978 年由 Jorma Rissanen 提出。

在信息论和计算机学习理论中，最小描述长度原则是个重要概念。最小描述长度原理就是要求选择总描述长度最小的模型。

该研究则将 MDL 看作解释不同架构性能差异的方式，以及找到泛化性能优异模型的指导原则。

使用 MDL 后，稀疏性对泛化性能的影响有所增加，但是权重共享机制仅在结构简单的情况下有效。

下图 2 展示了不同架构的性能：

新算法 β-lasso，实现从头学习局部连接

受 MDL 的启发，该研究提出了一种新型训练算法 β-lasso，它是 lasso 算法的简单变体，具备更强势的软阈值，可以找到具备少量参数的架构，从而实现小的描述长度。此外，β-lasso 对图像没有偏见。

以下是β-lasso 的算法：

训练全连接网络

下表 2 展示了在训练全连接网络时，用 β-lasso 训练的 s-fc 与当前最优方法的性能对比情况。结果表明即使与蒸馏或预训练等复杂方法进行对比时，β-lasso 的性能也有显著提升。

β-lasso 显著提升了 MLP 在 CIFAR-10、CIFAR-100 和 SVHN 数据集上的 SOTA 结果。

此外，为了观察 β-lasso 能否成功学习像 s-local 一样稀疏的架构，研究者分别度量了每一层中非零权重的数量，结果如下图 3 所示：

该研究还进一步对学得滤波器进行了可视化，发现 β-lasso 确实能够学习局部连接，而且还能在局部邻域中进行更稀疏地采样，从而在保持参数数量较少的情况下增加感受野。

训练卷积核较大的卷积网络

该研究还使用 β-lasso 训练了具备不同卷积核大小的 ResNet18，并将其与 SGD 进行对比。结果表明，在所有数据集和所有卷积核大小情况下，β-lasso 的性能都优于 SGD，如下图 5 所示：

方向很好，但技术细节有待完善

对于这篇论文，网友的评价总体来说比较正面，他们认为这是一个很棒的研究方向。正如下面这位网友所说：

「这项研究太酷了，目前很多深度学习都是基于人工控制（human-imposed）的架构先验构建，而这里是基于卷积。」

但同时，这位网友也提出了一些疑问，比如论文中的 β-lasso 方法究竟是什么样的？看起来算法 1 是作者唯一提到的技术细节，而且算法中也有搞不懂的地方。

接着又指出了另一个问题，论文中称 lasso 通常鼓励稀疏性，但他没有看懂这样做是如何鼓励权重共享的。

也有网友发问：「这只是一种稀疏的全卷积网络（FCN）吧？」

推特网友 Pierre Ablin 表示这篇论文引入了两个新的超参数，但他不太明白如何设置这两个超参数，以及它们是否同样重要。

此外，他指出这项研究无法使用动量（momentum），并询问作者有没有尝试使用 Fista 等方法。

对此，论文作者 Behnam Neyshabur 回复道：「论文中简单讨论了这一点。超参数 Beta（β）通常不那么敏感，所以使用默认值 50 应该就可以；但 lambda（λ）需要调整，实验中典型的数值范围是（1e-6, 1e-4）。此外，这项研究没有使用 Fista 方法。」

此外，同为谷歌员工的谷歌大脑研究科学家 Ting Chen 表示：

「在我看来，由于计算 / 样本效率，CNN 在实践中的效果优于 MLP。如果你使用正确的（无监督）目标或正则化方法、大数据和算力，MLP 可以实现同样好的结果。」

对此，论文作者回复道：「我同意你关于计算的想法。这项研究降低了样本效率方面的差距，但很明显使用不错的搜索算法和大量无监督数据，仍然无法找到比卷积网络更好的方法，对吧？」

Ting Chen 对此并不认同。

作者简介

论文作者 Behnam Neyshabur 现为谷歌高级研究科学家。

2017 年夏，他取得了丰田工业大学芝加哥分校（TTI-Chicago）的计算机科学博士学位。2018 年成为纽约大学博士后研究员，与 2018 年图灵奖得主、深度学习三巨头之一 Yann LeCun 共同工作，并且还是普林斯顿高等研究院（IAS）Sanjeev Arora 教授领导的理论机器学习（Theoretical Machine Learning）项目组成员。2019 年 6 月加入谷歌至今，担任高级研究科学家。

他的研究兴趣是机器学习，主要研究方向为深度学习的优化和泛化。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2020-07-29，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法