不加样本就能做数据增强？还能提效？

炼丹笔记

发布于 2021-12-28 09:07:57

5390

发布于 2021-12-28 09:07:57

文章被收录于专栏：炼丹笔记

数据增强早已被广泛应用在提升模型泛化能力上，通过"创造"额外的样本输入给模型使得模型更加鲁棒。近期又有隐式数据增强，不是通过直接创造样本来提高模型效果，那隐式数据增强究竟是怎么做的呢？

我们知道，模型在训练集和测试集表现的的差异，主要来自于这两个样本数据分布的差异，所以模型就在训练集上表现更好而在测试集上欠佳，特别是NN类的模型，更容易过拟合。显式的数据增强很明显会增加训练成本，因为使用无监督方法创造了更多的样本，而隐式数据增强能够实现相似的效果或更好的正则化效果，而且不用提高训练成本。

数据增强方法

数据：数据增强的目的就是增加额外样本，使得训练数据分布更接近测试数据。除了直接调整输入数据，直接在encoding层后的隐层空间做操作，可以导致更加线性可分的特征空间。在隐层空间直接采样，在观测值中间做插值，可以沿着方差最大的维度进行插值，以提高可解释性。此外也可以对样本进行扰动，在隐层空间生成比较hard的对抗样本。

网络结构：模型结构定义了从输入数据到输出预测的信息流。现在，我们不再生成不同版本的训练数据，而是在相同的训练数据上使用不同版本的网络结构。网络结构引入的随机噪声，类似dropout，防止过度依赖网络的特定部分，使模型更加鲁棒，对数据中的噪声不那么敏感。同时也可以引入多个版本的数据和网络结构。

Loss函数: 适当的加入正则化并给个合适的系数，例如norm-based的惩罚项像是Lasso，通过在特征空间中隐式引入随机扰动，会增强模型鲁棒性。基于协方差的惩罚项也可以作为隐式数据增强技术。因此，在loss函数中引入正则项影响是比较大的，此外，对系数的调整大多是即时的、一步到位的，这并不能保证它在长期内是最优的。对系数进行多步惩罚似乎可以在短期和长期效果之间进行权衡，就像在强化学习的训练过程。

优化算法：随机梯度下降是训练神经网络中最常用的算法，它被证明是一种隐式正则化器。这意味着，对于相同的输入数据，与每次迭代的一批样本相比，当分别对每个样本进行训练时，模型可能更具泛化能力。还有些其他方法，例如小权重初始化和大初始学习率，也能够隐式地正则化模型。这些方法主要关注输入数据与权重的交互方式，并将其呈现给权重进行持续更新。在这方面，我们期望在输入数据和权重之间的这种交互机制方面有更多创新性的研究进展。例如，可以对权重更新中每个输入数据点的相对贡献进行插值以生成额外的伪更新，这对应于生成更多的训练样本。

参考文献:

1 Wang, Yulin & Pan, Xuran & Song, Shiji & Zhang, Hong & Wu, Cheng & Huang, Gao. (2019). Implicit Semantic Data Augmentation for Deep Networks.

2 Volpi, Riccardo & Namkoong, Hongseok & Sener, Ozan & Duchi, John & Murino, Vittorio & Savarese, Silvio. (2018). Generalizing to Unseen Domains via Adversarial Data Augmentation.

3 Xu, Huan & Caramanis, Constantine & Mannor, Shie. (2010). Robust Regression and Lasso. Information Theory, IEEE Transactions on. 56. 3561–3574. 10.1109/TIT.2010.2048503.

4 Daniel A. Roberts (2018). SGD Implicitly Regularizes Generalization Error. Neurips (2018).

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-12-22，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法