机器学习中的数据增强主要通过人工构建数据,增加训练集的大小使模型达到更好的泛化特性。这是一个在机器学习学科中进行的广泛研究的研究领域。
数据增强的主要作用如下:
一般情况下文本分类中的数据增强会产生更好的模型,因为模型在训练过程中会看到更多的语言模式。但是现在这种数据增强的工作是通过在大型预训练语言模型上的迁移学习来管理的,因为这些模型对于我们使用的各种转换已经不敏感了。事实上,数据增强方法只有在创造出以前从未见过的新的语言模式时才会有益。
本文整理了用于文本分类的数据增强方法,来自论文《 A Survey on Data Augmentation for Text Classification》。一般情况下我们都会结合几种数据增强方法来实现更多样化的实例。
一般情况下文本有四种类型的数据增强:字符级、单词级、短语和句子级、文档级。
这种类型的数据增强处理通过改变现有的训练样本单个字符创建新的训练样本。主要包括:随机字符删除、交换和插入。和基于规则的转换,比如通过使用正则表达式(比如插入拼写错误、数据更改、实体名称和缩写)实现有效的转换。
这种类型的数据增增强一般会改变单个训练样本的单词。
这种类型的数据增强处理通过改变句子结构创建新的训练样本。
这种类型的数据增强通过更改文档中的整个句子来创建的新训练样本。
往返翻译:往返翻译将 单词,短语,句子或文档被翻译成另一种语言(正向翻译),然后转换回源语言(反向翻译)。
相似生成:随着语言生成能力的显著提高,当前的模型能够通过合并的信息创建非常多样化的文本,文档级数据增强的生成方法包括训练语言模型(VAEs、rnn、transformer),可以生成与训练数据中相似的文档。
特征空间中的数据增强处理的是将输入数据以其特征形式转换为输入的潜在向量表示。在特征空间中有两种类型的数据增强:
噪声:与数据一样,也可以在特征空间中引入噪声。例如,可以将随机噪声预特征表示进行乘和加的操作。
插值:将两句话的隐藏状态进行插值生成一个新的句子,包含原句和原句的意思。
本文概述了适合文本领域的数据增强方法。数据增强有助于实现许多目标,包括正规化、最小化标签工作量、降低对真实数据的使用(尤其是在隐私敏感领域)、平衡不平衡的数据集,以及增加对抗攻击的健壮性。
除了将数据增广应用到数据以外,还可以将其应用到特征空间。最后如果你想查看 A Survey on Data Augmentation for Text Classification这篇论文,可以看以下的连接
https://arxiv.org/pdf/2107.03158.pdf
作者:Fabio Chiusano
本文分享自 DeepHub IMBA 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!