下⾯就从开⼭之作逐步简单的介绍下如何在NLP领域使⽤的吧。...y是one-hot标签,⽐如yi的标签为[0,0,1],yj的标签为[1,0,0],此时lambda为0.2,那么此时的标签就变为0.2*[0,0,1] + 0.8*[1,0,0] = [0.8,0,0.2...他的pytorch代码很简单:
实验
该论⽂仅仅在CV数据集上做了⼤量实验证明其有效性,⽽在NLP上并没有实验,下⾯介绍该⽅法在NLP数据集的有效性。...⼀个k层;
使⽤两组不同的数据前向传播到k层,然后对这两组隐层进⾏Mixup得到新的融合向量和新的label;
对新的向量继续向后⾯的层传播,直到输出预测值;
计算预测值和合成的新的label的损失,反向传播...实验
其中,有⼏个重要的参数需要说明⼀下:
s: sub-sequence的⻓度⼤⼩
n: 该sub-sequence中有⽤标签(o为⽆意义标签)数据量
r: 选取数据集⽐例
alpha: Mixup