mathor

LV1
发表了文章

最强的数据扩增方法竟然是添加标点符号?

今天的这篇文章源自于EMNLP 2021 Findings,论文标题为《AEDA: An Easier Data Augmentation Technique ...

mathor
发表了文章

使用分词增强Typecho的搜索功能

本博客是使用Typecho搭建的,侧边提供了搜索功能,然而Typecho内置的搜索功能仅仅只是基于字符串的全匹配查找,功能非常鸡肋,很多合理的查询都没法得到结果...

mathor
发表了文章

PyTorch中的梯度累积

我们在训练神经网络的时候,超参数batch_size的大小会对模型最终效果产生很大的影响,通常的经验是,batch_size越小效果越差;batch_size越...

mathor
发表了文章

稀疏Softmax(Sparse Softmax)

本文源自于SPACES:“抽取-生成”式长文本摘要(法研杯总结),原文其实是对一个比赛的总结,里面提到了很多Trick,其中有一个叫做稀疏Softmax(Spa...

mathor
发表了文章

为什么一个分布在多次Softmax后,会趋于相同

本文其实是我在知乎上无意中翻到的一条提问:softmax到底有哪些作用?,其中苏剑林大佬关于第四个问题的回复,给我产生了一些思考。为什么一个分布在多次Softm...

mathor
发表了文章

RealFormer:把残差转移到Attention矩阵上

大家知道Layer Normalization是Transformer模型的重要组成之一,它的用法有PostLN和PreLN两种,论文《On Layer Nor...

mathor
发表了文章

层次分解位置编码,让BERT可以处理超长文本

我们知道,BERT无法处理超长文本的根本原因是BERT使用了从随机初始化训练出来的绝对位置编码,一般的最大位置设为了512,因此顶多只能处理512个token,...

mathor
发表了文章

寻求一个光滑的最大值函数

这篇文章的目的是推导最大值函数\max(x,y)的一个光滑可导函数,并且该函数具有多阶可导性。实际上这和深度学习的关系并不是特别大,只有极少数情况会用到

mathor
发表了文章

TeaForN:让Teacher Forcing更有"远见"一些

本文介绍Google新提出的一种名为"TeaForN"的缓解Exposure Bias现象的方案,来自论文《TeaForN: Teacher-Forcing w...

mathor
发表了文章

对抗验证:划分一个跟测试集更接近的验证集

不论是打比赛、做实验还是搞工程,我们经常会遇到训练集与测试集分布不一致的情况。一般来说,我们会从训练集中划分出一个验证集,通过这个验证集来调整一些超参数,并保存...

mathor
发表了文章

词向量的维度大概多少才够?

更简约的话可以直接记n > 8\log NN是词表的大小,n是词向量的维度。当n超过这个阈值时,就说明模型有足够的容量容纳这N个词(当然n越大过拟合风险也越大)...

mathor
发表了文章

L2正则效果不好?试试WEISSI正则

L2正则的表现通常没有理论上说的那么好,很多时候加了可能还有负作用。最近的一篇文章《Improve Generalization and Robustness ...

mathor
发表了文章

BERT-of-Theseus

最近了解到一种称为"BERT-of-Theseus"的BERT模型压缩方法,源自论文《BERT-of-Theseus: Compressing BERT by ...

mathor
发表了文章

从EMD、WMD、WRD:文本向量序列的相似度计算

在NLP中,我们经常要比较两个句子的相似度,其标准方法是将句子编码为固定大小的向量,然后用某种几何距离(欧氏距离、cos距离等)作为相似度。这种方案相对来说比较...

mathor
发表了文章

Synthesizer:我们还不够了解自注意力

本文关注的是自注意力机制。直观上来看,自注意力机制算是解释性比较强的模型之一了,它通过自己于自己的Attention来自动捕捉token与token之间的关联,...

mathor
发表了文章

博采众长式的旋转位置编码

上一篇文章中,我们对原始的Sinusoidal位置编码做了较为详细的推导和理解,总的感觉是Sinusoidal位置编码是一种"想要成为相对位置编码的绝对位置编码...

mathor
发表了文章

从loss的硬截断、软化到Focal Loss

对于二分类模型,我们总希望模型能够给正样本输出1,负样本输出0,但限于模型的拟合能力等问题,一般来说做不到这一点。而事实上在预测中,我们也是认为大于0.5的就是...

mathor
发表了文章

我们真的需要把训练集的损失降到零吗?

在训练模型的时候,我们需要将损失函数一直训练到0吗?显然不用。一般来说,我们是用训练集来训练模型,但希望的是验证机的损失越小越好,而正常来说训练集的损失降到一定...

mathor
发表了文章

向量范数与矩阵范数科普

mathor
发表了文章

L2正则化的一些思考

很多时候,我们希望得到一个"稳健"的模型。何为稳健?一般来说有两种含义,一是对于参数扰动的稳定性,比如模型变成了f_{\theta}(x);二是对于输入扰动的稳...

mathor

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券