首页
学习
活动
专区
工具
TVP
发布

mathor

专栏作者
447
文章
592184
阅读量
50
订阅数
未闻Prompt名
个人觉得2021年NLP最火的两个idea,一个是对比学习(Contrastive Learning),另一个就是Prompt
mathor
2021-12-24
2.1K0
PyTorch中的梯度累积
我们在训练神经网络的时候,超参数batch_size的大小会对模型最终效果产生很大的影响,通常的经验是,batch_size越小效果越差;batch_size越大模型越稳定。理想很丰满,现实很骨感,很多时候不是你想增大batch_size就能增大的,受限于显存大小等因素,我们的batch_size往往只能设置为2或4,否则就会出现"CUDA OUT OF MEMORY"(OOM)报错。如何在有限的计算资源下,采用更大的batch_size进行训练,或者达到和大batch_size一样的效果?这就是梯度累加(Gradient Accumulation)技术了
mathor
2021-07-28
1.3K0
L2正则化的一些思考
很多时候,我们希望得到一个"稳健"的模型。何为稳健?一般来说有两种含义,一是对于参数扰动的稳定性,比如模型变成了f_{\theta}(x);二是对于输入扰动的稳定性,比如输入从x变成了x+\Delta x后,f_{\theta}(x+\Delta x)是否能给出相近的预测结果。读者或许已经听过深度学习模型存在"对抗攻击样本",比如图片只改变一个像素就给出完全不一样的分类结果,这就是模型对输入过于敏感的案例
mathor
2021-05-20
5770
积分梯度:一种新颖的神经网络可视化方法
本文介绍一种神经网络的可视化方法:积分梯度(Integrated Gradients),它首先在论文《Gradients of Counterfactuals》中提出,后来《Axiomatic Attribution for Deep Networks》再次介绍了它,两篇论文作者都是一样的,内容也大体上相同,后一篇相对来说更易懂一些,如果要读原论文的话,建议大家优先读后一篇。当然,它已经是2016~2017年间的工作了,“新颖”说的是它思路上的创新有趣,而不是指最近发表
mathor
2021-05-20
1.6K0
去掉 Attention 的 Softmax,复杂度降为 O (n)
众所周知,尽管基于 Attention 机制的 Transformer 类模型有着良好的并行性能,但它的空间和时间复杂度都是 O(n2)\mathcal {O}(n^2) 级别的,nn 是序列长度,所以当 nn 比较大时 Transformer 模型的计算量难以承受。近来,也有不少工作致力于降低 Transformer 模型的计算量,比如模型剪枝、量化、蒸馏等精简技术,又或者修改 Attention 结构,使得其复杂度能降低到 O(nlog⁡n)\mathcal {O}(nlog⁡n) 甚至 O(n)\mathcal {O}(n)
mathor
2021-05-12
1K0
概率图模型详解
概率图模型(Probabilistic Graphical Model)就是一类用图来表达随机变量之间关系的概率模型:
mathor
2021-04-02
1.4K0
Siamese Network & Triplet NetWork
在孪生网络中,我们把一张图片$X_1$作为输入,得到该图片的编码$G_W(X_1)$。然后,我们在不对网络参数进行任何更新的情况下,输入另一张图片$X_2$,并得到改图片的编码$G_W(X_2)$。由于相似的图片应该具有相似的特征(编码),利用这一点,我们就可以比较并判断两张图片的相似性
mathor
2020-10-14
2.1K0
Tacotron2论文阅读
这篇论文描述了Tacotron 2, 一个直接从文本合成语音的神经网络架构。系统由两部分构成,一个循环seq2seq结构的特征预测网络,把字符向量映射为梅尔声谱图,后面再接一个WaveNet模型的修订版,把梅尔声谱图合成为时域波形。我们的模型得到了4.53的平均意见得分(MOS),专业录制语音的MOS得分是4.58。为了验证模型设计,我们对系统的关键组件作了剥离实验研究,并且评估了使用梅尔频谱替代语言学、音长和F0特征作为WaveNet输入带来的不同影响。我们进一步展示了使用紧凑的声学中间表征可以显著地简化WaveNet架构
mathor
2020-08-13
1.4K0
Tacotron论文阅读
Tacotron是谷歌于2017年提出的端到端语音合成系统,该模型可接收字符的输入,输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音
mathor
2020-08-10
7740
Human Language Processing——Alignment
相较于HMM、CTC和RNN-T,LAS在计算P(Y|X)时,是直接计算的,不存在对齐的问题
mathor
2020-08-06
8340
Human Language Processing——Alignment Train
在算所有的候选对齐预测的总和之前,我们先看看一个候选对齐预测是怎么计算的。HMM,RNN-T和CTC的计算方式都是一模一样的。我们往后只用 RNN-T 来当作例子。首先我们找出一条候选对齐,比如h = ∅c∅∅a∅t∅∅。$P(h|X)$就等于每个位置的发射概率和转移概率的连乘
mathor
2020-08-05
5250
Human Language Processing——RNA&RNN-T&MochA
CTC每个时间步进行的解码是independent的,这样的设定能够简化模型,但却不是很合理。事实上,实际应用中的序列,往往前后token都是有约束关系的。为了达到比较好的识别效果,在CTC的输出之后,通常需要再经过一个Language Model进行后处理。因为本质上来说,Language Model得到的就是前后token之间的转化概率,Language Model的引入弥补了CTC中时间步之间独立假设的缺陷。那能不能不用Language Model,抛弃时间步独立假设呢?
mathor
2020-07-28
1.2K0
Human Language Processing——LAS
语音识别也和图像处理一样,有传统的语音识别算法和基于DeepLearning的语音识别算法。当然,现在的主流都是采用Deep Learning去做的。 那么,在传统语音识别领域,一般用什么方法呢?用得最多的就是3个算法,HMM(Hidden Markov Model) ;GMM(Gaussian Mixture Model);CTC(Connectionist Temporal Classification)
mathor
2020-07-27
8110
Seq2Seq的PyTorch实现
本文介绍一下如何使用 PyTorch 复现 Seq2Seq,实现简单的机器翻译应用,请先简单阅读论文Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation(2014),了解清楚Seq2Seq结构是什么样的,之后再阅读本篇文章,可达到事半功倍的效果
mathor
2020-07-01
2K0
BiLSTM的PyTorch应用
本文介绍一下如何使用BiLSTM(基于PyTorch)解决一个实际问题,实现给定一个长句子预测下一个单词
mathor
2020-06-30
2.8K0
TextCNN的PyTorch实现
本文主要介绍一篇将CNN应用到NLP领域的一篇论文 Convolutional Neural Networks for Sentence Classification,然后给出 PyTorch 实现
mathor
2020-06-28
2.9K0
TextRNN的PyTorch实现
参考这篇论文Finding Structure in Time(1990),如果你对RNN有一定的了解,实际上不用看,仔细看我代码如何实现即可。如果你对RNN不太了解,请仔细阅读我这篇文章RNN Layer,结合PyTorch讲的很详细
mathor
2020-06-28
8010
Seq2Seq与注意力机制
在基于词语的语言模型中,我们使用了循环神经网络。它的输入时一段不定长的序列,输入却是定长的,例如输入:They are,输出可能是watching或者sleeping。然而,很多问题的输出是不定长的序列。以机器翻译为例,输入是一段英文,输出是一段法语,输入和输出皆不定长,例如
mathor
2020-04-10
5800
模型建立与调参
本篇文章将会从简单的线性模型开始,了解如何建立一个模型以及建立完模型之后要分析什么东西,然后学习交叉验证的思想和技术,并且会构建一个线下测试集,之后我们会尝试建立更多的模型去解决这个问题,并对比它们的效果,当把模型选择出来之后,我们还得掌握一些调参的技术发挥模型最大的性能,模型选择出来之后,也调完参数,但是模型真的就没有问题了吗?我们还需要绘制学习率曲线看模型是否存在过拟合或者欠拟合的问题并给出相应的解决方法
mathor
2020-04-03
1.9K0
毕业论文——基于xxLSTM模型的移动对象位置预测
本文简要概述一下我的毕业论文思路,完整可执行代码大概在5月左右开源在Github,主要是为了证明学术诚信,而且太早开源不好,等我快要答辩了再开源
mathor
2020-03-03
2K5
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档