腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

mathor

专栏作者

447

文章

591783

阅读量

50

订阅数

Flooding-X: 超参数无关的Flooding方法

ICML2020的论文《Do We Need Zero Training Loss After Achieving Zero Training Error?》提出了一种Flooding方法，用于缓解模

2021-12-10

6810

PyTorch中的梯度累积

pytorch 批量计算神经网络

我们在训练神经网络的时候，超参数batch_size的大小会对模型最终效果产生很大的影响，通常的经验是，batch_size越小效果越差；batch_size越大模型越稳定。理想很丰满，现实很骨感，很多时候不是你想增大batch_size就能增大的，受限于显存大小等因素，我们的batch_size往往只能设置为2或4，否则就会出现"CUDA OUT OF MEMORY"(OOM)报错。如何在有限的计算资源下，采用更大的batch_size进行训练，或者达到和大batch_size一样的效果？这就是梯度累加（Gradient Accumulation）技术了

2021-07-28

1.3K0

其实到2020年了，很多论文早已不再使用NSP任务，但是RoBERTa算是比较早的一批质疑NSP任务的模型。RoBERTa实验了4种方法：

2020-11-03

6710

BERT的PyTorch实现

批量计算 pytorch 编程算法

本文主要介绍一下如何使用 PyTorch 复现BERT。请先花上 10 分钟阅读我的这篇文章 BERT详解（附带ELMo、GPT介绍），再来看本文，方能达到醍醐灌顶，事半功倍的效果

2020-07-27

8380

NNLM的PyTorch实现

pytorch 编程算法 java 批量计算 NLP 服务

本文主要首先介绍一篇年代久远但意义重大的论文A Neural Probabilistic Language Model(2003)，然后给出PyTorch实现

2020-06-11

1.3K0

批量计算对象存储

Transformer是谷歌大脑在2017年底发表的论文attention is all you need中所提出的seq2seq模型。现在已经取得了大范围的应用和扩展，而BERT就是从Transformer中衍生出来的预训连语言模型

2020-04-26

1K0

PyTorch实现Word2Vec

pytorch 批量计算

其中两个必选参数num_embeddings表示单词的总数目，embedding_dim表示每个单词需要用什么维度的向量表示。而nn.Embedding权重的维度也是(num_embeddings, embedding_dim)，默认是随机初始化的

2020-04-14

4.3K1

利用PyTorch使用LSTM

批量计算机器学习神经网络深度学习人工智能

和RNNCell类似，输入input_size的shape是[batch, input_size]，输出$h_t$和$c_t$的shape是[batch, hidden_size]

2020-02-17

3.4K0

Simple RNN时间序列预测

批量计算机器学习神经网络深度学习人工智能

首先分析一下，假设我们一次输入50个点，batch设为1，每个点就一个值，所以input的shape就是[50, 1, 1]，这里我们换一种表示形式，把batch放在前面，那么shape就是[1, 50, 1]，可以这么理解这个shape，1条曲线，一共有50个点，每个点都是1个实数

2020-02-17

8300

机器学习神经网络深度学习人工智能批量计算

假设x的shape是[10, 3, 100]，翻译一下就是，10个单词，每次训练3句话，每个单词用一个100维的tensor来表达

2020-02-14

9370

Batch Normalization

我们知道Sigmoid函数在定义域为$(-\infty,-4) \cup (4,\infty)$内导数趋于0，由于容易出现梯度消失的现象，因此ReLU函数使用的较多

2020-01-15

4430

Early Stop && Dropout && Stochastic Gradient Descent

批量计算 spring

上图表明，随着训练epoch的增加，Training Set Accuracy也在持续上升，但到达某一点后，Test Set Accuracy开始下降，此时发生了OverFitting现象。我们一般用Validation Set来对该临界点进行检测，当取到最大值时便停止训练，将此时取得的参数保存起来用于最终的模型参数

2020-01-13

7670

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态