首页
学习
活动
专区
工具
TVP
发布

mathor

专栏成员
447
文章
619573
阅读量
50
订阅数
PyTorch中的梯度累积
我们在训练神经网络的时候,超参数batch_size的大小会对模型最终效果产生很大的影响,通常的经验是,batch_size越小效果越差;batch_size越大模型越稳定。理想很丰满,现实很骨感,很多时候不是你想增大batch_size就能增大的,受限于显存大小等因素,我们的batch_size往往只能设置为2或4,否则就会出现"CUDA OUT OF MEMORY"(OOM)报错。如何在有限的计算资源下,采用更大的batch_size进行训练,或者达到和大batch_size一样的效果?这就是梯度累加(Gradient Accumulation)技术了
mathor
2021-07-28
1.4K0
Tacotron2运行笔记
由于我们实验室服务器的cuda版本是9.0,因此只能使用1.1.0版的PyTorch,否则无法使用GPU。但是这个项目源码中使用了一些PyTorch 1.3以上的新功能,所以我要先修改一部分源码(如果你的Pytorch版本大于等于1.3,可以略过这部分内容)
mathor
2020-08-12
1.1K0
BERT的PyTorch实现
本文主要介绍一下如何使用 PyTorch 复现BERT。请先花上 10 分钟阅读我的这篇文章 BERT详解(附带ELMo、GPT介绍),再来看本文,方能达到醍醐灌顶,事半功倍的效果
mathor
2020-07-27
8850
TextCNN的PyTorch实现
本文主要介绍一篇将CNN应用到NLP领域的一篇论文 Convolutional Neural Networks for Sentence Classification,然后给出 PyTorch 实现
mathor
2020-06-28
3K0
TextRNN的PyTorch实现
参考这篇论文Finding Structure in Time(1990),如果你对RNN有一定的了解,实际上不用看,仔细看我代码如何实现即可。如果你对RNN不太了解,请仔细阅读我这篇文章RNN Layer,结合PyTorch讲的很详细
mathor
2020-06-28
8350
NNLM的PyTorch实现
本文主要首先介绍一篇年代久远但意义重大的论文A Neural Probabilistic Language Model(2003),然后给出PyTorch实现
mathor
2020-06-11
1.4K0
PyTorch实现Word2Vec
其中两个必选参数num_embeddings表示单词的总数目,embedding_dim表示每个单词需要用什么维度的向量表示。而nn.Embedding权重的维度也是(num_embeddings, embedding_dim),默认是随机初始化的
mathor
2020-04-14
4.4K1
Transfer Learning
通过网络上收集宝可梦的图片,制作图像分类数据集。我收集了5种宝可梦,分别是皮卡丘,超梦,杰尼龟,小火龙,妙蛙种子
mathor
2020-02-17
4190
PyTorch nn.Module
本节将介绍在pytorch中非常重要的类:nn.Module。在实现自己设计的网络时,必须要继承这个类,示例写法如下
mathor
2020-02-14
1.1K0
momentum
momentum(动量)的概念源自于物理学,可理解为惯性,那么它是如何帮助我们寻找最优解的呢?
mathor
2020-01-15
3910
Pytorch定义Pooling Layer以及ReLU Layer
这里主要讲解一下如何用 pytorch定义Pooling层,有两种方式,具体看下面代码
mathor
2020-01-15
1.1K0
Pytorch定义卷积层
CNN的讲解可以看我的这篇文章CS231n 笔记:通俗理解 CNN 下面主要讲解一下如何用pytorch实现卷积神经网络
mathor
2020-01-13
1.8K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档