首页
学习
活动
专区
工具
TVP
发布

深度学习自然语言处理

专栏作者
1012
文章
1190793
阅读量
161
订阅数
微软提出:多模态视觉语言理解和视觉定位的大一统
a、 A Unified VL Formulation and Architecture GLIPv2的关键是classification-to-matching技巧,它将任何task-specific fixed-vocab分类问题重新表述为task-agnostic open-vocabulary视觉语言匹配问题,例如CLIP中将图像分类重新表述为图像-文本匹配,使模型可以直接从原始的大量的图像-文本对数据中学习,实现了强大的zero-shot效果。在GLIPv2中,将传统视觉模型中的语义分类线性层替换为视觉语言匹配点积层。 如图1,GLIPv2由一个双编码器
zenRRan
2023-03-03
9270
DataParallel里为什么会显存不均匀以及如何解决
鉴于网上此类教程有不少模糊不清,对原理不得其法,代码也难跑通,故而花了几天细究了一下相关原理和实现,欢迎批评指正!
zenRRan
2023-03-03
1K0
深入理解Pytorch中的分布式训练
作者:台运鹏 (正在寻找internship...) 主页:https://yunpengtai.top
zenRRan
2023-01-12
9960
即插即用!Batch Transformer
最近在知乎看到一个非常有意思的问题,『为什么没有做batch attention的?』今天就分享一篇相关的顶会论文~
zenRRan
2023-01-07
4470
ESimCSE:无监督句子表示对比学习的增强样本构建方法
每天给你送来NLP技术干货! ---- 作者 | 高超尘  来源 | 开放知识图谱 排版 | PaperWeekly 论文标题: ESimCSE: Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding 论文链接: https://arxiv.org/pdf/2109.04380.pdf 代码链接: https://github.com/caskcsg/ESimCSE 动机 对
zenRRan
2022-10-08
1.4K0
COLING'22 | ESimCSE:无监督句子表示对比学习的增强样本构建方法
每天给你送来NLP技术干货! ---- ©作者 | 高超尘 单位 | 中国科学院信息工程研究所 来源 | 开放知识图谱 来自 | PaperWeekly 论文标题: ESimCSE: Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding 论文链接: https://arxiv.org/pdf/2109.04380.pdf 代码链接: https://github.com/ca
zenRRan
2022-09-27
8830
Bert/Transformer 被忽视的细节
作者:阎覃 链接:https://zhuanlan.zhihu.com/p/559495068 引言 自从 “Attention is All You Need” 提出 Transformer 以来,该模型在 NLP 的各种任务上取代了 RNN / CNN,成为了 NLP 的一种新架构。该论文最初的目的是在翻译任务上提升质量,后来由于出色的表现,被应用于各种语言模型和下游任务。除了 NLP 之外,在视觉领域甚至也取得了很好的效果。 这篇论文写作比较简洁清晰,不过由于篇幅限制,每句话包含的信息量非常大,很多
zenRRan
2022-09-06
4730
NLP实践 | 用自己的语料进行MLM预训练
每天给你送来NLP技术干货! ---- 编辑:AI算法小喵 1. 关于MLM 1.1 背景 作为 Bert 预训练的两大任务之一,MLM 和 NSP 大家应该并不陌生。其中,NSP 任务在后续的一些预训练任务中经常被嫌弃,例如 Roberta 中将 NSP 任务直接放弃,Albert 中将 NSP 替换成了句子顺序预测。 这主要是因为 NSP 作为一个分类任务过于简单,对模型的学习并没有太大的帮助,而 MLM 则被多数预训练模型保留下来。由 Roberta的实验结果也可以证明,Bert 的主要能力应该是来自
zenRRan
2022-08-26
1.9K0
NER | 商品标题属性识别探索与实践
每天给你送来NLP技术干货! ---- ©作者 | 康洪雨 单位 | 有赞科技 研究方向 | NLP/推荐算法 来自 | PaperWeekly 最近一段时间在做商品理解的工作,主要内容是从商品标题里识别出商品的一些属性标签,包括不限于品牌、颜色、领型、适用人群、尺码等等。这类任务可以抽象成命名实体识别(Named Entity Recognition, NER)工作,一般用序列标注(Sequence Tagging)的方式来做,是比较成熟的方向。 ▲ 商品理解示例,品牌:佳丰;口味:蒜香味 本文主要记录
zenRRan
2022-07-27
2K0
天池竞赛 | 中医药领域的问题生成冠军方案
每天给你送来NLP技术干货! ----  排版:炼丹笔记 来源:数据派THU 问题生成任务需要我们根据篇章及对应的答案自动生成相应的问题,即“篇章+答案→问题”这样的流程。 训练集由三个字段(篇章、问题、答案)构成,测试集由两个字段(篇章、答案)构成,其中的问题字段需要我们生成。 根据以上分析,我们可以采用Seq2Seq模型来端到端地实现问题生成,而模型的输入为篇章和答案,输出为问题。 文本长度分布 篇章文本长度在100以下的数据较少,长度区间400-500的数据占比较大。 问题文本长度主要集中
zenRRan
2022-07-12
4930
ESimCSE:无监督语义新SOTA,引入动量对比学习扩展负样本,效果远超SimCSE
从论文标题中可以看出,应该是对4月份丹琦女神发表的新作SimCSE的增强版(Enhance),并且也用到了对比学习来构建正负样本,那么效果是否优于SimCSE呢?
zenRRan
2021-10-08
9970
【实践】Pytorch nn.Transformer的mask理解
pytorch也自己实现了transformer的模型,不同于huggingface或者其他地方,pytorch的mask参数要更难理解一些(即便是有文档的情况下),这里做一些补充和说明。(顺带提一句,这里的transformer是需要自己实现position embedding的,别乐呵乐呵的就直接去跑数据了)
zenRRan
2021-04-08
3.5K0
使用Batch Normalization折叠来加速模型推理
Batch Normalization是将各层的输入进行归一化,使训练过程更快、更稳定的一种技术。在实践中,它是一个额外的层,我们通常添加在计算层之后,在非线性之前。它包括两个步骤:
zenRRan
2020-11-19
1K0
pytorch的余弦退火学习率
最近深入了解了下pytorch下面余弦退火学习率的使用.网络上大部分教程都是翻译的pytorch官方文档,并未给出一个很详细的介绍,由于官方文档也只是给了一个数学公式,对参数虽然有解释,但是解释得不够明了,这样一来导致我们在调参过程中不能合理的根据自己的数据设置合适的参数.这里作一个笔记,并且给出一些定性和定量的解释和结论.说到pytorch自带的余弦学习率调整方法,通常指下面这两个
zenRRan
2020-11-19
3.4K0
【深度学习】神经网络为何非激活函数不可?
激活函数是神经网络中一个至关重要的概念,决定了某个神经元是否被激活,判断该神经元获得的信息是否有用,并决定该保留还是该去掉此神经元。
zenRRan
2020-02-18
1K0
【ERNIE】深度剖析知识增强语义表示模型——ERNIE
无监督文本的深度神经网络的出现,nlp领域又火了起来,深度神经网络大大提升了nlp任务的效果。虽然早期的网络也是基于上下文进行的向量建模,但是由于单向信息流的弊端,效果上始终难以大幅度提升。Transformer中的多层self-attention的出现,推进了深度网络的发展。Google提出的BERT模型,通过掩盖的term,利用多层的self-attention的双向建模能力,横扫了NLP比赛的各大排行榜。
zenRRan
2019-12-23
1.9K0
调参心得:超参数优化之旅
只需采用正确的过程,为给定的预测任务找到顶尖的超参数配置并非难事。超参数优化主要有三种方法:手工、机器辅助、基于算法。本文主要关注机器辅助这一方法。本文将介绍我是如何优化超参数的,如何证实方法是有效的,理解为何起效。我把简单性作为主要原则。
zenRRan
2019-11-20
8740
step-by-step: 夕小瑶版神经网络调参指南
闭关几个月后,其实早有继续码文章的打算,先后写了一下核函数与神经网络的一些思考、文本预处理tricks、不均衡文本分类问题、多标签分类问题、tensorflow常用tricks、噪声对比估算与负采样等文章,结果全都半途而废,写了一半然后各种原因丢掉了就不想再接着写。结果电脑里稿子攒了好多,却让订阅号空了这么久。今天终于下定决心必须要码一篇了,下午临时决定写一篇神经网络调参的文章,嗯,就是这一篇啦。
zenRRan
2019-11-19
9830
NLP入门竞赛,搜狗新闻文本分类
该数据集来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据。
zenRRan
2019-11-14
5240
【Pytorch】谈谈我在PyTorch踩过的12坑
1. nn.Module.cuda() 和 Tensor.cuda() 的作用效果差异
zenRRan
2019-11-14
1.7K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档