腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
深度学习自然语言处理
专栏作者
举报
1009
文章
1174522
阅读量
161
订阅数
订阅专栏
申请加入专栏
全部文章(999+)
NLP 服务(293)
深度学习(232)
神经网络(221)
机器学习(206)
编程算法(181)
模型(165)
人工智能(134)
https(122)
数据(112)
网络安全(96)
论文(74)
性能(74)
其他(60)
python(43)
开源(41)
linux(36)
LLM(35)
github(34)
机器翻译(32)
测试(32)
腾讯云开发者社区(31)
知识图谱(29)
监督学习(28)
批量计算(26)
git(24)
框架(24)
强化学习(23)
数据结构(23)
pytorch(20)
http(19)
卷积神经网络(19)
tcp/ip(19)
css(18)
系统(18)
决策树(17)
优化(17)
图像处理(15)
数据分析(15)
ide(14)
迁移学习(14)
工作(14)
大数据(13)
nlp(13)
设计(13)
微信(11)
chatgpt(11)
token(11)
基础(11)
html(10)
图像识别(10)
学习方法(10)
gpt(10)
腾讯云测试服务(9)
LoRa(9)
云直播(8)
游戏(8)
编码(8)
代理(8)
函数(8)
内存(8)
数学(8)
tensorflow(7)
数据库(7)
网站(7)
推荐系统(7)
无监督学习(7)
机器人(7)
工具(7)
架构(7)
算法(7)
网络(7)
sql(6)
正则表达式(6)
教育(6)
agent(6)
量化(6)
视频(6)
搜索(6)
效率(6)
语音识别(5)
数据挖掘(5)
go(5)
node.js(5)
apache(5)
文件存储(5)
缓存(5)
processing(5)
meta(5)
word(5)
区块链(4)
bash(4)
unix(4)
医疗(4)
nat(4)
nest(4)
data(4)
embedding(4)
function(4)
openai(4)
self(4)
部署(4)
排序(4)
压缩(4)
自然语言处理(4)
java(3)
.net(3)
硬件开发(3)
api(3)
搜索引擎(3)
bash 指令(3)
电商(3)
存储(3)
分布式(3)
shell(3)
spark(3)
gui(3)
线性回归(3)
keras(3)
grep(3)
安全(3)
数据处理(3)
windows(3)
架构设计(3)
迁移(3)
联邦学习(3)
ls(3)
memory(3)
model(3)
prompt(3)
翻译(3)
华为(3)
解决方案(3)
苹果(3)
索引(3)
语法(3)
人脸识别(2)
官方文档(2)
数字货币(2)
自动驾驶(2)
javascript(2)
jquery ui(2)
android(2)
NAT 网关(2)
大数据处理套件 TBDS(2)
企业(2)
自动化(2)
爬虫(2)
无人驾驶(2)
numpy(2)
信息流(2)
云计算(2)
对话机器人(2)
特征工程(2)
聚类算法(2)
隐私计算(2)
智能客服机器人(2)
error(2)
label(2)
lstm(2)
mean(2)
network(2)
object(2)
sample(2)
sequence(2)
target(2)
tree(2)
变量(2)
程序(2)
服务(2)
集合(2)
技巧(2)
路由(2)
实践(2)
统计(2)
音频(2)
费用中心(1)
云点播(1)
对象存储(1)
负载均衡(1)
腾讯云学堂(1)
c 语言(1)
c++(1)
perl(1)
lua(1)
scala(1)
r 语言(1)
react(1)
json(1)
ajax(1)
oracle(1)
打包(1)
matlab(1)
中文分词(1)
apt-get(1)
mapreduce(1)
黑石物理服务器(1)
短视频(1)
访问管理(1)
SSL 证书(1)
数据加密服务(1)
文字识别(1)
内容理解(1)
金融(1)
kubernetes(1)
ssh(1)
面向对象编程(1)
opencv(1)
unity(1)
自动化测试(1)
二叉树(1)
单元测试(1)
kernel(1)
scikit-learn(1)
模式识别(1)
物联网(1)
微服务(1)
raft(1)
云课堂(1)
智能音乐(1)
基础教育(1)
alarm(1)
analysis(1)
apple(1)
bat(1)
behavior(1)
bit(1)
blender(1)
branch(1)
cat(1)
chat(1)
com(1)
decode(1)
distance(1)
dst(1)
encoding(1)
entity(1)
eval(1)
fixed(1)
google(1)
graph(1)
hidden(1)
history(1)
input(1)
it(1)
jupyter(1)
kaggle(1)
layer(1)
lift(1)
lisp(1)
lm(1)
marker(1)
microsoft(1)
modeling(1)
models(1)
next(1)
pdf(1)
perfect(1)
pivot(1)
plot(1)
position(1)
prediction(1)
ps(1)
random(1)
state(1)
table(1)
tabular(1)
text(1)
title(1)
torch(1)
translation(1)
twitter(1)
video(1)
vr(1)
youtube(1)
编程(1)
表格(1)
并发(1)
程序设计(1)
创业(1)
动画(1)
二维码(1)
工程师(1)
公众号(1)
工作流(1)
行业(1)
集群(1)
兼容性(1)
接口(1)
开发(1)
开发者(1)
科技(1)
可视化(1)
连接(1)
漏洞(1)
面试(1)
配置(1)
入门(1)
事件(1)
数据存储(1)
数据科学(1)
思维导图(1)
通信(1)
图表(1)
协议(1)
研发(1)
异常(1)
语音(1)
重构(1)
城市交通(1)
搜索文章
搜索
搜索
关闭
一文详解Transformers的性能优化的8种方法
NLP 服务
css
前言 自BERT出现以来,nlp领域已经进入了大模型的时代,大模型虽然效果好,但是毕竟不是人人都有着丰富的GPU资源,在训练时往往就捉襟见肘,出现显存out of memory的问题,或者训练时间非常非常的久,因此,这篇文章主要解决的问题就是如何在GPU资源受限的情况下训练transformers库上面的大模型。 这篇文章源自Vadim Irtlach大佬在kaggle的开源notebook,感谢原作者的分享,本nlp小白觉得受益良多,因此搬运到知乎分享给大家,已取得作者授权,大部分内容是照搬翻译过来的,小
zenRRan
2022-09-02
2.6K
0
NLP实践 | 用自己的语料进行MLM预训练
批量计算
css
NLP 服务
编程算法
每天给你送来NLP技术干货! ---- 编辑:AI算法小喵 1. 关于MLM 1.1 背景 作为 Bert 预训练的两大任务之一,MLM 和 NSP 大家应该并不陌生。其中,NSP 任务在后续的一些预训练任务中经常被嫌弃,例如 Roberta 中将 NSP 任务直接放弃,Albert 中将 NSP 替换成了句子顺序预测。 这主要是因为 NSP 作为一个分类任务过于简单,对模型的学习并没有太大的帮助,而 MLM 则被多数预训练模型保留下来。由 Roberta的实验结果也可以证明,Bert 的主要能力应该是来自
zenRRan
2022-08-26
1.9K
0
很强!社招NLP算法收割机
css
强化学习
机器学习
神经网络
深度学习
每天给你送来NLP技术干货! ---- 作者 | 年年的铲屎官 整理 | NewBeeNLP https://zhuanlan.zhihu.com/p/546364420 背景介绍 知乎上有个问题是有哪些行为堪比「1949年加入国民党」?[1], 那么我觉得我选择在2022年跳槽也算是一种吧[捂脸]。 2022年大环境不太好,整体hc(head count)比2021年少了很多 ,回想2021年,各个候选人所到之处,各家大厂中厂竭诚欢迎,hc充足,大家挑花了眼,那种生机勃勃,万物竞发的景象犹在眼前,没
zenRRan
2022-08-26
799
0
NLP算法面经分享
css
强化学习
机器学习
神经网络
深度学习
每天给你送来NLP技术干货! ---- 编辑:AI算法小喵 写在前面 今天给大家分享一份NLP算法方向的社招面经,当然校招也可以参考,希望对大家有所帮助。在今年这个相对糟糕的大环境下,面试者历经1个多月的刷题复习+1个多月的面试,最终拿到了多个大厂offer。 1.背景 2022年大环境不太好,整体hc(head count)比2021年少了很多,回想2021年,各个候选人所到之处,各家大厂中厂竭诚欢迎,hc充足,大家挑花了眼,那种生机勃勃,万物竞发的景象犹在眼前,没想到短短一年之后,居然情况急转直下。
zenRRan
2022-08-26
1.5K
0
由浅入深详解NLP中的Adapter技术
https
网络安全
css
NLP 服务
每天给你送来NLP技术干货! ---- ©作者 | 吴迪 单位 | UCLA 研究方向 | NLP 排版 | PaperWeekly 前言 在现代自然语言处理(NLP)的应用中,使用预训练的表征进行迁移学习是很重要的一个方法。在深度学习开始被应用之后,迁移学习最早出现在使用预训练的特征向量,以及对预训练语言模型(pre-trained language model,PLM)进行微调(fine-tuning)[1]。基于预训练模型,adapter 给出了一个新的思路,即能否在模型中插入一些少量的参数,在下
zenRRan
2022-07-27
1.5K
0
雄霸天下,Transformer久坐王位的秘密
apache
css
https
网络安全
每天给你送来NLP技术干货! ---- 作者:Mordechai Rorvig 转自机器之心 这家由 OpenAI 前核心员工组成的 AI 创业公司,正在努力打开 Transformer 的黑箱。 在过去的两年里,人工智能在自然语言处理领域的突破达到了惊人的水平。很多重要的突破都是基于谷歌在 2017 年提出的 Transformer 架构。 但在模型之下,我们仍然不知道 Transformer 对其处理的单词做了什么。从普遍的理解来看,它们能够以某种方式关注多个单词,从而可以立即进行「全局」分析。但这究竟
zenRRan
2022-05-06
349
0
一篇非常好的transformer年度总结
css
NLP 服务
编程算法
每天给你送来NLP技术干货! ---- 作者:Xavier Amatriain 翻译: 炼丹小生(炼丹笔记) 很多人的“记忆”并没那么好,特别是对名字.这些年各种各样的transformer涌现出来,各有各的优势,但是他们的名字却不能直白的看出该版本的transformer到底做了什么.这篇的目的就是把所有流行的transformer进行清晰简单的分类,以便大家对transformer家族快速梳理 简介 Transformer是什么就不用多说了,2017年开始至今引用量将近4w的论文<Attention
zenRRan
2022-03-31
419
0
多模态综述 | 一文了解Language-Vision预训练最新进展和新领域
css
tcp/ip
NLP 服务
每天给你送来NLP技术干货! ---- 作者:Feilong Chen等 编译:机器之心 编辑:陈萍 一文了解视觉 - 语言预训练最新进展和新领域。 让机器做出与人类相似的反应一直是 AI 研究不懈追求的目标。为了让机器具有感知和思考的能力,研究人员进行了一系列相关研究,如人脸识别、阅读理解和人机对话,通过这些任务训练和评估机器在特定方面的智能。一般来讲,领域专家通过手工构建标准数据集,然后在这些数据集上训练和评估相关模型。然而,由于相关技术的限制,训练模型往往需要大量的标注数据,以获得更好、更强大的模
zenRRan
2022-03-30
1.9K
0
解决训练难题,1000层的Transformer来了,训练代码很快公开
http
css
编程算法
机器翻译
昨日出炉的论文《DeepNet: Scaling Transformers to 1,000 Layers》在研究社区引起了热议,作者来自微软亚洲研究院。
zenRRan
2022-03-10
831
0
Transformer+self-attention超详解(亦个人心得)
css
编程算法
链接|https://zhuanlan.zhihu.com/p/432814387
zenRRan
2021-12-09
2.7K
1
多模态中预训练的演变史
css
图像识别
自从2018年bert在NLP领域声名鹊起,通过预训练在n多NLP任务中刷榜,成功发掘出了transformer的潜力,众多研究者就看到了多模态发展的新的机会——使用大量数据做预训练。因为从updn模型开始,多模态这面普遍把图片提取成区域特征序列做后续处理,这样的话多模态是视觉和文本特征序列,NLP中是文本特征序列,没什么本质差异,自然可以把预训练搬过来,一系列多模态transformer预训练的文章应运而生。举个栗子:LXMERT、VLBERT、ViLBERT、UNITER、UNIMO、OSCAR、VisualBert、VLP、今年的ViLT、VinVL、SOHO、SimVLM、METER等等,以及没有使用预训练也达到很好效果的MCAN。
zenRRan
2021-12-04
1.4K
0
【实践】Pytorch nn.Transformer的mask理解
批量计算
编程算法
css
pytorch
pytorch也自己实现了transformer的模型,不同于huggingface或者其他地方,pytorch的mask参数要更难理解一些(即便是有文档的情况下),这里做一些补充和说明。(顺带提一句,这里的transformer是需要自己实现position embedding的,别乐呵乐呵的就直接去跑数据了)
zenRRan
2021-04-08
3.5K
0
近期必读 ICLR 2021 【模型压缩】&【预训练】相关论文】
https
网络安全
NLP 服务
css
深度学习
Task-Agnostic and Adaptive-Size BERT Compression
zenRRan
2020-11-11
1.3K
0
【EMNLP2020】超越MLM,微软打造全新预训练任务
css
NLP 服务
句子表示在很多任务中都是重要的一环。尤其是在大数据量的场景下,很多场景都需要召回+排序两个步骤,如果第一个环节没有召回候选结果,那最后的排序模型再怎么优秀也没法给出正确答案。
zenRRan
2020-10-26
804
0
按照时间线帮你梳理10种预训练模型
https
网络安全
css
github
git
本文的主要目的是理清时间线,关注预训练的发展过程,进行模型间的联系和对比,具体原理和细节请参考原论文和代码,不再一一赘述。
zenRRan
2020-09-22
1.9K
0
【KDD20】深度图神经网络专题
数据结构
神经网络
css
python
图神经网络在处理基于图数据问题方面取得了巨大的成功,受到了广泛的关注和应用。GNNs通常是基于消息传递的方式设计的,本质思想即迭代地聚合邻居信息,而经过
zenRRan
2020-09-22
962
0
【Pre-Training】关于 Transformer 那些的你不知道的事
编程算法
css
机器学习
神经网络
深度学习
本博客 主要 是本人在学习 Transformer 时的「所遇、所思、所解」,通过以 「十六连弹」 的方式帮助大家更好的理解 该问题。
zenRRan
2020-07-30
1.6K
0
收藏 | NLP论文、代码、博客、视频资源(LSTM,指针模型,Attention, ELMo,GPT,BERT、多任务学习等)
NLP 服务
css
github
在近几年,NLP 领域得到了快速的发展,包括 ELMo ,BERT在内的新方法不断涌现,显著提高了模型在一系列任务的表现。在本文中,作者针对主要的 NLP 模型、常用开源机器学习库和多任务学习的相关资源进行了归纳,提供了包括论文、代码、视频和博客在内的多种学习资源。
zenRRan
2019-06-19
1.4K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档