腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度学习自然语言处理

专栏作者

1009

文章

1174522

阅读量

161

订阅数

一文详解Transformers的性能优化的8种方法

前言自BERT出现以来，nlp领域已经进入了大模型的时代，大模型虽然效果好，但是毕竟不是人人都有着丰富的GPU资源，在训练时往往就捉襟见肘，出现显存out of memory的问题，或者训练时间非常非常的久，因此，这篇文章主要解决的问题就是如何在GPU资源受限的情况下训练transformers库上面的大模型。这篇文章源自Vadim Irtlach大佬在kaggle的开源notebook，感谢原作者的分享，本nlp小白觉得受益良多，因此搬运到知乎分享给大家，已取得作者授权，大部分内容是照搬翻译过来的，小

2022-09-02

2.6K0

NLP实践 | 用自己的语料进行MLM预训练

批量计算 css NLP 服务编程算法

每天给你送来NLP技术干货！ ---- 编辑：AI算法小喵 1. 关于MLM 1.1 背景作为 Bert 预训练的两大任务之一，MLM 和 NSP 大家应该并不陌生。其中，NSP 任务在后续的一些预训练任务中经常被嫌弃，例如 Roberta 中将 NSP 任务直接放弃，Albert 中将 NSP 替换成了句子顺序预测。这主要是因为 NSP 作为一个分类任务过于简单，对模型的学习并没有太大的帮助，而 MLM 则被多数预训练模型保留下来。由 Roberta的实验结果也可以证明，Bert 的主要能力应该是来自

2022-08-26

1.9K0

很强！社招NLP算法收割机

css 强化学习机器学习神经网络深度学习

每天给你送来NLP技术干货！ ---- 作者 | 年年的铲屎官整理 | NewBeeNLP https://zhuanlan.zhihu.com/p/546364420 背景介绍知乎上有个问题是有哪些行为堪比「1949年加入国民党」？[1], 那么我觉得我选择在2022年跳槽也算是一种吧[捂脸]。 2022年大环境不太好，整体hc(head count)比2021年少了很多，回想2021年，各个候选人所到之处，各家大厂中厂竭诚欢迎，hc充足，大家挑花了眼，那种生机勃勃，万物竞发的景象犹在眼前，没

2022-08-26

7990

NLP算法面经分享

css 强化学习机器学习神经网络深度学习

每天给你送来NLP技术干货！ ---- 编辑：AI算法小喵写在前面今天给大家分享一份NLP算法方向的社招面经，当然校招也可以参考，希望对大家有所帮助。在今年这个相对糟糕的大环境下，面试者历经1个多月的刷题复习+1个多月的面试，最终拿到了多个大厂offer。 1.背景 2022年大环境不太好，整体hc(head count)比2021年少了很多，回想2021年，各个候选人所到之处，各家大厂中厂竭诚欢迎，hc充足，大家挑花了眼，那种生机勃勃，万物竞发的景象犹在眼前，没想到短短一年之后，居然情况急转直下。

2022-08-26

1.5K0

由浅入深详解NLP中的Adapter技术

https 网络安全 css NLP 服务

每天给你送来NLP技术干货！ ---- ©作者 | 吴迪单位 | UCLA 研究方向 | NLP 排版 | PaperWeekly 前言在现代自然语言处理（NLP）的应用中，使用预训练的表征进行迁移学习是很重要的一个方法。在深度学习开始被应用之后，迁移学习最早出现在使用预训练的特征向量，以及对预训练语言模型（pre-trained language model，PLM）进行微调（fine-tuning）[1]。基于预训练模型，adapter 给出了一个新的思路，即能否在模型中插入一些少量的参数，在下

2022-07-27

1.5K0

雄霸天下，Transformer久坐王位的秘密

apache css https 网络安全

每天给你送来NLP技术干货！ ---- 作者：Mordechai Rorvig 转自机器之心这家由 OpenAI 前核心员工组成的 AI 创业公司，正在努力打开 Transformer 的黑箱。在过去的两年里，人工智能在自然语言处理领域的突破达到了惊人的水平。很多重要的突破都是基于谷歌在 2017 年提出的 Transformer 架构。但在模型之下，我们仍然不知道 Transformer 对其处理的单词做了什么。从普遍的理解来看，它们能够以某种方式关注多个单词，从而可以立即进行「全局」分析。但这究竟

2022-05-06

3490

一篇非常好的transformer年度总结

css NLP 服务编程算法

每天给你送来NLP技术干货！ ---- 作者：Xavier Amatriain 翻译: 炼丹小生（炼丹笔记）很多人的“记忆”并没那么好,特别是对名字.这些年各种各样的transformer涌现出来,各有各的优势,但是他们的名字却不能直白的看出该版本的transformer到底做了什么.这篇的目的就是把所有流行的transformer进行清晰简单的分类,以便大家对transformer家族快速梳理简介 Transformer是什么就不用多说了,2017年开始至今引用量将近4w的论文<Attention

2022-03-31

4190

多模态综述 | 一文了解Language-Vision预训练最新进展和新领域

css tcp/ip NLP 服务

每天给你送来NLP技术干货！ ---- 作者：Feilong Chen等编译：机器之心编辑：陈萍一文了解视觉 - 语言预训练最新进展和新领域。让机器做出与人类相似的反应一直是 AI 研究不懈追求的目标。为了让机器具有感知和思考的能力，研究人员进行了一系列相关研究，如人脸识别、阅读理解和人机对话，通过这些任务训练和评估机器在特定方面的智能。一般来讲，领域专家通过手工构建标准数据集，然后在这些数据集上训练和评估相关模型。然而，由于相关技术的限制，训练模型往往需要大量的标注数据，以获得更好、更强大的模

2022-03-30

1.9K0

解决训练难题，1000层的Transformer来了，训练代码很快公开

http css 编程算法机器翻译

昨日出炉的论文《DeepNet: Scaling Transformers to 1,000 Layers》在研究社区引起了热议，作者来自微软亚洲研究院。

2022-03-10

8310

Transformer+self-attention超详解（亦个人心得）

css 编程算法

链接｜https://zhuanlan.zhihu.com/p/432814387

2021-12-09

2.7K1

多模态中预训练的演变史

css 图像识别

自从2018年bert在NLP领域声名鹊起，通过预训练在n多NLP任务中刷榜，成功发掘出了transformer的潜力，众多研究者就看到了多模态发展的新的机会——使用大量数据做预训练。因为从updn模型开始，多模态这面普遍把图片提取成区域特征序列做后续处理，这样的话多模态是视觉和文本特征序列，NLP中是文本特征序列，没什么本质差异，自然可以把预训练搬过来，一系列多模态transformer预训练的文章应运而生。举个栗子：LXMERT、VLBERT、ViLBERT、UNITER、UNIMO、OSCAR、VisualBert、VLP、今年的ViLT、VinVL、SOHO、SimVLM、METER等等，以及没有使用预训练也达到很好效果的MCAN。

2021-12-04

1.4K0

【实践】Pytorch nn.Transformer的mask理解

批量计算编程算法 css pytorch

pytorch也自己实现了transformer的模型，不同于huggingface或者其他地方，pytorch的mask参数要更难理解一些（即便是有文档的情况下），这里做一些补充和说明。（顺带提一句，这里的transformer是需要自己实现position embedding的，别乐呵乐呵的就直接去跑数据了）

2021-04-08

3.5K0

近期必读 ICLR 2021 【模型压缩】&【预训练】相关论文】

https 网络安全 NLP 服务 css 深度学习

Task-Agnostic and Adaptive-Size BERT Compression

2020-11-11

1.3K0

【EMNLP2020】超越MLM，微软打造全新预训练任务

句子表示在很多任务中都是重要的一环。尤其是在大数据量的场景下，很多场景都需要召回+排序两个步骤，如果第一个环节没有召回候选结果，那最后的排序模型再怎么优秀也没法给出正确答案。

2020-10-26

8040

按照时间线帮你梳理10种预训练模型

https 网络安全 css github git

本文的主要目的是理清时间线，关注预训练的发展过程，进行模型间的联系和对比，具体原理和细节请参考原论文和代码，不再一一赘述。

2020-09-22

1.9K0

【KDD20】深度图神经网络专题

数据结构神经网络 css python

图神经网络在处理基于图数据问题方面取得了巨大的成功，受到了广泛的关注和应用。GNNs通常是基于消息传递的方式设计的，本质思想即迭代地聚合邻居信息，而经过

2020-09-22

9620

【Pre-Training】关于 Transformer 那些的你不知道的事

编程算法 css 机器学习神经网络深度学习

本博客主要是本人在学习 Transformer 时的「所遇、所思、所解」，通过以「十六连弹」的方式帮助大家更好的理解该问题。

2020-07-30

1.6K0

收藏 | NLP论文、代码、博客、视频资源（LSTM，指针模型，Attention， ELMo，GPT，BERT、多任务学习等）

NLP 服务 css github

在近几年，NLP 领域得到了快速的发展，包括 ELMo ，BERT在内的新方法不断涌现，显著提高了模型在一系列任务的表现。在本文中，作者针对主要的 NLP 模型、常用开源机器学习库和多任务学习的相关资源进行了归纳，提供了包括论文、代码、视频和博客在内的多种学习资源。

2019-06-19

1.4K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态