首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >英伟达Faster Transformer:作者带你揭秘BERT优化

英伟达Faster Transformer:作者带你揭秘BERT优化

作者头像
机器之心
发布2019-09-19 11:25:25
1.8K0
发布2019-09-19 11:25:25
举报
文章被收录于专栏:机器之心机器之心

2017 年 12 月 Google 在论文「Attention is All You Need」中首次提出了 Transformer,将其作为一种通用高效的特征抽取器。至今,Transformer 已经被多种 NLP 模型采用,比如 BERT 和 XLNet,这些模型在多项 NLP 任务中都有突出表现。

在 NLP 之外,TTS,ASR 等领域也在逐步采用 Transformer。可以预见,Transformer 这个简洁有效的网络结构会像 CNN 和 RNN 一样被广泛采用。虽然 Transformer 在多种场景下都有优秀的表现,但是在推理部署阶段,其计算性能却受到了巨大的挑战:以 BERT 为原型的多层 Transformer 模型,其性能常常难以满足在线业务对于低延迟(保证服务质量)和高吞吐(考虑成本)的要求。因此,一个高效的 Transformer 前向计算方案,既可以为在线业务带来降本增效的作用,也有利于以 Transformer 结构为核心的各类网络在更多实际工业场景中落地。

NVIDIA GPU 计算专家团队针对 Transformer 推理提出了性能优化方案:Faster Transformer

据介绍,Faster Transformer 是一个 BERT Transformer 单层前向计算的高效实现,其代码简洁明了,后续可以通过简单修改支持多种 Transformer 结构。目前,Faster Transformer的优化集中在编码器(encoder)的前向计算(解码器 decoder 开发在后续特性规划中)。底层由 CUDA 和 cuBLAS 实现,支持 FP16 和 FP32 两种计算模式,其中 FP16 可以充分利用 Volta 和 Turing 架构 GPU 上的 Tensor Core 计算单元。

不久之前,机器之心曾发文对英伟达开源的 Faster Transformer 进行了简要介绍。为向读者更细致的解读Faster Transformer背后的优化原理与细节, 9 月 26 日,NVIDIA 中国区 GPU 计算专家团队高级工程师将来带一场线上分享,详解 Faster Transformer。

Faster Transformer 综述

直播时间:2019 年 9月26 日 20:00—21:30

分享主题:Faster Transformer 综述

分享嘉宾:贾晓莹,NVIDIA 中国区 GPU 计算专家团队高级工程师

贾晓莹,2017 年博士毕业于中国香港科技大学,随后加入 NVIDIA GPU 计算专家团队,从事 NLP,CTR 以及 ASR 的模型在 GPU 上的高效推理实现及优化。

在本次直播中,你将了解到以下内容:

  • Faster Transformer 背后的优化原理及细节;
  • 如何通过CUDA和cuBLAS在最新架构的GPU上实现高性能的Transformer Encoder。

点击阅读原文,注册后即可预约直播。

NVIDIA GPU计算专家团队致力于为中国客户提供基于GPU系统的最快解决方案,工作内容涉及视频图像处理、语音识别和合成、自然语言处理、推荐系统等各个方面,通过代码优化、模型优化和Pipeline优化,提供端到端的解决方案。本团队开源了若干原型项目,帮助用户评估GPU可以带来的业务收益,并通过进一步开发集成,利用GPU为用户降低成本,提高效率。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档