前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Transformer 的提出背景、关键原理以及常考的重要问题

Transformer 的提出背景、关键原理以及常考的重要问题

作者头像
叶庭云
发布2024-05-25 08:02:53
5740
发布2024-05-25 08:02:53
举报
文章被收录于专栏:Python进阶之路

一、提出背景

Transformer 起源于 NeurIPS 2017 那篇名为 Attention Is All You Need 的著名论文。截止目前,该论文的引用数已经超过 10 万

在 Transformer 出现之前,主流的序列转换模型主要依赖于复杂的 RNNCNN 的编码器和解码器配置。为了提高性能,表现最佳的模型还通过注意机制将编码器和解码器连接起来。原始的 Transformer 网络架构仅仅依赖于注意力机制实现序列转换,用多头自注意力取代了编码器-解码器架构中最常用的循环层,没有用之前的循环或者是卷积。在机器翻译任务中,相较于基于循环或卷积层的架构,Transformer 能够更快地训练,这是因为矩阵乘法易于实现并行化和计算优化

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-05-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档