前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NLP: Text Neural Network (Part4: Transformer)

NLP: Text Neural Network (Part4: Transformer)

作者头像
JiahuiZhu1998
发布2023-06-20 11:59:09
990
发布2023-06-20 11:59:09
举报
文章被收录于专栏:JiahuiZhu1998_技术笔记

Transformer 结构

基于 Encoder-Decoder结构,6个Encoder递进,6个Decoder递进

Transformer总体结构
Transformer总体结构
每一个Encoder和Decoder内部结构 (Multi-Head Attention + FeedForward)
每一个Encoder和Decoder内部结构 (Multi-Head Attention + FeedForward)

Encoder

Encoder结构,Self-Attention + FeedForward(并行)
Encoder结构,Self-Attention + FeedForward(并行)

Positional Encoding

Transformer不能记录document前后顺序,需要加入positional encoding

positional encoding (even number)
positional encoding (even number)
positional encoding (odd number)
positional encoding (odd number)

Word Embeddings + Positional Encoding = Final Embedding,然后将 Final Embedding 输入到Encoder中

Self-Attention

Step1: softmax (Q * K div 8), here 8 is sqrt(dimension)
Step1: softmax (Q * K div 8), here 8 is sqrt(dimension)
Step1 的值 再乘上Value
Step1 的值 再乘上Value

Multi-Head Attention

上面的Self-Attention 计算了一组QKV,获得一个Attention

Multi-Head Attention 并行计算8组QKV,获得8个Attention

Layer Normalization

Batch Normalization

按批次归一,数据偏差会较大,会导致梯度消失或梯度爆炸

Layer Normalization

Layer Normalization
Layer Normalization

Decoder

Masked Multi-Head Attention

Padding Mask

在长度不够位置上填充较大值的负数

Sequence Mask

使Decoder只能使用t时刻前的输出,将之后的输出隐藏

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Transformer 结构
  • Encoder
    • Positional Encoding
      • Transformer不能记录document前后顺序,需要加入positional encoding
    • Self-Attention
      • Multi-Head Attention
        • Layer Normalization
          • Batch Normalization
          • Layer Normalization
      • Decoder
        • Masked Multi-Head Attention
          • Padding Mask
          • Sequence Mask
      相关产品与服务
      GPU 云服务器
      GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档