bert之token embeddings、segmentation embeddings、position embeddings

西西嘛呦

发布于 2020-08-26 14:15:01

1.6K0

发布于 2020-08-26 14:15:01

文章被收录于专栏：数据分析与挖掘

token embeddings、segmentation embeddings、position embeddings。

token embeddings：每个词用索引表示，维度（1,n,768）

segmentation embeddings：前一个句子的词用0表示，后一个句子的词用1表示，维度（1,n,768）

position embeddings：维度（1,n,768）

（1）使用WordPiece嵌入（Wu et al., 2016）和30,000个token的词汇表。用##表示分词。

（2）使用学习的positional embeddings，支持的序列长度最多为512个token。每个序列的第一个token始终是特殊分类嵌入（[CLS]）。对应于该token的最终隐藏状态（即Transformer的输出）被用作分类任务的聚合序列表示。对于非分类任务，将忽略此向量。

（3）句子对被打包成一个序列。以两种方式区分句子。首先，用特殊标记（[SEP]）将它们分开。其次，添加一个learned sentence A嵌入到第一个句子的每个token中，一个sentence B嵌入到第二个句子的每个token中。

（4）对于单个句子输入，只使用 sentence A嵌入。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2020-07-25 ，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度