文章/答案/技术大牛

发布

社区首页 >问答首页 >GPT-2语言模型:将解码器-转换器输出与令牌嵌入或另一个权重矩阵相乘

问GPT-2语言模型:将解码器-转换器输出与令牌嵌入或另一个权重矩阵相乘
EN

Stack Overflow用户

提问于 2020-02-12 19:46:55

回答 1查看 92关注 0票数 1

我正在读GPT2语言模型的代码。隐藏状态到词汇表上的概率分布的转换在下面一行中完成：

lm_logits = self.lm_head(hidden_states)

这里,

self.lm_head = nn.Linear(config.n_embd, config.vocab_size, bias=False)

然而，在original paper中，他们建议将隐藏状态与令牌嵌入矩阵相乘，而huggingface实现使用了另一个矩阵。

这有什么好处吗？我是不是遗漏了什么？

发布于 2020-02-14 01:13:30

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60187634

复制

相似问题

问GPT-2语言模型:将解码器-转换器输出与令牌嵌入或另一个权重矩阵相乘EN