我正在读GPT2语言模型的代码。隐藏状态到词汇表上的概率分布的转换在下面一行中完成:
lm_logits = self.lm_head(hidden_states)
这里,
self.lm_head = nn.Linear(config.n_embd, config.vocab_size, bias=False)
然而,在original paper中,他们建议将隐藏状态与令牌嵌入矩阵相乘,而huggingface实现使用了另一个矩阵。
这有什么好处吗?我是不是遗漏了什么?
发布于 2020-02-14 01:13:30
https://stackoverflow.com/questions/60187634
复制相似问题