文章/答案/技术大牛

发布

社区首页 >问答首页 >在Huggingface gpt2语言模型代码中，困惑在哪里计算？

问在Huggingface gpt2语言模型代码中，困惑在哪里计算？
EN

Stack Overflow用户

提问于 2020-03-24 13:58:05

回答 2查看 5.2K关注 0票数 6

我看到一些github评论说，模型()调用的损失的输出以困惑的形式出现：https://github.com/huggingface/transformers/issues/473

    if labels is not None:
        # Shift so that tokens < n predict n
        shift_logits = lm_logits[..., :-1, :].contiguous()
        shift_labels = labels[..., 1:].contiguous()
        # Flatten the tokens
        loss_fct = CrossEntropyLoss()
        loss = loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1))
        outputs = (loss,) + outputs

    return outputs  # (loss), lm_logits, (all hidden states), (all attentions)

我看到交叉熵正在计算，但没有转化为困惑。损失最终会在哪里改变呢？还是已经有了我不理解的转变？

machine-learning

huggingface-transformers

gpt

perplexity

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-03-24 15:33:41

好吧，我找到答案了。代码实际上是返回交叉熵。在github评论中，他们说是perplexity...they，因为OP说

return math.exp(loss)

它将熵转化为困惑:)

票数 8

Stack Overflow用户

发布于 2022-03-02 13:33:56

没有乳胶没问题。顾名思义，困惑(三元组)是：

PP(p) = e^(H(p))

其中H代表混沌(古希腊语:χάος)或熵。在一般情况下，我们有交叉熵：

PP(p) = e^(H(p，q))

E是对数的自然基，这是PyTorch倾向于计算熵和交叉熵的方法。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60832547

复制

相似问题

问在Huggingface gpt2语言模型代码中，困惑在哪里计算？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Huggingface gpt2语言模型代码中，困惑在哪里计算？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Huggingface gpt2语言模型代码中，困惑在哪里计算？
EN