问子词NMT的BLEU分数是应该用子词来计算，还是应该先加入？
EN

Stack Overflow用户

提问于 2020-01-08 16:10:40

回答 1查看 262关注 0票数 0

在我读过的报纸上，这一点还不太清楚。当一个模型被训练成一个双语语料库，该语料库被分割成子词，例如通过字节对编码，它是标准的计算BLEU分数在子字输出或重新加入子词后的完整单词？

回答已采纳

发布于 2020-01-09 09:24:22

BLEU的分数通常是在完全标记上计算的，否则不同的分词模型上BLEU的分数是无法比较的。即使在标记化方面的微小差异也会在最后的分数中产生很大的差异。这在最近的一篇论文中得到了很好的解释，它引入了SacreBLEU，它现在被用作在学术论文中报告BLEU分数的标准工具。

当用BPE子词代替单词计算BLEU时，分数会被人为地提高。即使翻译质量很低，模型对单个词的正确也没有问题。通常情况下，它只包含在单字精度中，但当单词分裂成多个子词时，它还会增加比克、三格数，也许还会增加4克的精度。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59649783

复制

相似问题

问子词NMT的BLEU分数是应该用子词来计算，还是应该先加入？EN