首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >子词NMT的BLEU分数是应该用子词来计算,还是应该先加入?

子词NMT的BLEU分数是应该用子词来计算,还是应该先加入?
EN

Stack Overflow用户
提问于 2020-01-08 16:10:40
回答 1查看 262关注 0票数 0

在我读过的报纸上,这一点还不太清楚。当一个模型被训练成一个双语语料库,该语料库被分割成子词,例如通过字节对编码,它是标准的计算BLEU分数在子字输出或重新加入子词后的完整单词?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-01-09 09:24:22

BLEU的分数通常是在完全标记上计算的,否则不同的分词模型上BLEU的分数是无法比较的。即使在标记化方面的微小差异也会在最后的分数中产生很大的差异。这在最近的一篇论文中得到了很好的解释,它引入了SacreBLEU,它现在被用作在学术论文中报告BLEU分数的标准工具。

当用BPE子词代替单词计算BLEU时,分数会被人为地提高。即使翻译质量很低,模型对单个词的正确也没有问题。通常情况下,它只包含在单字精度中,但当单词分裂成多个子词时,它还会增加比克、三格数,也许还会增加4克的精度。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59649783

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档