在我读过的报纸上,这一点还不太清楚。当一个模型被训练成一个双语语料库,该语料库被分割成子词,例如通过字节对编码,它是标准的计算BLEU分数在子字输出或重新加入子词后的完整单词?
发布于 2020-01-09 09:24:22
BLEU的分数通常是在完全标记上计算的,否则不同的分词模型上BLEU的分数是无法比较的。即使在标记化方面的微小差异也会在最后的分数中产生很大的差异。这在最近的一篇论文中得到了很好的解释,它引入了SacreBLEU,它现在被用作在学术论文中报告BLEU分数的标准工具。
当用BPE子词代替单词计算BLEU时,分数会被人为地提高。即使翻译质量很低,模型对单个词的正确也没有问题。通常情况下,它只包含在单字精度中,但当单词分裂成多个子词时,它还会增加比克、三格数,也许还会增加4克的精度。
https://stackoverflow.com/questions/59649783
相似问题