: a Method for Automatic Evaluation of Machine Translation 中提出的
这种评测方法通过对候选翻译与参考文本中的相匹配的 n 元组进行计数, 其中一元组...,2002 年发表
n 元组匹配的计数结果会被修改, 以确保将参考文本中的单词都考虑在内, 而不会对产生大量合理词汇的候选翻译进行加分在 BLEU 论文中这被称之为修正的 n 元组精度
糟糕的是, 机器翻译系统可能会生成过多的合理单词...我们首先逐句计算 n 元组匹配数目接下来, 我们为所有候选句子加上修剪过的 n 元组计数, 并除以测试语料库中的候选 n 元组个数, 以计算整个测试语料库修正后的精度分数 pn
摘自论文 BLEU:...1.0
语料库 BLEU 分数
NLTK 还提供了一个称为 corpus_bleu()的函数来计算多个句子 (如段落或文档) 的 BLEU 分数
参考文本必须被指定为文档列表, 其中每个文档是一个参考语句列表..., 并且每个可替换的参考语句也是记号列表, 也就是说文档列表是记号列表的列表的列表候选文档必须被指定为列表, 其中每个文件是一个记号列表, 也就是说候选文档是记号列表的列表
这听起来有点令人困惑; 以下是一个文档的两个参考文档的例子