我理解标记化标准对一个人获得的BLEU分数至关重要,但我不理解的是,为什么当我比较基线BLEU分数或自定义BLEU分数时,会得到不一致的差异。让我解释一下。
例如,我最近训练了一个英语-丹麦语自定义模型,训练集约为300k个片段,测试集约为2k个片段。完成后,我得到了基线的bleu分数为34,63和自定义的bleu分数为48,3。为了仔细检查这些分数,我重新计算了从自定义翻译器门户网站下载的模型“系统测试结果”的bleu分数,使用Moses tokenizer.perl和mult-bleu.perl,使用基线模型我得到的bleu分数为34,16,但是使用自定义模型我得到了41,57。
你如何解释,使用基线模型我得到的分数与我从Microsoft获得的分数非常相似,但是使用自定义模型我得到的分数比我从Microsoft获得的分数低大约7分。丹麦的情况只是一个例子,但这是我在其他几种语言中观察到的行为。
发布于 2019-04-02 09:21:54
您可以联系我们的客户支持别名吗?我想看看你的分词测试数据,并确定为什么会有如此巨大的差异。
https://stackoverflow.com/questions/55453907
复制相似问题