前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[DeeplearningAI笔记]序列模型3.6Bleu得分/机器翻译得分指标

[DeeplearningAI笔记]序列模型3.6Bleu得分/机器翻译得分指标

作者头像
演化计算与人工智能
发布2020-08-14 14:49:53
7420
发布2020-08-14 14:49:53
举报

3.6Bleu 得分

  • 在机器翻译中往往对应有多种翻译,而且同样好,此时怎样评估一个机器翻译系统是一个难题。常见的解决方法是通过 BLEU 得分来进行判断
评价机器翻译 Evaluating machine translation

“Papineni K. Bleu:A Method for Automatic Evaluation of Machine Translation[J]. Proc Acl, 2002.

  • 示例 法语句子 :Le chat est sur le tapis
    • 人工翻译参考 1 The cat is on the mat
    • 人工翻译参考 2 There is a cat on the mat
    • 实际上两个翻译都能准确地翻译了这个法语句子,BLEU 得分做的就是给定一个机器生成的翻译,这个算法能够自动地计算一个分数来评价机器翻译的好坏。如果机器翻译的语句能够与任意一个人工翻译参考相近,其就会得到很高的 BLEU 分数。
  • BLEU 代表 bilingual evalution understudy--双语评估替补 在戏剧界,替补演员通过学习资深演员以能够在适当时机替代资深演员。BLEU 相当于请评估员人工评估机器翻译系统,BLEU 得分 相当于一个候补者代替人类来评估机器翻译的每一个翻译结果。BLEU 得分 背后的理念是 观察机器生成的翻译,然后看生成的词是否至少出现在一个人工翻译参考之中 因此这些人工翻译的参考会包含在开发集或测试集中
观察输出结果的每一个词看起是否出现在人工参考中
  • 衡量机器翻译输出质量的方法之一是 观察输出结果的每一个词看起是否出现在人工参考中,这被定义为机器翻译的精确度
    • 这种情况下,得到了 7 个单词,并且这七个单词都出现在了两个参考中,因此根据定义这个输出的精确度是 7/7 ,看上去这个结果十分好但是实际结果却不是这样。
    • 所以把出现在参考中的词在 MT 输出的所有词中所占的比例作为精确度评估标准并不是很有用
    • 机器翻译结果 MT 假设机器翻译得到一个极端的解:the the the the the the the
改良后的精确度评估方法
  • 把每个词的计分上限定位它在参考句子中出现的最多次数, 在参考一中单词 the 出现了 2 次,所以上限是 2。参考二中,单词 the 只出现了 1 次,取参考句子中单词出现的最大值,所以单词“the”的计分上限是 2 所以机器翻译结果最终的分数是 2/7
二元组 BLEU 得分 Bleu score on bigrams
  • 考虑 BLEU 得分不仅只考虑单个单词,还应该考虑成对的单词(相邻的单词组)的得分
  • 示例 法语句子 :Le chat est sur le tapis
    • 人工翻译参考 1 The cat is on the mat
    • 人工翻译参考 2 There is a cat on the mat
    • MT 机器翻译 The cat the cat on the mat
  • 机器翻译中的二元组 BigramsCountCount_Clipthe cat21cat the10cat on11on the11the mat11
    • 此例中 Bleu 分数
    \frac{4}{6}
    • Count_Clip(截断计数) 定义为算法的得分上限,上限值为二元词组出现在参考 1 和参考 2 中的最大次数。
    • 所以改进后的 Bleu 分数 即为 Count_Clip 之和除以 Count 之和
N 元组 BLEU 得分
  • 一元组 Bleu 得分
P_1=\frac{\sum_{unigram\in \hat{y}}count_{clip}(unigram)}{\sum_{unigram\in \hat{y}}count(unigram)}
  • N 元组 Bleu 得分
P_n=\frac{\sum_{n-gram\in \hat{y} }count_{clip}(n-gram)}{\sum_{n-gram\in \hat{y}}count(n-gram)}
Bleu 得分细节
P_n

表示 n 元词组这一项的 BLEU 得分,为了使用一个数值来评价一个机器翻译系统,需要将

P_1,P_2,P_3,P_4...

的数值整合进行计算。

Bleu score=BPexp(\frac{1}{4}\sum^{4}_{n=1}P_n)
  • 使用 BP 进行 简短惩罚(brevity penalty) ,意思是 如果机器翻译输出了一个非常简短的翻译,则其很容易得到一个高分的 Bleu 值(输出的大部分词可能都出现在参考之中,但是如果我不想要很简短的翻译,则需要使用到简短惩罚) ,其是一个惩罚项,能够惩罚输出了太短的 机器翻译系统
  • 公式
  • 即如果 机器翻译的长度 大于 人工翻译输出的长度 ,BP=1,而其他情况下 BP 的定义会遵从一个式子,从而减小 Bleu 得分的值。
  • Bleu 得分 是一个 单一实数评价指标 ,其在 机器翻译图片描述 中应用广泛,用以评价机器生成的语句和实际人工生成的结果是否相近。

参考资料

[1]

吴恩达老师课程原地址: https://mooc.study.163.com/smartSpec/detail/1001319001.htm

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-06-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrawSky 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 3.6Bleu 得分
    • 评价机器翻译 Evaluating machine translation
      • 观察输出结果的每一个词看起是否出现在人工参考中
        • 改良后的精确度评估方法
          • 二元组 BLEU 得分 Bleu score on bigrams
            • N 元组 BLEU 得分
              • Bleu 得分细节
              • 参考资料
              相关产品与服务
              机器翻译
              机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档