Bleu:此'蓝'非彼蓝

来源

像seq2seq这样的模型,输入一个序列,输出一个序列,它的评分不像文本分类那样仅仅通过label是否一样来判断算出得分。比如机器翻译,它既要考虑语义,还要考虑语序。所以,在2002年一位国外的大牛(是的,没错基本木有中国人。。)Papineni et.al. 提出了Bleu方法,在Bleu:A method for automatic evaluation of machine translation中。

Bleu维基百科:BLEU (Bilingual Evaluation Understudy) is an algorithm for evaluating the quality of text which has been machine-translated from one natural language to another.

简单理解就是评价机器翻译的一个标准算法,但是Bleu也不仅仅局限于机器翻译,在文本摘要等应用也可以有同样的作用。

原理

举个例子:

第一句是法语,需要把它翻译成英语;下面两个Reference句子是标准答案的参考(下面告诉你这个怎么用),最后一句就是机器翻译的句子。(举这个特例例子是也是因为会感受到机器学习评价算法的不断优化过程)

首先从一开始的Precision精确度说起:

Precision:就是看机器翻译的句子里的一个一个单词是不是在Reference中出现过,出现的话分子加1,其中该句子的长度值为分母,其实也就是计算该句子的出现的词在已给答案中出现的概率,这个很明显是7/7=1

但是,很明显这个方法是不合理的,比如在Reference中出现过一次的词就不能再参与计数了。随后,为了提出更加完善的方法,有人提出了modified recision 翻译为“修正的精确度”。

modified recision 还以这个为例:

其中设count为机器翻译的句子的词在本句子中出现的词数,count_clip为该句子中的词在Reference中对应的词出现的词数(如果两个都有,则选取最大的)评分为count_clip / count

现在我匹配 the,其中Reference1的the个数为2大于Reference2的the个数1,则the这个词的就选取值最大的Reference,即count_clip=2。因为这个句子就这一个词,count=7所以,评分为2/7。

上述可以说在unigram上,也就是一个词一个词,现在来说说Bleu在bigram上的计算:

bigram就是两个词作为一个大词(也就是一个串),这里为:

这个也很明显,结果为:

所以评分为:4/6

像这样,我们能推出n-gram的评分值为:

其中Candidate就是机器翻译出来的句子,即候选句子的意思。

很明显,如果一个机器翻译出来的句子和答案一样,那么它的P1,P2,。。。Pn都会为1.0。但是我们一般不会把n设为该句子的长度,根据前辈和论文中经常用到的值,我们得出P4是最合适的。也就是到4-gram就可以了。

但是想想为什么要用到n-gram呢?我觉得是这样的:

P1,也就是用unigram计算句子的词的精确度,用Pn,n>1的ngram来计算句子的流畅度!

现在我们来说另一个问题:

因为我们要把P1-4都要用起来,一起来评价,最好merge到一起,用一个值来表示。但是怎么merge到一起呢?大牛们说了:

merge到一起就该想到万能的一个数:e

对,就是这样(大牛们具体是这么做的):

首先将他们取和在平均(以n=4为例):

然后在乘一个值BP brevity penalty 目的是为了对短句子的惩罚:

大结局:

其中

=1/n, n一般为4

ok,就这样吧。如果有疑问,欢迎提出来,我们一起探讨!!

参考资料:

一种机器翻译的评价准则—Bleu

http://blog.csdn.net/qq_21190081/article/details/53115580

原文发布于微信公众号 - 深度学习自然语言处理(zenRRan)

原文发表时间:2018-03-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

AOGNet:基于深度 AND-OR 语法网络的目标识别方法

这是 PaperDaily 的第28篇文章 本期推荐的论文笔记来自 PaperWeekly 社区用户@duinodu。本文研究的问题是深度学习中的网络工程问题。...

2597
来自专栏机器之心

学界 | FAIR新一代无监督机器翻译:模型更简洁,性能更优

1896
来自专栏ATYUN订阅号

【技术】如果我告诉你数据库索引是可以学习的,你会怎么做?

? 这篇论文是我在NIPS中看到的,在过去的几天里,在ML的圈子里得到了相当多的关注。论文中反复强调:在他们的心里,数据库索引是模型。它们可能不(通常)是有统...

3356
来自专栏机器之心

学界 | 中科大与微软提出Adversarial-NMT:将生成对抗网络用于神经机器翻译

选自arxiv 作者:Lijun Wu, Yingce Xia 等 机器之心编译 参与:吴攀 生成对抗网络(GAN)与神经机器翻译(NMT)是当前人工智能研究的...

3057
来自专栏数据派THU

一文读懂机器学习概率图模型(附示例和学习资源)

来源:机器之心 本文长度为10085字,建议阅读15分钟 本文结合基础应用示例系统性的为你讲解概率图模型。 概率图模型是人工智能领域内一大主要研究方向。近日,数...

1.3K9
来自专栏机器之心

读懂概率图模型:你需要从基本概念和参数估计开始

选自statsbot 作者:Prasoon Goyal 机器之心编译 参与:Panda 概率图模型是人工智能领域内一大主要研究方向。近日,Statsbot 团...

37011
来自专栏机器之心

深度 | 利用进化方法自动生成神经网络:深度进化网络DENSER

3175
来自专栏专知

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

【导读】异构网络可以很好地建模推荐系统中的用户、物品和属性,如何利用异构网络来提取用户、物品的特征,并预测user-iterm rating是一个比较有挑战性...

6727
来自专栏绿巨人专栏

强化学习读书笔记 - 09 - on-policy预测的近似方法

4196
来自专栏量子位

主流的深度学习模型有哪些?

作者:阿萨姆 | 普华永道 数据科学家 量子位 已获授权编辑发布 转载请联系原作者 深度学习大热以后各种模型层出不穷,很多朋友都在问到底什么是DNN、CNN和R...

3664

扫码关注云+社区

领取腾讯云代金券