nlp中的生成问题大致可以涵盖以下一些部分:
本质而言,他就是要对一段机器生成的文本来评估其生成质量的好坏。
有关这部分内容,他又可以分为有监督的和无监督的,前者已经有了一些参考的生成结果可以比对,后者完全没有任何参考文本,只能通过文本本身来评估生成质量。
其中有监督的部分我们还可以将其进一步细分,传统的评估方式大都是通过纯字符匹配的方式来对生成文本与参考文本进行比对,比如bleu,rouge等,其优点在于速度快,但是缺点在于无法真正理解语意,因此与真实的质量评估上总是存在一个不小的gap。
基于此,后来就衍生出了使用模型本身来对文本质量进行评估的评估模型,比如bleurt,他们在文本评估方面会更为准确,但是需要大量的训练数据,而且运行起来速度会比较慢。
综上所述,我们可以将其概括为如下:
下面,我们来逐次对其进行考察。
ppl的全称为perplexity,他表示一句话中每一个词出现的概率倒数的均方平均,用公式表达如下:
因此,由定义我们就可以看到:
但是,由于n-gram的概率计算复杂度太高,通常而言,我们都会使用马尔可夫假设,即当前输出词汇只与上一个词汇相关,这样就可以大大地简化问题。
但是,同样,这样带来的问题就是,ppl指标只能表征词汇的通顺度,但是在语义上是无法做出什么保证的。
例如:
上面这句话的ppl值大概率就会很小,但是语义上确实完全不合理的。
bleu全称bilingual evaluation understudy,它以及后续的rouge指标是最常用的评价有监督生成问题(比如翻译、内容概括、内容生成等)的自动化统计指标。
他们的核心思想都在于比较生成文本与参考文本间的字符串重合度。
下面,我们首先给出bleu指标的计算公式,
我们来具体考察一下各个指标的计算。
现在,我们来考察n-gram的字符匹配精度计算公式。
他的核心思想是:
同样的,我们首先给出定义公式,而后结合定义公式进行考察。
我们给出一个例子来进行具体的计算说明如下:
rouge指标与bleu指标极其相似,但是,相较于bleu关注于生成的精度,rouge更看重生成的召回。
他的核心思想是:
除此之外,rouge没有句长惩罚因子,他的公式可以直接表达为如下形式:
根据n的取值不同,rouge可以分为rouge-1, rouge-2等等。
另外还有常用的rouge指标还有rouge-l,他是rouge-n的一种变体:
用公式表达如下:
同样的,我们使用上文中的例子来进行计算说明:
则有:
bleurt来源于文献:BLEURT: Learning Robust Metrics for Text Generation
他的思想事实上也是比较简单的:
通过这种方式,上述文献中的文本质量评价结果足以碾压bleu以及rouge指标,直逼人类的真实评估水平。
但是,同样的,就如所有的机器学习模型一样,这种方式强烈依赖于训练数据,且评估成本很大,耗时很长,因此目前还没有看到业内有大量的使用迹象。