语言模型如何为大象“称”体重？斯坦福提出“尺度探测”新思路

数据派THU

发布于 2021-05-11 15:53:20

4080

发布于 2021-05-11 15:53:20

文章被收录于专栏：数据派THU

来源：AI科技评论
本文约3000字，建议阅读6分钟本文带你了解语言模型如何“称重”。

一头大象有多重，对人类而言，“瞄”一眼可能就知道个大概。这体现的是人类对物体的物理属性的感知能力。

换句话说，这种能力能够让人类将数字属性和物体进行“完美”匹配，例如人类认为一只鸡的重量大概在2~4公斤左右，而不是2~4吨。

那么，自然语言处理中的语言模型有没有这种能力呢？答案是：未知数。

尽管像BERT这样的预训练语言模型在学习各种知识的时候表现非常棒，甚至一些事实性的知识也能够轻松get。但就从文本中捕获物体数字属性这方面而言，在没有明确训练数据的情况下，能否实现还真是个“迷”。

论文链接：https://arxiv.org/pdf/2010.05345.pdf

斯坦福AI Lab最近在一篇论文中对几种预训练模型进行了测试，结果表明：虽然模型能够捕获大量的数字属性信息，但是现实结果和理论预期存在很大的差别。只有在那些上下文相关性特别强的文本中，才能够通过数字推理更好的捕获物体的尺度特征。

除了评估模型之外，斯坦福AI lab的研究员们还提出了一个新版本的BERT模型，称为NumBERT。新版模型能够通过用科学符号代替预训练文本语料库中的数字，使其更容易将“量级” 、 “规模”这样的概念暴露给模型。

也就是说在文本“一只大象一般有3-7吨重”中，NumBERT能够更容易将“3~7吨”和大象的重量进行匹配。

为了让NumBERT实现上述功能，研究员们做了以下工作：

1.提出了一个称为“尺度探测 ”的任务；

2.思考了什么样的表征更擅长捕获尺度信息；

3.将语言模型训练数据中的数字实例改用科学符号表示。

1、尺度探测（Scalar Probing）

为了理解预训练文本表征（如BERT模型的表征）在多大程度上捕获了尺度信息，研究员提出了一个称为尺度探测的任务：即对预测目标的尺度属性值分布的能力进行探测。在这项工作中，重点聚焦三种尺度属性：重量、长度和价格。

下图是尺度探测任务的基本架构：

在本例中，研究员检验通过预训练的编码器提取的“狗”的表征是否可以用于通过线性模型预测/恢复狗的重量分布。对三种语言表征的基准模型进行了探测：Word2vec、 ELMo和BERT模型。

由于后两种都是对句子而非单词进行操作的上下文表示，因此输入的是使用固定模板构建的句子。例如，对于重量这一属性，使用模板“the X is heavy”，其中X代表目标对象。

研究员探讨了预测点估计值的探测类型和预测完全分布的探测类型。对于点估计预测，研究员使用标准线性回归方法（表示为“rgr”）进行训练，以预测所考虑的每个对象的尺度属性的所有值的中位数的对数。预测对数是因为研究员关心的只是尺度的大概范围，而不是确切的值。

然后，研究员利用预测值和实测分布的中值对数计算损失。对于完全分布预测，研究员使用线性softmax多分类器（表示为“mcc”）在12个数量级上生成分类分布。使用NumBERT表示法预测的分类分布在上面的示例中用橙色直方图显示。

研究员使用的实测分布来自数量分布（DoQ）数据集，该数据集是由与超过35万个名词、形容词和动词相关的10个不同属性的尺度属性值的经验计数值组成，从大型网络文本语料库中自动提取。

请注意，在构建数据集的过程中，某个属性的所有单位首先统一为标准单位（例如厘米/米/千米统一为米），并相应地缩放数值。将收集到的DoQ数据集中每个目标-属性对的计数值转换为12个数量级的分类分布。在上面的狗的重量示例中，实测分布用灰色直方图表示，集中在10-100kg左右。

在处理的全部目标-属性对中，模型的预测性能越好，预训练的表示形式对相应的尺度信息编码效果越好。

2、NumBERT模型

在查看这些不同语言表征模型的尺度探测结果之前，研究员先考虑一下什么样的表征更擅长捕获尺度信息，以及如何改进现有的语言模型以更好地捕获尺度信息。全部的模型都是使用维基百科、新闻等大型在线文本语料库进行训练。模型的表征如何从所有这些文本中提取尺度信息？这是在谷歌上搜索“大象重量”时得到的第一个文档中的一段文字： “……非洲象的体重从5000磅到超过14000磅不等（6350公斤）…” 因此，尺度值的学习很可能是将尺度信息从数字（这里是“5000”，“14000”等）迁移到名词（这里是“大象”）来部分实现。即理解推理数字的能力可能对表示尺度非常重要！

然而，先前的一篇论文“Do NLP Models Know Numbers? Probing Numeracy in Embeddings”已经表明，现有的预训练文本表征模型，包括BERT、ELMo和Word2Vec，不擅长数字推理。例如，超过~500的数量级，上述模型甚至无法从词嵌入中解码数字。因此，研究员建议将语言模型训练数据中的数字实例改用科学符号表示，并重新训练BERT模型（也就是NumBERT），来提高这些表征的数值推理能力。这使得该模型轻而易举地将句子中的对象直接与指数表示的数量级相关联，而忽略相对不重要的尾数。

3、结果

尺度探测结果：

上表显示了对DoQ数据进行尺度探测的结果。研究员使用了三个评估指标：准确率、均方误差（MSE）和地动距离（EMD，Earth Mover’s distance），并在四个领域进行了实验：长度、质量、价格和动物质量（质量的子集）。当MSE和EMD为0时，模型表现最好。而研究员通过从实测分布中采样并针对该模式进行评估来计算准确率的宽泛上限：长度准确率的上限为0.570，质量准确率的上限为0.537，价格准确率的上限为0.476。

对于聚合基准的每个属性，研究员采取的方法是：计算训练集中所有对象在存储器的经验分布，并将其用作测试集中所有对象的预测分布。与该基准相比，可以看到对最佳文本表示形式的mcc探测捕获到上述上限距离的大约一半（以准确性衡量）至三分之一（以MSE和EMD衡量），这表明虽然有大量可用的尺度信息，要实现可靠地的常识推理仍任重道远。

具体来讲，考察地动距离（EMD）标准，NumBERT的表现始终优于其他模型。另外，任务不是上下文相关的时候，Word2Vec的表现明显比基于上下文表征的模型差。尽管ELMo模型在字母和单词相关的NLP任务上比BERT模型弱，但在尺度探测方面却表现得更好，这与其具有字符级的标记所以在算数方面更好的结果相一致。

注：EMD是最稳健的度量标准，因为它具有更好的收敛性和对数据分布的对抗性扰动的鲁棒性。

Zero-shot transfer

研究员注意到DoQ是从在线文本（web text）中启发式导出的，并且包含噪声。因此，研究员评估了包含尺度属性的真值标签的两个数据集：VerbPhysics和Amazon Price数据集。第一个是人类标记的相对比较数据集，例如人、狐狸、体重、巨大），采取的评估方法是通过比较rgr的点估计值和mcc的最高得分存储数据。第二个是亚马逊上产品价格分布的数据集。研究员对DoQ价格进行了重新训练，以支持更细粒度的预测。

结果如上表所示。在VerbPhysics数据集上，尽管缺少用于此任务的专用模型，rgr + NumBERT的性能最佳（参见表2），接近使用DoQ作为权威基准的性能。用mcc训练的尺度探测性能较差，这可能是因为细粒度的预测分布模型无法用于三类比较任务。在完整分布预测任务的Amazon Price数据集上，mcc + NumBERT在两项分布指标上均表现最佳（参见表3）。在两种Zero-shot transfer任务中，NumBERT表征表现最佳，这表明在预训练语料库中控制文本的数字表征可以显著提高规模预测的性能。

4、总结

为了更好让模型感知物体的尺度属性，斯坦福的研究员引入了一个称为尺度探测的新任务，用于测量预训练的文本表示捕获了多少目标的数字属性信息，并发现虽然在目标表示中有大量的尺度信息（理论上限的一半到三分之一），这些模型远未达到常识理解水平。

研究员还提出了改进版的BERT模型，称为NumBERT，其比以前的表征都能更好地捕获尺度信息。

尺度探测开辟了崭新的令人振奋的研究方向。例如，很多工作都预先训练了大规模的视觉和语言模型，比如ViLBERT 和 CLIP。探究其表征以查看捕获了多少尺度信息，将其和纯语言模型学习的表征之间进行系统地比较可能趣味横生。

此外，学习文本表征的模型可以更好地预测尺度，这对现实世界影响深远。考虑如下网络查询：

“世界上最高的建筑究竟多高？”

有了对“建筑”合理高度范围的常识性理解，当检索或解析出现差错时，研究员可以在当前的网络问答系统中发现错误，例如维基百科中关于建筑物高度的语句被错误地解析为19英里高，事实上应该是19米高。

原文链接：

https://ai.stanford.edu/blog/scalar-probing/

编辑：于腾凯

校对：林亦霖

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-05-08，如有侵权请联系 cloudcommunity@tencent.com 删除

NLP 服务

本文分享自数据派THU 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

NLP 服务

登录后参与评论

0 条评论

热度