NLP和数学碰撞后会擦出怎样的火花（二）

AI部落联盟

发布于 2021-06-15 16:37:08

7270

文章被收录于专栏：AI部落联盟AI部落联盟

本文首先对上篇文章中涉及到的各个任务的结果进行介绍，然后对各类规则进行总结，想看结论的小伙伴可以直接翻到Recommendations部分。

Results

上一篇文章介绍了针对模型中的数设计的计算任务和方法，本文是上一篇文章的延续，介绍在先前描述的实验中每个NLP计算任务的关键结果。

Abstract Probes

在计数、数量级比较和排序探测任务中，使用Word Embeddings表示数字时，其效果要远好于使用random embedding表示的数字[1,2]。尤其是DICE、Value和Log Value的embedding 在这些探测任务中非常出色，可能是因为它们明确地编码了数字的大小。通过测试发现，在这些探测任务中最优秀的数字编码器是DigitCNNs以及character-tokenized类的模型。ELMo通常比BERT表现更好。

Arithmetic

GPT-3 [3]在Zero-shot的简单算术方面表现得非常好。不同的tokenization方法可能是导致不能很好的涵盖所有大小数字的原因，因为当数字在 digit/char 级别进行tokenize时，语言模型在算术方面会变得更好。对于算术应用题，最先进的solvers会通过预测一个方程，然后用问题中的特定数值填充该方程[4]，绕过了将数字编码到embedding的步骤。

Masked Language Modeling

有人尝试在使用科学计数法标记数字的语料中对BERT做预训练（Num-BERT[5]），训练中将BERT的loss降到和普通BERT一样的水平，并且能够使新BERT在GLUE任务中达到和普通BERT接近的水平。在因果语言模型中，[6]发现高斯混合模型作为解码器时效果最好，在掩蔽语言模型中，[7]表明在科学记数法中修改尾数可能是一种会造成过度的修改，因为指数的embedding本身就超过了DigitRNN-sci在金融新闻和科学文章数据集上的表现。

Measurement Estimation

[5]训练了一种回归式的探针来测量BERT和NumBERT在使用CLS符号的embeddings预测物体时的表现。举个例子，给定一个模板化的句子比如“狗很重”，模型必须根据重量分布数据集的基本事实来预测一只狗的重量。他们发现NumBERT比BERT能更好的用于数字估计，二者之间的区别仅仅在于各自训练前语料库使用的数字表示法。此外，他们还试验了两个数字解码器：MCC（多类分类）和RGR（回归/对数值嵌入）。当预测定量的分布时，MCC的表现更好——也许是由于与预测的高斯分布相似的ground_truth。最后，即使是像GloVe这样的静态单词embedding也展现出包含足够的测量估计知识来对比两个对象，例如，对汽车是否比球大/重/快进行分类。

Exact Facts

BERT和RoBERTa能够捕捉到部分与数字相关的常识，明显超过了NumerSense[8]的表现，如“三轮车有[MASK]个轮子”，答案选择通常会被限制在数字0-10之间，而且如果使用维基百科提取的数字信息数据集进行微调，可以进一步改进结果。Mishra等人[9]发现常识性问题是他们的Numbergame挑战中最难回答的问题之一，使用NumNetv2模型的时候，该模型通常只会直接回答问题。

Recommendations

基于上述结果，我们现在将一些关键的insights进行总结，以指导之后的研究人员为其任务设计数字表示：

基于字符串的方法的经验法则？

科学记数法优于十进制记数法[5]，因为模型可以学习到主要关注指数嵌入而不是尾数的规则[7]。字符级（char）标记化优于子词（sub-word）级标记[1][11][12]。pool的表征（DigitRNN，DigitCNN）与unpool的表征（NumBERT，GenBERT）缺乏对照实验，导致很难对比出二者之间哪个更优。

基于real-based的方法的经验法则？

对数scale优于线性scale[1][5][7][12]，该原因是很直观的，但缺乏像认知科学委员会所做的那样严谨的研究[14]。关于离散化，Zhang等人[5]表明，在有ground-truth分布的数据集上，binning（密集交叉熵损失）比连续值预测（MAE损失）更有效。最后，众所周知，对大范围的连续预测建模非常困难[1]，但[6]提供了一种通过选择精度级别来划分此类分布的方法。

应该编码还是解码数字？

在上面的讨论中，我们避免讨论了区分编码和解码数字的方法。例如，value-embedding可以用于编码数字（将标量投影到向量空间）以及解码数字（将向量合并成标量）。另一方面，手动设计的编码器（如DICE）不容易转换为解码方法。即使使用reversible的方法，编码器和解码器通常也必须独立参数化，这与通常共享权重的输入和输出字的embedding不同[15]。[13]的原型嵌入是一个例外，它共享固定数字词汇表的输入/输出embedding。

我们可以混合和匹配多种方法吗？

考虑到数字表示的广泛性，下一步显然是尝试embeddings的集合。[7]表明，对于编码数字，指数embedding添加到DigitRNN（科学记数法）的embedding层中几乎和单独的指数嵌入无差别。类似的实数和字符串混合方法的实验还有待研究。

哪些任务使用哪些方法？

根据我们对表1中任务的分类，Abstract任务是Grounded任务的良好早期探索，例如，简单算法上的精调GenBERT[12]有助于它解决下游问题，而DICE[16]在数值计算和幅度上取得的高分是一个促进（数字）语言建模的指标。其他的对于Grounded，real-based的方法适用于近似任务，如测量估计和语言建模[5][7]，但不适用于诸如算术单词问题或常识之类的精确任务。DigitRNNs是一种用途广泛的数字编码器，而像DExp这样的分布建模方法在数字解码方面是有效的。

NLP中统一计算的设想

计算是人类智能的核心系统。虽然NLP社区一直在努力提高语言模型的数字能力，但并非并非算术的所有方面都得到了足够重视，NLP社区远没有实现或试图实现一个整体的计算解决方案。在本节中，我们概述了我们对这样一个统一解决方案的设想，考虑数字NLU所必需的三个前提条件如下：

评估方法

全面解决算术问题的第一步需要一个涵盖不同子任务的基准。像GLUE（Wang et al.，2018）和SuperGLUE（Wang et al.，2019）的排行榜促进了对自然语言理解的研究，分数分为语义、句法、逻辑和背景知识。

可以构建一个类似的排行榜来评估数字推理任务的模型，再次根据评估的技能进行分类，例如，精确与近似粒度，或抽象与粒度的计算能力。Numbergame（Mishra et al.，2020）就是这样一个集合，集中在精确的计算基准上，通过F1和阅读理解设置中的精确匹配分数进行评估。Numbergame和我们自己的任务列表（第2.2节）都是对区分计算能力不同方面的初步尝试。我们鼓励研究人员扩展和完善这样的分类方法。

一套计算任务，配合对其各自数值技能的评估，可以使测试模型从一种技能推广到另一种技能。在这种转移学习设置中已经取得了一些进展，例如，GenBERT（Geva等人，2020）。同样，DICE（Sundararaman et al.，2020）针对计算进行了优化，提高了Numeracy600K数量级预测任务的得分。在未来，我们可能需要几项这样的研究，最好是针对每一对任务，看看一些计算技能是否有助于模型推广到其他任务。

设计原则

数字表示根据归纳偏差和数据驱动方差之间的设计权衡而变化。默认的BERT设置，带有sun-words tokenizer和lookup embeddings，占据了频谱的方差端，允许自由地表示数字。另一方面，value embedding和DICE编码更接近规范的偏差端，因为数字线上连续性的归纳偏差限制了学习空间。为了进行公平的比较，确定偏差-方差度量上任何表示的位置是很重要的。

在认知科学的平行工作之后，社区可以探索精确和近似计算是否需要两个专门的模型，或者是否可以用一个表示法来处理。

模型设计人员还必须在覆盖范围上做出选择：是针对广泛的还是狭窄的数字范围来表示。[5]在固定数量的箱子上，限制了所表达的数字的范围，DICE嵌入也是如此。value-embedding是连续的，理论上不受限制，但实际上必须设置上限。另一方面，基于字符串的表示总是可以回退到子字/字符级标记嵌入，以表示不仅仅是float还有无理数和复杂数。[17]引入了量值表示格式，允许在标量点号旁边有闭合和开放范围。

更广泛的影响

数字在自然语言中无处不在，而且很容易识别，至少在数字形式是如此。但它们绝不是自然语言理解所需要的唯一一类有序概念。成功的数字表示可以启发人们将更多的连续域整合到自然语言处理系统中。例如，诸如good、great、amazing等可分级形容词可以说是在某种基本尺度上，可以使用值嵌入或高斯混合模型来映射[18][19]。

一周中的几天（周一-周日）和一年中的几个月（一月-十二月）形成周期性模式，可以用正弦函数建模[20]。

最后，算术对于自然语言的理解是必不可少的。想想这句话：“程序员的收入是20万美元，而搜索者的收入是10万美元。”一个有计算能力的智能代理会发现10万美元是20万美元的一半，10万美元可能意味着年薪，并推断薪水越高，生活标准就越高。简而言之，通过跨越numbers的连续语义空间，它能够了解程序员和研究人员的两个概念！模型现在可以在没有数字的情况下使用此知识，例如，在“在获得CS学位后的几年里，他买不起一辆车，因为她找了一份[MASK]的工作。”也许用“搜索者”这个词比用“程序员”这个词更合适。向NLP模型传授算术知识的一个关键目标是帮助他们更多地了解世界，使用数字。

参考文献

[1] Eric Wallace, Yizhong Wang, Sujian Li, Sameer Singh, and Matt Gardner. 2019. Do NLP models know numbers? probing numeracy in embeddings. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 5307– 5315, Hong Kong, China. Association for Computational Linguistics.

[2] Aakanksha Naik, Abhilasha Ravichander, Carolyn Rose, and Eduard Hovy. 2019. Exploring numeracy in word embeddings. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3374–3380, Florence, Italy. Association for Computational Linguistics.

[3] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 2020. Language models are few-shot learners.

[4] Arkil Patel, Satwik Bhattamishra, and Navin Goyal. 2021. Are nlp models really able to solve simple math word problems?

[5] Xikun Zhang, Deepak Ramachandran, Ian Tenney, Yanai Elazar, and Dan Roth. 2020. Do language em- beddings capture scales? In Findings of the Associ- ation for Computational Linguistics: EMNLP 2020, pages 4889–4896, Online. Association for Computa- tional Linguistics.

[6] Georgios P. Spithourakis and Sebastian Riedel. 2018. Numeracy for language models: Evaluating and improving their ability to predict numbers. CoRR. abs/1805.08154.

[7]Taylor Berg-Kirkpatrick and Daniel Spokoyny. 2020. An empirical investigation of contextualized number prediction. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Process- ing (EMNLP), pages 4754–4764, Online. Associa- tion for Computational Linguistics.

[8]Bill Yuchen Lin, Seyeon Lee, Rahul Khanna, and Xi- ang Ren. 2020. Birds have four legs?! NumerSense: Probing Numerical Commonsense Knowledge of Pre-Trained Language Models. In Proceedings of the 2020 Conference on Empirical Methods in Nat- ural Language Processing (EMNLP), pages 6862– 6868, Online. Association for Computational Lin- guistics.

[9]Swaroop Mishra, Arindam Mitra, Neeraj Varshney, Bhavdeep Sachdeva, and Chitta Baral. 2020. To- wards question format independent numerical rea- soning: A set of prerequisite tasks

[10]Qiu Ran, Yankai Lin, Peng Li, Jie Zhou, and Zhiyuan Liu. 2019. NumNet: Machine reading comprehen- sion with numerical reasoning. In Proceedings of the 2019 Conference on Empirical Methods in Nat- ural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 2474–2484, Hong Kong, China. Association for Computational Linguistics.

[11]Rodrigo Nogueira, Zhiying Jiang, and Jimmy Li. 2021. Investigating the limitations of the transform- ers with simple arithmetic tasks. arXiv preprint arXiv:2102.13019.

[12]Mor Geva, Ankit Gupta, and Jonathan Berant. 2020. Injecting numerical reasoning skills into language models. In Proceedings of the 58th Annual Meet- ing of the Association for Computational Linguis- tics, pages 946–958, Online. Association for Com- putational Linguistics.

[13]Chengyue Jiang, Zhonglin Nian, Kaihao Guo, Shanbo Chu, Yinggong Zhao, Libin Shen, and Kewei Tu. 2020. Learning numeral embedding. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 2586–2599, Online. Associa- tion for Computational Linguistics.

[14]Lisa Feigenson, Stanislas Dehaene, and Elizabeth Spelke. 2004. Core systems of number. Trends in cognitive sciences, 8(7):307–314.

[15]Ofir Press and Lior Wolf. 2016. Using the output embedding to improve language models. arXiv preprint arXiv:1608.05859.

[16]Dhanasekar Sundararaman, Shijing Si, Vivek Subra- manian, Guoyin Wang, Devamanyu Hazarika, and Lawrence Carin. 2020. Methods for numeracy- preserving word embeddings. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 4742–4753, Online. Association for Computational Linguistics.

[17]Subhro Roy, Tim Vieira, and Dan Roth. 2015. Reason- ing about quantities in natural language. Transac- tions of the Association for Computational Linguis- tics, 3:1–13.

[18]Rebecca Sharp, Mithun Paul, Ajay Nagesh, Dane Bell, and Mihai Surdeanu. 2018. Grounding gradable ad- jectives through crowdsourcing. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. European Language Resources Association (ELRA).

[19]Marie-Catherine de Marneffe, Christopher D. Manning, and Christopher Potts. 2010. “was it good? it was provocative.” learning the meaning of scalar adjec- tives. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pages 167–176, Uppsala, Sweden. Association for Computational Linguistics.

[20]Richard Diehl Martinez, Scott Novotney, Ivan Bulyko, Ariya Rastrow, and Andreas Stolcke. 2020. Contex- tual datetime language model adaptation for speech recognition. West Coast NLP Summit.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-05-14，如有侵权请联系 cloudcommunity@tencent.com 删除

processing