AAAI 2019 阿凡题发力智能答题，刷新标准测试集准确率

文章来源：企鹅号 - 五泉山下的老和尚

论文题目:Template-Based MathWord Problem Solvers with Recursive Neural Networks (基于答题模板和递归神经网络的数学求解器)

Paper URL: https://drive.google.com/file/d/1jOWwbIzG9Mxmk0pmjmNoZOc8K56n0zMg/view

团队：阿凡题研究院、电子科技大学、新加坡管理大学

作者：王磊，张东祥，张骥鹏，徐行，高联丽，戴冰天，申恒涛

导读：

智能答题一直是衡量机器"智力"水平的重要手段，它要求机器准确理解题目的语义信息，并能够自动进行推理和演算，从而呈现出真正意义的人工智能。跟市面上常见的拍照搜题相比，它的优势在于无需事先构建大型题库来进行题目比对，任凭题型千变万化，它依然可以"聪明"地找到解题方法。作为智能教育领域的引领者，阿凡题研究院持续发力智能答题，构筑自己的技术高地。继AAAI 2018提出基于深度强化学习的自动解题器MathDQN之后，在AAAI 2019提出了一种基于递归神经网络的智能答题算法，在腾讯发布的标准测试集Math23K上大幅度刷新了答题准确率，将腾讯之前保持的58.1%准确率提升至66.9%。

AAAI是人工智能领域的国际顶级会议，早期由计算机科学和人工智能创始人Allen Newell, Marvin Minsky和John McCarthy等人首创，由国际人工智能协会主办，被中国计算机学会(CCF)推荐为A类会议，每年吸引世界各国数千名学者共同探讨人工智能发展前沿。

第33届AAAI人工智能顶级会议(AAA2019)，已于2019年1月27日至2月1日在美国夏威夷举行。据统计，大会共收到7700余篇有效投稿，最终录用1150篇，录取率仅16.2%，为近年最低，阿凡题AI技术实力可见一斑，在国内教育行业处于领先地位。

深度学习模型自动生成答题模板

本文提出一种新型的答题模板，并能够自动通过深度学习模型来生成。如下图所示，一个解应用题的方程可以用后缀表达式来唯一表示，并且我们可以对操作符做进一步封装，从而降低答题模板的分类空间，有利于降低模型训练难度。

为了自动生成答题模板，本文使用双向LSTM被采用作为编码器，单向LSTM作为解码器，目的是更强地捕捉上下文语义信息。除此之外，在解码过程中，阿凡题研究院还引入了注意力机制，来更好地利用题目中的重要信息，从而准确地找到题目对应的答题模板。

首次引入递归神经网络来实现智能解题

在预测出答题模板之后，我们还需根据模板进行推理，从而得到最终完整的表达式。为实现这一目的，阿凡题研究院设计了递归神经网络来自底向上地推断出答题模板中隐藏的操作符。如下图所示，我们通过递归神经网络准确推断出第一个数字和第二个数字之间的操作符"*"，并得到一个内节点的表征向量；利用这个内节点表征向量与第三个数字的表征向量推断出操作符"*"，最后得到完整的求解表达式n1*n2*n3 ；再用数字替换变量符号ni得到2*4*8，最后计算得到答案64。

实验结果刷新标准评测集记录

文章提出的方法在英文数据集MAWPS和腾讯发布的中文数据集Math23K上进行了实验验证，其中MAWPS（剔除掉方程组题目）有2,373个英文题目，Math23K包含23,162个中文题目。

表格给出了各种常见模型在MAWPS和Math23K上准确率的对比。由于测试集中包含没有在训练集中出现过的模板，所以准确率的上界在MAWPS和Math23K上分别是84.8%和87.0%。在seq2seq的方法中，DNS表现得比LSTM和CNN更好。文章重新实现的LSTM在MAWPS上实际上能得到50.1%的准确率。MathDQN利用DQN(Deep Q-Network)来指导构建表达式，由于特征提取器没有专门为中文数学应用题设计对应的处理机制，所以该方法无法直接在Math23K使用。基于分类的方法在Math23K上性能比MAWPS差，由于Math23K里模板数量更多。文章提出T-RNN取得了比现有的生成和分类方法更好的结果，在MAWPS上将最高准确率从62.8%提升到了66.8%，在Math23K上从58.1%提升到了66.9%。除此之外，文章还进一步做了消融分析，验证了等式归一化，双向LSTM，自注意力机制等各中机制的有效性。等式归一化在模板数量更多的Math23K数据集上效果更显著，双向LSTM对数字的特征抓取非常重要，自注意力机制对解题器性能有一定的提升。

关于阿凡题研究院：

阿凡题研究院由国家"千人计划"专家申恒涛担任院长，新加坡国立大学高级研究员张东祥担任副院长。研究院成员多来自耶鲁大学、新加坡国立大学、北京大学、日本九州大学等国际知名学府，且80%以上拥有博士学位，他们将人工智能赋能教育，在拍照搜题、学情诊断、个性化学习、教育信息化和自动阅卷等核心教育场景均取得瞩目的成绩。

经过多年的探索与研究，阿凡题研究院已经完成包含1亿道题目的智能题库的构建工作，并在此基础上构建AI-as-a-Service服务平台，向诸如金太阳书业、全品学堂、华东师范大学出版社、曲一线等行业众多龙头教辅企业提供题目OCR、智能知识点标签和自动批改等功能模块。

发表于: 2019-02-152019-02-15 14:34:44
原文链接：https://kuaibao.qq.com/s/20190215A0M97200?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

AAAI 2019 阿凡题发力智能答题，刷新标准测试集准确率

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐