前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI做八年级试卷得90多分,艾伦研究所问答系统已达中学水平

AI做八年级试卷得90多分,艾伦研究所问答系统已达中学水平

作者头像
机器之心
发布2019-09-09 17:15:59
5600
发布2019-09-09 17:15:59
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

参与:杜伟、一鸣

自 2014 年成立以来,艾伦人工智能研究所(AI2)就致力于研究和设计人工智能,并通过构建人工智能系统与推理、学习和阅读能力实现科学突破。研究人员在该所成立后不久即开始研发 Aristo 系统。现在,该系统已经能够阅读、理解初中八年级科学文本并通过初高中水平生物测试题了。

当地时间周三,西雅图艾伦人工智能研究所正式推出新 AI 系统 Aristo,该系统在八年级的科学测试中答对了 90%以上的问题,并在十二年级的测试中答对了 80%以上的问题。

论文链接:https://arxiv.org/pdf/1909.01958.pdf

此外,据纽约时报报道,该系统有可能理解人类语言,模拟人类思维和决策制定行为。

那么,Aristo 系统在测试中能够答对哪些类型的问题呢?

Aristo:可回答美国八年级测试单选题

Aristo 只用于单项选择题测试。该系统参加了适用于纽约学生的标准化考试,但是艾伦研究所删除了所有包含图片和图表的问题,因为回答这类带图表的问题需要具备将语言理解和逻辑与计算机视觉知识结合起来的额外技能。

如下所示,这是一道属于八年级的生物单选题,只需要简单的信息提取即可答对。

问题 1:一组共同发挥作用以执行特定功能的组织被称为:

(a)器官

(b)有机体

(c)系统

(d)细胞

不仅如此,下面一道同属于八年级的单选题考察了一定的逻辑能力,Aristo 系统也能够顺利作答。

问题 2:以下哪种变化最有可能导致某一地区松鼠数量的减少?

(a)捕食者数量的减少

(b)松鼠族群间竞争的减少

(c)可获得食物的增多

(d)森林火灾的增多

如以上问题 2 所示,科学测试并不是简单的学习规则即可以顺利通过的,还需要利用逻辑进行关联性思考。比如,森林火灾的增多可能会烧死松鼠或者减少松鼠生存和繁殖所需的食物链,从而减少松鼠数量。

此外,如上图所示的 4 道选择题出自纽约州高中会考(NY Regents Exam),这类单选题需要常识和科学知识才有可能回答。

因此,由以上问题示例可知,Aristo 系统不仅具备了信息提取能力,还能够借助简单的逻辑思维回答一些稍复杂的问题。

Aristo 系统是怎样建立的?

Aristo 系统主要是基于预训练语言模型 BERT 构建的。研究人员向 BERT 输入了大量的问题和对应的答案,使得 BERT 能够进行学习。Aristo 的具体架构如下:

系统架构

系统一开始是由八个子模块组成的,基本上可以分成三类:

  • 统计和信息提取
  • 推理
  • 大规模语言模型

Aristo 系统的一个模块进行知识推理时的方法。

随着项目的进行,研究人员逐渐将研究精力投入语言模型模块的构建上,但是在系统最终集成时,他们会将八个模块集成为一个系统,使用集成模型进行推断。

在语言模型模块方面,研究人员主要使用了 BERT 作为语言模型。在此,BERT 将单选题视为一个分类任务。首先,研究人员将背景知识和对应的问题利用信息搜索的方法提取出来,并让 BERT 学习每个问题对应的知识。之后,研究人员使用几个数据集中的教学大纲微调模型,包括了一些不属于科学知识领域的内容。最终,研究人员将不同变体的 BERT 模型集成在一起。具体流程如下:

  1. 模型首先学习基本的背景知识。研究人员提取最多 10 个句子作为某个背景知识的代表,根据 BERT 调整了句子最大长度。
  2. 研究人员用中学的教学大纲微调模型。研究人员在 RACE 训练集上进行了模型微调,这是一个英语阅读理解单选测试题,用于中国中学教学中。
  3. 进一步的,研究人员使用了多个科学领域的单选题数据集进行微调,包括纽约中学会考题等。
  4. 研究人员在发展集上进行最终的微调,并根据原始的 BERT 论文进行了超参数搜索。
  5. 研究人员在 BERT-base、BERT-large-uncased、BERT-large-cased 和全词 mask 的 BERT-large-cased 四种模型上进行了如上操作,并最终将这些模型集成起来。当然,他们也尝试了 RoBERTa 模型。

一些中学会考题样本,包括食物链、图片、表格、图表、循环图、地图、流程图等方面的题目。

实验结果

表 3:使用的数据集大小

表 2:Aristo 集成的模型与其他方法的对比。在八年级测试集上,取得了 91.6% 的高分。

AI 发展的里程碑

AI 能回答八年级学生的问题,这有什么厉害的?

据纽约时报报道称,虽然这并不意味着人类已经实现、或者接近实现真正的智能,但 Aristo 依然是一个 AI 发展的里程碑,在商业领域可以启发很多相关的机器问答产品和应用,包括更精准的搜索引擎,或者医院的病历管理系统。

「这会带来很大的商业成果,」前华盛顿大学教授,负责管理艾伦人工智能研究所工作的 Oren Etzioni 说,「我可以很肯定地说,很快就可以看到一批新的科技产品、创业公司和相关大公司下属的分公司(在从事问答方面的研究)了。」

艾伦人工智能研究所 CEO Oren Etzioni

参考链接:

https://www.nytimes.com/2019/09/04/technology/artificial-intelligence-aristo-passed-test.html

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档