专栏首页机器之心AI做八年级试卷得90多分,艾伦研究所问答系统已达中学水平

AI做八年级试卷得90多分,艾伦研究所问答系统已达中学水平

机器之心报道

参与:杜伟、一鸣

自 2014 年成立以来,艾伦人工智能研究所(AI2)就致力于研究和设计人工智能,并通过构建人工智能系统与推理、学习和阅读能力实现科学突破。研究人员在该所成立后不久即开始研发 Aristo 系统。现在,该系统已经能够阅读、理解初中八年级科学文本并通过初高中水平生物测试题了。

当地时间周三,西雅图艾伦人工智能研究所正式推出新 AI 系统 Aristo,该系统在八年级的科学测试中答对了 90%以上的问题,并在十二年级的测试中答对了 80%以上的问题。

论文链接:https://arxiv.org/pdf/1909.01958.pdf

此外,据纽约时报报道,该系统有可能理解人类语言,模拟人类思维和决策制定行为。

那么,Aristo 系统在测试中能够答对哪些类型的问题呢?

Aristo:可回答美国八年级测试单选题

Aristo 只用于单项选择题测试。该系统参加了适用于纽约学生的标准化考试,但是艾伦研究所删除了所有包含图片和图表的问题,因为回答这类带图表的问题需要具备将语言理解和逻辑与计算机视觉知识结合起来的额外技能。

如下所示,这是一道属于八年级的生物单选题,只需要简单的信息提取即可答对。

问题 1:一组共同发挥作用以执行特定功能的组织被称为:

(a)器官

(b)有机体

(c)系统

(d)细胞

不仅如此,下面一道同属于八年级的单选题考察了一定的逻辑能力,Aristo 系统也能够顺利作答。

问题 2:以下哪种变化最有可能导致某一地区松鼠数量的减少?

(a)捕食者数量的减少

(b)松鼠族群间竞争的减少

(c)可获得食物的增多

(d)森林火灾的增多

如以上问题 2 所示,科学测试并不是简单的学习规则即可以顺利通过的,还需要利用逻辑进行关联性思考。比如,森林火灾的增多可能会烧死松鼠或者减少松鼠生存和繁殖所需的食物链,从而减少松鼠数量。

此外,如上图所示的 4 道选择题出自纽约州高中会考(NY Regents Exam),这类单选题需要常识和科学知识才有可能回答。

因此,由以上问题示例可知,Aristo 系统不仅具备了信息提取能力,还能够借助简单的逻辑思维回答一些稍复杂的问题。

Aristo 系统是怎样建立的?

Aristo 系统主要是基于预训练语言模型 BERT 构建的。研究人员向 BERT 输入了大量的问题和对应的答案,使得 BERT 能够进行学习。Aristo 的具体架构如下:

系统架构

系统一开始是由八个子模块组成的,基本上可以分成三类:

  • 统计和信息提取
  • 推理
  • 大规模语言模型

Aristo 系统的一个模块进行知识推理时的方法。

随着项目的进行,研究人员逐渐将研究精力投入语言模型模块的构建上,但是在系统最终集成时,他们会将八个模块集成为一个系统,使用集成模型进行推断。

在语言模型模块方面,研究人员主要使用了 BERT 作为语言模型。在此,BERT 将单选题视为一个分类任务。首先,研究人员将背景知识和对应的问题利用信息搜索的方法提取出来,并让 BERT 学习每个问题对应的知识。之后,研究人员使用几个数据集中的教学大纲微调模型,包括了一些不属于科学知识领域的内容。最终,研究人员将不同变体的 BERT 模型集成在一起。具体流程如下:

  1. 模型首先学习基本的背景知识。研究人员提取最多 10 个句子作为某个背景知识的代表,根据 BERT 调整了句子最大长度。
  2. 研究人员用中学的教学大纲微调模型。研究人员在 RACE 训练集上进行了模型微调,这是一个英语阅读理解单选测试题,用于中国中学教学中。
  3. 进一步的,研究人员使用了多个科学领域的单选题数据集进行微调,包括纽约中学会考题等。
  4. 研究人员在发展集上进行最终的微调,并根据原始的 BERT 论文进行了超参数搜索。
  5. 研究人员在 BERT-base、BERT-large-uncased、BERT-large-cased 和全词 mask 的 BERT-large-cased 四种模型上进行了如上操作,并最终将这些模型集成起来。当然,他们也尝试了 RoBERTa 模型。

一些中学会考题样本,包括食物链、图片、表格、图表、循环图、地图、流程图等方面的题目。

实验结果

表 3:使用的数据集大小

表 2:Aristo 集成的模型与其他方法的对比。在八年级测试集上,取得了 91.6% 的高分。

AI 发展的里程碑

AI 能回答八年级学生的问题,这有什么厉害的?

据纽约时报报道称,虽然这并不意味着人类已经实现、或者接近实现真正的智能,但 Aristo 依然是一个 AI 发展的里程碑,在商业领域可以启发很多相关的机器问答产品和应用,包括更精准的搜索引擎,或者医院的病历管理系统。

「这会带来很大的商业成果,」前华盛顿大学教授,负责管理艾伦人工智能研究所工作的 Oren Etzioni 说,「我可以很肯定地说,很快就可以看到一批新的科技产品、创业公司和相关大公司下属的分公司(在从事问答方面的研究)了。」

艾伦人工智能研究所 CEO Oren Etzioni

参考链接:

https://www.nytimes.com/2019/09/04/technology/artificial-intelligence-aristo-passed-test.html

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据处理遇到麻烦不要慌,5个优雅的Numpy函数助你走出困境

    Numpy 允许我们根据给定的新形状重塑矩阵,新形状应该和原形状兼容。有意思的是,我们可以将新形状中的一个参数赋值为-1。这仅仅表明它是一个未知的维度,我们希望...

    机器之心
  • 资源 | 清华大学开源神经机器翻译工具包THUMT

    选自arXiv 参与:李泽南 机器翻译是自然语言处理的重要组成部分,其目的是使用计算机自动将文本翻译成其他语言的形式。近年来,端到端的神经机器翻译发展迅速,已经...

    机器之心
  • 更偏好白人男性?Science新研究证明人工智能也能学会偏见

    选自Science 机器之心编译 参与:吴攀、晏奇 至少从口号上来说,我们一直在追求「人人平等」,但我们也都清楚我们离这一目标还相去甚远,部分原因是因为世界并不...

    机器之心
  • Macro-csv2sas(可控制变量Length)

    %macro csv_csv2sas(path=,csvname=,colmax=%str(10000),outds=,encoding=gb2312,varr...

    Setup
  • 最流行的渗透测试工具,你用过哪些

    黑客可以使用用户的IP地址来跟踪和窥探他们的数据。它也被称为“IPScan”,即通过IP地址和端口扫描来查找用户系统开发端口服务。它是一款开源的跨平台软件,是目...

    周俊辉
  • OPNFV XCI:跨社区集成实现开放创新

    Linux基金会下的OPNFV项目是通过集成,部署和测试促进各种开源生态系统网络功能虚拟化(NFV)组件的开发和演进的开源项目,该项目目前宣布了其跨社区持续集成...

    SDNLAB
  • 【MyBatis-4】MyBatis之动态SQL

    这条语句提供了一种可选的查找文本功能。如果没有传入“title”,那么所有处于“ACTIVE”状态的BLOG都会返回;反之若传入了“title”,那么就会对“t...

    云深i不知处
  • Mybatis_总结_03_用_动态SQL

    MyBatis 的强大特性之一便是它的动态 SQL。如果你有使用 JDBC 或其它类似框架的经验,你就能体会到根据不同条件拼接 SQL 语句的痛苦。例如拼接时要...

    shirayner
  • R语言meta分析(3)亚组分析

    原始研究中常常采用亚组分析的形式探索入组患者潜在的差异。事实上,亚组分析也广泛应用于meta分析中,是meta分析中处理异质性的常用方法之一。亚组分析通常从临床...

    用户1359560
  • python pyqt5使用资源文件

    将图片资源编译为py文件 例如存在图片 a.png 和 b.png 都位于 ./img/ 路径下面,在 ./ 下新建一个文件 img_rcc.qrc 文件,输...

    用户5760343

扫码关注云+社区

领取腾讯云代金券