专栏首页新智元DeepMind新建虚拟认识实验室,像研究人类一样研究AI(代码开源)

DeepMind新建虚拟认识实验室,像研究人类一样研究AI(代码开源)

来源:DeepMind

作者:Joel Leibo,研究科学家

编译:费欣欣

【新智元导读】DeepMind今天的官博发文,介绍他们的新工作Psychlab,这是一个建立在DeepMind Lab之上的平台,旨在构建可控环境,从心理认识的角度,更好地研究和理解AI。具体说,Psychlab有助于让研究人员了解,AI在完成一项复杂任务时,其中涉及的每一种特定行动分别起到了什么作用。

想象一下购物这个简单的任务。如果你忘记去拿名单上的某样物品,这说明了你大脑功能的什么?这可能表示,在搜索列表中的项目时,你无法将注意力从一个对象转移到另一个对象。这也可能表明记住购物清单很难,或者两者皆有。

看上去就是单一的一个任务,实际上取决于多种认知能力。我们在人工智能研究中也面临类似的问题,在这种情况下,任务的复杂性往往会使智能体取得成功所需的单个技能难以分离。但是,了解智能体特定的认知技能,可能有助于改善其整体表现。

在人类身上,为了解决这个问题,心理学家花了近150年的时间来设计严格控制的实验,目的是分离出每个特定的认知能力。例如,他们可能会使用两个单独的测试来分析超市场景——一个是“视觉搜索”测试,需要被测者在一个图案中定位某个特定的形状,这可以用来检测注意力。同时,心理学家可能会要求被测者背诵一份清单,从而测试他们的记忆力。

我们相信,有可能使用类似的实验方法来更好地理解AI的行为。这就是为什么我们开发了Psychlab,Psychlab这个平台建立在DeepMind Lab之上,使我们能够直接运用认知心理学等领域的方法,研究受控环境下智能体的行为。今天,我们也将这个平台开源,供其他人使用。

Psychlab在虚拟的DeepMind Lab环境中,重建了通常用于人类心理学实验的典型设置。例如,让参与者坐在计算机显示器前,使用鼠标来响应屏幕上的任务。同样,我们的环境允许虚拟AI在虚拟计算机监视器上执行任务,使用它的注视方向进行响应。这样,人类和AI都采取相同的测试方法,最大限度地减少了实验差异。这也使结果更容易与认知心理学的现有文献联系起来,并从中获得见解。

随着Psychlab的开源版本的发布,我们构建了一系列在虚拟计算机监视器上运行的经典实验任务,并且具有灵活且易于学习的API,方便其他人能够构建自己的任务。

  • 视觉搜索(Visual search)- 测试搜索项目数组的能力。
  • 持续识别(Continuous recognition)- 为不断增长的物品列表测试内存。
  • 任意视觉运动测试(Arbitrary visuomotor mapping)- 测试对刺激-响应配对的记忆。
  • 变化检测(Change detection)- 测试检测延迟后重新出现的对象数组中有所更改的能力。
  • 视敏度和对比敏感度(Visual acuity and contrast sensitivity)- 测试识别小和低对比度刺激的能力。
  • 玻璃图案检测(Glass pattern detection)- 测试全局形式感知。
  • 随机点运动判别(Random dot motion discrimination)- 测试相干运动的能力。
  • 多对象跟踪(Multiple object tracking)- 测试随着时间的推移跟踪移动对象的能力。

所有这些任务都已被验证,表明人类结果反映了认知心理学文献中的标准结果。

以“视觉搜索”任务为例。在复杂的刺激阵列中定位对象,比如在超市货架上选择一个商品,作为理解人类选择性注意力的方法,已经得到深入的研究。

在Psychlab上演示视觉搜索任务

当要求人类“在水平线段中找出竖直线段”和“在其他颜色的线段中找出粉条的线段”的任务时,人类的反应时间不会根据屏幕上的线段数量的改变而改变。换句话说,他们的反应时间与“数据大小”是相互独立的。然而,当任务改为在不同形状和不同颜色的线段中找出粉色线段时,每增加一个线段,人的反应时间会增加大约50ms。当人类在Psychlab上完成这个任务时,我们也复现了这个结果。

这张图片说明了在Psychlab的视觉搜索任务上人类和人工因素之间反应时间的差异

当我们对一个最先进的AI进行同样的测试时,我们发现它虽然可以执行任务,但并没有显示出与人类相似的反应时间模式。在上述三种情况下,AI都用了相同的时间来应对。在人类的情况下,这些数据表明了并行关注和串联关注的区别。而AI似乎只有并行的机制。识别出人类与我们目前的AI之间的这种差异,能够为我们改善未来AI设计提供途径。

我们设计Psychlab是作为认知心理学、神经科学和AI之间的桥接工具。通过开源,我们希望更广泛的研究团队能够在自己的研究中利用它,并帮助我们进一步发展。

Github地址:

https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/psychlab

论文:https://arxiv.org/pdf/1801.08116.pdf

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-01-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • AI 只会让你工资上涨:谷歌施密特主席话丰年

    【新智元导读】在巴黎举行的 Viva 技术大会上,施密特作为首席讲者发言。他指出:机器学习和人工智能将为广泛的行业(包括农业、能源、时尚和医疗)提供机会,即使它...

    新智元
  • 《时代周刊》2019年度100大最佳发明榜单发布!中国2项上榜

    《时代周刊》最新一期评选出了2019年度100大最佳发明,这100项突破性的发明改变了我们的生活、工作、娱乐和思考方式,它们让世界变得更美好,更智能,或更有趣。

    新智元
  • 【LeCun vs Marcus巅峰论战】AI学习是否需要类似人类的认知结构?

    【新智元导读】人工智能和心理学领域的两位顶尖研究者,纽约大学 Yann LeCun 和 Gary Marcus 就 AI 是否需要类似人类和动物的内置的认知机制...

    新智元
  • HLAminer:根据NGS数据确定HLA分型结果

    PCR-SBT方法是世界卫生组织WHO推崇的HLA 分型的金标准,其实就是指的直接测序,无论是WGS, WES, RNA_seq 数据都可以。近几年来涌现了很多...

    生信修炼手册
  • 水电费都挣不够,为什么阿里还要和小米在智能音箱上死磕?

    作者 | 阿司匹林 今日(3 月 22 日),阿里巴巴人工智能实验室在北京召开发布会,正式推出天猫精灵曲奇版、天猫路由、天猫魔屏 S1(智能投影仪)等多款产品,...

    AI科技大本营
  • 如何写好一份渗透测试报告?

    当你连续奋战了好几天,终于合上了笔记本,想要出去透透风时,一个熟悉的问句传来:“你好,请问什么时候可以交付报告?” 有成千上万的书籍讲解什么是信息安全,什么是渗...

    FB客服
  • MySQL 传统复制中常见故障处理和结构优化案例分析

    虽然MySQL5.7 的主从复制已经很稳定了,但在备库可读写的情况下,总是会出现部分数据不一致的情况,例如常见的1062、1032和1050错误。下面就介绍下这...

    数据和云
  • 【性能系列连载一】开篇:性能测试不可不知的“干货”

    提起性能测试,可能很多互联网从业人员会感觉比较混淆(不仅仅只是测试人员会弄混淆,很多开发人员、管理人员对性能测试也都是一知半解)。性能测试,它是属于测...

    测试开发技术
  • 售前评估的工作量和项目经理评估的有出入,怎么办?

    场景:昨天同事H和我沟通,谈到了项目在开展时存在的问题,聊到公司的工作量评估和考核办法。目前工作量在售前的时候,由售前人员评估后经过部门经理的审阅,和业主客户进...

    公众号php_pachong
  • 2019年度中国测试行业问卷调研 (有奖问卷)

    2018 年底,TesterHome 社区首次发起了测试行业问卷调研,希望通过社区平台发布专属于测试从业者的非机构调研报告,总共有 2000 余人参与。 2...

    WeTest质量开放平台团队

扫码关注云+社区

领取腾讯云代金券