罗米(Romy Lorenz)是个金发蓝眼的姑娘。
2013年,她考入伦敦帝国理工学院,师从神经科学家里奇(Rob Leech)。两年后,罗米的博士项目几乎过半,但实验却未能取得任何成功。她得想办法让研究回到正轨。
“我们想创造一个实时的神经反馈。”罗米回忆道,“让病人躺在大脑扫描仪里面,根据我们在扫描仪上看到的信息,告诉他们如何改变其大脑不同部位的活动。”
为了实现这个目标,里奇和罗米重新编写《我的世界》(Minecraft)的代码,用来反映玩家的大脑活动。“这是我女儿当时最喜欢的游戏”,里奇说。
2014年10月,罗米让志愿者进入磁共振扫描仪里,然后在像素化风格的游戏世界里四处闲逛。《我的世界》的画面显示在志愿者面前的屏幕上,他们通过两个圆形手柄来控制游戏角色。
这个神经反馈实验使用了一个基本程序,能解码大脑扫描信息,并根据玩家的状态,对游戏中的灯光进行明暗调节。如果玩家没有集中注意力,软件就应该调低亮度,迫使他们集中精力。相反地,当玩家集中精力时,软件又会调高亮度。
罗米的实验希望能够对大脑默认模式网络中的一系列活动进行活跃度控制,这里把大脑皮层的部分部位与更加深层的区域(例如海马体)连接起来。当我们不集中精力时,它会变得最为活跃。
但这个实验却失败了。
“我本来也没有奢望自己的第一个实验能够成功。”罗米说,“但我的博士项目已经过半,最初的课题似乎看不到希望。我发现自己必须搞点创新。”
2015年1月,当罗米和里奇会见她的第二位导师、神经学家阿杜(Aldo Faisal)时,他们开始探讨最佳方案。
“阿杜并非来自功能性磁共振成像(fMRI)领域。”罗米回忆道,“所以在向他解释这些实验如何在fMRI扫描仪内进行,以及都有哪些技术可以控制实时fMRI时,我们突然有了灵感。”
如果彻底改变这项实验,会发生什么情况?
如果不再试图用光照这一个参数来创造反馈回路,而是自动探索许多不同的参数组合来驱动大脑,达到他们想要的任何状态,又会发生什么情况?
然而,这种实验过于复杂,人类很难实时控制。所以,他们不可避免地需要使用人工智能来运行试验。虽然AI已经在许多方面得到应用,但现在的问题是:如何利用人工智能来解决神经科学问题?
“我们希望借助《我的世界》这项实验解决很多不同的新问题。”罗米说,“我们尝试了高度复杂的游戏环境,还努力解码大脑中的不同网络如何展开实时互动。简单来说,我们这一步迈得有点大。”
△ 《我的世界》
她为接下来的实验积累了一条非常明确的经验:从简单入手。
罗米现在需要的是通过一个已经被充分理解的问题来测试自己的想法。她决定从研究最为透彻的大脑区域开始:视觉和听觉皮质。
想要找到只激活听觉皮质而不激活视觉皮质的要素,非常容易,反之亦然——前者可以用空白屏幕配合着口技演员的表演来实现,后者则可以用东京火车站喧闹的视频配合着测试音的嗡嗡声来实现。
但人工智能机器却需要自学这种方式。“实验听起来很无聊,”罗米说,“但如果能够成功,就具有深远的意义。”
人工智能算法必须利用这两种手段来开启和关闭大脑的两个部分:通过调整熙熙攘攘的街景视频播放速度来改变视觉刺激的复杂性;通过语音编码器让一个人的声音更像机器人来改变听觉刺激。
罗米和里奇尝试了深度学习等不同的人工智能算法,但却没有一个能够发挥作用。
2015年3月,在伦敦大学国王学院统计学家乔瓦尼(Giovanni Montana)和他的博士生里卡多(Ricardo Pio Monti)的帮助下,罗米和里奇以贝叶斯优化为基础开发了一套人工智能算法——这是一种以18世纪的长老会牧师托马斯·贝叶斯(Thomas Bayes)的名字命名的方法。
贝叶斯设计了一种系统化的方法:基于对世界运行方式的假设,便可计算出新的元素加入进来后,发生某种变化的概率。
这种方法可以根据之前的知识计算某种假设的合理性。贝叶斯的方法非常适合开发人工智能,它可以主动寻找最佳的答案或实验。
5月,罗米再次让数十名志愿者进入她的fMRI扫描仪。“fMRI的好处是,志愿者躺在扫描仪里,你可以立刻看到实验是否有效。”罗米解释道,“里奇和我屏息静坐。我们都很紧张。”
当第一位志愿者躺进扫描仪时,那台机器先是进行了一些漫无目的的尝试,但突然之间就找到了合适的视频和声音组合。
“我们以为这或许只是运气。”罗米说,“但每一个新的志愿者进来,系统都可以发挥作用。”平均而言,这套人工智能算法都能在6分钟后找到最优的刺激方案。
里奇狂喜不止。
“我们意识到这项技术有多么强大。”他说。他们创造了第一个人工智能科学家。他们决定将其命名为“自动神经科学家”(自动神经科学家)。
尽管科学追求客观,但却不可能完全不受人类偏见的影响。我们或许拥有超凡的模式识别能力,但也经常看到虚假的相关性。
2005年,斯坦福大学教授John Ioannidis发表了一篇惊世骇俗的文章:《为什么多数研究结论都是错误的》(Why Most Published Research Findings Are False),并因此震惊同行。
这篇文章认为,多数科学研究论文的结果都不能独立复现。10年后有报道称,超过半数的心理学研究无法复现。而Ioannidis今年发表的一项研究显示,认知神经科学的情况甚至更糟。
当然,大脑内部盘根错节的运作方式并不容易理解。神经科学家过去几十年一直通过扫描大脑来寻找人类的特定活动会激活哪些回路。但始终没有确切答案。
例如,疼痛回路与突出回路极其相似,前者是在我们感受到疼痛时被激活的大脑部位,后者则是在某个物体或个人在特定背景中十分显眼时激活的大脑区域。另外一个名为颞上沟的区域则负责处理各种不同的任务,包括运动、语言和面部识别。
当然,前提是你相信这些研究。很多发现使用的样本量都很小,统计方式不够完善,分析也存在瑕疵。有的研究还无法复现,即便是采用相同的方法也不例外。即便能够复现,很多相关性也会在样本更多的研究中消失。
2009年就出现过这样一个案例,当时对一条死三文鱼的扫描显示,它的脑活动足以表明它仍在思考。这种现象被命名为“死三文鱼效应”。
科学家终归也是人。“归根到底,我们都是人,无法做到足够的客观。”罗米强调说。毕竟,我们的大脑优化的目标是生存,而不是实验。
当罗米第一次建议用人工智能研究人脑时,里奇立刻其中蕴含的深刻意义震惊了。与人类科学家不同,人工智能的偏见相对较低——它可以复制研究结论。
“我从没想过这么做。”里奇回忆道,“但如果罗米完全按照我说的去做,我们不可能有如今的成就。”
里奇曾经在剑桥大学就读心理学本科,他很钦佩Paul Feyerabend,这位奥地利心理学家认为,如果科学是为了取得进步,“怎么都行”。而使用人工智能来理解人类智能就是“怎么都行”的典型代表。
“我们可以彻底改变常规的科研方式。”里奇说。
在“自动神经科学家”取得成功后,里奇认真考虑了神经科学的各种可能后,给出了乐观的结论:“让贝叶斯优化一切!”
在他们第一次取得实验成功后,罗米和里奇很快意识到,机器人的潜力不仅局限于剖析人脑运作模式,还可以有其他用途。例如,可以用于设计临床测试,或者了解如何通过刺激大脑来改变行为。
他们知道,“自动神经科学家”成功了。现在,他们需要对其提出挑战,挖掘它的潜力。“经过了第一项研究后,我们希望做一些震惊这一领域的事情,同时回答新的问题。”罗米说。
这项挑战来自罗米、里奇和他们的同事亚当(Adam Hampshire)在2015年秋天进行的一次对话。
亚当当时读完了神经科学家欧文(Adrian Owen)和IQ专家John Ducan的博士学位,欧文曾在上世纪90年代末使用大脑扫描仪帮助植物人患者交流,并因此引发强烈反响。
在读博期间,亚当和欧文开发了在线认知测试来监测脑损伤后的恢复情况,并且评估智力药物的效果。我当时是《每日电讯报》的科学编辑,我建议他们对读者进行一次在线测试,了解年龄、性别、生活方式等因素对智力的影响。
欧文和亚当选择了12项认知测试,还评估了从记忆到推理的各项能力。欧文将这些称作智能的支柱。那项用于评估演绎推理能力的测试名为Odd One Out,也就是挑出特殊的那一个:在测试中,被试需要找出一个逻辑上与其它选项不同的形状。
这些智能支柱是为了测试能否通过一个或几个参数来衡量人类的智力。“这种想法可以追溯到1904年,心理学家Charles Spearman当时提出,存在一种通用的心理官能来支撑所有的认知能力,现在称之为‘Spearsman假说’或‘g’。”亚当说。
如果我们可以完全通过“g”来评估人类智能,那么Odd One Out这样的测试就只是衡量同一个参数的不同方式:如果你在其中一个测试中表现优异,在其他测试中同样会表现不错。
等到这项测试2010年上线时,欧文和亚当都去了加拿大的西安大略大学。“由于突然涌入数以千计的访客,网站崩溃了。”亚当回忆道。
四个多月来,全球有11万人参加了这个测试。他们通过筛选一百万多个数据点,得出了一个确切的结论:智能不可以归结为单个因素。“在测量大量认知任务的时候,个体表现上的差异可以至少由三种独立的因素来解释:短期记忆、推理、语言能力。”亚当说。
亚当和欧文觉得,这三种因素有可能分别对应着大脑中三个完全不同的回路,于是,他们继续研究,找了16名被试,在fMRI扫描仪上进行智能支柱测验。
他们的猜想是对的。
“彼此在表现上相关性较弱的任务,在大脑中激活的也是不同的网络。”亚当说。比如演绎推理,似乎与大脑额叶和顶叶里的外侧部相关,而空间工作记忆激活的区域,则深埋在额叶最后一个沟回中。
“基于这些实验,我们提出大脑中的每个网络支撑着一种能力,”亚当说,“从结果来看,这个结论似乎显而易见。”
2012年,亚当和欧文把这一成果发表在神经科学期刊《Neuron》上,在论文开头,他们说:“心理学中,少有像人类智能研究这样古老又充满争议的主题。”这是一个低调的声明。
这项研究引发了一股反对的浪潮。尽管有些认知神经科学家认同他们的工作,但很多心理测量研究者怒火冲天。
心理学期刊《Intelligence》上发表的一篇反对意见说,他们的结果“基于一系列假设和主观决定,往好了说,也就是允许不同解释而已。”一位研究者发twitter说它是“过去10年来最差论文之一”。
批评者说,他们的大规模实验在设计上有漏洞,上万人参加了测试,但这些人真的具有代表性吗?他们为什么不去寻找大脑中已知和“g”相关的效应?他们为什么用循环逻辑,选择那些好像最容易触发大脑不同区域的任务?
抵制风潮过去几个月后,亚当渴望回到英国。他觉得欧文成了一个拿自己的资金和声望到处自吹自擂的神经科学家,做他的下属很憋屈。
2013年6月,也就是罗米开始读博的时候,亚当和里奇在同一幢楼里开设了自己的实验室。然而,他俩直到2015年秋天,才第一次见面。
亚当依然痴迷人脑如何支持智能的不同方面。对2012年那篇《Neuron》论文的批评意见,他是不同意的,但他还是想优化之前的研究,做个改进版。
“受限于所用认知任务的数量和种类,那项研究的范围太局限了。”亚当说。
当亚当听到罗米和里奇描述他们的自动神经科学家时,他意识到,这个东西足以改变游戏规则。
里奇说,他们用AI来进行实验,一次测试一位被试。而亚当听错了,以为里奇要做涉及上千名被试的多参数平行实验。“他把这变成了一种高度概念化的东西,用坚实的统计基础为很多人同时优化。”罗米说。
亚当认为,“这个疯狂的想法有它的优雅之处”,人类认知“是一个难到非人力所能及的问题,所以,我们让机器来解决它。”
2016年6月,罗米在亚当2012年的脑成像研究基础上,试用了自动神经科学家。
她让21名志愿者进行了16项认知测试,然后让机器找出每一项测试激活了大脑中哪些回路。她用到的测试,有一些是《Neuron》2012年那篇论文用过的。
AI只花了几分钟时间,就根据任务对亚当提出的两个大脑网络的激活情况,选出了一些任务。这两个大脑网络,就是我们前文提到的演绎推理和空间工作记忆。
看到这样的结果,亚当又“安心”,又惊讶。
根据现有的研究,他们选择的很多任务应该激活其他回路,结果却证实了2012年论文提出的三个回路中的两个,真是“纯粹,盲目的幸运”。
5月的一个上午,这个团队重复了原来的实验,他们的葡萄牙同事伊内斯(Ines Violante)勇敢地躺在扫描器巨大磁铁中间的洞里。几分钟后,罗米拿了一份图表给我看,上面展示了伊内斯做每个测试时,不同大脑网络的激活情况。
那份图表,看起来就像一幅马克·罗斯科的画,颜色鲜艳。红色,表示两个回路中的活动没有顺利衔接,蓝色,表示他们连接得很好。
在图表的右下角,有一个红色的菱形,表示两个测试利用了两个相互独立的回路:演绎推理和空间工作记忆。里奇笑着说,这很好地复现了之前试用的情况。
亚当、里奇和罗米现在正准备重新做2012年的在线智能测试。“我们想开发一个AI机器,让它具备通过迭代方式学习的能力,从大量的数据中,公正地找出人类智能的主要部件。”亚当说。
测试的数量从2012年的12个,扩充到了60个。他们把这些测试放到网上,人人都能参与。他们预计,完成60项测试任务的会有几千人。
机器学习算法每次会获取100人的信息,然后去修改、挑选这些任务,构成一个集合,其中某一个任务上的表现和其他任务毫无关联。
自动神经科学家会修改测试,从某种意义上讲,设计它自己的实验。
为了向我解释AI在理解大脑这件事上的意义,里奇将它比作猜字游戏:一个人选出单词,另一个要一个字母一个字母地猜出来,这个词究竟是什么。
传统的大脑扫描类似于一次猜整个单词,研究人员事先确定要用扫描仪测量什么,在认知任务中记录这些数据,用各种统计工具来“折磨”这些结果,直到它们承认自己和研究人员预设的理论有某种关联。
AI方法和那个游戏的玩法更接近:拿一个字母来试试,看它合不合适,然后调整假设。
这项研究有着更广泛的影响。里奇相信人工智能可以消除研究中的主观性,从不完美假设出发进行探索,变成了从完善的、不断优化的假设出发,进行探索。
当然,你还是需要有人提出最早的假设,写代码、做设想、定义试验中的自由、写出论文等等。
但机器比人快,比人可靠。
里奇说:“复制,就存在于这种方法的DNA中,它有着广阔的潜力,可以变革整个领域。自动神经科学家可以变成自动的放射科医师、自动心理学家等等。”
△ 罗米
2017年6月13日,罗米获得了她的博士学位,在期刊上发表了12篇论文。
罗米还记得,她在柏林技术大学做研究员,研究脑机交互接口、帮助截瘫患者的时候,在一次学术会议上,忽然意识到她所在的领域没取得什么进展。
她说:“所有这些实验室都获得了不少资金,用来帮助患者去生活,但他们所专注的只是对算法进行很小的改进,我觉得很沮丧。我只有看到能带来真正进步的东西,才能充满激情。”
四年后,她终于找到了可以为止奋斗的领域。
上文提到了一组放在网上,人人都能参与的认知测试,它叫Cognitron,是第一个由人工智能设计的人类心理技能测试,地址是:
http://www.cognitron.co.uk/
登录这个网站,提供一些个人信息,AI就会为你设计30分钟到1小时的测试题,还会告诉你成绩如何。
参与测试的人越多,AI就能越深入地理解人类智能。Cognitron将通过迭代的方式从测试结果中学习,找出人类智能的构成要素。
亚当说,如果有超过2万人参加测试,“AI就能通过学习,绘制出比此前任何研究都详细的人类智能结构图谱。”