新成果，AI能“读懂”病历！AI的智商如何测试？

文章来源：企鹅号 - SELF格致论道讲坛

2月12日零时14分，有关自然语言处理（NLP）技术基于文本型电子病历（EMR）做临床智能诊断的研究成果，在线刊登在知名医学科研期刊《自然医学》上。AI不仅能够“看图”识别影像，还能“识字”即读懂病历中的文本信息。AI或将如医生般“思考”，那么如何测试AI的智商呢？

出品："SELF格致论道讲坛"公众号（ID：SELFtalks）

刘锋《人工智能学家》主编

以下内容为刘锋在中科院SELF讲坛的演讲实录：

人工智能爆发的今天，特别是AlphaGo 战胜了人类，获得了世界冠军，这让大家有些困惑，甚至是恐慌，人工智能会不会超越人类，甚至成为主宰？

关于这个问题众说纷纭，包括霍金、马斯克提出了很多人工智能的威胁论，如果在科学上解决这个问题，需要我们找到一个定量的方法，去分析人工智能与人类智商智力水平的发展。

对于人工智能的测试最著名的是图灵测试，但图灵测试主要是评价一个智能系统能否达到人类的智能水平，并不能够定量分析智能系统与人类智能的关系。从2012年左右，我和科学院的石勇教授、刘颖教授对这个问题进行了持续研究，试图寻找一个新的能够定量分析这个问题的方法。

这是我们在2007年开展研究的项目，判断整个互联网正在向着与人类相似的类大脑结构进化的方向发展，当时我们提出了这个模型。基于这个模型，在2012年的时候，我们最初希望去测试这样一个类大脑系统的智商。但是经过两年的研化，最终从类大脑系统的智能智商评测转化成AI通用的智商评测，这个转化包含了互联网和人工智能关系。

为什么在很长时间里没有关于AI定量的分析？主要面临两个困难，第一是人工智能系统没有目前形成统一的模型，第二就是人工智能系统以人类为代表的生命体之间没有形成统一的模型。

通俗地说，人类和AlphaGo机器人、IBM的Watson系统等很多的智能系统之间没有一个统一的模型，告诉我们在智能这个方面有什么共性的模型，如果没有这样的模型，就没有办法持续深入下去做定量分析，然后评判到底谁优谁劣。

这个也是我们在2012年开始研究的时候，困惑了我们长达两三年。但是我们也大量的研究了前人的分析结果，第一，首先会想到人类的智商和评测，但是我们发现人类的智商和评测不能直接作为AI的智商评测，譬如韦特斯勒的评测方法，主要是常识的评测和动手能力，但是很多智能系统连机械臂没有，没有办法进行评测。但是韦克斯勒的方法给我们一个启发，就是我们的智力不是单一的要素，它有很多子要素组成，比如常识能力、计算能力、动手能力等等。

第二个给我们启发的是AI领域和计算机领域中著名的冯诺依曼架构，它启示我们智能系统应该有智能的输入输出和存储能力；第三，就是知识管理里面比较著名的KIDW模型，它启示我们人类的智慧里面最顶级、最重要的能力是创新能力，而不是我们平时的数据、掌握的信息或者知识掌握多少，创新能力是最重要的。

基于前沿研究，我们团队在2014年发表了第一篇论文，提出了标准的智能模型，认为任何一个智能模型同时具备知识的输入、输出、掌握和创新能力，任何一个智能体是这四个方面的组合，只是能力强弱不同而已。

比如老鹰看的更远，它识别的更清晰。像IBM的Waston系统掌握常识能力很强，这就是为什么跟人类的对抗里面能获胜，AlphaGo 也是这样。在人类特定的规则之下，它掌握了规则战胜人类，这也是一种知识掌握的能力。

更为重要的是创新能力，比如伟大的科学家牛顿看到了苹果落到地上，发现了万有引力；门捷列夫在睡梦中想出元素周期表，这些是人类原生出来的创新知识。这就反映出智能系统在不同的智力方向上强弱不同，我们希望用这一套模型去寻找智慧统一的模型。

如果把智慧模型和著名的冯诺依曼架构做了关联，大家可以看到以红线划出来的方框，给冯诺依曼架构加上创新的发生器，如果加上云端共享知识库，冯诺依曼架构就可以从计算机的模型、AI模型转变成把人类囊括进去的模型。

基于以上的研究，我们在2014年发表的论文里面，也把基于这样标准智能模型四个大的领域，又把它模仿、学习韦克斯勒的结构，把它又拆分成20多个智慧的子系统。上图中，大家可以看到输入和输出，包括图像的识别和输出、声音的识别和输出、文字的识别和输出。

像我们掌握的常识，包括计算的能力、翻译的能力、分类的能力等，这些划分知识的掌握方面。更为重要的，就是知识的创新能力，大家可以看到拆分了也有若干个重要的分类，譬如发现规律、创新创造能力、猜测预测能力，甚至包括能够识别敌我能力、撒谎的能力。

这些能力往往会被我们忽略，我们震惊于AlphaGo 的能力，震惊于IBM Waston系统能力，但是这些创新、创造能力也许是我们人类真正重要的部分，而且还没有完全去囊括，还有一些更深层次的创新能力。然后我们基于专家的打分法——德尔菲法，对整个子元素进行了授予它的权重，形成了可以进行定量测试的方法。

在2014年和2016年分别对像Google系统、Siri系统，还有6岁儿童、12岁少年、18岁的成人进行了测试，形成了上图结果，当时测试的人工智能系统比较多，列出了前十位的名单。

大家可以看到，2016年人工智能增长确实比较快，但是依然离6岁的儿童有相当的距离，还是有区别。测试的过程中告诉大家，虽然它有很快的增长，但是在两年的过程中发现，他们在最重要的知识创新领域，依然进展非常缓慢。

大家也许提问，AlphaGo 的智商怎么评测呢？如果我们把下棋功能放在知识掌握里赋予权重。但是我们发现AlphaGo在其他方面很弱，甚至创始人被称之为AlphaGo的人肉手臂，因为它连下棋的能力没有，还要靠人类帮它下棋。

当然其他的猜测能力、判断能力、区别敌我能力，AlphaGo是不具备的，只是下棋这样一个很窄的局部领域它非常强大。如果对AlphaGo进行综合的智商评测，它的得分非常低。

我们所表达的含义就是，从科学的角度来看，人工智能想威胁到人类，其实非常远。

我们的这项研究在去年10月份也得到世界范围内的关注，像麻省理工科技评论，还有CNBC以及日本、欧洲和中东的媒体，对这项研究给予了报道，但是这项研究依然处于一个起步的阶段，它背后包括大量的科学问题还需要我们探索，希望将来能把最新的进展向大家汇报。

“SELF格致论道”讲坛是中国科学院全力推出的科学文化讲坛，致力于精英思想的跨界传播，由中国科学院计算机网络信息中心和中国科学院科学传播局联合主办，中国科普博览承办。SELF是 Science, Education, Life, Future的缩写，旨在以“格物致知”的精神探讨科技、教育、生活、未来的发展。关注微信公众号SELFtalks获取更多信息。

本文出品自“SELF格致论道讲坛”公众号（SELFtalks），转载请注明公众号出处，未经授权不得转载。

发表于: 2019-02-122019-02-12 10:21:09
原文链接：https://kuaibao.qq.com/s/20190212A09QIA00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

新成果，AI能“读懂”病历！AI的智商如何测试？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐