转自:AI科技评论
AI 科技评论按:12 月 27 日 AI 科技评论去清华蹭了一个研讨会,主题是「从阿尔法 Go 到通用人工智能:脑科学与人工智能」。
这是清华大学脑与智能实验室自 12 月 15 日成立之后举办的首次学术研讨会。
张钹院士的报告全程英文,但最后用中文做了点睛之笔。
张钹院士在报告中首先分析了什么是智能。他认为智能包含三个成分:perceive、rational thinking 和 taking action。综合来说就是,一个智能体要能够感知它周围的环境,进行思考并采取行动来最大化它实现某些目的的机会。
现在的 AI model 无外乎两种类型:符号模型(Symbolic model)和亚符号模型(Sub-symbolic model)或者称为连接主义(Connectionism)。
符号模型
符号模型的基本思想主要由 J. McCarthy 等人于 1955 年提出。他们认为 AI 的研究基于这样一个猜想,即学习或者任何其他的智能特征原则上都可以被精确地描述。他们提出两个基本假设:
物理符号系统假设:物理符号系统是智能的充分必要条件;
人脑和计算机都是物理符号系统,认知过程就是在符号表示上的运算。
在 1976 年 Newell 和 Simon 提出了一个符号模型。它包含两部分:知识库和推理机(Inference Engine)。这种 AI 主要是知识驱动或者基于规则的模型。
在 McCarthy 等人提出符号模型之后大约 40 年,1997 年 IBM 推出的基于符号模型的 IBM 深蓝(Deep Blue)在国际象棋比赛中以 2 赢 1 败 3 平打败了当时的世界冠军 Kaspanov。在深蓝的系统中,包含了 700,000 份人类大师的棋谱,这些棋谱分别用 V-value 函数来表示,函数有 8000 多个变量。
IBM 沃森的结构
2011 年,IBM 沃森在综艺节目《危险边缘》中打败了最高奖金得主布拉德·鲁特尔和连胜纪录保持者肯·詹宁斯。同样它也是基于知识的符号型 AI 系统,它的知识来源于百科全书、字典 、词典、新闻、文学作品以及维基百科的全部文本,在其 4TB 的磁盘中包含了 2 亿页结构化和非结构化的信息。
以Watson为代表的新一代的基于知识的符号模型系统相对之前有少许变化。其一是知识库中的知识表示变成多样化;其二是多推理机(Multi-Inference Engines)结构;其三是增加了大众知识(来自互联网)。
但是这种知识驱动的符号模型也有其局限之处,如下:
有很多人类行为(知识)并不能精确描述,例如常识;
知识库总是有限的,它不能包含所有的信息;
知识是确定的;
它只能描述特定的领域;
大量知识不能做到定量化(例如质量)。
所以这种模型只能在宏观层面上用来模拟人类的某些行为。
亚符号模型/连接主义
1965 年,在达特茅斯夏季研讨会的提议文件(http://t.cn/RAnjsCF)的问题 2 中说到「怎么安排一组(假设的)神经元来形成概念?……这个问题仍需要更多的理论工作。」
对于神经网络,大致有两个时期。第一个为浅层神经网络(Shallow Neural Network),这个网络只有一层隐藏层。在这种网络中,需要手工特征(Hand-crafted Features)来构建分类器,因此它需要有领域的知识。
另外一种是在 2000-2006 年间,由 Igor Aizenberg 和 Geoff Hinton 完成。这个网络有更多的隐藏层,称为多隐藏层(深度)神经网络。多隐藏层的结构带来了很大的变化。首先是,我们可以用 Raw data 代替手工特征,所以领域知识也就不再是必须的了。以图像为例,我们只需要将图像按照 pixel 的格式输入即可。其次,深度神经网络让亚符号模型的表现有了很大的提高。再次,在 90 年代 AI 研究人员发展了一系列成熟的统计数学工具,这在模型中有很多表现,让模型变得更具可度量和可验证性。另外,这个模型有很清晰的神经科学的解释。
这种 AI 系统主要是基于数据驱动。只要有数据,我们不需要有太多的领域知识就可以在任务中做得很好。基于深度神经网络的例子很多,例如 AlphaGo。
相比于人类的神经网络,它仍有一系列的缺点。如下:
以 2014 年 Goodfellow 发表的《Adversarial examples and adversarial training》为例,输入的图片加上一点点的噪声,AI 系统就将一张明显是熊猫的图片以 99.3% 的置信度识别成长臂猿。所以目前的 AI 系统在 robustness 上还是非常弱的。
这种 AI 系统只是一种分类机器,是一个 AI without Understanding,所以仅仅依靠基于数据驱动的深度学习很难产生真正的智能,也远没有触及智能的核心。若想做到真正的智能,就必须
人工智能的核心
前面说道,深度学习并没有触及到人工智能的核心,那么人工智能的核心是什么呢?张钹院士认为主要表现为以下五个方面:
在缺乏知识和数据的情况下依然能够完成任务;
在信息不完善(甚至缺乏信息)的情况下依然能够完成任务;
能够处理非确定性的任务;
能够处理动态任务;
能够处理多领域和多任务。
AI 研究的新趋势
基于对上面的讨论,可以看出目前 AI 的研究有两种,基于知识的符号模型和基于数据的亚符号模型(连接主义)。张钹院士认为现在在 AI 研究中渐渐出现了一种新的趋势,即建立一种同时基于知识和数据的 AI 系统。
他认为,处理知识是人类所擅长的,而处理数据是计算机所擅长的。如果能够将二者结合起来,一定能够构建出一个比人类更加智能的系统。
如何去做呢?
现在我们有两种基本的 AI 方法。一种是基于语义符号的方法,一般用在处理文本和语言,我们会构建一个语义符号空间(Semantic Symbolic Space)。另一种是基于数据的特性向量的方法,用来处理图像和语音,我们会构建一个特性向量空间(Feature Vector Space)。
因此我们可以构建一个新的空间,叫做语义向量空间(Semantic Vector Space),即将语义符号空间进行 embedding 处理或者将特性向量空间进行 Raising 处理。通过这种方法,我们将可以统一处理 text、language、image 和 speech。
张钹院士认为在这些方面,尤其是在将特性向量空间 raising 到语义空间上,我们应该向神经科学学习。例如脑神经中有 feedback connection、lateral connections、sparse firing、attention mechanism、multi-model、memory 等机制,这些都值得设计 AI 系统的人员去注意和学习。
研究案例
张钹院士介绍了四个案例来说明如何向神经科学学习,以及如何构建同时基于知识和数据的 AI 系统。(公众号后台发送「张钹」,获取四篇案例论文原文)
一、Sparse Firing + HMAX
论文:Sparsity-Regularized HMAX for Visual Recognition
这项工作的一个创新点在于将神经科学中的发现 Sparse firing 和 HMAX 结合在一起。
HMAX 模型是 Riesenhuber, M. & Poggio, T 等人于 1999 年提出,其理念是模仿人的认知,由点到线到面逐级抽象,还原高级特性。HMAX 是计算机视觉中非常重要的一个模型。
Sparse firing 是神经科学中的一个概念。神经科学的研究表明在人的大脑中,针对一个刺激大多数神经元是沉默的。例如依照大脑内细胞的密度、探针大小以及探针可以测量到的信号距离来估计,一根探针应该可以测到周围十个甚至上百个神经元的信号,但实际情况通常只能测到几个神经元信号,90% 以上的神经元是测不到的。这就是说针对一个刺激,只有少数(稀疏)神经元是被激活的。
大脑神经元的这种 sparse firing 激活方式,或者说 sparse coding 方式有许多优点,一方面可以用少量的神经元对大量的特征进行编码,另一方面也能降低解码误判以及能量损耗等等。
这篇文章的工作正是将 Sparse firing 与 HMAX 模型相结合,应用于图像识别任务当中。工作非常有意思,感兴趣的读者不妨一读。
二、视觉识别验证码
论文:A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs ( Science, 26 Oct. 2017)
这篇文章于今年 10 月份发表于《Science》期刊,是人工智能向神经科学学习的一个范例。
目前的机器学习模型在图像识别的任务中往往需要大量的训练数据集,而训练的结果往往只能应用于特定的领域内。但人类的视觉智能则可以通过少数样本(甚至不需要样本)来学习并能够很轻易地迁移到完全不同的情景当中。所以向人类的视觉神经机理学习或许是机器学习模型进一步发展的方向。
在这篇文章中,知名的人工智能创业公司 Vicarious 就通过人类视觉一些工作机理的启发,构建了一个层级模型,他们称之为「递归皮层网络」(Recursive Cortical Network, RCN)。在模型中他们引入了视觉概率生成的模型框架,其中基于消息传送(message-passing)的推断,以统一的方式处理图像的识别、分割和推理(Reasoning)。
这个方法表现出了非常优秀的泛化和遮挡推理(occlusion-reasoning)能力,在困难的场景文字识别任务上远优于深度神经网络,且具有 300 倍的数据效率(data efficient)优势。
其实验结果如下表
在 reCAPTCHA 的验证码单词识别准确率已经可以达到 66.6%,BotDetect 为 64.4%,雅虎上为 57.4%,PayPal 上为 57.1%。
三、DNN 的可解释性
论文:Improving interpretability of deep neural networks with semantic information (2017)
这篇文章是张钹院士组在 CVPR 2017 上的一篇论文,是「Knowledge+data」的一个典型范例。
在传统的图像识别的 DNN 模型中,我们输入图片,得到描述性结果,但是我们却不知道为什么会得到这样的结果,也不知道隐藏层中都是什么 feature,或者当得到一个错误结果时我们不知道为什么会错。
这篇文章的研究主要方法就是先获得一些人类对图片的描述作为语义信息数据;将这些数据和图片同时送入到 DNN 模型中进行训练;这里每一个神经元都会与一个 topic 进行关联,于是整个网络变得具有可解释性。
四、Zero-shot 视频识别
论文:Recognizing an Action Using Its Name: A Knowledge-Based Approach
这篇文章的工作也是一个典型的「Knowledge+data」范例。
现有的动作识别算法需要一组正面的示例来训练每个动作的分类器。但是,我们知道,动作类的数量非常大,用户的查询变化也很大。预先定义所有可能的行动类别是不切实际的。
在本文中作者提出了一种不需要正面示例的方法,通常这种方法被称为「Zero-shot Learning」。目前的零点学习模式通常训练一系列属性分类器,然后根据属性表示识别目标动作。为了确保特定动作类别的最大覆盖范围,基于属性的方法需要大量可靠且准确的属性分类器,这在现实世界中通常是不可用的。
在这篇论文中,作者提出的方法只需要一个行动名称作为输入来识别感兴趣的行为,没有任何预先训练的属性分类器和正面的示例。
给定一个动作名称后,首先根据外部知识(例如 Wikipedia)建立一个类比池,类比池中的每个动作都会与不同层次的目标动作有关。
从外部知识推断的相关性信息可能是嘈杂的。所以他们又提出一种算法,即自适应多模型秩保持映射(Adaptive multi-model rank-preserving mapping model, AMRM)来训练动作识别的分类器,能够自适应地评估类比池中每个图片的相关性。
以上四个例子有两类,一类是向神经科学学习的结果;一类是基于「数据+知识」的结果。(公众号后台发送「张钹」,获取四篇案例论文原文)
张钹院士介绍说他们工作的一个思路就是:数据+知识=统计学习模型。其中知识包括先验模型、逻辑规则、表示学习、强健的统计约束等。
此外他还提到了的 Bayesian Deep Learning 的概念。
最后他认为我们目前的 AI 系统是在介观层面上模仿了人类,我们还需要向神经科学学习和合作。在 AI 系统的研究中应当将知识驱动和数据驱动结合起来,将理性行为和感性行为结合起来。
转自:AI科技评论
领取专属 10元无门槛券
私享最新 技术干货