夜话人工智能

黄成甲

发布于 2018-10-10 11:10:51

7770

发布于 2018-10-10 11:10:51

文章被收录于专栏：黄成甲黄成甲

人工智能是一门非常复杂、庞大的科学，其中的机器学习、深度学习等细分学科是当下的研究热点。从1956年至今，无数科学家历经艰辛与坎坷，终于让人工智能迈出了属于全人类的一大步。从科学的角度来说，当今的人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法技术应用系统的一门科学。这门学科的研究范围包括语言识别、图像识别、专家系统和我们最熟悉的机器人等。

文/黄成甲

对于这门复杂的学科，接下来我就分三个重点，来讲讲人工智能的主要内容。

第一，无尺度网络；

第二，应用大数据的统计学；

第三，深度学习；

无尺度网络

在过去，人们认为网络都是随机形成的，把这些网络都叫做随机网络。比如说一场酒会有100个人，他们一开始互不认识，是孤立的100个节点，但是当酒会结束的时候，这100人已经形成了一个复杂网络。每个人都认识几个人，但是从进门到出门，每个人都不知道自己会认识谁，会认识几个人，所有节点之间的链接都是不确定的。这就是一个随机网络的形成过程。作者指出，这种随机网络的形成速度可以非常快，门槛也非常低。在这个例子里，只要每个人认识至少一个人，不出半小时，这100个人就能全部链接起来。

在现实生活中，我们每个人都认识不止一个人，所以我们之间的链接就更加紧密了。由此产生了一个非常著名的理论，叫做六度分割。你和这世界上任何一个人之间，最多通过6个人就能搭上关系。即便你想认识美国总统也是如此。用随机网络来解释，如果每个人认识100个人，那么通过6个中间人，我能搭上关系的人理论上有多少呢？1万亿人，是地球人口的140倍。这就是随机网络的力量。可以说，链接无处不在。你从任何一个网页出发，平均只需要19次点击，就能跳转到另外任何一个网页。自然界里也是一样，在食物链网络中，任何两个物种之间的平均间隔只有2个物种。因此六度分割和类似的现象，在生活中确实非常常见。

在酒会的随机网络中，一定存在着“酒会明星”这样的“枢纽节点”和无尺度网络模型。什么是枢纽节点？就是在一个网络中比其他节点拥有更多链接的节点，在人类社会中，枢纽节点就是那些社交面非常广、朋友非常多的人。

现实生活中的网络不是像随机网络那样均匀分布的：比如一场酒会下来，有的人新认识了百八十人，有的人只认识了两三个人。再比如有些善于交际的人，微信好友有几千人，有些爷爷奶奶的微信好友只有家里的几口人。一个网络的结构，主要是枢纽节点在支配和起作用。我们人类社会是怎么保持紧密链接的呢？靠的是枢纽节点联系起不同的社交圈子。“社交圈”指的是一群人关系非常紧密，在整个社交网络中就是一个“小世界”，每个小世界都有枢纽节点，也就是社交达人。除了圈子里的人，他们还认识很多圈外的人。这样圈内人通过他们就间接认识了很多圈外人，从而划分出强关系和弱关系。同一个圈子里人，他们的关系非常紧密，就是强关系。而从枢纽节点向其他圈子伸出去的橄榄枝，就是弱关系。整个社交网络就像切开的几大块藕，每个社交圈都是一块藕，每一块藕的内部都是强关系，而藕块之间连着的丝就是弱关系。

在这样一个网络里，节点之间的重要性差别巨大，服从二八定律，也就是20%的成员占据了80%的资源。如果一个网络的所有节点的重要性都服从二八定律，有少量的枢纽节点非常重要，大量的节点没有那么重要，我们就叫它无尺度网络。所谓无尺度，指的是我们没法用同样的尺度、同一个标准去衡量这些节点。

无尺度网络颠覆了人们长期以来对复杂网络的认识。过去人们以为复杂网络都是随机网络，忽视了枢纽节点的巨大力量。事实上，所有网络中都必然存在这种两级分化，均匀的、完全随机的节点分布式不存在的。从随机网络到无尺度网络，我们看到人们对复杂网络的认识加深了一步，如果说随机网络是无序的、杂乱无章的，那么无尺度网络就是无序和有序并存的。表面上看，每个节点都散乱地链接着其他节点，但是一旦抓住枢纽节点，整个网络的结构就变得清晰起来，无序之中浮现出了有序。

复杂网络就是从随机网络到无尺度网络。复杂性蕴含于万物之间的链接，我们看到在网络中，表面的无序和深层的有序共存。网络普遍具有先发优势、适者生存、健壮和脆弱并存的特点，枢纽节点和层级结构在各种网络中广泛地存在。而这些复杂网络的规律，正是我们今天高效利用大数据，进而发展人工智能的一把钥匙。

无尺度网络

应用大数据的统计学

大数据是2008年被提出的。我们反过头来看看人工智能的发展历程。你有没有想过，人工智能其实在60年前就有了，为啥偏偏这几年才爆发？特别是乔布斯让智能手机普及之后，各种各样的智能应用、智能硬件开始雨后春笋般地往外冒，什么智能机器人、智能汽车、智能家居、难道大家是受了乔布斯的启发才开始专注智能领域吗？其实不是。真正的原因是，我们现在这个时期恰巧是大数据量变产生质变的转折点，而这种质变给一直困扰人工智能发展的难题提供了解决方案。就是说，原来研究人工智能的那一套方法其实都是错的，现在大家才发现，让机器拥有智能的钥匙其实是大数据。

什么是大数据？你可能觉得大数据就是一堆数字，或是必须要由数字构成，其实不是，数据的范畴要比这个大得多。网上的所有东西都可以算作数据，比如文字、图片、视频、你发出去的信息、你收到的邮件，甚至包括你的日常活动，比如下班走哪条路回家、去了哪个餐厅吃饭，所有这些都可算作数据。有了数据之后，再经过系统性地整理，就变成了信息，信息再经过更简洁抽象地加工，就变成了知识。举个例子，比如通过测量星球之间的相对位置和时间，就得到了数据，通过数据能得到星球的运动轨迹，就是信息，通过信息总结出开普勒三定律，就是知识。所以，数据、信息、知识是层级递升的关系，一层比一层高。我们人类就是不断通过使用知识改变世界的，这里数据就是一切知识的基础。

现在我们收集到的数据有3个特征：首先是体量大。这个大家都能感受到，我们地球上有70亿人，每天生产的数据现在大多数都会被原原本本的保留下来，这还不算人类以前生产的知识资料，而且每时每刻人们都在生产新的东西。这是多大的体量啊。拿中国联通来说，每秒记录用户上网条数近百万条，一个月大概是300TB，国家电网中心目前累计收集了2PB的数据。

当然，光是体积大不能算是大数据，它还有一个特征，就是多维度。如果你在手机上下载了百度的应用，这个应用必须让你填写手机号，你为了使用这个软件就填了，这时百度立马知道你喜欢吃啥。这是怎么回事呢？很简单呀，通过手机号能调出你的搜索习惯、你的通讯信息，然后你的性别、年龄、位置、文化背景......这些一连串的信息都会被调出来，然后根据大样本统计，你平时关注什么东西、你的生活习惯都会清清楚楚的展现出来，如果深挖下去，你的收入情况甚至有什么特殊癖好百度都能知道，知道这些信息后，你喜欢吃什么他们很容易就能推测出来，当然他们是不会公布这些信息的。

大数据还有一个特征是完备性。比如，以前你如果想收集地球上所有人的面孔信息是不可能的，但是现在理论上就有可能，只要人们都用智能手机，你就能想办法获得所有人的数据，这就是数据的完备性。再比如，像谷歌的无人驾驶汽车，你以为它是通过对周围物体的扫描做出即时反应的吗？哪有那么快的计算机，至少现在还不是用这种方法，它其实是提前把道路上所有可能遇见的情况全部预先输进电脑里，然后根据扫描情况快速匹配识别，最后才能做出各种各样的反应。它是一个配对比较加筛选的过程。这里面就得考虑数据的完备性，有了足够全面的数据，才能做出更精准的选择。就像你在网站上搜索东西，网上有的东西你才能搜得到，如果没有你就搜不到，所以谷歌无人驾驶汽车只能去熟悉的地方，不熟悉的地方它是去不了的。

了解了数据的这些特点后我们发现，智能问题实际上就转变成了如何处理数据的问题。以前研究人工智能的方法叫做“鸟飞派”，就是开始设计飞机的恩都觉得如果人类想要飞，就得像鸟一样煽动翅膀，结果大家都知道了，飞机起飞的原理是空气动力学而不是仿生学。以前研究人工智能也是这个思路，觉得机器如果要有智能就得像人一样思考，我们人类的思考多复杂，要原原本本还原出一个人类大脑那是得有多难，这条路走得肯定是举步维艰。

现在有了大数据就发现，同样的问题，机器进行快速匹配计算一样能解决，用的方法虽然和人类思考习惯完全不同，但是能解决问题。而这个解决问题的思路就是统计学。

在AI不是魔法：人工智能的能与不能那篇文章里，我们讲过AI并不是魔法，它只是数学、统计学、以及使用大数据来进行模式识别，是对环境和物体的识别和相关性分析的智能。人们利用大数据建立一个统计模型，这个统计模型能对新的数据做出预言。输入数据越多越精确，模型能做的预言就越准确，而这个过程就叫“机器学习”，人工智能就是用统计方法增加猜测的准确度。人工智能就是机器学习，反过来机器学习就是统计模型。

统计模型

深度学习

21世纪，人工智能领域发生了两件大事，一件事发生在2006年，而另外一件事发生在2012年。2006年，杰弗里·希尔顿等人提出了“深度学习”（DeepLearning）概念。什么是深度学习？其实它是机器学习这门学科的一个分支，属于无监督学习的一种。通过教授计算机深度学习，就有可能解决深层机构优化的问题。而能做到这一点，是因为支撑它的是能够进行深度学习的神经网络。这种神经网络的特点是，它像宝塔一样，有很多层结构，每一层神经网络都有很多个关键的节点，它们接收上一层处理完的数据结果，共同解决一个问题，把自己这一层的输出结果传递到下一层去做进一步的处理。现在最流行的深度神经网络分为两种：一种是处理空间分布数据的卷积神经网络，另一种是处理时间分布数据的循环神经网络。它们的结构特点，都与无尺度网络有着密不可分的关系。

卷积神经网络可以用来做图片识别，它对图片的分析方法和我们分析无尺度网络一样，都是抓住枢纽节点。比方说现在有100万张猫和狗的图片混在一起，要挑出其中2张10厘米见方的照片，一张是黑猫，一张是黑狗，都是白色的背景。怎么挑呢？我们把一张照片看出一个网络，它的每个像素都是一个节点。如果按照随机网络的分析方法，你是抓不出主次来的，可能对着白色的像素分析了半天却一无所获。而如果按照无尺度网络的分析方法，就会非常清楚。比方说，我们可以让计算机用一个3X3的框，去框住这张照片的局部，一块一块去分析，如果框住了白色的背景就去掉，不做分析，如果框住了黑猫黑狗的躯干部分，发现区分不出来，那也把它去掉，最后发现，两张照片区别最大的是猫脸和狗脸。抓住脸的不同就是抓住了像素网络中的枢纽节点，这是第一层神经网络要处理的问题。

接下来，第二层神经网络要做什么呢？对这100万张脸的分析本身也很复杂，需要把所有猫脸和狗脸分开，这第二层神经网络就是把脸部的所有像素当做一个无尺度网络，抓住其中的枢纽节点进行分析，比如眼睛、鼻子、嘴巴、耳朵，做进一步的刻画和区分。第三层神经网络，就是对这些器官的特点再往下细分，直到最后一层神经网络对单个像素进行分析。整个神经网络就是把区分猫和狗的任务拆解成许多任务，一层一层处理，抓住枢纽节点，刻画重要特征。

这个过程还体现出无尺度网络适者生存、优胜劣汰的特点。人工智能并不知道，自己每一层分析的是什么，比如它不知道这一层分析的是猫的眼睛还是耳朵，但是它知道，如果这一层分析的这个东西，比方说瞳孔的粗细，经过大量照片数据的训练，能显著地把两种动物分开，成功率超过80%，那么判断瞳孔粗细的这个枢纽节点就会得到加权，得到进一步壮大，它在整个网络中的地位就会提高。相反，假如发现对胡须的像素分析不好用，经常会把猫和狗分错，那么这条通道就会被降权，这个节点的重要性就会下降。整个神经网络在上百万张照片的训练中不断进行这样的自我调整，各个节点的重要性发生动态变化，最后形成一个识别率最高的神经网络。这个深度学习的过程，就是一个无尺度网络中适者生存、不适者被淘汰的过程。

还有另外一种深度神经网络，叫循环神经网络，它和无尺度网络的关系也是通过枢纽节点来体现的。这两年有一个名词特别火，叫“神经网络翻译”，像谷歌、百度、有道这些公司，都说自家的翻译软件用的是神经网络翻译，质量堪比人工翻译。这项技术的背后，就是循环神经网络在其作用。过去的机器翻译，是把一句话里的字词做切分，比方说“我吃饭了”这一句话，切分成“我”“吃饭”“了”，然后把这3个部分逐个翻译，再按英文的重要性都看成是一样的，把它们翻译完了拼凑起来，非常生硬，而且出错的概率很大。比方说，“小明从前门走过来了。”机器在切分这句话的时候就会出问题，到底是把“从前”切分出来作为一个词翻译呢，还是把“前门”作为一个词翻译呢？机器不知道，很可能翻译出来的意思就是：小明、从前、门走过来了。

但是应用循环网络的翻译就不会出现这样的错误，它会把一整句话看成表达完整意思的网络，进行整体分析。它在翻译“小明”两个字的时候，不是孤立地分析，而是把“小明”看作是一个枢纽节点，赋予很高的权重，同时关联后文，比如“从前门走”这四个字里，最重要的是动词“走”，那就提高它的权重，看作第二个枢纽节点，那么“从前门”就是一个意思整体。接下来，按顺序分析“从”这个字的时候，注意到“小明”和后面的“走”都是和“从”进行搭配的，提高它们的权重，那“前门”作为一个方位名词和“从”的搭配关系就非常明确了。

这样在翻译每个词的时候，都在语料库的大数据中捕捉前后文里面和这个字词搭配关系最紧密的字词，赋予它们更高的权重，相当于抓住了一个枢纽节点周围的枢纽节点，就可以清晰低看到剩下的字词只是次要的节点，在整句话里起到修饰和补充的作用，就不会出现“从前”和“从前门”分不清的问题了。

从图片识别和神经网络翻译这两个例子我们可以看到，人工智能背后的深度神经网络和无尺度网络有着非常紧密的关系。虽然这些年网络科学的发展日新月异，但是我们看到，最前沿的科技中同样渗透着无尺度网络，这个网络模型已经成为今天的科学家用来搭建复杂网络、分析复杂网络的一个基础设施。