前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【精读】十分钟读完《智能时代》—吴军

【精读】十分钟读完《智能时代》—吴军

作者头像
钱塘数据
发布2018-03-05 11:06:00
2.6K0
发布2018-03-05 11:06:00
举报
文章被收录于专栏:钱塘大数据钱塘大数据

曾经,我们要学习如何操纵机器,掌握机器的语言,向机器靠拢;今天,机器在向人靠拢,试图理解人类、用我们的语言与我们对话。这就是“智能时代”,这个时代的基础是数据,可谓“无数据、不智能”。吴军先生这本书将智能时代的诸多要素娓娓道来,读下来如林中散步,在不知不觉中带领我们去到远方、登上高处,饱览领会了这个新时代的版图和全线的风景。

—— 涂子沛

《智能时代》这本书展现了吴军博士的真知灼见和前瞻思维,这些都来自于他在大数据和机器智能领域的多年第yi线实践经验。全书对大数据与智能革命带来的思维革命、技术上的挑战,以及机器智能如何改变人类社会,都做了全面的讲解。与其他一些写机器智能的书不同,这本书与作者之前的几本书一样,维持了作者对科学生动而易于理解的、有温度感的一贯的表述方式。  

—— 李善友

2016年是机器智能历史上一个具有纪念意义的年份,它是一个时代的结束,也是新时代的开端。这一年距离1956年麦卡锡、明斯基、罗切斯特和香农等人提出人工智能的概念正好过去了六十年,按照中国的习惯正好过去了一个甲子。而当年在达特茅斯学院提出这个概念的10位科学家中最后一位科学家明斯基也在这一年的年初离开了人世,这或许标志着人类在机器智能领域第一阶段的努力落下来帷幕。就在明斯基去世后的两个月,Google的围棋计算机AlphaGo在同世界著名选手李世石的对局中,以4:1取得了压倒性的胜利,成为第一个战胜围棋世界冠军的机器人,它的意义要远远超过1997年IBM深蓝战胜卡斯帕罗夫,因为从难度上讲,围棋比国家象棋要难6-9个数量级。这件事不仅是人类在机器智能领域取得的又一个里程碑式胜利,而且标准这一个新的时代----智能时代的开始。

从计算机发展的角度看,智能机器在所有棋类战胜人类其实只是一个时间问题,因为机器运算能力的提升是指数增长的,而人类智力能够做到线性增长就不错了。因此一定存在一个时间点——在所有的棋类比赛中都会超过人。在1997年IBM的深蓝战胜卡斯帕罗夫之后,围棋不仅是最后一个计算机尚未超越人类的主要棋类,而且还担负了上千年东方文化的蕴含,即棋道。虽然大部分人相信计算机最终可以在围棋上超越人类,但是总是觉得那还是几年后的事情。就在AlphaGo和李世石比赛之前,李世石本人认为前者的水平和他差出一到两个子,也就是说,即使他让先也能5:0获胜。中国围棋界的泰斗聂卫平也认为今天的计算机是不可能战胜人类的冠军的。就连曾经在Google工作过的IT行业老兵李开复博士也不相信AlphaGo能赢。这并非李开复等人对今天机器智能的发展状况不够了解,而是因为下围棋是一件太难的事情。2015年年底,AlphaGo仅仅赢了樊麾二段而已,离九段还差得远呢。但是大家忘记的一件事情,那就是AlphaGo水平的提高并不需要人那么长的时间,事实上在Google内部,大家在开赛前已经知道AlphaGo的水平并在九段之下。

2016年3月9日,AlphaGo和李世石之间的世纪大战开始了。AlphaGo在第一盘出人意料地轻松获胜。当然,大部分人在赞誉AlphaGo水平的同时,依然认为这可能是李世石在试探计算机而已,毕竟那是五盘的比赛,用一盘棋试探毫不了解的对手未尝不是明智之举。但是当AlphaGo在第二盘获得连胜并且下出了很多人类想不到的好棋后,对机器智能持怀疑态度的聂卫平等人,都对它产生了致敬。在AlphaGo获得第三盘胜利之后,很多超一流的棋手都渴望和它一比,希望以此检验自己的水平,并且能够提高技艺。虽然李世石在第四盘抓住AlphaGo的一个失误打了一个漂亮的翻身仗,但是AlphaGo在最后一盘稳稳地控制着局面,直到胜利。可以讲在那一次人机大战之后,围棋界对机器智能从怀疑变成了顶礼膜拜,大家都意识到,按照AlphaGo在过去几个月里的进步速度,只要Google愿意继续投入科研,很快人类所有的围棋高手都无法和它过招了。

计算机之所以能战胜人类的,是因为机器获得智能的方式和人类不同,它不是靠逻辑推理,而是靠大数据和智能算法。在数据方面,AlphaGo在训练时使用了几十万盘围棋高手之间对弈的数据,这是它获得所谓的“智能”的原因。在计算方面,AlphaGo采用了上万台服务器训练它下棋的模型,并且让不同版本的AlphaGo相互对弈了上千万盘,这才保证了它能做到“算无遗策”。具体到下棋的策略,AlphaGo里面有两个关键的技术:把棋盘上当前的状态变成一个获胜概率的数学模型,这个模型里面没有任何人工的规则,而是完全靠前面所说的数据训练出来的。第二个关键技术是启发式搜索算法----蒙特卡洛数搜索算法(Monte Carlo Tree Search),它能将搜索的空间限制在非常有限的范围内,保证计算机能够快速找到好的下法。虽然AlphaGo的训练使用了上万台服务器,但是它在和李世石对弈时仅仅用了几十台服务器(1000多个内核以及一百多个GPU)。相比国际象棋,围棋的搜索空间要大 倍,AlphaGo的计算能力相比深蓝,其实并没有这么多倍的提高,它靠得是好的搜索算法,能够准确地聚焦搜索空间,因此能够在很短的时间里算出最佳行棋步骤的。由此可见,下围棋这个看似智能型的问题,从本质上讲,是一个大数据和算法的问题。

当然,Google开发AlphaGo的最终目的,并非要证明计算机下棋比人强,而是要开发一种机器学习的工具,让计算机能够解决智能型的问题。AlphaGo和李世石对弈,实际上是对当今机器智能水平的一个测试。从樊麾到李世石,实际上是用他们的专才在帮助Google测试当今机器智能的发展水平。在人机对弈的第四盘李世石反败为胜的过程中,他无意中发现了AlphaGo的一个缺陷。因此,Google的成功里面也有李世石等棋手的功劳。从这个角度讲AlphaGo的胜利标志着人类在机器智能方面达到了一个崭新的水平,因此它是人类的胜利。

AlphaGo无论是在训练模型时,还是在下棋是所采用的算法都是几十年前大家就已经知道的机器学习和博弈树搜索算法,Google所做的工作是让这些算法能够在上万台甚至上百万台服务器上并行运行,这就使得计算机解决智能问题的能力有了本质的提高。这些算法并非是专门针对下棋而设计的,很多已经在其它智能应用的领域(比如语音识别、机器翻译、图像识别和大数据医疗)获得了成功。AlphaGo成功的意义不仅在于它标志着机器智能的水平达到了一个新的台阶,还在于计算机可以解决更多的智能问题。今天,计算机已经开始完成很多过去必须用人的智力才能够完成的任务,比如医疗诊断,阅读和处理文件,自动回答问题,书写新闻稿和驾驶汽车等等。可以讲,AlphaGo的获胜,宣告了机器智能时代的到来。

AlphaGo的获胜让一些不了解机器智能的人开始杞人忧天,担心机器在未来能够控制人类。这种担心是不必要的,因为AlphaGo的灵魂是计算机科学家为它编写的程序。机器不会控制人类,但是制造智能机器的人可以。而科技在人类进步中总是扮演着最活跃最革命的角色,它的发展是无法阻止的,我们能做的是面对现实,抓住智能革命的机遇,而不是回避它、否定它和阻止它。未来的社会,属于那些具有创意的人,包括计算机科学家,而不属于掌握某种技能做重复性工作的人。

在AlphaGo取得人机大战胜利之际,我们出版这本书,希望能让大家更多地了解大数据的本质、它的作用、它和机器智能的关系、机器智能的原理和发展过程,以及它们二者对未来产业和社会的影响。本书一共分为七章,分别介绍了数据的作用,大数据的本身,机器智能的原理及其发展过程,大数据思维的核心及其重要性,大数据和机器智能与商业的关系,它们对社会正反两个方面的巨大影响。书中的核心内容来自我在研习社和一些大学商学院讲课的讲义,但是考虑到大家读书和听课毕竟有很大的区别,因此在将讲义改写成书的时候,我在书中增加了大量的案例和历史背景介绍,以方便大家能够系统地了解大数据和机器智能的来龙去脉,以及我们对未来进行分析的依据。

第一章 数据——人类建造文明的基石

信息是关于世界、人和事的描述,它比数据来得抽象。信息既可以是我们人类创造的,比如两个人的语音通话记录,也可以是天然存在的客观事实,比如地球的面积和质量。

数据可以把信息描述清楚,它最大的作用在于承载信息,但是并非所有的数据都承载了有意义的信息。数据本身是人造物,因此它们可以被随意制造,甚至可以被伪造。

人类文明的过程其实伴随着获取数据->分析数据->建立模型->预测未知的过程。数据在人类文明中起到了基石的作用。像地心说、日心说等都是一种模型。

数据之间大多存在相关性。很多时候,我们无法直接获得信息(比如疫情传播情况),但是我们可以将相关联的信息(比如各地搜索情况)量化,然后通过数学模型,间接地得到所要的信息。而各种数学模型的基础都离不开概率论和统计学。

统计学的前提是可靠的样本,而样本的选取并非易事。而且在互联网出现之前,获得大量的具有代表性的数据其实并非一件容易事。

从概率论一诞生人们就有这种担忧,人们希望能够从理论上证明当观察到的数据量足够多了以后,随机性和噪声的影响可以忽略不计。

切比雪夫不等式证明了当样本数足够多时,一个随机变量和它的数学期望值之间的误差可以任意小。

要建立数学模型就要解决两个问题,首先是采用什么样的模型,其次是模型的参数是多少。简单的模型未必和真实情况相匹配,从一开始如果选择错误,则以后修修补补就很难了。而寻找模型的参数,以便让模型至少和以前观察到的数据相吻合,这个过程就是机器学**。

完美的模型未必存在,即使存在,找到它也非常不容易。但是经常可以用多个简单的模型拼凑出一个复杂的模型,而且常常成本更低。

回到数学模型上,其实只要数据量足够多,就可以用若干个简单的模型取代一个复杂的模型。这种方法被成为数据驱动法。因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据。

第二章 大数据和机器智能

在有大数据之前,计算机并不擅长于解决需要人类智能的问题,但是今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新一轮技术革命——智能革命。

大量数据的使用,最大的意义在于它能让计算机完成一些过去只有人类才能做到的事情,这最终将带来一场智能革命。

阿兰图灵真正科学地定义什么是机器智能:让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器有了和人等同的智能。这种方法被后人称为图灵测试。

人工智能分为两类:

人工智能1.0(传统的人工智能):首先了解人类是如何产生智能的,然后让计算机按照人的思路去做。强调实现智能的方法。

泛指的机器智能,也就是任何可以让计算机通过图灵测试的方法,包括数据驱动法、知识发现或者机器学**等。强调解决人脑所能解决的问题。

Google的多项成功,机器翻译等的重大突破都得益于利用了数据驱动方法。在机器翻译、语音识别和图像识别等领域,依靠技术进步大约每年可以改进0.5%左右,代价高,难度大。Google利用大数据训练出了六元模型,可以构造整个从句和复杂的句子成分之间的搭配,相当于将这些片段从一种语言到另一种语言直接对译过去了。

大数据,之所以用big data而不是large data、vast data,是因为big是一种相对于小的大,而不是绝对体量的大。因此,大数据是一种思维方式的改变。

我们对于大数据重要性的认识不应该停留在统计、改进产品和销售,或者提供决策的支持上,而应该看到它(和摩尔定律、数学模型一起)导致了机器智能的产生。

第三章 思维的革命

在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。

机械思维:

欧几里得:创立了基于公理化体系的几何学。

托勒密:通过观察获得数学模型的雏形,然后利用数据来细化模型。首先,需要有一个简单的元模型(在天文学中托勒密使用了圆),这个模型可能是假设出来的,然后再用这个元模型构建复杂的模型;其次,整个模型要和历史数据相吻合。

缺陷1:整体模型很复杂,原因是元模型用了再简单不过的圆,这么复杂的模型依靠手工计算就难以准确。

缺陷2:(致命)确定性假设。它假设模型一旦产生,就是确定的河不会改变的。它对过去的数据吻合的很好,却不能预测未来的数据。

笛卡尔:大胆假设、小心求证。

牛顿:用简单而优美的公式破解了自然之谜。

机械思维核心思想:

第一、世界变化的规律是确定的

第二、因为有确定性做保障,因此规律不仅是可以被人时的,而且可以用简单的公式活着语言描述清楚。

第三、这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践。

在牛顿和瓦特之前,一项技术的进步需要非常长的时间来积累经验,或者用今天的话讲就是获得数据、信息和知识,这个过程常常要持续经过很多代人。

瓦特改进蒸汽机不是靠长期经验的积累,而是通过科学原理直接改进蒸汽机。

机械思维的局限性更多来源于它否认不确定性和不可知性。

机械思维的特性:善于把握确定性而难以解决不确定性问题。

到了信息时代,机械思维的局限性也越来越明显。首先,并非所有的规律都可以用简单的原理描述;其次,像过去那样找到因果关系已经变得非常困难,因为简单的因果关系规律性都被发现了。另外,随着人类对世界认识得越来越清楚,人们发现世界本身存在着很大的不确定性,并非如过去想象的那样一切都是可以确定的。

信息论:

与机械思维是建立在一种确定性的基础上锁截然不同的是,信息论完全是建立在不确定性基础上,而要想消除这种不确定性,就要引入信息。至于要引入多少信息,则要看系统中的不确定性有多大。

信息论中的互信息(Mutual Information),可以解释为什么信息的相关性可以帮助我们解决很多问题。在很多时候,我们能够获取的信息和要研究的事物并非一回事,它们之间必须“有关联”,所获得的信息才能帮助我们消除不确定性,搞清楚我们想要研究的问题。

香农第一定律:对于信源发出的所有信息设计一种编码,那么编码的平均长度一定大于该信源的信息熵,但香农还指出,一定存在一种编码方式,使得编码的平均长度无限接近于它的信息熵。

香农第二定律:信息的传播速率不可能超过信道的容量。

最大熵原理:当我们要对未知的事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。

交叉熵原理:两个数据源一致,它们的交叉熵为零,当它们相差很大,交叉熵也很大。所有采用数据驱动的方法,建立模型所使用的数据和模型的数据之间需要有一致性,也就是盖洛普所讲的代表性,否则这种方法就会失效,而交叉熵就是对这种代表性或者一致性的一种精确的量化度量。

大数据的出现能够解决那些智能的问题,是因为很多智能问题从根本上来讲无非是消除不确定性的问题。

大数据特性:

数据量大:香农指出,信息量与不确定性有关,要想消除系统内的不确定性就要引入信息。因此,大量的数据,是消除不确定性的必要条件。

多维度:“互信息”的概念,要求为了获得相关性通常需要多个维度的信息。

完备性:在过去,任何使用基于概率统计的模型都会有很多小概率事件覆盖不到,而这些情况反映到交叉熵时,它的值会达到无穷大,也就导致数据驱动方法失败。所以就要求大数据具有完备性。

从因果关系到强相关性思维的转变,过去我们强调因果关系,并将这样的关系运用到其他领域,但是很多时候我们要找到因果关系很困难,大数据的思路则是通过找到强相关性,先确定结果,然后再允许基于这个结果去推导出因果关系。如果找不出因果关系,而我们又愿意接受这个结果,那么说明我们已经具备大数据思维了。

搜索引擎公司使用用户点击数据和搜索结果相关性模型,来提高搜索的准确度,也称为“点击模型“。大的搜索引擎公司因为数据多,用户量大,就获得了大量的数据用于训练模型,从而更高地提升了预测能力,而小公司因为缺乏条件,就会在竞争中落后。因此它们争相开发浏览器、工具条、输入法等,将用户在类似Google这种大搜索引擎公司的用户点击行为记录下来以提高自己的数据量,而这些行为其实都是大数据思维在互联网领域的应用。

第四章 大数据与商业

在未来我们可以看到,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。

从大数据中找规律,可以解决很多不确定性的问题。作者使用以下例子:

警察局利用智能电表数据发现大麻种植

税务局利用纳税大数据防止偷漏税

塔吉特百货使用大数据进行客户分类实现精准营销

沃尔玛和亚马逊利用大数据进行消费推荐

Netflix利用大数据提升收视率

Google Now利用大数据实现无搜索条件搜索(利用其它场景数据,预测你接下来可能要做的事情)

说明了大数据与传统商业之间存在着密不可分的关系,把握数据就可能赢得商业上的成功。

大数据在商业活动中从细节到整体再从整体到细节双向的流动,不仅能够利用大数据对商业进行整体提升,更能够精确到每一个细节。作者利用以下的例子:

酒吧业使用RFID记录经营细节防止酒保偷酒的行为

PRADA利用RFID提升用户体验满意度实现销售额提升

金风公司(一家风力发电设备提供商)改变传统卖设备的方式(卖一单就结束),加强了对设备采集数据,汇总数据的能力,实现了向高质量服务商转型

Google使用穷举法提升搜索质量

Google自动驾驶汽车将“发明一台自动驾驶机器人”的思路转换为“大数据问题”之后,成功发明了自动驾驶汽车

说明了采用大数据思维的重要性。

新技术 + 原有产业 = 新产业的规律几乎在每一次历史变更中,都会让这个时代的企业家站到浪潮之巅。

从历史经验看:

现有产业 + 蒸汽机 = 新产业

现有产业 + 电 = 新产业

现有产业 + 摩尔定律 = 新产业

大数据:

现有产业 + 大数据 = 新产业

现有产业 + 机器智能 = 新产业

技术的革命导致了商业模式的改变,“IBM转型为软件和服务业”的例子,就是由于传统的计算机制造行业生产过剩,利润率不断降低,但是人们对服务的需求总是有的,因此IBM才得以完成这次转型。

这样商业模式的改变,具备继承性也有创新性。

GE公司通过在传统家电中增加WiFi传感器,建立与用户之间的信息通道

小米科技也凭借大数据思维变成了估值高达450亿美金的公司

虽然不是每个行业都一定要成立自己的大数据IT部门,但是传统企业想要在这一轮竞争中获得成功,就必须要借助新技术的力量。

第五章 大数据和智能革命的技术挑战

大数据的数据量大、维度多、数据完备等特点,使得它从收集开始,到存储和处理,再到应用,都与过去的数据方法有很大的不同。

数据的产生,利用类似RFID等传感器产生数据等就是新技术应用的体现

信息的存储,随着数据量不断增大,信息的存储技术的提升是必要的

传输的技术,带宽的提升给数据收集带来了便利

信息的处理,分布式计算的发展给大量的信息处理带来了可能

数据收集,在收集数据时,我们还需要再一次强调它是在无意之间完成的。在数据收集的过程中,非常忌讳那种“大胆假设,小心求证”的思维方式,因为在很多时候,如果事先有了定论,再找数据来证实它,总能找到有利的证据,而这些看似被数据证实的结论,很可能与真实情况相差十万八千里。数据的收集是一个开放性的话题,不存在唯一的、最佳的方法。但是好的方法一定能够保证数据的全面性(完备性)和不变性。

数据存储的压力和数据表示的难题,protocol buffer的出现都是为了解决数据表示

并行计算和实时处理,并非增加机器那么简单,针对大数据的实时处理需要开发很多新的工具,而不是简单地把过去的工具并行化就可以。

数据挖掘,是机器智能的关键

数据安全的技术,数据安全可能远没有人们设想的那么高,但是可以利用大数据的方法,来进行用户行为的学**,并且增强黑客入侵

保护隐私,是靠大数据长期挣钱的必要条件。在人们对大数据威力和工作方式的认识还不够全面的情况下,人们通常会在隐私性和便利性之间更倾向于便利性。而未来,如果一家企业能够保护隐私而另一家却不行,前者就可能就此获胜。

第六章 未来智能化产业

大数据将导致我们整个社会的升级和变迁:

未来的农业:用以色列采用滴灌技术在水资源及其匮乏的情况下实现高产量的做法来说明对农业的改进

未来的体育:用勇士队利用大数据进行球队建设的做法来说明对体育的改进

未来的制造业:用特斯拉弃用劳工改用机器人的例子,以及特斯拉重新定义汽车产业链的例子来说明对制造业的改进

未来的医疗:

降低医疗的成本:在美国使用医师的成本比仪器要高得太多,而这些仪器在掌握大量数据之后的智能、稳定性、准确率等方面都优于人

解决医疗资源短缺的问题:这些医疗计算机系统达到了中等医师的水平,对于那些医师资源匮乏的地区,帮助是很大的

制药业的革命:利用大数据可以找到不同的特效药对不同人群的适应性,从而解决一些难以攻克的难题

人类是否可以长生不老:利用建立人类数据库,用于从基因方面找到人类衰老的原因从而延长人类寿命

未来的律师业:除了之前提到的在司法领域使用强相关性寻找证据的例子,还能够取代律师做一些案例分析工作,使得诉讼成本降低。在海洋法系中(判例型法律体系)中,打一场大官司,需要将历史上相关的官司法律文件都拿出来分析,而大数据有可能在自然语言处理和信息检索方面取代初级律师或律师助理的职位。

未来的记者和编辑:计算机写作的能力已经很强大了,它们能够通过一些模版和语言模型的概率模型来写作,从而取代一些初级新闻工作者的工作。

作者通过以上例子说明了大数据将导致我们社会的产业升级和变迁。

第七章 智能革命和社会未来

智能革命会带来社会的进步:

采用大数据规划城市交通

采用大数据进行反恐

区块链跟踪每一笔交易导致未来世界的精细化

采用大数据,使得现有的标准化很强的医疗体系变成个性化的医疗体系

也会带来负面的影响:

无隐私的社会

机器抢掉人的饭碗

任何一次技术革命,最初受益的都是发展它、使用它的人,而远离它、拒绝接受它的人,在很长时间里都将是迷茫的一代。在智能革命到来之际,作为人和企业无疑应该拥抱它,让自己成为那2%的受益者;而作为国家,则需要未雨绸缪,争取不要像过去那样每一次重大的技术革命都伴随半个多世纪的动荡。

●啃过一点英文版,看过万维钢的7篇解读笔记,个人觉得这本书被高估了,应该不如《人类简史》,期望过高,可能要失望,不过主题倒是蛮有意思,当数据统治人类,自由意志终结。

●说到底,还是通俗读物。作者有股庸俗气。如果对相关内容有些关注的,会觉得并无新意。重点看看第九章也就行了。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-02-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 钱塘大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档