专栏首页PPV课数据科学社区大数据思维,从《银河帝国》谈起

大数据思维,从《银河帝国》谈起

非常高兴能够有机会到鸿儒论道跟大家谈一下我个人的学习体会。主要想讲几个方面,一个是大数据能够干什么;另外一个是大数据时代有哪些可能是不能干的,甚至可能存在风险;最后如果我们有机遇、有风险,那么在遇到系统性危机的时候,如何能够增加我们的恢复力。

先讲大数据时代有哪些能做,哪些不能做?有一个很有名的科幻作家叫做阿西莫夫,写过《银河帝国》,也就是“基地系列”。据说本·拉登就是看了他这本小说,把他自己的组织起名叫“基地组织”。阿西莫夫在书中提到,未来有一个银河帝国,在银河帝国最繁荣的时候,国内最才华的数学家谢顿说他能够预知未来历史的变化以及潜在的危机,只要数据量足够大。当时的人口已经是上万亿,足够他准确预测未来的变化。所以谢顿悄悄建了一个“基地组织”,还有“第二基地组织”。当出现所谓的“谢顿危机”时候,大家就把他事先录好的录像调出来,他在录像里会阐述已经预测到的此次危机以及其99%的可能性,并告知人们要怎么做。

为什么要说阿西莫夫的这个小说呢?因为阿西莫夫是一个天才科学家,但我觉得他对大数据时代的预测是完全错的。他认为大数据时代,我们就能够预测未来,但是我们预测不出每个人的行为。实际上在大数据时代,我们能够预测出来的恰恰是每个人的行为,当然还是按照概率论来预测,而我们仍然预测不出来的却是未来。所以尽管我们现在提到大数据很多,好像一个非常新潮的词,但是从根本上来讲大数据方法论的历史是非常漫长的。说实话,它就是统计学。大家最早是从自然科学、医学慢慢知道统计学,明白统计学是一个非常重要的规律。

比如说公共卫生领域,研究传染病是很难的,因为发病快,病人马上就死了,很难像癌症那样,去看它的病理学是什么?那么最后是怎么发现传染方式的呢?以霍乱为例,实际上就是最后拿两张地图,一张是得霍乱病人的分布图,另外一个是伦敦水井的分布图。最后发现这里头有一些大概的规律,所以觉得可能跟饮水有关。后来当物理学发展到量子力学时,出现了海森堡测不准定理。爱因斯坦说过,“我不相信上帝是掷色子的”,但上帝真的是掷色子的。也就是说在自然科学里,统计学方法论很重要的一个基础。

社会科学更是如此,从本质上讲一切的社会现象都是统计现象,并不像实验室里的试验那样有明确的因果关系。所以本质上来讲我们说的经济学供求定理等等,就是一个统计规律,但是我们认知能力中最差的也是统计思维。诺贝尔奖心理学得主的心理学家卡里曼曾经讲过,我们头脑中有两套思维,一套思维是本能的,比如我们的语言能力、模仿能力、第六感等等都是与生俱来的。麻省理工学院的语言学家乔姆斯基说过,小孩子为什么到3岁就能学会说话,而要到10几岁才能学会微积分呢?语言学得这么快,不是小孩子自己能学会的,是小孩子出生的时候大脑中就预装了一套系统,要不然就不能解释为什么这么快能学会。此外察言观色的能力也不用特意学或教,小孩子就已经会了。所以这是人类的第一套系统,也是能够让我们快速反应的系统。

另外一套系统,是当我们做数学推理,尤其是统计分析时需要用到的。第二系统运转很慢,因为占的内存太大,往往我们犯错误是因为决策太快,所以在统计判断的方面会出现问题。所以说大数据是一个新的现象吗?当然是。但它方法论的历史是非常悠久的。那为什么现在大家突然讲到大数据了呢?主要是因为现在的数据越来越多,一方面随着IT的革命,存储和计算的能力在不断提高,未来可能会出现无限存储、瞬间计算的新时代;另一方面同时能够被数据化的东西也越来越多,过去只有数字,而会计制度出来后,经济活动开始可以通过记账被数据化。现在大家拿的pad、电子书中的文字、图象也可以被数字化。

所以才会出现美国医院的丑闻,说美国有一个医生不干活,下班之后把拍的片子传到印度,然后他就睡觉了。印度那边两个在美国上过医学院的哥们,替他把报告都写好。等美国的这个医生早上醒来,印度那边的报告就传过来了。为什么作弊能够成功呢?因为现在图象的传输也可以完全实现数字化,而且越来越高清。方位可以实现数字化,你不知道自己在哪,打开高德地图,它就会告诉你你在哪里,还会发给别人。社会关系也可以越来越数字化,你的朋友圈、facebook、微信群都能够被当成数据进行分析。

所以现在能够变成数据的东西越来越多,计算和处理数据的能力越来越强,所以大家突然发现这个东西很有意思。一旦把统计学和现在大规模的数据融合在一起,将会颠覆很多我们原来的思维。

所以我们先来讲大数据能干啥?能干很多很有意思的事情。比如说传统的品酒要品酒大师去品,这些大师经过常年训练,有特质,舌头就是跟普通人长得不一样,所以他们可以品出92年的酒比93年的好,所以过去都靠天赋来品酒。普林斯顿大学有一个英语学教授,他也很喜欢喝酒,喜欢储藏葡萄酒。所以他就像是否可以分析到底哪年酒的品质好。然后他就找了很多数据,比如说降雨量、平均气温、土壤成分等等。然后他做回归,最后他说把参数都找出来,做了个网站,告诉大家秘诀是什么。当他研究的成果公布的时候,引起了业界的轩然大波。因为他做预测做地很提前,因为今年的葡萄收获后要经过一段的时间发酵,酒的味道才会好。所以其实在一开始,很多品酒师品的不是葡萄酒,那时候葡萄酒还没有真正的做成,他们品的是发烂的葡萄。因此在那个时间点就预测当年葡萄酒的品质是比较冒险的。而且人的心理的因素是会影响他做的这个预测,比如说地位越高的品酒师,在做预测时会越保守;而刚出道的品酒师往往会“语不惊人死不休的”。这就好像有一些专家说北京的房价会涨到50万每平方米,这种专家一看就是没有到达一定水平。要是去问林毅夫老师,你说“林老师,请问今年的中国股市会怎么样?”他肯定会告诉你“有50%的可能性会涨,但是也有50%的可能性会跌。”因为什么呢?因为他一旦预测错了,要损失的名誉代价是很大的。所以顶级的品酒大师一般都不敢贸然说今年的酒特别好,或者是特别差。但这个教授有一年突然预测说今年的酒是世纪最好的酒。大家说怎么敢这么说,太疯狂了。更疯狂的是到了第二年,他预测今年的酒比去年的酒更好,连续两次预测说是百年最好的酒,但他真的预测对了。然后他说我把我自己的声誉也砸了,因为品酒师在做评判之前,要先到他的网站上看看他的预测,然后再做出自己的判断。有很多的规律我们不知道,但是它潜伏在这些数字里头。

另外推荐一部电影,叫《点球成金》,也获了奖。这个电影讲怎么找到潜在的棒球运动员?最初也是靠经验,到处去看谁有可能的潜质,要把一场场赛季的球赛都看完,然后决定这个人是否有潜质。但你怎么知道谁打得好呢?所以很多的时候也是靠瞎蒙。电影里面有一个场景,一帮球探在评价到底某个球员好不好。有一个球探说他不好,因为女朋友长得太难看。那女朋友长得好坏和打球好坏有什么关系呢?球探就说“如果女朋友长得很难看的话,说明他的自信心不行,所以打球不会很猛。”这个等于就是胡扯。在《点球成金》的电影里头,讲到一个原来没有名气的球队,突然找到一个另类的经济学的硕士。经济学硕士说我能找到好的运动员,只要把数据给我。这也颠覆了整个行业里头的规则,大家觉得你都没有看过别人打球,就根据他原来的记录,怎么可能知道他是不是合适,这是完全超过人的直觉的。但居然最后出现了一个新的领域,用计量经济学来找新的可能的棒球明星。

这两个案例,我们能够推出来什么呢?在大数据时代,因为数据很多,很可能可以找到相关的关系,但是因为数据太多,你不一定能够理解为什么是这样。但是你只要能先找到相关关系,就已经很不错了,如果运气再好的话,你可能会找到内在的因果关系。在大数据时代,你不一定会知其所以然,但更方便大家知其然。

比如说,一个连锁商店,专门有一个铺卖婴幼儿产品的。因为客户信息很多,就发现当人怀孕之后,行为会出现改变。比如会更多选择没有香味的洗发水,买营养品的时候口味也和怀孕前有不同。商店便可以根据客人购买行为的变化,预测是否可能怀孕了,然后给可能怀孕的客人寄婴幼儿产品广告,说买我的尿布吧,买我的奶粉吧。一天,一个父亲很愤怒地过来说“我女儿还在高中,你们现在天天给她寄婴儿尿布,奶粉的广告,什么意思?你鼓励未婚怀孕啊?”然后商场说“对不起,我们搞错了!”过了一个星期,这个爸爸又回来,说“对不起,我搞错了,我女儿已经向我坦白了,她真的怀孕了。”

大数据中一个经典故事,沃尔玛最早发现尿布和啤酒的销售是有相关关系的。一开始不明白这两东西为什么会有相关关系?后来发现当家里面有了小孩子之后,买尿布的任务往往是让新爸爸去干的。其实爸爸对孩子的出生贡献并不大,但是他觉得自己做出了很大的成绩。所以他买完尿布的时候,会想顺便买一瓶啤酒犒劳自己。所以后来沃尔玛就把啤酒和尿布放在一块儿,啤酒的销售量一下子就增加了,这是一个很经典的案例。当然也很有争议,因为统计学里头最基本的一个概念就是,相关关系不一定是因果关系。所以很强的相关关系也很有可能是伪相关。但在大数据时代,原来找不到的相关关系现在找得到了。

为什么能够找出这些相关关系?为什么能够找出行为规律?一个更深层的概念是人和人是一样的。如果是一个人特列出来,可能很有个性,但当人口样本数量足够大时,就会发现其实每个人都是一模一样的。

有个例子,在一个赌场,你去赌博的时候要在门口先要办一个电子磁卡,其实你在办这个电子磁卡的时候,相关的信息已经被赌场获取了。比如说第几次来、大概年龄、种族、职业等等。赌场有一个庞大的数据库,拿到数据后就做预测。人跟人的确是不一样的,有的人到赌场输了10块钱就心疼的睡不着觉;有的人输几百万也面不改色心不跳。但不管是谁,都会有一个痛苦点。当在这个赌场里输的钱超过了痛苦点之后,这个人会从此再也不踏进这家赌场一步。因为已经输得恶心了,会觉得这个地方太背,以后也不再来了。从赌场的角度,最好的选择是当赌客快要达到痛苦点时,让赌客住手。赌场里面有很多摄像头,可以看到客人大概现在输了多少。比如你一进去,赌场根据它的数字预测,像你这样中国人、男性、35岁、土豪,大概痛苦点比如说是1万美金。当你输到9800美元的时候,奇迹发生了,你旁边会突然出现一个年轻貌美的公关经理说“先生玩得很累了吧,我们的赌场刚请了一个法国名厨,会做世界一流的法国大餐。恭喜你,你被选为幸运顾客。要不带着家人去享受法国大餐,休息一下吧。”为什么服务这么好?因为你的最后一分钱已经被它榨完了。为什么赌场能够精准预测你的行为?因为你的行为和别人的行为是一样。

这彻底颠覆了原来经济学教科书告诉我们的道理,没有办法进行价格歧视。因为消费者之间的信息会互相沟通。比如一件衣服到底卖什么价格。不同人的心里底价是不一样的,特别喜欢这件衣服的人花1万元钱也愿意买,不太喜欢的人5千块钱可能是他的价格极限。但是商家必须要统一标价,不能来一个顾客换一种价钱。尽管有很多消费者是懒惰的,不管多少钱,他过去拿了就走。但是也有精明的消费者,为了买一把椅子,把全北京的家具商场都跑遍了,最后发现这张椅子比那张椅子便宜5块钱。一个懒惰的消费者只要跟着精明的消费者,就能知道哪里的价格是最低的。商家是没有办法进行价格的歧视,没有办法把这些信息垄断。但是在互联网大数据的时代,商家最后很可能可以针对每一个顾客进行精准的价格歧视。我们现在很多的行为都是比较粗放的,航空公司会给我们里程卡。根据飞行公里数来累计里程,但其实不同顾客所飞行的不同里程对航空公司的利润贡献是不一样的。所以有一天某位顾客可能会收到一封信,“恭喜先生,您已经被我们选为幸运顾客,我们提前把您升级到白金卡。”这说明这个顾客对航空公司的贡献已经够多了。有一天银行说“恭喜您,您的额度又被提高了,”就说明钱花得已经太多了。正因为在大数据规律面前,每个人的行为都跟别人一样,没有本质变化。所以商家会比消费者更了消费者的行为。也许你正在想,工作了一年很辛苦,要不要去哪里度假?打开email,就有航空公司、旅行社的邮件。或者说,在你还不知道的情况下,体检公司、医院建议你赶紧去做检查,可能会得某些病。商家比你更了解你自己,以及你这样的人在某种情况下会出现的可能变化。

第三个案例,美剧《豪斯医生》,它跟大数据没直接关系,但这个电视剧的医学顾问是一个有名的循证医学顾问。最初的医学按照病理学寻找治疗办法。但其实医学很多时候也是瞎蒙。比如在某一发展中国家,医生因为不满报酬罢工,之后死亡率明显下降了,说明大部分人是被误诊治死的。循证医学很早就存在,但一直属于一个异端。在细菌还没有被发现的时候,就有一个医生就发现医生从停尸房回来后直接做接生手术,产妇的死亡率会明显的提高。因此他建议医生从停尸房回来后用肥皂洗手。虽然我们现在觉得这很正常,但当时的人们没有细菌的概念。洗手跟死亡率有什么关系呢?那位医生就说“我也不知道有什么关系,反正听我的就行,洗完手之后再去接生。”为什么现在医院里开始推动循证医学,因为虽然不知道是怎么回事,但按照大数据显示的关系去做,效果是很明显的。某种程度上,是模仿航空公司的经验,飞行员的违规操作会引起事故从而导致整架飞机坠毁,因此一切都要严格按照操作手册。但医生在过去的时候并没有做得这么严格,按照循证医学,现在治病的第一件事情不是去研究病理学,而是拿过去的数据去研究,相同情况下是如何治疗的。

这导致专家和普通人之间的信息优势没有了。其实在第一个案例里头,我们可以看到,品酒专家和门外汉之间的信息优势没有了。原来我相信医生,因为医生知道的多,但现在我可以到谷歌上查一下,知道自己得了什么病。专家和普通人之间原来的信息优势就没有了,以后专家就没有饭碗。谷歌有一个机器翻译的团队,最开始的时候翻译之后的文字根本看不懂,但是现在60%的内容都能读得懂。谷歌机器翻译团队里头有一个笑话,说从团队每离开一个语言学家,翻译质量就会提高。越是专家越搞不明白,但打破常规让数据说话,得到真理的速度反而更快。

我们说中国的教育太繁琐,都是填鸭式的。但其实美国现在的教育也逐渐开始向标准化靠拢。美国拍的儿童节目,从《芝麻街》到《天线宝宝》,感觉都很弱智。它之所以用这么白痴的办法来拍儿童娱乐节目,是经过数据分析的。美国是最早用数据分析来做儿童节目的,当它放一个新的《芝麻街》大鸟动画片,在旁边随机出现卡通图案。看孩子啥时候分神,如果小孩在看这段动画片的时候,老是去看卡通图案,那说明他没有看懂,或者不吸引人。当然你不知道他为什么看不懂,因为好多小孩子话都还不会说,但你知道他不喜欢这一段。为什么《天线宝宝》语速要很慢,然后要不断重复?因为发现孩子的学习其实就是重复。对孩子来说,他的学习、娱乐,就要不断重复。

有一个讽刺小布什的美国的纪录片《华氏9·11》。纪录片中9·11袭击消息传来的时候,小布什在一个小学教室里头跟老师读“一个小羊去喝水,一个小羊去喝水”。小布什为什么要坐在教室里面读这个呢?这是美国教育界的一个争议,这种教育是直接教导法,也就是填鸭式教育。即写好教案,按照教案到3分05秒的时候,你要开始教这句话,然后重复15遍,再开始教这句,一步步来。按照我们的常规想法,会觉得这样扼杀了孩子的天才。但实际上这样是符合小孩的认知规律的。这种直接教导法会缩小成绩的差距,原来那些学习成绩差的孩子是受益的,他学起来更容易,自信心也会提高。

在大数据时代,无论是商家还是信息的搜集者,会比我们自己更知道你可能会想干什么。但是也有风险!大数据时代得到的信息越多,就意味着更多的个人隐私权要让渡出来。而让渡出来之后,会有很多意想不到的结果。现在的数据挖掘还没有真正在挖掘,如果真正挖掘的话,通过信用卡消费的记录,可以成功预测未来5年内的离婚率?那你愿不愿意知道这个概率呢?如果到时候告诉你,你有68%的概率会在5年之内离婚,你心里会怎么想?

斯皮尔伯格曾经拍过一部电影叫《少数派报告》,里头就说美国的公安建了一个大数据系统。能够在人没有犯罪之前就提前预知此人是否可能犯罪。最后有嫌疑的人还没有出门,警察就要把他抓起来。如果根据大数据的分析,一个人今天杀人的概率是90%,能不能就在他没有作案前就把他我关起来呢?如果知道我的汽车到天安门广场上去撞华表的概率是80%,警察能不能在四环就把我拦下呢?如果因为我有80%的概率会干,就把我抓起来,这可以吗?

以前的巨头是制造业,后来变成了零售业,再后来变成了金融业,而在金融危机之后,金融巨头的势力在下降,真正在美国崛起的是西海岸的新一批资本家,都是玩数据。以前他们还年前,比如facebook的创始人,他建立facebook时还没有政治觉悟,现在他已经开始有政治觉悟了,他也要影响政策。如果他影响政策,第一个就会说你不能征税,继续保持他享有的税收优惠。另外他会坚决反对任何试图保护数据隐私的规则。因为他就是靠分析数据,卖数据来赚钱的。如果数据的使用变得不方便,亚马逊、facebook以后要怎么开发。所以最后人们丢失的隐私会越来越多。

真正要提醒大家的是,其实有一些事情大数据是没有办法完成的。比如大数据没有办法预知未来。因为未来会发生的变化和现在的变化非常不一样,有路径的依赖性。为什么大数据能够预测个人行为?因为这个太简单了,假设当人数样本足够大时分布是正态的,正常人的概率是最高的,天才人物很少,智障的人也很少,所以大部分人都是可以被预测的。金融危机告诉我们,原来的经济学理论、金融学理论都存在巨大缺陷。按照传统的标准正态分布状的金融学模型,07、08年的金融危机大概250亿年会爆发一次,地球都没有那么长的寿命。但为什么打开新闻,遇到了50年不遇的旱灾,100年不遇的水灾,历史上从来没有过的上海雾霾天气等等。怎么都让我们赶上了呢?这种“黑天鹅”事件即使在大数据时代,也仍然是没有办法预测的。

在《黑天鹅》这本书里头,有一句非常好的话“你不知道的事情比你知道的事情更重要。”很多东西我们没有办法把它数据化,也没有办法把它预测出来。但如果现在数据足够多,它会给你一种幻觉,让人觉得有能够看得见、摸得着的规律。数据这么大、这么多,所以人们觉得有足够的能力把握未来。往往在人们过于自信的时候,会犯更大的错误。到目前为止,越是大的系统性危机,人们越束手无策。美国金融危机爆发后,美联储前前任主任格林斯潘到美国国会去作证,之后他说“我发现了一个缺陷,但我不知道它有多么严重,也不知道它会持续多久,这件事情使我深感苦恼。”有一个国会议员马上打断他,说:“格林斯潘先生,你的意思是不是说你根本不知道为什么会发生这次金融危机?”格林斯潘说:“是的,因为在过去40多年甚至更长的时间里,我都有非常雄辩的证据证明我的做法会如愿所想。”这么大一场危机到来了,美联储的掌舵人却不知道为什么会发生金融危机!

1990年苏联解体,原来不可一世的帝国在一瞬间灰飞烟灭。如果去问戈尔巴乔夫为什么苏联会解体?他会说“我不知道,没有人跟我报告。”9·11恐怖袭击以前,美国从来没有在本土遇到过这么大的事情,除了“珍珠港事件”。之后小布什发表电视讲话:“谁打我,我绝不善罢甘休。”但当他发表这个电视讲话的时候,作为美国总统,他连谁打他的都不知道。所以在未来,真正需要我们引起高度警惕的是,即使你有了大数据,也没有办法完全知道系统性的事件和危机,例如“黑天鹅”的事件。

一个数据分析师写过一本书叫《信号与噪音》。其中讲到真正的信号是有用的信息,还有很多没有用的信息是干扰决策的噪音。“我们总觉得信息量越大,能够得到的真理就越多。其实不是的,信息增长的速度要远远快于真理增长的速度。”颠覆不灭的真理也就 “马克思主义”一条,而信息增长的速度非常快。所以在信息中,噪音所占的比例会越来越高。所以不要以为你的数据越多,就能离真理更近,有时候信息越多,噪音越多,反而干扰决策。所以有时候知识的边际收益是递减的。为什么会出现这种情况?因为从本质上来说,世界是一个复杂体系,而复杂体系从理论上讲是不可预测的。

数学家和物理学家已经做过实验,最简单的复杂体系就是沙堆。人们堆沙子堆到最后,只要再往上放一粒沙子,整个沙堆就会像雪崩一样倒塌。这是一定的,不然沙堆就可以堆到月亮上去了。但人们没有办法预测,何时再往上放一粒沙子沙堆会倒塌。即使用计算机调来预测也预测不了。因为每粒沙之间都是相互联系的。原来有100粒沙子,再放第101沙子后,原来100粒沙子之间的关系都会自动改变,所以计算量会呈几何基数倍增长,到最后越来越复杂,永远不可能把每一个未来可能出现的情况都预测出来。

那就听天由命吗?也不是!我们还能够更接近事实真相,这时候我们要训练的是在纷繁复杂的现象之中,寻找表面上没有关系的事物之间的内在联系。以色列有位传奇式的间谍头目——法卡石,因为现在卫星、窃听技术很发达,有很多窃听的资料,卫星云图。法卡石来了之后,尽出怪招。他派人到叙利亚的首都大马士革看晚上演什么戏,然后派人到黎巴嫩的首都贝鲁特调查保姆是否抢手。他的任务是去找真主党游击队坦克的隐藏地,为什么要管演什么戏呢?看起来没有联系的事物之间其实是有联系的。叙利亚是个很穷的国家,所以有大量的劳动力流动到黎巴嫩打工。如果你发现黎巴嫩保姆抢手,就说明它经济很繁荣,那么会有更多叙利亚劳工到黎巴嫩打工,之后把外汇收入汇回去,大马士革就会歌舞升平。这时候就可以放心,叙利亚没有兴趣来打以色列。一旦黎巴嫩的经济不行,叙利亚的经济也会受到影响,叙利亚人民就会不满。那么叙利亚政府就会将人民的悲惨生活归结于万恶的以色列人,就会攻打以色列,那么以色列就会有风险。

所以看起来没有联系的事物之间,实际上是有联系的,所以一定要去寻找万物之间的普遍联系。试验心理学家叫做奈斯比特做过一个实验,研究东方背景的学生和西方背景的学生的认知差异。他把东方背景的学生和西方背景的学生找到实验室里头,给他们看图。比如一个森林里面有一只老虎。他有一个仪器能够记录看图时眼睛的轨迹。他发现西方的学生很有规律,先扫一下这个图,然后发现图的主题是森林中的老虎,之后就盯着老虎去看。但如果把同样的图给东方的学生,东方学生的眼神是很散乱的,先看老虎,再看树林,再看画框,再看老虎的尾巴。对西方人来说,这是很没有逻辑,并且无法理解的。

教授的解释是东方人的背景非常复杂,东方人的本能是一定要把背景信息全部掌握,才敢下判断。问当官的朋友“最近过得好不好?”他肯定会先想,这句话什么意思呀?他得想半个小时才会告诉你好还是不好。他一定会努力的把所有可能的背景信息都找到,才敢下判断。这也影响到东方和西方思维在各个方面的不同。

西方说讲到战争,克劳塞维斯的《战争论》说道打仗就是集中优势兵力,攻击别人的薄弱环节。看左翼不行还是右翼不行,然后用炮兵猛轰薄弱环节,打开一个缺口,然后敌人一溃逃就去追。而东方人讲究不战而屈人之兵,就是快要打仗了,老琢磨别的什么事。派个美女过去行不行?离间计行不行?把对方爸爸抓过来威胁,熬一锅汤给他喝行不行?找几个儿童,编一个童谣去散布谣言行不行?快打仗了,还琢磨这些干什么?最后发现还真管用。西方人只任巴顿这样的常胜将军。中国人的最高境界叫无名将军,都不知道他打过仗,他从来没有打过仗,每次派一个美女就搞定了。

这个实际上是东方人的优势,中国人不太适合做逻辑推理,但比较适合在看起来没有联系的事物间,找到普遍联系。在分析未来的时候,要更多去关注慢变量。快变量能够让人们寻找到它的变量,但要用它推测未来长期的变化不太管用。慢变量往往数量很少、变化小、不高频、没有直接联系,但往往是最重要的因素。

比如人们到海边,问为什么海上有波浪?如果信奉快变量,肯定会很快回答因为今天刮风了,无风不起浪。但海上有波浪最主要的原因是月亮。月亮离我们很远,没有任何直接的关系,而且它挂在那里几十亿年没有变过。但月亮是决定海上潮汐最根本的原因。所以有时候关键不在于数据的多少,而在于能不能够找到内在的联系。

最后讲一讲如果我们未来的世界越来越相互联系,有越来越多的风险,到底该怎么办?推荐一本书叫《恢复力》。我们现在想怎么能够跟别人连起来,但一旦连接起来,系统性的风险就会提高。比如90年代的时候,银行金融体系出现危机就出现危机呗,我们可以把一个银行关掉慢慢解决问题。包括到现在我们其实还没有真正的连接上,但一旦把所有金融体系全部都连起来了,风险就大了。假如鄂尔多斯的房价下跌了、温州的房价下跌了,人们的资产负债表就得重启。好处是能够享受更多的规模经济,但一旦出现系统性危机,可能就死无葬身之地。

我们既想连接起来,又想避免风险,就得有安全岛策略。举一个例子,赤壁大战时曹操把船全部都用铁链连起来是非常好的,这样士兵在船上如履平地,就不晕船了。但一旦着火,就会全部被烧掉。其实稍微做一点技术改进就行了,比如一个链条做得跟别的不一样,留一个缺口。一旦着火,把这个链条砍断,别的还可以安全。原本智能电网的设计也是全部联起来,现在智能电网的设计,一要实时监控,二要预测未来。而不是像过去那样,只靠历史数据预测。重要的是让每一个模块更简单,然后可复制,并把它们连起来。一个个小模板连起来,之后如果出现问题,就把它砍断,那么这个电网还是能够正常运转。

这其中的启发是一方面要把它连起来,另外一方面要想到,万一出现系统性危机时,出现风险如何处理。物理学、地震学、气象学、森林科学等各种科学总结出的一个规律便是,大风险和小风险都是一样的。这一结论和我们的认知模式是相反的,我们总觉得小危机有其原因,大危机有其另一个原因,这也是为什么《阴谋论》在中国很好卖的原因,因为我们总相信大事件的背后有一个大的原因。如果说第一次世界大战就是擦枪走火打起来的,很多人不信,认为这么大的事一定是有阴谋的。他们觉得美国金融危机一定是有阴谋的,十八届三中全会肯定也是有阴谋。但历史有的时候真的就是偶然的。

实际上大危机和小危机的原理都是一样,就好像8、9级的地震和2、3级的地震原理都是一样,但2、3级的地震连感觉都没有,而8、9级的地震可以把城市摧毁。交通事故也是一样,一辆车把行人脚给碾了,和一辆车把行人撞死了,其实原因可能都是因为行人闯红灯了。历史规律的本质就是偶然,没有什么必然的。人一生中最大的历史事件,出生就是偶然的。如果相信小危机和大危机都是一样的,那么在进行危机防范的时候,一定要容忍小危机。容忍小危机才能够把危机原理看清楚,才能节约资源节去防范大的致命的危机。

过去,我们很多时候对小危机是零容忍的,但这是错的。有这样一个故事,因为美国森林公园经常出现森林大火,最后森林防火队就下了死命令,只要有火,就一定要扑灭。但后来发现火越扑越多。如果一旦有火,就把它全部扑灭,那么森林老化的速度会加快。森林中那些死掉的树木,枯枝败叶,都是易燃物质,一旦有一根火柴把它点燃了,火灾蔓延的程度会广得多。所以最后防火队痛定思痛想了一个办法,如果火灾不是人为的,且在可控制范围内,就不管它。甚至森林防火队会主动放一把火,烧出一些隔离带,等真有火灾的时候,烧到隔离带火势就停下来。所以我们必须主动去承担小风险,这是防止大风险的最好的办法。就好像防止森林火灾最好的办法,就是自己先放一把火。

我今天就用这些时间和大家讲讲大数据的时代能带给我们的启发。如果我们把它应用的淋漓尽致,能够找到原来看不出来的很多规律;但是大数据时代也有它没有办法完成的任务。我们最容易犯的一个风险,就是我们只看到大数据的好处,忘记了它可能会存在的风险。如果想避免风险,那就一定要做好危机的防范。谢谢大家!

本文分享自微信公众号 - PPV课数据科学社区(ppvke123)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2014-09-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 百度,人工智能你真的行吗?

    孙正义的软银当年在名不见经传的阿里巴巴身上投下了2000万美元的赌注,现在软银所持的股份价值据估算暴涨到了大约580亿美元。现在,他看到了新的趋势,并部署了软银...

    机器人网
  • 元数据(MetaData)

    元数据是用来描述数据的数据(Data that describes other data)。单单这样说,不太好理解,我来举个例子。 下面是契诃夫的小说《套中人》...

    ruanyf
  • 国家重点研发计划云计算和大数据重点专项“大数据多模态交互协同关键技术”项目启动会顺利召开

    2018年1月18日,由中科院自动化所徐常胜研究员牵头的国家重点研发计划“云计算与大数据”重点专项“大数据多模态交互协同关键技术”项目启动会暨实施方案论证会在中...

    WZEARW
  • 聚焦高质量发展:人工智能 澎湃发展新优势

    我国基础研究成果突出,产业应用加速推进 《 人民日报 》( 2018年01月10日 10 版) ▌开栏的话 ---- 新年伊始,让我们把目光投向人工智能——刚刚...

    WZEARW
  • 自动化机器人将是富士康投资重点

    据台湾《经济日报》报道,台湾富士康董事长郭台铭表示,富士康7月起将扩大在台投资,并持续召募新血。他强调,在富士康工作的大学毕业生薪资都超过30K(约合6234元...

    机器人网
  • 中国区块链专利申请数量全球最高

    世界知识产权组织的数据显示,中国去年申请225项区块链项专利,其次是美国(91项)和澳大利亚(13项)。 ? 去年,中国是区块链专利申请方面最活跃的国家,中国科...

    WZEARW
  • 常见的大数据术语表(中英对照简版)

    大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,我们通过本文给出一个常用的大数据术语表,抛砖引玉,供大家深入了解。其中部分定义参考了相应的博客...

    机器人网
  • 1365 浴火银河星际跳跃

    1365 浴火银河星际跳跃 时间限制: 1 s 空间限制: 128000 KB 题目等级 : 黄金 Gold 题目描述 Description 小...

    attack
  • 聚焦云计算、 大数据、 人工智能和区块链,中国信通院发布《中国金融科技前沿技术发展趋势及应用场景研究》(附下载)

    近日,由中国信息通信研究院主办,中国银行业协会、中国支付清算协会、中国互联网金融协会共同支持,数据中心联盟、天津融宝支付网络有限公司、互联网金融科技委员会联合承...

    WZEARW
  • 机器人和自主系统专利决定汽车工业未来

    机器人和自主系统被英国确定为关系未来发展的八大关键技术领域之一。此结论是基于英国知识产权局(UK IPO)对十年来全球机器人和自主系统专利的分析得出。机器人和自...

    机器人网

扫码关注云+社区

领取腾讯云代金券