三本书拯救大数据“白痴”

团购、社交媒体、电商;云,O2O,大数据。每个阶段都有热点词。这会儿最热的应该就是“大数据”了。不过,有点滥,有点俗,似乎也有点泡沫化了。不用担心,一般来讲,讲得最厉害的时候,时候还早呢;等到无声无息了,那真是随风潜入夜了。但是,说真的,处于这个风云激荡创业年代的人们,如果能够静下心仔细了解点有关大数据的概念、框架、实质,对于形成所谓的“大数据观”,真心有必要,真心有帮助。

市面上如今关于大数据的书,近20种。挑出这三本,是有理由的。不仅单本比较靠谱,讲述得有意思,而且串联起来,竟然有逻辑联系,有互补,好像商量好了似的——首先看巴拉巴西的《爆发》,在一个历史故事的连续讲述中,了解大数据的概念实质;接着看舍恩伯格的《大数据时代》,明白大数据理念和生活工作及思维变革的关系;最后翻翻涂子沛的《大数据》,看美国政府在大数据开放上的进程与反复,算是个案。如果能够基本了解这三本的观点,出门有底气,见人腰杆直,不再被忽悠。

“人生看似杂乱无章,其实有规可寻”,巴拉巴西整本书讲述的大数据根本目的,是预测。他甚至有零有整地判断,人类行为93%是可以预测的。打个比方,千百年前人类无法如今天般准确预测天气,以致某些大致预测的行为都被认为是“通神”,其实核心在于对天气数据的海量占有和分析能力。但假如全人类的所有基础及行为数据全部被占有全部能分析呢?比如通过智能终端LBS功能采集全部运动轨迹、通过金融系统采集所有支付记录、通过SNS采集所有社会关系和通过邮件、文档、社会视频监控和自我视频监测采集所有言行记录,24小时,每分每秒,一生,全地球70亿人,那会如何?

人往极大和极小处思考哪怕想像的话,一方面头会疼会晕,一方面会因为这种宏大性或穷尽性而恐惧。科幻迷看到上面的描述,不知会否想起科幻小说巨匠阿西莫夫的《基地》系列,起源就是主角对银河帝国社会未来数千年的发展和危机的宏大预测,导致一系列绵延千百年的基地、第二基地拯救计划。也就是说,阿西莫夫大约在50年前就在思考“大数据”问题了。

巴拉巴西不是个通俗科幻小说家。他是全球复杂性网络科学领域最前沿的领军科学家,他要传递的不是科幻故事,而是一整套新的理解人类行为时空模式的观念和理论。作者的核心观点,是认为当我们将生活数字化、公式化和模式化的时候,会发现大家都很相似,都具备爆发模式,而且非常规律,看上去随意偶然,其实极易预测——前提自然是占有和分析海量大数据——而在计算机运算能力、网络发展阶段和社交逻辑被成熟之前,这些做不到而已。

科学的尽头和哲学、宗教是交融的。因此,巴拉巴西的理论不止是互联网复杂科学的一项探索,本质是一种新历史观的论证,甚至是一种哲学。这么深艰的命题,作者讲述得非常漂亮,十几章节讲述了十字军的一段历史故事,泰勒格迪预测主人公塞克勒起义并一路发展至兵败坐上“燃烧的御座”,带上烧红的铁王冠;讲述了艺术家哈桑的旅行,因为被安检不断怀疑是恐怖分子,而自愿“自我量化”,记录自己所有行踪并不断公布在个人网站,实现个人数据全积累全公开;一张一美元钞票被跟踪被记录所有的轨迹。可以说,这本书整个就在讲故事,这是我最佩服老外科学作者的地方,如此艰涩的话题,我们可以写成只有几个人懂的论文,他可以写成一气呵成的故事集!

转到《大数据时代》这本书。它被包括宽带资本董事长田朔宁、知名IT评论人谢文等专业读者鉴定为“大数据领域最好的著作没有之一,一本顶一万本”。有这么好吗?看完自己评价吧。这本书对这个大规模产生、分享和应用数据的新的大时代进行了阐述和厘清,作者围绕“要全体不要抽样、要效率不要绝对精确、要相关不要因果”三大理念,通过数十个商业和学术案例,剖析了万事万物数据化和数据复用挖掘的巨大价值。

如作者所言“大数据开启了一次重大时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们看清微生物一样,大数据要改变的是,我们的生活方方面面以及理解世界的方式”。比如,谷歌通过全球搜索分析,比国际疾病控防中心更早更准地预测了流感爆发。

在思维变革部分,作者讲述的重点是:样本=总体,我们需要对全部数据的占有和分析;因此,数据缺乏时代的精确性不必执迷,接受混杂基于大数据的简单算法比小数据的复杂算法更有效;样本推断的因果关系不重要了,知道“是什么”的相关关系,或者结果就可以了。如果说上一本《爆发》是通过讲故事阐述一个核心观点的话,这一本倒是不遗余力、不计巨细就大数据的方方面面进行系统分析和介绍,而且案例非常精彩非常时新。所以,个人觉得,就实务而言,这本的裨益确实比较大。

涂子沛那本冠以《大数据》名字的书,我是在三星NOTE上完整看完的第一本手机电子书(花了30元,我是愿意为好数字内容花钱的!)。全书讲述的,是大数据在美国政府管理中的应用,以及美国政府运行方式大数据变革的历史与斗争,其实也是故事性的。从奥巴马上台就颁布《信息公开法案》,到设立第一个美国政府首席信息官开始,讲述美国政府与民间在社会数据公开的斗争史,以及美国社会管理向大数据思维转变的过程。首先,这算是一个最详实的案例;其次,这代表的不是某种管理方式变革,深处是对民主运行机制的变革与进步。说好了,这本书用心良苦,远远超越科普技术领域;说坏了,其心可诛。有一段,民间斗争,逼迫奥巴马公布所有每日白宫全部日程,包括接见了谁、谈话的全部内容,这不就是个人大数据全公开在公众人物上的应用吗?这可比现在所谓官员公开财产的要求高了几十倍——这要求政府全部行为、全部数据、全部公开,全体公众随时可查——技术和成本上其实已经可以做到或至少努力接近——如果不这么做,不止是落后问题而是真正的其心可诛了。

三本书,延续观点——实务——案例分析的路径,全景展示了大数据这个东西。但重要的是,大数据是个概念,是个趋势,更是一种“观”,看世界、看未来的一种方法。我们可以拒绝那些言必称大数据的人的浮躁,但绝对不能拒绝世界潮流的确定走向。而就企业而言,包括全球的谷歌、苹果、FACEBOOK等互联网巨头,沃尔玛、塔吉特、亚马逊等零售巨头,中国的BAT三巨头,早就实质上已经是大数据玩家,并且狂奔在大数据潮流上很久,而其他叫唤“大数据”的其实连基本资格都没有——叫的狗不咬人。可以说,除了巨头,所有其他家伙都跟大数据沾不上实质的边,只有打打下手的机会;但实际上,每个企业,甚至个人,都已经是大数据的一部分、一环节了。

数千字难言书中真谛。马上开始你的拯救大数据白痴之旅吧。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-04-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

涂子沛:中国文化缺乏数据因子

人物简介 涂子沛,江西吉安人,生于1973年。本科毕业于华中科技大学计算机系,研究生分别就读于中山大学和卡内基梅隆大学。现居美国硅谷。2012年其著作《大...

3455
来自专栏华章科技

大数据带你看清孩子内心的四大渴望

不少人都说现在的孩子越来越难懂了。因为现在的孩子们都很有自己的想法的。你可知道你家孩子内心最渴望的是什么吗?也许读完这篇文章后,你可以和孩子说一声:我懂你~

721
来自专栏大数据文摘

当人工智能遇上物联网

1322
来自专栏高性能服务器开发

一个创业程序员的35岁人生总结(五)

那么创业的本质到底是什么呢?思考的方向对了,答案很快就找到了,但是得出结论时的心情很复杂:通透、兴奋、失落、迷茫、无奈,可谓五味杂陈。这个结论就是:利润!!!看...

1312
来自专栏新智元

AI 技术成为西南偏南大会热点,物联网促成情感分析

【新智元导读】对于AI技术和影响的讨论成为今年SXSW的热点话题。我们选取了Change Sciences的创始人和CEO Pamela Pavliscak关于...

2795
来自专栏钱塘大数据

未来已来,2017年大爆发的15个新科技

技术所带来的革命性体验,一直是未来社会发展的风向标。无人机、人工智能、大数据、VR\AR……好多词汇你已经听到耳朵起茧,但这些技术究竟还有哪些可能性,你也许并不...

2877
来自专栏大数据文摘

可穿戴设备之父艾里克斯·本特

1775
来自专栏机器人网

故事揭秘:机器人如何帮助Autodesk实验室做应用研发?

---- 设计软件巨头Autodesk有一个名为Pier 9的工作间,它是公司的产品制造区,总面积27000平方英尺,内有木工车间,金属车间,3D打印室和电子...

3068
来自专栏带你撸出一手好代码

论女程序员的重要性

在互联网挨踢行业, 搞技术的人群中,男性从业者的数量是以压倒性的优势胜过女性从业者, 多年来本司机一直在思考这个问题, 倒底是什么原因导致这样的现状? 有的人认...

4067
来自专栏闰土大叔

低文凭的程序员,以后出路在哪儿

昨天有个朋友在微信上跟我聊了聊他目前的处境,我觉得这个话题很有共性,所以将我们的对话分享出来,以供各位参考。

972

扫码关注云+社区

领取腾讯云代金券