大数据的本质与它的另一面

全篇6200字,约需要9分钟

节选自本人即将出版的新书《XXXX》第4章第2.3节,题目有所改动

众说纷纭大数据

几年前,有幸参与大数据的研究及如何落地实操的课题,短短几年,此话题已然风生水起。何为大数据?为什么要发展大数据?大数据如何产业化?产业如何大数据化?大数据的未来会怎样?未来的大数据会怎样?……

这些都是最初我们的课题内容,时至今日,部分似已清晰,部分还很模糊。

关于大数据,

数学家会说:我最有发言权

政治家会说:游戏规则第一

经济学家说:还得回归供需

企业家会说:必需生成利润

宗教家会说:一切都是幻觉

艺术家会说:这些跟我无关

历史学家说:历史可以量化

法学家会说:这回轻松多了

......

中国社会几千年的发展历史,有个非常值得玩味的特点,那就是但凡某一新生事物甫一出现,伴随的不是一边倒地叫好,就是一边倒地反对。

具有讽刺意味的是,往往一开始不被看好或者不叫好的新生事物最后还活得很滋润,反之亦然。而这新生事物,无论思想的、制度的、技术的、伦理的,皆然。

未来是否还会如此,我看还会。当前,连普通老百姓都在谈论大数据的话题。他们究竟懂不懂大数据为何物已经不重要,反而重要的是——如果不谈就意味着你的资讯与语汇陈旧。

大数据当前的呼声之所以高,原因有仨:

1、自上而下的力主与力推。举凡中国的事,只要是自上而下的展开,从来都是顺风顺水的;

2、经济下行。伴随产能过剩与“去僵尸化”的企业的压力,我们宁可相信新思维与新工具的能量;

3、大数据有新亮点。在传统与现代,尤其在新旧经济交替发展的实证中,大数据作为一种新生力量确实表现出它的伟力,甚而让我们眼前为之一亮。

当然,关于大数据方面的言论与书籍已经够多了。你到任何一家书店,其显眼处多数都是跟大数据有关的书籍;你随便翻阅任何一家地方政府的阶段性报告或者年度报告,大数据也是频次提得较多的字眼。

大数据为何方神圣?它从哪里来?要到哪里去?很显然,我们之所以对大数据感觉不陌生,是因为我们每天都在创造数据,包括我们说的话、做的事;我们之所以对大数据感觉似懂非懂,是因为承载并分类大数据的科技工具让我们望而生畏,加之我们的专家学者又把大数据说得玄之又玄。

大数据的本质类同于中药铺原理

从实证的经验而论,欲认知A,最好的方式是找到类同于A的B。大数据的本质及其最终的产业化,无外乎历经“事实发生——数据产生——数据采集——数据分类——数据精算——数据应用”。

(大数据的本质类同于中药铺原理)

就是说,你得首先有问题,然后产生数据,并且要会采集,采集回来以后还要甄选、归类,最后再利用这些数据去服务于你的决策及其精准行为。也可以说,大数据是历史,而对大数据的精算及其应用则完全是着眼于未来。

中药铺的原理,与其何其相似乃尔,也即“海量病例——药物存在——药物采集——药物归类——药物配对——对症下药”。

首先,它们建立的全部前提就有三样:

1、病例确实是已经发生了(大数据);

2、找到“病症/药物”相对应的(有效数据);

3、药物(有效数据)是用来解决现实问题,也确实能解决实际问题的。

这个很好理解,假设没有病例或者没有医生对于病变数据的研究,吃药的动机就不会发生。而如果你试图跑到沙漠去采药,或者你本身就是个药盲,当然这个药物(有效数据)的存在就是句空话,因此,这是客观的前提与起码的意识基础;

其次,药物(数据)是本着解决问题也能解决问题而去的。但是并不妨碍其可以转换成财富进而形成产业,有了交易,就有市场,然后自然就促成了产业;

最后,经过这么多次交汇与持续性的联动,便会形成盘根错节的“人与药(数据)、药与药(数据)、病与药(数据)、人与人(数据)”的系统体系与多彩世界。

“病例——药物——医疗”的循环过程中,各方的数据越来越大,集数量、多样、速度、精度为一体的“病药医疗”体也愈发庞杂,但却总是朝着人类所渴望的易控与可控的方向在向前推进。

所谓“病万变药亦万变”,整个人类世界的医疗体系,其实就是遵照这病变与药变来循环、升级、转型而生成的。但是,其恒定的逻辑,一定是药围绕病来变,断然不会是病来围绕药转。

因此,我们可以说,理解大数据的原理,最好的切入口就是从观照中药铺的原理开始。而所谓大数据经济,则“数据产生的基础、数据精算的能力、数据人才的培育、数据安全的管理”,一个都不能少。

大数据的核心是大计算

究竟什么数据才算是大呢?大型制造企业和仓库多年积累下来的存货海量数据,高达几兆兆字节,算不算大数据?3000个PoS机的现金数据与几千份工作表中的数据算不算大数据?每天发生在盈利组织、社会管理机构的图像、视频、文本文件、电子邮件交流、社交媒体,音频文件以及其他算不算是大数据?

看是否经过有目的的大计算,而大计算所使用的标准就三样:

1.多样性

以上述的PoS数据为例,尽管数量庞大但它依然不是大数据,但是如果把从供应商处取得的数据与其整合后所构成的带规律性的供应链,则它们就成了大数据;

2.关联性

以天气预报为例,气象数据虽然仅仅是从一些基础的系统取得(气温、气压、风速等),但数据关系却极为复杂,即使是最顶尖的气象学家也不一定总能做出准确的气象预测。这个时候,他们就会使用高度专业化的数据分析方法以作出更准确的预测。当然,从这个意义上讲,地震的预报显然是超过目前人类的认知的,而随着未来智能社会生态与人工智能的进步,这个问题估计会得到不断改善;

3.因果性

很多人把因果性习惯地理解成经验论,其实是失之偏颇的,因为经验论只是一种很狭隘的认知论。换句话说,经验论多数是线性思维,但是因果论却包含了线性与发散两种思维。

比方说,当你想知道口红十月份的市场情况的时候,你所要的数据就不仅仅是你自己的采购记录了,你还需要整合社交媒体和其他外部市场数据,才能得到最佳答案。

(KK对数据的未来定义)

换言之,大数据里真正有效的数据是“软数据”,而硬数据多数只是陪衬。总之,数据发生是前提,数据采集是手段,数据计算是核心,数据转化是目的

高度智能化是大数据发展的自然结果

人类活着的基础动力就是对未知领域(或秘密)的可持续探究并获得自我认证。这秘密,既有自然界的,也有人类自身的。而能够获得称之为掌握了自然秘密或者人类秘密的人,无疑都被称着精英群体。

我们今天对于大数据及其大数据产业的良好预期,多数是建立在渴望它能帮助我们释疑诸多困惑之上的。

人类面对大多数的恐惧、不解、迷惑、误会、冲突,一开始的圣人们都告诉我们要靠内省。但事实证明,内省这种事只能是少数人做得了,芸芸众生还得靠社会律令或者物质性的认知工具。

在X光放射技术及其仪器还没有出现之前,凡遇见我们胸口的剧痛,我们或者整天忧心忡忡,或者坐以待毙。大数据已经热了几年,直到2016年李世石与AlphaGo的人机大战,方才引起我们极大的震撼。

于是,我们在半激动与半恐慌之际,迎接着这即将到来并被谓之“人类最后的发明”的人工智能(AI)时代。无疑地,AlphaGo使我们已经看到,人工智能通过自己和自己下棋积累经验的速度远远超过人类。

这样的情况下,会给我们这个社会产生什么样的影响?答案是:智能化时代就是以“会学习的机器”作为代表来帮助人类更好地探究未知领域。

回顾历史,机器把我们从非常繁重的体力劳动里解放了出来,且劳动效率也跟着提高了很多倍,同时也让我们的生产进入了专业化的模式。

就是说,我们生产出来的东西都是标准化的,大规模的去做,由此也给整个国际社会产生了很大的影响。包括国际贸易、商业化,甚至我们现在的社会制度,都跟工业化、机械化有着直接的影响和关联。

现在我们面临的下一个升级与变化,就是经过一个不会太久的信息化后的智能化时代。与机械化时代的“标准社会”相比,其表现出来的更多是“个性社会”,又称之为“非标时代”。

诚然,人工智能也还只是智能时代的一个侧面,而立体的智能社会,应当是一个高度智能化的物联世界。

要问——我们为什么还需要经历一个信息时代后才能到达数据智能时代呢?信息,多数是经过过滤并处理了的原始数据,其纯度同样会给决策者带来诸多的假象与不确定。而数据纯度的保证,则是需要配套系统的社会智能环境及其职能工具的。

故此,信息互联网阶段与智能物联网阶段是不可以同日而语的。互联网是一个信息共享体系,所有互联网的商业模式,都是在信息共享上做文章,而物联网却是一个感知体系,一个感知互动系统

互联网时代还是“人与车听从红绿灯”,而物联网则可以做到“红绿灯是听从并为人与车进行有效分流服务”的。

近年的互联网金融,为何祸患不断,因为互联网金融虽然让金融信息对称了,但是这个对称信息从哪儿来的呢?它还是人输入的———互联网的所有信息都是人输进去的。

而如果是物联网金融,那么它所有的信息,都是通过物联网的终端,以社会属性的架构,从实体世界感知后再对镜像作出的反映,它不会有假,顶多可能存在局部的不准确而已。

大数据是土壤,更是一种思考方式

如果任何事物的发展均遂我们的愿,那当然是件美事,但事实并没有那么简单。重点来讲就五个板块:

数据的开放方式与开放程度

个人隐私的采集与保护

谁采集谁精算谁管理

数据与事实

人与智能机器

1.数据的开放方式与开放程度

2009年1月,随着美国总统奥巴马签署了《开放透明政府备忘录》,并要求建立更加开放透明、参与、合作的政府以来,世界各国政府都在陆陆续续地在进行着这项工作。“目前我国信息数据资源80%以上掌握在各级政府部门手里,‘深藏闺中’是极大浪费”,某领导人以这句非常形象的比喻,准确地点出了当前我国政府数据开放的痛点。

2015年9月,国务院印发的《促进大数据发展行动纲要》,提出要加强顶层设计和统筹协调,大力推动政府信息系统和公共数据互联开放共享,加快政府信息平台整合,消除信息孤岛,推进数据资源向社会开放。

从全国来看,目前我国政府数据开放的实验仍集中在沿海发达地区,已正式上线开放数据项目的城市和地区包括:北京、上海、武汉、无锡、湛江、佛山南海、宁波海曙、深圳罗湖、深圳坪山、深圳福田和厦门海沧。当然,中西部也在逐渐开放中。

所谓开放数据,指的就是将原始数据及其相关元数据以可以下载的电子格式让第三方自由使用。它不仅意味着公开数据,更要让数据可以重复使用与自由加工。

我国的数据开放肯定是一个漫长的过程,这里边既有体制上的原因,也有观念上的问题。

一方面,政府部门往往把数据资源看成是本部门的权力资源,“你的就是你的,我的就是我的”,部门间的数据共享尚且如此,焉谈对社会的开放;另一方面,各部门的数据获取途径、筛选标准不同。

尤其一些数据还是纸质记录,数据质量参差不齐,无疑也加剧了开放的难度。光政府的“条数据”如何实现“块数据”就是个很大的难度。

另外诸如公民的社保缴费记录,患者的就诊记录,企业的工商登记信息……

这些数据的产权是个人与企业,还是属于政府部门?如何做出清晰界定,也是个问题。不过,随着数据的愈发庞大,海量的互联网聚集而产生更多的“互联云”的未来,这种情况会否得到改观呢?或许会吧!

2、个人隐私的采集与保护

个人数据与其在法律及伦理层面上不可以公开的隐私之间如何界定则是个头疼的问题。截至目前,我国还尚未出台全国性的数据隐私保护法规,而在全国首部地方性大数据法规《贵州省大数据发展应用促进条例》则规定:“数据共享开放,应当维护国家安全和社会公共利益,保守国家、商业秘密,保护个人隐私,保护数据权益人的合法权益”。

(可怕的数据泄密及其泄密途径)

3、谁采集谁精算谁管理

今天,收集人的行为数据在很多国家已经引起很多争议。包括能不能植入、怎么植入,及其植入之前要不要告诉用户?如果收集数据需要用户授权,这样用户就有权告诉你数据如何使用,那时很多大数据公司就将不再是大数据公司。

因为在大数据采集与作出服务之间是契约关系,同时也是需要作出快速回馈的过程。显然,单纯意义上的大数据公司就很难满足这种交易模式。

不过这样一来,行业格局又要意味着重新塑造,因为目前大的互联网企业在大数据方面是做得非常领先的。

4.数据与事实

提及大数据的现实与未来,我不由得想起著名的奥地利哲学家维特根斯坦的那句名言,“世界是事实的总和,而非事物的总和”。

那么,数据究竟是事物还是事实?是数据在追赶事实,还是事实在制造数据。个体固然有其独自冷静思考的能力及其认知的辨识度,但毕竟“势单力薄”,正所谓“一花一世界,一叶一菩提”。

群体当然也可以共享更多的数据,但集体能否产生最终的智慧,还是值得商榷的一件事。

人类的能力,确实强大,但那是需要放在一个大历史的框架里才能洞见的。一定时空的人们,多数都是在盲人摸象,设使大象是事实,而构成大象的成分是这众多的数据,那么会否数据越多,我们对于大象的判断就越接近事实呢?

通过大数据去认知事实并形成较好的预期决策,我们不但要相信大数据的伟力,还得要研究如何让数据更好地接近本质与事实。

诚如我们上述以中药铺来喻大数据原理一样,如果这中医师的方子配得不合理,那么药的数量及其质量非但没有意义,甚至还会造成更复杂的结果。采药、诊断、开方、熬制、服用,一个都不能少!

因此,数据大,只能讲它逼近事实,但不等于说就是事实。相反,在一个信息愈发超载的时代,我们思考得更多与更深的应当是如何在纷繁复杂的数据世界里迅速找到能够滋养自身的信息精华,不然,还是远离真相。

5.人与智能机器

对于多数人而言,生产工具往往就是我们最实在的拜教物。几千年来,人类就是通过技术的力量生产了海量的工具,既让其劳作,也让其保命。更多的,是我们创造了工具,往往又被工具所束缚。

今天,人工智能的发展已经以其迅猛之势在往前推进,而无论其精算能力抑或智能程度,均创历史之新高。

如果,三个臭皮匠就顶个诸葛亮的话,那么,一百个、一万个乃至一千万个呢?未来我们如何跟人工智能机器相处?答案,也许就在我们的发心里。

机器人之所以在近几十年里得以长足的发展,一方面是因为因为人类所固有的对于未知世界的探究欲,第二方面就是全球(尤其是发展中国家)都阶段性地遇到刘易斯拐点(人口红利消失理论)。

但是,机器人终究还是机器,并非如未来学家所鼓吹的那样危言耸听(况且他们在二战后就开始了这项宣传工作),未来真正稀缺和宝贵的资源还是具有进取精神和进取能力的创业家。

因为,构成人工智能真正威力的是隐藏于其后的人类学家、神经科学家、心理学家、金融大家、政治家、情报专家、法律专家、经济学家等等。

说到底,人工智能还得靠软件来支撑其行为。说到可怖的地方,是人与人之间是通过机器人来实现彼此的意图,进而会加剧更大的两极分化,从而造成以“无法直面沟通”为框架下的社会的不确定性。

机器固然可以看病,但真的治病,还得需要作为医生的人。

因此,大数据的全部价值是建立在卓有成效的大计算之基础上的,不然,反而是种负担。

大数据话题,很古老,因为从上古社会的结绳记事时就开始了;同时它又很新颖,新到每个人都可以谈。

大数据是历史,只有对其精算并实现转化,才是未来

大数据,是资源,也是土壤,更是一种必要的思考方式。

大数据究竟颠覆了什么?如果说一定有,则一个是我们的思维模式,一个就是很多已然约定俗成的价值观将面临重新评估。

流行的东西多半有毒。作为现代公民,对于被炒得沸沸扬扬的现象,首先要冷静,并找到本质。本轮产业革命是发轫于信息领域,自然是从生活方式倒逼出来的生产方式。

数据如何平权,以及互联网的原罪是什么?这些道理数据精英们自然心里有数,吃瓜看客无需起哄,更无需像看演唱会似的在力捧与一边倒的热议。

毕竟,一点点的移动支付,一点点的智能沟通,断然不能代表一个民族与一个国家的科技实力。

我们不要他太依赖于接受经济学者、企业家、专家、媒体人和政府官员们的片面解释,而未曾透过表面挖掘那些既不指向命运、也不指向我们自己的深层真相。

延展阅读

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180527G11SA200?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券