大数据时代(BIG DATA)

—-豆瓣链接—-第一部分:大数据的时代思维变革不是随机样本,而是全体数据

小数据时代的随机采样,最少的数据获得最多的信息采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。简单解释是,当样本数量到达某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。所以可以认为样本选择的随机性比样本数量更重要。随即采样是在不可收集和分析全部数据的情况下的选择,存在许多缺陷,比如实现采样的随机性非常困难,比如考察子类别。全数据模式,样本=总体大数据不同与随即采样,大数据采用了所有数据的方法。比如谷歌通过分析整个美国几十亿条互联网检索记录预测流感趋势。

不是精确性,而是混杂性

允许不精确对于“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。比如追求更高精度的对时间、空间的测量。在新情况下,允许不精确的出现已经成为一个新的亮点。放松了容错的标准,人们可以掌握更多的数据,利用这些数据做更多新的事情

不是因果关系,而是相关关系

知道人们为什么会对某些信息感兴趣是可能是有用的,但这个问题目前并不是很重要。但是,知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商务。通过给我们找到一个现象的良好的关联物相关关系可以帮助我们捕捉现在和预测未来。建立在人的偏见基础上的关联物监测法已经不再可行,因为数据库太大,考虑的领域太复杂。取而代之的是机器分析。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。建立在相关关系分析法的基础上的预测是大数据的核心。通过找出一个关联物并监控它,我们就能预测未来。但当收集、存储和分析数据的成本比较高时,应该适当地丢弃一些数据。相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。不受限于传统的思维模式和特定领域里隐含的固有偏见,大数据才能为我们提供如此多新的深刻认同。

第二部分:大数据时代的商业变革数据化,一切皆可“量化”

莫里的导航图说明远在信息数字化之前,对数据的运用就开始了。数据化是指一种把现象转变为可指标分析的量化形式的过程。数字化是指把模拟数据转换成0和1表示的二进制码的过程。计量和记录一起促成了数据的诞生,它们是数据化最早的根基。数字化带来了数据化,但数字化无法取代数据化。当文字变成数据,则人可用之阅读,机器可用之分析。当方位变成数据,我们可以预测人类行动,预知并避开交通拥堵。有了大数据的帮助,我们不再会将世界看做是一连串我们认为或是自然或是社会现象的实践,我们会意识到本质上世界是由信息构成的。将世界看做信息,看做可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观

“取之不尽,用之不竭”的数据创新

数据的基本用途为信息的收集和处理提供了依据。不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地处理数据再利用:数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。重组数据:随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集中的总和重组在一起时,重组总和本身的价值也比单个总和更大。 可扩展数据:鼓励相同数据集的多种用途。数据的折旧值:即使数据用于基本用途的价值会减少,但潜在价值却依然强大。数据废气:当用户指出电脑化服务误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好。开放数据:“开放政府数据”的倡导者主张,政府只是他们所收集信息的托管人,私营企业和社会对数据的利用会比政府更具创新性。

数据、技术和思维的三足鼎立

大数据价值链的三大构成:基于数据的公司(Twitter)、基于技能的公司(Teradata)、基于思维的公司(Jetpac)。大数据掌控公司:接触到数据、有权使用数据或者授权给他人。大数据技术公司:拥有技术和专业技能的公司。大数据思维公司和个人:有着大数据思维的公司和个人,他们的优势在于他们思考的只有可能,而不考虑所谓的可行。大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。数据中间商:它们会从各种地方收集数据进行整合,然后再提取有用的信息进行利用。大数据公司的多样性表明了数据价值的转移。随着数据价值转移到数据拥有者手上,传统的商业模式也被颠覆了。Roadnet和Inrix说明了数据中间商能够聚合各个数据拥有者的数据并使这些聚合的数据发挥更大的能量。行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。

第三部分:大数据时代的管理变革让数据主宰一切的隐忧

随着存储成本继续暴跌而分析工具越来越先进,采集和存储数据的数量和规模将爆发式地增长。如果说在互联网时代我们的隐私受到了威胁,那么大数据还会带来更多的威胁。毕竟,大数据的核心思想就是用规模剧增来改变现状。数据的价值不在单纯来源于它的基本用途,而更多源于它的二次利用。大数据时代,很多数据收集的时候并无意用作其它用途,而最终却产生了许多创新性的用途。在大数据时代用技术方法来保护隐私是天方夜谭。有意识地避免某些信息可能会起反作用。而匿名化在大量多种数据的分析下不起任何作用。出现以上的无效性是因为两个因素:我们收集到的数据越来越多,我们会结合越来越多不同来源的数据。大数据可以帮助预测罪犯,但如果这样,人们不是因为所做而受到惩罚,而是因为将做,即使他们事实上并没有犯罪。在由“小数据”时代向大数据时代转变的过程中,我们对一些信息的局限性必须给予高度的重视。数据的质量可能会很差;可能是不客观的;可能存在分析错误或具有误导性;更糟糕的是,数据可能根本达不到量化它的目的。这样很可能会导致“数据独裁”。其实在很多时候,卓越的才华并不依赖于数据(比如乔布斯依赖于自己的直觉而不是数据)。只要得到了合理的应用,而不单纯知识为了“傲据”而“数据”,大数据就会变成强大的武器。大数据诱使我们犯下罗伯克·麦克纳马拉(越战中痴迷战场统计数据)所犯的罪行,也让我们盲目相信数据的力量和潜能而忽略了它的局限性

责任与自由并举的信息管理

管理变革1:个人隐私保护,从个人许可到让数据使用者承担责任。社会必须平衡数据二次应用的优势与过度披露所带来的风险。为实现这一平衡,监管机构可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风险和社会价值观的不同。管理变革2:个人动因VS预测分析。当政府或机构依赖大数据预测来做出关乎我们个人利益的决策时,那就需要特定的防护措施:公开原则公正原则可反驳原则、最重要的是个人动因能够防范“数据独裁”。管理变革3:击碎黑盒子,大数据算法师的崛起。大数据的运作是在一个超出我们正常理解范围之上的。所以,大数据需要被监测并保持透明度。这就需要新型技术和机构来为众多领域提供支持,防止人群被错误诱导。管理变革4:反数据垄断大亨。防止数据被某些大公司所垄断

结语,正在发生的未来。凡是过去,皆为序曲。历史最悠久的做事方法并不是最好的。大数据时代是名副其实的“信息社会”。大数据给我们带来了巨大的风险,但我们可以建立规范自身的新准则。更大的数据来自人本身。在一个利用数据做出决定的数据里,人类的直觉、常识和意外运气就显得十分重要。因为科技永远无法揭示人类的伟大。大数据提供的不是最终答案,而只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心。铭记人性之本

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

summer it专栏

2 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

AI Talk | 思必驰首席科学家俞凯:深度绑定底层研究和产业问题

机器之心原创 作者:高琳 这个世界上的研究,总会有一些人去坐冷板凳,而坐冷板凳的人,他今天去坐明天不一定去坐。就像深度学习现在这么热,之前也有过很冷的阶段。 创...

4538
来自专栏钱塘大数据

发展大数据不要一味追求数据规模大,要“应用为先”

作者:李国杰 ? 中国信息化百人会学术委员、中国工程院院士李国杰认为,目前大数据技术还不成熟,面对海量、异构、动态变化的数据,传统的数据处理和分析技术难以应对...

34411
来自专栏新智元

【微软芮勇】人工智能时代,我们能做什么?

【新智元导读】微软亚洲研究院常务副院长芮勇在《新智元:机器+人类=超智能时代》书中畅想人工智能发展6大阶段,详细介绍微软语音识别、图像识别、牛津计划等多项人工智...

3178
来自专栏钱塘大数据

《哈佛商业评论》:人工智能商业之路的机遇和挑战

250多年来,经济增长的根本动力一直是技术创新。其中最重要的是经济学家所谓的通用技术——包括蒸汽机、电力和内燃机。每一个都催化了互补创新和机遇的浪潮。例如,内燃...

38411
来自专栏AI科技评论

盘点丨2016 这一年,深度学习开始主宰互联网

AI 科技评论按:2016 即将画上句号,当我们回顾这一年的科技进展时,很难不联想到一个词——深度学习。当它从研究室中脱胎而出,并成为今年的当红热词,实际上我们...

3486
来自专栏产品成长日志

转型AI产品经理需要掌握的硬知识(一):AI产品经理能力模型和常见AI概念梳理

近几年,从亚马逊, Facebook,到谷歌,微软,再到国内的BAT,全球最具影响力的技术公司都将目光转向了人工智能( AI )。2016年 AlphaGo 战...

2643
来自专栏数据猿

我们正在进入一个软件定义的时代 要学会创造性地运用大数据和人工智能 | 大咖周语录

从云计算到大数据,人工智能已经具备了相对坚实的基础。不过,从当下人工智能的发展现状看,大部分的人工智能还停留在大数据分析阶段,距离真正的人工智能还有一定的距离。...

3245
来自专栏人工智能头条

BDTC 2015之机器学习关注:金榕、漆远、余轶南的分享,百度、阿里、滴滴、微博的实践

2343
来自专栏AI科技大本营的专栏

Google Brain团队最新视频介绍

刚刚,Google Brain团队发布了一个全新的介绍视频"Meet a few of our machine learning makers",Jeff De...

4196
来自专栏钱塘大数据

【大咖说】发展大数据不要一味追求数据规模大,要“应用为先”

导读:中国信息化百人会学术委员、中国工程院院士李国杰认为,目前大数据技术还不成熟,面对海量、异构、动态变化的数据,传统的数据处理和分析技术难以应对,现有的数据处...

3766

扫码关注云+社区

领取腾讯云代金券