读书笔记|大数据时代

写在前面的

大数据这个概念在最近这几年很火,大家也大概知道大数据到底是个什么东西,它是如何运作的。现在好多产品上面都会有“猜你喜欢”这一功能,这就是利用大数据实现的。我们每天都在利用大数据或被大数据利用,但是我们当中应该没有多少人真正知道大数据时代给我们带来什么改变。这本书主要从大数据带来的思维变革、商业变革、管理变革三个方面来写。我主要会把这本书中的思维变革和商业变革写出来(因管理变革目前我们中大部分人还用不到,所以就先不写),本篇写思维变革、商业变革下篇连载。

(本书框架图)

1要全体数据、不要样本

在信息处理能力受限的年代,世界需要数据分析,却缺少用来分析所收集数据的工具,所以只能用随机抽样的方式进行数据分析。

但是真正的大数据时代是指不用随机分析法这样的捷径,而采用所有数据的分析方法。通过观察所有数据,来寻找异常值进行分析。

比如:信用卡诈骗是通过异常情况来识别的,只有掌握了所有数据才能做到这一点,在这种情况下,异常值是最有用的信息,你可以把他与正常交易情况作对比从而发现问题。

2要效率、不要精确性

在如今的信息时代。我们掌握的数据库越来越全面,她不再只包括我们手头那一点可怜的数据,而是包括了与这些现象相关的大量甚至全部的数据。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。但是正因为我们掌握了几乎所有的数据,所以我们不再担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。这就是由“小数据”到“大数据”的改变。

有时候当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握食物的发展趋势,大数据不仅让我们不再期待准确性,也让我们无法实现准确性。

值得注意的是,错误并不是大数据本身固有的。他只是我们用来衡量、记录和交流数据的工具的一个缺陷。如果说哪一天技术完美无缺了,不精确度的问题就不复存在了。错误不是大数据固有的特性,而是一个需要我们去处理的实际问题,并且可能长期存在。

混杂性不是竭力避免,有的时候可以为我们所用。互联网最火的产品都会表明,不精确性、混杂性要更好点。

比如微信朋友圈:朋友的发动态时间,在一小时之内的会显示多少分钟之前,在一小时以外的就只显示几小时前。

在微信公众号阅读量显示,为什么超过十万以后显示地是100000+,而不是具体数据,因为超过十万以后的数据,我们心中或许就没啥概念了,没有一个参考衡量的标准了,十万已经会让我们觉得这篇文章很厉害了,能达到目的,就没必要精确。

3要相关关系、不要因果关系

知道是很什么就够了,没必要知道为什么。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己发声。

比如:知道用户对什么感兴趣即可,没必要去研究用户为什么感兴趣。

相关关系的核心是量化两个数据值之间的数据关系。相关关系强是指当一个数据值增加时,其他数据值很有可能也会随之增加。

相关关系是通过识别关联物来帮助我们分析某一现象,而不是揭示其内部的运作。

注意:即使很强的相关关系也不一定能揭示每一种情况,比如两个事物看上去行为相似,很有可能只是巧合。相关关系没有绝对,只有相似。

通过给我们找到一个现象良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。

比如:如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。

在小数据时代,数据分析专家会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。然后收集与关联物相关的数据来进行分析,以证明假设是否正确。但是由于这是建立在假设的基础上,那么分析结果也是有受偏见影响的可能。

在大数据时代,我们拥有如此多的数据,如此好的计算机能力,所以不再需要人工选择一个关联物或者一小部分相似数据来逐一分析。通过去探求“是什么”而不是“为什么”,相关关系帮助我们更好的了解这个世界。

本篇完

原文发布于微信公众号 - 张俊红(zhangjunhong0428)

原文发表时间:2016-06-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Java学习网

程序员从优秀到卓越的几点建议

程序员从优秀到卓越的几点建议 和其他技术一样,编程也有层次阶段之分——业余爱好者、普通级别和专家级别。关于这个问题我问过很多很多次—— 如何从优秀到卓越?这是一...

2709
来自专栏人称T客

报告丨2017云端HR服务与应用行业趋势解读(综述,发展,功能与花费篇)

T客汇官网:tikehui 撰文 |Felix ISG预测:截止到2020年,多于50%的公司会依赖SaaS或混合云端的人力资源(HR)和人力资本管理(HCM)...

2515
来自专栏互联网杂技

2018年伊始UX设计师需要思考的9个问题

每年,我们在uxdesign.cc都会回顾设计师在用户体验方面一直在写什么,分享和想什么。 2017年对于UX设计原则可以说是一个颇具变革性的一年。我们已经看到...

3125
来自专栏云计算D1net

2015是云计算3.0及云端融合的时代

最近几年,云计算的应用及落地被谈论了很多,也在很多方面被实践着。黄罡,北大软件所副所长,一直专注于云计算技术领域的研究,在他看来:云计算是新一代IT引擎,从技术...

4369
来自专栏量子位

要为人工智能革命做好准备,每一家企业都应该做到这3点

李杉 编译自 HackerNoon 量子位 报道 | 公众号 QbitAI ? a媒体都喜欢报道人工智能。像“机器用想象力解决问题”、“神经网络发明语言”这样的...

3478
来自专栏大葡萄元元

(二)市场+运营+商务需要积累什么?

   上次说到渠道商务的局限性,权限有限可运作的范围也有限,但对于渠道不能光是坐等资源上门,对于有潜力的APP产品应该懂得挖掘......接触越来越多的开发者以...

801
来自专栏人称T客

报告丨AI能否成为下一代HR SaaS破局关键?

撰文 |Felix 在云端进行HR管理是个大趋势,至少在2020年,各种公司中几乎会有1/4应用混合和本地部署加SaaS系统。 不过,有些时候,大部分公司HR...

38511
来自专栏技术翻译

人工智能将如何改变企业的决策?

近年来,人工智能(AI)在科技领域取得了长足的进步。从挑选人们想去的餐厅开始,他们让Siri、谷歌助理、微软Cortana、AmazonAlexa等人工智能来控...

2290
来自专栏镁客网

关于AI芯片,这些头部企业是这么说的

刚刚落下帷幕的“2018年中国人工智能峰会”活动中,分论坛关于AI芯片的议题引发了多方关注。在AI的第三次浪潮中,摩尔定律再次被唤起,应用端强烈的需求加速AI芯...

1053
来自专栏BestSDK

开发手游和视频直播,这几款SDK必备

1、衣+物体识别 衣+是世界领先的人工智能计算机视觉引擎。致力于让计算机看懂世界,人工智能中的感知和认知智能,在图像视频中对场景、通用物体、商品、人脸的检测、...

3915

扫码关注云+社区