首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

读《大数据时代》

现代社会已进入智能和数据时代,在社会的留痕和活动产生了大量的数据,而如何去利用这些数据,以及数据会带来的哪些变革正式本书要说的。

作者是维克托.迈尔-舍恩伯格教授,翻译周涛

作者提出了三个数据理念上的转变:要全体不要抽样,要概率不要绝对精确,要相关不要因果。而本书主要说的是一些概念和理论,如何去做作者没有提及,所以本书可以是接触理念或入门的书籍

要全体不要抽样,样本=总体

限于过去信息处理水平和速度的问题,海量数据无法处理过来而不得不采用部分抽样的方式进行处理和给出结果,而现在技术的发展,很多事情可以通过全体数据进行处理,但现在也不代表所有问题都是可以用全体数据,仍然有很多问题是目前技术无法解决智能抽样处理的。

因为数据量的几百倍的增加,通过系统数据统计分析等得出的结论可能和以前是不同的,比如找到异常值,发现一些相关关系,这些是以前达不到的,而这些却能实实在在的提供有效帮助。

要概率不要绝对精确,不是精确性而是混杂性

为了精确是要付出代价的,需要花费人力物力来验证和证明精确性,而引入大数据后,会有数据质量或其他问题,但因为数据量的增加,这些问题已经不是主要问题,因为在海量数据中,问题数据不会对结果造成很大影响。

社会上可能5%的数据是结构化的,剩下95%的数据是非结构化数据,如果我们要追求精确,则只能使用5%的数据了。

接受混乱,可能为我们带来意想不到的用途,谷歌通过混乱的数据优化了翻译系统

要相关不要因果

作者提出知道是什么就足够了,不需要知道为什么,这个确实如周涛老师所说,有些偏颇,但就思路而言,大数据的运行可以让我们可以统计数据的相关性,然后为决策提供一些依据。

如何将信息数据化,未来是更关心信息(I)上,如何来做,可能有哪些创新来支持我们做到信息的数据化,作者提到的地理位置为了方便数据化而需要制定统一标准等,最后美国提出的GPS,中国的北斗等。

数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像悬浮在海洋中的冰山,第一眼只能看到冰山的一角而绝大部分都隐藏在表面之下。为了解决垃圾邮件等问题,冯.安引入了验证码(全自动区分计算机和人力的图灵测试),当他意识到每天有很多人要浪费10秒钟的时间来输入这堆恼人的字母,而随后大量的信息被随意的丢弃时,他开始寻找能使人的计算能力得到更有效利用的方法,被命名为ReCaptche,和原有随机字母输入不同,人们需要从计算机光学字符识别程序无法识别的文博扫描项目中读出两个单词并输入,为了保证准确度,系统会将同一个模糊单词发给五个不同的人,直到他们都输入正确后才确定这个单词时对的。在这里,数据的主要用途时证明用户是人,但他也有第二个目的:破译数字化文博中部清楚的单词。

在处理大数据时,与三方面要考虑,数据/技术与思维三个方面,随着技术的发展,技术已经日益成熟,思维时非常重要的,但比较容易被复制,而数据时长期积累的,历史沉淀下来的数据可以为公司提供非常有效的竞争力。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180406G1177A00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券