首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >吐槽版评《大数据时代》一点笔记和一些琐碎的感想

吐槽版评《大数据时代》一点笔记和一些琐碎的感想

作者头像
小莹莹
发布2018-04-18 14:57:29
4280
发布2018-04-18 14:57:29
举报

我觉得维克多的“相关关系比因果关系更重要”指的应该是以数据预测为目的的时候,不应该过于看重去通过找寻数据产生的关联性的原因然后去推测规律,而是直接把相关性作为原材料去进行数据推测。译者的评论有点过于形而上。从大处讲,始终不忘对因果的追求当然是人始终处于控制地位保障,但是是这个时候过渡注重因果会限制住数据预测的准确性以及效率。

  系统可以通过一种“反馈学习”的机制,利用自己产生的数据判断自身算法和参数选择的有效性,并实时进行调整,持续改进自身的表现。

  觉得模拟数据终将会被数字数据取代,拓展一下想到“货币”这种充当等价物的特殊商品也只不过是充当商品价值的模拟物罢了,迟早会彻底消失的,价值也将只需通过数字数据保存下来,省去量化载体。嘛,那样的话这个世界真的是节能多了~

  另外读的过程中老是会想到夏日大作战的背景设定是怎么回事?

  所谓大数据预测也只不过是对于已经产生的信息通过数学算法进行数值分析来预测事情发生。为了避免重复分析预测,以及对于未来的各种不确定因素综合考虑进行更精准的预测,适当地进行因果关系的探索和总结规律显得更为重要。

加速大数据时代的发展,物联网大势所趋啊,想象以后连一块橡皮上都可能被安上传感器,妈妈再也不用担心我丢了橡皮。甚至大喊一声“橡皮君你在哪里?”橡皮会叫一声“主人我在你昨天没洗的袜子里。”说不定也不是不可能。

  摘:“对我们而言,危险不再是隐私的泄露,而是被预知的可能性——这些能预测我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险、无法贷款、甚至在实施犯罪前就被预先逮捕。”

  评:作者泥垢!

  摘:“事实上,一个对1100人进行的关于“是否”问题的抽样调查有着很高的精确性,精确度甚至超过了对所有人进行调查时的97%。这是真的,不管是调查10万人还是1亿人,20次调查里有19次都能猜对。为什么会这样?原因很复杂,但是有一个比较简单的解释就是,当样本数量达到了某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。”

  摘:“大数据是指不用随机分析法这样的捷径,而大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。大数据中的“大”不是绝对意义上的大,虽然在大多数情况下是这个意思。”

  摘:“多年来,经济学家和政治家一直错误地认为收入水平和幸福感是成正比的。我们从数据图表上可以看到,虽然统计工具呈现的是一种线性关系,但事实上,它们之间存在一种更复杂的动态关系:对于收入水平在1万美元以下的人来说,一旦收入增加,幸福感会随之提升;但对于收入水平在1万美元以上的人来说,幸福感并不会随着收入水平提高而提升。如果能发现这层关系,我们看到的就应该是一条曲线,而不是统计工具分析出来的直线。”

  评:所以说贫富差距加大是市场经济发展改革的必然什么的简直是屁话和从政者的逃避责任借口。贫富差距越来越大导致的是工资处于幸福感最大值阶段的人比例越来越少。于是大家整体上都越来越不幸福了,社会就加剧异化了。什么转型阶段的必然,呵呵,屁话,穷人都有足够自己生活的钱了,富人也不会因为钱多而闲的蛋疼,谁还吃饱了撑的去冒着蹲牢的风险为非作歹。房地产商等金钱压榨者囚禁着屁民的幸福感同时也放逐着自己的幸福。发达国家如xrb,国民工资十分平均,屁民可以有闲情逸致在吃饱了之后养养花遛遛狗,自然没太多人杀人放火偷油卸轮胎。

  实时调控使屁民收入更为平均,是cz者从始至终都有的责任和国泰民安的保障。

  摘:“假想通常来自自然理论或社会科学,它们也是帮助我们解释和预测周遭世界的基础。随着由假想时代到数据时代的过渡,我们也很可能认为我们不再需要理论了。”

  评:偏见。

  摘:“莱维斯说,“预测给我们知识,而知识赋予我们智慧和洞见。””

  评:挺好。

  摘:““数据”(data)这个词在拉丁文里是“已知”的意思,也可以理解为“事实”。”

  摘:“一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了,这就是“数据废气”。它是用它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。什么信息等。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善现有的服务或开发新服务。

…… 谷歌,从大的“噪音”数据中受益

  例如,谷歌敏锐地注意到,人们经常搜索某个词及其相关词,点击进入后却未能找到想要的信息,于是又返回到搜索页面继续搜索。它知道人们点击的是第1页的第8个链接还是第8的第1个链接,或者是干脆放弃了所有搜索点击。谷歌不是第一个洞察到这一点的公司,但它利用这一点并取得了非凡的成果。这些信息是非常有价值的。如果许多用户都点击搜索结果页底部的链接,就表明这个结果更加具有相关性,谷歌的排名算法就会自动地在随后的搜索中将它提到页面中比较靠前的位置(广告也是如此)。一位谷歌的员工说:“我们喜欢从大的‘噪音’数据集中吸取教训。”

……

  数据废气是许多电脑化服务背后的机制,如语音识别、垃圾邮件过滤、翻译等。当用户指出语音识别程序误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好。”

  摘:“正如我们所见,大数据的先锋们通常并不来自于他们做出了极大贡献的领域。他们是数据分析家、人工智能专家、数学家或者统计学家,但是他们把他们所掌握的技能运用到了各个领域。Kag g l e的首席执行官安东尼·戈德布鲁姆(An t h on y Gol dbl oom )说,在这个大数据项目竞赛平台上取得胜利的人通常不来自于他们做出成绩的领域。

  一个英国物理学家设计了一个算法系统来预测保险索赔和发现二手车的质量问题,这个系统差点就获胜了;还有一个新加坡的精算师在一个预测人体对化合物的生理反应项目中取得了胜利;同时,在谷歌的机器翻译团队中,这些工程师们都不会说他们翻译出的语言;类似的还有,微软机器翻译部门的统计学家们在茶余饭后的谈资就是说每次一有语言学家离开他们团队,翻译的质量就会变好一点。

  当然,行业专家是不会真正消亡的,只是他们的主导地位会发生改变。未来,大数据人才会与他们一样身居高位,就像趾高气扬的因果关系必须与卑微的相关关系分享它的光芒一样。

  这改变了我们怎样看待知识的价值,因为我们往往倾向于把专业人才看得比全才更重要,也就是说深度就是财富。然而,专业技能就像精确性一样,只适用于“小数据”时代,当时人类掌握的数据永远不够多也不够准确,所以需要依赖直觉和经验指导。在那个时代,经验是先决的,因为只有通过这种无法从书本上和别人口中得到的、埋藏在潜意识里的知识的积累,我们才能做出更明智的决定。”

  评:个人情绪太明显了吧

  摘:“随着大数据能够越来越精确地预测世界的事情以及我们所处的位置,我们可能还没有准备好接受它对我们的隐私和决策过程带来的影响。”

  评:有大数据爆炸就有大数据坍塌。数字化时代的数字坍塌的简单诠释在《夏日大作战》中被描绘得挺形象。

  摘:“虽然我们可以塑造当下,但未来却从过去的“完全可预测”转变为一块开放又原始、广阔而空白的帆布,所有人都可以在上面依据自己的价值,努力裁剪塑形。“现代”的一个定义性特征便是人类感到自己是命运的主人,这使我们与生活在宿命论桎梏中的先辈们截然不同。但是大数据预测却又使我们的生命帆布不再那么开放、原始和纯净。对于善于运用科技解读未来的人来说,我们的未来不再是只字未书的画布,而是似乎已经着上了淡淡的墨痕。未来的可预知性似乎缩小了塑造命运的空间。潜在的可能性在概率的圣坛上被解剖。

  与此同时,大数据又意味着我们将永远受困于过去的行为,这些行为在预知我们下一步动作的预测过程中与我们作对,即我们永远无法逃避已发生的事。莎士比亚曾写道:“凡是过去,皆为序曲。”大数据通过运算将这句话铭刻,无论结果好坏——无论这句话是否会浇熄我们迎接下一个日出的热情,是否会打击我们留名于世的渴望。

  其实,事实很有可能是相反的。知道行为在未来如何谢幕,我们便可以采取补救措施,避免问题发生并改善结局。我们能在期末考试之前早早发现有退步趋势的学生。我们能检测到微小的癌变,赶在疾病完全爆发前根治。我们能看到青春期意外妊娠的可能性,或是预测到某种犯罪生涯,然后尽力干预,避免出现可能的悲剧结局。例如拥挤的纽约住宅着火的时候,如果能事先知道并从几间最可能是火源的公寓着手,将会免除一场致命的火灾。”

  评:至此机器将渐渐拥有比人类更准确的“直觉”和“常识”。うん( ¯•ω•¯ )

  摘:“要不了多久,当我们回看当今的大数据世界时,就像在看阿波罗11号上仅4Kb内存的导航控制计算机一样,会觉得十分奇特。”

  评:········

  摘自译者的注释:“西方谚语有云:“预测未来最好的办法就是创造未来。”这句话在大数据时代亦应当铭记。在福特时代,任何人都无法从数据中看到汽车将替代马车,福特所创造的是无法预测的全新篇章。”

  不知道为何最终得出这种狗血的结论:脑洞大小是决定一切事业成败的关键。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2014-10-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档