【我读《Big Data》】预测---大数据的核心

正文之前

我最近老是喜欢开一本新书,然后写点东西但是读到后面就不写了。这个习惯不是很好啊,但是阅读的速度确实比输出的速度快的太多了。就好比这本《Big Data》 我都读到195页了。但是我写的读书笔记还在16页晃悠,心塞。不过还好吧。今天多输出点,当做复习好了~~~

正文


大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。


在不久的将来,世界许多现在单纯依靠人类判断力的领域都会被计算机系统所改变甚至取代。因为我们可以在巨量的历史记录里面对一件事情进行相关性判断,毕竟很多时候,我们判断的准则都要依靠着前辈的经历,而当我们所有的历史都被数据化以后,这些依靠着案例活下去的判断领域,怎么会需要人类来干活呢?就好比无人驾驶这话事情。当计算机能够判断出来每种环境下该怎么做出应对的时候,我们就不需要司机了。因为计算机的反应能力能够做到人类反应的几千上万倍。当然,无人驾驶离我们还有很多的技术难关需要克服!但是计算机系统可以发挥作用的领域远远不止驾驶和交友,还有更多更复杂的任务。别忘了你在京东买本书就会有一大堆的推荐跑到你的购买页下面。

就像互联网通过给计算机添加通信功能而改变了世界,大数据也将改变我们生活中最重要的方面,因为它为我们的生活创造了前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。


大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。

  • 第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。全世界目前感觉都进入了大数据的“军北竞赛” 各种各样的授权,数据采集协议迷晕了我们的眼睛。传感机技术空前发达,存储成本不断下降,存储密度千万倍上升,大数据的成本较之小数据时代下降了千百倍。
  • 第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。不是不追求精确性,而是暂时还没发追求精确性吧?能精确我们当然要求精确,但是对于推荐系统的使用者--也就是用户来说,是不存在精确的,只能说准确率很高这种话,比如我今天买完《疯狂Java讲义精粹(第2版 附CD-ROM光盘)》,旁栏就会出现很多的类似的讲义,java学习教程等等,但是我现在突然看到旁边有人在看《C++ Primer》 所以我想买一本,这个事情是不存在与数据库中的,全世界独一份,总不会在一分钟前有一个人也买java 然后看到旁边有个人,也顺手买了本《C++ Primer》,然后被系统捕捉到按照这种清奇的线路给我推荐吧?那只能说是命了~~
  • 第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。(这一点翻译的作者对于原作者不是很赞同,我也举得如此,因果是保证准确性的基础之一,太多的领域还是需要精确新的。大数据目前能影响到的也就是大局上的把握,对于细节是没法准备的评估的,就好比我们可以给所有买java讲义的人推荐 Android讲义一样,但是你没法追求二者之间的因果关系,因为这是大数据对长期的人类购买行为的一种记录,还是完全遵循着计算机的准则,没法跳出限制,而人类的思维是永远无法准备的捕捉的。如果计算机始终为人类服务,那么就只能逼近,而无法正确预判)

如果数百万条电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么找出具体的药理机制就没有这种治疗方法本身来得重要。同样,只要我们知道什么时候是买机票的最佳时机,就算不知道机票价格疯狂变动的原因也无所谓了。大数据告诉我们“是什么”而不是“为什么”。在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声。在这些不需要追求更深层次的发展的方面,大数据确实够用了。而且对于从经验时代到大数据时代的过渡期人类来说,大数据的准确度让人着迷,但是如果我们要寻根问底。那就不好说了。做物理实验,如果只是追求99%的准确度,那么后续的实验又会有一个1%的偏移量,当多次累加,直到我们一门基础学科之上的学科的建立的时候,准确度可能已经不足50%了。复利效应的反效果~


(PS:~下面这段话是作者说的~? ,我对此还抱有疑虑,毕竟大数据本质上来说也是经验之谈,因果是可以捕捉到未来的!当然,我更希望是相辅相成的局面,好比当年的海王星的发现,要是没有诸多的观测数据,从而推测海王星的存在,我们可能至今对太阳系的认识还存在巨大的缺陷,但是如果没有依据因果关系存在的物理学的计算,海王星是很难被观测到的)

寻找原因是一种现代社会的一神论,大数据推翻了这个论断。但我们又陷入了一个历史的困境,那就是我们活在一个“上帝已死”的时代。也就是说,我们曾经坚守的信念动摇了。讽刺的是,这些信念正在被“更好”的证据所取代。那么,从经验中得来的与证据相矛盾的直觉、信念和迷惘应该充当什么角色呢?当世界由探求因果关系变成挖掘相关关系,我们怎样才能既不损坏建立在因果推理基础之上的社会繁荣和人类前行的基石,又取得实际的进步呢?本书意在解释我们身在何处,我们从何而来,并且提供当下亟需的指导,以应对眼前的利益和危险。


正文之后

最近被自己的咸鱼深深困扰着,这几天看了两本小说---<大王饶命> <重生之大涅槃> 第一本是真的精彩至极,第二本,勉强8分吧。强行装逼之嫌~ 第一本浓浓的逗比风格让我很是可乐,推荐大家也去看,有311章了,可以收割了~

原文发布于微信公众号 - 工科狗和生物喵(gh_3507b116a1f8)

原文发表时间:2018-02-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏我是攻城师

如何在三个月内获得三年的工作经验?

48914
来自专栏牛客网

鹅厂春招实习面经,IEG游戏运营岗

1.7K0
来自专栏PPV课数据科学社区

真相:你被过滤泡泡包围了

? 一个月前,《连线》杂志的撰稿人马特•霍楠(Mat Honan)在Facebook信息流里做了一个试验:依次对他喜欢的、讨厌的甚至痛恨的内容点赞,看会出现什...

3225
来自专栏量子位

科学家正让AI自己做实验,想要机器摆脱人类的直觉

李杉 编译自 Science 量子位 报道 | 公众号 QbitAI ? 如果说这是未来的生物实验室,它似乎与现在的实验室没有多大差别。 里面有身穿白大褂的科学...

4264
来自专栏AI科技评论

学界 | 这2亿人民币或将奠定中国机器人理论基础

2018 年 4 月 26-27 日,首届国家自然科学基金重大研究计划「共融机器人基础理论与关键技术研究」学术交流会在中国北方车辆研究所举行,有 200 多名国...

1453
来自专栏人工智能头条

代码将退出历史舞台:像训狗一样训练计算机

1553
来自专栏java工会

java程序员工作一年,如何巧妙的和老板谈加工资

2176
来自专栏华章科技

2018上半年这10本新书,技术大牛们都在追着看

不知你的上半年都有哪些收获?上半年只收获了8斤体重的数据叔惶恐地抄下了郑州地铁上看到的名言警句:

1063
来自专栏大数据文摘

盖茨基金:成也数据,败也数据

1984
来自专栏新智元

AI不再需要“程序猿”,未来数据比代码重要

钛媒体注:过去,程序员就像是上帝,制定计算机系统运行的律法。随着机器学习的兴起,计算机正在脱离人们的控制。工程师们永远也无法确切搞清楚计算机是如何通过机器学习...

3587

扫码关注云+社区

领取腾讯云代金券