前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >专家:大数据关注what(相关性)比why(因果关系)更重要?

专家:大数据关注what(相关性)比why(因果关系)更重要?

作者头像
人称T客
发布2018-03-19 14:09:41
1.1K0
发布2018-03-19 14:09:41
举报
文章被收录于专栏:人称T客人称T客

很早的时候,我们一提到大数据都会把他形容成数据大的代名词,此前由于服务器厂商为了销售更多的硬件设备也把大数据跟数据中心联合起来,一时间市场上传递出来关于大数据的概念和理解也就五花八门,弄得讲者吹的天花乱坠,听者一头雾水,那么到底什么是大数据?怎么理解大数据,今天我们来听听美国权威大数据专家为我们解开答案。 近日美国大数据权威专家麦尔荀伯格(Viktor Mayer-Schönberger)来台分享大数据趋势。他认为,大数据三大特性,是巨量、杂乱和相关性,而不是一般常见的3V(Volume、Velocity、Variety)定义。如何从这些看似杂乱无章的海量资料中,找出最适合的相关性,并以此来改变决策,帮助我们更了解世界,正是企业和政府所面临的新挑战。 麦尔荀伯格认为,经过搜集而来的大数据,往往具备有三大特性,第一就是拥有非常多的讯息量。 这边所指的“多”代表的是具有一定规模的完整资料,可透过搜集分析发现具有相关性的问题或现象。他以过去相机对焦为例,一般只有在对焦范围内拍出来的人物轮廓才会清晰,但范围以外的人物轮廓往往会是模糊的,但是改用一台可先拍照后对焦的光场相机,就能先将所有人物资料完整纪录下来,之后在决定照片要以谁为主角,也不需要花费时间重拍,还可以获得更多有关照片的细节。麦尔荀伯格认为,尽可能搜集越多的完整资料,也是同样的道理,搜集妥了以后再进一步决定用途。 麦尔荀伯格提出的大数据第二个特性是杂乱。相较于过去受限于测量能力的限制,能取得的资料往往不多,因此会注重资料的精确性。但是,当面对的是杂乱且复杂的大数据时,就不能再以过去传统少量资料的方式去分析,而是要有新的作法。他说,大数据要求的并不是一点错都无法容忍接受的精确资料,更多时候反而容许有测量误差的资料,只要透过分析可以得出有用的资料,就不用为了那一两棵树而放弃整片森林。 比起问why,大数据更看重的是问What相关性 至于大数据第三个特性则是相关性,麦尔荀伯格解释,比起问“Why”的因果关系,大数据更看重的是问“What”的相关性。“重要的是先了解,资料要告诉我们什么而不是为什么”。他以美国知名零售商沃尔玛当例子,当他们在进行大数据分析时发现,每当飓风即将抵达前,当地居民除了上超市去买手电筒和电池之外,还会买了一堆被称为是Pop-Tarts的草莓甜点,这样的发现也替沃尔玛带来庞大商机,至于顾客为什么会买这些甜点就不是那么重要了。同样的道理,当亚马逊和Netflix 在推荐顾客产品时,同样也不知道为什么要推荐这些书或DVD影片,只要知道顾客会买单就好。 另一个麦尔荀伯格举的例子是语言翻译。1950年代的美国计算机科学家,曾试图透过文法规则让机器大量翻译俄语资料,花了12年时间投入近数十亿美元,最终还是宣告失败。当时,IBM也在个人计算机加入更多语句和文法规则,并以此成功翻译了60个俄文短句,但因无法进行大量翻译也告失败,就算是在1990年时,IBM试图透过新开发的统计机器来翻译10年份的加拿大国会文件资料(含英法双语),尽管的确改善了机器翻译的质量,但最后因投入大笔资金却无法得到相应成果,只好退出放弃。 反观当时还是名不见经传的小公司Google,成立仅仅不到10年时间就完成了这项不可能任务,推出了翻译服务,而其采用的方式只不过就是搜集了几千亿份来自网络资料来分析,其中有包括欧盟语言、网站语言、书籍和说明手册等五花八门的资料,尽管这些资料质量参差不齐,但透过汇整分析却能翻译出更为精确的语句。 麦尔荀伯格举的最后一个例子则是早产儿诊断,Carolyn McGregor博士率领了安大略理工学院与IBM的研究人员,共同开发一套身体健康追踪系统,可以实时追纵早产儿的健康资料,包括象是心跳、呼吸、体温、血压等身体症状,并且每秒钟会回传1,260份资料给医生。医生透过这套系统可经观察细微妈妈体内婴儿的身体变化,提早24小时前预测出是否为早产儿的可能性,以挽救更多的生命。后来Carolyn McGregor用大数据技术来分析这些资料后,还发现早产儿在严重感染前,反而生命迹象会有一段时间维持稳定,颠覆了过去一般认为早产儿身体先恶化再感染的理论。倘若Carolyn McGregor只专注于研究身体恶化与感染间的因果关系,就无法得到这个发现。 从海量机器假设找出最佳相关性 对统计学家来说,常见的研究流程是先有理论基础,接着是提出假设,最后再透过数据来验证,但在大数据上,麦尔荀伯格认为,原有研究流程变得不一样了。以Google的作法来说,同样都有一套理论基础,但Google却是透过程序自动建立了大量的机器假设(Machine Hypothesis),将所有可能的假设通通都放进来,再利用云端运算技术一次处理高达4.5亿个机械假设,从这些海量的机器假设中找出最合理的相关性。 大数据核心价值:可重覆使用、重组资料,发现新价值 麦尔荀伯格更指出,大数据的核心价值,在于可以重覆地使用资料,而且是不断地重组可能的使用方式。他说,过去人们会因为特定目的而搜集资料,但在大数据时代,很多时候并不知道这些资料是否还有其他用途,象是“先拍照后对焦”的光场相机,往往是透过对巨量资料交叉分析后,才对资料运用有了新发现。就像装在车上的感应器,除了可用来找出目前那一个地段最容易塞车,日本东京产业技术大学也曾在驾驶座位装入360颗感应器,来搜集驾驶坐在驾驶座上的动作,只有符合登录臀部坐姿的驾驶才能发动车子,以此达到防盗功效。 又好比如说,Google曾经于2009年成功利用搜索关键字来预测流感趋势,但后来预测却失准,麦尔荀伯格表示,最大原因就是没有考虑到现实及人类行为环节的改变。而刚推出的Google Glass眼镜,“其实Google真正的目的是要了解人们到底在看什么?关心什么?透过运用这些搜集而来资料进一步去分析预测出消费者的行为。”他说。 荷兰手机公司藉由贩售天气数据,开创新的事业 大数据不只可帮助企业内部决策,还可协助开创新事业。麦尔荀伯格以国外几个大数据应用成果作为例子,像在荷兰有一家手机公司面临了低价竞争而无法获利时,他们发现了自家所建造的基地台讯号,无形中会因周遭环境气候而改变,这个发现让他们反而可以贩售天气数据,转换跑道来开创新的事业。劳斯莱斯不只是汽车公司也是全球第二大的飞机引擎制造商,透过在大型客机内的喷射引擎,载入飞行管理系统来监控大量的引擎运转资料,加以分析后能预测出引擎的寿命,劳斯莱斯并以此来提供预测性的维修服务。 美国零售商Target则是另一个典型的大数据应用,Target搜集了大量女性顾客的购物行为,运用大数据分析找出各种相关性,象是他们分析后发现,女性在怀孕三个月的时候,会开始购买某一类产品或对特定品牌产生忠诚度,象是无香味的乳液或各类营养补充品。反推回来,当女性开始出现这个行为时,也可以用来预测出女性是否已有怀孕迹象,甚至还能因此准确预测出小孩出生的日期。 尽管透过分析演算,大数据可以用来改变决策的方式,创造出新的商业或经济价值,甚至可作为预测人类行为的强大工具,但麦尔荀伯格也提醒,使用这些资料必须很小心,切勿忘记人有自由意志,一旦过度依赖这些预测资料,一方面可能发生象是在《一九八四》小说中无所不在的老大哥(Big Brother)监控,造成对个人隐私的侵犯。也可能作出不公平的预测,发生了如电影关键报告中还未犯罪就遭到逮补的情节。 他说,如何善加利用大数据和使用工具,去帮助人们更了解这个世界,是政府和企业所面临的新挑战。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2014-07-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人称T客 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档