【陆勤阅读】从经典数据案例看面对大数据我们如何去驾驭?

大数据掀起的革命,正在全面影响你我的生活。面对如此大量数据,该怎麽用?如何正确解读?国外企业成功经验,可以做为借鉴。

  一场大数据分析的「数据革命」登场,正掀起生活、工作和思考方式的全面革新。然而,面对杂乱无章的大数据,究竟怎麽理出头绪,却成了大家最头痛的问题。

  麻省理工学院教授 Erik Brynjolfsson,具体研究擅长使用数据来决策的公司,整体绩效比不用数据的企业,生产力至少高出 6%,例如,Google、亚马逊等企业竞争力不断往上提上,而不少新创公司则因为有大数据思惟,成为明日之星。《大数据》作者、牛津大学教授 Mayer-Schonberger 提出使用大数据,五大最重要观念,只要跟着这样的逻辑,大家都可能成为新赢家。

1. 数据数量远比品质更重要

成功案例:Google

  在大数据时代下,数据数量已比数据品质重要。涵盖60种语言的Google翻译,就是一个绝妙例子。早在1990年代,IBM的专家曾开发一套 Candide翻译系统,采用加拿大国会的英法语双语文件,大约是300万个句对,训练电脑读懂使用机率,到底A语言的辞汇,最有可能对应到B语言的哪个词汇,来增加翻译的精准度,把翻译转换成数学问题 但後来进展却不大,终告放弃。

  2000年时,微软语言处理专家发现,当他们在进行文法校正的「机器学习」时,随着输入的数据量不断增加,准确度显着提升,他们当时下了一个假设,「或许我们要重新考虑,是要砸钱来开发程式演算法,还是扩大语料库。」

接受不精确 先求扩大数据规模

  几年之後,Google也决定投入翻译领域,但不同於IBM使用300万个精心翻译的句子,而是使用手边更庞大、更混乱的数据集。Google的翻译系统母体大至全球网络,广达数十亿个翻译网页,有高达兆字的语料库,收录所找到的每一则翻译,用来训练电脑。

  数据来源包含各公司网站、官方文件的多语翻译,国际组织的多语报告,或是Google图书扫描计画,纳入的书籍翻译,甚至包含网上各种断简残篇、品质参差不齐、混乱的数据。这样一来,翻译的准确度再度提升,甚至某个英文字之後,出现另外一个字的机率,都能够计算出来。

  Google人工智慧专家指出,Google使用的数据,常有不完整的句子,拼字错误、文法缺误,但正因为拥有比其他语料库多出千万倍的数据,足以盖过缺点。因此,进入大数据时代的第一个观念,就是要接受,数据「数量」远比数据「品质」重要,而且要接受杂乱,不能事事要求精确。

2. 找相关性而非执着因果关系

成功案例:纽约市公安管理

  以纽约市为例,每年都因为地下管道火灾,付出不少代价,路面上重达140公斤的铸铁人孔盖更常因为闷烧爆炸,飞到几层楼高,再砸回地面,造成严重公安困扰。但纽约市的地下电缆,长度超过15万公里,足以绕地球三圈半,光曼哈顿就有超过5万1000个人孔盖,数量之多,就算每年定期检查,意外仍然防不胜防。

  负责管理的爱迪生联合电力公司,找上哥伦比亚大学统计专家鲁丁(Cynthia Rudin)协助。怎麽做呢?第一步,他们先蒐集1880年到2008年管路历史数据,但光是要表达「维修孔」,就有38种不同的写法,数据杂乱无章。研究的重点,在於找出「相关性」。不在於「为什麽会爆炸」,而是「哪个人孔会爆炸」。

挑有效指标 逐步缩小问题范围

  研究小组从106个重大人孔灾害预测指标下手,慢慢去芜存菁,最後剩下几个最有效的指标。接着他们再缩小范围,仅研究某一区的地下电缆,分析截至2008年的数据,来预测2009年的危险人孔位置,结果小组列出的前10%危险清单,的确有44%曾发生过严重事故,也据此找出最有相关性的几个指标。

  最後,小组发现「电缆年份」和「过去是否发生事故」,是最重要的判断指标,依此原则来替市区几万个人孔盖排定检查顺序。虽然答案好像显而易见,但是过去却浑然未觉,直到分析团队用大数据的科学验证,大家才恍然大悟。

  纽约市还有另一个严重问题,是住宅非法改建,不少房子都隔成许多小间,住了比原本设计多十倍人数,常发生火灾。为了减少意外死亡,政府需要知道的,反而不是为何有如此多非法住宅,而是这些非法住宅到底在哪里?

  怎麽找出来?第一,先取得全市90万笔住宅数据,再整合19个机构数据,像房屋税缴纳状况、是否为法拍屋、水电费是否异常,都纳入考虑。团队也纳入住宅屋型、年份、救护车出勤率、鼠患、非法改建投诉等数据,再拿来与五年来火灾程度数据比对,找出「相关性」来建立预测系统。

  除了已记录的数据,市府团队还访问了资深检查员,尽可能找出更多可以比对的指标。例如,他们从老干员的口中,发现新砌外墙的住宅,有问题的机率很低,但是调查员也说不上来为什麽,只说是凭直觉,後来发现曾经老屋拉皮的建筑,表示住户较重视环境维护,发生事故的机率就比较低。因此分析专家回头把「市府老旧建物拉皮」这个变项也纳入系统,就像用「删去法」一般,筛选掉相对低风险的住宅,提升预测的准确度。

透过反覆比对 提升预测准确度

  另外,纽约市府本来以为某栋住宅投诉电话愈多,表示危险程度愈高,因此常常前往稽查,浪费不少人力。後来几番分析比对才发现,事实相去甚远,因为在上东城高级住宅区,只要有一只老鼠,投诉电话就成天响个不停,但是在相对落後的布鲁克林区,非得等到鼠患严重,才有投诉进线。

  透过这样反覆比对原始指标和每周收到的即时数据,纽约市府每星期都能列出,可能发生火灾的前五名名单,立即交给检察员处理,让这套大数据预测系统大获成功。透过相关性筛选出来的危险建物名单,竟然有70%以上确实需要撤离住民,成效斐然。

3. 看似没用的数据也有商机

成功案例:Foursquare、UPS、推特、亚马逊

除了要能接受杂乱数据,从中找出相关性,迎接大数据,还有另一个重点,就是任何纪录,甚至连情绪、社交图谱、搜寻轨迹,都可数据化。例如,当「地理位置」成为数据,有无限商机。全球最大的打卡社群平台Foursquare,最重要的功能就是让用户,随时打卡、拍照上传景点。

  这些蕴含用户地域位置的打卡数据、轨迹,只要仔细纪录下来,便能够了解某一时间、地点,用户都在做些什麽事?藉此推播精准的广告、折扣讯息。甚至星巴克、麦当劳都跟Foursquare购买这些打卡数据,来分析决定要在哪里开新门市。Foursquare也从一个社群平台,变成有附加价值的精确市场分析数据提供商。

循司机行车路径 找出省时省油路线

  快递公司优必速(UPS)也是率先把「地理位置」数据化的成功案例。们透过每台货车的无线电设备和GPS,精确知道车辆位置,并从累积下来无数笔的行车路径,找出最佳行车路线。从这些分析中,UPS发现十字路口最易发生意外、红绿灯最浪费时间,只要减少通过十字路口次数,就能省油、提高安全。靠着数据分析,UPS一年送货里程大幅减少4,800公里,等於省下300万加仑的油料及减少3万吨二氧化碳,安全性和效率也提高了。

当「情绪」和「社交互动」成为数据,又能做些什麽?推特就是最好的例子,每天至少有四亿则以上推文,明明大多数推文,看来就像是随口嚷嚷,但却成了重要「分析」指标,可以用来及早了解消费者反应,或是判断行销活动成果,不少公司都抢着要和推特签订数据的存取权。

当用户的网络「轨迹」成为数据,又有何用?网购龙头亚马逊正是依照客户浏览的历史,来比对「产品」和「产品」的关连性,开发无人能敌的自动推荐系统。现在亚马逊上,每三笔订单,就有一笔是来自电脑推荐和客制化系统。

4. 挖出大数据的新价值

成功案例:新创公司、老牌公司翻身

  千万别以为用大数据分析,是大公司或是科技大厂的专利,小型企业不一定要自己拥有数据,可以靠授权获得,再使用廉价云端运算平台分析。拥有「大数据」思惟和好点子,能让新创公司蓬勃发展。一位美国顶尖的数据科学家Oren Etzioni,就是利用大数据创业的先驱。

  几年前,Oren Etzioni在从西雅图飞往洛杉矶参加弟弟婚礼的飞机上,发现临座几位乘客的票价都比他的便宜,打破以往觉得飞机票愈早买、愈省钱的想法,萌生创业点子。

分析旧票价数据 抓出未来涨跌

  Oren Etzioni开发出预测飞机票未来是涨是跌的服务「Farecast」。最重要的关键是取得特定航线的所有票价资讯,再比对与出发日期的关连性,如果平均票价下跌,买票的事还可缓一缓,如果平均票价上升,系统会建议立即购票。他先在某个旅游网站取得1万2,000笔票价数据,作为样本,建立预测模型,接着引进更多数据,直到现在,Farecast 手中有2,000亿笔票价纪录。

  後来他的公司被微软并购,把这套服务结合到Bing搜寻引擎中,平均为每位用户节省50美元。去年被eBay并购的价格预测服务Decide.com,也是Oren Etzioni的杰作。在2012年,开业一年的Decide,已调查超过250亿笔价格资讯、分析400万项产品,随时和数据库中的产品价格比对。从普查中,他们发现零售业秘辛,就是新型号上市时,旧产品竟不跌反涨,或异常的价格暴涨,来警告消费者先等一等,再下手。

观察网友文章 老产品找到新用法

  一个老品牌翻身的故事,也是藉助网络上的部落格文,触类旁通的创新行销范例。风靡澳洲的酵母咸味酱Vegemite品牌(已被美国最大食品集团卡夫Kraft并购),一直是澳洲家庭必备涂酱,但2009年时突然市占率下滑。卡夫集团委托IBM调查150万笔论坛、部落格文、网络新闻,发现近50万笔、38种不同语言关於酵母涂酱的内容,更发现大家会把酵母酱搭配酪梨、烤肉、番茄一起吃,是以往没想过的新资讯。

  於是,他们开启公司史上最成功的行销「你都怎麽用酵母酱?」让大家分享吃法,成功让Vegemite酵母酱再度热卖,比过去销量高峰期再高出5%。

5. 拒绝「数据独裁」,小心依赖、滥用数据

失败案例:Google

  要成为大数据的赢家,要小心,不要被数据蒙蔽。就算是数据高手的Google,也三不五时失败。转战Yahoo的Google前高层Marissa Mayer,曾要求工作人员测试足足41种不同色阶的蓝色,有的甚至肉眼难以分辨,只为了知道网站工具列该挑什麽颜色。Mayer-Schonberger指出,这些例子都证明Google对数据太言听计从了,极端数据独裁的结果,也遭来反抗。

  Google 的顶尖设计师鲍曼正是受不了一切都要量化,愤而离职。他在部落格上写道:「我们争论到底某个边界究竟该是3、4还是5个像素宽??如果以为每个决定都可以简化成逻辑问题,这些数据最後就会变成拐杖,每个决定都需要拄着柺杖,让整个公司瘫痪!」

  Mayer-Schonberger 提醒,不能过分依赖数据,否则可能如同希腊神话中伊卡洛斯(Icarus)所犯的错误——他搭着鸟羽和蜡,制成的飞行翼翱翔天际,但却太相信自己的飞翔技能,使用不当而折翼坠海。

五大观念,挖出潜在新商机

第一、数据数量要够大、够多,量比质更重要。

  第二、找出「相关性」,而非因果关系。

  第三、地理位置、情绪贴文、社群图谱、看似无用的散漫纪录,都是有用的。

  第四、只要有大数据思惟,小公司也能靠创新的点子致胜。

  第五、要小心数据独裁,不要被大数据掌控。

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2015-07-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【V直播】三专家解读波士顿动力Atlas惊艳后空翻7大技术难点

【新智元导读】上周五,波士顿动力发布机器人Atlas的最新视频。这个会后空翻的机器人在网络上引起热议,新智元微信公众号上的文章阅读量也超过了10万+。昨天,在新...

3589
来自专栏量子位

华为Mate10到底AI在哪?

李根 李林 假装发自 慕尼黑 量子位 出品 | 公众号 QbitAI ? 从iPhone X到Pixel 2,几乎所有的高端旗舰手机,都在主打人工智能的概念。刚...

2975
来自专栏机器人网

盘点机器人发展不可或缺的八大技术

当前各个国家对机器人技术都是非常的重视,人们生活对智能化要求的提高也促进了机器人的发展,在这样的背景下,机器人技术的发展可以说是一日千里,未来机器人将在以下技术...

2827
来自专栏VRPinea

通过虚幻引擎4,玩家究竟能获得什么样的VR游戏体验

2856
来自专栏大数据文摘

大数据揭示最受欢迎在线教育课程特点

2287
来自专栏机器人网

亚马逊花百万美元打造AI聊天比赛,它收获了什么?

第一位对话者是一个五十多岁的肌肉男,剃着光头,身着黑色V领毛衣。他走进一间会议室,坐在低矮的蓝色扶手椅上,前面是一排摄像机和工作室照明灯。他被灯光照得明亮,而房...

2968
来自专栏AI科技大本营的专栏

500多页的机器学习入门笔记,下载超5万次,背后都有什么故事?

Youth is not a time of life, it is a state of mind. —— 塞缪尔·厄尔曼

1967
来自专栏量子位

哈佛MIT联手出品 | 造价低于1美元的机械臂,可承自身重量千倍

原作 Darrell Etherington Root 编译自 TechCrunch 量子位 出品 | 公众号 QbitAI 麻省理工大学计算机科学和人工智能实...

3586
来自专栏包子铺里聊IT

微软适合正青春的你吗?

注: 文章有些地方中英混杂,实属装(wu)13(nai),applogize in advance. 伴随着微软2015年又一轮大刀阔斧的裁员,小编在这里跟大...

3327
来自专栏新智元

【变形金刚成真】MIT机器人“变身术”:外骨骼让机器人七十二变

【新智元导读】MIT计算机科学与人工智能实验室正在研发一种新型的变形机器人,不久的将来,“变形金刚”可能就会成为现实。据了解,这一机器人通过穿戴不同的外骨骼来执...

3324

扫码关注云+社区

领取腾讯云代金券