大数据:更多的数据还是更好的算法?

我知道很多人自始至终都认为数据是越多越好,Google甚至直言:更多的数据胜过更好的算法,而过去很多侦探剧中崇尚“信息越多,就越靠近真相”的刑侦金句也似乎佐证这一点。而事实上,我的观点是,数据只是基础,如何建构起有效的算法、模型比数据本身更重要,最起码对目前而言是这样的。持与我相近观点的大有人在,如《The Signal and the Noise》(信号与噪声,作者Nate Silver)这本书里面的一个观点是:“更多的数据意味着更多的噪声。信号是真相,噪声却使我们离真相越来越远。”

每种观点都有自己的理据,所以我们不能片面地去判断说哪种观点对与错。就大数据这个事情而言,我认为Google是一个理想主义者,而Nate Silver则是一个实用现实主义者。

理想中的大数据的终极形态是不用构建模型,或者说已经构建了全模型,不用针对每次分析的目的去单独建模,数据自身会从数据特性,规律去进行逻辑性分析(非数理分析),人们只需要将所有数据输入,机器就能告诉人们这些数据中,哪些数据说明了什么问题,大数据的输出成果将不是一份报告,而是一个体系,没有一份报告能容纳如此多的结果。到了那个时候,确实是更多的数据胜过更好的算法,因为那时候已经没有了算法,没有什么是不能计算的。

但现实是,我们目前的大数据离理想中的大数据形态还有很远的距离。

我们先看一个通过数据分析来辅助营销的例子。你要推广一个旅游产品,比如说是一个旅游攻略的APP,你第一反应肯定是去旅行社、户外网站去收集数据,去展开宣传,去铺开销售吧?这当然对,但问题是,经常旅游的人很可能已经不需要你旅游产品的指导,他们有更多的出游经验,他们有更多的团队合作,他们可能更倾向个体出行。而不经常出没在户外网站的人,不经常搜索旅游相关信息的人,他们心中对旅行的渴望也许是很强烈的。从数据的维度来看,从旅行社、户外网站收集到的客户信息当然是比大众市场上得到的客户信息的维度要多,颗粒度要细,信息更非结构化,更称得上“大数据”,但显然,通过这些更大的数据却未必能支撑你找到更多有需求的客户。当然,你也许会说在强关联的小圈子里找到客户的单位成本远比漫无边界地挖掘客户的单位成本要低。但我只是用这个例子去说明,更多的信息未必能指向更明确结果,如何建构一个合理的模型(利用有限的数据去做最有效的分析),远比找到一个新的数据源要重要得多。

目前的大数据与理想中的大数据形态的距离并不在于数据源的多少上,数据源从来不是问题,问题是在于我们如何去建构一个科学合理的分析模型,并相信、坚持分析模式的输出结果。通过不断地修正、累积各种正确的分析模型,我们将不断接近理想形态。

而很不幸的是,有时候现实与之背道而驰。

分析员总是习惯带着预设去分析,他们会自觉不自觉地以对自己有利的方式对这些数据进行分析和解释,而哪怕这些方式很可能与这些数据所代表的客观现实不相吻合。出于各种原因,分析员很难从干扰他们的噪声中分辨出有用的信号,甚至会无视这些真实有用的信号。于是,数据展示给他们的通常都是他们想要的结果,而且他们通常也能确保这些数据令大家皆大欢喜。同时,我们天真的相信各种预测分析模型,却没有人认真地去验证这些模型是否科学合理,是否与事实相符,也许这些模型在进行架设选择时根本不堪一击。

我对此感同身受。我曾经为不同省份的移动公司做过各种形式的经分,给我最大的感受就是,我们不是要用数据去发现问题,找到解决问题的方法,而是我们要用数据去支持领导的观点,一旦结果与领导观点相悖时,模型是可以调整,数据可以调整,口径可以调整,只有领导的观点不能动,不能变。具体的过程是,刚开始时我们通过经验建构了分析模型,模型只需要三组数据,但很不幸无法支撑领导的观点,进而增加到五组,依然无法得出想要的结论,进而想方设法增加到十组,并开始调用不同的分析模型,费尽九牛二虎之力,终于在用某模式导入XXYY数据时,出来的结果刚好与领导的观点一致,好吧,终于天亮了,终于可以定稿了,终于可以各自回家睡觉了。一觉醒来后开始宣扬,我们充分调用了N多的数据,并创新性地使用了X模型,得出某某结论,与领导观点不谋而合。

这就是分析员的困境,而这种困境是目前分析工作的常态,也许压力不是来自于领导,但也有可能来自于市场的压力,个人绩效的压力,时间精力的有限,经验和知识的匮乏,甚至是内心无法言明的情绪等。

这个世界自从有了印刷机,信息的传递不再局限,信息变得不再那么稀有,后来有了互联网,信息开始爆炸式增长,我们拥有的信息太多,甚至多到无从下手,但事实上是有用的信息寥寥无几。没有科学、经过验证的模型支持,我们往往主观地、有选择的看待信息,对信息的曲解却关注不够,于是,当我们把越来越多的信息塞进越来越臃肿的模型,我们以为我们将看到更多真相,而事实是很多只是假相。

借用《The Signal and the Noise》的一句话结尾:我们以为自己需要信息,但其实我们真正需要的是知识。

版权声明:转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2016-03-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

15470
来自专栏AI科技评论

Facebook和Google们现在努力的AI方向,会不会错了?

深度学习的坎坷之路 2012年11月23日,应该是一个让时任谷歌人工智能实验室专家的Geoff Hinton倍感欣慰的日子,在这一天,纽约时报发布了名为《Sci...

39160
来自专栏悦思悦读

美国大学数据科学(Data Science)教育实践

本文作者:李琦,现任北肯塔基大学(North Kentucky University)计算机系(Computer Science)数据科学(Data Scien...

91410
来自专栏大数据文摘

我发现我的数据被操纵了……

13930
来自专栏大数据文摘

[译]数据会骗人?帮你能看懂图表的误导!

16730
来自专栏新智元

【315 AI技术追踪】人脸识别一夜躺枪?支付宝、商汤、云从等回应

【新智元导读】 2017年的“315”落下帷幕,人脸识别技术公司纷纷躺枪。16日一大早,大家纷纷发表声明,表示自家的人脸识别技术还是相当安全的。本文整理了各家的...

54960
来自专栏腾讯社交用户体验设计

QQ默认表情优化背后的故事 - 腾讯ISUX

20350
来自专栏机器之心

前沿 | 面向光量子计算:MIT新研究实现室温下单光子非线性

选自MIT News 作者:Larry Hardesty 机器之心编译 参与:Smith、李泽南、吴攀 看起来,MIT 最近在光计算上取得了不少的成果。前两天,...

36360
来自专栏量子位

萌新误入AI歧途怎么办?MIT博士小哥哥给你指条明路

做研究,特别是在AI领域做研究,时常挑战人类的智力极限和心理极限。来自MIT的汤姆,入坑已有两年,并在坑里向广大准同行们发来了倾心打造的攻略,帮助大家在漫漫夜路...

12130
来自专栏人工智能头条

开玩乐,在移动端也能进行机器学习?做物体识别?TensorFlow on Android?

最近中美之间因为贸易战闹得很不愉快。美国非常鸡贼啊,掐死了高新科技这条路,这样一来我们依赖美国专利技术的行业就非常难受。但是,虽然美国这次做的很不地道,可也让我...

12230

扫码关注云+社区

领取腾讯云代金券