大数据分析师不是算命先生

工业界普遍对大数据寄予了美好的希望。只要业务上所需知识和信息,都希望能从大数据中算算得到。大数据分析师似乎成了“诸葛亮”一样无所不能的“算命先生”。这些愿望虽然是好的,但不切实际的奢望也会让工作误入歧途。

根据我的理解,用好大数据的关键是处理好人和算法的关系:人是数据分析的主导者——意思就是:人想好做事的逻辑、猜想,然后让计算机按照这个逻辑用数据去证明或者证伪这个猜想。数据分析过去经常遭遇到的一种问题是结论“似是而非”。在大数据的背景下,历史数据更多、数据完整性更好,可以有更多的比较和证据,故而“似是而非”的现象可能会大大减少。这是大数据带来的最大的好处。

与“人类主导”相对的是“算法主导”,就是让算法直接告诉我们答案。常见的方法包括相关分析、回归分析、方差分析等。不可否认,这些方法可以很快把一部分相关性强的变量筛选出来。如果这样能解决问题,当然是最好的。但问题是:对于稍微复杂的问题、或者是人类已经做过较深研究的问题,这样的分析结果常常“似是而非”,不能令人满意。典型的情况包括:

l不能区分“标志”和控制手段。有人发表论文声称,“钢种”对钢材缺陷的影响最大。针对专业人士来说,这完全是废话:人们更关心的是如何通过成分和工艺调整,来控制特定钢种的缺陷率。再如,有些变量是缺陷导致的结果而不是产生缺陷的原因,相关性再强也无法用来控制缺陷产生。

l有些变量不是控制变量或者可控性差。生产过程控制往往是多目标的,不同变量控制的主要目标可能不一样。比如,有些变量用来控制产量,就未必能用来控制质量;某些变量可以控制,但控制成本过高。再如,人们知道某些因素很重要、但受到控制或者检测手段的制约,控制精度难以提高。

l自变量之间的相关性很高。在这种情况下进行数据分析时,实际重要的变量可能看起来不重要,而实际不重要的变量反而看起来重要。

所以,简单算法分析往往并不能给出解决问题的答案,其本质原因是人类并没有把自己真正的需求和约束条件说清楚。所以,某种意义上讲,人的介入就是把真正的业务需求描述清楚。

一个自然的问题是:人能说清楚,还让机器做什么?其实,对于工业过程,人类往往不是没有知识,而是知识不足。但不足并不意味着没有:可能是对参数重要性认识不清晰、可能是对具体路径和逻辑难以分辨、可能是具体问题与具体原因的对应关系不清楚。我的想法是:所谓的对机器“说清楚”,就是把各种“可能性”罗列出来,让计算机去分析和确认这些可能性。

为什么要这么做呢?我认为计算量是本质困难。

对于复杂问题,问题往往是多个要素共同作用的结果。人类描述的“可能性”,往往就是几个变量构成的场景或者组合。对于多变量系统,任意组合成的“可能性”实在太多了。如果让计算机逐一去罗列,可能会遇到“组合爆炸”问题:就像阿尔法狗无法列举一样,数据分析也无法列举;只能是有重点地进行分析——而人类就可以帮助计算机划出重点。

说到阿尔法狗,突然想到一个问题:未来的计算机能否像阿尔法元那样智能地去进行数据分析呢?我想,理论上是可以的,但现实中非常难——阿尔法元是世界级的精英人士花了很大代价才做成的,一般企业无法承受。而且,围棋的形式化是简单的,而工业问题不仅个性化很强,形式化本身更是非常困难的。

但是,用“简单粗暴”办法进行数据分析的通用分析软件还是有可能出现的。这是我热衷的一个研究方向——现在缺少的是方法论的支撑,还需要继续探索下去。

去年春天,我到雪窦寺参观。方丈对我们说了一句很有意思的话:“各位来寺里拜佛,是要自己把事情想明白。拜佛就是拜自己:自己想不明白,佛也帮不了你。”同样,要做好大数据分析,自己也要把问题想清楚:人想不清楚,数据也难以很好地帮助你。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180211G01H3100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券