15
星期一
2018年01月
昨天讲了机械思维,今天讲大数据思维。机械思维善于解决确定性问题,大数据思维善于解决不确定性问题。
一日一签
大数据思维
对于确定性问题,昨天讲到的机械思维非常善于解决这类问题。但是对于不确定性问题,现在比较流行的大数据思维解决起来比较顺手。
大数据思维基于信息论,信息论又基于概率论。学习概率论的人都知道,有一种分析问题的方法叫抽样分析。抽样分析就是取整体数据中的部分有代表性的数据,然后根据部分数据,套用公式,得出一种估算结论。
之所以有抽样分析,是因为以前我们没有能力处理所有数据,所以抽取部分数据,这个数据量是我们有能力处理的数据量,同时得出的结果也有一定的准确性。随着计算机技术的发展,我们逐渐有了分析所有数据的能力。比如,过去如果我们要把全国人的面孔都收集全是一件不可想象的事情,而现在做起来非常容易。
信息论的本质就是利用信息消除不确定性。抽样分析方法输入的信息不全,所以得到的结论经常时灵时不灵。大数据方法输入的信息是全面的,得到的结论因此也是精确的。现在举一个大数据思维的例子——自动驾驶。自动驾驶依靠两种数据:一是扫描车提前在大街小巷收集的全量道路信息,而是通过车上的传感器收集的全量实时路况信息。通过这两种全量信息,消除车子行驶不确定性,决定是继续走,还是该减速或加速,还是该停止。最终达到了绝对安全的目标。
机械思维研究的对象是因果关系,大数据思维研究的对象是相关关系。比如说青霉素的发明,一开始人们发现细菌会致病,所以人们很容易想到如果能杀死细菌就能治好病,后来去寻找能杀死细菌的物质,最后发现了青霉素。这就是机械思维驱动出来的因果关系。外国有一家超市,通过数据分析一个女顾客的一系列购物行为(并没有买孕妇用品),判断出她怀孕了。于是寄了一点孕妇用品作为礼物送给她。被她爸爸收到了,她爸爸很生气,因为这个女孩根本还没结婚。结果投诉这家超市。后来一查,发现这个女孩真的怀孕了……这就是相关关系,一系列的购物行为并不是怀孕的原因,但是它们却相关。
所以用大数据分析出来的结论,我们往往不知道真实的原因。有时候还会闹出笑话,比如“某机构”用大数据分析研究出了看《战狼》的人喜欢和冷饮,看《芳华》的人喜欢看热饮。
领取专属 10元无门槛券
私享最新 技术干货