土系解读大数据思维

特别羡慕那些,用平白的文字,用简单的例子,就能解释清楚高深概念的牛人,让稍有常识的人就能理解。今天我也试着来聊聊大数据思维,其实相关技术已经比较成熟了,只是某些关键字显得过于专业,让不明真相的人容易望而却步,如分布式、并行处理、非结构化等,但其实只理解思维方式的话,并没有这么麻烦。

大数据思维有三块与传统思维不一样。

一、要全体,不要抽样;

二、要效率,不要精确;

三、要相关,不要因果;

要全体好理解,因为以前处理能力做不到,用抽样做了妥协。数据量大之后,我们做判断时,不用精准也好理解,比如看知乎一个回答的点赞数,到了1K以上,只需要知道前面整数就可以,不会注重准确的数字,也无法准确,可能看的过程中,就已经变化了。

同时这也是视野的问题,如果能对事物有整体全面的理解,细节的精确就没有那么重要了。

我们来想几个问题:格式不规则的数据放一块如何分析?为什么数据全了之后,算法可以更简单?为什么能允许有错误数据?我们传统思维方式,用数据分析一个问题,这些都是前提呀,为什么数据多就变了?主要的区别在于,以前我们找因果性,逻辑推理一定是严谨的,而现在只需要找相关性。

以谷歌翻译为例,以前的翻译思路,是搞懂每个单词的意思,然后翻译成句子。而谷歌把语言视为判断可能性的数据,而不是语言本身,它收集了上万亿的语料库,并不理解内容的意思,只是通过对比相似度来判断可能性。比如how are you,根据上下文与库里资料比对,90%可能是“身体好吗?”,80%是“你好”,也可能有个错误资料,说0.01%可能是“不好”,但并不影响结果。这就是我们说的,为什么简单算法比复杂算法更有效,为什么不用强调数据的精准性。

翻译有一定的特殊性,可以简单进行数据比对,其实更复杂的问题同样可以,而且能起一定预测作用,比如判断经济趋势,每天收集50万种商品的价格,数据很混乱,也不能轻易进行比较,但每种商品纵向波动趋势是明确的,调整他们的权重,一样能判断出整体经济趋势是通货紧缩还是膨胀。

大数据时代的这些变化,关键并不在技术的发展,主要是思维方式的变化。对小数据而言,因为收集的信息量比较少,必须确保记下来的数据尽量精确,要通过推理找到规律;而大数据时代,关注全局,拥抱混乱,在不明白原理的情况下,也能接近事实的真相。

当然两者并不对立,我认为合理的做法,在稳定的环境下,追求因果性;在不确定,失控的环境下追求相关性,如下图。

如果上文某个点给您带来过些许帮助,很期待您帮忙转发一下,您的分享给我的帮助非常非常非常大,谢谢。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181129G0A7JJ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券