首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

田教授侃大数据一:大数据思想漫谈

田教授侃大数据一:大数据思想漫谈

以前不是没有数据,是数据没有被记录!

当然,以前的数据确实没有现在的丰富!以前没有电子商务,没有移动终端,没有如此丰富的交通工具等等等等!

数据不等于大数据!

何为大数据?

大家都知道大数据的四个V!(还有5V,6V,7V)

分别为:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)!

这里面最重要的是第一个V!

这个量大到什么程度?

大到,当时的软硬件处理不了的程度!

单个的硬件处理不了,解决方案就是从以前的集中式改成分布式协同处理!

既硬件也是靠量取胜!

以前的数据库架构处理不了,也得更新数据处理架构!

这才是真正的大数据!

究竟多大的数据才是大数据?

没有定论!但是如果数据连PB级别都没有,就不好意思称为之大数据了吧!

这里引发地震的,是一个思想!

既在大数据时代:要相关性,不要因果性!

也就是,我们只需要知道是什么,不需要知道为什么?

提出这个观点的是大名鼎鼎的克里斯.安德森,长尾理论的作者,连线杂志的主编!

连线杂志另一位主编就是《失控》的作者凯文凯利!

都是顶级牛人!

克里斯安德森,在2008年发表了一篇震惊学界的短文《理论的终结》!

他在文中说,因为数据变得如此之大,那些所谓的理论也好、模型也好,变得不再重要!

只需要让数据说话!数据不会说谎!我们只需在乎结论,至于理论和方法全部靠边站!它的例证就是google!google的研发主管也跳出来,推波助澜,声称所有的模型都是错误的!

这打碎或即将打碎多少人的饭碗,估计和尚都要出手削他了!

可是仔细想想,也不无道理!

数据建模的本质是逻辑分析,不管范式建模也好,还是维度建模也好!都是遵循某种逻辑或者哲学!

可是在数据洪流面前,主要问题有两个:

一是逻辑的滞后性!

逻辑是不断变化的!

变化才是永恒!在此向伟大的《易经》致敬!

等你搞清楚逻辑的时候,不好意思,逻辑可能又变了!

不是说没有规律,而是规律会变化!

二是模型的复杂性

我们都认为万事有规律可循!甚至爱因斯坦都想把世界规律统一到一个方程面!

结果失败了!

世界有时候会出现一种匪夷所思的状况,它超出了我们人类的理解能力和语言范畴!比如薛定谔那只半死半活的猫!有时候连数学都会陷入自相矛盾的境地(哥德尔不完备)!

这让我想起了“道可道,非常道”!在此向老子致敬!

你告诉我,这种情况下,你怎么建模?

google的翻译就是最好的例子!

googl的翻译,谁用谁知道!那是真的好!

其他的翻译,连吃它的土,都吃不到!

啥原因呢?

人家理念先进!

说先进,其实用了笨方法!

以前的翻译原则,是按照专家的思维去思考!

就是请一大推的语法专家参与翻译转件的开发过程,后来发现,很难搞!

为啥,因为人类的语言根本就不是标准的!人类的语言就是从实践中形成的!是从事实开始的,根本就不遵循什么固定的规律!

比如,汉字,什么形声,什么会意?有太多字什么都不是!

我现在最反感,什么字古代读什么!显得那帮专家很与学问似的!

其实,语言就是用来沟通的,只要大家达成一种共识,都认可,至于它原来啥意思,啥读音,真的不重要!

google后来灵光一闪!最准确的语言就是使用的语言!而几乎所有的组词或者句子都被人使用过!从来没有被使用的,基本是病句!而互联网上就存在巨大的语言知识库!

这本来就是google的长项!

google做了一个词汇关联的统计数据库,这个数据库根据词汇关联的频率进行排名,最高的就是最常用的!根本就不关心语法规则!根据数据去推倒出出另外一个数据!

效果出奇的好!

现在google的翻译在这个基础上更进一步,称之为序列到序列的翻译,把原来的单词变成了数字符号!增加了一层逻辑抽象!

这下子!在google的翻译里面,根本就没有含义的概念了!也就是,google的翻译系统把翻译仅仅变成了数字的最佳排列组合游戏而已了!

另外一个就是猫的故事,前google人工实验室主任李飞飞在TED演讲中,讲了怎样让google的AI去认识一个猫,一开始的时候,也是按照动物学家的描述去给猫定模型!然后,Ai去按照这个模型去找猫!

因为猫的种类、姿态、还有猫所在的环境太复杂,这个模型非常难以定义!效果非常差!

后来就想,啥是猫?大家认为是猫当然就是猫!互联网上有那么多猫的图片,如果样本足够大!Ai就学会了相当牛逼的认猫本领,甚至超过人类!效果出奇的好!

其实想想,这也符合我们人类学习的过程!我们认识一个事物,并非从建模开始!都是从事实和实践中去一步步学习来的!

从以上例子可以看出,google确实有资格说模型已死!

但是其他的公司,并非有资格!

忽略因果,只求相关!并非普世真理!

必须是具备以下两个条件的场合:

一个是无法建模!

一个是因果并不重要!

以上google的翻译和认猫就符合这样的条件!

没人去关心翻译和认猫的因果性!你不会因为认识一只猫,就会被苦苦的追寻为什么!

我们的很多应用场景,真的不能说大数据!

只是蹭大数据的热度而已!只是传统的数据分析和数据挖掘!

但是,这种界限确正在模糊化!

现在人们不再关心概念的争论,而是在乎数据分析能他们的业务带来什么价值!

在一般的场景下,模型依旧重要!

通过深刻理解客户的业务场景和业务逻辑,建立符合客户的数据模型依旧是重中之重!这仍然是很多公司的看家本领!

找出事件的关联,用清晰的图表表达之余,我们更重要的是要思考,这究竟是为什么?

分析清楚事件背后的前因后果之后,才能更好的调整业务模式或者管理模式!防患于未然,或者把业绩推向更高!

大数据的这种相关性思想,更适合已经发生的事物!它的逻辑是从一个事实去等价出另外一个事实!大数据的前提是有数据!

可是,它对没有发生的事物,无能为力!

而以建模为基础的因果性思想,则适合探索未知领域,也就是更适合预测!在一个已知域里面的得出的因果关系,可能适合一个未知领域,也可能不适合!但是绝对聊胜于无!

我们探索火星!是不可能实现得到火星的大数据的!我们只能用在地球上的模拟的数据进行建模,来应对火星的环境!

事实上,这样做的很好!

很多人都追问过生命的意义!从进化论的角度来看,真的看不出生命有何意义!

生命就像时间长河上的泡沫一样!缘起而生,缘灭而破!

可是人类却不同,已经进化出了超出其他一般生命体的非凡能力和勇气,搞搞清楚这一切他妈的究竟是为什么?也许永远都不会有答案,但是我们会一直去寻找,也许这就是意义!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190216G10JVW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券