专栏首页华章科技车品觉:大数据的“上半场”与“下半场”

车品觉:大数据的“上半场”与“下半场”

导读

从PC互联网到移动互联网,再到智能互联网,技术背后更多体现的是解决问题的思维方式的变革。当大数据被广泛应用并逐渐走到下半场的时候,对于公司或产品,我们面临怎样的机会和问题,我们又当如何科学地对待?红杉资本中国基金专家合伙人、原阿里数据委员会会长车品觉在近期发表的《大数据,颠覆存在与思维》演讲中提到,人类的经验和数据的驱动应该更好地相处。

大数据,颠覆存在与思维

们总说,我们经历了从PC互联网时代到了移动互联网时代,还会经历智能互联网时代,但很多人不理解什么是“智能”。

那么现在到底发生了什么事情呢?以前我们很难说服公司的每个部门去主动搜集数据,甚至当我们开始做大数据的时候,我们公司里面还讨论“我应该收集什么”。

而现在,我们希望能够更准确地分析信息,更准确地做判断,通过深度学习,我们希望快速从错误的信息里找出对的东西。这些都是现在正在发生的。

当数据量特别大的时候,万物的连接,主动的数据收集,这是上半场;而下半场是怎么准确进行判断,把数据变成行动

说的更通俗一点,从前人类想我到底能不能活得更久一点;而现在,除了这一点之外,人类在想我能不能把平均IQ提升到160,这就是上半场与下半场的区别。

需要治理的数据

最近不断有大集团打电话给我说:车总,跟我们讲讲数据治理吧,我们想知道你从头到尾是怎样思考的。这些老板提到了一个概念:数据治理。

公司数据遇到的大部分困难是公司内部的打架,因此大量数据没有办法整合在一起,可能四五年内都没有办法。100PB、200PB、300PB的数据,再不治理就真的吃不消了。因此数据治理是非常关键的点。

除了数量,数据的质量也非常重要。比如阿里金融和其他数据部门总是为了一件事争论不休,就是因为阿里金融需要的数据质量是非常高的,但是其他部门给出的数据经常没有考虑这些,这都是数据治理的问题。

其实当数据量增加的时候,你就会发现它的精准度在提升,当然数据量的增加是指来源的增加。但有些问题必须要很精准,90%准确度和95%准确度本身就是非常大的分水岭。

还有一些事情也是下半场开始出现的。比如我们身体反应出的一些数据,我们今天的表情到底是开心还是不开心?即“情感的数据”。由此可想象数据的复杂性,到了下半场你会发现你根本没有办法去找到这一类的数据。

我们除了说数据量一定要大,其实还有一点也很重要:核心数据。这意味着,当你拿到这些核心数据的时候,数据量可能并不需要那么大了

大数据不止于“大”

你遇到的问题到底能不能用大数据来解决?

根据我们过去的经验,我们今天准备用数据解决的问题如果没有足够的发生次数,如果只是偶然或者低概率,大数据就没有办法处理。但如果它的发生次数足够多,我很快就能知道我推荐的东西到底是对还是错的。

如果想通过数据看到很准确的信息,这需要依据数据的量以及我们对这个业务的理解有多深。

有时候会有投资人拿着一家比较小的公司的数据给我说,这个公司有很大量的数据,大概MAU在1亿多,但我说这不是大数据,为什么?

第一,这些数据里面有多少是可以和我匹配的?不妨想一下,如果你有100万的用户数据,那么有百分之多少的数据能覆盖?如果1亿多的量,一般超不过50%。这是第一个问题;第二,如果我给你100万的数据你知道他是男的还是女的吗?准确度在90%以上吗

如果不能回答这两个问题,那就不是大数据了。量和量之间的连接是非常重要的,在这个前提下你才可以做融合。比如一个人今天到你店里去买东西,那么你知不知道他之前去过什么店、看过什么东西?匹配、相关、全面,第四点最重要,新鲜。到底你的数据能做到有多新鲜,这是非常重要的

挑战与机会

我们要解决的问题通常是两种:第一,我们非常清楚问题是什么;第二,我们不是很清楚问题是什么。换句话说,一个问题是数据很集中;另一个问题是数据很零散。

我们现在可以做的大数据方案都是数据很集中,而且问题很清楚,否则没有办法解决。如果数据很零散,你可能要用大量的算法,但如果数据很清楚,问题很清晰,算法不重要。

但是大数据的机会反而是来自今天的离散的数据。

第一个机会:我认为将来有很多数据的创新是来自这里:数据创新、算法创新、服务创新,把三层分开; 第二个机会:很多数据太零散了,所以需要有一个第三方进来整合这些数据; 第三个机会:今天最大的问题是政府数据的开放,不是不存在,但是质量相对较差,没有标准化,比较零散。

我认为这是BAT以外最大的数据量,而且可能是非常重要的一块。怎么样可以把这些数据的产能释放出来,这是一个挑战和机会

数据的标准化

当年发现阿里数据很大的时候,我们发现大量的数据是重复的,特别是ODS层的数据,越底层的数据处理应该是越统一的。

如果不做标准化,随着公司对数据的重视,就会“百花齐放”:结果就是乱,可能需要重做

你们做的是Data Stitching,把它连起来,让它能使用,让中间人用Machine来使用。一种是可视化分析,另外一种是用服务的产品,还有智能的东西出现。这样的东西面对的是什么呢?最终的用户是政府、公司和个人。

在世界互联网大会上联想提到以前是终端,现在中间那块做得比较厚,Data、算法、服务。尽管数据驱动非常厉害,但是依然会有经验的驱动,人还是要告诉机器“你要去哪里”。

不用担心数据驱动这个世界将会把我们人类的经验消灭掉,人类的经验和数据的驱动两者之间是互相的。

END

版权声明:

转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

本文分享自微信公众号 - 大数据(hzdashuju)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-02-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何打造高性能大数据分析平台

    大数据分析系统作为一个关键性的系统在各个公司迅速崛起,但是这种海量规模的数据带来了前所未有的性能挑战。同时,如果大数据分析系统无法在第一时间为运营决策提供关键数...

    华章科技
  • 拨开数据迷雾:如何理清大数据脉络?

    之所以有这么一个话题,确实是有原因的。就在前几天,我又收到了一个同行的邮件,是向我咨询关于大数据方向的问题,他们想涉足大数据这个领域,或者说已经涉足大数据这个领...

    华章科技
  • 大数据痛点 |《财经》封面报道

    3月5日,国务院总理李克强在十二届全国人大四次会议上作2016年政府工作报告时提到,当前中国发展正处于这样一个关键时期,必须培育壮大新动能,加快发展新经济。

    华章科技
  • 十张图看懂未来的大数据世界

    摘要 随着互联网云时代的来临,大数据与云计算就像一个硬币的正反两面,势必会影响到社会生活的方方面面,改变我们现有的规则和秩序。伴随着大数据与云计算产业的不断发展...

    灯塔大数据
  • 【24页ppt干货】2014中国大数据整体市场专题研究报告

    报告核心:大数据时代的变革体现在数据对于决策、流程和产品的新驱动方式;云计算、移动互联网、社交网络和物联网等推动了大数据技术的逐步成熟。 大数据生态系统:由底层...

    小莹莹
  • 数据猿专访 | 北大新媒体研究院副院长刘德寰:大数据将在公共卫生领域迎来爆发式发展

    <数据猿导读> 刘德寰教授在接受数据猿采访时说到,公共卫生跟人的生命密切关联,未来,大数据一定会在公共卫生领域有巨大的应用前景跟爆发式发展;但同时也很担忧,现在...

    数据猿
  • 投稿 | 现阶段我为什么不看好纯粹的数据交易?

    原力大数据创始人江颖表示,尽管大数据交易平台建设正值爆发期,数据交易号称的市场规模也在不断壮大,同时也有国家大力的政策支持。但是短期内,我仍然不看好数据交易,因...

    数据猿
  • 《大数据产业”十三五“规划(2016-2020)》正式发布!

    导读:近日,工业和信息化部正式发布了《大数据产业发展规划(2016-2020年)》(以下简称《规划》),明确了大数据产业发展在技术产品、应用能力、生态体系建设等...

    钱塘数据
  • 公司利用大数据的三大模式

    导读:根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、 技能与思维。出现的三种大数据公司分别是基于数据本身的公司、基于技能的公司、...

    钱塘数据
  • 盛世的阴影:大数据时代的挑战渐渐浮出水面

    数据猿导读 6月29日,由数据猿主办的金融大数据峰会在上海盛大召开,现场汇集了众多来自大数据领域内执牛耳的重量级嘉宾。大数据被誉为第四次工业革命的能源,整个产业...

    数据猿

扫码关注云+社区

领取腾讯云代金券