前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >定了!马上开始颠覆对传统数据驱动的认识

定了!马上开始颠覆对传统数据驱动的认识

作者头像
用户1682855
发布2018-06-08 11:19:11
4230
发布2018-06-08 11:19:11
举报
文章被收录于专栏:前沿技墅前沿技墅

桑文锋

神策数据创始人兼CEO,浙江大学计算机科学与技术专业硕士,在百度任职8年,从无到有构建了百度用户日志大数据平台,覆盖数据收集、传输、元数据管理、作业流调度、海量数据查询引擎及数据可视化等。历任软件工程师、高级软件工程师、项目经理、高级项目经理、技术经理,2015年4月离职创建神策数据,针对企业级用户推出用户行为分析产品神策分析,帮助企业实现数据驱动。2017年7月,桑文锋荣获第六届中国财经峰会“2017最佳青年榜样”荣誉。

一切知识皆来自数据,人工智能同样建立在数据之上,而以数据驱动体验更是未来的产品方向。互联网业者亟待重新认识——消除不确定性才是数据的本质属性和核心价值。这篇出自大咖之手的小文章,从价值、现状和理想几方面入手,望能成为驱动读者的有用“数据”。

  • 数据的驱动价值

有些产品把数据作为运维监控的手段,比如通过日志来监控系统的性能负荷,这当然也很有价值。如图1所示,从提升业务的角度来看,数据驱动的价值归结为以下两点。

其一是驱动决策。通过数据来帮助拍板,包括产品改进、运营优化、营销分析和商业决策等。我们有了数据,就能判断哪些渠道转化的效果更好,哪些功能样式更加受用户欢迎。这也就是我们常说的BI(Business Intelligence,商业智能),通过数据来支持决策。

其二是驱动产品智能。所谓智能,我把它归结为这么一种模式:我们有了一定的数据基础,然后在上面套一个算法模型,再将得到的数据结果反馈到产品中。这样,产品本身就具有了学习能力,可以不断迭代。比如个性化推荐,通过采集许多用户行为数据,在这个基础上训练用户兴趣模型,然后给用户推荐信息,再将用户的使用数据反馈到模型中,精准广告就是类似的模式。智能是一种学习能力,产品智能就是现在比较火的AI(Articial Intelligence,人工智能)概念。

图1 数据驱动的两大价值

这两点都消除了决策的不确定性,只是前者是人来执行决策,后者是机器来执行决策。事实上,我认为,数据驱动决策只能发挥数据20% 的价值,甚至更少。而数据驱动产品智能将会发挥数据更大的价值。

  • 企业内部数据驱动现状

数据固然能够帮助我们看透笼罩在创造新业务和产品周围的不确定性阴霾, 不可否认,这对于一些初创企业有一定困难:一个创业公司创始人无法拿到更多的数据,他需要凭直觉来决策“做一款什么样的产品”。但是要让这个阶段尽量缩短,更可控一些,以更少的代价获得一个验证的效果。

一家企业的产品已开始被市场接纳,而在实际工作中,企业在实现数据驱动的道路上,依旧困难重重。以下是创业公司实现数据驱动道路上的常见场景。

  • 场景1:排队等待工程师跑数据

如图 2 所示,企业老板、运营、产品、市场等各部门都要通过数据工程师老王获取数据,整个流程包括沟通需求→ 了解需求 → 查看数据源 → 升级系统 → 响应需求等,老王忙得痛不欲生。当然,数据需求方都对数据获取的速度很不满意,有的人等不及,还是决定拍脑袋,最终导致产品迭代效率低下。

图2 排队等待工程师跑数据现状

  • 场景2:仪表盘只能看到宏观数据

如图3所示,仪表盘能够帮助各个团队负责人看到宏观数据,如销售额、用户数等,这在一定程度上帮助管理者做出科学决策。然而宏观的数据价值有限,这令执行者苦恼不已。比如昨天活跃用户数暴跌20%,是什么原因?宏观的数据这时显然丧失价值,我们需要进行深入、精细化的分析,如按照渠道、地域等维度对数据进行分解,判断某渠道或某地域是否有大的波动,进行多维度、细粒度的下钻分析,才能快速定位问题,从而有的放矢地解决问题。

图3 公司有仪表盘后的现状

  • 场景3:无法跨越数据孤岛的藩篱

如图4所示,企业内部的数据孤岛现象是普遍存在的,特别对一些集团化的企业孤岛效应更是明显。做大数据分析需要与不同部门沟通协调,获得审批权限,等待数据审批完成后才能统计数据,周期较长。从企业自身数据的价值角度来说,应消除部门间的数据孤岛,让数据协作更好完成。

图4 数据孤岛

  • 理想的数据驱动 ——“流”

上述三个场景是典型的“需求驱动”,即根据需求去找数据。业务方提出数据需求,工程师满足需求,加上排队等待,整个效率非常低,完成一个需求都要几天甚至几周的时间。那么,理想的数据驱动应该是怎样的?

我们应该先把数据源整好,并在这个基础之上来提供强大的分析平台,以便让业务需求的提出者也能够自助式(Self-Service)地完成数据分析需求,从串行变成并行,完成需求从几天时间缩短到几分钟甚至几秒钟,这才是理想中的数据驱动,如图5所示。

图5 现实中和理想中的数据驱动

我从 2008 年开始专职从事数据方面的工作,到了 2012 年才慢慢想清楚——数据处理归根到底就是一条“流”。按照数据的流向,可以把数据处理分成5 个阶段,如图6所示。

图6 数据驱动的“流”

在这个过程中,每个业务人员和数据之间都需要有一个强大的工具,将数据规范化,处理数据模型。通过这个强大的分析工具,让这些业务人员在数据分析平台上自助式地完成自己的分析需求,如图7所示。

图7 自助式产品分析是最理想的数据分析方式

不管是推进公司的日志采集结构化,还是提供更强大的查询引擎,我们都在围绕这条“流”工作,尝试如何把这条“流”建设得更好。创业以来,我接触的创业公司超过 200 家,包括传统工业领域,我更加确信了这套思路的可行性——不同行业、不同企业的业务千差万别,但在数据处理这件事上,或多或少都遵循“流”的思想。

————

以上内容节选自桑文锋作品《数据驱动:从方法到实践》一书,预计春节后即可面世。

  • 内容简介:本书是从理论到实践的全面且细致的企业数据驱动指南,从作者的百度大数据工作说起,完整还原其从零到一构建百度用户行为大数据处理平台经历。详解大数据本质、理念与现状,围绕数据驱动四环节——采集、建模、分析、指标,深入浅出地讲述企业如何将数据驱动方案落地,并指出数据驱动的价值在于“数据驱动决策”、“数据驱动产品智能”。最后通过互联网金融、电子商务、企业服务、零售四大行业实践,从需求梳理、事件指标设计、数据接入阶段、实际应用四大阶段介绍数据驱动在不同领域的商业价值,全面展示大数据在各领域内的应用情况与趋势展望。本书贴近企业真实场景,兼具权威性与前瞻性。本书广泛适用的普及读物,包括对大数据、数据驱动感兴趣的企业高管、决策者、创业者、IT人员、营销人员、产品经理、相关专业的学生等。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-01-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 前沿技墅 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档