神策数据创始人兼CEO桑文锋:大数据分析的四个重要环节(内附视频&PPT)

数据猿导读

在“硅谷之声——大数据技术达人中国行专场”上,神策数据创始人兼CEO桑文锋表示,在百度工作这么多年,“要把数据的事情做好”是我非常重要的一个心得。数据源做好了,事情基本上就成功了一半。如果没有数据,后面即使有再牛的算法,也一样做不好。

作者 | 桑文锋

硅谷作为当今全球科技创新的前沿阵地,一直吸引着全世界人的目光,对于中国高科技人士来说也同样具有这样的魔力,是众多梦想家的理想去处。

为了让大数据领域创业者、数据工程师等技术人才更好的了解最前沿的硅谷技术和文化,由数据猿联合BitTiger、微软加速器共同举办的“硅谷之声——大数据技术达人中国行专场”在北京微软亚太研发中心总部圆满落幕。

— 视频版 —

视频内容

注:获取演讲嘉宾干货PPT请后台回复关键词“硅谷之声桑文锋”即可

— 文字版 —

以下是由数据猿精编整理发布的 神策数据创始人兼CEO桑文锋 的精彩分享:

分享长度为3000字,建议阅读6分钟

这次我的分享主要是结合我在百度工作八年,以及创业两年来的经验。

百度的数据规模是非常庞大的,"用数据说话"就是百度的文化之一。很多时候的决策和改变,都要依赖于数据。很多人觉得,数据规模大才需要数据分析。小公司没有那么多数据,就不需要大数据分析。我认为这是不对的,所以这里就要解释一个概念,什么是大数据?有一种说法是:大数据是思维。但是我认为,要理解大数据,应该从两个层面来看。一是物理层面;二是抽象层面。

从物理层面来看,可以归结为四个字:大、全、细、时。

第一,大。这里指的不一定是物理上的大。举个例子,我们收集全国各个地级市今天的苹果价格,可能收集到的数据只有2兆,但我们用这个来做一个调动性,这就很显然是一个大数据的应用了。

第二,全。全指的是多种源,全量而并非抽样。以前做调研分析,许多时候都是抽样,这就很容易造成偏差。样本有一点问题,跟全局表现出来的都会有所差异。

第三,细。举例来说,如果我们提问全国各省份大家喜欢吃什么东西?大家并不会回答"我来自河南,喜欢吃烩面"这么细致。但是我们可以基于地理维度进行获取更细致的信息。

第四,时。即时效性。以前一个老板可能都不知道每个季度公司的收益到底是多少。而现在是实时的进行计算、反馈结果。

所以,对于许多小的创业公司来说,我们可以把数据收集的更细、维度更多、时效性更强,同样也可以进行更多的数据分析。我认为这些同样也叫大数据。

从抽象层面来看,最重要的一点是数据驱动的思维。这是大数据里非常关键的一点。虽然以前也有数据分析,但那个时候是采集样本,基于样本去分析、去做决策。现如今,无论是互联网还是传感器的发展,都让我们有机会采集到更多的数据,因此现在的数据分析和以前也是不一样的。

大数据的第一个环节是数据采集。因为数据规模大,当达到一定的水平之后,采集本身就成了一个很大的问题。我们现在需要各种各样的手段把这个数据记下来。每一个实际发生的信息,我们都要进行采集。

第二个环节就是数据建模。我们要在数据的基础上进行模型的搭建。数据建模最重要的是整理数据。把数据表做出来以后,我们才能更好的去分析。

第三个环节是数据分析。我们在拥有数据的基础上去做用户分析、用户分群。

最后就是指标。围绕一个产品,我们如何去获取新用户?每天增加了多少用户?通过哪个渠道?这些问题都是我们要关心的。

接下来就重点给大家讲讲每个环节的具体操作:

环节一:数据采集

大数据体现的是大,但时效性也是一个基本要求。现在我们进行数据采集、数据处理的时候,都在强调尽量去生成这个数据。归结起来,如何把这个数据做好?就两个字,一个是全、一个是细。"全"是用各种各样的数据源,无论是前端的、后端的数据,我们都要全量的采集到。"细"是强调多维度,无论什么样的维度信息,我们都可以采集过来。

在百度工作这么多年,"要把数据的事情做好"是我非常重要的一个心得。数据源做好了,事情基本上就成功了一半。如果没有数据,后面即使有再牛的算法,也一样做不好。所以,数据源是非常重要的,在这一块要花工作去把它做好。

数据采集有三类手段:

第一类是在产品里通过后台配置,去采集我们要采集的数据,或者是把这个采集的数据命名成什么样。这个方式的好处在于,不需要工程师干预太多,只需要业务人员、产品、运营,自己就可以看到要分析的数据结果。这种方式有利也有弊。自动采集手段目前还有很多局限性。许多时候,只能收集一些宏观的数据,比如说机器的版本。在采集一些复杂信息时,自动采集的方式就很难达到了。

第二类是通过代码去收集任何想要的信息,把要采集的地方埋入代码,记录下来。绝大多数的数据一般都会通过后端去采集。

第三类是通过工具去采集。

这三种是常见的数据采集的方式,无非是你从中去选择适合你的方式。

许多的公司在数据采集方面都存在非常大的问题。公司人员的流动很有可能造成数据采集的混乱。所以要对数据采集本身进行监控,在哪些点进行了采集,都采集了什么样的维度,通过的有多少,没有通过的有多少,要将这些监控起来。

另外,需要有分析师参与到数据管理。在我自己创业的过程中,我发现许多公司缺少一个真正的数据负责人。一方面我们要用各种各样的工具,去做好数据采集。另一方面,需要懂业务的人,真的把数据本身的采集管理起来。

环节二:数据建模

现在许多产品背后都有一个数据库,数据库里很多都是跟交易相关的。在数据库里会把我们生成的数据记下来,比如说用户的注册信息、交易订单信息,这种信息都会写到数据库里。那么我们在数据库里就可以解决问题,为什么要专门建一个数据平台呢?这里面有三个问题:

1、要把数据表用于数据中心。如果把数据库里的表交给业务员、产品经理,他们很难理解,更不可能后续在机房进行一些工作。

2、性能不行。业务数据库这种数据结构、数据表处理一般支持的是高频化、小批量的,而我们的数据分析跟这个模式是完全不一样的。数据分析的频次并不是很高,但是它的规模、吞吐量很大。在传统的数据库上去处理这个性能就会有很大的问题。

3、数据不全。业务数据库用于做数据中心,这个数据模型本身是不行的,或者说是只能解决一部分的问题。

做好数据分析,首先在数据建模的时候要易于理解。数据模型建好以后,无论是谁都可以理解,这样才能把数据更好的利用起来。另外还要性能好,我们在查询的时候,可以很快的得到响应。在数据分析,特别是互联网领域的分析过程中,最常用的模型是多维数据处理模型(OLAP),把数据拆成一个维度或指标。当然最好的分析方式还是建立一个好的数据模型。

环节三:数据分析

数据分析可以干什么?产品改进。数据分析可以帮助我们看到问题,然后改进。在有数据的情况下,即使一个初级的产品经理,也可以把这个产品迭代本身做得像模像样,因为有数据支撑,我知道哪些是客户喜欢的,这都是可以用数据表现出来的。

环节四:运营监控

运营监控是互联网产品中一个非常重要的事情。互联网产品有三件最重要的的事情:

第一件事情是拉新,就是如何去获取新用户;

第二件事情是怎么让这个用户不断的用你的产品;

第三件事情是变现,我用得挺好,来了就不走了,这三点是非常关键的。

一个科学的运营环节,应该分析哪些数据,可以从以下五个方面来看:

第一是触达,怎么让用户知道你;

第二是激活,要让用户进行购买行为;

第三是留存;

第四是引荐,一个用户能推荐给其他用户;

最后就是营收。

互联网产品常用的分析法:

多维分析:一个开元软件分析之后发现安卓的下载率比ios低很多,结果是因为屏幕布局问题,导致下载按钮没有显示,下载量低。这就是多维分析的方式。

漏斗分析:用户来到我们网站,这期间有一个转化的过程,这些环节我们都要跟进下来,才能知道是什么原因导致了用户流失。这就是漏斗分析法。

用户分群:对不同的人采取不同的策略。比如,一开始滴滴打车发13元红包,有些人发不发红包都会用这款软件,而一些人则不同。这就需要区别开来,使用不同的策略。

环节五:指标

我们到底应该关心什么样的指标?这里有两个方法:第一关键指标法;第二海盗指标法。

以上就是我分享的内容,谢谢大家!

原文发布于微信公众号 - 数据猿(datayuancn)

原文发表时间:2017-04-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

百度NLP | 智能写作机器人:不抢人类饭碗,我们只想人机协作

百度NLP专栏 作者:百度NLP 2016 年,百度全面发力内容生态领域,借助人工智能 (AI)、自然语言处理 (NLP)、深度学习 (Deep Learnin...

3674
来自专栏前沿技墅

云计算和 AI 时代下的运维转型

花名“谦益”,是公众号“Forrest 随想录”的作者,多届 ArchSummit 运维专题明星讲师和优秀出品人,TGO 杭州分会会员。目前专注于云计算和人工智...

2523
来自专栏PPV课数据科学社区

微信官方数据披露:什么样的文章更受欢迎

PPV课大数据 拥有4.68亿月活跃用户的微信,早已成为媒体和自媒体信息传播的重点社交渠道之一。但你知道用户喜欢在微信上阅读哪些文章,又喜欢如何阅读吗?今天为你...

2855
来自专栏CDA数据分析师

大麦网周宇红:用大数据打破票务行业的天花板

“每天一个数据”分析师新一期内容奉上,请享用~ 采访 | Penny 整理 | Sophie 转载请注明来自CDA数据分析师 否则小编将举报到底! 人物档案 周...

2225
来自专栏华章科技

客户数据分析:知道的太多也不是好事

数据被称为21世纪的石油,其中客户数据又是数据中最为重要的。大数据中与客户数据有关的,包括社交媒体数据、电子邮件、调查、客户服务数据等,很 多组织都拥有很多数据...

1204
来自专栏云计算D1net

云计算的人工智能虽然发展缓慢,但得到更多的关注

随着IT专业人士尝试应用人工智能,许多人将在公有云执行此操作。但是,组织从不断增长的人工智能服务列表中选择,从AWS、Azure和其他厂商中挑选,并不是一件容易...

34914
来自专栏TAPD

首度揭秘:腾讯敏捷研发和极速交付破局之道

 导读  腾讯到底是怎么进行敏捷研发和极速产品交付的呢? 腾讯研发管理部高级产品经理、敏捷教练张贺,受邀在DevOpsDays深圳站中进行了相关分享。 他从“...

1614
来自专栏人称T客

大数据分析三大门槛已降低

虽然大数据分析工具提供的功能并非全新,但有三大关键因素已经降低大数据分析的门槛,可以让更多的企业考虑采用大数据技术。 成本 早期的产品通常标价很高,并提供昂贵的...

2554
来自专栏华章科技

Gartner:2016年影响企业发展的十大技术趋势

本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载。

822
来自专栏理论坞

2018年UX设计的10大趋势

2017年人工智能迅猛的进入了各行各业,设计圈也不例外,今年很多智能手机都有全面屏的趋势,手机的占屏比也成了18:9,UX作为提升产品体验最重要的模块之一,在2...

812

扫码关注云+社区

领取腾讯云代金券