360数据平台副总监王景正独家解析:大数据平台从0到1的演进历程,深度解构QDAS以及...

在大数据的风口,起飞的为什么是360?这也许是很多人的疑问,作为大数据业界的弄潮儿,360大数据平台是如何演进的,QDAS是缘何诞生,以及再次变革的原因又是什么?

5月31日晚,360大数据中心数据平台副总监、360技术委员会大数据分委会主席王景正分享了360大数据平台的演进之路。

以下是【重点】整理分享:

为什么要做大数据平台?

360大数据平台可以说是我一手带领构建起来,QDAS对应的单词意思是奇虎数据分析系统。

为什么要做大数据平台?

事实上,大公司会面临这样的问题:当业务飞速发展的时候,往往会忙于做业务而不重视底层平台的发展,底层也没有时间思考如何构建平台化、产品化的东西。而对于开发人员来说,一直在做重复的工作而没有得到成长和认可。最终的结果是公司产能出现问题,包括准确性和效率方面。

360也一样。由于内部环境很复杂,业务线非常多(安全杀毒、游戏、快视频、浏览器等),如果把一个App算作一个业务的话,公司业务多达数百个,而这些业务团队的需求点又存在差异性。更为致命的是:业务线各自为战,所上传数据完全不统一不规范,甚至没有人知道上传的格式。

在过去很长一段时间里,这些问题苦于没有合适的切入点而一直搁置没有被解决。直到最近3、4年的时间我们的大数据平台才慢慢做起来。

QDAS诞生的原因

如何抽丝剥茧理出头绪?

开始的时候提出了几种解决方案。

譬如整理数据字典统一规范化公司数据,但是这并不现实,互联网公司的特点是变化快:业务发展变化快,人员变动也快。

因为业务需要不断调整将导致数据规范化难以统一, 而即便数据上传规范,但是当人员流动,新入职的产品经理可能难以理解或是不认同之前的数据,这时候的结果就是:重建。

……

最终我们得出了解决方案:从重业务轻平台的无平台阶段到试图建立一个公司内部的类友盟的平台,也就是QDAS,主要解决的是效率问题。

QDAS介绍

2015年5月份,我一手推进了QDAS的搭建,当时并不要求做得大而全,目的在于能够让这套系统可以先run起来。

在开发大数据平台之前,我们把公司内部使用者分为4类:

  • 管理层
  • 产品经理(重点使用人群:根据产品特点关注点不同)
  • 运营分析人员(对报表依赖度高但需求相对统一)
  • 开发人员(需要异常信息报表)

在QDAS阶段,我们主要统一了3个内容:

统一数据采集方案:

前期开会要求统一数据(软性的手段最后没有达到预期的效果)

后期SDK+JS(通过技术手段做硬性要求)

统一云计算

统一预置报表+自定义报表

第一个版本我们预置了70张报表。解决的是高层、开发、运营人员和小部分产品经理的需求。其中自定义事件报表是产品经理使用最高的。

上图是QDAS第一版本的主骨架,由5个部分组成。包括SDK、大数据计算(后台)、QDAS(当时仅作为报表的称呼)、开发者信息管理平台(系统入口,具备实时调试功能)、云控平台(保持访问者和SDK之间的通讯关系。360有一个用户隐私管理部,采集用户信息的时候需要先求得批准)。

各系统之前相生相克、自然集成。譬如想要使用QDAS, 第一步要到开发者信息管理平台注册并下载SDK,下载配置完成后经过云控平台进行数据采集,再将获得的数据在大数据计算里运行,最后把计算结果导出到QDAS报表里。此外,各系统均具备升级和扩展能力,可以衍生很多新的东西。

再给大家看一下QDAS计算框架示意,在这个框架里面,自定义事件、事件漏斗和页面访问路径都是产品经理重点关注的的部分。

自定义事件:用户对每个事件设置唯一时间ID,在QDAS上录入相关规则,大数据平台会进行盲算。让产品经理对自己关心的事件进行埋点。

事件漏斗:从第一个事件到第二个事件的转化率和留存情况

此外,我们目前还在做用户分袂,把流失和留存的人保存成2个用户群体,做相应的数据统计和比较:如两个群体之间的行为差异、属性差异等。

变革和利器纳新

再一次变革的原因

去年我们做过一个关于QDAS的用户使用情况调查统计,如上图所示,左边是以前的用户使用情况,结果发现我们投入精力最大耗费计算资源最多的预置报表用的人却很少,80%的访问者都在用自定义事件,也就是说使用的人大多数都是产品经理。

因此,我们决定把设计精力改造成与用户实际需求想匹配。去年发布的新的数据产品(OLAP、无埋点、A/B测试等)也是为了解决这些问题。

增长三利器之OLAP介绍

OLAP是我们在做QDAS+时推出的一系列数据产品之一。

和之前一张框架相比,新增了OLAP数据处理、结果缓存和OLAP单独展示报表。其中结果缓存主要是为了提升用户体验,将用户反复看的报表进行结果缓存。

OLAP的特性

  • 可视化自助式即时分析
  • 创建自定义单图、指标
  • 用户自定义指标再分析(针对用户定义好的指标,可以再利用现有维度进行分析)
  • 指标、图表、仪表盘全部自定义
  • 基于事件的留存分析(基于事件的留存分析,自定义初始行为+后续行为;针对事件可进一步筛选细分)

思考和展望

最后,关于我个人对于架构层面的一些考虑:

有一些做大数据平台的朋友容易陷入一种在被动的做支撑的境地,做好一个平台、维护平台、为了不出错、被动等别人的需求……这种状态很难把平台做得出色。

如何判断数据产品好还是不好,我的答案是:

“数据产品的目的,就是让人更快地形成决策,越是能让用户快速决策的产品,价值也就越高”

从无到有,从人肉支撑到平台搭建

QDAS就是让效率提升,构建规范且自动化的基础平台

OLAP就是回归本源,做用户想要的平台,为用户创造价值。

未来,我们希望以大数据之力,驱动增长

Tips:关于无埋点

这是一个有价值但具有局限性的东西,当开展创新型业务需要数据验证想法时,无埋点确实可以帮助到产品经理。不过我们也必须清醒地认识它的局限所在,因此,我们目前的数据采集还是以代码埋点为主,无埋点为辅助。

关于无埋点数据收集中可以避免的一个坑:如果通过无埋点采集一个长页面中进入下一页的按钮点击量时,一定要注意这个页面是否有存在2个按钮,如果是,那么圈选时一定要把2个都选上,否则最后出来的数据会少很多。

原文发布于微信公众号 - 养码场(yangmachang0)

原文发表时间:2018-06-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯大数据的专栏

数据运营实战(二):细分漏斗画像,改善关键节点

我们的现实世界并非是简单的数据逻辑结构,很多结果都是多种原因综合导致的,我们可以用多种角度去分析同一个问题。

27820
来自专栏SDNLAB

AT&T将谷歌云融入其NetBond for Cloud平台

26970
来自专栏安恒信息

评估网络安全虚拟化产品

 业务部门和IT运营部门正在缓慢推动数据中心服务器和组件的虚拟化,这给安全专家提出了新的难题:如何在虚拟环境中保持足够的控制。所幸的是,现在出现了很多解决虚拟化...

30350
来自专栏互联网数据官iCDO

Facebook广告定向优化的8种方法

译者:吕东昊 审校:董梁 本文长度为3495字,预估阅读时间6分钟。 我们今天要向大家介绍的是Facebook广告定向优化的8种方法 您的Facebook广告...

72270
来自专栏云计算D1net

云服务应用: 架构师还不知道的秘密

自从云计算问世以来,它的主要重点一直就是把应用程序迁往云计算。在这个目标中所隐含的意思就是,在云计算和数据中心之间其实并不存在着什么功能性方面的差异;要说有差异...

37090
来自专栏鹅厂网事

腾讯服务器平台发展与创新简介

前言: 服务器是业务应用的载体,也是资源运营和系统运维的最小单位。服务器平台规划直接影响业务应用的效率和资源运营维护的效率以及IDC建设规划。因此服...

32950
来自专栏DevOps时代的专栏

你所不了解的 DevOps

20840
来自专栏SDNLAB

Linux基金会对微软收购GitHub表示担忧

即使是微软内部的人似乎也不认同此举。微软Azure容器项目经理Gabe Monroy在Twitter上发表推文:“This isn’t your daddy’s...

13050
来自专栏京东技术

【对话】京东基础架构部高级软件开发工程师张墨飞:全面解读京东ForceBot全链路压测平台技术核心

? 张墨飞 基础架构部高级软件开发工程师 京东技术11.11基础架构峰会讲师 电商大促准备好的第一件事情就是应对高流量,全链路压测无疑成为必不可少的一个环节...

52240
来自专栏企鹅号快讯

大数据可视化——这些必须知道的工具!

人们常说,数据是组织的生命线。然而,解析这些数据并有效地使用仍然是一个挑战。 ? 大数据可视化 假设拥有一个巨大的金矿,但不能使用。那么,作为一个金矿的拥有者有...

19880

扫码关注云+社区

领取腾讯云代金券