滴滴处理海量数据的秘诀是什么?

摘要

本次演讲主要是和大家分享一下实时计算在滴滴的应用场景和一些实践。

视频内容

滴滴大数据体系

滴滴大数据体系的主要特点在于数据都是实时的,数据采集可以采集到90%以上的数据。我们的数据来源一共有三类,一类是Binlog数据,所有端上数据进数据库通过Binlog进行实时采集;另外有publiclog,服务端的所有日志也做了实时采集;还有端上埋点上报数据。

因为我们所有数据基本都是实时采集,所以客户级的处理流程也广泛运用了实时的技术。实时存储方面用了三个产品,一个是ES,主要是做日志检索和实时分析;另一个是Druid,用于做实时报表和实时监控;HBase是做查询和数据扫描。

离线这部分目前用了Hive和Spark。Hive主要负责ETL工作,Spark做数据分析以及分析后的查询。流计算方面我们用了Spark Streaming和Flink Streaming。

从规模上来说,我们实时存储和离线规模都已经做到了国内的领先水平。

实时计算场景

实时计算有四大场景,ETL、实时报表、实时监控和实时业务。

因为我们90%的数据都是通过实时采集,采集过来之后第一个环节就是做ETL,所以现在ETL的规模是最大的。实时报表可以给运营和客服可以用来做报表展示。

实时监控的规模仅次于ETL,内部有两类监控需求,一类是机器层面的,用了其它的技术方案;剩下就是业务类的实时监控,例如每天的订单量、平衡率等数据,都运用了实时计算体系。

实时业务是我们今年重点突破的部分,我们想把流计算在端上的场景去做一些突破。

实时ETL

为了方便使用ETL,我们把它做了平台化,用户只需要在web上配置就可以实现数据清洗。现在的清洗量可以达到每秒350万左右的数据量,每天大约会清洗几个P的数据量。这完全是基于Spark Streaming的云计算来实现的。

实时报表

实时报表主要用的实时技术有Spark Streaming和Druid。Spark Streaming还是做数据清洗。Druid可以实时消费Kafka数据,但对数据是有要求的,所以要先经过一轮清洗并转化。

实时报表的场景也比较多,有客服大屏、异常统计大盘和订单热力图。

客服大屏就是一个可以显示客服电话的应答率、投诉热点及排队情况等信息的屏幕。

异常统计大盘包括了端上向服务端发起请求的监控,请求的成功率失败率、请求数,都可以通过这种方式进行监控。

订单热力图可以看到某个区域的订单量、乘客量、司机量,通过地图的方式进行展现。

我们选择了Druid是因为它有一些特点,比如查询灵活。

实时监控

为了提升以后的监控效率,我们构建了一站式自助监控平台,进行了全链路的平台建设。

基于这个平台,我们滴滴内部接入的数据源大概有两百个,指标监控大概有四五百个。

实时业务

Flink Streaming是今年刚引入的引擎,我们想通过实时的业务对延迟性非常高、数据丢失以及数据重复等问题提出更好的解决方案。

面临挑战

降低实时计算开发成本:相对于Hive等等,开发实时计算的难度还是比较大,我们也在探索更简单的开发方式。

实时业务拓展与挑战:我们在实时ETL、实时报表、实时监控的领域目前技术已经非常成熟,也基本上涵盖了所有滴滴内部的业务场景。实时业务对时延、容错的要求非常高,这是我们现在面临的一个重要挑战。

业务峰谷资源合理分配:我们现在要做的就是如何将资源合理分配,让资源能够更合理地使用,为公司节省成本。

我今天的分享就到这里,谢谢大家!

原文发布于微信公众号 - IT大咖说(itdakashuo)

原文发表时间:2017-10-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏灯塔大数据

想要获得更多赞?大数据助你成为朋友圈焦点

社交媒体已经成为大多数人日常生活中不可缺少的一部分,发朋友圈、发微博似乎成为了很多人刷存在感的重要途径。谁的朋友圈和微博获得了更多的点赞和评论,谁就是更受欢迎的...

345130
来自专栏腾讯研究院的专栏

Spark上的大数据平台都能做什么?

Paxata是一家应用机器学习技术处理大数据难题的初创公司。公司致力于将数据科学家和业务分析师从数据准备工作中解放出来,使他们能够专注于数据分析工作。 最...

20860
来自专栏灯塔大数据

干货|35张PPT,教你快速成为数据分析师

本文适合一些想学数据相关的知识,来提升自己产品、运营能力的人。不太适合数据分析师。 一、如何入门互联网数据分析 网站分析是一种能力 对于大部分人互联网从...

42140
来自专栏钱塘大数据

【干货】从0到1搭建运营数据分析知识体系

导读:数据分析在运营工作中无处不在,无论是活动复盘、专题报告、项目优化,还是求职面试,数据分析都有一席之地。对于数据分析,我发现很多运营都有这样一些困惑: 不知...

55390
来自专栏理论坞

如何做别人眼中专业的交互设计师

最近发现网上可以学习的交互知识和如何去做交互设计的内容还是比较匮乏,所以想将自己这些年做互金行业的一些交互知识经验贡献出来,希望给一些刚入行的朋友看到能有所收获...

20130
来自专栏悦思悦读

数据科学家眼中的大数据和云计算

本次分享第【1】部分:什么是数据科学。 本次分享第【2】部分:如何从小白成长为数据科学家。 本次分享第【3】部分:如何以Python为工具走入数据科学之门。 分...

47580
来自专栏IT大咖说

DevOps在传统企业的落地实践及案例分享

摘要 在传统支撑模式无法满足业务价值快速交付要求的情况下,传统企业应该如何引入DevOps能力进行突破创新,本次分享将从以下几个方面具体探讨DevOps如何与传...

39690
来自专栏ThoughtWorks

DDD战略篇:架构设计的响应力

当敏捷宣言的17位签署者在2001年喊出“响应变化胜于遵循计划”这样的口号时,鲜有组织会真正把这句话当回事儿,甚至很多经验丰富的管理者会认为好的计划是成功的一半...

30370
来自专栏ThoughtWorks

数字化企业的数据自服务

什么是数据自服务 数据在企业中的处理过程,能清晰地映射出康威定律对IT系统的影响。在各个部门分别建设IT系统、组织内部大量存在信息筒仓(silo)的年代,数据的...

36160
来自专栏MixLab科技+设计实验室

全栈设计师技术Wiki之商业智能

封面由 ARKie 智能生成,小编御用 AI 设计师。 商业智能 BI ,Business Intelligence 此概念最早于 1996 年由加特纳集团(...

32280

扫码关注云+社区

领取腾讯云代金券