滴滴处理海量数据的秘诀是什么?

滴滴处理海量数据的秘诀是什么?

大数据系统的主要特点是数据是实时的,数据采集可以捕获90%以上的数据。 我们共有三种类型的数据源,一种是Binlog数据,所有的数据通过Binlog实时采集到数据库中; 另外还有publiclog,所有的服务器日志也做了实时采集;

由于我们所有的数据基本都是实时采集,所以客户级的处理流程被广泛应用于实时技术。 用三个产品实时存储,一个是ES,主要是做

这次我们在drop应用场景和实践中共享实时计算。

实时计算实时计算平台主任梁力在“网易实践日:大数据与人工智能技术研讨会”上发表题为“海量数据滴漏实时计算实践”的演讲。

嘉宾演讲视频回放:t.cn/RQXAmrK

滴滴大数据体系

日志检索和实时分析;另一个是Druid,用于实时报告和实时监控; HBase是做查询和数据扫描的。

离线这部分目前使用Hive和Spark。 Hive主要负责ETL的工作,Spark对查询进行数据分析和分析。我们使用Spark Streaming和Flink Streaming进行流量计算。

在规模上,我们的实时存储和离线规模已达到国内领先水平。

实时计算场景

实时计算有四个主要场景,即ETL,实时报告,实时监控和实时业务。

由于我们90%的数据是通过实时采集收集的,收购之后的第一步是进行ETL,所以ETL的规模是目前最大的。实时报告可用于报告和演示操作和客户服务。

实时监控的规模仅次于ETL,有两类内部监控需求,一个是机器级别,另一个是技术解决方案;剩下的就是商务舱的实时监控,比如日常订单,余额率等数据,都使用了实时计算系统。

实时业务是我们今年重大突破的一部分,我们要在流程计算结束的时候做一些突破。

实时ETL

为了方便使用ETL,我们把它做了平台化,用户只需要在web上配置就可以实现数据清洗。现在的清洗量可以达到每秒350万左右的数据量,每天大约会清洗几个P的数据量。这完全是基于Spark Streaming的云计算来实现的。

实时报表

实时报表主要用的实时技术有Spark Streaming和Druid。Spark Streaming还是做数据清洗。Druid可以实时消费Kafka数据,但对数据是有要求的,所以要先经过一轮清洗并转化。

报道的现场也比较多,有客服大屏幕,异常统计市场和订单温谱图。

客户服务是一个大屏幕可以显示客户服务接听电话费率,投诉热点和屏幕排队等信息。

异常统计市场包括端到端的服务器发起的请求监控,请求失败率的成功率,请求的数量可以通过这种方式进行监控。

订购温度记录图可以看到订货量,乘客量,司机的量,通过地图显示的区域。

我们选择了Druid,因为它具有一些功能,比如查询灵活性。

实时监控

为了提升以后的监控效率,我们构建了一站式自助监控平台,进行了全链路的平台建设。

基于这个平台,我们滴滴内部接入的数据源大概有两百个,指标监控大概有四五百个。

实时业务

Flink Streaming是今年刚推出的引擎,我们希望为实时业务问题提供更好的解决方案,如极高的延迟,数据丢失和数据重复。

面对挑战

降低实时计算开发成本:与Hive等相比,实时计算的发展还比较困难,我们也在探索更简单的开发。

实时业务发展和挑战:我们在实时ETL,实时报告和实时监控技术方面做得很好,基本涵盖了液滴内的所有业务场景。 实时业务对延迟,容错要求非常高,这是我们现在面临的一个重要挑战。

峰谷资源合理配置:我们现在需要做的是如何合理分配资源,使资源更加合理使用,为公司节约成本。

我今天的分享就到这里,谢谢大家!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180121A0CG2500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券