文章/答案/技术大牛

发布

滴滴处理海量数据的秘诀是什么？

文章来源：企鹅号 - java技术大杂烩

滴滴处理海量数据的秘诀是什么？

大数据系统的主要特点是数据是实时的，数据采集可以捕获90％以上的数据。我们共有三种类型的数据源，一种是Binlog数据，所有的数据通过Binlog实时采集到数据库中; 另外还有publiclog，所有的服务器日志也做了实时采集;

由于我们所有的数据基本都是实时采集，所以客户级的处理流程被广泛应用于实时技术。用三个产品实时存储，一个是ES，主要是做

这次我们在drop应用场景和实践中共享实时计算。

实时计算实时计算平台主任梁力在“网易实践日：大数据与人工智能技术研讨会”上发表题为“海量数据滴漏实时计算实践”的演讲。

嘉宾演讲视频回放：t.cn/RQXAmrK

滴滴大数据体系

日志检索和实时分析;另一个是Druid，用于实时报告和实时监控; HBase是做查询和数据扫描的。

离线这部分目前使用Hive和Spark。 Hive主要负责ETL的工作，Spark对查询进行数据分析和分析。我们使用Spark Streaming和Flink Streaming进行流量计算。

在规模上，我们的实时存储和离线规模已达到国内领先水平。

实时计算场景

实时计算有四个主要场景，即ETL，实时报告，实时监控和实时业务。

由于我们90％的数据是通过实时采集收集的，收购之后的第一步是进行ETL，所以ETL的规模是目前最大的。实时报告可用于报告和演示操作和客户服务。

实时监控的规模仅次于ETL，有两类内部监控需求，一个是机器级别，另一个是技术解决方案;剩下的就是商务舱的实时监控，比如日常订单，余额率等数据，都使用了实时计算系统。

实时业务是我们今年重大突破的一部分，我们要在流程计算结束的时候做一些突破。

实时ETL

为了方便使用ETL，我们把它做了平台化，用户只需要在web上配置就可以实现数据清洗。现在的清洗量可以达到每秒350万左右的数据量，每天大约会清洗几个P的数据量。这完全是基于Spark Streaming的云计算来实现的。

实时报表

实时报表主要用的实时技术有Spark Streaming和Druid。Spark Streaming还是做数据清洗。Druid可以实时消费Kafka数据，但对数据是有要求的，所以要先经过一轮清洗并转化。

实

报道的现场也比较多，有客服大屏幕，异常统计市场和订单温谱图。

客户服务是一个大屏幕可以显示客户服务接听电话费率，投诉热点和屏幕排队等信息。

异常统计市场包括端到端的服务器发起的请求监控，请求失败率的成功率，请求的数量可以通过这种方式进行监控。

订购温度记录图可以看到订货量，乘客量，司机的量，通过地图显示的区域。

我们选择了Druid，因为它具有一些功能，比如查询灵活性。

实时监控

为了提升以后的监控效率，我们构建了一站式自助监控平台，进行了全链路的平台建设。

基于这个平台，我们滴滴内部接入的数据源大概有两百个，指标监控大概有四五百个。

实时业务

Flink Streaming是今年刚推出的引擎，我们希望为实时业务问题提供更好的解决方案，如极高的延迟，数据丢失和数据重复。

面对挑战

降低实时计算开发成本：与Hive等相比，实时计算的发展还比较困难，我们也在探索更简单的开发。

实时业务发展和挑战：我们在实时ETL，实时报告和实时监控技术方面做得很好，基本涵盖了液滴内的所有业务场景。实时业务对延迟，容错要求非常高，这是我们现在面临的一个重要挑战。

峰谷资源合理配置：我们现在需要做的是如何合理分配资源，使资源更加合理使用，为公司节约成本。

我今天的分享就到这里，谢谢大家！

发表于: 2018-01-212018-01-21 16:11:10
原文链接：http://kuaibao.qq.com/s/20180121A0CG2500?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

滴滴处理海量数据的秘诀是什么？

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐