开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >苏宁基于Spark Streaming的实时日志分析系统实践

苏宁基于Spark Streaming的实时日志分析系统实践

用户1263954

发布于 2018-05-30 10:23:31

1.2K0

发布于 2018-05-30 10:23:31

举报

文章被收录于专栏：IT技术精选文摘

前言

目前业界基于 Hadoop 技术栈的底层计算平台越发稳定成熟，计算能力不再成为主要瓶颈。多样化的数据、复杂的业务分析需求、系统稳定性、数据可靠性，这些软性要求，逐渐成为日志分析系统面对的主要问题。2018 年线上线下融合已成大势，苏宁易购提出并践行双线融合模式，提出了智慧零售的大战略，其本质是数据驱动，为消费者提供更好的服务，苏宁日志分析系统作为数据分析的第一环节，为数据运营打下了坚实基础。

数据分析流程与架构介绍

业务背景

苏宁线上、线下运营人员，对数据分析需求多样化、时效性要求越来越高。目前实时日志分析系统每天处理数十亿条流量日志，不仅需要保证：低延迟、数据不丢失等要求，还要面对复杂的分析计算逻辑，这些都给系统建设提出了高标准、高要求。如下图所示：

数据来源丰富：线上线下流量数据、销售数据、客服数据等
业务需求多样: 支撑营销、采购、财务、供应链商户等数据需求

指标计算后数据主要存储到 HBase、Druid 等存储引擎，业务系统读取实时计算好的指标数据，为运营人员提供数据分析服务。

Spark Streaming 在指标分析实践

Spark Streaming 介绍

众所周知 Spark 是批处理框架，而 Spark Streaming 借鉴批处理的理念实现的准实时算框架，通过将数据按时间分批处理，实际应用中根据延迟要求合理设置分批间隔，如下图所示。Spark Streaming 支持多种数据源：Kafka、Flume、HDFS、Kenisis 等，平台原生支持写入到 HDFS、常见关系数据库等存储介质。

对比 Storm， Spark Streaming 准实时架构，吞吐量更高，支持 SQL，与 HDFS、数据库等存储介质支持的更好，开发方便，并且支持 Window 特性，能支持复杂的窗口函数计算。

NDCG 指标分析

Normalized Discounted Cumulative Gain，即 NDCG，常用作搜索排序的评价指标，理想情况下排序越靠前的搜索结果，点击概率越大，即得分越高 (gain)。CG = 排序结果的得分求和， discounted 是根据排名，对每个结果得分 * 排名权重，权重 = 1/ log(1 + 排名) ，排名越靠前的权重越高。首先我们计算理想 DCG（称之为 IDCG），再根据用户点击结果，计算真实的 DCG， NDCG = DCG / IDCG，值越接近 1，则代表搜索结果越好。DCG 计算公式如下：

在苏宁易购搜索关键词"苹果"，取第一排 4 个结果为例子。

计算得出 IDCG = 1， DCG = 0.5，NDCG = DCG / IDCG = 0.5 , 最终通过对每次搜索计算 NDCG 得分，用来作为判断搜索结果好坏的一个评价指标。

NDCG 计算方案设计

通过统计搜索行为时间跨度，86% 的搜索行为在 5 分钟内完成、90% 的在 10 分钟内完成（从搜索开始到最后一次点击结果列表时间间隔），通过分析比较， NDCG 实时计算时间范围设定在 15 分钟。这就提出了两个计算难点：

时间窗口计算：每一次都是对前 15 分钟数据的整体分析
去重：时间窗口内保证一次搜索只计算一次

最终我们选择了 Spark Streaming 框架，利用其 Window 特性，实现时间窗口计算。时间窗口为 15 分钟，步进 5 分钟，意味着每 5 分钟计算一次。每次计算，只对在区间［15 分钟前， 10 分钟前］发起的搜索行为进行 NDCG 计算，这样就不会造成重复计算。

按照方案开发后，线上测试很快发现问题，保存 15 分钟的数据消耗资源太多，通过分析发现：搜索数据仅占流量数据很小一部分，清洗任务在 Kafka 单独存储一份搜索数据，NDCG 计算订阅新的搜索数据，大大减小了资源消耗。

性能与数据安全保障

性能保障

容量预估与扩展

目前时间粒度是只到天，如果加上小时、周、月等时间维度，任务数、存储都要翻几倍。此时，一个高性能的 OLAP 计算引擎，来提升指标分析效率，变得更加迫切。

16 下半年数据云平台启动 OLAP 引擎建设，17 年正式对外提供 Druid 服务。 Druid 支持 sum、max、min、avg、count、distinct count 等常规聚合计算，支持从 Kafka 实时数据接入，其列式存储结构提升数据检索效率，通过数据预聚合提升了计算效率。

经过方案预研以及性能测试，Druid 大大提升了 NDCG 这类指标的计算分析效率，让指标分析任务变得更轻量级，指标多维分析能力交给 Druid 来解决。

数据保障

保障数据不丢失

exactly-once 语义保障

对于销售类数据，不仅要保证数据被处理，还需要保证数据仅被处理一次，涉及销售财务指标数据必须 100% 准确。

第一种方案：Labmda 架构 + Redis 去重

实时去重：一个订单被计算后，将订单号写入 Redis，通过比对订单号，保证数据不重复处理。
离线更新：每天凌晨重新计算销售指标，更新前一天指标数据

第二种方案：MPP + 主键

使用场景：适于外部使用场景，外部系统从 Mpp 数据查询、分析数据
技术方案：MPP 选用 PG CITUS 数据库，在 MPP 数据库建表，对订单号等唯一性字段设为主键。

未来架构演进与优化

总结与展望

日志处理分析系统作为数据挖掘、BI 分析等高阶应用的幕后支撑，起着承上启下的作用，尤其对于业务线多、大数据量场景，没有系统化平台化的支撑，大数据终将是一句空话。我相信不止是算法模型，底层的数据质量、时效性、系统稳定性，都将成为智慧零售的胜负手。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 IT技术精选文摘微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

前言
数据分析流程与架构介绍
- 业务背景
Spark Streaming 在指标分析实践
- Spark Streaming 介绍
- NDCG 指标分析
- NDCG 计算方案设计
性能与数据安全保障
- 性能保障
  - 容量预估与扩展
- 数据保障
  - 保障数据不丢失
  - exactly-once 语义保障
未来架构演进与优化
总结与展望

相关产品与服务

Elasticsearch Service

腾讯云 Elasticsearch Service（ES）是云端全托管海量数据检索分析服务，拥有高性能自研内核，集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群，也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务，它独特的向量检索还可助您构建基于语义、图像的AI深度应用。

产品介绍产品文档

ES特惠专场，首月1折秒杀，新客首购7折起！