360数据处理平台的架构演进及优化实践

本文根据DBAplus社群第153期线上分享整理而成,文末还有好书送哦~讲师介绍

王素梅360大数据开发经理目前在360大数据中心担任大数据开发经理,拥有7年以上大数据行业从业经验,专注大数据处理、大数据平台开发,对大数据处理技术与场景有丰富的实战经验,尤其擅长实时数据计算场景的解决方案。本次要分享的是360大数据中心数据处理平台Titan的架构演进,以及一些具体的实践过程。

图1Titan前架构这个时期分布式计算兴起,从传统单机计算过渡到了分布式计算,在分布式计算引擎的基础上抽象了各类脚本模板,基于此,我们的工作模式从纯手工劳作转变到了脚本模板的开发。开发模式的转变使得我们的计算效率和开发效率得到了很大程度的提升。但随着产品爆发式的增长、场景的增多,脚本模板无法提供灵活的方式,依然需要铺大量的人力解决。第二阶段:Titan1.0这个阶段的架构图如下图2所示:

图2Titan1.0架构在这个架构里,基于分布式引擎及计算场景,抽象了各类型的模板库,通过模板库引用到我们的上层交互,以系统的方式将数据开发一定程度上交给业务。同时可以看到,这个阶段里,数据源相对丰富了,产品也比较丰富了,有计算平台、报表平台、在线查询系统以及经营分析平台。一方面把数据运维交给业务,另一方面也一定程度上把数据开发交给业务,让业务具有自主开发的能力。

图3Titan2.0架构Titan2.0采用了第三代计算引擎。众所周知,第三代计算引擎主要特点是支持JOB内部DAG以及强调实时计算。在第三代计算引擎基础上,自主研发了DITTO组件框架和规则引擎,基于组件及计算的抽象提供丰富的组件库,采用图元拖拽的方式实现数据处理的无码化操作。

图4一级功能视图二级功能数据源管理实现了多数据源归一化处理,同时也提供了对数据安全和质量约束的保证。抽取和加载通过对各个存储引擎处理的抽象,实现了同时支持流式数据抽取和加载以及批数据抽取和加载。任务管理部分通过图源配置,达到给用户提供灵活配置的需求,同时辅以我们运维管理模块的规则配置、任务调测以及数据流查看,实现了可视化运维和实例运维的效果。

图5二级功能视图Titan2.0从技术架构上来讲,采用的是第三代计算引擎,实现了跨引擎以及批处理和流处理的统一,这对上层用户是透明的;其次,它采用了DAG优化,提供了整个系统的处理能力以及计算效率,Titan2.0与数据资产系统结合实现了全链路的数据质量监控以及数据的安全性保障。

图6组件框架架构图DITTO采用了三层任务结构设计,如图7所示,分别是Application、Job、Task,它们之间的关系是一对多的关系,也就是一个App对应多个Job,一个Job对应多个Task,App在一次运行中负责了所有层次的初始化及所有事件的提交,DAG会在Job层次进行编排,最后Task这里是真正的执行单元。

图7DITTO组件框架设计在DITTO中,组件是最小的执行单元,DITTO的抽象大致可以分为组件计算逻辑抽象,组件计算引擎抽象和组件运行环境抽象这几个部分。这里分享DITTO设计过程中如何对计算、组件、context和规则引擎进行抽象:首先计算抽象。不论是数据处理、数据分析还是数据挖掘,最终都是一个数据的输入到一个数据的输出,那么首先就会有一个数据源的概念。

图8计算抽象其次是组件抽象,组件的执行需要做一个统一的入口或者说统一的标准,这个标准抽象为生命周期。标准定下来之后,数据如何进入到组件中,这里就会有一个数据采集。接下来数据在组件之间的流转需要定义一个元数据,元数据包括了数据类型和数据字段。对于数据依赖其实就是拓扑关系的维护。

图9计算组件抽象下图10是关于组件的类图,通过一个高层次的抽象来达到计算引擎的无关性,同时从这个类图中也可以看到我们的组件周期大致分为了prepare、execute、declare、clearup等几个阶段,数据的依赖通过dependencies来维系。

图10组件的类图而后是context,在DITTO中context主要负责初始化过程及上下文传输,在一个application的初始阶段,首先由context进行初始化。它负责了组件的初始化、计算引擎的初始化、时间的初始化还有DittoEnv和调度器的初始化。上下文传输部分的话,由于对于组件来说只关注自己本身,context来负责维系各个组件之间的数据流转。

图11context

图12context初始化流程图最后是规则引擎,规则引擎其实比较好理解,它最重要的功能就是实现业务规则从应用程序代码中分离,简单来说就是实现了集成代码与业务无关,也就是将字符串或者是代码块传到我们的解释器后直接给出结果。在Titan2.0里,基于规则引擎主要抽象出了四个部分,分别包括了逻辑运算、内置运算、四则运算、文本处理。

图13规则引擎在做DITTO初期,规则引擎是以一种DSL的方式接入到系统中的,随着场景的发展以及我们平台的扩展,规则引擎目前以独立的产品形态来提供服务。图14为当前我们规则引擎的整体架构,从架构图中可以看到在提供常规规则处理的同时,我们规则引擎也提供了规则库和函数库的管理,方便我们业务以更加自主自助的方式来试用我们的规则引擎。

图14规则引擎架构另外在实际场景中,我们还从组件粒度上对性能和场景进行了优化,包括防止数据倾斜处理、防止内存溢出处理、数据缓存处理小文件合并等等。四、心得体会最后分享一下个人的一些心得体会。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180713A03S3F00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动