点击蓝字关注 | 更多腾讯大数据资讯
Apache InLong(应龙)是一个一站式的海量数据集成平台,提供自动、安全、可靠和高性能的数据传输能力,同时支持批和流,方便业务构建基于流式的数据分析、建模和应用。InLong 支持大数据领域的采集、汇聚、缓存和分拣功能,用户只需要简单的配置就可以把数据从数据源导入到实时计算引擎或者落地到离线存储。
1
Apache InLong (incubating)
简介
Apache InLong(应龙)是腾讯捐献给 Apache 社区的一站式海量数据集成框架,提供自动、安全、可靠和高性能的数据传输能力,方便业务构建基于流式的数据分析、建模和应用。InLong 项目原名 TubeMQ ,专注于高性能、低成本的消息队列服务。为了进一步释放 TubeMQ 周边的生态能力,我们将项目升级为 InLong,专注打造一站式海量数据集成框架。
Apache InLong 以腾讯内部使用的 TDBank 为原型,依托万亿级别的数据接入和处理能力,整合了数据采集、汇聚、存储、分拣数据处理全流程,拥有简单易用、灵活扩展、稳定可靠等特性。
Apache InLong 服务于数据采集到落地的整个生命周期,按数据的不同阶段提供不同的处理模块,主要包括:
1.0 版本之前(包括 0.9.0 到 0.12.0),InLong 专注于打通基础链路和建设配套能力上。
基础链路方面,完成了基于 TubeMQ 和 Apache Pulsar 两个消息队列的数据链路,分别满足低成本高性能、高一致性高性能的使用场景。
配套能力建设方面,完成了各个模块部署步骤的简化,同时增加单机、Docker Compose 和 Kubernetes 部署;完成了各个模块指标体现建设,丰富了各维度监控指标;完成了全链路数据审计能力,让数据“位置”清晰可查。
在后续的版本中,InLong 将首先提供插件化的支持,方便快速扩展新的采集、入库流向;增加数据流管理,包括心跳状态、数据流启停等;同时强化全链路稳定性、性能,增加批量数据采集能力和多集群管理能力。
2
Apache InLong (incubating) 1.0.0 版本主要特性
刚刚发布的 1.0.0-incubating 主要包括以下内容:
该版本关闭了约 124+ 个 issue,包含 8 个重大 feature 和 36 个 improvements。
在 1.0.0 版本中,Sort 增加了单租户级别的分拣能力,可支持一条采集流启动一个 Flink 任务,为后续数据流状态管理提供了基础。
社区的同学之前就提过升级 Flink 版本,以支持在 InLong 中使用 FLink SQL。1.0.0 版本中,Sort 完成了对 Flink 1.13.5 的升级,方便 Sort 扩展新的 Sink 以及对接公有云场景。
Sort 可以对 MQ 中的数据进行 ETL 处理,初期 Sort 只有 Flink 版本,虽然能使用到 Flink 强大的实时处理能力,但却增加了 InLong 项目对部署环境的要求,用户必须要有 Flink 集群才能运行 InLong。
1.0.0 版本开始,InLong 引入了 Sort Standalone 模块,支持非 Flink 场景下的数据分拣。
上一个版本,InLong 引入了数据审计模块,但未完成数据的埋点和展示,审计服务不能完全使用。
1.0.0 版本中,InLong Audit 不仅优化了审计 API 和容灾的场景,还完成了全组件的埋点和数据展示,实现了审计模块部署即可用。
在之前的版本中,InLong 支持了基于 Apache Pulsar 数据链路。在实际场景中,Pulsar 集群都带有认证,在 1.0.0 版本中,实现访问带有认证的 Apache Pulsar 集群。
为了方便用户直接使用 DataProxy SDK 扩展 InLong 采集端的能力,1.0.0 版本在原有 TCP 协议的基础上,我们开放了 DataProxy HTTP/UDP 协议的支持。
DB 采集是数据集成领域很常见的使用场景,InLong 开始补齐这块能力,实现对主流关系型数据库,增量/全量不同场景的支持。
1.0.0 版本优先实现了通过 SQL 采集 MySQL 的数据,在后续的版本中完成对其它数据库以及 Binlog 的采集。
其他特性及问题修复
相关内容请参考版本发版说明(文末标注),其中详细列出了本次版本的特性、提升 和 Bug 修复,以及具体的贡献者。
3
Apache InLong (incubating)后续规划
后续版本,我们会进一步强化 InLong 的基础能力建设,同时扩展更多的数据源端和目标端,覆盖更多的使用场景,主要包括:
4
Apache InLong(incubating)
贡献者招募
Apache InLong(incubating) 当前共有 84 名 Contributor,仍处在项目孵化的初期,还有很多待办事项,包括:Feature 开发、社区运营,文档翻译等,期待更多开源爱好者加入 InLong,一起将 InLong 打造成 Apache 顶级项目。
以下为 InLong 项目的时间线:
Apache InLong 项目官方网站
https://inlong.apache.org
Apache InLong GitHub 地址
https://github.com/apache/incubator-inlong
Apache InLong 版本发布历史
https://github.com/apache/incubatorinlong/blob/master/CHANGES.md
— 扫码加入 —
星火计划小助手 | Inlong交流群
— Apache Inlong 往期推荐 —
新手教学 | Apache InLong 使用 Apache Pulsar 创建数据入库
Apache InLong(incubating) 发布0.11.0版本