首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

一款开源的数据采集同步ETL工具

    给大家介绍一款开源的数据采集同步ETL工具(bboss-datatran),它提供数据采集、数据清洗转换处理和数据入库功能。

    bboss-datatran 数据同步作业直接采用java语言开发,小巧而精致,同时又可以采用java提供的所有功能和现有组件框架,随心所欲地处理和加工海量存量数据、实时增量数据;可以根据数据规模及同步性能要求,按需配置和调整数据采集同步作业所需内存、工作线程、线程队列大小;可以将作业独立运行,亦可以将作业嵌入基于java开发的各种应用一起运行;提供了作业任务控制API、作业监控api,支持作业启动、暂停(pause)、继续(resume)、停止控制机制,可轻松定制一款属于自己的ETL管理工具,一起来看看吧!

如果您还在:

苦于 logstash、flume、filebeat 之类的开源工具无法满足复杂的、海量数据自定义加工处理场景;

苦于无法调用企业现有服务和库来处理加工数据;

苦于因项目投入有限、进度紧,急需一款功能强大、上手快、实施简单的数据交换工具

那么bboss-datatran将是一个不错的选择。

系统架构图

采用标准的输入输出异步管道来处理数据

功能清单:

1)数据导入的方式

支持逐条数据导入

批量数据导入

批量数据多线程并行导入

定时全量(串行/并行)数据导入

定时增量(串行/并行)数据导入

支持记录切割功能

2)支持各种主流数据库、各种es版本以及本地/Ftp日志文件数据采集和同步、加工处理

支持在Elasticsearch、关系数据库、Mongodb、HBase、Hive、Kafka、文本文件、excel文件、SFTP/FTP、http/https多种数据源之间进行海量数据采集同步;支持数据实时增量采集和全量采集;支持根据字段进行数据记录切割;支持多级文件路径(本地和FTP/SFTP)下不同文件数据采集写入不同的数据库表和其他数据源。

支持各种数据库: mysql,maridb,postgress,oracle ,sqlserver,db2,tidb,hive,mongodb、HBase等

支持各种Elasticsearch版本: 1.x,2.x,5.x,6.x,7.x,8.x,+

3)提供自定义处理采集数据功能,可以按照自己的要求将采集的数据处理到目的地,如需定制化将数据保存到特定的地方,可自行实现CustomOutPut接口处理即可。

4)支持从kafka接收数据;经过加工处理的数据亦可以发送到kafka;

5)支持将单条记录切割为多条记录;

6)可以将加工后的数据写入File并上传到ftp/sftp服务器;

7)支持备份采集完毕日志文件功能,可以指定备份文件保存时长,定期清理超过时长文件;

8)支持自动清理下载完毕后ftp服务器上的文件;

9)支持excel、csv文件采集(本地和ftp/sftp)

10)支持导出数据到excel和csv文件,并支持上传到ftp/sftp服务器

11)支持海量PB级数据同步导入功能

12)支持将ip转换为对应的运营商和城市地理坐标位置信息

13)支持设置数据bulk导入任务结果处理回调函数,对每次bulk任务的结果进行成功和失败反馈,然后针对失败的bulk任务通过error和exception方法进行相应处理

14)支持以下三种作业调度机制:

jdk timer (内置)

quartz

xxl-job分布式调度引擎,基于分片调度机制实现海量数据快速同步能力

15) 提供灵活的作业启动、暂停(pause)、继续(resume)、停止控制机制

附:gitee地址--- https://gitee.com/bboss/bboss-elastic-tran

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20221229A01TIE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券