Oceanus ETL 同步

最近更新时间:2023-09-05 11:25:14

我的收藏
本文介绍通过 Oceanus ETL 方式将外部数据源实时导入到云数据仓库 TCHouse-C ,支持的外部数据源有如下:
产品名
作为流数据源
作为批流数据源
作为维表
消息队列 Kafka
支持
-
-
消息队列 CMQ
支持
-
-
日志消费 CLS
支持
-
-
数据库 Redis
-
-
支持(Flink-1.11)
数据库 PostgreSQL CDC
支持
支持
支持
数据库 MySQL CDC
支持
支持
支持
数据库 MongoDB CDC
支持
-
-
数据仓库 Kudu
-
支持
-
数据仓库 Hive
支持
-
支持
数据仓库 Hbase
-
支持
支持
数据仓库 ClickHouse
-
支持
支持
数据仓库 PostgreSQL
-
支持
支持
Oracle(JDBC)
-
支持
支持

前提条件

1. 已开通 Oceanus 服务
2. Oceanus 集群和云数据 TCHouse-C 集群须在同一个 VPC 下。
3. 流计算作业 ETL 作业需运行于流计算独享集群,若还没有集群,请参考 创建独享集群

操作步骤

1. 登录云数据仓库 TCHouse-C ,创建目标表。
若您的任务有 update 和 delete 操作,可以通过 CollapsingMergeTree 来实现。
CREATE TABLE test.test ON CLUSTER default_cluster
(
`id` Int32,
`Sign` Int8
)
ENGINE = CollapsingMergeTree(Sign)
ORDER BY id
若您的任务中不需要 update,可以通过 MergeTree 来实现。
CREATE TABLE test.test ON CLUSTER default_cluster
(
`id` Int32
)
ENGINE = MergeTree()
ORDER BY id
2. 发布 ETL 作业,详细请参见 ETL 作业开发
2.1 登录 流计算 Oceanus 控制台,单击左侧导航工作空间,点击工作空间,进入作业管理页面。
2.2 单击新建作业,作业类型选中



2.3 ETL 作业,输入作业名称,并选择一个运行中的集群,新建的 ETL 作业将运行于此集群,单击确定后即成功创建作业。
2.4 流计算服务委托授权。


2.5 创建数据源表和目的表,并完成字段映射。
2.6 发布运行 ETL 作业。
2.7 查看作业运行情况。 作业发布并启动运行后,将变为操作中的状态,成功启动后将变为运行中的状态。作业运行中时,可以通过监控、日志、Flink UI 等功能查看作业运行的情况。
3. 登录云数据仓库 TCHouse-C,并查询数据
select * from test.test ;