离线任务配置概览

最近更新时间:2024-05-16 15:45:51

我的收藏

背景信息

单表同步采用固定字段同步的方式,仅将在任务配置中指定映射关系的来源字段数据同步至目标端。单表任务支持画布、表单、脚本三种配置模式,覆盖 MySQL、Hive、DLC、Doris 等数据源。

条件与限制

1. 已配置好来源及目标端的数据源以备后续任务使用。详情请参见 数据源管理与配置方式
2. 已购买数据集成资源组。详情请参见 配置集成资源组
3. 已完成数据集成资源组与数据源的网络连通。详情请参见 集成连通性与使用规划
4. 已完成数据源环境准备。您可以基于您需要进行的同步配置,在同步任务执行前,授予数据源配置的账号在数据库进行相应操作的权限。
5. 若数据源配置的数据库账号不具备读写权限将导致任务运行失败,请根据实际读写场景配置具备相应权限的账号。

操作步骤

步骤一:新建离线同步任务并选择配置模式

在数据集成页面下,单击配置中心 > 离线同步即可进入同步任务列表。在弹窗中配置任务基本信息,单击确定后,即可进入任务配置页面。



参数
说明
任务名称
必填项。
任务模式
表单模式:仅提供读取、写入节点,适用于单表至单表固定字段同步。适用于 ODS 层无需数据清洗环节的数据同步。
画布模式:提供读取、写入、转换三类节点。适用于包含清洗环节、多对多数据链路。
脚本模式:支持初始化的脚本模式配置页面,支持用户选择不同的数据来源、数据目标,展示对应的脚本模版:
用户需要先选择数据来源与数据目标,未选择的状态下不允许编辑。
选择后,展示对应的脚本模块。
在脚本中,用户可以手动编写数据源、连接信息等参数。
支持在脚本中写 sql 语句,将 querysql 写到 connection 中。



描述
选填项。
说明:
脚本模式目前支持以下数据源:
读取:MySQL、TDSQL-C MySQL、TDSQL MySQL、TDSQL PostgreSQL、PostgreSQL、TCHouse-P、SQL Server、Oracle、IBM DB2、达梦DM、SAP HANA、SyBase、Doris、Hive、HBase、Clickhouse、DLC、Kudu、HDFS、Greenplum、GaussDB、Impala、Gbase、TBase、Mongodb、COS、FTP、SFTP、REST API、Elasticsearch、Kafka、Iceberg、StarRocks、Graph Database。
写入:MySQL、TDSQL-C MySQL、TDSQL MySQL、TDSQL PostgreSQL、PostgreSQL、TCHouse-P、SQL Server、Oracle、IBM DB2、达梦DM、SAP HANA、Hive、HBase、Clickhouse、DLC、Kudu、HDFS、Greenplum、GaussDB、Gbase、TBase、Impala、COS、FTP、SFTP、Elasticsearch、Redis、Mongodb、Kafka、Iceberg、Doris、StarRocks、Graph Database。

步骤二:数据节点配置

配置读取节点

读取节点配置包括基本信息、数据来源、数据字段三部分。
基本信息 节点名称不可为空,且单个任务内不可存在同名的数据节点。
数据来源 配置需要读取的库表对象以及同步方式等信息。
数据字段 根据配置的数据表对象,系统支持默认拉取字段元数据信息以及手动配置字段两种方式。
默认拉取:针对 MySQL、Hive、PostgreSQL 等类型,系统已支持根据其库表信息自动拉取元数据字段及类型,无需手动编辑。
手动配置:文件(如 HDFS、COS)以及列式存储数据源(如 HBase、Mongo)等数据源系统不支持自动拉取元数据,可单击字段配置手动添加字段名称及类型。读取节点还额外支持配置时间参数以及常量。



参数
描述
数据类型
当前节点的数据源类型。
添加方式
追加字段:在表的原有字段后追加解析的新字段。
覆盖原有字段:解析的新字段覆盖当前来源表的原有字段信息。
字段获取
文本解析:根据文本内容解析。
json 解析:输入 json 内容,根据 key/value 值快速进行内容解析,如 {"age":10,"name":"demo"}。
同结构表拉取:指定一个数据源的表对象,解析该表的字段。
待解析文本
分割符
用于分割字段名称和类型,支持 tab、|、空格,如"age|int"。
快速填充字段类型
常用字段类型,支持常量、函数、变量、string、boolean、date、datetime、timestamp、time、double、float、tinyint、smallint、tinyint unsigned、int、mediumint、smallint unsigned、bigint、int unsigned、bigint unsigned、double precision、tinyint(1)、char、varchar、text、varbinary、blob。
解析数据
解析输入内容。
预览
批量删除
勾选预览列表后,批量删除解析结果。
字段名
字段的名称。
类型
字段的类型。
说明
时间参数字段:仅离线任务的读取节点支持配置时间参数字段,常用将实例运行时间值写入表的一级或多级分区。
常量字段:仅读取节点支持配置常量字段。常量字段可在来源与目标表字段个数不一致的情况下固定将某个常量值写入目标表。

配置转换节点

转换节点配置包括基本信息、转换规则、数据字段三部分。其中,转换转换节点必须作为读取节点下游,在创建与读取节点连线后系统将自动获取上游节点内字段信息,同时根据转换规则完成数据转换。
基本信息 配置节点名称信息。节点名称不可为空,且单个任务内不可存在同名的数据节点。
转换规则 配置字段或数据级转换规则,其中字段信息继承自上游节点,在与上游节点连线后系统将自动获取上游节点内字段信息。不同转化节点规则及参数说明请参见 转换节点
数据字段 默认拉取上游节点全部数据字段用于后续写入节点映射。

配置写入节点

写入节点配置包括基本信息、数据来源、数据字段、字段映射四部分。写入节点将根据连线关系,将上游数据内容写入目标对象内。
基本信息 节点名称不可为空,且单个任务内不可存在同名的数据节点。
数据来源 配置需要读取的库表对象以及同步方式等信息。
数据字段 根据配置的数据表对象,系统支持默认拉取字段元数据信息以及手动配置字段两种方式。
默认拉取:针对 MySQL、Hive、PostgreSQL 等类型,系统已支持根据其库表信息自动拉取元数据字段及类型,无需手动编辑。
手动配置:文件(如 HDFS、COS)以及列式存储数据源(如 HBase、Mongo)等数据源系统不支持自动拉取元数据,可单击字段配置手动添加字段名称及类型。
字段映射 写入节点相对于读取节点需额外配置字段映射关系。字段映射关系旨在通过连线的方式指定目标字段内容的来源,支持同名映射、同行映射、以及手动连线三种方式配置来源与目标节点间关系。



参数
描述
同名映射
来源表字段与字段名称一致的目标表字段间建立映射关系。
同行映射
来源表字段与所在行数一致的目标表字段间建立映射关系。
清除映射
清除已建立的来源表字段与目标表字段之间的映射关系。
置顶已映射
置顶并格式化显示已建立映射关系字段;此格式化不影响表实际存储字段顺序,仅用于前端优化展示。
手动连线映射
支持通过连线手动建立来源表字段与目标表字段间映射关系。
来源表
来源表字段名
来源表字段的名称。
类型
来源表字段的类型。
映射
快速创建映射。



目标表
目标表字段名
目标表字段的名称。
类型
目标表字段的类型。
说明
配置字段映射的前提为当前写入节点有已连线的来源(读取节点或转换节点)。
未配置映射关系的目标字段内容将为空或保持不变。
若来源字段类型与目标字段类型间无法转换,可能会导致任务失败。

步骤三:离线任务属性配置

离线任务属性配置包括基本属性、任务调度、和资源配置三部分:

基本属性

设置任务基本属性、使用资源以及数据链路通道信息。
类别
参数
说明
基本属性
任务名称/类型
展示当前任务名称及类型基本信息。
责任人
对此任务负责的一个或多个空间成员名称,默认为任务创建者。
描述
展示当前任务备注信息。
调度参数
调度参数是任务调度时使用的参数,会根据任务调度的业务时间及调度参数的取值格式自动替换取值,实现在任务调度时间内参数的动态取值
资源配置
集成资源组
指定当前任务使用的集成资源组名称,一个任务仅可绑定一个资源组。
任务运行策略
关联告警
支持对当前任务关联告警规则
通道设置
脏数据阈值
脏数据是指同步过程中写入失败的数据脏数据阈值是指同步中可容忍的最大脏数据条或字节数,一旦超过该阈值,任务将自动结束。默认阈值为0,即不容忍脏数据。
并发数
实际执行时期望任务的最大并发数,实际执行时由于资源、数据源类型和任务优化结果等原因并发数可能小于等于此值。该值越大,预分配执行机资源越多。
同步速率限制
按照流量或记录条数限制同步速率以保护数据来源端或者数据去向端的读写压力。该值为最大运行速率,默认-1表示不限制速率。

任务调度

设置当前任务周期运行计划,包括调度时间及依赖属性。
类别
参数
说明
调度时间
调度方式
周期调度:任务根据配置调度计划周期运行。
一次性执行:任务仅在指定时间运行一次。
生效日期
调度时间配置的有效时间段,系统会在该时间范围内按照时间配置自动调度,超过有效期将不会再自动调度。
调度周期
调度计划间隔步长单位,支持年、月、周、天、小时、分钟:
分钟:需指定具体执行开始时间及间隔,任务将从每小时执行分钟开始,按时间间隔周期运行。如执行时间为02:00~23:59,间隔为5分钟,则任务将从02:00开始每隔5分钟运行一次实例。
小时:需指定具体执行开始、结束时间及间隔。如执行时间为02:20~05:00,间隔为1小时,则任务将在02:20、03:20、04:20分别运行一次。
天:需指定每天具体执行时刻,任务每天仅在该时刻运行。
周:需执行每周固定运行的天数(支持多选)以及时间。任务仅在指定当天的该时刻运行。
月:指定每月固定运行的号数及时间。若选择月末,将根据不同的月份取最后一天运行。
年:指定每年固定运行日期及时间。
依赖属性
自依赖
自依赖是指同一任务中不同实例之间的依赖关系:
有序串行:当前实例依赖前一个周期实例的状态。
无序串行:当前实例和前一个周期实例没有依赖关系,如果一个任务同时存在多个实例,系统随机选取一个实例运行。同时只有一个实例是运行状态。
并行:前一个周期实例和后一个周期实例之间没有依赖关系,如果一个任务同时存在多个实例,多个实例会同时运行。
重试等待时间
实例运行失败后,每次重试运行的最大等待时间间隔。若超过此值实例仍未重试运行,实例将被置为失败。
失败重试次数
实例运行失败后,最大重试次数。若过超过此值,任务将被置为失败。

步骤四:任务测试运行与提交

离线同步任务在配置完成后可进行在线测试运行或提交到生产调度环境中,目前可在任务配置页面支持保存、提交、测试运行、调试停止、锁定/解锁以及前往运维操作。



序号
参数
说明
1
保存
保存当前任务配置信息,包括数据节点配置、节点连线、任务属性和任务调度配置。
2
提交
将当前任务提交至生产环境,提交后任务将按调度属性周期运行,同时提交任务将在任务运维 > 离线运维生成任务及实例记录。
说明:
提交前任务将默认保存最新配置。
提交前任务将进行必要性检测,包括任务节点配置、任务连线、资源组等。若必要性检测不通过,任务将提交失败并提示。
3
测试运行
调试运行当前任务。
4
调试停止
终止当前正在测试运行中的任务。
5
锁定/解锁
默认创建者为首个持锁者,仅允许持锁者编辑任务配置及运行任务。若锁定者5分钟内没有编辑操作,其他人可单击图标抢锁,抢锁成功可进行编辑操作。
6
前往运维
根据当前任务名称快捷跳转至任务运维页面。
7
画布/表单转换
支持转换为画布/表单模式。
说明:
画布和表单模式支持互相转换,当画布模式中存在转换节点时,不支持转换为表单模式。
不支持脚本模式转换为画布/表单模式。
8
脚本转换
支持从画布/表单模式转换为脚本模式,转换后不支持转回画布/表单模式。

任务提交检测




参数
说明
检测存在异常
支持跳过异常直接提交,或者终止提交。
检测仅存在警告及以下
可直接提交。

提交结果




任务提交中:
展示提交进度百分比。
提示用户勿刷新/关闭页面,文案:当前任务已提交成功,可前往运维进行任务状态及数据管理。
任务提交结果-成功:
展示任务提交成功结果。
提示成功及后续跳转:文案 “提交成功,10秒后将跳转至当前任务运维详情页面” “当前任务已提交成功,可前往运维进行任务状态及数据管理”。
展示任务提交失败原因:
失败原因返回。

后续步骤

完成任务配置后,您可以对已创建的任务进行运维及监控告警,如对任务配置监控报警,并查看任务运行的关键指标等。详情请参见 离线任务运维