数据传输服务使用说明

类别
说明
同步对象
1. 只支持同步基础表、视图，不支持同步函数、触发器、存储过程等对象。
2. 相互关联的数据对象需要同时同步，否则会导致同步失败。
3. 增量同步阶段，源库的表名如含有“TDSQLagent”、 “tdsql_sub”字符可能会被过滤或者引起同步异常，因为这些表名与 TDSQL 系统的临时表名相同，TDSQLagent 为扩容时的临时表，tdsql_sub 表为 hash-lish 和 hash-range 的子表，因此建议源端待同步的表名不要设置为这些类型。
源库影响
1. 数据同步时，DTS 会使用执行同步任务的账号在源库中写入系统库`__tencentdb__`，用于记录事务标记 ID 等元信息，需要确保源库对`__tencentdb__`的读写权限。
为保证后续数据对比问题可定位，同步任务结束后不会删除源库中的`__tencentdb__`
`__tencentdb__`系统库占用空间非常小，约为源库存储空间的千分之一到万分之一（例如源库为50GB，则`__tencentdb__`系统库约为5MB - 50MB），并且采用单线程，等待连接机制，所以对源库的性能几乎无影响，也不会抢占资源。
2. 默认采用无锁同步方式，全量数据导出阶段不会对源库加全局锁（FTWRL），仅对无主键的表加表锁。
目标端 Kafka 要求
1. 目标端 Kafka 的版本，当前仅支持在腾讯云上可购买的 专业版和标准版，并且为1.1.1版本及以后；历史已经下线的物理机标准版不支持作为目标端。
2. 需要在目标 kafka 中修改消息保留时间和消息大小上限。
消息保存时间建议设置为3天，超过保存时间的数据会被清除，请用户在设置的时间内及时消费；消息大小上限，即 Kafka 可以接收的单个消息内存的大小，设置时需要大于源库表中单行数据的最大值，以确保源库的数据都可以正常投递到 Kafka 中。
3. 建议目标 Topic 为空，同时在同步任务过程中，不要在目标端选择同步的 Topic 中进行数据写入，否则可能会导致消息错乱，任务报错。
数据同步说明
1. 只支持同步 InnoDB、MyISAM、TokuDB 三种数据库引擎，如果存在这三种以外的数据引擎表则默认跳过不进行同步。
2. 同一个任务可以关联多个 Topic，但同一个 Topic 不能同时被多个同步任务使用，否则会导致数据错乱，消费到的数据是多个不同任务的数据，也可能导致在任务重试等场景中数据处理异常，任务报错。
3. 在全量同步阶段，每同步10万条数据，会在目标端 Kafka 插入一条 checkpoint 消息，标识当前的数据同步位点。
4. DTS 同步到目标端 Kafka 的单条消息存在性能上限，建议用户源数据库中的单行数据不要超过8MB，否则在同步过程中可能会报错。
5. 如果用户在同步过程中确定会对某张表使用 rename 操作，投递到目标 kafka 中，分区规则会按照新的表名匹配 topic 和 partition。
6. 增量同步过程中，若源库产生了类型为 STATEMENT 格式的 Binlog 语句，则会导致同步失败。
7. 不支持 ALTER VIEW 语句，遇到该语句任务跳过不同步。 
8. 不支持选择源端整个实例进行同步，如果在后续同步任务中，源端有新建库的操作（CREATE DATABASE），建议在同步任务启动前，自行在目标端创建好该库对象。
9. 如果在同步任务过程中，源端有 CREATE TABLE，RENAME TABLE 操作，请在配置阶段选择同步对象时，勾选该表所在的整库，否则新建的表，或者 RENAME 后的表不会同步到目标端。
10. 如果同步任务已经启动，用户修改了目标端 Ckafka 的分区数后，需要触发任务重启（通过先暂停再恢复来实现重启），数据才能投递到新增的分区中。
数据消费说明
在同步任务前，源库中已经存在的全量数据，因为没有数据写入的准确时间，在消费端 Demo 中 happenAt 字段会显示为1970-01-01 08:00:00，该时间字段无需关注。消费增量数据时，时间字段可以正确显示。
重启影响
同步任务过程中，如果发生任务重启（如源库发生 HA 切换会重启，后台检查任务异常会重启），可能会导致同步到目标端 Kafka 的数据出现重复。
DTS 是按最小数据单元进行同步的（全量阶段单个表对象的一块数据即为最小数据单元，增量阶段每标记一个位点就是一个数据单元），如果重启时，刚好一个数据单元同步已完成，则不会导致数据重复；如果重启时，一个数据单元还正在同步中，那么再次启动后需要重新同步这个数据单元，这样就会导致数据重复。
用户如果对重复数据比较关注，请在消费数据时设置去重逻辑。
操作限制
同步过程中请勿进行如下操作，否则会导致同步任务失败。
1. 在全量导出阶段，请勿在源库上执行库或表结构变更的 DDL 操作。
2. 请勿修改、删除源数据库和目标端中的用户信息（包括用户名、密码和权限）和端口号。
3. 请勿在源库上执行清除 Binlog 的操作。
数据类型
1. TDSQL MySQL 作为源库并使用 proxy 方式连接的场景中，浮点数如果源库使用 float 数据类型，会导致全量阶段的数据精度不准确。若需保留数据精度，推荐使用 double 数据类型。全量阶段的精度问题具体影响如下：
全量阶段和增量阶段数据同步的精度不一致。
使用 float 作为键值，全量阶段和增量阶段操作的主键数据不一致。
2. DTS 在全量数据同步阶段，将源库数据导出并导入到目标端 Kafka，均使用 utf8mb4 字符集，以避免因字符集不识别导致乱码问题。
3. 不支持 Geometry 相关的数据类型，遇到该类型数据任务报错。
事务
不支持同时包含 DML 和 DDL 语句在一个事务的场景，遇到该情况任务会报错。
HA 切换和扩容
1. 源库如果是非 GTID 数据库，DTS 不支持源端 HA 切换，一旦源端 TDSQL MySQL 发生切换可能会导致 DTS 增量同步中断。
2. DTS 采用 SET 直连 TDSQL MySQL 的场景，不支持 TDSQL MySQL 扩容。采用 Proxy 连接 TDSQL MySQL 的场景，支持 TDSQL MySQL 逻辑扩容，水平扩容时 DTS 可能会报错。
分区表同步
1. 一级/二级分区表的语法需要符合规范，一级 Hash 分区表仅支持通过 shardkey 方式创建。
TDSQL MySQL 创建分区表的关键语法如下，详细语法请参考 TDSQL MySQL 官网文档。
1.1 一级分区
一级 Hash 分区：shardkey
一级 Range 分区：TDSQL_DISTRIBUTED BY RANGE
一级 List 分区：TDSQL_DISTRIBUTED BY LIST
1.2 二级分区
一级 Hash 分区+二级 Range/List 分区：shardkey + PARTITION BY RANGE/LIST
一级 Range 分区+二级 Range/List 分区：TDSQL_DISTRIBUTED BY RANGE + PARTITION BY RANGE/LIST
一级 List 分区+二级 Range/List 分区：TDSQL_DISTRIBUTED BY LIST +  PARTITION BY RANGE/LIST
1.3 新二级分区
一级 Hash 分区+二级 Range/List 分区：TDSQL_DISTRIBUTED BY HASH + TDSQL_PARTITION BY RANGE/LIST
2. 增量同步阶段，不支持进行并发的 DDL 操作，需要等前一个 DDL 生效后再执行下一个，否则可能会因为 DDL 乱序导致报错。同时，也不支持快速地对同名表进行 create、drop、create 操作，否则可能会引起表类型错误。
指定启动位点
初始化类型都不勾选时，表示仅增量同步，可设置增量同步的起始位点。当前使用该功能需要 提交工单 申请。
1. 增量同步任务，从设置的时间点开始同步数据，设置的时间点范围为：之前的14天-当前时间。
2. 如果全量同步和增量同步分开两个任务执行，这里请注意，进行增量同步时，DTS 已经同步的全量数据时间点1与设置的时间点2之间，不能存在 DDL（CREATE TABLE、ALTER TABLE、DROP TABLE、RENAME TABLE、CREATE INDEX、DROP INDEX）变更数据，否则任务会报错。
3. 从设置的指定时间点1，到增量任务启动点2之间（任务步骤从“寻找指定位点”转化为“同步增量”才算启动），源库操作注意事项如下。
建议源库不要进行主从切换、增加分片、重做备机操作，否则可能会影响 DTS 获取源库的 GTID 位点。
源端可以操作与同步对象无关的 DDL，但需要保证上一条 DDL 同步到目标端后再执行新的 DDL。密集地执行 DDL 可能会导致任务报错。
源端不能操作与同步对象有关的 DDL（CREATE TABLE、ALTER TABLE、DROP TABLE、RENAME TABLE、CREATE INDEX、DROP INDEX），否则同步任务会报错。
4. 因为指定时间点同步是根据 Binlog 中 context 的时间（SET TIMESTAMP=XXXX）来判断其 GTID，为保证同步数据的正确性，建议用户不要修改该 context。
5. 请确认数据库设置的时区与当前控制台时区（即浏览器时区）一致，或者换算为数据库设置时区所对应的时间，否则可能会导致指定位点同步结果不合预期。
6. 请确认 TDSQL MySQL 各集群节点的时间保持一致，否则可能会导致指定位点同步结果不合预期。
7. 如果设置的时间点在 XA 事务持续时间的范围内，则该 XA 事务不会被同步。对于这种情况，建议时间点可以往前设置一些（在 XA START 的时间之前）。
8. 使用指定时间点功能时，源端 gtid_mode 必须为 ON。
列过滤
1. 主键、唯一键的列不支持过滤。系统默认会将主键、唯一键的列同步到目标端。特殊情况下如果主键、唯一键被过滤，前置校验会报错。
2. 如果过滤的列是联合主键、外键、分区列，或者过滤列中包含索引，则源端不支持对该列进行 DML 操作，否则任务可能会报错。
3. 列过滤与视图的交互说明如下：
3.1 如果同步对象中勾选了视图，则视图相关列数据需要一并同步，不能过滤，否则任务会报错。
3.2 如果同步对象中勾选了视图，后续源库在创建视图时关联的是系统库表，则不能在同步任务中同时再使用列过滤，否则任务会报错。
4. 配置列过滤后，不支持再修改同步配置；修改同步配置时，也不支持对列进行过滤。
5. 如果对表 A 的 X 列进行了列过滤，用户在源端执行 CREATE TABLE table_B like table_A 语句，建议对表 B 的 X 列也进行过滤。在这种场景下 DTS 对表 B 的同步会按照表 A 列过滤后的表结构，如果未对表 B 的 X 列进行过滤，后续源端对表 B 的 X 列进行数据更新时，同步任务会报错。
6. 如果表对象中唯一键列包含函数，则同步对象勾选该表时，无法展开到列的维度，不能进行列过滤。

类别	说明
同步对象	1. 只支持同步基础表、视图，不支持同步函数、触发器、存储过程等对象。 2. 相互关联的数据对象需要同时同步，否则会导致同步失败。 3. 增量同步阶段，源库的表名如含有“TDSQLagent”、 “tdsql_sub”字符可能会被过滤或者引起同步异常，因为这些表名与 TDSQL 系统的临时表名相同，TDSQLagent 为扩容时的临时表，tdsql_sub 表为 hash-lish 和 hash-range 的子表，因此建议源端待同步的表名不要设置为这些类型。
源库影响	1. 数据同步时，DTS 会使用执行同步任务的账号在源库中写入系统库`__tencentdb__`，用于记录事务标记 ID 等元信息，需要确保源库对`__tencentdb__`的读写权限。为保证后续数据对比问题可定位，同步任务结束后不会删除源库中的`__tencentdb__` `__tencentdb__`系统库占用空间非常小，约为源库存储空间的千分之一到万分之一（例如源库为50GB，则`__tencentdb__`系统库约为5MB - 50MB），并且采用单线程，等待连接机制，所以对源库的性能几乎无影响，也不会抢占资源。 2. 默认采用无锁同步方式，全量数据导出阶段不会对源库加全局锁（FTWRL），仅对无主键的表加表锁。
目标端 Kafka 要求	1. 目标端 Kafka 的版本，当前仅支持在腾讯云上可购买的专业版和标准版，并且为1.1.1版本及以后；历史已经下线的物理机标准版不支持作为目标端。 2. 需要在目标 kafka 中修改消息保留时间和消息大小上限。消息保存时间建议设置为3天，超过保存时间的数据会被清除，请用户在设置的时间内及时消费；消息大小上限，即 Kafka 可以接收的单个消息内存的大小，设置时需要大于源库表中单行数据的最大值，以确保源库的数据都可以正常投递到 Kafka 中。 3. 建议目标 Topic 为空，同时在同步任务过程中，不要在目标端选择同步的 Topic 中进行数据写入，否则可能会导致消息错乱，任务报错。
数据同步说明	1. 只支持同步 InnoDB、MyISAM、TokuDB 三种数据库引擎，如果存在这三种以外的数据引擎表则默认跳过不进行同步。 2. 同一个任务可以关联多个 Topic，但同一个 Topic 不能同时被多个同步任务使用，否则会导致数据错乱，消费到的数据是多个不同任务的数据，也可能导致在任务重试等场景中数据处理异常，任务报错。 3. 在全量同步阶段，每同步10万条数据，会在目标端 Kafka 插入一条 checkpoint 消息，标识当前的数据同步位点。 4. DTS 同步到目标端 Kafka 的单条消息存在性能上限，建议用户源数据库中的单行数据不要超过8MB，否则在同步过程中可能会报错。 5. 如果用户在同步过程中确定会对某张表使用 rename 操作，投递到目标 kafka 中，分区规则会按照新的表名匹配 topic 和 partition。 6. 增量同步过程中，若源库产生了类型为 STATEMENT 格式的 Binlog 语句，则会导致同步失败。 7. 不支持 ALTER VIEW 语句，遇到该语句任务跳过不同步。 8. 不支持选择源端整个实例进行同步，如果在后续同步任务中，源端有新建库的操作（CREATE DATABASE），建议在同步任务启动前，自行在目标端创建好该库对象。 9. 如果在同步任务过程中，源端有 CREATE TABLE，RENAME TABLE 操作，请在配置阶段选择同步对象时，勾选该表所在的整库，否则新建的表，或者 RENAME 后的表不会同步到目标端。 10. 如果同步任务已经启动，用户修改了目标端 Ckafka 的分区数后，需要触发任务重启（通过先暂停再恢复来实现重启），数据才能投递到新增的分区中。
数据消费说明	在同步任务前，源库中已经存在的全量数据，因为没有数据写入的准确时间，在消费端 Demo 中 happenAt 字段会显示为1970-01-01 08:00:00，该时间字段无需关注。消费增量数据时，时间字段可以正确显示。
重启影响	同步任务过程中，如果发生任务重启（如源库发生 HA 切换会重启，后台检查任务异常会重启），可能会导致同步到目标端 Kafka 的数据出现重复。 DTS 是按最小数据单元进行同步的（全量阶段单个表对象的一块数据即为最小数据单元，增量阶段每标记一个位点就是一个数据单元），如果重启时，刚好一个数据单元同步已完成，则不会导致数据重复；如果重启时，一个数据单元还正在同步中，那么再次启动后需要重新同步这个数据单元，这样就会导致数据重复。用户如果对重复数据比较关注，请在消费数据时设置去重逻辑。
操作限制	同步过程中请勿进行如下操作，否则会导致同步任务失败。 1. 在全量导出阶段，请勿在源库上执行库或表结构变更的 DDL 操作。 2. 请勿修改、删除源数据库和目标端中的用户信息（包括用户名、密码和权限）和端口号。 3. 请勿在源库上执行清除 Binlog 的操作。
数据类型	1. TDSQL MySQL 作为源库并使用 proxy 方式连接的场景中，浮点数如果源库使用 float 数据类型，会导致全量阶段的数据精度不准确。若需保留数据精度，推荐使用 double 数据类型。全量阶段的精度问题具体影响如下：全量阶段和增量阶段数据同步的精度不一致。使用 float 作为键值，全量阶段和增量阶段操作的主键数据不一致。 2. DTS 在全量数据同步阶段，将源库数据导出并导入到目标端 Kafka，均使用 utf8mb4 字符集，以避免因字符集不识别导致乱码问题。 3. 不支持 Geometry 相关的数据类型，遇到该类型数据任务报错。
事务	不支持同时包含 DML 和 DDL 语句在一个事务的场景，遇到该情况任务会报错。
HA 切换和扩容	1. 源库如果是非 GTID 数据库，DTS 不支持源端 HA 切换，一旦源端 TDSQL MySQL 发生切换可能会导致 DTS 增量同步中断。 2. DTS 采用 SET 直连 TDSQL MySQL 的场景，不支持 TDSQL MySQL 扩容。采用 Proxy 连接 TDSQL MySQL 的场景，支持 TDSQL MySQL 逻辑扩容，水平扩容时 DTS 可能会报错。
分区表同步	1. 一级/二级分区表的语法需要符合规范，一级 Hash 分区表仅支持通过 shardkey 方式创建。 TDSQL MySQL 创建分区表的关键语法如下，详细语法请参考 TDSQL MySQL 官网文档。 1.1 一级分区一级 Hash 分区：shardkey 一级 Range 分区：TDSQL_DISTRIBUTED BY RANGE 一级 List 分区：TDSQL_DISTRIBUTED BY LIST 1.2 二级分区一级 Hash 分区+二级 Range/List 分区：shardkey + PARTITION BY RANGE/LIST 一级 Range 分区+二级 Range/List 分区：TDSQL_DISTRIBUTED BY RANGE + PARTITION BY RANGE/LIST 一级 List 分区+二级 Range/List 分区：TDSQL_DISTRIBUTED BY LIST + PARTITION BY RANGE/LIST 1.3 新二级分区一级 Hash 分区+二级 Range/List 分区：TDSQL_DISTRIBUTED BY HASH + TDSQL_PARTITION BY RANGE/LIST 2. 增量同步阶段，不支持进行并发的 DDL 操作，需要等前一个 DDL 生效后再执行下一个，否则可能会因为 DDL 乱序导致报错。同时，也不支持快速地对同名表进行 create、drop、create 操作，否则可能会引起表类型错误。
指定启动位点	初始化类型都不勾选时，表示仅增量同步，可设置增量同步的起始位点。当前使用该功能需要提交工单申请。 1. 增量同步任务，从设置的时间点开始同步数据，设置的时间点范围为：之前的14天-当前时间。 2. 如果全量同步和增量同步分开两个任务执行，这里请注意，进行增量同步时，DTS 已经同步的全量数据时间点1与设置的时间点2之间，不能存在 DDL（CREATE TABLE、ALTER TABLE、DROP TABLE、RENAME TABLE、CREATE INDEX、DROP INDEX）变更数据，否则任务会报错。 3. 从设置的指定时间点1，到增量任务启动点2之间（任务步骤从“寻找指定位点”转化为“同步增量”才算启动），源库操作注意事项如下。建议源库不要进行主从切换、增加分片、重做备机操作，否则可能会影响 DTS 获取源库的 GTID 位点。源端可以操作与同步对象无关的 DDL，但需要保证上一条 DDL 同步到目标端后再执行新的 DDL。密集地执行 DDL 可能会导致任务报错。源端不能操作与同步对象有关的 DDL（CREATE TABLE、ALTER TABLE、DROP TABLE、RENAME TABLE、CREATE INDEX、DROP INDEX），否则同步任务会报错。 4. 因为指定时间点同步是根据 Binlog 中 context 的时间（SET TIMESTAMP=XXXX）来判断其 GTID，为保证同步数据的正确性，建议用户不要修改该 context。 5. 请确认数据库设置的时区与当前控制台时区（即浏览器时区）一致，或者换算为数据库设置时区所对应的时间，否则可能会导致指定位点同步结果不合预期。 6. 请确认 TDSQL MySQL 各集群节点的时间保持一致，否则可能会导致指定位点同步结果不合预期。 7. 如果设置的时间点在 XA 事务持续时间的范围内，则该 XA 事务不会被同步。对于这种情况，建议时间点可以往前设置一些（在 XA START 的时间之前）。 8. 使用指定时间点功能时，源端 gtid_mode 必须为 ON。
列过滤	1. 主键、唯一键的列不支持过滤。系统默认会将主键、唯一键的列同步到目标端。特殊情况下如果主键、唯一键被过滤，前置校验会报错。 2. 如果过滤的列是联合主键、外键、分区列，或者过滤列中包含索引，则源端不支持对该列进行 DML 操作，否则任务可能会报错。 3. 列过滤与视图的交互说明如下： 3.1 如果同步对象中勾选了视图，则视图相关列数据需要一并同步，不能过滤，否则任务会报错。 3.2 如果同步对象中勾选了视图，后续源库在创建视图时关联的是系统库表，则不能在同步任务中同时再使用列过滤，否则任务会报错。 4. 配置列过滤后，不支持再修改同步配置；修改同步配置时，也不支持对列进行过滤。 5. 如果对表 A 的 X 列进行了列过滤，用户在源端执行 CREATE TABLE table_B like table_A 语句，建议对表 B 的 X 列也进行过滤。在这种场景下 DTS 对表 B 的同步会按照表 A 列过滤后的表结构，如果未对表 B 的 X 列进行过滤，后续源端对表 B 的 X 列进行数据更新时，同步任务会报错。 6. 如果表对象中唯一键列包含函数，则同步对象勾选该表时，无法展开到列的维度，不能进行列过滤。