数据开发治理平台 WeData 数据集成概述

数据集成通过快速连接和融合云上或云下自建的各种数据，解决数据平台构建、数据库迁移备份，以及业务升级、整合，数据访问加速、全文检索等多个场景中数据整合和同步问题。腾讯云产品 数据集成（DataInLong）为 WeData 提供数据集成能力，支持离线同步、实时数据库监控、数据上报等同步能力。
使用限制
1. 数据同步：数据集成仅支持传输能够抽象为逻辑二维表的数据对象，如结构化、半结构化、无结构化（COS 等，要求具体同步数据必须抽象为结构化数据）的数据内容同步。FTP 方式支持将完全非结构化的文件（例如气象文件）同步至 HDFS，但此传输方式不支持数据内容提取。
2. 网络连通：支持单地域内及部分跨地域的数据存储相互同步、交换的数据同步需求。 部分地域之间可以通过经典网络传输，但不能保证其连通性。如果测试经典网络不通，建议您使用公网方式进行连接。
3. 任务运行：运行数据集成任务需要使用数据集成资源组，在使用数据集成功能前请先完成集成资源组创建。集成资源组包含离线包、实时包等，可根据需运行任务类型按需购买。
4. 数据一致性：数据集成同步支持 at least once，不完全保证支持 exactly once（即不能保证数据完全不重复）。数据完全不重复需依赖主键 + 目的端能力来保证。
5. 数据类型及精度：离线或者实时同步中，同步任务源端和目标端字段需要注意类型匹配及精度转换。若来源与目标端类型无法兼容，或目标端字段类型最大值小于源端最大值（或最小值大于源端最小值，或精度低于源端精度），可能会导致写入失败或精度被截断的风险。
离线同步
数据集成提供离线数据同步能力，该能力通过定期运行方式批量读取来源库表中数据并同步写入至目标端。详情请参见 离线同步。
实时同步
数据集成提供实时数据同步能力，该能力支持流式数据传输。实时同步下支持单表、分库分表、多库多表粒度的实时数据消费，任务类型包括单表同步、整库同步、以及日志采集。
单表同步：来源端为单张表或分库分表，目标端仅支持一张表。单表同步采用固定 schema 搭配的方式，需在任务中指定来源与目标表之间的字段映射关系，任务运行时仅将指定来源字段内容写入至目标字段。详情请参见 单表同步任务配置。
整库同步：整库同步支持将来源端整个实例、或者指定的多个库表对象内的全部数据同步至目标端的多张表中。此任务无需指定来源与目标端之间的字段映射关系，默认所有来源表字段全部读取，且表与表之间字段默认同名匹配。详情请参见 整库同步任务配置。
日志采集：日志采集通过 Agent、SDK 方式主动上报 CVM 云实例、自建服务器或 TKE 内的日志文件数据至外部目标端。详情请参见 日志采集任务配置。
基本概念
数据源
数据集成过程中使用数据源作为读取/写入的目标对象，数据源可以是一个数据库或者是一个数据仓库（EMR 引擎实例等）。在数据集成同步任务配置前，您需要在数据源管理页面配置好需要同步的源端和目标端数据库或数据仓库的相关信息，配置好后可在同步任务中通过选择数据源名称来控制同步读取和写入的数据库或数据仓库。
网络连通性
使用数据集成同步任务之前，需要保证数据源网络（包括读端、写端）与数据集成资源组之间网络互通，且资源不可因为白名单限制等原因被拒绝访问，否则无法完成数据传输同步。详情参考集成连通性与使用规划。
若数据源开通公网：需要购买并创建 NAT 网关，允许集成资源通过网关连通数据源所在 VPC，详细操作请参见 NAT 网关 相关文档。
若数据源处于 VPC 内：
若与集成资源位于同一 VPC：可直接使用。
若与集成资源位于不同 VPC：需购买云联网打通集成与数据源所在 VPC。 
若数据源位于 IDC 或其他经典网络环境下：需购买 VPN 或 专线网关 打通集成与数据源所在 VPC。
限速
限速是数据集成同步任务允许达到的最大传输速度限制。
并发数
并发数是数据同步任务中，最大并行读取或并行写入数据量。并发数影响数据同步的效率，并发设置越高对应资源消耗也越多，由于资源原因或者任务本身特性等原因，实际执行时并发数可能小于等于此值。
脏数据
脏数据是指在同步过程中由于字段类型不匹配、或者写入目标数据源发生了异常等情况导致写入失败的数据。 所有写入失败的数据均被归类于脏数据。例如，源端是 String 类型的数据写到 INT 类型的目标字段中，因为类型转换不合理而无法写入的数据。
离线同步中，您可以在任务中配置脏数据阈值以控制同步过程中最大脏数据条数。当任务超过此阈值以后，任务将被中断运行。
实时同步中，您可以配置脏数据归档方式，将写入失败的脏数据统一写入归档存储中以保证实时数据流不中断。
数据集成概述

本页目录：

使用限制

离线同步

实时同步

基本概念