本文将介绍如何部署和管理数据流,以及查看数据管理任务。
部署数据流动
步骤1: 创建数据流动

步骤2:填写数据流动相关配置

关键参数说明:
参数 | 详细说明 |
源端存储类型 | 根据实际需要,选择不同类型的对象存储。目前支持腾讯云、阿里云、华为云。 腾讯云同地域使用内网传输,跨地域使用公网。阿里云、华为云默认会基于公网传输。 |
源端存储地址 | 可直接填写对象存储域名,https://开头,获取方式可在对象存储的概览页获取。 腾讯云: ![]() 阿里云: ![]() 华为云: ![]() |
源端存储路径 | 源端存储的路径,仅允许填写路径,以/结尾。根路径映射,请填写/。 示例:test/ |
密钥 ID/密钥 Key |
步骤3:配置增量更新(可选)
增量更新前置步骤:
1. 开启此功能前请确保已开启对象存储日志检索能力,进入对象存储的实例,在日志管理 > 日志检索中,单击立即开通。

2. 开启日志投递后,默认相关的日志会投递到对应地域名字为 cos-log-store 的日志主题中,可在 日志主题列表 中查询。
3. 进入日志主题后,选择 Kafka 协议消费,并开启对应服务(都使用默认配置即可)。

4. 开启服务后,可在下图找到相关的信息。

参数 | 详细说明 |
消费主题 | 用于消费的具体主题,可参考上图红框处。 |
服务地址 | 同地域请填写内网地址,跨地域请填写外网地址。 |
Kafka 用户名 | 用于 Kafka 协议消费的用户名,可参考上图红框处。 |
Kafka 密码 | 填写腾讯云账号的 AK/SK,使用#连接。并确保此 AK/SK 有基于 Kafka 协议消费的权限。 |
步骤4:查看数据流动关系

管理数据流动任务
步骤1:创建数据管理任务

步骤2:填写数据管理任务配置

关键参数说明:
参数 | 详细说明 |
子任务类型 | 元数据导入:仅导入指定路径的元数据,不实际导入数据,如访问到此数据后端会触发异步拉取。 数据预热:仅对元数据已经在 cfs turbo 中的部分生效,触发预热任务后,会将数据加载到文件系统内。 说明: 对于元数据不在文件系统内的,无法触发预热的任务。 数据释放:仅对元数据已经在 cfs turbo 中的部分生效,能主动释放在文件系统的数据,完成容量的清理。 说明: 对于没有和对象存储建立过映射关系的文件,释放任务会跳过对此类文件操作,不会造成数据丢失。 和对象存储建立完数据流动映射后,若文件系统内数据未做修改,请确保对象存储中的数据始终存在,避免数据释放产生的损失。 对于 Turbo 文件系统中修改后的数据,需导出后才能触发释放。 数据导出:仅对从 Turbo 文件系统写入的数据生效,通过导出任务,支持将数据反向导出至对象存储。 说明: 导出后元数据和数据均保留在文件系统内,如果需要清理,可操作数据释放任务。 如果对象存储与文件存储中文件不一致,会直接覆盖对象存储数据,建议您启动任务前,开启对象存储的版本管理。 |
数据流动任务 ID | 仅支持对已经建立了数据流动映射的目录做操作, |
文件系统路径 | 所有任务类型的目标均指向文件系统内的路径,对象存储中的路径会基于映射的关系,进行匹配和拼接。 基于目录操作,请保持 / 结尾(元数据仅支持路径导入)。对单个文件请填写完整路径,支持做预热、释放、导出。 示例:对象存储 1/2/3/路径,映射至文件系统 /a/b/c/,对文件系统/a/b/c/d/路径执行相关操作,会映射至对象存储1/2/3/d/。 |
查看数据管理任务
步骤1:进入数据管理任务列表页

步骤2:查看任务详情,并导出清单
说明:
元数据导入任务,因数据量通常较大,为避免产生清单的时间过长。仅支持查看文件总数和失败总数。清单导出上,仅支持导出失败任务列表,不支持导出总量和已处理列表。
元数据导入因不涉及数据容量,因此仅提供文件数量相关信息,不提供文件容量相关信息。



