本文主要介绍数据加速器 GooseFSx 数据流动任务的使用限制:
项目 | 规格/支持情况 | 说明 |
一个关联存储桶同时被执行的数据流动任务个数 | 1 | 一个关联存储桶仅有一个数据流动任务被执行,保障数据一致性;当您提交多个任务时,将被串行执行。 |
不同关联存储桶的数据流动任务可同时被执行 | 是 | 不同关联存储桶的数据流动任务可同时被执行,因为,数据源和目的地均不同,不会导致数据不一致。 |
删除待执行任务 | 支持 | 您可删除待执行的数据流动任务,即取消提交该任务。 |
删除执行中任务 | 不支持 | 暂未开放删除执行中的数据流动任务,会导致中间状态的数据。 |
删除已完成任务 | 支持 | 删除已完成任务,您将无法获知执行过什么任务,请谨慎操作。 |
数据流动任务的类型 | 有两种类型,沉降和加载 | 沉降任务,是将 GooseFSx 关联目录的指定数据沉降到对象存储(Cloud Object Storage,COS)关联存储桶;加载任务,是从 COS 关联存储桶加载指定数据到 GooseFSx 关联目录。 |
执行加载任务,关联目录或关联目录对应子目录一般为空 | 建议为空 | 执行加载任务,关联目录或关联目录对应子目录一般为空;避免数据冲突。若关联目录已有待加载的文件,不加载,或从 COS 加载最新的版本。若再次加载相同前缀时,用户修改 GooseFSx 里对应的数据,默认不会执行加载去覆盖 GooseFSx 的新数据。例如,第一次加载文件 test.txt,用户修改 GooseFSx 的该文件 test.txt 的内容,再次加载文件 test.txt 时,将不会去覆盖 GooseFSx 的 test.txt 文件。 |
执行加载任务,每次加载数据集避免交叉 | 建议避免交叉 | 执行加载任务,COS 关联存储桶准备好待加载的数据,一次或分批次加载到 GooseFSx。若分批次加载,每次加载数据集避免交叉;例如,关联存储桶有两个一级虚拟目录:H1/、H2/,第一次加载H1/,第二次加载H2/,每次加载数据集不交叉;避免再次加载时,数据刚好被用户修改。 |
能完全还原沉降到 COS 的文件和目录 | 是 | 沉降到 COS 时,将文件的属性保存到 COS 对象的属性里,从 COS 加载时,能完全恢复沉降到 COS 的文件;建议您将 GooseFSx 上产生计算结果按需沉降到 COS,持久化/低成本保存;GooseFSx 可随时拉起,从 COS 加载数据,直接访问 GooseFSx 缓存的数据,实现对 COS 加速。 |
执行沉降任务,不会沉降软链接、硬链接 | 是 | 执行沉降任务,不会沉降软链接、硬链接到关联存储桶。因为,COS 并无目录层次。 |
执行沉降任务,不会沉降 ChangeTime 属性 | 是 | 执行沉降任务,会将文件属性等元数据信息保存在对象的元数据里。暂不支持 ChangeTime 属性沉降到关联存储桶。 |
执行沉降任务之前,请确保关联存储桶开启版本控制 | 建议开启 COS 版本控制 | 在执行沉降任务之前,请确保关联存储桶已开启版本控制,否则,同名对象将被覆盖。 |
单实例的关联存储桶数目/个 | 16 | 单 GooseFSx 实例支持16个关联存储桶。 |
单次数据流动任务的目录深度/层 | 160 | 单次数据流动任务(沉降任务或加载任务)支持目录深度是160层。 |
单次数据流动任务的文件数/个 | 20万 | 单次数据流动任务(沉降任务或加载任务)支持文件数是20万。 |