有奖捉虫:行业应用 & 管理与支持文档专题 HOT
GooseFSx (Data Accelerator Goose FileSystem extreme,GooseFSx)是由腾讯云推出的高性能的 POSIX 语义的数据加速器,可为对象存储(Cloud Object Storage,COS)加速,为高性能计算业务提供极高性能和极低时延,方便用户灵活管理冷、热数据,适用于高性能计算、自动驾驶、机器学习等业务场景。GooseFSx 是全托管服务,简单易用,按小时付费,用完可释放,通过 COS 来持久化保存数据。如下图所示:



GooseFSx 可自动挂载成主机的本地目录(该目录称为挂载目录)。在主机访问 GooseFSx 挂载目录,如同在本地文件系统访问 GooseFSx。

GooseFSx 为 COS 加速,能够直接从 COS 加载数据,以便主机能够高速访问缓存到 GooseFSx 的数据;能够将 GooseFSx 上产生的计算结果沉降到 COS,实现持久化、低成本保存。

您可通过云 API 或控制台,创建和管理 GooseFSx。

POSIX 客户端

GooseFSx POSIX 客户端是已部署 GooseFSx POSIX 客户端软件、并将 GooseFSx 挂载成本地目录的主机。GooseFSx 可自动将主机部署成 POSIX 客户端,实现原理是自动在主机上部署 GooseFSx POSIX 客户端软件,并将 GooseFSx 挂载成主机的本地目录。在 POSIX 客户端访问 GooseFSx 挂载目录,如同在本地文件系统访问 GooseFSx。如图所示:



在创建 GooseFSx 实例时,将会在您的腾讯云账号下自动创建3台腾讯云云服务器(Cloud Virtual Machine,CVM)实例,实例规格是不小于 4C8G,部署成 POSIX 客户端管理节点。POSIX 客户端管理节点随 GooseFSx 实例一同创建和销毁,您无需管理。
注意:
请勿销毁或变更 POSIX 客户端管理节点,否则会导致 POSIX 客户端工作异常。
GooseFSx 配置3台 POSIX 客户端管理节点,以实现高可用。极端情况下,POSIX 客户端管理节点故障,可能会导致 POSIX 客户端无法正常访问 GooseFSx,但不会影响已写入 GooseFSx 的数据;当 POSIX 客户端管理节点故障恢复后,POSIX 客户端正常访问 GooseFSx。

POSIX 客户端管理节点,管理 POSIX 客户端的部署、删除等。POSIX 客户端管理节点不参与数据流、不访问数据、不存储数据。

POSIX 客户端管理节点,需要在管控面与 POSIX 客户端互通;为了保障您的 POSIX 客户端的信息安全,将 POSIX 客户端管理节点部署在您的 VPC,保障管控流不会流出您的 VPC。

GooseFSx 支持自动添加 POSIX 客户端,自动将指定主机添加为 GooseFSx POSIX 客户端,省去手动一步步执行命令、将主机添加为 GooseFSx POSIX 客户端。GooseFSx 能够批量添加 POSIX 客户端,一次自动添加多个 POSIX 客户端。GooseFSx 能够自动删除 POSIX 客户端,能够批量删除多个 POSIX 客户端。

GooseFSx 实现 POSIX 客户端集中管理,能实时查询使用 GooseFSx 的 POSIX 客户端,能及时删除不再使用 GooseFSx 的 POSIX 客户端,能立即添加需要使用 GooseFSx 的 POSIX 客户端。

您可通过云 API 或控制台来创建和管理 POSIX 客户端。

数据流动

数据流动是数据加速器 GooseFSx 与对象存储 COS 之间按需流动数据。GooseFSx 直接从 COS 加载所需的数据,以便主机访问高速 GooseFSx 实现对 COS 加速,GooseFSx 将产生的计算结果沉降到 COS,实现持久化、低成本存储,或通过 COS 的互联网分发能力共享计算结果。

创建数据流动是在数据加速器 GooseFSx 某一级目录与对象存储 COS 某存储桶之间建立数据流动。GooseFSx 可创建多个数据流动,同时与多个 COS 存储桶流动数据。一个 GooseFSx 目录只能与一个 COS 存储桶流动数据,反之亦然;N个 GooseFSx 目录分别与N个 COS 存储桶流动数据。N的最大值,详请请参见 数据流动的使用限制

GooseFSx 目录是 GooseFSx 与 COS 存储桶建立数据流动的一级目录;所有 GooseFSx 目录均是一级目录,避免 GooseFSx 目录之间嵌套,易于使用。

数据流动保持 GooseFSx 目录的数据与 COS 存储桶的数据一一对应,加载时,将 COS 存储桶的对象转义为文件,加载到 GooseFSx 对应目录;沉降时,将 GooseFSx 目录的文件转义为对象,沉降到 COS 存储桶的对应路径。如图所示:



在创建数据流动时,可配置数据流动策略,实现自动流动数据;数据流动策略默认为空,表示不会自动流动数据。不论是否配置数据流动策略,皆可随时创建数据流动任务,手动触发一次数据流动。
数据流动方式
客户价值
实现方式
自动流动
自动流动是自动触发的数据流动,自动从 COS 存储桶加载所需数据、或自动沉降变化的数据到 COS 存储桶,对用户是透明的,详请请参见 数据流动策略
配置数据流动策略:创建数据流动时,配置数据流动策略,例如按需加载/自动加载数据策略。
手动流动
手动流动是手动触发的、系统自动执行的数据流动任务,详情请参见 管理 GooseFSx 数据流动任务
创建数据流动任务:可通过云 API 、命令行或控制台发起数据流动任务,能指定流动数据集、流动的方向,能查询数据流动的状态和结果。

数据流动策略

自动加载数据,是一种数据流动策略,简称按需加载 Lazyload,是指自动从 COS 存储桶加载数据。若在创建数据流动时,配置数据流动策略为自动加载数据,主机读取 GooseFSx 未命中时,自动从 COS 存储桶加载数据,并同步返回给主机,整个过程对主机透明。

自动加载数据的工作原理
一旦主机访问的数据尚未加载到 GooseFSx,将自动从 COS 存储桶加载数据、并同步返回给主机;当主机再次访问该数据,直接访问 GooseFSx,因为数据已缓存到 GooseFSx,不用再去 COS 加载数据。

自动加载数据的前置条件
GooseFSx 已有元数据。需要提前通过加载元数据任务,将元数据加载到 GooseFSx;或淘汰 GooseFSx 的数据,保留元数据。
说明:
由于资源等原因,按需加载需要经过存储架构师评估后才能使用。

数据流动带宽

数据流动带宽是数据加速器 GooseFSx 与 COS 进行流动数据所使用的带宽,由数据加速器 GooseFSx 提供。GooseFSx 数据流动带宽越高,GooseFSx 执行数据流动的速率越快,反之,越慢。为匹配业务需求,可随时扩大或缩小数据流动带宽;GooseFSx 可在执行数据流动的过程中动态调整数据流动带宽,而业务无感知。
说明:
数据流动带宽,需要用户付费使用,详情请参见 GooseFSx 购买指南
在使用数据流动过程中,可能会产生的网络流量费用如下表所示:
场景
费用
说明
与同地域 COS 桶流动数据
GooseFSx 数据流动带宽费用
GooseFSx 数据流动带宽费用,由 GooseFSx 产品收取
GooseFSx 与 COS 同地域网络流量免费
与跨地域 COS 桶流动数据
GooseFSx 数据流动带宽费用和 COS 全球加速流量费用
GooseFSx 数据流动带宽费用,由 GooseFSx 产品收取
COS 全球加速流量费用,由 COS 产品收取
数据流动带宽的初始值,简称默认带宽,根据实例类型不同而不同,可免费使用。
实例类型
数据流动带宽的初始值/默认带宽
说明
C60
0MB/s
C60 的默认带宽为0,需要用户自行购买数据流动带宽
C70
100MB/s 每 TiB
C70 提供默认带宽,可免费使用
用户可再购买数据流动带宽,扩大数据流动性能
C70 默认带宽与容量成正比,每 TiB 容量是100MB/s,例如,C70 容量是13.95TiB,默认带宽是1300MB/s;扩大容量,默认带宽同比例扩大
说明:
C70 默认带宽并不一定达到最大值,例如13.95TiB的C70的默认带宽是1300MB/s,并不一定能实际达到1300MB/s的数据流动性能;因为,为保障足够资源来满足主机读写请求的性能,主机读写随时会抢占默认带宽的资源。
数据流动带宽的步长为600MB/s,用户购买 N 个步长后,数据流动带宽将扩大 N * 600MB/s。

数据流动带宽的最大值约等于 GooseFSx 实例的带宽,因为数据流动在 GooseFSx 与 COS 存储桶之间同步数据,会受到 GooseFSx 实例带宽的限制。数据流动带宽的最大值也会受到 COS 存储桶带宽的限制,但并不明显,因为 GooseFSx 能够同时与多个 COS 存储桶流动数据。

数据流动带宽有待扩容、扩容中、运行中等状态:
状态
说明
待扩容
数据流动带宽为 0,无法创建数据流动,请先扩容带宽
扩容中、缩容中
系统正在调整数据流动带宽,不能再次执行调整带宽,避免不确定性;因为,当前带宽是中间状态,可能是调整后的带宽(执行成功)、也可能是调整前的带宽(执行失败)。
若是扩容中,数据流动使用扩容前的带宽,待完成扩容后,平衡使用扩容后的带宽。
若是缩容中,数据流动逐步使用缩容后的带宽,待完成缩容后,平衡使用缩容后的带宽;若想缩容到 0,请删除所有数据流动。
运行中
正常运行


数据流动任务

数据流动任务是在 GooseFSx 目录与 COS 存储桶之间执行一次数据流动,是用户发起的、系统自动执行的一次数据流动。数据流动任务将您指定的数据(整个目录或某个子目录的数据、或整个存储桶或某个前缀的数据),自动、完整、高效地复制到对应的位置,并输出数据流动任务报告,展示数据流动任务的详情。

在发起数据流动任务之前,请先创建数据流动。数据流动任务是依附于数据流动建立的数据流动通道,数据流动有两种方式:自动流动和手动流动。使用手动流动方式需要创建数据流动任务。

若数据流动配置了数据流动策略,将会自动流动数据,再发起数据流动任务,将同时执行自动流动和手动流动,是正常工作状态,不会出现冲突导致数据不一致,不会重复复制相同数据。

在一个数据流动上,可创建多个数据流动任务,将被串行执行;而不同数据流动的数据流动任务将被并发执行。

数据流动任务有两种类型:沉降和加载。
沉降任务是将 GooseFSx 目录的指定数据沉降到 COS 存储桶,可沉降整个 GooseFSx 目录的数据,或沉降指定子目录的数据。沉降任务将 GooseFSx 上产生的计算结果沉降到 COS,持久化/低成本存储。
加载任务是将 COS 存储桶的指定数据加载到 GooseFSx 目录,可加载整个 COS 存储桶的数据,或加载指定前缀的数据。加载任务从 COS 加载数据到 GooseFSx,以便主机能高速访问缓存到 GooseFSx 的数据,实现对 COS 加速。

数据流动任务,保持 COS 存储桶的数据和 GooseFSx 目录的数据一一对应。例如,COS 存储桶的对象:H1/big/test.dat,加载成 GooseFSx 目录的文件: H1/big/test.dat,反过来,GooseFSx 目录的文件:H2/small/test.txt,沉降为 COS 存储桶的对象:H2/small/test.txt。
说明
数据流动任务,执行增量加载或沉降,不会重传相同的数据。
您可通过云 API 或控制台来创建和管理数据流动任务。


数据流动周期策略

数据流动周期策略(简称周期策略),用于周期性触发数据流动任务,例如每小时沉降 COS 的周期策略、每间隔1小时触发一次沉降任务,将 GooseFSx 的指定数据集沉降到对应的 COS 桶。这适用于定期与 COS 桶同步数据、及时从 COS 桶预热数据等场景。

数据流动周期策略,支持配置多种周期策略:
每小时周期策略:每小时在指定分钟触发数据流动任务。
每天周期策略:每天在指定小时触发数据流动任务。
每周周期策略:每周在指定天触发数据流动任务。
每月周期策略:每月在指定天触发数据流动任务。