词汇表

最近更新时间:2019-08-27 11:25:22

实例

一个完整的包含 GTM、CN、DN,有相对独立的隔离资源的数据库。

节点

一个 DN、CN、或者 GTM。

节点组

一个主从架构的 DN、CN 叫做节点组,简称 SET。

节点名称

CN 和 DN 中,一组主从节点公用一个名称,例如 cn0001。GTM 一个节点一个名称,主从不共用。

协调节点

Coordinator(CN),对外提供接口,负责数据的分发、查询规划、多个节点位置对等,每个节点都提供相同的数据库视图,在功能上 CN 只存储系统的全局元数据,并不存储实际的业务数据。

存储节点

Datanode(DN),存储本节点相关的元数据,每个节点还存储业务数据的分片,在功能上 DN 负责完成执行协调节点分发的执行请求。

全局事务管理器

Global Transaction Manager(GTM),负责管理实例事务信息,同时管理实例的全局对象,例如序列等。

cgroup

control groups 的简写,是 Linux 内核的一个功能,用来限制、控制与分离一个行程组群的资源(如 CPU、内存、磁盘输入输出等)。

dngroup

一种逻辑组的概念,把 TBase 实例的 DN 分为 group,每个 group 里面包含一个或者多个节点,每个 group 有一个 shardmap。

shardmap

一种逻辑映射关系的管理视图,负责将业务数据依照分布键值计算的中间结果值映射到确定的存储节点。

xlog

Tbase 数据库中节点的 wal 日志文件。

行存

数据按照逻辑顺序相同的方式来进行文件存储,一行中的所有列数据按照顺序存储在物理磁盘上(多个字段通常按照顺序存储在一个磁盘文件中),这种格式的好处很明显,如果同时访问一行中的多列数据时,一般只需要一次磁盘 IO,比较适合 OLTP 类型的负载。

列存

表中的每列数据存储为一个独立的磁盘文件,例如“姓名”、“部门”、“薪酬”、“家庭信息”每列中的数据都为一个独立的数据文件,这种格式在一次需要访问表中少数列时相比行存能够节省大量的磁盘 IO,在聚合类场景下尤其高效,因此多用在 OLAP 类系统中。

分布式事务

数据库事务 ACID 特性在分布式拓扑结构下的实现,效果与单机数据库完全一致。

三权分立

将传统数据库系统 DBA 的角色分解为安全管理员、审计管理员、数据管理员三个相互独立的角色,三个角色之间相互制约,消除出系统中的超级权限,从系统角色设计上了解决了数据安全问题

安全管理员

定义强制访问、脱敏、加密策略的人员。安全员独立完成安全策略制定,不受管理员约束。

审计管理员

可以审计所有操作的人员。审计员独立完成审计策略制定,不受管理员约束,审计员操作被强制记录,不可更改。

数据管理员

具备自主访问控制权限、运维权限的人员。不可干预安全员、审计员操作。

列级加密

针对指定列做单独的加密操作。

文件加密

以数据库内部标准块 block 为加密计算的最小单位。

透明数据脱敏

指通过某种运算法则,在真实数据返回给访问终端前,按照既定规则,将原始数据映射到另一种形式(可以支持多种变化),该映射规则对查询用户不可见,且转换后的形式不能做逆向操作(即转换为原始数据)。
数据脱敏隐去了部分敏感信息,同时尽量保持数据整体有效,这样原系统中的所有用户(包括管理员)再去查看表数据时,得到的脱敏规则使能后的结果,且规则下发后立即生效,无需停机或者重启。
对于原本正常访问的数据库用户,定义为授权用户,安全员可将这些用户定义为某些对象的白名单用户,即给用户添加白名单属性。白名单用户在登录系统完成鉴权后,就被系统识别为授权用户,访问表的方式不会变化,且获得的都是原始数据。

数据倾斜

存储节点之间存储的数据量不均衡。

冷热分离

从业务层面区分数据访问频度,将低频度访问数据转储到廉价存储主机上,高频度访问数据留存在高性能存储主机上,并配合 OSS 的冷热迁移任务,保证对业务透明的情况,达成降低整个实例的存储成本。

在线扩容

业务运行中对实例的拓扑结构做横向调整,相当于 scale-out,数据迁移过程中业务无感知。

SQL-2011

ANSI SQL 的一种标准,关系型数据库所使用的标准语言。

SQL-2003

ANSI SQL 的一种标准,关系型数据库所使用的标准语言。

PostGis

一个开源程序,通过提供存储空间地理数据,使 TBase 成为一个空间数据库,能够通过 SQL 语言高效的进行空间数据管理、数量测量和几何拓扑分析。PostGIS 实现了Open Geospatial Consortium 所提出的基本要素类(点、线、面、多点、多线、多面等)的 SQL 实现参考。PostGIS 使用 well-known text 与 well-known binary 在数据库中存储空间对象,前者是一种用文本表示空间对象的注记方法,后者是一种用二进制流表示空间对象的存储方法。

JSON 数据类型

一种数据格式,优势在于能强制要求每个被存储的值符合 JSON 规则,也有很多 JSON 相关的函数和操作符可以用于存储在这些数据类型中的数据。JSON 数据类型有 json 和 jsonb,它们接受完全相同的值集合作为输入,主要区别是效率。JSON 数据类型存储输入文本的精准拷贝,处理函数必须在每次执行时重新解析该数据,而 jsonb 数据被存储在一种分解好的二进制格式中,它在输入时要稍慢一些,因为需要做附加的转换,但 jsonb 在处理时要快很多,因为不需要解析,jsonb 也支持索引,这也是一个令人瞩目的优势。

分布式HTAP数据库 TBase 相关文档