产品功能

最近更新时间:2019-08-29 18:41:22

高效分布式 JOIN 计算

业务分析场景,通常会有2个或多个表关联(JOIN)的逻辑,此逻辑在单机模式中是一个简单的操作,但在集群模式下,由于数据分布在1个或多个物理节点中,处理会相对复杂。在很多分布式解决方案中,JOIN 会把数据拉取到一个节点,进行关联计算,不仅耗费了大量网络资源,且语句的执行耗时会很高。

TBase 通过如下方式对分布式 JOIN 进行高效计算,基于高效的全局查询计划和数据重分布的技术支撑,TBase 能轻易发挥并行计算的优势,高效完成 JOIN 过程。

  • 在执行方式上,协调节点接收到用户的 SQL 请求,根据收集的集群统计信息,生成最优的集群级分布式查询计划,并下发到参与计算的数据节点上进行执行,即协调节点下发的是执行计划,数据节点负责执行该计划。
  • 在数据交互上,数据节点之间建立了高效数据交换通道,可以高效的交换数据,数据交换的过程在 TBase 里称之数据重分布(Data Redistribution)。

多核并行计算

TBase 在节点内部采用了并行计算,同时启动多个进程来协同完成一个查询,可充分利用服务器的多核处理能力来快速、高效地完成查询。通常情况下,TBase 会启动多个进程来完成查询,查询时间会大大缩短,如果有更多的资源可供使用,查询时间则会呈线性优化。
TBase 会根据查询表大小来决定是否进行并行查询,表的数据量超过阈值后,才会采用并行计算,当需要并行计算时,会根据表大小得出并行度,即需要的进程个数。

数据安全保障功能

数据加密

TBase 提供两种数据加密方式:

  • 业务侧加密:业务调用 TBase 内置的加密函数,将加密结果写入数据库,正常读取的也是加密后的数据,然后在应用里执行解密。
  • TBase 内置加密:加密过程对业务侧透明,优点如下:
    • 加密操作(函数调用)与业务侧解耦合,业务只负责写入原始数据到数据库内核,后续的加密计算在数据库内部完成,从而业务侧操作上无感知。
    • 加密算法由数据库维护,包括加密算法的选择、密钥管理,都由安全员独立操作完成。
      TBase 内核加密计算支持异步加密,保证系统在吞吐不变的情况下,达成数据加密。支持的加密算法有 AES128、AES192、AES256、国密SM4。
      同时 TBase 支持透明数据脱敏功能,在用户无感知的情况下,对非授权用户返回被脱敏的数据。
      从以上两个维度实现更细粒度的数据访问控制,增强对现有访问的控制,且对现有业务系统无感知。

全方位审计

TBase 从多个维度提供全方位的审计能力,审计采用旁路检测方式,对数据库运行影响极小。审计类型如下:

  • 语句审计:针对某一种特定的语句进行审计。
  • 对象审计:针对某个数据库对象的操作进行审计。
  • 用户审计:针对某个数据库用户的操作进行审计。
  • 细粒度审计(Fine-Grained Audit,FGA):高级审计选项,使用表达式来作为审计条件,可设置审计被触发时的动作,例如,发邮件打电话等。

数据治理功能

数据治理包括数据倾斜的治理和冷热数据分级存储。数据倾斜的治理用以解决数据分布不均带来的存储及性能压力,冷热数据分级存储用以降低业务的存储成本、提升热数据的性能。

数据倾斜治理

该方案首先把系统的 DN 分为 group,每个 group 包含一个或多个 DN;每个 group 有一个 shardmap;建 sharded 表时,可以指定存储的 group;CN 可以访问所有的 group,且 CN 上存储所有表的访问方式信息。

对于系统中数据量较大的用户进行特别识别,并为其创建白名单,使用不同的数据分布逻辑:

  • 普通用户使用默认的数据分布逻辑,即 Shardid = Hash(merchantid) % #shardmap
  • 大用户使用定制的数据分布逻辑,即 Shardid = Hash(merchantid) % #shardmap + fcreate_time dayoffset from 1970-01-01
    通过在大用户 group 分布逻辑中加入日期偏移,来实现同一个用户的数据在 group 内部多个节点间均匀分布,从而有效解决数据分布不均匀问题。

冷热数据分离

内核原生支持数据的冷热分离,业务无需感知底层存储介质的不同,对外提供统一的数据库视图。

  • 冷热数据使用不同的节点 group 存储,节点组内部使用的物理机型配置不同,从而达到冷热分离节省成本的目的。
  • 后台定时任务根据用户配置的冷热数据规则,自动进行数据迁移,系统即可实现自动的冷热分离,业务无需关心集群的冷热数据存储情况。

多级容灾功能

TBase 在多个维度保证集群的容灾能力:

强同步复制

TBase 支持强同步复制,在节点级保证每个节点的主从数据完全一致,是整个容灾体系的基础,当主节点(Master)故障发生时,数据库可切换到从节点(Slave)提供服务且无任何数据丢失。强同步机制要求用户请求发生,从节点写入日志成功后,才给用户返回成功,保证主从节点的数据时刻一致。

主从高可用

TBase 主从高可用方案主要通过每组节点的多副本冗余来实现服务不中断或中断时间很短,当一组节点的主节点出现故障不可恢复,将自动从对应的备节点中选出新的主节点工作。在主从高可用基础上 TBase 支持:

  • 故障自动转移:集群中主节点故障时,系统自动从对应的从节点中选出新的主节点,故障节点自动被集群隔离,基于强同步复制策略,主从切换保证主从数据完全一致,可满足金融级数据一致性要求。
  • 故障恢复:备节点因磁盘故障导致数据丢失时,数据库管理员(DBA)可以通过重做备机来恢复备机,可选择在新的物理节点上添加备机来恢复主从备份关系,保证系统可靠性。
  • 副本切换:每组主从节点(可以是1主 N 从)的每个节点都包含完整的数据副本,DBA 可根据需求进行切换。
  • 设置禁止切换:即可设置在某一特殊时期,不处理故障转移。
  • 跨可用区部署:主节点和从节点分处于不同机房,数据之间通过专线网络进行实时的数据复制。本地为主节点,远程为从节点,首先访问本地节点,若本地主节点发生故障或访问不可达,则远程的从节点升为主节点提供服务。

TBase 支持基于强同步的高可用方案,主节点故障时将自动选出最优从节点立即顶替工作,切换过程对用户透明,且不改变访问 IP。TBase 对系统组件支持7 * 24小时持续监控,发生故障时,TBase 将自动重启节点或者隔离节点,从从节点选出新主节点提供服务。

基于时间点的恢复功能

TBase 支持基于备份在事务一致性的时间点恢复数据,防止误操作带来的数据丢失。备份分为全量备份(冷备)和增量备份(xlog 备份):

  • 全量备份:指备份数据库的全部数据(除了运行日志和 xlog 之外),全量备份通常是周期性,如一天、一周或 N 天。
  • 增量备份:指增量数据的备份,一般通过 xlog 文件实现,当数据库系统产生新的 xlog 文件后,系统将 xlog 文件备份到备份服务器上,增量备份通常是实时的行为。
    当发生事故或灾难后,用户可以利用备份数据来恢复系统。TBase 是一个全局分布式事务的数据库系统,各节点之间数据是关联的,因此恢复系统需要通过一个全局时间点来恢复。

分布式HTAP数据库 TBase 相关文档