数据库静态脱敏

产品简介

中安威士数据静态脱敏系统(简称VS-DM-S)是一款由中安威士自主研发的数据遮蔽和仿真脱敏产品。该产品采用了一系列专有的数据脱敏规则,包括:数据遮蔽、数据仿真、关键部分替换、数据随机替换等,以达到隐藏或模糊处理真实敏感信息的目的,提高生产数据在应用开发、测试、以及第三方工具做数据分析等使用场景中的安全性。同时,脱敏后的数据能够保持原有的语义和关联关系,保证了数据的有效性。

产品功能

数据抽取

本系统采用了灵活的数据抽取方式,既为所有数据库应用环境提供了通用模式的数据处理接口,又为部分数据库应用环境提供了基于极速模式的数据处理接口。这保证了本系统对于各式各样的数据库应用场景具备最大限度的兼容性,同时又能针对一些特定的应用场景开启技术模式,显著提升数据脱敏性能,提高脱敏业务的时效性。

数据发现

本系统能自动运行数据扫描任务,先从数据源中获取少量的样本数据,再与系统内置的敏感数据指纹特征进行比对,快速识别敏感数据类型,并记录敏感数据的存放位置。

本系统内置了数十种敏感数据发现规则,涵盖电力、金融、公安、社保、工商、税务等行业的数据特征识别需求。有些数据在特定应用场景中也会具备敏感性,对于这类脱敏需求,本系统提供了特征字典和正则表达两种数据匹配方式的配置接口,可根据情况自行定义。

数据脱敏

l 数据不落地:在执行数据抽取、脱敏计算、数据装载等任务时,不会在本地磁盘上记录任何数据,所有数据均只在内存中进行处理。

l 脱敏规则灵活丰富:可根据实际需要提供数据遮蔽、数据仿真、关键部分替换、随机字符串、重置固定值等多种多样的敏感数据处理方式,以达到隐藏或模糊处理真实敏感信息的目的,提高生产数据在应用开发、测试、以及第三方工具做数据分析等使用场景中的安全性。

l 数据的有效性和一致性:保证生产环境中的真实数据经过脱敏系统处理后,仍然保持原有的语义、长度和关联关系。脱敏后的数据在测试、分析场景中仍能具有可用性、规范性和“真实性”。相同的数据通过脱敏系统多次分发并写入到不同应用环境时,还可以保持一致性。同时,也不改变数据库中的数据。

数据对比

本脱敏系统提供脱敏前后数据校验功能,从数据库结构、数据对象、表数量、表内数据量等维度对比分析源库数据和目标库数据的差异。用户管理员可据此判断该脱敏任务是否胜利完成,脱敏方案是否合理。

数据上传

脱敏后的数据可以实时的上传到目标服务器,也可以保存在脱敏服务器上,按需的上传到目标服务器,实现一次脱敏多次使用。

适用场景和价值

本脱敏系统支持库到库、库到文件、文件到文件、文件到库、本地脱敏等多种数据脱敏场景。

产品优势

强大的隐私发现功能

内置大量模板,满足中文环境下的金融、电力、税务、交通、公安、社保等多个行业对于敏感数据的识别特征要求。

灵活的数据源过滤

· 能够根据业务情况对需要脱敏的数据范围进行选择,提供库级、表级、列级、行数量级的多种层次的数据选择范围。同时提供where条件对原始数据过滤抽取后,进行脱敏,并写入到新的表中。比如只需对某张表中的几个数据字段和部分数据量进行脱敏,则可通过选择列,设置数据行数,设置过滤条件即可达成。

· 为了满足持续增长的业务数据脱敏需求,对具有自增主键或者带有时间戳的表提供了增量脱敏配置,结合定时的任务运行机制,保证写入的新数据能够及时的进行脱敏后,写入目标库。这样能保证开发、测试和大数据分析平台的数据和生产环境的数据保持实时同步。

强大的脱敏规则

针对不同行业对于数据格式和语义的定义不同,本脱敏系统在提供遮蔽、随机字符串替代、重置固定值和Hash(加密)等四种通用的脱敏规则之外,还结合数据方向、起始位置等参数设置,支持字符型数据的脱敏要求。

针对每种已经识别的敏感数据类型,则单独提供仿真和遮蔽规则。而且所有的仿真脱敏规则还支持可逆脱敏:使用数据仿真规则脱敏后的数据,再次经过脱敏设备处理后,可以将指定范围的数据还原为真实的原始数据。

· 数据仿真: 对数据内容进行仿真,生成格式&语义正确,但已经不是真实的高仿数据

· 数据遮蔽: 使用特殊字符对数据的遮蔽内容进行替换,破坏数据的可读性

· 随机字符串:对数据进行随机变化,使数据不保留原有的语义、格式

· 重置固定值: 对特定的数据列重置为固定的数字或者是字符串,比如密码列,可以重置为“88888888”

· Hash(加密):对于完整的数据进行Hash加密,使数据不可读

· 列关联:保持列与列之间的对应或者运算关系,比如身份证字段和生日、年龄等

· 纵向乱序:保持或者打乱列与列之间的每行数据的对应关系

· 关联列计算:当列与列之间有运算关系时(比如A+B=C),脱敏后的数据仍然具有相同的运算关系

· 字典映射:根据特征字典,将符合特征的数据替换为指定的值,比如可以将所有的“张三”统一替换为“李四”

· 随机映射:根据特征字典,将符合特征的数据进行随机替换,比如可以将所有的“张三”替换为“李四、王五、赵六”当中的任意一个

关联性保持

脱敏前后,可以保持原始数据的关联关系。

高兼容性

u 支持数据库类型:Oracle、Mysql、MSSQL、DB2、Gbase8A/8T/8S、达梦、TreaData、PostgreSQL、GreenPlum等

u 支持大数据平台:HIVE、星环TDH等

u 支持:Linux、Widonws、Unix、AIX等多种系统平台

u 支持格式化数据文件的脱敏:TXT、CSV、HDFS等

u 支持多种中文字符集:UTF-8、GBK、GB2312、Unicode等

u 支持不同存储位置的文件脱敏:FTP/SFTP

u 支持:异构数据库装载

高性能

u 高高性能,每小时不低于50GB的数据脱敏能力

u 高可靠性,服务器硬件平台,linux系统,运行更稳定

u 易操作,独特设计的功能管理页面,操作更流畅,更简洁

u 易扩展,软件层面采用模块化设计并提供达到API接口,方便后期定制;硬件平台标准化,可根据需要处理的数据量大小自由选择、升级配置

典型部署

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券