前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于密码学的数据治理Crypto-based Data Governance|洞见

基于密码学的数据治理Crypto-based Data Governance|洞见

作者头像
ThoughtWorks
发布2018-04-17 17:04:51
5460
发布2018-04-17 17:04:51
举报
文章被收录于专栏:ThoughtWorksThoughtWorks

最近得益于区块链在金融领域的火爆效应,Crypto-based currency&transaction改变了金融圈原本“数字货币=数字游戏”的印象,密码学货币不再只是数字货币,它还被赋予了“防篡改、去中心”的特性,但是本质上这些事务都是数据治理问题,只不过从原本的“服务级别”的访问权限校验转入了“数据级别”的完整性校验。其实密码学不只可以在金融业务方面做出贡献,在其他一系列数据治理难题中,我们也可以借鉴其中的一些思路。

下面让我们来回顾一些常见的数据治理问题,以及我们如何使用密码学来解决这些问题。


数据私密性

私密性(Confidentiality),数据作为企业的重要财产已经得到足够的重视,同时作为业务必须的原料又不得不分发到终端。我们既要做好必要的安全防护工作,同时也希望尽可能地灵活管理访问权限,在需要的时候能及时地送达业务场景中消化。

这个防护工作的目的也就是保护数据的私密性。通常有两种方式保障,授权与加密,随着数据量级的增长,私密性变得越来越细粒度。如何划分授权与加密这两种有着明确区分的方案往往被大家混淆,甚至不少开发人员认为授权是加密的一种。

常见的授权(Authorization),包含了验证(Authentication)与访问控制(Access Control)两个部分,验证是指用户或者业务模块通过一个私密的凭证来确保身份,它可以是一个密码,可以是一类数字签名(包括证书),也可以使用相对复杂的双向动态授权协议。

验证后的访问控制则是将数据权限更细粒度地拆分,提供一次性或者短暂性的访问权限,Token作为一个权证只能用来访问其对应权限下的数据,可以防止私密数据过量泄露。

而目前一些新的方法中,权证分发本身被改善成了一个数字签名的过程,通过完全的非对称密码系统,让数据提供方原本需要保存的Token,转变为只需要验证访问请求所携带的数字签名就可以获知权限的Certificate/Signature,例如Hyperledger区块链平台就采用这种方式,分别签发Enrollment Certificate和Transaction Certificate为不同的业务场景提供不同的数据访问权限。

授权方案的发展历经了几个阶段(如上图),虽然和出现时间并没有太大关系,TLS早就定义了第三种形式作为分发证书链的模式,我们可以看到在第二种方案中,通过采用token的授权,使得细粒度的授权分发可以和验证分离开来。而第三种方案则更进一步,让双方不需要再传输存储授权凭证,而且整个授权过程可以是一次性的,而不会影响到数据访问。

随着高阶密码学原语的引入,我们甚至可以在验证授权的过程中为用户的访问提供隐私保护,例如通过Dual Receiver Encryption配合Ring Signature可以实现匿名组策略等效果。

加密(Encryption),往往是较为耗时和受限制的数据治理手段,尤其是非对称加密算法,只能针对少量的数据集执行,而对称加密又存在交换秘钥、存储管理秘钥时的隐患。因此作为保护数据私密性的最后手段,我们应该尽量避免滥用误用,常见的误用场景包括试图通过在客户端加密Token来防止用户篡改数据访问权限、试图用加密应用代码的方式保护数据、试图仅依靠对称加密分发数据等等。

常见的加密确保私密性,常常是基于“数据被盗”或者“数据集必须存放在用户端”的假设,“数据被盗”决定了每个数据池都有必要对基础设施进行预防,例如对硬盘加密、选择安全的通信信道和协议、避免秘钥泄露、避免系统人为操作、避免内网服务对外开放、减少私有网络的威胁等等。而“数据集必须存放在用户端”则需要考虑到恶意软件、逆向工程、暴力破解可能造成的数据损失。


数据完整性

完整性(Integrity),说到区块链的一大卖点就是不可篡改,通过确定交易双方身份的Signature、交易顺序的Merkel Hash tree、Block前向完整性(Forward integrity)Hash,三者(如图)组成了一套完整的分布式账本链条,其中每一条、每一页的交易记录之间、页与页之间都由密码学原语保护。这样的一种数据结构设计,为区块链带来了更灵活的去中心结算方案。

将区块链解构之后,我们也可以灵活地将这些密码学原语用于保障常规数据的完整性,尤其可以应对B2B场景下,企业联盟之间的数据共享信任问题,通过完整性校验,可以实现竞争关系下的同业数据融合;通过数字签名,可以为如票据交易、款项去处之类的数据审计提供证据。

大数据分析提高了对数据真实性的要求,密码学提供的完整性校验方案,可以为外来数据治理提供额外的保障。同时由于密码学原语位于设施的底层,因而这一系列的验证审计操作都可以自动化执行,而不需要额外的人力来管理校对。


数据可用性

可用性(Availablity),在数据治理中是一个非常困难的话题,我们可以将数据副本分发到业务微服务中缓存,也可以采用分布式的存储方式,这些都是为了解决单点故障、减少大量数据同步的时间开销,其中Hash Table作为最常见的检索方式,可以同时保障数据的完整性和可用性,数据池可以使用分块的方式将数据分散存储,同时使用Hash来计算出摘要以供后续的检索,通过额外的加密手段,甚至可以实现对等节点的全量和增量数据同步,而不必担心数据的私密泄露。

DynamoDB采用了这种Hash一致性算法,“均匀”地管理数据分片(如图)。Bittorrent网络采用Hashtable来寻找目标文件。Spark-mllib也使用了Hash来进行词频统计,达到数据分治的效果,避免了维护全局term-to-index map的麻烦。

此外,加密后的数据由于可读性问题,很难再做重用,而常见的保护用户敏感信息,并且同时保护数据分析可读性的方法,在微软和苹果等公司都有所尝试,称为Differential privacy(如图),数据分析师在提取数据时,Privacy Guard评估Query Privacy impact,为反馈的数据加上噪音,例如可以使用Hash替换掉真实信息,只保留数据“特征”,减少用户隐私泄露的风险,同时又能保留数据的分析价值。


重返焦点

如果说数据湖是每个企业的金库,那么数据治理的安全措施就是用于搭起金库壁垒的一砖一瓦,每个安全措施之间的紧密粘合都依托于完善和牢固的密码学设计,随着“安全无小事,商场入战场”的警钟不断敲响,从基础设施建设上对数据治理的不断规范化和标准化呼声越来越高,密码学重回技术焦点的日子应该不会太远。


本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-06-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 思特沃克 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据私密性
  • 数据完整性
  • 数据可用性
  • 重返焦点
相关产品与服务
私有网络
私有网络(Virtual Private Cloud,VPC)是基于腾讯云构建的专属云上网络空间,为您在腾讯云上的资源提供网络服务,不同私有网络间完全逻辑隔离。作为您在云上的专属网络空间,您可以通过软件定义网络的方式管理您的私有网络 VPC,实现 IP 地址、子网、路由表、网络 ACL 、流日志等功能的配置管理。私有网络还支持多种方式连接 Internet,如弹性 IP 、NAT 网关等。同时,您也可以通过 VPN 连接或专线接入连通腾讯云与您本地的数据中心,灵活构建混合云。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档