专栏首页arxiv.org翻译专栏hysc - flow:基于sgx大数据分析框架的隐私保护基因组计算

hysc - flow:基于sgx大数据分析框架的隐私保护基因组计算

可信执行环境(TEE),如Intel的软件守卫扩展(SGX),已被广泛研究,以提高计算敏感数据(如人类基因组学)的安全性和隐私保护。然而,SGX经常会产生性能障碍,尤其是在小内存空间中。在本文中,我们提出了一个新的混合安全流框架(称为“HySec-Flow”),用于使用SGX平台进行大规模基因组数据分析。在这里,数据密集型计算任务可以被划分为独立的子任务,部署到不同的安全容器和非安全容器中,因此允许并行执行,同时减轻每个enclave中Page Cache (EPC)内存的有限大小。我们使用一个支持SGX- en支持的容器的索引、对齐、调度和合并执行的工作流来说明我们的贡献。我们提供了关于受信任和不受信任组件的架构的细节,以及作为通用屏蔽执行框架来移植遗留代码的底层藐视和石墨烯支持。我们会彻底评估业绩,我们的隐私保护读取映射算法使用真实人类基因组测序数据。结果表明,与传统的数据密集型读取映射算法在飞地中执行相比,将耗时的基因组计算划分为子任务可以提高性能。提出的HySec-Flow框架是开源的,适用于其他需要安全性和可扩展计算资源的大规模基因组任务的数据并行计算。

HySec-Flow: Privacy-Preserving Genomic Computing with SGX-based Big-Data Analytics Framework

Trusted execution environments (TEE) such as Intel’s Software Guard Extension (SGX) have been widely studied to boost security and privacy protection for the computation of sensitive data such as human genomics. However, a performance hurdle is often generated by SGX, especially from the small enclave memory. In this paper, we propose a new Hybrid Secured Flow framework (called ”HySec-Flow”) for large-scale genomic data analysis using SGX platforms. Here, the data-intensive computing tasks can be partitioned into independent subtasks to be deployed into distinct secured and non-secured containers,

therefore allowing for parallel execution while alleviating the limited size of Page Cache (EPC) memory in each enclave. We illustrate our contributions using a workflflow supporting indexing, alignment, dispatching, and merging the execution of SGX- enabled containers. We provide details regarding the architecture of the trusted and untrusted components and the underlying Scorn and Graphene support as generic shielding execution frameworks to port legacy code. We thoroughly evaluate the performance

of our privacy-preserving reads mapping algorithm using real human genome sequencing data. The results demonstrate that the performance is enhanced by partitioning the time-consuming genomic computation into subtasks compared to the conventional execution of the data-intensive reads mapping algorithm in an enclave. The proposed HySec-Flow framework is made available as an open-source and adapted to the data-parallel computation of other large-scale genomic tasks requiring security and scalable computational resources.

原文链接:https://arxiv.org/pdf/2107.12423.pdf

原文作者:Chathura Widanage, Weijie Liu, Jiayu Li, Hongbo Chen, XiaoFeng Wang, Haixu Tang, Judy Fox

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 基于TEE的共享学习:数据孤岛解决方案

    随着人工智能的兴起,数据的质量和数量,已经成为影响机器学习模型效果最重要的因素之一,因此通过数据共享的模式来“扩展”数据量、从而提升模型效果的诉求也变得越发强烈...

    安智客
  • 共享学习:蚂蚁金服提出全新数据孤岛解决方案

    随着人工智能的兴起,数据的质量和数量,已经成为影响机器学习模型效果最重要的因素之一,因此通过数据共享的模式来「扩展」数据量、从而提升模型效果的诉求也变得越发强烈...

    Python数据科学
  • 蚂蚁区块链第10课 可信计算分类以及TEE硬件隐私合约链智能合约开发实践

    本文介绍可信计算分类INTEL SGX技术和ARM TRUSTZONE技术技术方案概要,以及应用INTEL SGX技术的蚂蚁区块链TEE硬件隐私链的智能合约开发...

    辉哥
  • 服务器TEE:百度Teaclave驱动安全计算生态

    Apache Teaclave (incubating) (https://teaclave.apache.org/)是号称全球首个通用安全计算平台。Teacl...

    安智客
  • 从可信执行环境到企业级大规模密文计算

    数字经济时代,数据是企业的核心资产,数据的全生命周期加密处理是保护企业数据核心资产的最有效最可靠手段之一。在信息安全的发展过程中,我们已经建立起国家乃至世界级的...

    安智客
  • SGX,为数据处理构建硬件级 “安全隔离区” | 至强秘笈

    通过数据协同,引入更多源、多维、高质量的数据来打破数据孤岛,已成为各行各业深入开展大数据和AI应用,充分挖掘数据价值,进而加速推进数字化和智能化转型进程的共识。...

    数据猿
  • 我们可以教机器学习隐私吗?

    机器学习需要使用大量数据来对模型进行训练,而我们一般都会将这些训练数据上传到亚马逊和Google等运营商所托管的机器学习云服务上,但这样将有可能把数据暴露给恶意...

    FB客服
  • 百度安全提出MesaTEE保护数据与隐私!

    2018年11月1日,2018百度世界大会上百度首席安全科学家韦韬博士发表了主题为《MesaTEE:可信安全的城市智能基石》的演讲。

    安智客
  • 拿什么保护你,我的区块链

    ? 被纳入新基建的区块链,以数据不可篡改、可公开监管、便于查证的特性,广泛应用于有多方参与的系统中,为多方交互的信息(行为、数据等)提供可靠的存证。那么,在信...

    腾讯技术工程官方号
  • AI落地遭“卡脖子”困境:为什么说联邦学习是解决良方?

    毋庸置疑,在业界对人工智能(AI)应用落地备受期待的时期,数据这一重要支点却越来越成为一个“卡脖子”的难题。

    AI科技大本营
  • 【学习】Intel芯片架构中TEE的实现技术之SGX初探(二)

    之前介绍过一篇intel芯片架构中SGX技术的文章: Intel芯片架构中TEE的实现技术之SGX初探 今天我们再来详细了解下。 软件应用通常需涉及诸如密码、账...

    安智客
  • 微软将为Linux 操作系统带来TEE的支持

    Google都在积极布局TEE,都积极发展自己的TEEOS,微软也不会缺席,将为Linux 操作系统带来“可信执行环境”的支持,为机密计算提供安全保障机制,并且...

    安智客
  • 姚期智提出的"百万富翁"难题被破解? 多方安全计算MPC到底是个什么鬼?

    在越来越多对数据隐私的担忧声中,政府开始行动制定数据使用合规法案。而另一方面,对数据的保护,却产生了一个矛盾:大量的数据因为需要依法保护而无法被联合在一起计算。

    区块链大本营
  • 腾讯大数据平台,要“没人管”了

    但更让人意想不到的是,它现在打算让如此海量的数据分析、处理工作,进入“无人驾驶”状态。

    量子位
  • 币聪财经-2018年度FinTech领域值得关注的5个项目

    2018年区块链领域里面诞生了无数的明星项目和团队,区块链领域的聚焦也随着大批新人的加入在快速转变,从当年的侧链到主链、公链,再到现今大家关注的联盟链。同时,区...

    币聪财经
  • 可信执行环境的定义及实现形态

    一般认为,最早给出可信执行环境定义的是OMTP(Open Mobile Terminal Platform)这个组织,其在2009年其在《omtpadvance...

    安智客
  • 快速上手联邦学习——腾讯自研联邦学习平台PowerFL实战

    导语:近10年,机器学习在人工智能领域迅猛发展,其中一个关键的推动燃料就是人类社会积累的大量数据。然而,尽管数据规模在总体上快速增长,绝大部分数据却分散在各个...

    腾讯大数据
  • 「腾讯大数据-天工」问世,鹅厂想用AI给大数据平台做自动驾驶系统

    十年演进,腾讯大数据第四代数智融合计算平台「天工」终于问世,它有什么过人之处? 本文转载自:机器之心 作者:蛋酱 上世纪 80 年代,姚期智教授曾在一篇文章中...

    腾讯大数据
  • 边缘计算研究热点地图

    目前,在“google scholar”上使用“edge computing”进行搜索可以找到 3,830,000 条记录,可见边缘计算发展之迅猛。本文主要结合...

    边缘计算

扫码关注云+社区

领取腾讯云代金券