微软Azure基因组解决方案

微软Azure基因组解决方案

1.基因组数据处理的基本过程

样本进入NGS实验室后,通常经过如下四个步骤:

(1)样本接收

唾液样本或者血液样本进入实验室后,首先要进入样本库进行初步质量判断,并冷藏保存。

(2)核酸提取

(3)文库构建

(4)上机测序

测序完成后,对原始数据分析通常包括三个步骤[1]:

第一阶段(Primary)

对样本进行生化分析并产生原始数据。在实验室中使用Illumina and Thermo-Fisher的设备完成。测序仪将DNA复制并打碎进行分析,整个过程包括生化,光学,电子学,图像处理等。由于在读取碱基过程中可能会产生错误,每个读取都会有一个qc值(quality score)。该阶段会产生约60G的压缩原始数据(按照30X计算)。

第二阶段(Secondary)

进行序列对齐(align)和序列对比(variation)等步骤。这个阶段由于基因组数据比较大,需要大量的计算资源。序列对齐使用BWA工具,序列对比使用GATK工具。

第三阶段(Tertiary)

使用大量不同的工具和数据库,根据实际场景对第二阶段的数据进行分析,场景包括进化保护,蛋白质结构,药物响应,疾病风险,基因相互作用。

2.解决方案整体架构

符合ISO 27001,HIPAA要求

(1)客户端msgen

客户端工具,通过该工具上传基因数据。采用Python pip即可安装。

(2)服务控制器

一个分布式C# Web应用,接收API请求,队列调度,管理Azure Batch中的所有机器的运行。当batch中的任务在执行时,该服务还负责下载参考数据和输入文件,并负责将结果文件保存到云存储中。

(3)SNAP引擎

为每一个样本调度IO和计算资源

BWA MEM序列对齐工具:该工具通过高性能异步IO子系统,多核计算密集型调度系统,低磁盘IO等方法提高了性能。

GATK流水线优化:

SNPA引擎将标准GATK流程进行了归并,减少了IO操作,从而大幅提高性能。

(4)扩展性

整个架构可以并行处理成百上千个基因样本,每个样本都使用独立的虚拟机即可完成。

如果需要体验整个流程,可以根据[2]的指南进行在线体验。

3.集成的第三方解决方案(参考以前的分析文章)

DNANexus[3]

BC [4]

参考

1.https://azure.microsoft.com/en-us/resources/accelerate-precision-medicine-with-microsoft-genomics/

2.https://docs.microsoft.com/en-us/azure/genomics/

3.https://enterprise.microsoft.com/en-us/customer-story/industries/health/genomics/dnanexus-launches-platform-microsofts-azure-cloud-stanford-university-first-customer/

4.https://enterprise.microsoft.com/en-us/customer-story/industries/health/genomics/codigo-bc-platforms-microsoft-partner-build-commercial-repository-latin-american-genotype-data/

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180702G1BA9600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券