微软Azure基因组解决方案
1.基因组数据处理的基本过程
样本进入NGS实验室后,通常经过如下四个步骤:
(1)样本接收
唾液样本或者血液样本进入实验室后,首先要进入样本库进行初步质量判断,并冷藏保存。
(2)核酸提取
(3)文库构建
(4)上机测序
测序完成后,对原始数据分析通常包括三个步骤[1]:
第一阶段(Primary)
对样本进行生化分析并产生原始数据。在实验室中使用Illumina and Thermo-Fisher的设备完成。测序仪将DNA复制并打碎进行分析,整个过程包括生化,光学,电子学,图像处理等。由于在读取碱基过程中可能会产生错误,每个读取都会有一个qc值(quality score)。该阶段会产生约60G的压缩原始数据(按照30X计算)。
第二阶段(Secondary)
进行序列对齐(align)和序列对比(variation)等步骤。这个阶段由于基因组数据比较大,需要大量的计算资源。序列对齐使用BWA工具,序列对比使用GATK工具。
第三阶段(Tertiary)
使用大量不同的工具和数据库,根据实际场景对第二阶段的数据进行分析,场景包括进化保护,蛋白质结构,药物响应,疾病风险,基因相互作用。
2.解决方案整体架构
符合ISO 27001,HIPAA要求
(1)客户端msgen
客户端工具,通过该工具上传基因数据。采用Python pip即可安装。
(2)服务控制器
一个分布式C# Web应用,接收API请求,队列调度,管理Azure Batch中的所有机器的运行。当batch中的任务在执行时,该服务还负责下载参考数据和输入文件,并负责将结果文件保存到云存储中。
(3)SNAP引擎
为每一个样本调度IO和计算资源
BWA MEM序列对齐工具:该工具通过高性能异步IO子系统,多核计算密集型调度系统,低磁盘IO等方法提高了性能。
GATK流水线优化:
SNPA引擎将标准GATK流程进行了归并,减少了IO操作,从而大幅提高性能。
(4)扩展性
整个架构可以并行处理成百上千个基因样本,每个样本都使用独立的虚拟机即可完成。
如果需要体验整个流程,可以根据[2]的指南进行在线体验。
3.集成的第三方解决方案(参考以前的分析文章)
DNANexus[3]
BC [4]
参考
1.https://azure.microsoft.com/en-us/resources/accelerate-precision-medicine-with-microsoft-genomics/
2.https://docs.microsoft.com/en-us/azure/genomics/
3.https://enterprise.microsoft.com/en-us/customer-story/industries/health/genomics/dnanexus-launches-platform-microsofts-azure-cloud-stanford-university-first-customer/
4.https://enterprise.microsoft.com/en-us/customer-story/industries/health/genomics/codigo-bc-platforms-microsoft-partner-build-commercial-repository-latin-american-genotype-data/
领取专属 10元无门槛券
私享最新 技术干货