基因大数据测序分析平台方案介绍

深度解析超存科技为基因测序数据分析领域研发的专业分布式文件存储系统,用其专业教你什么才是高效安全可靠的存储系统。

超存科技基于精准医学大数据分析的特点研发了Swarm生物医学大数据计算与存储平台,其重要优势是:超融合存储系统与超强并发文件系统(SuperSAN VSS系列)、适合于生物医学数据管理的非结构化和结构化数据管理系统(BeeHive系统)和生物医学大数据计算平台(Spider系统)。作为超存科技在生物医学领域的重要解决方案,Swarm平台自2016年推向市场以来已经有多个行业内的优秀应用案例,比如:生物医学大数据计算存储一体化平台、PB级海量的基因数据存储中心等。本期文章我们详细了解一下,Swarm计算存储平台中最核心且默默无闻的英雄:超融合存储系统与超强并发文件系统(SuperSAN VSS系列)在基因测序高性能运算中的应用案例。

基因测序数据Call Variation的Workflow

小智

通过上图,小智先带大家来了解一下基因测序数据分析的几个流程及相关的存储需求特点吧。

1. 海量大文件高性能存储,通常为PB级存储甚至EB级存储

从测序公司测序仪上下机的原始数据通常为几个GB,甚至是数十GB大小的文件,通常用户收到原始数据后需要快速存储到自己的存储系统上,而后开始对原始数据进行分析和解读。尤其是对于临床基因检测项目来说,时间就是生命,更快的传输和运算速度将意味着更快的试错和解读,给临床患者提供诊治方案。因此整个测序数据的导入过程对文件存储系统有着极高的要求,尤其是容错性、数据一致性校验、传输速度等,存储系统(含并行文件系统)必须提供超大容量的数据存储以及大容量单文件存储的支持,同时必须在有限的时间内完成大量原始数据的并行导入。且原始数据通常来自于珍贵的样本,对数据安全性要求极高,因此同时要求存储系统具有较高的数据安全保障能力。

2. 复杂的高并发文件读写

测序原始数据,通常为Fastq格式的文件导入到系统之后,需要通过各种类型生物信息学Pipeline对其进行分析,而这些Pipeline中的软件对计算资源、存储系统IO读写能力要求各不相同。且通常在运算过程中需要同时对成百上千样本数据进行分析,意味着对底层存储系统的复杂高并发读写需求。如果在计算过程中因存储故障,而导致运算中断,将意味着所有的Pipeline将要从头开始进行,浪费大量的时间的同时也将导致难以在限定时间内获得想要的解读报告,从而耽误基于基因解读报告的诊疗方案的执行。因此存储系统除了要提供高并发文件读写支持外,还需保障在存储出现故障时能够通过双活的备份存储实时替换接入到系统中,从而避免引起数据运算的中断和错误。

3. 超高的文件存储业务连续性要求

从基因测序数据分析的特点,我们可以知道,整个基因测序数据分析需要存储系统满足7*24h连续高压作业的要求,同时要求文件系统满足高并发性能要求,真正做到分析人员轮休机器运算无休无故障。一旦存储系统出现故障,整个测序数据分析就要中断,甚至整个分析的Pipeline要重新进行。可以说,连续不间断高负载高速运行就是基因测序数据分析和基因检测报告解读的根本生产力保证,因此对存储系统的高可用性和读写性能有极高的要求。

小智

接下来小智带你揭晓一下

超存科技针对基因测序应用的三个突出特点需求,提供的针对性解决方案,具体如下~

SuperSAN VSS系列存储系统承载基因测序原始数据拓扑图

首先,针对海量的基因测序原始数据导入,SuperSAN VSS系列存储控制器可以提供多链路光纤(16GB FC或56GB IB)直连到数据传输服务器,并配合传输服务器的USB3.0接口提供高速传输能力;亦可通过高速广域网传输软件实现数据的高速远程下载。

其次,同时对存储架构进行优化,将大量原始数据存储与计算存储分离。针对原始数据存储容量大不直接参与运算,无需保持持续高速并发写入能力的特点,原始数据存储池采用高速大容量机械盘,而计算存储池则采用SSD全闪存阵列或者SSD闪存盘+HDD机械盘实现虚拟化混合存储阵列,来满足高并发读写以及运算过程中大量数据读写的需求。

然后,整体的分布式服务器节点结合多个控制器的并行存储架构,最大程度地提供了整体文件系统存储的高可靠性,同时提供线上双活保证,使得任何时刻其中一套存储系统出现故障时,另外一套存储系统将无缝接入,保障了整个基因测序数据运算及基因测序数据分析系统运行的业务连续性。

最后,整个并行多活控制器的存储系统在超存自主研发的存储底层自动化数据分离归档控制器的帮助下,可以实现数据录入后自动复制到配对的归档存储系统上,无需用户干预自动实现数据的双备份或多副本归档保护,并且在存储底层提供数据一致性校验与容错保护。

小智提示

综上所述,对于基因测序这种典型的高性能运算场景,超存科技SuperSAN VSS系列存储系统的突出特点,完全匹配了基因测序数据分析应用的特殊需求。

科研资讯 尽在智汇

智汇如水

积少成多

HAPPY

来吧~扩散我,转发我,我的智友们

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180331G08HTH00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券