生信云(计算)作为生物信息学发展的产物,它在生物信息学整个学科发展中起到了举足轻重的作用。生物信息学领域科研人员日常进行的数据分析工作已经和生信云紧紧联系在一起。在可以预见的几十年内,生信云将会成为云计算领域中消耗资源最多、影响力最大的方向之一。
生信云一直是我比较感兴趣的方向,2018年11月初有机会到杭州华为云走一趟,让我更想专门聊一聊生信云。这篇文章主要来源于我日常在生信云方向上的一些阅读和思考。
我们最早接触“云”这个概念(图一),大多是飘在天空上的白色物质(水蒸气),如云朵、云彩等。比如《西游记》中孙悟空踩着的筋斗云。
柯林斯词典“云”的注解:
图1 云(Clouds)
时至今日,“云”一词已经不再只是“白云”(图一),已经华丽变身为互联网行业、甚至是普罗大众都耳熟能详的计算机术语。
你对“云”有多少了解?
我理解的“云”,主要是指那些需要通过网络连接的远程服务器。用户通过网络连接远程服务器,就可以利用那些不在本地设备(比如个人PC、手机等)上的数据和程序,完成更复杂的计算或者任务。
云计算是可配置式计算机系统资源和更高水平服务的共享池,可以通过最少的管理工作快速配置,并通常通过互联网连接。云计算依赖于资源共享来实现一致性和规模经济,类似于公用事业。---维基百科
“云计算”是一个真正的网红词汇,早在2011年,就已经在互联网上被使用超过4000多万次。“云计算”最早是在1996年被提出。你可以想象当时的场景,在美国得克萨斯州一间小办公室(半导体制造商Compaq Computer公司),一小群技术极客正在策划互联网业务的未来:“云计算”。转眼到2006年,亚马逊公司当时推出的弹性计算服务器,使得“云计算”真正的开始普及,并开始被广泛使用。
主要的云计算服务模式:
详细信息参见:Wiki百科。
主要的云计算部署类型:
私有云是专为单个组织运营的云基础架构,无论是内部管理还是第三方管理。如果服务是通过公开网络,则被称为“公共云”。公共云服务可能是免费的(比如一些商业公司提供的免费存储空间或者计算资源)。
混合云是两个或多个云(私有云,社区云或公共云)的组合,它们保持不同的实体但绑定在一起。组织/用户可以将敏感的客户端数据存储在私有云,不敏感的数据存储在公共云,私有云的应用程序也可以单向和托管在公共云服务器上的应用程序进行互联通讯。
医院大多会选择私有云或混合云进行部署云计算资源,病人相关的敏感数据大多会存放在严格保护的医院内部私有云上并完成数据分析过程。不过,当高通量测序技术真正成为临床检测中的常规技术之后,这些基因数据对存储和计算的资源需求将会远远超出目前各个医院所采购/将要采购的私有云硬件设施。在国外,部分Top级医院已经开始利用公共云存放、计算和共享病人脱敏的测序数据(如全基因组等):大型生信云平台(图二)。
图二 美国圣述德儿童医院 St. Jude Cloud (共享超过5000例儿童癌症全基因组、6000例外显子、1500例RNA-seq数据),DOI: 10.1158/1538-7445.AM2018-922
生信云是云计算市场中必不可少且增长速度最快的部分之一,是云计算行业最具实际应用价值的方向之一:承担人类疾病数据的存储、数据挖掘和知识转化。
生信云主要面向的是生物学、医学等生命科学领域,涉及到生物信息学数据存储和分析的各个方面,比如基因序列数据的压缩技术、基因序列的质量控制、比对、组装、查询、基因组序列和结构变异的检测和注释、mRNA转录本定量、融合基因检测、可变剪接检测、基因组/转录组/表观组关联分析等等。图三和图四从Omictools截取了一部分生物信息学分析应用。
图三 Omictools DNA 序列分析应用
图四 Omictools RNA 数据分析应用
用户在生信云上的需求非常广泛,其中数据存储/管理、数据分析应用是用户两个最主要的应用层需求方面。
图五 Omictools 基因序列压缩应用
生信云生态是生信云技术发展所依赖的土壤。和自然生态、社会生态一样,生信云的发展、进步离不开一个良性发展的“生态系统”,好的生信云生态将有利于整个行业的发展。
下面列了一些比较大型、免费的数据/分析软件共享仓库:
这些数据库/网站已经极大的改善了生物组学数据/工具的共享和分发。不过,目前科研人员利用这些平台的数据/软件仍然需要拷贝/下载到自己的服务器上。期待在未来,这些数据可以同步、分散存放在全球按国家/地区建设的几大数据中心(公共云),科研人员通过公共云平台进行数据挖掘,减少数据传输的外网带宽占用,减少原始数据的存储硬盘消耗。
除了数据共享和数据的存储,数据分析流程的质量控制以及数据的重分析也都是我们必须要面对的问题。
有多少研究组/机构会对自己的生物信息学分析流程进行质量控制和管理?使用标准化,经过质量控制的数据分析流程对最终结果的重现性和准确性至关重要。
有多少研究组/机构会有计划地、系统地、规范地重分析自己几年前的数据(特别是疾病相关的数据)?综合的数据重分析和再利用有利于验证之前的分析结果和发现新的知识,比如TCGA项目组开展的Pan-cancer项目就是肿瘤学数据重分析项目最好的例子。