打造“基因界的谷歌”?今天为你细细揭晓国家基因库“生命大数据平台”

自人类基因组计划于本世纪初宣告完成,生命科学进入了大数据驱动的全新发展时期。

随着全球范围内的数据爆炸,各色数据库纷然林立。然而,高质量信息的搜集,有时却变成了数据海洋中的披沙寻金;要发文章,组学数据常得漂洋过海“寄人篱下”;检索下载、归档存储、计算分析等,常需跨越多个平台,涉及多个领域时更是加倍复杂。

如果能在同一个平台上整合多个研究领域的资源、精准的搜索引擎、强大的应用服务,无疑将带来巨大的便利。

因此,国家基因库推出了生命大数据平台CNGBdb(China National GeneBank DataBase)——一个提供生物大数据共享和应用服务的统一门户。

CNGBdb门户

多库融合,一站解决多重需求

知识搜索、数据归档

计算分析、数据可视化

资源共享、管理授权

CNGBdb由大数据和云计算技术加持,且对所有用户免费开放。它以统一门户为用户一站式解决“搜”、“存”、“算”、“用”全部需求,因此被称为“基因界的谷歌”。

此外,依托国家基因库对生物数据的“存”、“读”、“写”联动,CNGBdb将样本元数据与生物样本甚至活体信息相关联,因此数据可以在“生物活体——生物样本——生物信息数据”全过程中进行追溯,实现综合数据的全贯穿。

30亿+条数据,你要找的或许就在这里

海量信息,极速检索

CNGBdb整合了来自国家基因库、NCBI(美国国立生物技术信息中心)、EBI(欧洲生物信息研究所)、DDBJ(日本DNA数据库)等国际平台的数据,覆盖母婴健康、肿瘤、动植物多样性、病原微生物等十几个研究领域,形成一个超大型的科研数据系统。

CNGBdb

科学数据库

搜索引擎专为生物垂直领域打造,由AI驱动,支持全文检索、中文关键词和秒级响应。文献、变异、基因、蛋白质、物种等12类子数据封装成为结构统一的“节点”,再通过API互联,实现30亿+索引、10TB+元信息的互联。因此检索时关联信息一目了然,筛选效率轻松翻倍。

让传数据像传照片一样简单

批量归档,免费存储

对于不少科研单位来说,科研数据的管理是件麻烦事:一来,经费有限,无论是自购存储设备,还是选择商用服务,都是一笔不小的开支;二来,没有专人负责数据管理,人员流动容易导致管理断层;再者,如果备份在国外数据库,数据量大、网速慢,下载又是个问题。

CNGBdb旗下的国家基因库核酸序列归档系统(CNSA)使这些问题迎刃而解。CNSA是一个安全、省心的“数据管家”。它提供免费的国内存储空间、英汉双语界面、1Gb带宽,操作便捷,上传和下载速度快,还支持在线批量递交及审编——国内可是独一家。另外,递交的每条科学数据都会获得一个“身份证号”——DOI(数字对象标识符)标识,方便检索、追踪和引用,提高数据的曝光率和引用率。

CNSA

截至2018年10月,CNSA累计支撑了 2,997个科研项目,归档数据量将近600TB,预计到2019年将超过1PB。

“就地”分析 科研利器

高性能混合计算池

CNGBdb基于底层归档数据,搭建起分布式高性能计算平台,部署了BLAST、癌症大数据分析、病原鉴定分析等应用服务。参考数据集来源广泛,可自由选择。CNGBdb 会定期更新优秀的数据集,其他用户递交到CNSA的公开数据集也可使用。

CNGBdb BLAST(Basic Local Alignment Search Tool)是最值得推荐的应用之一。它整合了NCBI 最新的nt、nr库,且拥有CNGB独有的千种植物转录组数据集、万种鸟基因组项目数据集、全球最大免疫序列数据集,包含564,057,891条免疫序列,方便用户在核酸/蛋白质序列库中进行序列的搜索对比。

CNGBdb BLAST服务

安全

要开放共享,也要安全保障

全生命周期的安全管理

国家基因库将信息安全视为重中之重,建立了完整、严格的数据安全和隐私保护体系。CNGBdb也将数据全生命周期的安全管理贯彻始终。

采集安全

将采集到的数据与递交单位和个人一一关联,确保数据来源安全可信,并采取数据质量控制方法和制度来剔除低质量数据。

存储安全

采用多中心、多副本、多节点、分布式的形式存储元数据和数据文件,降低数据存储压力,减少数据泄密风险。

此外,国家基因库通过了ISO/IEC27001:2013信息安全管理体系现场评审和可信云云服务数据保护能力评审,为数据提供有力的安全保护。

传输安全

采用数字证书和非对称加密的办法,保障数据传输的安全性。

使用和共享安全

采用统一用户注册管理系统对用户的访问和使用权限进行分级管理,确保数据使用和共享安全。同时,对敏感数据进行匿名化处理,以保护用户隐私。

安全销毁

定期对磁盘进行检查;对于需要销毁的数据,采取全0/全1/随机码/国家安全标准四个等级的方式进行销毁。

全方位的安全保护,既是CNGBdb对用户的承诺,也是国家基因库对国家宝贵遗传资源的责任。

数据管理,有序共享

国家基因库数据受控中心为用户提供CNGBdb受控数据的审批、授权和分发服务。用户检索到受控项目中可公开的元数据后,可以提交数据访问申请,通过审批授权后,便可在规定期限内下载和使用。

受控数据访问权限申请流程

可视化,让数据活起来(开发中)

CNGBdb采用多种技术对生命数据进行多维度的可视化,比如用进化树展示不同物种的数据及进化关系。值得期待的是,CNGB将与Apollo合作,应用JBrowse Apollo展示基因、变异等信息,比较其在不同人群中的频率分布。同时,用户还可以自定义数据集,并用即时协作的方式进行基因组注释编辑,实现实时共同分析。

CNGBdb致力于为基因界科研工作者整合数据资源、疏浚流通渠道、提升信息和工具的易用性,帮助更多人利用大数据的优势提升科研效率。

现在访问CNGBdb生命大数据平台,看它如何化繁为简、化难为易,为你带来怎样的惊喜:

扫码访问CNGBdb生命大数据平台

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181218A1G5Z700?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券