专访北京基因组研究所生命与健康大数据中心建设参与者-李萌伟

人物介绍

李萌伟,中国科学院北京基因组研究所2015级硕博连读研究生,生物信息学专业,师从鲍一明和章张研究员,研究方向为表观组学数据整合与分析。

在大数据的时代背景下,数据存储和数据安全成为亟待解决的问题。目前,尽管国际已经拥有NCBI, EBI和DDBJ三大数据库,但是中国作为数据产生大国,拥有自己数据存储平台已然成为一个趋势。2015年12月22日,大数据中心(BIG Data Center,BIGD)建设方案在基因组研究所开始实施,至今已经走过三年的历程,并开始开花结果。近日,北京基因组所生命与健康大数据中心在国际学术期刊核酸研究Nucleic Acids Research(NAR)杂志在线发表了七篇数据库文章。今天,让我们跟随在中心奋斗了三载的研究生李萌伟,一起走近大数据中心。

小编Q1

李萌伟师兄您好,首先恭喜我们北京基因组所的生命与健康大数据中心取得这么重大的成就。但很多同学对于大数据中心还不是很了解,师兄能给我们对数据中心做一些简单的介绍吗?

李萌伟:早在大数据中心还未正式成立之前,章张老师组就已经做了很多有关生物大数据整合的研究。但是课题组人力物力有限,面对生物数据爆发式的增长趋势,特别是国内数据大量的积累,我们很难系统地整合这些宝贵的资源。想要解决这个问题,我们需要建立一个更大的平台。事实上,国际上像NCBI和EBI这两个生物数据中心已经很有影响力了,但国内仍然缺乏一个这样的平台。早在2000年左右,北京大学罗静初老师等一批老一代生物信息学家就已经提出来要建设中国的生物信息中心,但是由于种种原因在那时候没有实现。最近十几年生物数据增长非常快,一方面,国际上NCBI和EBI已经很难承受这么大的数据的收集整理的工作;另一方面,国内提议建设国家生物信息中心的呼声越来越高。在这样的形势下,包括章张老师、赵文明老师和肖景发老师在内的一些老师开始向所里提议建设生命与健康大数据中心,所里对这个想法也非常支持。因此,2015年底,生命与健康大数据中心(BIGD)正式成立。2017年,在NCBI工作多年,拥有丰富生物数据库建设经验的鲍一明老师也回国加入BIGD。这两年BIGD在数据库建设上逐渐走向正轨,也得到了大家的认可。

小编Q2

那么生命与健康大数据中心与国际其他几个数据中心有什么异同呢?数据中心的建立对于我国生命科学研究的工作者来说有什么重要意义?

李萌伟:和国际上现有的生物信息数据中心(NCBI,EBI,DDBJ)相同是我们BIGD也是一个非盈利性的,面向科研工作者的生物数据共享平台。但是现在生物数据整合面临的问题和当时NCBI和EBI成立的时候很不一样,NCBI和EBI成立之初,人类基因组计划方兴未艾,他们建立的主要目的是收集、存储这些数据,但现在数据越来越多,简单的存储这些数据已经不能满足科研人员的需求,我们还需要将这些数据变成真正有用的知识。

此外,我们BIGD还担负着促进国内数据共享的重任,我们需要解决一些国内数据共享过程中的障碍,比如数据传输慢的问题;另外就是数据安全,现在大家越来越重视生物数据安全,数据放在自己国家更有保障。值得一提的是,我们大数据中心更加的年轻,成员的平均年龄只有30多岁,相比NCBI和EBI,我们是一个非常年轻的团队。

小编Q3

我们的大数据中心主要接受哪些类型实验数据 ?是不是以后发文章只需要把数据传到这儿就行了?

李萌伟:

最早的时候我们主打的是GSA,GSA主要收集二代测序仪下机的原始数据和样本信息。现在,我们开发了很多不同组学的特色数据库,包括甲基化,RNA编辑等数据库,因此,我们也开始接收不同类型的处理后数据。部分数据接收的接口可能还在开发,但很快就会发布,大家如果有任何需求都可以联系我们。

关于发文章,SCI杂志不要求文章的数据必须在NCBI, EBI或者 DDBJ上,他们只是要求将数据公开,大家可以下载到,数据存在哪儿都可以,BIGD是一个国际认可的数据平台,已经有非常多文章的数据放在BIGD的数据库中,这其中不乏CNS等知名期刊文章的数据,所以大家可以放心。

小编Q4

我们大数据中心近期在国际核酸期刊发表了七篇高水平文章,这也说明了我们数据中心实力 ,师兄能给我们简单介绍一下吗?

李萌伟:

从去年的四篇到今年七篇文章,我们BIGD不断突破,一方面说明我们的数据库开发做的越来越成熟,另一方面说明我们BIGD得到国际同行的认可。这七篇文章中,有一篇介绍大数据中心整体资源建设进展的文章,其它六个介绍了我们中心特色的数据库资源。值得一提的是,我们的一些数据库是与专业研究院所合作开发的,比如犬类数据库iDog是和昆动所合作的,多物种全基因组核小体定位图谱数据库NucMap是和梅奥医学中心合作的。依托我们所在表观领域的研究基础,今年我们还开发了四个表观相关的数据库,包括表观组关联分析知识库EWAS Atlas、RNA编辑与疾病知识库EDK、植物RNA编辑数据库PED和人类长非编码RNA数据库LncBook。

小编Q5

非常感谢师兄的热情解答,最后请师兄帮忙给我们的大数据中心来个宣传吧?

李萌伟:

希望更多的师弟师妹能够加入到BIGD大家庭中,我们BIGD的四位老师,鲍一名老师、章张老师、肖景发老师和赵文明老师都是非常好的导师。BIGD给我们提供了非常大的发展空间,我们每年有很多出国交流的机会。如果你对生物大数据感兴趣,BIGD是一个非常好的选择!最后,希望大家能够把自己的数据上传到我们中心,支持生物数据的共享!

文字:武帅帅 姜姗

图片: BIGD

主编:袁慎立

审核:王彩平

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181128G0RSZF00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券