如果说我看得比别人远些,那是因为我站在巨人的肩膀上(牛顿语录)。在我们科研的道路上,除了自己努力实验,数据库对我们而言就是巨人的肩膀,整理好的数据,分析可视化的图表甚至拿来就可以用于文章发表。但是数据库太多,哪里去找我们所需要的数据库呢,或者说有没有什么一劳永逸收集所有数据库呢。大多时候,只知道几个耳熟能详的数据库,比如肿瘤领域的TCGA,Oncomine,cBioportal等,但是数据库都各有优劣,怎么找到最合适的来解决自己的科研问题。
今天在这里向大家介绍一个收集了上万个(截至目前其中收集了12938个软件与数据库)生信工具的数据库:bio.tools,其中应有尽有(不仅仅局限于生信数据库,还包括bioconductor中的R程序包),我们不需要也不可能学会所有,只需要知道需要什么到哪里去找就足够了。正所谓授人以鱼不如授人以渔。
接下来,请看小编具体介绍bio.tools。
1
bio.tools是什么?
bio.tools背后团队来源于欧洲的一个政府间组织the European Infrastructure for Biological Information(ELXIR), 这个组织主要的工作就是希望能够协调整合以及维护所有组织成员国内的生物信息学数据和各种资源,因为是非盈利组织,所以所有的数据库工具的使用都是免费的。
bio.tools官网https://bio.tools/
2
如何运用bio.tools
Bio.tools将收集维护的所有资源分类整理为Genetics(基因)/Proteins(蛋白)/Nucleic acids(核酸)/Sequence analysis(序列分析)/Structure analysis(结构分析)/Omics(组学)/Other(未分类其他)七大类,每一大类下面有分为若干小类(下面以Genetics(基因)为例)
我们可以看到,每一类都有简单的介绍,比如Genetics类别中收录的主要是有关基因结构,基因拷贝数变异,以及基因表达调控等的数据库与工具。下面又具体分为了16个小类,我们在这选择表格中Gene expression 进入如下界面:
2.1
摘要型界面展示
界面详细介绍:
(1)收集的有关基因表达有关的数据库与工具共计1168个
(2)收集的数据库与工具的排序方式,比如此处默认的按自带的评分排序(另外的排序方式包括-按数据库/工具名字排序,按被引用的次数排序,按被文献报道的时间先后顺序排序)
(3)数据库/工具的介绍(支持的操作平台-Linux,windows,mac与该数据库/工具相应的功能介绍),点击可以直接进入对应的官网
(4)与该数据库/工具类似的工具集合
(5)界面显示方式(上图以紧凑型摘要的形式展示/Compact,也可以选择以详细列表形式展示/Detail,如下)
2.2
详细列表型界面展示
界面详细介绍:
⑴ 数据库/工具名
⑵ 数据库/工具详细描述
⑶ 官网链接
⑷ 工具类别(数据库,命令工具-如R,python,C)
⑸ 数据库/工具的分类属性(基因表达,基因预测,蛋白结构分析等)
⑹ 数据库/工具有关的文献及引用次数
⑺ 开发维护数据库/工具的背后团队(有疑问可以邮件咨询)
⑻ 数据库/工具的应用场合(基因差异表达分析,基因集富集分析等)
⑼ 与数据库/工具对应的使用手册
⑽ 支持的语言平台(R,python,C)
⑾ 若是命令工具还支持源代码下载
⑿ 界面菜单栏(此处是自定义的一些有关数据库/工具的实用菜单栏,可以自定义其他子菜单)
2.3
关键词搜索
当你不知道具体有什么数据库/工具包可以帮助自己时,可以直接以关键词搜索,特别方便,比如TCGA搜索,搜索到有关的工具包(此处选择TCGAbiolinks 一个R语言包)
3
总 结
本文向大家介绍了一个收集了各个生信数据库工具的网站,该网站相比于类似其他同类的数据库如omicX(官网 https://omictools.com/),HSLS(官网 https://www.hsls.pitt.edu/obrc/),NAR(官网 http://www.oxfordjournals.org/nar/database/a/)有如下特点:
❶ 所有的数据公开:可以用这些数据集进行符合开源协议的二次开发;
❷ 所有网站的源代码开源:可以去GitHub上提交issue 和查看最新动态;
❸ 所有人都可参与:注册后可以按照规定格式自行提交尚未收录的工具;
❹ 工具唯一标识:所有资源分配有唯一ID,方便和其他工具整合以及交叉使用;
❺ 资源描述有严格标准:涉及到的主题操作数据以及格式等描述都有明确的标准;
❻ 有Web API:可以使用官方提供的API进行各方便的访问和查询。
如此方便实用的网站,相信大家再也不会为找不到合适的生信工具烦恼了,剩下的就是自己花时间运用好适合自己的工具助力自己的科研。