首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

功能注释的终极方案

功能注释最基本最基本最基本的生物信息分析

当你拼接完一个基因组之后

想知道预测出来的几万条基因的功能

就需要功能注释

同样,拼接完转录组之后

也需要功能注释

你想做富集分析

得先知道每条基因的功能

没有?对不起,先去做功能注释

我把广义的功能注释分成两步

同源注释和功能分类

同源注释

同源注释是将要研究的序列

与已知的蛋白数据库比对

将数据库里同源基因的功能注释为该序列的功能

第一种方法是基于序列相似性

常用的软件是 Blast

常用的数据库是 Nr 或者 Uniprot

基于序列相似性的方法存在一个问题

它假设序列上的每一个碱基都是相同重要的

但事实并非如此

比如一些抗性基因

只要保守结构域还在

其他区域即使再残缺

也能身残志坚,行驶功能

所以就有了第二种基于保守结构域的注释方法

常用 HMMER 软件 + Pfam 数据库

或者 Interpro 数据库搭配自家的 Interproscan 软件

功能分类

只知道了一条序列和数据库里那一条序列最相似

这还不够

我们通常还想知道

它属于哪一个基因家族,比如 COG、KOG 家族分类

它属于哪一个Pathway,常用的是 KEGG 数据库

它在细胞的什么位置起作用,这就是 GO 分类

这一步的做法比较简单

通常 Nr、Uniprot、Pfam、Interpro 这些数据库中的蛋白的 ID

都与 GO、KEGG、COG、KOG 数据库是对应的

只需要做一个 id mapping 就可以

DIAMOND

功能注释的第一个问题是

想想一下,你要对3万条蛋白进行功能注释

需要和数据库里成百上千万条序列进行 blast 比对

着大概需要半个月

这个问题在 2015 年被解决了

一款快速的 Blast 替代软件发表在了 Nature methods

半个月的功能注释几个小时就可以搞定

他就是 DIAMOND

Blast2GO

功能注释要用到多款软件 多个步骤

这事一步步做起来并不容易

需要对各个数据库充分了解

还得有一定编程基础

于是出现了第一款傻瓜式的功能注释流程

同源注释、功能分类统统搞定

它就是 Blast2GO

但是在服务器上部署 Blast2GO 及其复杂

不懂 MySQL 的话,你就是搞不定

Blast2GO 还推出了专业版

Blast比对等工作可以在云端完成

唯一的要求就是充值

1600欧你还别嫌贵

这只是一年的价格

还只能在一台电脑上用

伤感 够买 10 年的基因课会员了

终极方案 eggnog-mapper

终于,有人看不下去了

这就是开发 eggnog 数据库的大神们

eggnog 可以理解成一个基因家族数据库

它收集了 2000 多个物种的蛋白序列

对它们进行家族的分类

相当于蛋白序列的家谱

任何一个蛋白序列 你就可以找到它在其他物种中的兄弟姐妹(同源序列)

eggnog-mapper 软件可以将你关心的序列

比对到 eggnog 数据库 进行同源注释、功能分类、一气呵成

可以说是功能注释的终极方案

Blast2GO,就问你慌不慌

使用

eggnog-mapper 有网页版和本地版

网页版以前速度很快

现在用的人多了,越来越慢了

所以 好东西不要随便告诉别人

本地版的意思就是部署到自己的服务器上使用

唯一的问题是数据库太大,下载起来比较慢

基因课的服务器上已经部署好了

如果你是基因课的学员或者租用了基因课的服务器

就可以直接使用

使用方法先参考官方文档

1个月内,我们也会推出操作视频,欢迎关注

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181015G0IY4X00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券