跨物种进化研究必备的‘单拷贝直系同源基因’如何查找

文章来源：企鹅号 - 组学生物

通过对直系同源基因的研究，我们可以发现不同物种之间的进化关系，如利用直系同源基因序列构建系统发育树。

如果大家搞不清直系同源基因与旁系同源基因的区别，我们可以用一张图来清楚地说明。

那如何来查找这些基因呢？这就要用到OrthoMCL这个软件了。

OrthoMCL介绍

OrthoMCL (http://orthomcl.org/orthomcl/) （v2.0版本）是现在用的最多的一款来找直系同源基因（Orthologs）以及旁系同源基因 (Paralog) 的软件。

根据官网的教程需要十多步来完成整个运行流程，但是绝大部分的工作都有代码可以用，按照他的步骤来，还是很省心的。话不多数，接下来就以蛋白质序列为例，详细介绍Orthomcl的使用。

辅助模块

Orthomcl需要的linux详细配置，简单叙述。

系统：unix

BLAST：我们推荐NCBI的 BLAST，

Database：oracle 或 mysql，下文我们选择mysql来进行阐述.

Hardware：内存4G，硬盘100G

MCL程序

软件安装

（1）Mysql安装

Orthomcl需要用到数据库，对数据库不太了解也没关系，只要能够安装好数据库、并使用简单的几条SQL语句就可以了，较复杂的工作都有程序直接完成。具体安装过程就不说啦。

（2）安装mcl

下载地址在http://www.micans.org/mcl/src/mcl-latest.tar.gz，自动获取最新版。

#注意出现make[] Nothing to be done for '***'

make[] leaving directory '***'

不是make错误！make时最好用root权限，即在make前加sudo

（3）安装Orthmcl：

使用以下命令解压：

解压完成后的文件夹下包括bin config doc lib 四个文件夹，可以将bin目录加到环境变量里，方便以后操作：

之后可以在Orthomcl software主文件夹或其它地址下创建文件夹作为工作目录，这里以官网文档的my_orthomcl_dir为例。把/doc/OrthoMCLEngine/Main/orthomcl.config.template文件复制到my_orthomcl_dir下，命令如下：[路径：解压后的orthomclSoftware-v2.0.9]

修改orthomcl.config：

具体操作

具体操作步骤包括创建数据库、转换序列格式、过滤、比对、解析结果和聚类等步骤，详细说明如下：

（1）创建数据库并建表

这一部分就是依据刚才配置的config文件，对mysql进行配置，在数据库里建立一些空表，Note：在做这步前，请先在你的mysql中新建一个数据库，如create database orthomcl，下面我就使用这个数据库来操作数据。

（2）格式化orthomcl输入文件

我们使用多个物种所有基因的蛋白质序列查找同源基因，数据来源于转录组或数据库下载。该步将会将你的pep文件转换为orthmcl所要求的文件，其实也就是一个改写的过程，格式要求为如下：

例如：

使用orthomclAdjustFasta程序可以把fasta格式的序列文件转换成orthomcl的标准格式，转换格式前先在my_orthomcl_dir目录下创建名为compliantFasta的文件夹，命令如下：

执行完上述命令后，产生的文件为hsa.fasta存放在compliantFasta目录下。compliantFasta文件夹下存放各个物种的蛋白组，如Hsa.fasta Dha.fasta Ali.fasta Kla.fasta......

（3）过滤序列

使用orthomclFilterFasta命令对compliantFasta文件夹下的序列进行过滤，orthomcl的推荐规则是允许protein序列最短长度为10，stop coden占的最大比例为20%，命令会在my_orthomcl_dir目录下产生goodProteins.fasta和poorProteins.fasta，goodProteins.fasta文件中包含所有comliantFasta文件夹下经过筛选的物种蛋白组。

（4）blast比对

用goodProteins.fasta建库，并与自身比对。由于数据量较大，比对时间可能会比较长，一两天都是正常的，小伙伴们请耐心等待！

（5）处理blast产生的结果

#使用orthomclBlastParser命令引入compliantFasta文件夹下文件，生成similarSequences.txt文件，找出相似性序列，输出文件从第1列到第8列分别是：query_id, subject_id, query_taxon, subject_taxon, evalue_mant, evalue_exp, percent_ident, percent_match。

（6）相似性序列载入mysql数据库

（7）寻找成对蛋白质

（8）将数据从mysql数据库中导出

此命令会在my_orthomcl_dir下生成一个mclInput文件和一个pairs文件夹，pairs文件夹下包含coorthologs.txt和inparalogs.txt和orthologs.txt三个文件。

（6）（7）（8）三步是对数据库的操作，不懂没关系，照做就可以了。

（9）使用mcl对pairs进行聚类

（10）提取mcl的结果，生成group.txt文件

至此orthomcl程序运行完毕，产生的groups.txt即为即为最终结果文件，可对其进行各种数据操作，例如提取单拷贝的直系同源基因，只需要判断同源组中包含研究的所有物种，且每个物种都只有一个基因，这样的就是一组单拷贝的直系同源基因啦。

参考文章：

http://www.plob.org/2012/06/12/2207.html

http://www.plob.org/2013/09/18/6174.html

http://blog.sina.com.cn/s/blog_7f1542270102wbxc.html

科技服务事业部文案

图片源于网络侵删

发表于: 2018-03-212018-03-21 18:00:55
原文链接：http://kuaibao.qq.com/s/20180321A1B6C200?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

跨物种进化研究必备的‘单拷贝直系同源基因’如何查找

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐