首先给大家简单介绍一下同源基因的概念,同源基因分为两种类型:
直系同源(orthology)和旁系同源(paralogy)。直系同源因物种形成(speciation)而被区分开(separated):若一个基因原先存在于某个物种,而该物种分化为了两个物种,那么新物种中的基因是直系同源的;旁系同源的序列因基因复制(gene duplication)而被区分开(separated):若生物体中的某个基因被复制了,那么两个副本序列就是旁系同源的。通过文字描述可能还是不能够对直系同源与旁系同源进行区分,接下来通过图片来进行说明,如下图所示:
(图中小鼠的α球蛋白和β球蛋白是一对旁系同源对,小鼠的α球蛋白和鸡的α球蛋白就是一对直系同源对)
如何使用Ensembl网站查找同源基因
首先进入Ensembl(www.ensembl.org)主页,界面如下所示:
在红框中的搜索栏里输入想要查找的基因,这里我们输入人的MYH9基因,然后点击回车进入搜索结果界面,结果界面如下:
点击红框中的第一条搜索记录进入MYH9基因的信息界面,结果如下:
左边红色框中显示的是MYH9基因具体信息, 右边是对MYH基因位置、Gene ID、基因名字等一些简单信息的显示,而我们要找的同源基因信息就包括在左边的信息栏里,接来我们点击左边信息栏里的Orthologues,如下图所示:
点击之后,就进入MYH的直系同源基因信息页面,具体页面如下所示:
点击红框中的Download orthologues进入MYH9的直系同源基因下载界面,具体如下:
由图可知,ensembl总共支持11中格式的序列下载,分别是CLUSTALW、FASTA、Mega、MSF、Nexus、OrthoXML、Pfam、Phylip、PhyloXML、PSI、Stockholm,可以适用于不同的软件,我们选择最常规的FASTA格式进行下载,然后在FASTA格式里选择 Unaligned sequences – proteins 这一项,之后点击红框中的 Download 按钮对MYH9基因的同源基因的蛋白序列进行下载。下载完成后会生成一个文件名是Human_MYH9_orthologues.fa的文件,结果部分截图如下所示:
下载旁系同源基因的方式和下载直系同源的基因方式一样,不同的地方就是点击左边信息栏里的Paralogues,这里就不在赘述了。另外值得注意的是如果左边信息栏里的Orthologues或者Paralogues是灰色则说明该基因不存在直系同源基因或者旁系同源基因。
可能有人会问只有序列怎么通过ensembl寻找同源基因,这个可以通过Ensembl的BLAST/BLAT功能来寻找序列对应的基因,BLAST/BLAT功能的位置在下图的红框中进行标出:
最后简单介绍一下Ensembl网站,以上分析用到的网站是Ensembl的主网站,里面主要收录的是脊索动物的数据,它还有其他5个子网站,分别是Ensembl Bacteria、Ensembl Fungi、Ensembl Plants、Ensembl Protists、Ensembl Metazoa。大家如果在主网站找不到自己想要下载同源基因的物种,可以在这些子网站寻找自己研究的物种,然后进行同源基因的下载。