Igblast的安装与使用

IgBlast是NCBI设计开发的一种专一的blast工具,特定用于比对抗体( immunoglobulin ,IG)或T细胞受体( T cell receptor,TR)序列。

IG和TR的结构类似,都是由2条轻链和2条重链构成,每条链可以分为可变区(variable domain)和恒定区(constant domain)。可变区还可以进一步分为骨架区(FR)和互补作用区(CDR)。

IG或TR识别抗原的关键在于可变区的高度可变性,这种可变性是由“基因重排”机制产生。

人类的抗体或TR序列主要有3个基因座位编码:

IGH:The immunoglobulin heavy locus,位于染色体14,包含重链的染色体序列

IGK:The immunoglobulin kappa (κ) locus ,位于染色体2,包含部分轻链序列

IGL:The immunoglobulin lambda (λ) locus ,位于染色体22,包含剩余的轻链序列

这3种类别的轻链和重链也有多种基因片段组成,每个片段有多种拷贝,这些拷贝之间的重排就形成了繁复多样的IG和TR。

对于重链而言:包含2个恒定区基因序列 Cμ 和Cδ、 44 个V基因、27 D基因、 6 个J基因。

对于轻链:包含2个 恒定区基因序列 Cμ 和Cδ,以及多个V、J基因,但是没有D基因。

IgBlast可以识别一个IG或TR序列的原始V、D、J基因,分析这三种基因的结合细节、找到FR和CDR的边界。Blast程序也可以进行IG或TR比对,但是由于IG或TR序列的特殊性,如不同的基因特征长度,D基因至多10bp而V基因可达290bp,因此一个IG或TR其实需要多种不同参数的Blast程序进行比对,最后手工合成比对结果,不但繁琐而且易出错,但是使用IgBlast就可以快速高效的完成序列比对。

Igblast的安装

同Blast一样,IgBlast也可以使用网页工具https://www.ncbi.nlm.nih.gov/projects/igblast/,使用方法同Blast大同小异。

而这里主要是说的本地化IgBlast的安装,以human的IG序列比对所需要的Igblast安装配置为例。

1. 下载并解压igblast,并检查文件的md5

2. 下载所需要的optional_file文件及internal_data

IgBlast的安装必须有V(D)J基因数据库文件和 internal_data文件。V(D)J基因数据库文件使用IMGT数据库(见第3步)。

可选的文件是optional_file,optional_file是用于注释V基因的类型及编码区开始、结束位置等信息。

3. 下载并配置IMGT数据库

这里是human的数据库安装,其他物种类似。IMGT数据库的配置需要4步:

下载

IgBlast的README文件中注明可以在http://www.imgt.org/IMGT_vquest/share/textes/ 下载IMGT数据库,而实际上这个页面已经失效了。

正确的地址是http://www.imgt.org/download/V-QUEST/V-QUEST_reference_directory。

合并文件

将多个V基因文件合并成一个V基因文件,J做同样处理,D只有一个,不需要合并。

修改序列名

使用NCBI提供的edit_imgt_file.pl将数据库文件中的序列名称从IMGT注释修改为基因名称。

edit_imgt_file.pl文件的地址为ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/edit_imgt_file.pl

创建blast数据库

使用makeblastdb将V(D)J数据库创建为blast数据库,这个工具在igblast安装包解压后的ncbi-igblast-1.8.0文件夹下。

运行后就会产生18个数据库文件,V、D、J各6个。

具体过程如下:

Igblast使用

有以下人源BCR序列,使用igblast比对工具查看其由哪一个V,D,J基因重排而成:

1. 比对过程:

先将上述序列保存为BCRseq.fa文件,然后使用./igblastn进行比对即可。

比对命令为./igblastn -query BCRseq.fa -show_translation -outfmt 3。

igblastn命令有以下参数与注意事项:

由于已经将IGMT数据库文件的文件名指定为了human_gl_V、human_gl_D、human_gl_J的标准形式,不需要再使用-germline_db_V -germline_db_D -germline_db_J用于指定V、D、J的数据库文件。

使用optional_file(aux扩展名)可以找到v基因的编码区开始位点、J基因类型以及CDR3结束位点。需要将optional_file文件放置于optional_file文件夹下,否则需要使用参数-auxiliary_data指定aux文件所在。

-organism 指定物种,默认是human

-ig_seqtype 指定TR代表进行TR比对,需要TR数据库

-show_translation 显示翻译的蛋白质序列

-domain_system 可以指定kabat与imgt

-outfmt输出格式,有三种格式3、4、7

2. 具体操作如下:

3. 结果

默认每个基因会输出3个最佳的比对序列,从图示可以看出此序列是抗体的重链(有D基因),最可能的V、D、J基因为IGHV1-69*06、IGHD3-16*01、IGHJ4*03。

输出结果中还有很多其他细节。

image-1

参考资料

IgBlast Tools. https://www.ncbi.nlm.nih.gov/projects/igblast/

IgBLAST: an immunoglobulin variable domain sequence analysis tool. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3692102/#gkt382-B2

V(D)J recombination. https://en.wikipedia.org/wiki/V(D)J_recombination

还有更多文章,请移步公众号阅读

生信技能树公众号二维码

如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。

如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。

生信菜鸟团公众号二维码

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180119G0ZCWK00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券