文章/答案/技术大牛

发布

Igblast的安装与使用

文章来源：企鹅号 - 生信菜鸟团

IgBlast是NCBI设计开发的一种专一的blast工具，特定用于比对抗体（ immunoglobulin ，IG）或T细胞受体（ T cell receptor，TR）序列。

IG和TR的结构类似，都是由2条轻链和2条重链构成，每条链可以分为可变区（variable domain）和恒定区（constant domain）。可变区还可以进一步分为骨架区（FR）和互补作用区（CDR）。

IG或TR识别抗原的关键在于可变区的高度可变性，这种可变性是由“基因重排”机制产生。

人类的抗体或TR序列主要有3个基因座位编码：

IGH：The immunoglobulin heavy locus，位于染色体14，包含重链的染色体序列

IGK：The immunoglobulin kappa (κ) locus ，位于染色体2，包含部分轻链序列

IGL：The immunoglobulin lambda (λ) locus ，位于染色体22，包含剩余的轻链序列

这3种类别的轻链和重链也有多种基因片段组成，每个片段有多种拷贝，这些拷贝之间的重排就形成了繁复多样的IG和TR。

对于重链而言：包含2个恒定区基因序列 Cμ 和Cδ、 44 个V基因、27 D基因、 6 个J基因。

对于轻链：包含2个恒定区基因序列 Cμ 和Cδ，以及多个V、J基因，但是没有D基因。

IgBlast可以识别一个IG或TR序列的原始V、D、J基因，分析这三种基因的结合细节、找到FR和CDR的边界。Blast程序也可以进行IG或TR比对，但是由于IG或TR序列的特殊性，如不同的基因特征长度，D基因至多10bp而V基因可达290bp，因此一个IG或TR其实需要多种不同参数的Blast程序进行比对，最后手工合成比对结果，不但繁琐而且易出错，但是使用IgBlast就可以快速高效的完成序列比对。

Igblast的安装

同Blast一样，IgBlast也可以使用网页工具https://www.ncbi.nlm.nih.gov/projects/igblast/，使用方法同Blast大同小异。

而这里主要是说的本地化IgBlast的安装，以human的IG序列比对所需要的Igblast安装配置为例。

1. 下载并解压igblast，并检查文件的md5

2. 下载所需要的optional_file文件及internal_data

IgBlast的安装必须有V(D)J基因数据库文件和 internal_data文件。V(D)J基因数据库文件使用IMGT数据库（见第3步）。

可选的文件是optional_file，optional_file是用于注释V基因的类型及编码区开始、结束位置等信息。

3. 下载并配置IMGT数据库

这里是human的数据库安装，其他物种类似。IMGT数据库的配置需要4步：

下载

IgBlast的README文件中注明可以在http://www.imgt.org/IMGT_vquest/share/textes/ 下载IMGT数据库，而实际上这个页面已经失效了。

正确的地址是http://www.imgt.org/download/V-QUEST/V-QUEST_reference_directory。

合并文件

将多个V基因文件合并成一个V基因文件，J做同样处理，D只有一个，不需要合并。

修改序列名

使用NCBI提供的edit_imgt_file.pl将数据库文件中的序列名称从IMGT注释修改为基因名称。

edit_imgt_file.pl文件的地址为ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/edit_imgt_file.pl

创建blast数据库

使用makeblastdb将V(D)J数据库创建为blast数据库，这个工具在igblast安装包解压后的ncbi-igblast-1.8.0文件夹下。

运行后就会产生18个数据库文件，V、D、J各6个。

具体过程如下：

Igblast使用

有以下人源BCR序列，使用igblast比对工具查看其由哪一个V,D,J基因重排而成：

1. 比对过程：

先将上述序列保存为BCRseq.fa文件，然后使用./igblastn进行比对即可。

比对命令为./igblastn -query BCRseq.fa -show_translation -outfmt 3。

igblastn命令有以下参数与注意事项：

由于已经将IGMT数据库文件的文件名指定为了human_gl_V、human_gl_D、human_gl_J的标准形式，不需要再使用-germline_db_V -germline_db_D -germline_db_J用于指定V、D、J的数据库文件。

使用optional_file（aux扩展名）可以找到v基因的编码区开始位点、J基因类型以及CDR3结束位点。需要将optional_file文件放置于optional_file文件夹下，否则需要使用参数-auxiliary_data指定aux文件所在。

-organism 指定物种，默认是human

-ig_seqtype 指定TR代表进行TR比对，需要TR数据库

-show_translation 显示翻译的蛋白质序列

-domain_system 可以指定kabat与imgt

-outfmt输出格式，有三种格式3、4、7

2. 具体操作如下：

3. 结果

默认每个基因会输出3个最佳的比对序列，从图示可以看出此序列是抗体的重链（有D基因），最可能的V、D、J基因为IGHV1-69*06、IGHD3-16*01、IGHJ4*03。

输出结果中还有很多其他细节。

image-1

参考资料

IgBlast Tools. https://www.ncbi.nlm.nih.gov/projects/igblast/

IgBLAST: an immunoglobulin variable domain sequence analysis tool. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3692102/#gkt382-B2

V(D)J recombination. https://en.wikipedia.org/wiki/V(D)J_recombination

还有更多文章，请移步公众号阅读

生信技能树公众号二维码

如果你生信基本技能已经入门，需要提高自己，请关注上面的生信技能树，看我们是如何完善生信技能，成为一个生信全栈工程师。

如果你是初学者，请关注下面的生信菜鸟团，了解生信基础名词，概念，扎实的打好基础，争取早日入门。

生信菜鸟团公众号二维码

发表于: 2018-01-192018-01-19 22:06:43
原文链接：http://kuaibao.qq.com/s/20180119G0ZCWK00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Igblast的安装与使用

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐