mkdir ~/biosoft/igblast/imgt 
cd  ~/biosoft/igblast/imgt 
wget http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/IG/IGHV.fasta
wget http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/IG/IGHD.fasta
wget http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/IG/IGHJ.fasta

简单统计是：

IGHD.fasta:44，37
IGHJ.fasta:13，6
IGHV.fasta:402，106

http://www.imgt.org/IMGTrepertoire/LocusGenes/genetable/human/geneNumber.html

数量似乎有点对不上。

具体看

>J00256|IGHJ1*01|Homo sapiens|F|J-REGION|723..774|52 nt|1| | | | |52+0=52| | |
>J00256|IGHJ2*01|Homo sapiens|F|J-REGION|932..984|53 nt|2| | | | |53+0=53| | |
>J00256|IGHJ3*01|Homo sapiens|F|J-REGION|1537..1586|50 nt|2| | | | |50+0=50| | |
>X86355|IGHJ3*02|Homo sapiens|F|J-REGION|1107..1156|50 nt|2| | | | |50+0=50| | |
>J00256|IGHJ4*01|Homo sapiens|F|J-REGION|1912..1959|48 nt|3| | | | |48+0=48| | |
>X86355|IGHJ4*02|Homo sapiens|F|J-REGION|1480..1527|48 nt|3| | | | |48+0=48| | |
>M25625|IGHJ4*03|Homo sapiens|F|J-REGION|446..493|48 nt|3| | | | |48+0=48| | |
>J00256|IGHJ5*01|Homo sapiens|F|J-REGION|2354..2404|51 nt|3| | | | |51+0=51| | |
>X86355|IGHJ5*02|Homo sapiens|F|J-REGION|1878..1928|51 nt|3| | | | |51+0=51| | |
>J00256|IGHJ6*01|Homo sapiens|F|J-REGION|2947..3009|63 nt|3| | | | |63+0=63| | |
>X86355|IGHJ6*02|Homo sapiens|F|J-REGION|2482..2543|62 nt|3| | | | |62+0=62|partial in 3'| |
>X86356|IGHJ6*03|Homo sapiens|F|J-REGION|2482..2543|62 nt|3| | | | |62+0=62|partial in 3'| |
>AJ879487|IGHJ6*04|Homo sapiens|F|J-REGION|39..101|63 nt|3| | | | |63+0=63| | |

进行多序列比对，查看它们的远近关系

比如看IGHV，就是123-129个基因，可以分成3大类和7小类：

clan I: IGHV1, IGHV5 and IGHV7 subgroup genes
clan II: IGHV2, IGHV4 and IGHV6 subgroup genes
clan III: IGHV3 subgroup genes

这些基因都拥挤在狭小的染色体片段上面：

All the IGHV genes are in a fully sequenced contig which comprises the following accession numbers:

AB019437 (200000 bp): IGHV(III)-82 to IGHV(II)-60-1
AB019438 (200000 bp): IGHV3-60 to IGHV4(II)-40-1
AB019439 (200000 bp): IGHV7-40 to IGHV3-21
AB019440 (200000 bp): IGHV(II)-20-1 to IGHV2-5
AB019441 (157090 bp): IGHV4-4 to IGHV6-1

因为IGHV序列太多，比对起来耗费时间，我这里就举例IGHJ，如下：

IGHV序列比对结果

可以看到，它们不同序列的差异很微弱，都集中在开头的几个碱基，其中IGHJ6跟另外的5类差异最大。

大家觉得该如何可视化上面的结果呢？

library(Biostrings) 
library(msa)
library(ggtree)
library(seqinr) 
mySequences <- readDNAStringSet('IGHJ.fasta')
mySequences
myAlignment <- msa(mySequences)

欢迎邮件交流你的可视化想法，发到我的邮箱 jmzeng1314@163.com

比如我这里可以使用msaR包：

library(msaR) 
msaR(AAStringSet(as.character(myAlignment)))

看起来还挺有感觉的哦！

比如ggtree可以读取多种格式（包括newick，nexus，NHX，jplace和phylip）的系统发育树，并结合不同类型的相关数据进行注释分析。

免疫组库数据处理大全

从IMGT数据库下载免疫组库相关fasta序列

人类IGH的fasta文件下载

进行多序列比对，查看它们的远近关系

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐