等位基因根据同源性的不同分为两种类型,一种是 IBD,另一种称为 IBS 。
IBD 指的是 Identity By Descent,即血缘同源。其含义是两个或者多个等位基因均遗传于同一祖先,且在此过程中不发生基因重组事件,则我们称此类等位基因具有共同血缘。又可以解释为,多个子代中共同拥有的一段或多段 DNA 区域或等位基因均从共同的一个祖先处获得。检测的IBD 片段可用于多种不同的场景,可以用于检测有关个体之间遗传关系的信息。比如,成对IBD和表型的相似性之间的相关性可以被用来检测基因组区域渗入对表型的影响,估算遗传效力,计算准确的群体结构。Homozygous-by-descent (HBD) 又称为纯合同源,由来自祖先的单个染色体片段的两个拷贝的遗传产生的。
用于检测IBD片段的主要有两种方法。第一类方法是概率方法,经典的工具包括:PLINK和BeagleIBD。一个位点的一对(或一组)个体的 IBD 状态采用两种(IBD/非 IBD)。通常,使用隐马尔可夫模型来推断每个标记处的 IBD 状态。在谱系的背景下,共享单倍型仅通过共同祖先来获得。第二类方法,也是hap-ibd使用的方法,寻找在phased或没有phased基因型数据中相同等位基因的长片段。这方法没有将成对的单倍体分为“IBD”和“非IBD”,而是将其分为“长IBD”和“非长IBD”。理想情况下,检测的 IBD 片段应主要来自单个共同祖先的 IBD,而不是来自多个祖先的片段的合并。
HAP-IBD工具,对比其他相关的工具,可用于快速有效地在大数据集中检测IBD和HBD的片段。并具有更好的准确性和速度。
工具作者提供了可以直接运行的jar版本,直接下载下来就能使用了:
wget https://faculty.washington.edu/browning/hap-ibd.jar
使用命令行运行该工具,得到其帮助文档,这里需要Java版本1.8或者更高的版本:
java -jar hap-ibd.jar
输出对应的帮助文档:
hap-ibd.jar [ version 1.0, 23Apr20.f1a ]
Syntax: java -jar hap-ibd.jar [arguments in format: parameter=value]
Data Parameters:
gt=<VCF file with GT field> (required)
map=<PLINK map file with cM units> (required)
out=<output file prefix> (required)
excludesamples=<excluded samples file> (optional)
Algorithm Parameters:
min-seed=<min cM length of seed segment> (default: 2.0)
max-gap=<max base pairs in non-IBS gap> (default: 1000)
min-extend=<min cM length of extension segment> (default: min(1.0, min-seed))
min-output=<min cM length of output segment> (default: 2.0)
min-markers=<min markers in seed segment> (default: 100)
min-mac=<minimum minor allele count filter> (default: 2)
nthreads=<number of computational threads> (default: all CPU cores)
下面和大家简单说说对应的参数,主要必须输入的参数有三个: gt="VCF file with GT field" 所用的VCF 必须包含一个 GT FORMAT 的信息,所有基因型都需要phased,并且不能缺少等位基因。如果您的数据是没有phased的,可以使用Beagle程序对数据进行imputation。 map="PLINK map file with cM units" 具有 cM 单位的 PLINK 格式遗传图谱,遗传图谱和输入 VCF 文件中的染色体标识符必须匹配。 out="output file prefix"输出文件的名字
另外还有一些其它的可选参数,可以根据具体的需求来调整。
输出结果的文件,有三个:一个日志文件,一个 IBD文件和HBD文件。
该日志文件(.LOG)包含分析的总结,其中包括分析参数,标记的数目,采样的数目,输出HBD和IBD的段的数量,和每个样品HBD和IBD段的平均数。gzip 压缩的ibd文件 (.ibd.gz) 包含个体之间共享的 IBD 段。gzip 压缩的hbd文件 (.hbd.gz) 包含个体内的 HBD 片段。ibd和hbd输出文件的每一行代表一个 IBD 或 HBD 段,并包含 8 个制表符分隔的字段: 1.第一个样本标识符 2.第一个样本单倍型索引(1 或 2) 3.第二个样本标识符 4.第二个样本单倍型索引(1 或 2) 5.染色体 6.线段中第一个标记的基础坐标 7.线段中最后一个标记的基础坐标 8.IBD段的cM长度
下载好两个测试文件:
wget https://raw.githubusercontent.com/browning-lab/hap-ibd/master/test/target.map
wget https://raw.githubusercontent.com/browning-lab/hap-ibd/master/test/target.truth.vcf.gz
运行hap-ibd:
java -jar hap-ibd.jar gt=target.truth.vcf.gz map=target.map out=hap-ibd.out
查看一下生成的结果:
less hap-ibd.out.ibd.gz |head
##结果
I3055 1 I3063 2 20 3280439 5560664 2.280
I3054-I3055 2 I3063 2 20 3280439 5560664 2.280
I2010 1 I3063 1 20 5562790 7603339 2.041
I2010 1 I3062-I3063 2 20 5562790 7603339 2.041
I2010-I2011 1 I3063 1 20 5562790 7603339 2.041
I2010-I2011 1 I3062-I3063 2 20 5562790 7603339 2.041
I1041 2 I3089 1 20 1139876 3205250 2.065
I1041 2 I3088-I3089 2 20 1139876 3205250 2.065
I1014 2 I2028 1 20 3211042 5240253 2.029
I1014 2 I2028-I2029 1 20 3211042 5240253 2.029
根据结果就能进一步找到对应的IBD片段,然后根据群体和材料的特点,对该片段的渗入来源,还有所对应的基因和性状,可进行进一步的分析。
参考资料: