今天给大家介绍的 3DSNP 是一个集成数据库,通过探索人类非编码突变在基因和调控元件之间的远端相互作用来注释突变。其整合了千人基因组计划中 3D 染色质的相互作用,不同细胞类型中的局部染色质特征以及连锁不平衡(LD)信息。同时也提供了信息丰富的可视化工具,以显示局部和三维的染色质特征以及突变之间的遗传关联。这个网站也将不同功能类别的数据被集成到一个量化评分系统中,以便我们从大量数据中选择相对重要的突变。
网址:http://cbportal.org/3dsnp/
3DSNP 包含来自 NCBI dbSNP build 146 的所有149,254,102 个 SNPs 和 indel 。其中,84,801,880 个 SNPs 来自千人基因组计划阶段的基因型数据,获得了不同人群的等位基因频率和 LD 数据。此外,还从 dbSNP 中提取了 MAF 和线性最近基因。从 UCSC 基因组浏览器中获得了 GRCh37/hg19 RefSeq 基因注释。
3DSNP 根据多篇 Hi-C 研究,在十二种人类细胞中总共收集了 75,362 个染色质内环。据报道,根据染色质环的跨度,染色质相互作用可分为两类。对于小于200kb 的染色质环,相应的相互作用类型是 Within loop
,其中位于其中的基因组元件可以相互作用。对于长度超过 200kb 的染色质循环,类型是 Anchor-to-anchor
,其中只有位于两个锚上的元件会相互作用。
3DSNP 使用了各种染色质特征来注释 SNPs 的调控功能,包括染色质状态(ChromHMM Core 15-state model)、组蛋白修饰(NarrowPeak)、 DNase I 超敏感位点以及转录因子结合位点。为了对改变转录因子结合序列的 SNPs 进行注释,3DSNP 使用 TFM-Scan 软件,利用从 TRANSFAC 和 JASPAR 数据库中收集到的一组位置权重矩阵(PWMs) ,在基因组中定位推测的 TFBS。
SNP 的保守性是用从 UCSC 基因组浏览器获得的两个 PhyloP 评分来计算的。通过对 46 个脊椎动物基因组和 33 个哺乳动物基因组的多重比对,计算了两个系统发育分数。正值表示预测为保守位点,负值表示预测为快速进化位点。
基因型和组织特异性基因表达水平之间的相关性可以帮助我们解释遗传变异对基因调控的影响。3DSNP 包含了来自 GTEx 的 44 种人体组织中共计 19,582,729 条显著的记录 (FDR 0.05)。
首先,在搜索框中键入完整 rsid 例如,rs12740374,然后关于该 SNP 的信息将会出现在下面:
可以看到基因组的位置和 Ref/Alt ,rs12740374 的总功能分值为135.06,与其在空间上相互作用的基因为 PSRC1和其他 7 个基因。单击 ID 左侧的“ + ”图标,可以看到一个表格,包含了同一 LD block 中一组相关的 SNPs。
表格右侧的 Regional LD plot 显示了它们之间的关联:
上图中,x 轴为染色体坐标,y 轴为 r2 的值,点的大小代表其总得分,五个群体中相关的 SNPs 以不同的颜色显示。单击图例中相应的圆圈,可以将对应种群的 SNPs 从图中删除或添加。例如:点击图例中的“AMR”圆圈,可删除 AMR 群体中的相关 SNP,如下所示:
我们还可以通过调整图形右侧条的上下限来限制显示总分的范围。例如,只显示分值超过 50 的位点:
单击相应 SNP 的名称,将打开对应的详细介绍页面。
这里,我们单击“rs12740374”打开一个新页面,其中包含了该 SNP 的所有详细信息。
在 3DSNP 中,每个 SNP 都会基于它在六个功能分类上的注释记录进行评分:
•相互作用基因•增强子状态•启动子状态•转录因子结合位点•Motif 的改变(例子中的 rs12740374 不影响 motif)•保守性分值
不同于 RegulomeBD 的评分方法,3DSNP 使用了一种定量评分系统来评价 SNP 在不同类别中的功能重要性。对于前五个类别,使用注释记录的数量(命中率)为 k 带入泊松分布模型中,得到该 SNP 在这个分类下的得分。
对于保守性分值,则是将 PhyloP score 带入高斯模型得出。
SNP 的总分即是六个功能类别分值的总和。
Sequential information of the SNP obtained from NCBI dbSNP and allele frequencies in five continental population obtained from 1000 Genomes Phase 3 (final phase)
为了可视化非编码突变、远端调控元件和启动子之间的染色体相互作用,3DSNP 使用了 Circos 进行可视化。如上图所示,从外部到内部,分别代表染色质、注释基因、组蛋白(红色)、转录因子(蓝色)、当前 SNP 和相关的 SNP,以及 3D 染色质相互作用。
除了 Circos,3DSNP 还使用 UCSC 基因组浏览器提供了染色质相互作用和位点信息的线性图。如下图所示,从上到下依次表示: 基因组坐标,染色质相互作用,当前 SNP,UCSC 基因,RefSeq 基因,组蛋白修饰,CTCF 结合位点,DNase Clusters 和哺乳动物保守性分值。
Genes where the SNP falls within 2 kb upstream to 2 kb downstream of them
Genes that interact the SNP through 3D chromatin loops in different cell types. Two loop types are defined based on their spans: 'Within loop' and 'Anchor-to-anchor'
Significant SNP-gene pairs (FDR < 0.05) associated to the SNP in 44 human tissues obtained from GTEx Portal
Genetically associated SNPs (LD r2 > 0.8) interacting with the SNP through 3D chromatin loops
Presented chromatin state identified by the Core 15-state ChromHMM model
Transcription factor binding sites identified by ChIP-seq in ENCODE project
PhyP scores of 46 vertebrates and 33 mammals across the +/-10bp region surrounding the SNP
总而言之,对于例子中的 rs12740374,我们可以看到关于这个突变的总分主要在于 TFBS (86.23)、增强子(32.13)和启动子(12.64) 这三个功能类别。同时,在 eQTL 部分,rs12740374 与 SORT1 在肝脏的表达水平显著相关。在 TFBS 部分,rs12740374 位于 HepG2、 IMR90 和 HeLa-S3 细胞的 CEBPB 和 CEBPD 的结合位点,DNA 可接近性很高(1000/1000)。这与先前关于这个位点的研究高度一致,有研究报道 rs12740374 会导致一个 C/EBP (CCAAT/增强子结合蛋白) 转录因子结合位点并进一步影响 SORT1 基因在肝脏的表达。更进一步,我们也可以从 可视化 的部分以及 三维互作的 SNP 部分看到,rs12740374 与 SORT1 基因相互作用,是由 KBM-7、 NHEK、 IMR90、 K562 和 PC3 五种不同细胞中的染色质环所介导的,这些证据表明 rs12740374 和 SORT1之间的关联是由染色质环所介导。
除了可用 Snp ID 查询外,我们还可以用基因组区域或基因名来进行查询。多个 SNP 应用逗号或空格分隔,基因组区域应该写作 chrN:start-end
,基因应写作 gene:SYMBOL
。每次搜索只允许一种查询类型,不支持混合的查询格式。在搜索栏中查询最多支持 100 个 SNP ID。
通过点击搜索栏右侧的图标,可以将包含 SNP ID 或基因组区域列表的文本文件上传到服务器进行批量分析。SNP 数量最多为 2000个,基因组区间最多为 10 个,超出的部分会被忽略。
所有生成的表单可以以三种格式导出:复制到剪贴板、excel 或 PDF。图形可以以 PNG 格式导出。
3DSNP 还可通过 API 来访问数据,具体详见:http://cbportal.org/3dsnp/3dsnp_for_developers.html
•https://academic.oup.com/nar/article/45/D1/D643/2333918•http://cbportal.org/3dsnp/3dsnp_tutorials.html
生信技能树目前已经公开了三个生信知识库,记得来关注哦~
每周文献分享
https://www.yuque.com/biotrainee/weeklypaper
肿瘤外显子分析指南
https://www.yuque.com/biotrainee/wes
生物统计从理论到实践
https://www.yuque.com/biotrainee/biostat