前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >混合拼接

混合拼接

作者头像
生信喵实验柴
发布2022-05-23 11:34:12
1.6K0
发布2022-05-23 11:34:12
举报
文章被收录于专栏:生信喵实验柴

背景

在当前测序市场条件下,一代二代三代测序平台共存,这是因为每一个测序平台都不是完美的,都有优缺点,例如一代测序准确性高,读长长,但是相应的通量低,价格贵。二代测序显著特点是通量大,准确性高,价格便宜,但是读长短,而三代测序读长长,通量高,但是错误率高,这就需要我们能够根据每种数据的特点,充分利用每一种测序平台数据,得到最优的方案。例如当前基因组拼接中,尤其对于一些大型的基因组,往往混合多种测序平台数据进行拼接,达到最佳的拼接效果。

一、混合拼接方案

我们对同一样品,分别进行了二代 illumina 双末端测序,三代单分子 pacbio 测序以及三代纳米孔 nanopore 测序数据。这些数据有多种分析方案,例如以下方案:

方案一:二代 illumina 数据单独拼接

方案二:三代数据单独拼接

方案三:二代 illumina 数据为主+三代测序连接+补洞;

方案四:三代测序单独拼接,利用二代数据连接+纠错;

由于另种数据拼接结果肯定要优于只使用一种数据,因此,这里只需要比较方案三与方案四。也就是以哪种测序数据为主,哪种方案为辅。

当前大型基因组最佳方案:

nanopore搭建框架

illumina补洞

Hi-C挂载基因组

二、Hi-C

高通量染色体构象捕获(High-throughput chromosome conformation capture, Hi-C)则是一种可用于研究基因组三维结构的创新技术。自2009年美国Job Dekker 研究组开发出了Hi-C 技术,现已广泛应用于细菌、酵母、拟南芥、棉花、水稻、玉米、小鼠及人类基因组研究中。

参考文献:PMID:24185095

Hi-C实验步骤

实验步骤示意图(Lieberman-Aiden E. et al. Science. 2009)

1、使用多聚甲醛处理细胞,固定DNA的构象;

2、裂解细胞后,使用限制性内切酶处理交联的 DNA,产生粘性末端;

3、DNA末端补平修复,并同时引入生物素,标记寡核苷酸末端;

4、使用DNA连接酶连接DNA 片段;

5、蛋白酶消化解除与 DNA 的交联状态,纯化 DNA并随机打断至长度为 300~500bp 的片段;

6、使用亲和素磁珠捕获标记的DNA ,进行二代建库测序。

采用高通量测序获得的互作数据具有两个规律,一是染色体内的互作强度大于染色体间的互作;二是同一染色体内互作强度随线性距离的增加而减弱。Hi-C技术可研究基因组空间调控机制,还可将Hi-C数据用于基因组组装中,对三代测序组装获得的contig序列进行scaffolding,达到染色体水平。

Hi-C辅助染色体定位

基于Hi-C数据上述规律,首先,基于Hi-C互作强度对Hi-C read聚类,判断scaffolds/Contigs分组;针对group内部互作强度,确定scaffolds/Contigs前后相邻关系;最后进一步确定相邻scaffolds/Contigs方向,最后获得染色体水平参考基因组序列。

三、不同基因组拼接方案比较

3.1 单独使用 illumina 拼接

代码语言:javascript
复制
spades.py --isolate -o ill -t 24 -1 /share/home/xiehs/05.assembly/data/clean.1.fq.gz -2 /share/home/xiehs/05.assembly/data/clean.2.fq.gz 1>spades.log 2>spades.err

3.2 利用 illumina 数据+pacbio 数据拼接

代码语言:javascript
复制
spades.py --isolate -o ill_pac -t 24 -1 /share/home/xiehs/05.assembly/data/clean.1.fq.gz -2 /share/home/xiehs/05.assembly/data/clean.2.fq.gz --pacbio /share/home/xiehs/05.assembly/data/pacbio.fastq.gz 1>ill_pac.log 2>ill_pac.err

3.3 利用 illumina 数据+nanopore 数据拼接

代码语言:javascript
复制
spades.py --isolate -o ill_ont -t 24 -1 /share/home/xiehs/05.assembly/data/clean.1.fq.gz -2 /share/home/xiehs/05.assembly/data/clean.2.fq.gz --nanopore /share/home/xiehs/05.assembly/data/nanopore.fastq.gz 1>ill_ont.log 2>ill_ont.err

比较前三种

代码语言:javascript
复制
seqkit seq -m 500 ill/scaffolds.fasta | seqkit stat
seqkit seq -m 500 ill_ont/scaffolds.fasta | seqkit stat
seqkit seq -m 500 ill_pac/scaffolds.fasta | seqkit stat

3.4 unicycler 混合拼接

代码语言:javascript
复制
conda activate unicycler
echo "unicycler -1 /share/home/xiehs/05.assembly/data/clean.1.fq.gz -2 /share/home/xiehs/05.assembly/data/clean.2.fq.gz --long /share/home/xiehs/05.assembly/data/nanopore.fastq.gz -o unicycler -t 12 >unicycler.log 2>unicycler.err" > unicycler.sh

结果统计

代码语言:javascript
复制
seqkit stat assembly.fasta
file            format  type  num_seqs    sum_len  min_len    avg_len    max_len
assembly.fasta  FASTA   DNA          6  5,691,015    3,478  948,502.5  5,311,635

四、quast 比较不同拼接方案

利用 quast 比较不同拼接方案的拼接结果,选择最优的拼接结果。

代码语言:javascript
复制
quast.py -r MGH78578.fasta ill.fa ill_pac.fa ill_ont.fa uni.fa -o quast

结果report.html

报告可以看出unicycler的结果最接近参考序列。

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript
复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信喵实验柴 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档