前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >全基因组 - 人类基因组变异分析(PacBio) (2)-- CCS的使用

全基因组 - 人类基因组变异分析(PacBio) (2)-- CCS的使用

原创
作者头像
三代测序说
修改2023-10-26 14:47:21
1.3K0
修改2023-10-26 14:47:21
举报
文章被收录于专栏:三代测序-说三代测序-说

一、基因组 PacBio SMRTbell文库的构建流程

1. PacBio SMRTbell 文库的结构

PacBio测序平台构建完成的测序文库形状就如同一个哑铃(Dumbell), 所以叫做SMRT bell,  图1右所示。其主要组成部分是:发卡状的接头(Hairpin Adapter)和双链DNA模板(Double Stranded DNA Template)。而文构建完成后、测序前还需要完成SMRT bell文库、Sequencing Primer、DNA Polymerase的混合工作(测序引物退火结合环装测序接头,然后引物-bell文库复合物结合DNA聚合酶,  图1右和图2所示。

图1. 基因组SMRTbell文库结构及构建流程
图1. 基因组SMRTbell文库结构及构建流程
图2. SMRTbell文库测序引物和DNA聚合酶
图2. SMRTbell文库测序引物和DNA聚合酶

2. 基因组SMRTbell文库构建流程

以基因组HiFi文库为例(10-20Kb文库 ) ,图1左所示:

1)通过核酸提取得到基因组DNA(gDNA)后,先利用G-tube管或Megaruptor System将基因组片段化至合适大小 (一般动植物基因组20 Kb建库,微生物基因组10 Kb建库);

2)通过去除单链悬突、损伤修复和末端修复等步骤,得到完整的双链DNA插入片段;

3)通过将SMRTbell接头连接至双链DNA的两端来创构建SMRTbell测序文库,从而得到环状模板。

4)完成接头连接后,需要对连接产物进行纯化,利用酶处理来消化线性或内部损伤环形DNA分子(游离的Hairpin Adapter、两端未连接Adapter的DNA模板、已成环但内部有损伤的DNA模板),酶处理完毕后,一般会利用Bulepippin或Sage ELF System切胶回收目标大小范围内的文库。

二、PacBio Subreads and HiFi reads

HiFi reads(High Fidelity reads)是2019年由PacBio推出的基于环化共有序列(Circular Consensus Sequencing,CCS)模式产生的既兼顾长读长(~10-20 kb)又具有高精度(>99%准确率)的测序序列数据 (图3)。

图3. HiFi reads 既长又准确
图3. HiFi reads 既长又准确

对于一条待测序的DNA片段,在CCS测序模式下,酶读长(polymoerase read)远大于插入片段长度,聚合酶会绕着DNA模板进行滚环测序,其中插入目的片段会被多次重复测序。单次测序中产生的随机测序错误,通过环形测序生成的一系列冗余的Subreads来进行自我矫正。通过PacBio公司开发的CCS算法进行自我纠错校正后,最终得到一条高准确度的CCS read, 因为每个碱基的测序质量较高,所以称为HiFi read (图4)。

图4. HiFi reads 的概念以产生过程
图4. HiFi reads 的概念以产生过程

三、PacBio Subreads 数据到 HiFi reads数据

Pacbio Sequel II 平台早期支持CLR(Continuous Long Reads)和CCS(Circular Consensus Sequencing)两种测序方式。 CLR模式适用超长片段文库(> 25 kb),对下机的subreads数据不再进行后续处理,可以直接使用,用作下游分析的原始数据,唯一的缺点就是每条reads准确度低一些。

从2022年下半年起,最新的建库试剂盒SMRTbell prep kit 3.0 舍弃了CLR模式,全部采用CCS建库测序模式,所以下机的subreads都要经过CCS算法将subreads去冗余转化为HiFi reads。对于Pacbio Sequel II 平台的用户,下机的subreads数据需要在服务器用SMRTlink软件里的CCS程序 或者 自己运行单独安装CCS软件进行HiFi reads的转换。对于Pacbio Sequel IIe 和 Revio平台,因为测序仪器本身内置了计算服务器,可以在运行测序前通过SMRTlink设置,下机直接得到HiFi reads的数据。

所以在大家拿到PacBio测序数据时,例如下载公共数据尤其是早期数据时,一定要弄清楚是subreads,还是HiFi reads。对于近期从测序服务商那里得到的数据一般都是运行完CCS软件后的HiFi reads。

对于自己有PacBio仪器的,并且服务器配置SMRTlink软件的用户,可以直接在SMRTlink中运行CCS(Circular Consensus Sequencing)程序,运行完成以后,你还会在SMRTlink里面得到CCS分析报告,会给出HiFi reads的信息以及可视化图的统计信息展示。

下面的教程呢,是我们没有测序仪器和安装配置SMRTlink软件,但又想单独在自己的服务器或者高性能工作站上安装CCS程序并且运行的同学和老师准备的。

四、CCS程序的安装和使用

CCS官网:https://ccs.how/

CCS官网(github):https://github.com/PacificBiosciences/ccs

1. 确保已经安装miniconda

代码语言:txt
复制
#直接使用conda安装最新版本的pbccs
$ conda install -c bioconda pbccs

#Version 6.4.0

2. 软件的运行

Pacbio Sequel II平台的下机数据为bam格式, bam文件可直接适配大多数的下游分析软件,存储有效数据的文件一般命名为: *.subreads.bam, *.subreads.bam.pbi

输入文件sample.subreads.bam 以及相对应的索引sample.subreads.bam.pbi

输出文件unaligned BAM (.bam);bgzipped FASTQ (.fastq.gz)

基础使用,全部参数默认:

代码语言:txt
复制
#生成 .bam 文件
$ ccs  sample.subreads.bam  sample.ccs.bam

#生成 .fastq.gz 文件
$ ccs  sample.subreads.bam  sample.hifi.fastq.gz

进阶使用

代码语言:txt
复制
#生成.bam文件
$ ccs  --min-rq  0.99 --min-passes 3 -j 12  sample.subreads.bam  sample.ccs.bam

#生成 .fastq.gz 文件
$ ccs  --min-rq  0.999 --min-passes 5  -j 24  sample.subreads.bam  sample.hifi.fastq.gz

#以下是经常会设置参数,根据数据和应用的需求自行调整,剩下的参数默认即可。
-j  12    CPU线程数
--min-passes 3     最少产生CCS read 的subreads数,默认是3.
--min-rq  0.99       碱基准确度,默认为0.99,等于Q20.
--min-length         最小reads长度,默认为10.
--max-length        最大reads长度,默认为50000.

CCS --help 文档及参数,如果有需要可以自行修改:

代码语言:txt
复制
ccs - Generate circular consensus sequences (ccs) from subreads.

Usage:
  ccs [options] <IN.subreads.bam|xml> <OUT.ccs.bam|fastq.gz|xml>

  IN.subreads.bam|xml       FILE   Subreads (.subreads.bam or .subreadset.xml).
  OUT.ccs.bam|fastq.gz|xml  FILE   Consensus reads (.bam, .fastq.gz, or .consensusreadset.xml).


Input Filter Options:
  --min-passes              INT    Minimum number of full-length subreads required to generate CCS for a ZMW. [3]
  --min-snr                 FLOAT  Minimum SNR of subreads to use for generating CCS [2.5]
  --top-passes              INT    Pick at maximum the top N passes for each ZMW. [60]

Draft Filter Options:
  --min-length              INT    Minimum draft length before polishing. [10]
  --max-length              INT    Maximum draft length before polishing. [50000]

Chunking Options:
  --chunk                   STR    Operate on a single chunk. Format i/N, where i in [1,N]. Examples: 3/24 or 9/9
  --max-chunks                     Determine maximum number of chunks.

Model Override Options:
  --model-path              STR    Path to a chemistry model file or directory containing model files.
  --model-spec              STR    Name of chemistry or model to use, overriding default selection.

Processing Options:
  --by-strand                      Generate a consensus for each strand.
  --hd-finder                      Enable heteroduplex finder and splitting
  --skip-polish                    Only output the initial draft template (faster, less accurate).
  --all                            Emit all ZMWs.
  --subread-fallback               Emit a representative subread, instead of the draft consensus, if polishing failed.
  --all-kinetics                   Calculate mean pulse widths (PW) and interpulse durations (IPD) for every ZMW.
  --hifi-kinetics                  Calculate mean pulse widths (PW) and interpulse durations (IPD) for every HiFi read.

Output Filter Options:
  --min-rq                  FLOAT  Minimum predicted accuracy in [0, 1]. [0.99]

Output Files Options:
  --report-file             FILE   Where to write the results report.
  --report-json             FILE   Where to write the results report as json.
  --metrics-json            FILE   Where to write the zmw metrics as json.
  --suppress-reports               Do not generate report or metric files per default, only those requested.

  -h,--help                        Show this help and exit.
  --version                        Show application version and exit.
  -j,--num-threads          INT    Number of threads to use, 0 means autodetection. [0]
  --log-level               STR    Set log level. Valid choices: (TRACE, DEBUG, INFO, WARN, FATAL). [WARN]
  --log-file                FILE   Log to a file, instead of stderr.

Copyright (C) 2004-2022     Pacific Biosciences of California, Inc.
This program comes with ABSOLUTELY NO WARRANTY; it is intended for
Research Use Only and not for use in diagnostic procedures.

五、CCS测序模式相关词汇英文解释

对于polymerase read, subreads,CCS的英文原版解释。

CCS测序模式相关词汇英文解释
CCS测序模式相关词汇英文解释

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、基因组 PacBio SMRTbell文库的构建流程
  • 二、PacBio Subreads and HiFi reads
  • 三、PacBio Subreads 数据到 HiFi reads数据
  • 四、CCS程序的安装和使用
  • 五、CCS测序模式相关词汇英文解释
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档