Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >微生物全长16S | Full-length 16S Analysis -- PacBio Hifi Reads

微生物全长16S | Full-length 16S Analysis -- PacBio Hifi Reads

原创
作者头像
三代测序说
修改于 2024-02-09 03:41:18
修改于 2024-02-09 03:41:18
3.7K1
举报
文章被收录于专栏:三代测序-说三代测序-说

微生物研究新世代 -- 三代全长16S (Full-length 16S)

时至今日,微生物群落研究已全面进入测序分析阶段,当前研究主流处于二代扩增子与三代扩增子交接的时段。基于三代测序的菌群多样性组成谱分析能极大地提升物种分类鉴定的精确性和全面性,能更准确地还原样本中微生物群落的构成,实现“高分辨率”检测的同时,也为今后深入阐释菌群的代谢功能奠定了基础。

16S核糖体RNA(16S ribosomal RNA),简称16S rRNA,是原核生物核糖体中30S亚基的组成部分。16S rRNA基因存在于所有细菌的基因组中,长度约为1542 bp,包括 10 个保守区(Conserved region)和 9 个可变区(Variable region),保守区反映了物种间的亲缘关系,而可变区则反映了物种间的差异 (图1)。 16S rRNA基因,其分子大小适中,突变率小,是细菌系统分类研究中最有用的和最常用的分子标志。通过16S扩增子高通量测序,检测16S rDNA可变区的序列变异和丰度,可了解样品中微生物群落多样性和丰度信息,在微生物分类鉴定、微生态研究等方面起着重要的作用。

图1. 16S rRNA的结构和扩增区域
图1. 16S rRNA的结构和扩增区域

1990年,科学家们首次发现了环境样本中存在的16S rRNA序列(1),阐述了其研究潜力,自此开启了一个波澜壮阔的微生物群落研究时代。二代16S测序因其扩增片段极限长度仅500-600bp(双端overlap),因此对于二代扩增子挑选可变区是个大难题,挑选意味着妥协与信息丢失,如文章所示(3),属、种水平的未鉴定物种比例高 (图2)。三代16S扩增子测序,采用27F、1492R引物扩增全长片段(覆盖V1-V9区),则能够轻松覆盖16S总长约1500bp共9个可变区,最大程度保留了物种鉴定的可能性(图3)。

图2. 二代16s与三代全长16s未鉴定物种占比结果对比
图2. 二代16s与三代全长16s未鉴定物种占比结果对比
图3. 三代全长16S扩增区域
图3. 三代全长16S扩增区域

每一轮的技术革新都带来了研究思路上的改变,二代扩增子技术带来研究思路关注群落整体多样性变化、侧重门/属等水平微生物构成。三代扩增子技术则更进一步,更加关注不同组学间的关联,不仅关注门/属等水平物种丰度,也能够探索属内物种的协作/竞争关系 。有了如此高的分辨率表现,菌种级别的研究自然成为了研究重点,不同于过往对于二代16S科、属水平的研究,三代全长16S能够提供更全面且细致的菌株级别分析结果,让整个研究结果更贴近生态学功能,对于多组学关联以及后续课题实验指导、验证都有着巨大意义。从多组学关联的角度来看同样如此,更精细层面数据进行多组学关联往往能够揭示出更清晰的局部规律,这其中就有很多过往被忽略或无法触及的细节。

一、PacBio全长16S rRNA基因测序

PacBio全长16S rRNA基因测序采用27F1492R引物扩增全长片段(覆盖V1-V9区),采用PacBio SMRT测序平台CCS(Circular Consensus Sequencing)模式进行测序分析。PacBio SMRT测序具有许多明显优势:

  • 长读长,二代测序读长只能达到几百bp,而PacBio测序读长可达几十甚至上百kb。对于长度约为 1542bp 的16S rRNA基因,二代测序只能对部分区域如V4、V3V4、V4V5区进行测序,而PacBio测序可轻松跨越16S rRNA基因的全长序列。
  • 高准确度,PacBio CCS模式获得的 HiFi Reads(High fidelity reads)自我矫正准确性高达99%以上, 兼顾测序数据长读长和高准确度。当测序酶读长达到 8Kb时,即可满足一条1.5Kb的16S rRNA基因序列循环矫正5次 (图4),最终获得高质量的16S全长序列。
图4.CCS测序模式
图4.CCS测序模式
  • 测序过程无偏好,PacBio单分子实时(SMRT)测序不需要扩增步骤,可避免测序过程中引入的偏好,可较大程度上还原样本真实群落结构。

二、PacBio | HiFi Full-length 16S analysis 分析流程

HiFi Full-length 16S nextflow 分析流程旨在通过DADA2QIIME2将全长16S Hifi序列聚类为高质量的Amplicon Sequence Variants (ASVs),进而完成后续的分析 。此流程基于QIIME2,因此其能做的分析,如alpha多样性及beta多样性,物种注释和可视化,HiFi Full-length 16S分析流程均能够实现 (图5)。除了ASVs聚类,分析流程还能用vsearch进行OTU聚类。

图5. HiFi Full-length 16S分析流程和产出结果文件
图5. HiFi Full-length 16S分析流程和产出结果文件

HiFi Full-length 16S 流程https://github.com/PacificBiosciences/HiFi-16S-workflow

三、软件安装及测试

1. 从github上下载pb-16S-nt文件夹:

代码语言:bash
AI代码解释
复制
$ git clone https://github.com/PacificBiosciences/pb-16S-nf.git
  • 下载完成后,在当前路径会产生名为pb-16S-nt的文件夹。如果是校园网,遇到下载不下来的情况,可以去pb-16S-nt的github主页手动下载,然后上传服务器
  • 在使用pb-16S分析流程以前,需要安装nextflowconda,备选singularitydocker

2. 微生物物种注释分类数据库的下载

代码语言:bash
AI代码解释
复制
$ nextflow run main.nf --download_db 
  • 下载完成以后,当前路径会创建一个名为databases的文件夹。
  • 如果下载不成功可以进行手动下载,下载地址zenodo: https://zenodo.org/records/6912512。 创建databases的文件夹,将下载文件放入其中。
图6. 数据库下载成功示意图
图6. 数据库下载成功示意图

3. 使用示例样本测试软件

代码语言:bash
AI代码解释
复制
# 创建样本TSV文件,用来指定样本路径
$ echo -e "sample-id\tabsolute-filepath\ntest_data\t$(readlink -f test_data/test_1000_reads.fastq.gz)" > test_data/test_sample.tsv

# 测试数据,使用conda创建环境
$ nextflow run main.nf --input test_data/test_sample.tsv \
   --metadata test_data/test_metadata.tsv -profile conda \
   --outdir results


# 如果conda创建不了,可以尝试docker或singularity
$ nextflow run main.nf --input test_data/test_sample.tsv \
    --metadata test_data/test_metadata.tsv -profile singularity \
    --outdir results
  • 如果因为网络原因,conda创建不了环境可以参考我在github上提出的解决方案:https://github.com/PacificBiosciences/HiFi-16S-workflow/issues/2
  • 如果conda创建环境还是不行,可以尝试 -profile docker-profile singularity
  • 如果使用dockersingularity, 第一次运行测试样本数据,需要下载镜像,等待时间较长。
图7. 测试数据运行流程
图7. 测试数据运行流程

四、PacBio三代全长16S分析流程

前提是需要安装SMRTlink。

1. 下载 Sequel II 16S barcode序列文件。

在PacBio官网 Multiplexing Page 里下载 barcode 的 Fasta 文件 (图7)。

图7. 全长16S barcode序列fasta文件下
图7. 全长16S barcode序列fasta文件下

2. 上传文件至服务器,导入SMRTlink中。

  • Sequel_16S_barcodes_for_192-Plex.fasta文件上传至服务,放在opt/barcodes/路径下,没有此路径可以自己创建。
  • 通过Data Management - Import Data - Select Barcodes (FASTA)文件导入SMRTlink软件,后面拆分barcode使用(图8)。
图8. 将fasta文件导入SMRTlink中
图8. 将fasta文件导入SMRTlink中

3. 原始下机数据跑CCS流程,跑Demultiplex Barcodes流程。

  • 原始下机数据跑CCS流程。
  • 需要根据示例制作Barcoded Sample File,目的是将barcode和样本名称对应起来。
  • 通过Demultiplex Barcodes流程将混样样本(hifi reads)拆分,SMRT Analysis - Creat New Analysis - Demultiplex Barcodes ,并按照图9设置。
图9. Demultiplex Barcodes流程
图9. Demultiplex Barcodes流程

4. 文件拷贝及重命名。

  • 拆分后的样本以demultiplex.barcode组合.hifi_reads.fastq.gz命名 (图10)。
  • 可以将所有文件下载保存,或上传分析服务器进行后续全长16S分析。
  • 可用以下代码,将样本重新命名。
代码语言:bash
AI代码解释
复制
$ cat rename.txt
demultiplex.barcode组合.hifi_reads.fastq.gz  newname1.fastq.gz
demultiplex.barcode组合.hifi_reads.fastq.gz  newname2.fastq.gz

$ cat rename.txt | while read i j
>do
>mv $i $j
>done
图10. 拆分后的fastq文件
图10. 拆分后的fastq文件

5. 进行pb-16S-nt流程的分析。

根据要求制作metadata.tsvsample.tsv两个文件,就可以按照示例进行PacBio全长16S分析流程了。

6. 运行实际样本

代码语言:bash
AI代码解释
复制
$ nohup nextflow run main.nf --input 16S_project/sample.tsv \
      --metadata 16S_project/metadata.tsv -profile conda \
      --outdir 16S_project_results &

# 在获得rarefaction曲线后,可以指定rarefaction深度,重新跑程序
$ nohup nextflow run main.nf --input 16S_project/sample.tsv \
      --metadata 16S_project/metadata.tsv -profile conda \
      --outdir 16S_project_results  \
      -resume --rarefaction_depth 5000 &

7. 结果文件

具体的结果解读可以参照:https://github.com/PacificBiosciences/HiFi-16S-workflow/blob/main/pipeline_overview.md

图11. HiFi Full-length 16S分析流程结果
图11. HiFi Full-length 16S分析流程结果

P.S:

1.如果没有安装SMRTlink,barcode的拆分也可以使用lima

代码语言:bash
AI代码解释
复制
#HiFi run from BAM with symmetric barcodes:
$ lima <movie>.hifi_reads.bam barcodes.fasta <movie>.demux.bam --hifi-preset SYMMETRIC

2.如果数据来自测序服务商,样本数据应该都是拆分好的,直接使用HiFi Full-length 16S分析流程分析即可。

五、Nextflow软件的安装

Nextflow官网: https://www.nextflow.io/

代码语言:bash
AI代码解释
复制
#确保java11已经安装
$ java -version
#如果没有安装java,运行下面命令进行安装
#安装OpenJDK 11 JDK, centOS7服务器系统
$ yum install java-11-openjdk-devel

#安装nextflow
$ curl -s https://get.nextflow.io | bash

#nextflow 试运行
./nextflow run hello

#可以把nextflow加入到系统路径当中

参考文献:

  1. David M. Ward, Roland Weller, Mary M. Bateson, 16S rRNA sequences reveal uncultured inhabitants of a well-studied thermal community, FEMS Microbiology Reviews,1990。
  2. 三代全长16s — 望向微生物世界的尽头
  3. Matsuo, Y., Komiya, S., Yasumizu, Y. et al. Full-length 16S rRNA gene amplicon analysis of human gut microbiota using MinION™ nanopore sequencing confers species-level resolution. BMC Microbiol 21, 35 (2021)。
  4. PacBio 16S全长测序:一种高效且经济的微生物组研究方法

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
1 条评论
热度
最新
大家有什么问题欢迎提问!
大家有什么问题欢迎提问!
回复回复1举报
推荐阅读
编辑精选文章
换一批
全长转录组 | PacBio 全长转录组测序的时代是否已经来了? Kinnex full-length RNA Kit测评
记得在我去新加坡参加 Nanopore Community Meeting 2023 回来后(2023年9月31日),PacBio发布了其全套 KINNEX 产品线,Kinnex single-cell RNA,Kinnex full-length RNA 和 Kinnex 16S rRNA 。 从2023年10月31日,PacBio宣布 Kinnex full-length RNA Kit 正式接受预定,到2023年3月24-25日左右,国内测序厂商宣布第一批测试数据下机,国内的用户可以开始尝试利用这项技术进行科学研究了。我也是盼到了,可以在能够接受的价格范围内尝试用PacBio全长转录组数据进行定量分析了(虽然还有是些小贵)。
三代测序说
2024/04/02
1.8K3
全长转录组 | PacBio 全长转录组测序的时代是否已经来了? Kinnex full-length RNA Kit测评
高分辨率系统发育微生物群落剖析
摘要:在过去十年中,在微生物群落分析方面,短读长高通量16S rRNA基因扩增子测序,已经使克隆依赖性长读长Sanger测序黯然失色。过渡到新技术提供了更多的定量信息,牺牲了分类分辨率,其具有推测各种生态系统中的代谢特征的意义。我们应用单分子实时测序进行微生物群落分析,获得全长16S rRNA基因序列的高通量,我们建议命名为PhyloTags。我们进行了基准测试,并通过应用到特定的微生物群落验证了这种方法。当进一步应用于来自Sakinaw湖的水柱样本时,我们发现,尽管门水平上,PhyloTag和Illumina V4 16S rRNA基因序列(iTags)群落结构的分析结果之间是可比较的,方差随着种群复杂性和水深的变化而增加。但是PhyloTag还允许较少的模糊分类。最后,关于平台的比较,PhyloTags和silicon产生的部分16S rRNA基因序列显示出群落的结构和系统发育分辨率跨多个分类级别的显著差异,包括严重的低估涉及氮和甲烷的特定微生物属的丰度,在湖泊的水柱。因此,PhyloTag提供了可靠的具有成本效益iTags的补充(adjuction)或替代方案,可实现更准确地对系统发育微生物群落的分解代谢潜力进行预测。
用户1075469
2020/03/03
1.5K0
使用纳米孔测序数据进行16S-DNA条形码研究的计算方法[综述]
3.Centrifuge和Minimap2是处理纳米孔数据的最合适工具,并且可以认为它们是当前的最佳选择;
用户1075469
2020/04/14
1.4K0
使用纳米孔测序数据进行16S-DNA条形码研究的计算方法[综述]
2023牛津纳米孔16S测序数据新的探索
有同学和我交流离线的牛津纳米孔16S测序数据分析的问题,感慨的确这种方案还是少的,我想主要原因之前大家的印象还是相比Pacbio和短读长,成本高,准确性还是差了一点吧,16S对准确性要求还是相对高的。不过好处是,临床这种现场特别赶时间的,可以使用官方软件实时获得菌的分类结果。从同学处得到了一个测试数据,先看看质量:
用户1075469
2023/08/26
4540
2023牛津纳米孔16S测序数据新的探索
一文读懂微生物扩增子16s测序[通俗易懂]
16S rRNA 基因是编码原核生物核糖体小亚基的基因,长度约为1542bp,其分子大小适中,突变率小,是细菌系统分类学研究中最常用和最有用的标志。
全栈程序员站长
2022/06/27
23.5K0
一文读懂微生物扩增子16s测序[通俗易懂]
微生物组学1—基础概念
今天开始跟着“生信技能树”进行微生物组学的学习,以下笔记以“生信技能树”教学内容为大纲,并综合各方面内容(华大基因、中科新生命微生物组产宣材料、chatgpt等)整理而来。第一篇笔记主要介绍下基础概念和常见问题
sheldor没耳朵
2025/04/09
920
微生物组学1—基础概念
RiboFR-Seq:将16S rRNA与宏基因组连接的方法
16S rRNA扩增子分析和宏基因组测序是研究微生物群落的两种主要的独立方法。近年来,许多研究将这两种方法结合起来使用,但下游的数据分析是分开进行的,在分类和功能上总是产生不一致或冲突的结果。
Listenlii-生物信息知识分享
2020/05/31
1.3K0
GigaScience综述:从分类学基因推断微生物功能
Link: https://academic.oup.com/gigascience/article/doi/10.1093/gigascience/giab090/6505123
Listenlii-生物信息知识分享
2022/03/31
1.3K0
GigaScience综述:从分类学基因推断微生物功能
mSphere:16S rRNA基因测序的引物,平台和参数评估
Link: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8544895/
Listenlii-生物信息知识分享
2022/03/31
1.6K0
mSphere:16S rRNA基因测序的引物,平台和参数评估
全长转录组 | Iso-Seq 三代测序数据分析流程 (PacBio) (1)
很多物种的转录本非常多样和复杂,绝大多数真核生物基因不符合“一基因一转录本”的模式,这些基因往往存在多种可变剪切(Alternative splicing,AS)形式。目前,基于第二代测序技术的RNA测序(RNA-seq)技术已被广泛用于各种转录组研究。但其测序的序列读长较短(50-300bp),大多只能覆盖转录本的一小部分,导致难以精确重构同一转录本的同源异构体(isoform),因此使得二代RNA测序对于全长转录本的重构是不准确的,片面的。
三代测序说
2024/01/23
10.7K0
全长转录组  |  Iso-Seq 三代测序数据分析流程 (PacBio)   (1)
Microbial Ecology: 打开黑匣子——了解土壤微生物
Link:https://link.springer.com/article/10.1007%2Fs00248-022-01962-5
Listenlii-生物信息知识分享
2022/03/31
8820
Microbial Ecology: 打开黑匣子——了解土壤微生物
AutoTax | 基于全长 16S 测序数据创建特定环境的菌群注释数据库
16S rRNA 扩增子测序是研究微生物群落多样性和动态变化的重要方法。然而,目前公共 16S rRNA 参考数据库中仍缺乏许多环境微生物的高同一性参考序列,也缺乏针对大多数未培养微生物的系统分类注释。
生信菜鸟团
2021/07/05
2.1K0
AutoTax | 基于全长 16S 测序数据创建特定环境的菌群注释数据库
9000字的扩增子背景长文,值得收藏。
大家好,我叫刘永鑫,来自中国科学院遗传与发育生物学研究所,今天很高兴有这次机会为大家来讲扩增子分析系列课程。我本科学习的是微生物学专业,之后又获得了生物信息学博士学位,在短暂的两年博士后科研工作后,留所任工程师,主要负责宏基因组学的数据分析。在过去的两年工作里,主要参与并发表的文章有10余篇,累积影响因子150多分,其中包括一篇Science和两篇Nature Biotechnology。同时还是宏基因组公众号的创始人,在两年多的时间里,分享了400多篇原创文章,写作量超过200万字,阅读量超过1000多万次。我们接下来让大家一次对自己的研究方向,姓名和单位进行简单自我介绍,方便大家的沟通。 很感谢大家对自己基本情况和研究方向的介绍,这对于我下面课程中和重点的突出很在帮助,也希望同行互相认识,多交流和互相帮助。下面我们开始今天的课程,本次为第2天的第1节课,主要介绍扩增子分析的背景知识,右边这个图是来自2016年一篇Nature Protocol的文章,对微生物组近10年的发展进行了总结,我们可以看到从2010年到2016年我们开始对哪些环境对象进行探索,包括极端环境、植物叶片、白蚁、人类肠道、海洋、永久冻土、以及土壤沉积物的研究,这个领域扩展到了我们所能探索的所有地方。
生信宝典
2019/12/10
1.6K0
9000字的扩增子背景长文,值得收藏。
使用CCS序列数据改进宏基因组拼接效率和物种分类注释
DNA组装是用于研究微生物群落结构和功能的宏基因组流程中的核心方法学步骤。在这里,我们调查太平洋生物科学长期和高精度循环共识测序(CCS)的宏基因组项目的实用性。我们比较了PacBio CCS和Illumina HiSeq数据的应用和性能以及使用代表复杂微生物群落的宏基因组样本的组装和分类分类算法。8个SMRT细胞从沼气反应器微生物组合样品中产生大约94Mb的CCS读数,其平均长度为1319nt,精度为99.7%。CCS数据组合产生了大于1 kb的相当数量的大型重叠群,与从相同样本产生的约190x较大的HiSeq数据集(〜18 Gb)组装的大型重叠群组成(即约占总重叠群的62%)。使用PacBio CCS和HiSeq重叠群的混合组件在装配统计数据方面进行了改进,包括平均重叠体长度和大型重叠群数量的增加。CCS数据的并入产生了两个显性系统的分类学分类,基因组重建的显着增强,使用HiSeq数据单独组合则分类不佳。总而言之,这些结果说明了PacBio CCS在某些宏基因组应用的价值。
用户1075469
2020/03/03
2.8K0
几个肠道微生物检测方法的对比
由安吉莉娜·茱莉助推的基因检测仍在持续火热,蓝海逐步成为红海。而早就有人把目光投向了肠道微生物群的检测,最近一段时间ncs的接力发表足以说明它的火热,检测公司国外有ubiome等,国内也有多家公司进行这个检测。下面,我们来管中窥豹,看看几个检测方法的比较,只说我用搜索引擎找到的公司,无任何偏好性。
用户1075469
2020/03/03
3.6K0
生物信息技术-chap6 微生物群落分析
首先,有两个常规成列的数据,分别是有效测序数据和高质量测序数据,以及后面的高质量序列数的占比,是对测序结果的最直观最基本的描述。
波小囡
2023/11/28
4740
一作解读|Nat. Biotechnol.:水稻NRT1.1B基因调控根系微生物组参与氮利用
https://www.mr-gut.cn/papers/read/1070836774
生信宝典
2019/05/14
4.5K0
Microbial Biotechnology: 微生物学中的随机性
Link: https://sfamjournals.onlinelibrary.wiley.com/doi/full/10.1111/1751-7915.13575
Listenlii-生物信息知识分享
2020/05/31
2.1K0
SEL:估计1m2表层土中的微生物α多样性
英文标题: Assessment of microbial α-diversity in one meter squared topsoil
Listenlii-生物信息知识分享
2021/08/27
5740
SEL:估计1m2表层土中的微生物α多样性
宏基因组建库测序
宏基因组研究涉及的样品广泛,因此样品提取比较困难,且有很强的针对性。这里面为大家推荐国内的 Bio-protocol 精选集。下面是引用里面的简介。
生信喵实验柴
2023/02/24
9880
宏基因组建库测序
推荐阅读
相关推荐
全长转录组 | PacBio 全长转录组测序的时代是否已经来了? Kinnex full-length RNA Kit测评
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档