前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >高分辨率系统发育微生物群落剖析

高分辨率系统发育微生物群落剖析

作者头像
用户1075469
发布2020-03-03 11:24:36
1.3K0
发布2020-03-03 11:24:36
举报
文章被收录于专栏:科技记者科技记者科技记者

摘要:在过去十年中,在微生物群落分析方面,短读长高通量16S rRNA基因扩增子测序,已经使克隆依赖性长读长Sanger测序黯然失色。过渡到新技术提供了更多的定量信息,牺牲了分类分辨率,其具有推测各种生态系统中的代谢特征的意义。我们应用单分子实时测序进行微生物群落分析,获得全长16S rRNA基因序列的高通量,我们建议命名为PhyloTags。我们进行了基准测试,并通过应用到特定的微生物群落验证了这种方法。当进一步应用于来自Sakinaw湖的水柱样本时,我们发现,尽管门水平上,PhyloTag和Illumina V4 16S rRNA基因序列(iTags)群落结构的分析结果之间是可比较的,方差随着种群复杂性和水深的变化而增加。但是PhyloTag还允许较少的模糊分类。最后,关于平台的比较,PhyloTags和silicon产生的部分16S rRNA基因序列显示出群落的结构和系统发育分辨率跨多个分类级别的显著差异,包括严重的低估涉及氮和甲烷的特定微生物属的丰度,在湖泊的水柱。因此,PhyloTag提供了可靠的具有成本效益iTags的补充(adjuction)或替代方案,可实现更准确地对系统发育微生物群落的分解代谢潜力进行预测。

通过1983年聚合酶链反应(PCR)的出现,小亚基(SSU或16S)核糖体RNA基因已成为最广泛使用的进行系统发育分析的标记物,它可以对新型细菌和古细菌分类群进行分类。除了提供分类信息,纯培养的16S rRNA基因分析已经改变了微生物的生态研究和人类健康,实现了量化了解微生物群落多样性自然和工程生态系统,包括我们的自己的身体。

然而,在过去三十年间,随着公共16S rRNA基因数据库的扩展,这些数据库面临着将序列准确放入给定参考树中的挑战。这个挑战对于环境16S rRNA基因序列特别突出,这些序列以未培养微生物代表,有大量新型分类标记。通过专门的数据库开发和定制分析工具,大量的个人和机构努力使环境16S rRNA序列的分类标准化。尽管有这些改进,低精度的参考序列,嵌合序列和部分rRNA基因序列,短读长测序平台如454和Illumina公司仍然存在以上问题,降低了系统发育分析的分辨率,导致不正确的或不准确的环境序列分类。虽然这些平台上的测序读长继续提高,但仅全长(FL)或近全长的16S rRNA序列才被证明是精确系统发育进化树构建所必需的。鉴于大多数当代16S rRNA序列信息来源于短读测序平台,这一现实带来了严重的分析挑战。

最早使用的是Sanger测序进行环境16S rRNA基因谱研究,其可以提供准确的近FL序列。 然而,该方法仍然是昂贵,并且通量较低,需要在测序之前克隆PCR产物。 因此,基于Sanger的基因谱研究通常涉及相对较少的样品,每个样品少于几十到几百个克隆的序列信息。今天,Sanger平台上生成的微生物群落概况很少,不太可能捕获完整的种群多样性,所以短读长序列数据集是主流。第一个商业化的新一代测序仪Roche/454 FLX pyrosequencer,它提供了高通量测序技术,成本大约是Sanger测序的1/10。为了采用这种技术进行微生物群落分析,Sogin等 (2006)PCR扩增细菌16S rRNA基因的V6可变区,在单次运行中产生了多达118 000条'16S pyrotags'平均100 bp读长度,比任何先前的桑格研究获得了更多的序列数量级。使用barcode可以在单次运行中实现不同样本的多路复用,进一步增加了454平台的统计功能。Lazarevic et al (2009)通过V5环路区域的扩增和测序,将该测序范例移植到Illumina平台(Illumina,Inc.,San Diego,CA,USA),提供了更大的测序覆盖深度和更低的价格。目前,微生物群落分析最常用的方法是在 Illumina平台上使用V4,V3-V4或V4-V5引物,产生平均读取长度为250-430bp的所谓的Illumina V4 16S rRNA基因序列(iTags)。事实上,GenBank中大多数16S rRNA基因序列都是由Illumina平台生成的,因为它们的规模经济(>4.1亿次reads数/MiSeq运行)和高基数精确度。尽管短读扩增子测序的容易度和定量能力,基于部分16S rRNA基因序列的不同分类级别的微生物群落多样性的表示方法已被怀疑,因为在引物选择,读取长度,环境来源,参考数据库和分配方法上影响生物进化树上的分类群丰度估计和位置精度。用于短读长序列的最佳引物选择需要与其他数据集进行比较,并且对全长16S rRNA基因序列进行分析,以将准确的分类法分配给不完整序列。PacBio最近开发了一种长读长测序技术,其首次在测序历史上具有以相当高的通量,成本有效地测序全长16S rRNA基因的能力。用作“金标准”的全长序列的复兴有可能再次转变微生物群落研究,增加在生命进化树中已知和新颖的分支,使分类学作业的准确性提高到以前无法获得的尺度。

在这里,我们通过应用PacBio长读式单分子实时(SMRT)测序技术进行高分辨率系统发育微生物群落分析,直接解决了与部分16S rRNA基因测序相关的当前局限性。随着近年来PacBio测序性能的提高,其平均读取长度现在超过8 kb,读取精度为最高到87%。在理论上,这样的读长长度可以通过循环测序为1.5kb 16S rRNA基因扩增子提供高质量序列,但是这种方法仅用于了少量环境调查。为了测试和验证这种方法,我们从23个培养的细菌菌株的定义的模拟群落中产生PacBio鸟枪法序列以及PacBio 全长(PhyloTags)和iTags。然后我们采用这种相同的方法来评估加拿大不列颠哥伦比亚省阳光海岸的Sakinaw湖的微生物多样性,这是一个富含候选门的美丽湖泊。

材料和方法

DNA提取

模拟群落由23个细菌和3种古菌组成,如补充说明表1。

Phylum

Species

Strain

Genome size [bp]

GC []

GenBank Accession ID

# of scaffolds

Actinobacteria

Nocardiopsis dassonvillei

DSM 43111

6543312

72.7

NC_014211

2

Actinobacteria

Segniliparus rotundus

DSM 44985

3157527

66.8

NC_014168

1

Actinobacteria

Olsenella uli

DSM 7084

2051896

64.7

NC_014363

1

Proteobacteria

Frateuria aurantia

DSM 6220

3603458

63.4

NC_017033

1

Proteobacteria

Pseudomonas stutzeri

RCH2

4600489

62.5

NC_019936

4

Deinococcus-Thermus

Meiothermus silvanus

DSM 9946

3721669

62.7

NC_014212

3

Firmicutes

Thermobacillus composti

DSM 18247

4355525

60.1

NC_0198797

2

Acidobacteria

Terriglobus roseus

18391

5227858

60.3

NC_018014

1

Actinobacteria

Corynebacterium glutamicum

ATCC 13032

3309400

53.8

NC_003450

1

Verrucomicrobia

Coraliomargarita akajimensis

DSM 45221

3750771

53.6

NC_014008

1

Proteobacteria

Salmonella enterica subsp. arizonae serovar

RSK2980

4600800

51.4

NC_010067

1

Proteobacteria

Salmonella bongori

NCTC 12419

4460105

51.3

NC_015761

1

Proteobacteria

Escherichia coli

MG1655

4639675

50.8

NC_00913

1

Spirochaetes

Spirochaeta smaragdinae

DSM 11293

4653970

49.0

NC_014364

1

Firmicutes

Desulfotomaculum gibsoniae

DSM 7213

4855529

45.5

NC_021184

1

Proteobacteria

Hirschia baltica

ATCC 49814

3540114

45.2

NC_012982

2

Bacteroidetes

Echinicola vietnamensis

DSM 17526

5608040

44.8

NC_019904

1

Firmicutes

Desulfosporosinus acidiphilus

SJ4 DSM 22704

4991181

42.1

NC_018068

3

Firmicutes

Desulfosporosinus meridiei

DSM 13257

4873567

41.8

NC_018515

1

Firmicutes

Clostridium thermocellum

ATCC 27405

3843301

39.0

NC_009012

1

Thermotogae

Fervidobacterium pennivorans

DSM 9078

2166381

39.0

NC_017095

1

Firmicutes

Streptococcus pyogenes

M1 GAS SF370

1852441

38.5

NC_002737

1

Firmicutes

Clostridium perfringens

ATCC 13124

3256683

28.4

NC_008261

1

Escherichia coli, Salmonella bongori, Salmonella enterica, Clostridium perfringens, Clostridium thermocellum and Streptococcus pyogenes ( 大肠杆菌,沙门氏菌,肠炎沙门氏菌,产气荚膜梭菌,热纤梭菌和化脓性链球菌)自ATCC购买。

嗜热玻璃芽孢杆菌(Thermobacillus composti)和谷氨酸棒杆菌(Corynebacterium glutamicum)使用苯酚 - 氯仿抽提,描述于Moore and Dennis(2002)。

Desulfosporosinus acidiphilus, Desulfosporosinus meridiei, Desulfotomaculum gibsoniae, Echinicola vietnamensis, Frateuria aurantia, Natronococcus occultus, Olsenella uli and Terriglobus roseus 使用JetFlex基因组DNA纯化试剂盒(GenoMed公司,loehne,德国)

Hirschia baltica使用的血液和细胞中提取的DNA抽提试剂盒(Qiagen公司,瓦伦西亚,CA,美国)。

Meiothermus silvanus, Nocardiopsis dassonvillei and Segniliparus rotundus 使用 Qiagen Genomic 500 DNA Kit (Qiagen, Hilden, Germany)

Pseudomonas stutzeri 使用基因组DNA纯化试剂盒(Promega公司,Madison, WI, USA)

Coraliomargarita akajimensis, Halovivax ruber and Spirochaeta smaragdinae 使用 Masterpure Gram Positive DNA Purification Kit(Epicentre,Madison,WI,USA)

使用PicoGreen测定和Qubit 2.0荧光计定量所有DNA提取物。

每个样品一式四份进行定量。样品以不同比例汇总以产生模拟群落。环境DNA从加拿大不列颠哥伦比亚省的Sakinaw湖(49°40.968'N,124°00.119'W)收集,深度间隔为30m-80m,2010年6月6日,2010年1月5日为120m。将水过滤到0.22μMSterivex过滤器(Mo Bio Laboratories Inc.,Carlsbad,CA,USA)上,如先前所述提取DNA(Wright等人,2009),并使用PicoGreen测定(Invitrogen)进行定量。

模拟群落的DNA鸟枪法测序

模拟群落的鸟枪法序列是使用PacBio RSII上的一个SMRT单元平台生成(Pacific Biosciences,Menlo Park,CA,USA)。PacBio序列的质量过滤和纠错是通过使用hgap自我校正来对所有读取进行映射的。获得了23 848个质量较好的读取,平均读取长度为1472 bp,用于分析模拟群落。reads与使用BBMap(http://sourceforge.net/projects/bbmap/)从IMG(Markowitz,2006)下载的基因组进行了对比。 reads计数符合参考基因组的染色体大小。

引物,16S rRNA基因扩增和测序程序

16S rRNA( V4 iTags)通用引物 515 F (5′-GTGCCAGCMGCCGCGGTAA-3′) 806 R (5′-GGACTACHVGGGTTCTAAT-3′),其包含可变的12bp barcode序列。

全长16S rRNA 通用引物27 F(5′-AGRGTTYGATYMTGGCTCAG-3′) (Stackebrandt and Goodfellow, 1991) 1492 R (5′-RGYTACCTTGTTACGACTT-3′).

DNA扩增 KAPA SYBR FAST qPCR Kit (20 replication cycles) (Kapa Biosystems, Boston, MA, USA)

用Agencourt AMPure XP纯化系统(Beckman Coulter,Brea,CA,USA)纯化合并的扩增子,并用安捷伦生物分析仪2100(Agilent Technologies,Palo Alto,CA,USA)进行分析,以确认合适的扩增子大小。根据JGI的标准方法进行iTag和PacBio测序:将iTag扩增子稀释至10nM,通过定量PCR定量并在Illumina MiSeq平台(试剂盒v.3; Illumina Inc.,Carlsbad,CA,USA)上测序。

模拟群落PacBio文库使用PacBio SMRTbell模板准备工具包(Pacific Biosciences)从5个PCR技术重复产品构建,目标插入片段大小为2 kbp。PacBio的sakinaw湖深样本库的构建,利用PacBio文库制备试剂盒2(太平洋生物科学;250 bp–3 KBP)。所有的PacBio文库使用p4c2化学PacBio RS II平台进行测序,获得的序列量列于补充表2。

Sample

Pre-filter [bp]

# of filtered reads

Mean filtered read length

PacBio

Sakinaw-30m (16S)

45,702,375

32,981

1,385

Sakinaw-33m (16S)

36,994,598

25,336

1,460

Sakinaw-36m (16S)

38,551,567

26,546

1,452

Sakinaw-40m (16S)

53,666,002

36,971

1,451

Sakinaw-50m (16S)

50,444,718

35,197

1,433

Sakinaw-60m (16S)

37,868,486

27,420

1,381

Sakinaw-80m (16S)

35,938,242

25,997

1,382

Sakinaw-120m (16S)

29,836,502

21,772

1,370

Mock1 (16S)

480,683,863

28,660

1,405

Mock2 (16S)

296,102,991

17,658

1,438

Mock3 (16S)

371,365,190

20,686

1,380

Mock4 (16S)

443,798,432

25,159

1,394

Mock5 (16S)

392,112,677

21,546

1,396

Mock (shotgun)

429,847,389

53,164

1,024

Illumina

Pre-filter reads

Sakinaw-30m (16S)

325,565

310,015

253

Sakinaw-33m (16S)

73,425

70,692

252

Sakinaw-36m (16S)

52,586

49,474

253

Sakinaw-40m (16S)

57,994

48,661

253

Sakinaw-50m (16S)

12,646

12,105

253

Sakinaw-60m (16S)

58,475

49,511

253

Sakinaw-80m (16S)

27,515

23,756

253

Sakinaw-120m (16S)

366,185

336,952

253

Mock (16S)

2,116,448

2,005,818

278

在这项研究中,我们舍弃了从古细菌DNA产生的数据,因为我们用细菌通用引物扩增16S rRNA基因序列的生成。

处理、聚类和分类的扩增子序列

使用JGI iTag分析流程(iTagger v.1.1)分析iTag序列(Tremblay et al., 2015).通过与SILVA数据库的比对来实现集群的分类(参考文献119,2014年12月8日)。模拟群落iTag序列分为35个操作分类单位(OTU)群集,每个群集的>=10个reads(质量筛选后为1 680 879次)。源自试剂污染物的OTU占总群落的0.14%。Sakinaw湖样本返回366 185个iTag序列,它们使用97%的标准值分为2230个OTU簇。

PacBio 16S rRNA基因序列使用JGI SMRT门户的“插入”方案读取过滤,预测精度> 99%,对应于Q20。使用一组MOTHUR工具(align.seqs,summary.seqs,screen.seqs,chimera.uchime使用SILVA Gold作为参考数据库,remove.seqs,filter.seqs,unique.seqs,pre.cluster,dist.seqs,cluster,align.seqs,filter.seqs,dist.seqs)进行过滤,嵌合检测和聚类 。通过使用BBMap中的reformat.sh(http://sourceforge.net/projects/bbmap/)的读长度分析,通过过滤读取<=1340和>=1640bp来进一步除去嵌合体。

Database match

of reads

Dehalococcoidaceae

0.001

Acinetobacter radioresistens

0.001

Stenotrophomonas maltophilia

0.001

Methylophilus methylotrophus

0.001

Uncultured Crenothrix

0.001

Uncultured Legionella

0.001

Candidate phylum MSBL2

0.002

Candidate phylum HMMVPog-54

0.002

Candidate phylum JS1

0.004

Uncultured Lysobacter

0.006

Nesiotobacter

0.03

首先使用生成的合成数据集来优化工作流程中的每个步骤

在BBMap中使用randomreads.sh(http://sourceforge.net/projects/bbmap/)。从我们选择的可变长度(1.4-1.8kbp)的23个模拟群落基因组和可变平均质量评分(Q10-Q27)的16S rRNA基因序列的拷贝中进行合成读取。根据阅读的质量得分分配编辑(插入,删除和/或替换),模拟PacBio错误模型。丢弃只有<3个读取的簇。使用此工作流程(https://github.com/PacificBiosciences/rDnaTools),对来自模拟的FL 16S rRNA基因序列的所有质量过滤的读数进行了映射并渲染了28个OTU簇。使用相同的参数来聚类所有生物来源的全长 16S rRNA基因序列 。每个样本的序列通量和相应的OTU数字列在补充表2中。

使用来自相应参考基因组的拷贝数信息对模拟群体16S rRNA基因丰度进行归一化。

对于平台比较,来自Sakinaw Lake的PacBio FL和Illumina V4 16S rRNA基因序列根据最新的非冗余小亚单位SILVA NR Ref 119数据库进行分类,使用RDP分类器。如果置信度阈值>=0.5,报告分类学分类是明确的。

使用Spearman's sranks相关系数分析评估PacBio和Illumina测序回收的模拟群落结构的差异。用R语言对每个成对比较计算系数。比较Sakinaw湖深度样本和模拟群落样本(PhyloTags,PacBio鸟枪法和V4 iTags),通过在R中使用Bray-Curtis不相似性指数进行。在分析中,测序数据被分成6000reads(湖水样本)和2000reads(模拟群落)。原始和处理的序列数据可在JGI Genome门户页面(http://genome.jgi.doe.gov/PhyloTag.html)上公开发布。

群落比较和系统发育树重建

使用BBMap包中可用的各种工具对序列进行过滤和操作:

对于平台独立的群体比较,通过将V4引物序列(515F,806R)与PhyloTag序列(msa.sh)对齐并选择中间序列(cutprimers.sh)来检索V416S rRNA区域。筛选V4序列长度为232±60bp(3s.e.m.V4 iTag长度) (reformat.sh),在FL和V4序列池中存在195 036个序列(filterbyname.sh)。使用bbmap.sh(参数'ambiguous = all')将V4序列映射到PhyloTag。模糊匹配由Q4的映射质量定义(指示正确分配的<50%几率)。使用BBMap(idmatrix.sh,matrixtocolumns.sh)进行V4和FL序列的成对序列比对和随后的数据格式化。补充图7中的表中显示的各种%之间的序列,对应于分别包含专门存在于FL或V4序列中的序列。

在QIIME(v.1.9.0)工作流程中,对于表2中不同分类级别的群落比较,通过使用pick_open_reference.py与非冗余小亚基SILVA NR Ref 119数据库进行比对,对FL和V4序列分别在可信度90%,93%,95%,97%和98%的聚类分析。在QIIME(beta_significance.py)中评估了clusters在 FL和V4序列的群落结构差异的统计学意义。

结果

微生物群落分析的不同测序技术具有各自的平台特定优点和缺点。与Sanger测序相比,下一代测序的主要优点包括高通量和无需克隆,Illumina提供最低的每碱基成本(表1)。

Sanger和PacBio都允许(近)FL 16S rRNA基因测序,PacBio数量级更具成本效益,在群落分析中提供更高的系统发育分辨率。使用模拟和湖群落,我们下面的深入分析,进一步解决群落分析中PacBio平台的优势和潜在的弱点。

模拟群落分析

使用模拟群落的参考基因组,我们产生一个模拟的PacBio的16S rRNA基因序列数据集,所产生的PacBio的16S rRNA基因序列,用于在这项研究中所描述的序列处理流程的优化设计。

图1显示了PhyloTags(定义为使用SMRT技术产生的FL的16S rRNA基因序列)的工作流程。从原始连续长reads生成一致序列,以纠正大多数测序错误,使“插入序列”精度为99%,中位数为99%序列同一性。PhyloTag OTU是通过在预聚类步骤中与SILVA Gold数据库进行比对来定义的。 预聚类的PhyloTags被分为一致序列为每个单独的16S rRNA基因拷贝的OTU集群。然后将这些一致序列用于将剩余读数映射回同源OTU。在这里对OTU的定义是97%的一致性。

从23个细菌的模拟群落成员得到的基因组DNA(见材料与方法部分),对FL的16S rRNA基因以及V4高变区进行PCR扩增。利用PacBio SMRT RSII系统测序产生phylotags对Illumina MiSeq平台测序生产V4的itags”。为了测试数据的可重复性,设置了五个技术phylotag复制生成(材料和方法和补充图3)。

由于它们的偏差微乎其微,PacBio鸟枪法测序提供了每个模拟群落成员相对丰度的基线(补充图4)。

与DNA摩尔浓度相比,它们还提供更高的准确度和再现性(附图1和4)。所有五个模拟群落PhyloTag数据集都产生了类似的高质量PhyloTag百分比,并且成功地分组成22个OTU簇,其标准方法是分组两个序列共享> 97%16S rRNA基因的同一性(图1)。两种沙门氏菌属在其FL 16S rRNA基因序列的基础上为97.4%相同。通过其质量分数选择的每个簇中单个最佳PhyloTag是与模拟基因组的参考16S rRNA基因序列平均99.5%相同,而iTag共有序列是显示99.9%同一性。图2a(和补充图5)显示了各个测序平台所揭示的门级上的相对丰度模式。

鸟枪法被认为是对群落结构最准确的评估,因为没有扩增偏好性,因此用作扩增子数据集的参考。对模拟群落菌株的read丰度进行了斯皮尔曼Spearman级相关分析。五个模拟群落的PhyloTag技术重复显示了基于群落组成和OTU聚类的显著一致性(图2b)。

所有数据集共享至少0.84的相关系数与显著的P值,因此彼此不会怎么偏离(图2b)。根据%GC比较物种代表性在测序平台上没有明显的偏差(补充图6)。

V4 iTags和PacBio猎枪数据之间的稍微较高的相关性表明,短标签数据集总体上较少的PCR /引物偏好,至少对于模拟样本,提供了更准确的群落概况。然而,V4 iTag数据集中的一些差异值得注意,例如,富含Fervidobacterium pennivorans的丰度相对较高,缺乏Nocardiopsis dassonvillei。 添加0.01%(±22.74%)摩尔浓度的N.dassonvillei的DNA,仅出现在PacBio鸟枪法数据集中,相对丰度为0.0016%。扩增子数据不存在该物种可能是由于PCR的特异性偏差。最后,V4 iTag数据集包含各种污染物序列,其包含在PhyloTag中未观察到的所有序列的约0.05%(补充表3)。

Database match

of reads

Dehalococcoidaceae

0.001

Acinetobacter radioresistens

0.001

Stenotrophomonas maltophilia

0.001

Methylophilus methylotrophus

0.001

Uncultured Crenothrix

0.001

Uncultured Legionella

0.001

Candidate phylum MSBL2

0.002

Candidate phylum HMMVPog-54

0.002

Candidate phylum JS1

0.004

Uncultured Lysobacter

0.006

Nesiotobacter

0.03

Sakinaw Lake群落分析

为了评估PhyloTag测序法在环境调查中的性能,我们应用PhyloTag和iTag测序来捕获Sakinaw Lake的微生物多样性。Sakinaw湖是候选门一个在水柱沿氧化还原梯度定义分区分层中丰富的湖泊(Gies等,2014)。由于公共数据库中缺乏系统发育树参考,准确分类这样的候选门是挑战性的。一直以来,地理上孤立的美丽的湖泊一直被证明可以在氧化还原过渡区和分层湖水中拥有候选门的自然丰富。事实上,sakinaw湖已被公认为有高得出奇的细菌丰富性和多样性,同样有丰富的古候选门(Rinke et al.,2013;给et al.,2014)。根据定义,候选门没有培养代表,其系统发育位置很大程度上依赖于16S rRNA基因测序数据(Hugenholtz等,1998)。因此,新型谱系在候选门内的准确放置是扩展系统发育数据库的重要一步。我们为Sakinaw Lake群落中,从八个深度跨越水柱氧化还原梯度生成了PhyloTag和V4 iTag文库。由于细菌通用引物用于FL 16S rRNA基因的扩增,我们将比较分析专注于通过分配给SILVA数据库的细菌分类群的发生和丰度模式。

有趣的是,V4 iTags的0.2-4.1%在门诊水平上在分类学上未得到解决,而所有PhyloTag被分类为不同的细菌门(数据未显示)。总体而言,Sakinaw Lake各种深度的PhyloTag和V4 iTags之间的比较表明,细菌候选门较不普遍的30〜40m深度间隔的微生物群落组成概况非常一致(图2c和补充图7)。在这些深度,几个门是主导微生物群落,这些样本之间的群落组成的百分比差异大于50到120米之间的深度间隔。细菌候选门更普遍的50-120米深度间隔的principal coordinates analysis分析显示PhyloTag和iTags之间的群落组成概况在相对高的方差上的显著差异(图2c,插图7)。

系统发育分析

为了基于扩增子长度而不是测序技术和/或引物选择来评估群落概况中的差异,我们比较了从PacBio FL序列提取的PhyloTag和计算机生成的部分V4 16S rRNA基因序列。首先,采用一个随机抽样的一系列1818个非群集的PhyloTag跨越Sakinaw湖水柱及其相应的提取的V4区域进行全面对照的一致性比较。在多个实例中,当比较FL和V4序列时,相同的序列对表现出不同百分比的同一性(补充图8;实例由虚线描绘)。

在不同百分比标识阈值内的成对数量提供了这些差异的概述,这些差异是由16S rRNA基因突变的非均匀分布引起的(图3)。这种非均匀分布在不同的系统发育群体中不同,因此导致群落多样性的过高估计和低估。虽然这种比较不能完成聚类对实际微生物群落多样性的影响,但是它揭示了从所考虑的基因长度直接导致群集的模式。

接下来,根据SILVA数据库,对未聚类的PhyloTag和计算机生成的V4 16S rRNA基因序列进行分类。评估了各种分类级别的系统发育任务,约195 000个非簇状PhyloTag(总序列的84.0%)及其相应的V4区域从所有Sakinaw湖深度样品中合并。通常,V4 16S rRNA基因序列的分类学分类往往是不可能或不正确的,从而显著改变所有分类水平的群落概况(表2)。

将计算机生成的V4序列映射到其原始FL序列(通过使用BBMap的序列比对),34 345(17.6%)V4序列具有与FL序列模糊匹配的序列。相比FL序列,这些不确定的匹配也与V4的更频繁的模糊分类相关联。%分类序列的差异范围从门级水平的11.7%到物种水平的25.1%(表2b)。虽然序列级别的相对分类差异不直接转化为群落表示的差异,但它们影响后续的聚类步骤(图1和补充图2),这可能导致群落结构差异,如图2c所示,之前在 (Liu et al。,2007)讨论过。

例如,我们根据RDP分类器比较了FL和生成的V4序列,既没有由于低置信度值(<0.5)而丢弃,也没有显示门级分类差异。对V4 33283(17.1%)和10 507(5.4%)FL序列在门级水平分了类。总之,无法系统发育的V4序列中有68.4%可以根据其FL序列被归类于门水平(占总序列的12.0%)。有趣的是,有几个门,部分16S rRNA基因分析导致更高比例的错误分类和/或模糊匹配结果。例如,五分之一候选门中有三分之一以上的所有序列中有40%以上门根据V4数据进行不明确的分类,即候选门KB1不会有信心报道,而66.7%的Atribacteria细菌(OP9)和42.4%的Parcubacteria 细菌将被遗漏(图4a)。

FL和V4 16S rRNA基因序列之间的分类结果差异较大的其他门包括硝基菌(96.7%低置信度值; 0.02%错误分类),Firmicutes(79.7%低置信度值; 0.04%错误分类),Armatimonadetes(52.8%低置信度值 (低信心值为2.8%),酸杆菌(41.0%低信心值,0.5%错误分类),Deferribacteres(39.6%低置信度值),Verrucomicrobia(32.6%低置信度值; 1.9%错误分类)和Fibrobacteres(24.6%低置信度值) 图4a,补充图9和补充表5)。

Phylum

ambiguously classified in V4, classified according to FL

ambiguously classified in FL, classified according to V4

Fusobacteria

4.55

0

Caldiserica

4.13

0

Chlorobi

3.51

0.10

Deinococcus-Thermus

2.62

0

Chloroflexi

2.33

0.02

Proteobacteria

2.20

0.27

Actinobacteria

2.09

0.02

Thermotogae

1.37

0

Planctomycetes

1.28

0.06

Spirochaetae

0.41

0.01

Bacteroidetes

0.39

0.03

相比之下,补充表4a显示,52.7%的模糊分类的FL序列形成具有一到两个序列的簇,因此可能是测序错误的结果。其余47.3%分为213个序列簇,并返回具有最接近各门的RDP分类,包括Proteobacteria(17.4%),Verrucomicrobia(7.5%),Chloroflexi(7.0%),Acidobacteria(5.6%)和三个候选门 :细菌(9.9%),候选分区KB1(2.8%)和糖细菌(1.4%)(包括置信度值0.5)(补充表4b)。与我们的序列具有高序列相似性的成员目前从SILVA数据库中缺失,或者实际上可能构成新的候选门。

Phylum

Count [% of total clusters]

Proteobacteria

17.4

Parcubacteria

9.9

Verrucomicrobia

7.5

Chloroflexi

7.0

Acidobacteria

5.6

Deferribacteres

5.2

Actinobacteria

4.7

Bacteroidetes

4.2

Firmicutes

4.2

Planctomycetes

4.2

Nitrospirae

3.3

Tenericutes

3.3

Candidate division KB1

2.8

Chlorobi

2.8

Spirochaetae

2.8

Cyanobacteria

2.3

Lentisphaerae

2.3

Gemmatimonadetes

1.9

Synergistetes

1.9

Thermotogae

1.9

Armatimonadetes

1.4

Saccharibacteria

1.4

Elusimicrobia

1.4

Fusobacteria

0.5

根据它们相应的V4序列,608个未分类或错误分类的FL序列(5.8%的模糊分类FL序列)主要分为Dictyoglomi(8.3%低置信度值),Tenericutes(4.4%低置信度值; 0.6%错误分类) ,Firmicutes(3.7%低置信度值,1.0%错误分类)和蓝细菌(1.4%低置信度值; 2.0%错误分类)(图4a)。

分别由FL和V4序列表示的群落概况之间的差异在属级别也是显而易见的(图4b)。

在V4序列数据中,被低估的,包括在33和45m深度间隔之间的甲烷生物地球化学循环中的重要参与者(Gies等,2014)。这些属包括Methylocaldum(4510 FL和27 V4序列 33米; 1745 FL和35 V4序列在36m; 7314 FL和274 V4序列总数)和Methylotenera(2021 FL和1409 V4序列在33m深度; 1150 FL和803 V4序列在36m深度; 4331 FL和3099 V4序列总计)。Methylotenera是一组甲基营养型菌,根据其相对序列丰度,似乎是维持Sakinaw湖中C1化合物平衡的主要参与者之一(Kalyuzhnaya等,2012)。此外,序列丰度比较表明,Methylocaldum与Methylobacter一起可能是硫酸盐甲烷过渡带中的两个主要的专性甲烷营养属,在33和45m之间(Gies等,2014)。甲状腺杆菌是代表使用甲烷作为其主要碳源和能量来源的独特的严格性地甲基营养细菌的子集的甲烷营养属(Bowman et al。,1993)。Methylocaldum属于一组X型甲烷营养生物,成员能够使用甲烷以及甲醇(Pimenov等,2010)。甲烷浓度在33和45m之间确定最高,而O2浓度在33m以下降低(Gies等,2014)。因此,该深度间隔代表(微)亲氧甲烷氧化者的最佳栖息地(Gies等,2014)。

除甲烷循环以外,亚硝基单胞菌(149 FL序列和0 V4序列,30m深度; 173 FL和0 V4序列总数)和 Nitrospiraceae(882 FL和0 V4序列在50m深; 1634FLand0V4序列60m深度; 1737 FL和0 V4序列,在120m深度的1006 FL和0VV序列; 5260FL和1V4序列总数)提供了氮循环的潜在链接,但是V4数据很大程度上忽略了这些硝化物基团的鉴定。亚硝酸单胞菌成员将氨氧化成亚硝酸盐作为能量代谢的基础,并固定二氧化碳以获得碳(Schmid等,2000)。其主要存在在30m可能是由于需要氧气,但是避免光(Theodore和Wardle,2012),这是在Sakinaw湖的深度发现的原因(Gies等,2014)。硝酸杆菌和硝硝螺菌能够进行硝化的第二步(Nogueira和Melo,2006)。在30 m深度(67 FL和67 V4序列)的FL和V4序列中都发现了itrospira,完成了硝化过程。FL和V4数据集之间具有相似或较大序列丰度差异的其他属属于候选门(Parcubacteria,Omnitrophica,Aminicenantes),Chloroflexi,Bacteroidetes,Planctomycetes和Tenericutes(图4b)。目前数据库中这些门的属代表性是未经培养的和/或参考生物体的代谢潜力以前未与重要的生物地球化学循环相关联。

根据V4序列在FL序列中代表不足的一般主要由数据库中没有基因组的生物群组或任何其他功能预测组成。具有最大序列丰度差异的实例是未培养的细菌类细菌(分别为21和718 FL序列,分别为36和40m的320和1046VV序列),未培养的莱特氏菌属细菌(分别为27和28 FL,316和234VV序列,分别为40和50m )和Smithella(27 FL和268VV序列在50m)。虽然在PhyloTag中代表不足的属的缺乏生态数据不允许我们对其功能特性和/或生态作用进行推论,FL和计算机生成的V4序列之间的显著更高的序列差异表明,如果只考虑V4序列,会对群落概况的误解。

讨论

我们在这里展示phylotags不需要技术的复制和鸟枪法宏基因组序列密切相关。相对于传统iTag序列,phylotags总体表现出类似的结果,在相对简单的模拟群落,群落更复杂环境样品,PCR和/或引物的偏好可能是平台间差异的主要原因。在环境样品FL和部分扩增数据的比较,表明多个门被ShortRead序列完全错过了,群落结构在属的水平明显改变,以及一些优势菌属在sakinaw水体只能用phylotags解决。16S rRNA基因调查已经彻底改变了我们对微生物进化和多样性的看法。在推断微生物群落成员之间的亲缘关系上,FL的16S rRNA基因序列被认为比部分基因序列更有效(刘et al.,2007;沃尔特斯等人,2011;Soergel et al.,2012)。因此,能产生FL序列的Sanger测序平台长期成为金标准。然而,Sanger测序的麻烦和费用高,以及通量低,还需要克隆到宿主细胞,PacBio最近已提供符合成本效益的、高通量的替代,其产生的读长(2–15 KB),它可以被用来测序FL的16S rRNA基因。

很少16S rRNA基因序列研究使用了长读长的PacBio平台。虽然最近Babauta等人 (2014)对微生物群落的V1-V3区域进行了测序,成功地追踪了微电极相互作用富集过程中的群落组成变化,Mosher et al。(2014)得出结论,与454平台相比,16S rRNA基因序列>1400bp允许提高环境样品中物种水平的系统发育和分类学分辨率。我们的研究补充了这些努力,通过评估各种类型的群落分析的利弊,包括已知的简单和未知的复杂群落,数据库中丰富且最少的门户。它是使用PacBio平台上产生的FL 16S rRNA基因序列的第一个基准研究,并提供了当前iTag和新兴的PhyloTag 16S rRNA测序范例之间的综合比较,突出了短期和长期测序平台对微生物群落特征的影响解释。我们用于SMRT测序技术的基准的16S rRNA基因序列分析流程始终是可重现的。虽然模拟群落的组成分析显示霰弹枪数据和iTags之间的相关性稍高,但环境样品的分析表明PhyloTag的系统发育分辨率更高。与FL扩增产物相比,我们认为iTags和霰弹枪序列数据之间的相关性略高,是由于V4引物中较低的引物/ PCR偏差和所得的较短的扩增子。而且,这个模拟群落是由不多的16S rRNA基因,几乎是远相关的生物构成的,这些生物在数据库中很好地被代表。因此,对于FL或部分16S rRNA基因序列,准确的分类放置并不成问题。PhyloTag的分辨力在具有复杂微生物群落的样本中更显著,而数据库中的参考序列很少。错误分类,或由于读取长度而无法对序列进行分类,以及群落功能的解释是根据不同分类级别的群落多样性信息推断的。从物种到门,FL比V4序列多出12-25%明确分类的。因此,FL序列提供了一个更完整的群落组成图,以便将微生物参与者与给定生态系统内重要的生物地球化学循环进行准确的联系。事实上,FL序列使得能够识别已知参与Sakinaw湖中的甲烷和氮循环的丰富属,其在V4序列中表示不足。

由于PhyloTag在测序步骤期间不需要扩增,因此与其他平台相比,预测平台的测序特异性偏差通常会降低。PhyloTag测序还提供了最高的Contig精度,并且不区分GC丰富或不饱和区域,这进一步降低了基于扩增子的分析中的偏差(Quail等,2012)。PacBio序列中的原始错误率为15%,由indel主导,比替代更难纠正(B Bushnell,个人通信)。对于这项研究,使用较短的读数表示在同一分子上的许多共有序列。这些共有读数相对于原始基因组序列具有约0.5%的误差率。这足以使用97%的一致性阈值在物种水平上自信地分配OTU,因为来自相同序列的0.5%误差的两个reads将保留99%的同一性。然而,在这一点上,菌株之间的分化或生物体的16S rRNA拷贝数的定量仍然很困难。PhyloTag错误率可以通过多种方式进一步降低:首先,通过在聚类生成后选择一个共识序列。这需要新的算法开发,因为我们测试的共识程序没有产生足够的结果(通常在不同的16S rRNA拷贝之间产生嵌合体)。第二,更长的时间(捕获SMRT细胞的图像信息)将允许更多的分子通过,增加阅读内共识质量。第三,PacBio化学,软件和校准改进将直接导致更准确的序列。最后,折叠RNA的结构建模有助于区分遗传变异和测序误差,从而更好地纠错或过滤高错误率读数。PacBio一直在努力改进技术,正是考虑到这些参数(补充图10),所以接近桑格扩增子测序的质量随着时间的推移似乎是现实的。

虽然使用V4 iTags进行微生物群落分析具有成本效益(最低成本为0.11 $ / Mb),高通量复用,同时使用目标古细菌和细菌分类群的通用引物的可能性,以及深入了解稀有生物圈的机会的多重优势,这些都是牺牲分辨率为代价的。如果使用仅考虑部分16S rRNA基因的短读长序列进行评估,则准确扩展微生物16S rRNA基因目录将是具有挑战性的,可能导致多样性偏高或缺失,例如,在各种分类级别的新种属的分类。此外,用不同引物产生的数据集之间的比较可能导致分类差异,这限制了微生物群落分析的准确性。如果高通量的FL 16S rRNA基因测序作为Sanger测序的替代方法成为新标准,或者至少与Illumina 16S rRNA基因调查的互补,可以减轻这一限制。使用PhyloTag来评估环境样品中的微生物群落多样性使我们能够填补生命之树中的重要gap(空白),同时改善分类和微生物群落分布准确性,并对推断未经培养的微生物在自然和人类工程生态系统中的代谢潜力和生物地球化学作用具有重要意义。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-09-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科技记者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档