评价真菌引物覆盖度(1)选择数据库

最近一直在做真菌引物覆盖度评价的相关工作,踩了不少坑,特此将其中的内容记录下来。本文是该系列的第一篇,介绍一下引物评价前数据库的筛选。

目前真菌扩增子研究中用到的引物十分广泛,仅ITS区域就有几十种不同的引物对可供选择。一些常见的引物如下图所示:

Source: To ju,H.,et al., High-Coverage ITS Primers for the DNA-Based Identification of Ascomycetes and Basidiomycetes in Environmental Samples. Plos One,2012.7(7).

对于引物的评价首先要确定引物所在的区域,如评价ITS2则需要真菌ITS区域的序列作为数据库;评价ITS5、ITS1需要SSU区域的序列作为数据库;评价ITS4则需要LSU区域的序列作为数据库。我遇到的其中一个坑就是刚开始没注意这个问题,只用的ITS序列进行引物评价,发现很多引物覆盖度为。后来对照引物位置才发现这个问题。。。

UNITE数据库

ITS区域最常用的是Unite数据库,Unite官网为https://unite.ut.ee/,最新的版本更新于2017-12-1。它包含了多种类型的数据可供下载,如QIIME,Mothur,CREST,general Fasta release等。其中每种类型都包含了四种不同的序列,分别为:带s和不带s的两种;以及不带dev和带dev的两种。

带s表明该数据库包含singletons;不带s表明该数据库不包含singletons。有dev的是没有经过ITSx切除的,包含了部分LSU和SSU序列;而无dev的是经过ITSx切除的序列,只保留ITS部分。四种数据库可以根据需要自行选择。其中dev版本对ITS区域的引物覆盖度影响几乎为,我测试的结果是用dev版本的覆盖度大概能提高~0.001%。Unite数据库中序列和物种注释信息都在fasta文件里,方便我们进行覆盖度的计算。

QIIME release的四种数据库名称如下:

无s:

sh_general_release_dynamic_01.12.2017_dev.fasta

sh_general_release_dynamic_01.12.2017.fasta

有s:

sh_general_release_dynamic_s_01.12.2017.fasta

sh_general_release_dynamic_s_01.12.2017_dev.fasta

Silva数据库

对于LSU和SSU区域,常用的是Silva数据库,官网为https://www.arb-silva.de/。最近一次更新是在2017-12-13,最新版本为Silva 132。Silva也提供了QIIME的版本可供下载。

对于Silva数据库有几个需要注意的地方:第一,Silva数据库的序列和物种注释信息是分开的,因此在评价覆盖度之前需要将两者合并,才能计算不同分类水平上的覆盖度情况。

第二,这里还有一个坑是fasta文件中的序列是AGCU而不是AGCT,也需要我们提前将U转成T再进行blast。我又是一开始没注意这一点浪费了不少时间。在Silva_132_notes.txt的说明文件中提到了这一点:

clean_fasta.py (Primer Prospector) was called on the input SILVA_128_SSURef_tax_silva_full_align_trunc.fasta aligned file, with default parameters,to convert U characters to T characters, and remove gaps (the output is the initial_reads_SILVA132.fna file in the raw_data/ folder).

所以一定要认真看说明文档!!!

第三,SSU和LSU对物种注释分类水平的级别不一样。LSU能精确到种级别,而SSU只能到目级别。所以要想计算SSU区域引物科、属、种水平的覆盖度就没办法了。

第四,Silva数据库包含所有的真核生物信息,而我们评价真菌的覆盖度需要从中提取出所有的真菌序列,需要对数据库进行预处理。

下一篇介绍如何对Silva数据库在R中进行预处理,并合并序列和物种注释信息。

一个环境工程专业却做生信分析的深井冰博士,深受拖延症的困扰。想给自己一点压力,争取能够不定期分享学到的生信小技能,亦或看文献过程中的一些笔记与小收获,记录生活中的杂七杂八。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181124G1P8F500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券