2014年发表于AEM,目前引用118次。
研究使用一种weighted randomized combination的算法,寻找最高覆盖度的简并引物。
并基于此开发了软件DegePrime,进一步重新设计了针对细菌V3-V4 region (341F-805R)的新引物。
在引物的设计过程中,较高的简并度有利于较高的覆盖率,但也可能导致非特异性扩增。因此,简并引物设计需要权衡特异性和覆盖度(敏感性)。
由于最大覆盖度简并引物设计(maximum coverage degenerate primer design, MC-DPD)属于NP完全问题(即,在多项式时间内不能精确求解的问题。在数学上NP完全问题是千禧年7大数学难题之一),就需要通过启发式方法来近似求解。
本文开发的DegePrime可以对MC-DPD问题进行近似求解,且得到的引物覆盖度高于之前软件HYDEN。
DegePrime得到覆盖度高于HYDEN。
设计的针对细菌V3-V4region (341F-805R)的新引物扩增能力与鸟枪宏基因组类似。
老引物341F’:
CCTACGGGNGGCWGCAG
新引物341’:
CCTAHGGGRBGCAGCAG
多3个简并,极大的提升了对古菌的覆盖度。但是同时会丢掉341F能扩增的一些物种,如Chlamydiae, Lentisphaerae, Planctomycetes, Verrucomicrobia。
老引物515F’:
GTGCCAGCMGCCGCGGTAA,用于地球微生物组计划Earth Microbiome Project。
新引物515’:
GTGBCAGCMGCCGCGGTAA。
多一个简并,极大的提升了对古菌的覆盖度。
横坐标为老引物(A,C)或新引物(B)得到的扩增子数据;纵坐标为宏基因组(A, B)或新引物扩增子数据(C)。
新引物与宏基因组结果基本一致,且新引物丰度高于老引物。
DegePrime基于perl,Github地址:
https://github.com/EnvGen/DegePrime
第一步,输入序列为比对后的序列,TrimAlignment.pl对齐序列(cutoff一般选0.9。1表示只输出每个序列中都有核苷酸的列);
第二步,主程序DegePrime.pl进行引物设计,输入引物长度及简并度(满足2^i * 3^j,i和j为整数),并输出覆盖度及相应简并信息。
第三步,可通过MakeRdpTaxonomy.pl或MakeSilvaTaxonomy.pl对RDP或Silva得到的物种信息进行前处理,并运行DegePrime.pl,输出的结果可按照不同物种进行分组。
Link:
https://aem.asm.org/content/80/16/5116.short
—END—