在多种测序数据集和组装中,常常可以检测到污染、人为的spike-ins以及过度代表的rRNA序列,这些因素为数据分析带来了复杂性,并使得结果解释变得困难。特别是,某些作为控制的spike-ins,例如Illumina中的PhiX噬菌体或Nanopore数据中的DNA CS lambda噬菌体和酵母磷酸酰化酶ENO2,常常不被视为污染物,并在生物信息学分析中未被适当去除。
为了解决上述问题,我们推出了CLEAN,这是一个专为去除长读和短读测序技术中不需要的序列数据而设计的流程。该流程主要针对Illumina和Nanopore数据,可以有效去除它们的特定控制序列。此外,CLEAN也适用于其他常见任务,如宏基因组读取和组装的宿主去污染,或从RNA-Seq数据中去除rRNA。经过CLEAN处理后,得到的序列数据将是纯化的,同时还会识别出被污染的序列,并在HTML报告中提供统计摘要。
CLEAN的输出文件可直接用于后续的生物信息学分析,从而实现更高效的计算和更准确的结果。尽管去污染在生物信息学中可能被视为一个基础任务,但实际上许多污染物经常被忽视,或者在处理过程中不易被追踪。CLEAN的推出将确保测序数据分析的可重复性和平台独立性,并已在BSD3许可下开源。
领取专属 10元无门槛券
私享最新 技术干货