QIIME是微生物组领域最广泛使用的分析流程,2016年起北亚利桑那大学Gregory Caporaso教授开发了QIIME2。
自从知道了qiime2有了图形界面,一直期待自己能安装测试一下,无奈安装了ubuntu和debian两个linux发行版都在npm安装包的过程中报错失败了,看官网的截图是ubuntu的,我却没有成功。于是我总觉得我的黑果应该可以安装成功。因为某果很封闭,软件统一性较高,我是这样觉得的,软件体验应该比较好(PS.我不是果粉,对苹果持中立态度,也坚信开源,所以我在大神的资料下装了黑果,也足够用了)。而各种linux发行版虽然比较自由,也存在着碎片化,虽然debian、ubuntu、cent等已经足够简单易用,并且兼容性不错了,但是linux/gnu生态仍需要加油啊!
提醒一下,我们计划发布的 QIIME 2 计划于 2020 年 8 月发布 (QIIME 2 2020.8),但请继续关注更新。
很多小伙伴手头有生信数据分析,但苦于没有服务器,没法完成自己需要的数据分析,特别是处于学习阶段的同学。这里,向大家推荐一下使用腾讯云CVM服务器,按量计费进行数据分析。一般认为,除了公司,普通人难以负担高性能的服务器价格。但是现在无处不在的云服务,让我们可以享受随开随用的便利,在使用时间短的情况下,可以节约成本和时间,特别是如果有些数据库的文件在国外的情况下,由于出境带宽有限,使用一台物理位置在香港的腾讯云服务器可以节约大量的数据下载和软件安装步署时间,更加专注于数据分析。下面我以自己的qiime2分析微生物16S数据分析经历,介绍一下相关使用经验。
前段时间听说USEARCH即将开源,今天另一位小编发现GitHub上已经有开源代码了。我们随即搜索了开源版本的使用效果,发现V12版本的测试结果不尽如人意,具体详情请参阅这篇公众号文章。正当我感到失望时,浏览评论时发现了意外的惊喜——旧版本的64位虽然不会开源,介已经开放下载使用了!于是我们决定测试一下并向大家分享使用体验,一起试试吧!
前面说到Science封面文章用的16S数据分析流程有qiime2的插件版本,可以解决基于matlab MCR standalone版本的报错,于是实践一下!https://github.com/jwdebelius/q2-sidle。conda的安装就不表了,教程挺多的。
picrust2 beta既可以单独安装,也可以以qiime2-PICRUST2插件方式安装和使用,两者都可以在linux和Mac上运行,windows请使用虚拟机。
最近看到生信技能树的一篇推文在介绍nf-core这个流程管理工具,发现官方有qiime2的流程,学习一下,顺便探索一下中间的坑。关于nf-core,这篇推文已经介绍的够多了,我这里主要学习它的搭建和使用。
并行化、断点续分析、输出集合、基于阴性对照识别污染、宏基因组学工作流程(即将推出!)
首先把usearch申请下载到工作目录,然后docker挂载到home,当然如果linux就直接省了这一步了,可以下载(安装)好直接使用。
Conda 是一种通用包管理系统,旨在构建和管理任何语言的任何类型的软件。通常与 Anaconda 和 Miniconda 一起发放。
USEARCH 是继 Mothur 和 QIIME 之后的第三大流行扩增子分析流程,目前已被引用 20,824 次。USEARCH 由 Robert Edgar 独立编写,使用 C 和 C++ 开发,体积小,运行速度快且功能强大,且不需要依赖其他软件(安装过 QIIME1 和 QIIME2 的用户应该对此深有体会)。
之前分享过一个 qiime2 studio 图形界面的笔记(QIIME2图形界面版(Q2STUDIO)),是 qiime2 团队自己造的轮子,不过最近 qiime2 团队好像转向了利用 galaxy 轮子QIIME 2 2021.4 发布(qiime2 支持 galaxy 啦),还把官方的宣传和安装视频转载到过公众号,不过之前没有加字幕,看起来还是有点困难的,重新加了中英文字幕并校对了下。
今年 12 月,QIIME 2 团队选择放弃计划的 2023.11 版本,转而减少拉取请求的长队列并开发一些新功能。
在广大粉丝的期待下,《生信宝典》联合《宏基因组》在2019年7月19-21日北京推出《16S扩增子分析》专题培训第五期,为大家提供一条走进生信大门的捷径、为同行提供一个扩增子分析实战学习和交流的机会、助力学员真正理解分析原理和完成实战分析,独创四段式教学(3天集中授课+自行练习2周+集中讲解答疑+上课视频回看反复练习),“教—练—答—用”四个环节统一协调,真正实现独立分析大数据。
小编划重点:发布节奏改为每年两次!Python 3.9,去污染和分类器训练的更新,各版本的预训练的分类器下载更加方便。
下一版计划于 2021 年2月(QIIME 2 2022.2)发布,请继续关注更新。
2.一个新工具:qiime tools cast-metadata,允许用户通过命令行将元数据列转换为新的 q2:types
有多少小伙伴和我一样,一直期盼着Qiime2更新的,在月末,qiime2新版本终于发布啦!小编敲黑板:
在使用 QIIME2 分析 ITS 数据时,需要注释降噪得到的代表序列,而注释需要输入所参考的数据库。
Conda是一种通用包管理系统,旨在构建和管理任何语言的任何类型的软件。通常与Anaconda (集成了更多软件包,https://www.anaconda.com/products/individual)和Miniconda (只包含基本功能软件包, https://conda.io/miniconda.html)一起分发。
最近读微生态公众号中宏基因组的文章,发现阿童木写的教程,宏基因组的数据可以导入qiime2分析。于是有了发现新大陆的感觉,qiime2是一个优秀的可视化工具,有它在手,分析不愁呀,可是作者并没有给出怎样导入数据的教程,我摸索了一番,基本解决了问题,欢迎交流呀!数据是使用biobakery的流程得到的metaphlan3的结果,如下图所示:
该 SOP 基于 QIIME2 2020.2,学习之前建议先过一遍 QIIME2 “Moving Pictures” tutorial[1]。
这次不用测试数据了,用实际数据跑一下,所以同样重复之前的步骤,把fastq文件压缩下,然后,生成样本数据列表(ps.不知道fastq文件不压缩可不可以用,有空试下)。依然参考自上篇的统计咨询公众号的文章代码如下:
计划的下一个QIIME 2版本计划于2023年2月发布(QIIME2 2023.12)。
1.qiime tools validate这个命令现在可以确认.qzv文件的有效性了,而且会进行md5值的校验。
最近学习肠道微生物方面的知识,有一部分测序数据需要学习分析。鉴于qiime已经升级为qiime2,还有了图形版本,真是越来越人性化了,但是图形版本还处于原型阶段,测试安装两次以失败告终,可能是我的系统是deepin,通用性不好,如果在原生的ubuntu或许可以安装成功。话说qiime2已经在今年1月份代替qiime1成为官方支持版本,qiime1已经停止维护了,我表示对于我这种几乎没有qiime1使用经验的人来说,直接上手qiime2也不错。
我简单处理了下otu序列和表,使它们能导入qiime2,应该是一行shell代码解决的,shell水平不行,python来顶了。
这个发布生版本主要针对更新依赖环境,升级到了Python 3.6,一个新的 r-vegan Adonis visualizer,修复了一些小bugs,虚拟机镜像和新的预训练分类器立马可得。后面qiime2的发布节奏会是这样的:
QIIME(Quantitative Insights Into Microbial Ecology)和MOTHUR是引用最多、应用最广泛的软件。它们都可以用来分析原始测序数据生成OTU/丰度表,并进行不同样本的比较。QIIME2于2018年发布,是一个全新设计和重写的QIIME版本。
qiime1已经不更新的维护,虽然可以使用,毕竟已经有点过时。学习qiime2还是相当必要的,毕竟它是趋势。但qiime2更新是如此迅速,以至于许多翻译成中文的教程不少命令已然过时了,所以有必要学习一下两个月一更新的qiime究竟在命令上有哪些大的更改。
q2cli 1.在查看插件的详细信息时清理 –version 输出! 2.将多个小时的血液、汗水和眼泪投入到清理q2cli体验中,变化包括: 1)--cmd-config 已经被删除了(它没有得到充分的记录,并且增加了很大的复杂性)。我们鼓励需要编程控制的QIIME2用户改用PythonAPI,这要灵活得多。 2)--py-packages从qiime info 中移除了(它已经坏了),使用conda list代替。 3)--output-dir 和--o选项中,在执行命令之前,请确保路径是可写的。 4)
qiime2 有自带的差异分析工具的(composition ancom),可是,大家已经习惯了一直用的 lefse,于是,把 qiime2 的结果导出进行 lefse 分析,在某种程度上就是一个“刚需”啦!在希望 qiime2 官方或者 lefse 官方做一个 q2-lefse 之前,我们的解决方案有哪几个呢?这里分享下我找到的几个,欢迎补充。
提醒一下,我们下一个计划发布的QIIME 2计划于2021年4月发布(QIIME 2 2021.4),但请继续关注更新。
还是获得16S物种丰度得老问题,最近在一台新机器上安装qiime1,发现有报错,对于这种停止维护的软件,也是正常现象吧,于是想别的办法解决,恰巧最近读R几本R语言的入门书,发现prop.table()这个函数是可以实现相关功能的,于是学习使用下。可能你早已会做这个啦,还是分享一下,看看有没有人需要。
QIIME 2 2020.2 更新踩着2月的尾巴来了!疫情仍在,学习的好时光呀,加油!这次更新有一些小的命令更改,已经把需要关注的重点更新突出显示。官方提醒下一次的更新发布是QIIME 2 2020.5,请持续关注更新。
一直迷惑于如何把qiime2和picrust结合起来用来分析16S的数据,直到这两天,看到了微生太公众号的视频教程,才有了眉目,原来如此。详细视频教程可以查找相关公众号获得。前面看到picrust2已经处于beta状态了,其可以嵌入于qiime2中,使用更方便,可是我的试用结果却差强人意,或许是我的使用过程有问题,16G内存的要求一般的电脑也难以实现。之前使用picrust1网页版(Galaxy平台,不是三星的那个,是个生物信息云平台软件系统)分析的效果还可以,于是决定用picrust1再试试。发现pcirust在今年6月份更新了1.1.4版。
我们知道,不管是16S等扩增子测序,还是宏基因组,最后最重要的结果,就是物种的丰度情况了,qiime2给出的16S丰度结果是一个计数,对于许多软件来说这是可用的,那么如果我们想获得一个直接的百分比数据应该怎样做呢?
最早接触Kraken2这个软件是在宏基因组,但官网上说其实这个软件也是可以用于16S物种注释的。当时没怎么在意,后面发现有个美国肠道微生物检测公司Thryve是使用这个软件进行物种注释的。最近发现2020年9月的一篇文章是比较了kraken2和qiime2的物种注释结果,详细见宏基因组公众号的文章。
前面我们探索了处理不能拼接的V4 PE150数据,首先双向reads根据质量情况分别切成120bp,然后使用dada2 R包进行了直接+10N拼接,生成ASV表,再分别使用dada2包,decipher包和qiime2进行了物种注释,基本上完成了一个最简单的分析过程。这里填下自己之前挖的坑,比较一下这个含有348条序列的样本,qiime2,dada2和的分类器哪个效果更好。
做了一次搬运工,把 Qiime2 官方教程搬到了 B 站,B 站确实有机器的字幕,但是现阶段的 AI 字幕对于生物领域还是比较不友好的,特别是对于些专有名词,比如 qiime 直接翻译成 china。所以,未来每个人有个专属的工作 AI 助手应该是个未来的趋势啦!鉴于字幕不好, 我就每个视频把字幕校正了一遍,断断续续有半年多,终于理完啦!字幕重新上传了 B 站。当然,这也是一个学习的过程,大佬的讲解,让我也学到了不少,这里就选三个亮点分享一下!
接着前面的内容,这里再进行下数据库的处理,看看从参考数据库就按测序数据处理是不是能提高物种注释的精度。这里先预报一下,种的分类结果并不能有明显的提升,或许是因为序列长度的缺陷,即使再努力提高技巧,终究不能解决根本的问题,250bp的长度,对比1500bp左右的全长,显然还是太短了,难以实现精确的分类,所以,要想更精确,只有上16S全长,这只能寄望于Pacbio,Oxford Nanopore,和10x linked reads或者类似的技术,比如华大的sLtFR等技术提升读长了。再激进些,等测序成本足够低,上宏基因组,宏转录组了。
QIIME 2 2019.7 昨天发布了,让我们来看一下更新了哪些内容。下一次更新在2019.10下旬,请持续关注。虚拟机镜像更新将在下周放出。
这一步是提取一个区域的数据库,基于K-mer,为了提升内存效率,把简并碱基和重复kmer作为一条序列。
Quantitative Insights Into Microbial Ecology (QIIME)广泛应用于微生物群落的分析。本研究利用模拟群落(mock community)研究了QIIME默认参数对分析结果的影响。模拟群落包括8个原核生物和2个真核生物。采用两种混合方式:混10种生物的细胞或者混DNA。
自从最近发现qiime2推出了自己的官方视频教程,教程使用QIIME 2的Galaxy界面。为了让大家看得方便,就花了点时间搬运到了B站,并添加了AI双语字幕,然后人工校对了下,顺便学习了一遍。https://www.bilibili.com/video/BV18P4y1T7vU
2、q2-dada2 denoise-paired增加了一个新的参数,使这种方法的用户能够控制最小长度的前进/反向重叠。此方法的的默认值12,和先前版本保持不变。
今天看到官网论坛上宣布,QIIME 2 2023.7 版本现已发布!计划的下一个QIIME 2版本计划于2023年9月发布(QIIME 2023.9),本次更新是一个小的版本更新,更新频率挺高,不过还是有一些改变的,一起来看下!qiime2团队的目标真的是星辰大海,这是全世界科研工作者合作的力量,重命名为“扩增子发行版”,这意味着宏基因组版本很快将到来!
继续前面的文档学习,地址在这里啦!官方文档 SMURF 算法的核心是基于基于 kmer 的短区域重建到全长框架中。有两个步骤,首先是ASV在单个区域基于kmer进行比对,然后完整的序列集组装成重建的计数表。
前面做的许多处理基本上自己拼凑来的,下面再看下完整解决方案。researchgate网站上有人说qiime1版本有这个双向数据配对不拼接的选项?这个没找到。主要发现了有两个方案,一个是有篇文章提出了一个流程Hybrid-denovo,还有一篇peer review的文章,几个人评议还有一个人不同意,anyway,都看下。
领取专属 10元无门槛券
手把手带您无忧上云