人类微生物组计划 - 宏基因组/16S分析流程 bioBakery

bioBakery是NIH人类微生物组计划实施过程中开发的部分软件和使用教程的集合,主要由哈佛大学的Huttenhower实验室开发。提供了16S, 宏基因组宏转录组分析的全部流程,并可以生成结果报告。

其主要工具如下(可单独安装,也可打包安装):

这都是宏基因组和16S分析常用工具,软件使用请看宏基因组分析教程合集

biobakery安装

下面4中安装方式,按需选择。

  1. 使用conda一个个安装,Conda安装方法
  2. 使用Docker安装,docker run -it biobakery/workflows bashDocker使用教程
  3. 使用HomebrewLinuxbrew安装,brew install biobakery/biobakery/workflows
  4. 使用pip安装(部分依赖包需要手动安装),pip install biobakery_workflows

biobakery数据库安装

# To install the full shotgun databases:
biobakery_workflows_databases --install wmgx

# To install the full 16s databases:
biobakery_workflows_databases --install 16s

16S分析流程

# All input files are located in the folder input and all output files will be written to the folder output_data.

biobakery_workflows 16s --input input --output output_data

这个分析流程与我们的培训扩增子有参无参和功能分析主体类似,而且我们在这个基础上做了比较多的拓展,可以获得更多定制分析结果。本课程也有配套视频在腾讯课堂https://bioinfo.ke.qq.com/, 欢迎观看。

16S DADA2分析流程

宏基因组流程

软件流程网址

https://bitbucket.org/biobakery/biobakery/wiki/biobakery_workflows (后台回复 biobakery获取可点击的链接)

新一期的宏基因组课程开始了,2018年10月19-21日, 相约北京鼓楼,一起讨论宏基因组分析专题。内容涵盖这套流程,并且增加了无参宏基因组分析(bin)。

课程大纲

每节课1小时一个主题,理论结合实战,学懂原理,实战实操,全是老司机多年经验和代码的无私分享。下面是课程安排,如11代表第一天第一节课,26代表第二天第六节课,41为两周后的线上集中视频答疑。

编号

主题

简介

11

Linux基础

简介、远程登陆、文件传输、常用命令

12

Linux软件安装

Conda安装与配置,宏基因组相关软件安装

13

Win软件安装

git、R、Rstudio、R包、STAMP、AI等

14

图表解读

常用分析图表在文章中意义和使用场景

15

R基础

发展史、生物学中应用、ggplot2绘图

16

可视化

16种图表的数据整理和在线绘制

21

宏基因组简介

发展史、常用技术适用范围、分析思路

22

宏基因组有参质控

KneadData质控、parallel 并行计算

23

物种和功能组成

MetaPhlAn2物种组成,HUMAnN2功能组成

24

物种和功能可视化

LEfSe、STAMP、GraPhlAn、Krona

25

网络分析

igraph、SpaCC网络绘制物种、功能和多网络属性比较

26

网络美化

Cytoscape、Gephi网络美化和修改

31

无参质控软件

FastQC, Trimmomatic, MultiQC, Khmer

32

拼接和分箱

MEGAHIT, QUAST, MaxBin2, MetaBAT, VizBin

33

物种和基因注释

Prokka, Salmon, Kraken

34

功能注释

KEEG、EggNOG、CAZy、CARD

35

细菌基因组进化

Bins提取保守基因、多基因进化树

36

AI排版与绘图

AI多图调整一致和简单模式图绘制

37

考试50题

自评学习效果、知识点回顾

41

答疑-线上

答疑、考试内容串讲

针对使用R语言绘图学习时间成本较高的问题,易生信团队针对常用16种图开发了免费绘图网站,一键出图,更可鼠标点选参数修改图形的个性样式。

宏基因组分析基本思路——有参分析流程。主要通过MetaPhlAn2基于己报导的所有微生物基因组获得物种组成,基于UniRef、EggNOG、KEGG等蛋白数据库确定功能组成。16S扩增子数据本身只包含物种组成,可通过PICRUSt获得KEGG/COG的功能组成。

宏基因组无参分析,主要有两个目的:一是获得未被注释的物种和基因表达;二是通过Binning挖掘新物种的基因组。看样子很美好,但实际操作起来对计算量要求非常大。分析过程中比有参多了组装、基因预测、非冗余基因集构建和基因注释等步骤。

宏基因组基因组成、丰度、覆盖度等信息可视化

原文发布于微信公众号 - 生信宝典(Bio_data)

原文发表时间:2018-10-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏无原型不设计

优秀原型设计欣赏:美食类App原型制作-Kitchen Stories

题材有Mockplus(摹客)团队提供,仅供参考学习。

2097
来自专栏机器人网

工业机器人伺服结构和原理

伺服的结构是怎样的?一个最简易的伺服控制单元,就是一个伺服电机加伺服控制器,今天就来解析下伺服电机与伺服控制器。 电机动作的原理 右手螺旋法则(安培定则)——通...

3365
来自专栏Data Analysis & Viz

百年百图の中国(1900-1999):另类python爬虫和PIL拼图

标题有点长,也有点怪。前半部分文艺向,后半部分python技术向。目的就是用PIL库得到100张图的拼图(成果图见文末)。

792
来自专栏生信技能树

850K甲基化芯片数据的分析

作者是生信技能树组建的表观遗传学学习小组的小组长,前面已经发过一个: 学员分享-Chip-seq 实战分析流程 本文是看到生信技能树有个450K甲基化芯片数据处...

51911
来自专栏程序生活

Python爬虫系列(七)豆瓣图书排行榜(数据存入到数据库)

豆瓣用户每天都在对“读过”的书进行“很差”到“力荐”的评价,豆瓣根据每本书读过的人数 以及该书所得的评价等综合数据,通过算法分析产生了豆瓣图书250。 网址:豆...

3784
来自专栏小车博客

VPS常用的缩写、术语、谐音、黑话等

鸡、小鸡、大盘鸡都是什么鸡?石头盘、小水管、吃灰、探针、超兽又是什么鬼?邻居连累我被墙了?梯子爬墙?这都是什么关系?现在一起来看看这些术语是啥意思吧

6613
来自专栏阮一峰的网络日志

键盘之争:QWERTY还是Dvorak

上图是现在通用的QWERTY键盘,以键盘第一排字母的左边6个字母而得名。这种键盘是1868年由Christopher Sholes申请专利,后来在全世界占据了主...

3228
来自专栏程序员互动联盟

【程序员故事】搞笑篇

1、我真想开个程序员餐厅了,我当老板娘,进门时先写代码再进,一楼餐厅分C包间、java包间、linux/unix包间。搞开源软件的就坐大厅里,搞Ruby的上二楼...

2753
来自专栏算法+

MP3 编码解码 附完整c代码

图像方面,已经有stb_image,spot,freeimage等编解码库系列,做得特别赞。

1324
来自专栏生信技能树

(12)一些QC软件教程-生信菜鸟团博客2周年精选文章集

包括下面几个软件的用法,是我刚入门写的了,感兴趣的去我博客搜索看看,意义不大,我就复制粘贴那些内容了,我讲一点别的: solexaQA 对测序数据进行简单过滤 ...

5598

扫码关注云+社区