易生信-扩增子教程01-基本概念

距离上次《生信宝典》联合《宏基因组》组织的扩增子分析线下培训结束己经有三个多月了。

扩增子有参无参分析和功能预测》专题培训第二期已定于2018年9月14-16日北京鼓楼开课。更灵活的时间安排、更丰富的内容设置、更合适的前期预习、更多的优惠活动,点击阅读原文直达课程详情和报名页面。

为方便广大读者的学习,现在开始分享部分上次培训的内部资料——理论课程课件。希望对想自学分析的朋友起到一定帮助作用。

举一个简单的例子,学过高中生物的人都知道,孟德尔发现遗传学基本规律是(基因分离定律、基因自由组合定律)以豌豆为材料,传统的数量可以数过来,也容易发现规律。现代基因组时代,从万亿的数据中挖掘信息,借助当代计算机每秒上十亿次,以及上万亿次的超级计算机。

计算机是模拟人脑进行简单重复劳动的过程。数据存储于硬盘,读入内存用于CPU高速计算,结果再返回硬盘保存。服务器和台式机差不多,只是配置高一点,再就是多。

扩增子却是大数据时代中数据量最小的测序类型,一般配置高一点的笔记本和服务器可以搞定。价格从几千-几百万。研究所几百万,课题组10以内几十万,人少几万,个人初学几千就够用。

举个例子,你有一千份Excel表,主要工作是计算表格每行均值,再按结果降序排列,筛选出前3均值最高的候选。Excel中操作量与时间成正比的,编程批量操作分三个阶段:1. 手动操作几十份找规律;2. 停下工作编写程序并测试;3. 运行程序完成工作。(单位的文员最需要学编程,但他们会编程就叫数据工程师/科学家)

上文来自维基百科,我的翻译。建议阅读原文。下图是Natureprotocols杂志十年专题文章,回顾了这个领域的发展,近似的时间线展示开展相关领域微生物组研究时间。200年开始极端环境、植物、白蚁后肠、人类肠道、海洋、永久冻土、土壤沉积物。

每张图代表的是相同的群体,然而不同的方法可以定义此群体可提供的不同信息。- a. 微生物群:采用16SrRNA研究方法鉴定此环境中微生物的种类。- b. 宏基因组:微生物群的基因和基因组,包括质粒、强调群体的遗传学潜能。- c. 微生物组:微生物群的基因和基因组,以及微生物群的产物与宿主环境。

人——HMP,2008年,1.15亿美元,2016年二期5亿刀。Rob Knight领衔的。环境——EMP同时还有环境微生物种JackGilbert领衔的。动物;植物

基于二代测序,可以较容易获得大量数据;蛋白组、代谢组数据获取和分析更复杂,通量也不高;三代成本高。宏病毒组要测DNA+RNA。

16S rDNA或16S rRNA基因,我们研究的绝对不是16S rRNA,我们扩增的是DNA

截止171218日,QIIME9297次;Usearch 5981次;mothur 7869次,密西根大学(Universityof Michigan) 的Dr.Patrick Schloss领衔的团队开发的,其团队还开发有DOTUR(2005年定义OTUs和计算物种丰富度)和SONS(OTUs丰度比较)软件。

定量分析微生物生态;去复杂化、质控、OUT鉴定、物种分类、进化关系重建、多样性分析及可视化;它把这个领域打通了,整理了200多个软件和包,编写了150+脚本,几乎可以做本领域的任何分析。内容太多,学习成本太高,新用户无从选择。

2018年由QIIME2全面接档,由Python3编写。不是升级版,而是全新的分析流程,由1的作者继续开发。格式标准化,新手体验差,适合团队强制标准化分析。

商用版1485欧元,人民币5000多。

Usearch,有代表的核心算法。UCHIME和UPARSE,引用6500+,加上usearch 6500,有1.3万次。QIIME和Muthur都推荐使用UPARSE聚类。

本文分享自微信公众号 - 生信宝典(Bio_data)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-08-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏智能算法

108个程序员的笑话,你都看得懂吗?

1、程序猿最烦两件事,第一件事是别人要他给自己的代码写文档,第二件呢?是别人的程序没有留下文档。 2、程序猿的读书历程:x语言入门—>x语言应用实践—>x语言高...

62170
来自专栏GopherCoder

分享"一只爬虫"

19360
来自专栏阮一峰的网络日志

每周分享第 31 期

欢迎投稿,请前往 GitHub 的 ruanyf/weekly 提交 issue。

12830
来自专栏程序人生

为什么我们要阅读源码?

程序员每天都和代码打交道。经过数年的基础教育和职业培训,大部分程序员都会「写」代码,或者至少会抄代码和改代码。但是,会读代码的并不在多数,会读代码又真正读懂一些...

33880
来自专栏量子位

OpenAI创始人要自杀献身科学?别瞎说,人家是支持大脑上传

Sam Altman既是OpenAI的创始人,也是硅谷著名Y Combinator创业孵化器的创始人。

11660
来自专栏PaddlePaddle

AI不思议 | 你的智能音箱找到2.4G wifi了么?

智能音箱陆续已经火了一年多了,这期间:半夜突然笑出声的“亚马逊ECHO”、试图变成扬声电话的“谷歌home”、万变不离购物的“天猫精灵”、它吃火锅你吃火锅底料的...

17030
来自专栏JAVA高级架构

程序员幽默:66条让你笑爆肚皮的程序员段子

1、程序猿最烦两件事,第一件事是别人要他给自己的代码写文档,第二件呢?是别人的程序没有留下文档。 2、程序猿的读书历程:x 语言入门 —> x 语言应用实践 ...

38970
来自专栏FreeBuf

军火库(第一期):无线电硬件安全大牛都用哪些利器?

1. 诺基亚N900手机 这个手机是我最喜欢的装备之一(当年我还是个穷屌丝时候我老婆送我的生日礼物),N900基于Linux衍生版本Maemo,拥有纯粹的Lin...

59870
来自专栏FreeBuf

聊聊鲜为人知的美军内部异常监测系统(ADAMS)

最近在海淘美国历年的安全项目,突然眼前一亮发现了这个名为ADAMS的DARPA立项。项目的全称是“Anomaly Detection at Multiple S...

286110
来自专栏Data Analysis & Viz

用python的PIL库轻松拼接一百张照片

和大家分享下之前用python的第三方库PIL库进行多图拼接制作的一些漂亮的照片墙成果图。

34520

扫码关注云+社区

领取腾讯云代金券