【直播】我的基因组76:用krona对血液全基因组的菌比例可视化

关于我前面我说到的NGS测序血液里面的菌的问题,总共8.9亿reads里面是有部分(850万)无法比对上的,850万里面只有不到10万比对到了微生物,说明我的基因组里面的微生物序列实在是太少了。很多人都给我了一些解释:

其实我用的软件和数据库就是基于kmer的,所以Tong Liu的解释我很认同。

liang博士

血液中有大量的细菌即菌血症,是很严重的感染。但是血液中有少量的细菌很正常,本来免疫系统的吞噬清除和微量感染就是一个平衡,准无菌水平而已。reads只占这么少的部分正常。

我们生信技能树论坛早就有帖子介绍:http://www.biotrainee.com/thread-1403-1-1.html 人类血液里面必然是有细菌等微生物(点击原文进行查看)

苏博士

上面的朋友说得差不多了。

湿的方面:多数是污染,气溶胶之类的污染还是不能完全避免。还有就是毕竟不是每个人都是“标准基因组”。

干的方面:也有极少量是随机匹配上的。还有就是比对软件也有各自的局限的,其实哪有绝对的标准答案。

另外,上面的一位朋友可以拿同样的数据再比对看看结果,比对数量增多可能只是细菌的数据库越来越丰富了而已。

虽然我也相信正常人血液中会存在痕量细菌这一情况,但其实就算这些测到的真是细菌的reads,那离血液中存在细菌这个结论还差得远呢。所以这个标题有点标题党了。甚至,也有可能这个结果比真实情况还偏低呢,针对动物血液的试剂盒,对细菌DNA的提取效率未必高。

随着高通量方法的发展,科赫原则也有了不少新的修正和发展,但其实也没个公论。

其他吃瓜群众说到:

吃瓜群众

抽血也可以引入皮肤定植菌,可以查一查这些细菌通常的传播途径和看看是不是很多可以经呼吸道传播。还有就是是不是正常菌群里的,比对一下病毒库,说不定也有很多病毒序列呢

下面进入正题:

前面我们介绍了表格版本的总结结果,比对成功的reads具体按照界门纲目科属种给数一下多少,然后算一下百分比。

其实比较主流的是用krona这个可视化js插件来把这个层级表格展现出来,如下:

圈圈从内到外依次是,界门纲目科属种,一般来说看最外层的各个菌种的占比即可。

要做这个图,首先需要安装krona软件,然后根据GOTTCHA软件对reads的分类文件进行处理即可。

Krona 百度搜索结果一般是冰岛克朗,是冰岛的官方货币,不过在生物信息学领域是一个可视化工具,而且用的是html5哦。你谷歌就明白了!

主页:https://github.com/marbl/Krona/wiki

安装方法是:

cd ~/biosoft
# https://github.com/marbl/Krona/wiki
mkdir Krona && cd Krona
wget https://github.com/marbl/Krona/releases/download/v2.7/KronaTools-2.7.tar
## https://github.com/marbl/Krona/wiki/KronaTools
tar xvf KronaTools-2.7.tar
cd KronaTools-2.7
mkdir bin
./install.pl --prefix ./

可视化命令:

~/biosoft/Krona/KronaTools-2.7/bin/ktImportText  P_jmzeng_temp/P_jmzeng.lineage.tsv -o P_jmzeng.krona.html

打开生成的html文件,就能看到上面的图啦。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-05-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏生信技能树

做过1000遍RNA-seq的老司机告诉你如何翻车

熟悉我的人都知道RNA-seq是我的拿手好戏(如果你不熟悉我,今天过后请记住)。 但是我今天处理了一个公共数据,比对率低的惊人。 究竟为什么会发生这种小概率事情...

35211
来自专栏数据派THU

独家 | Python数据分析入门指南

作者:Zack Jost 翻译:梁傅淇 校对:丁楠雅 本文长度为1500字,建议阅读3分钟 Zack Jost是美国第一资本投资国际集团的首席数据科学家,这是他...

1836
来自专栏PPV课数据科学社区

【每日一课】R语言入门教程-1.4R帮助文档

课程名称:R语言入门教程 第一章:认识R 1.4R帮助文档 【课程目的】 在大数据时代里,数据分析愈发重要,R语言适合做数据分析,R语言已成为许多数据分析...

2865
来自专栏我分享我快乐

PS绘制水晶球

前言:学生们在学习ps软件的过程中非常的认真与努力,所以对于软件的使用可以说已经很熟练了,可是为什么当我们给学生安排一些原创设计需求的时候,学生却有种无从下手的...

3797
来自专栏生信宝典

生信宝典之傻瓜式 (二) 如何快速查找指定基因的调控网络

我是谁?我在哪儿?我在查什么? 在信息爆炸的时代,相信很多小伙伴在查文章时会因信息量太大而抓狂。今天带来一款设计简洁、功能全面的基因功能查询工具,助你事半功倍,...

1866
来自专栏IT派

7月Python最佳开源项目Top 10

【导读】七月就要结束了,小编为大家整理了本月 Python 最受欢迎的十大开源项目。他山之石,可以攻玉,爱好Python的朋友们一起学习Github上的优秀项目...

533
来自专栏生信技能树

lncRNA实战项目-第四步-得到表达矩阵的流程

这是RNA-Seq 上游分析的大致流程,比对+定量。当然实验目的若只需要定量已知基因,也可以选择free-alignment 的流程工具如kallisto/Sa...

3235
来自专栏phodal

我是如何手绘文章中的流程图?

我们常说,「文不如表,表不如图」。而要做出一张适合文章的图,也不是一件容易的事。 图比表和文章更容易理解,但是其所花费的时间也更长。在构建得差不多的时候,写一篇...

3987
来自专栏华章科技

PPT装逼指南

虽然不是所有人都有大型演讲的机会,但混迹职场Presentation谁都会轮到几次吧。

813
来自专栏数据小魔方

图表案例——全球主流社交平台“网红”收入统计分析

为了练R竟然荒废了Excel两周,感觉太不像话了,今天赶紧用Excel练习一个案例,希望能够尽快找回感觉。 昨日浏览微博,在一个名为社会网络与数据挖掘的博主主页...

2573

扫描关注云+社区