专栏首页科技记者宏转录组学习笔记(一)

宏转录组学习笔记(一)

前面提到,已经有两家公司通过宏转录组(Metatranscriptomics)测序检测肠道微生物,面向消费者提供检测服务。对宏转录组充满了好奇,有这样的比方说,宏基因组可以告诉我们这个微生物群落可能有什么样的功能(潜能),宏转录组就是告诉我们群落正在做什么,相比宏基因组的眉毛胡子一把抓,宏转录组是更针对当下的结果。由于测序的目标序列少了很多,结果不是变态大,对计算机的配置要求也相对降低。苦于想学宏基因组暂时没有服务器的我,就退而求其次试试宏转录组了,相信不会让我失望。之前学习过单转录组数据的分析,一般的笔记本(双核,8g ram)扛了下来。鉴于中文网络上能找到的宏转录组教程基本没有,只在Github上搜索到两个,选其中一个学习下。

1.整体过程概览

整理了一个流程图放在这里,和普通转录组的区别在于多了个物种注释的过程。

2.软件环境准备

软件安装使用conda进行,需要几个G的空间,由于电脑配置有限,教程可能止步于某个对配置要求特别高的地方,后面如果运算时间不长,下载数据量不大,内存和核心数要求不太高,成本可以接受的话可以考虑使用腾讯云、vultr,aws等云服务完成。

#首先安装conda, 添加清华源加速,教程有很多,这里省略
#建立一个新的工作环境
conda create -n tara
#激活工作环境
source activate tara
#安装所需软件
conda install fastqc multiqc trimmomatic khmer \
busco megahit sourmash salmon r dammit cd-hit -y
#可选,如果后面要把环境打包,可以导出一个环境的软件安装列表,如果哪天可以整体打包文件就好了
#conda env export -n tara -f $PROJECT/tara_conda_environment.yaml
#安装conda中没有的其他软件
cd <location-to-put-transrate>
wget https://bintray.com/artifact/download/blahah/generic/transrate-1.0.3-linux-x86_64.tar.gz
tar zxvf transrate-1.0.3-linux-x86_64.tar.gz
#添加环境变量
echo 'export PATH=/LUSTRE/apps/workshop/transrate-1.0.3-linux-x86_64:$PATH' >> ~/.bashrc
source ~/.bashrc
#安装 hmmer
wget http://eddylab.org/software/hmmer/hmmer.tar.gz
tar zxvf hmmer.tar.gz

3.数据和数据库准备

数据来自塔拉海洋探险[1](2009-2013)采样对比世界海洋生态系统,利用现代测序和最先进的成像技术收集环境数据和浮游生物,从病毒到后生动物,用于以后的分析。它对20个生物地理省份中的210个生态系统进行了调查,收集了35,000多个海水和浮游生物样本。

我们选择分析的数据是《全球海洋真核基因图集》的[2]一部分(Carradec et al.2018)[3]。本文使用跨转录组学的方法对TARA海洋数据进行了研究,从浮游性真核生物中生成了一个全球海洋参考基因目录,并探讨了它们在生物地理学和环境条件方面的表达方式。

在本次研讨会上,我们选择了东太平洋的TARA 135、136和137站,您可以在下面的地图上看到它们。我们分析了大小为5-20µm的mRNAseq样品(选择了poly-A,因此可能大部分包含真核序列)中的数据,因为该部分在我们选择的TARA工作站上具有良好的重复性。对于大多数教程,我们使用这些数据的一小部分,以使程序运行时在研讨会中可行。您可以通过开放式科学资源[4]找到完整的数据,以发现和分析塔拉海洋数据(Pesant等,2015)[5]。将向您展示如何从您的数据中获得与上述TARA论文相同的答案!

主要是教程中的样本测序数据,以及软件的数据库,文件较大,对于我们的网络,下载可能费时较长,可以使用多线程下载工具如axel、aria2等下载,加速明显。

#建立工作目录和数据目录
mkdir -p work/data
#转到工作目录
cd work/data
#wget下载测序数据, -c可以断点续传,如果支持的话,多线程工具下载耗时1小时左右
wget -c https://osf.io/76qm3/download -O tara135_1m.zip --no-check-certificate
wget -c https://osf.io/y5dfh/download -O tara136-137_1m.zip --no-check-certificate
#解压数据,并让数据不容易误删除
unzip tara135_1m.zip
unzip tara136-137_1m.zip
chmod u-w *fq.gz
#为了简单,定义一个PROJECT变量
 export PROJECT=~/work
 #查看文件
 ls $PROJECT/data/
TARA_135_DCM_5-20_rep1_1m_1.fq.gz       TARA_136_SRF_5-20_rep1_1m_2.fq.gz
TARA_135_DCM_5-20_rep1_1m_2.fq.gz       TARA_136_SRF_5-20_rep2_1m_1.fq.gz
TARA_135_DCM_5-20_rep2_1m_1.fq.gz       TARA_136_SRF_5-20_rep2_1m_2.fq.gz
TARA_135_DCM_5-20_rep2_1m_2.fq.gz       TARA_137_DCM_5-20_rep1_1m_1.fq.gz
TARA_135_SRF_5-20_rep1_1m_1.fq.gz       TARA_137_DCM_5-20_rep1_1m_2.fq.gz
TARA_135_SRF_5-20_rep1_1m_2.fq.gz       TARA_137_DCM_5-20_rep2_1m_1.fq.gz
TARA_135_SRF_5-20_rep2_1m_1.fq.gz       TARA_137_DCM_5-20_rep2_1m_2.fq.gz
TARA_135_SRF_5-20_rep2_1m_2.fq.gz       tara135_1m.zip
TARA_136_SRF_5-20_rep1_1m_1.fq.gz       tara136-137_1m.zip
#下载所需数据库文件,从名字可以看出是来自genbank的rna数据,还好数据不怎么大,一两G,三十分钟左右
wget -O genbank-rna-vertebrate_other-k31.tar.gz https://osf.io/qgyax/download
wget -O genbank-rna-vertebrate_mammalian-k31.tar.gz https://osf.io/6c9uy/download
wget -O genbank-rna-invertebrate-k31.tar.gz https://osf.io/7v8ck/download
wget -O genbank-rna-fungi-k31.tar.gz https://osf.io/g6mcr/download
wget -O genbank-rna-plant-k31.tar.gz https://osf.io/kctus/download
wget -O genbank-rna-protozoa-k31.tar.gz https://osf.io/fnu2q/download
wget -O mmetsp-k31-named.tar.gz https://osf.io/cdvqn/download
#使用一个for循环解压数据
for infile in *.tar.gz;do tar xf ${infile};done
#dammit数据库准备
dammit databases --install --busco-group metazoa  --quick

这样准备工作就基本结束了,可以愉快地进行学习了。

参考资料

[1]塔拉海洋探险: https://oceans.taraexpeditions.org/en/m/about-tara/les-expeditions/tara-oceans/

[2]《全球海洋真核基因图集》的: https://www.nature.com/articles/s41467-017-02342-1

[3](Carradec et al.2018): https://www.nature.com/articles/s41467-017-02342-1

[4]开放式科学资源: https://www.nature.com/articles/sdata201523#f2

[5]以发现和分析塔拉海洋数据(Pesant等,2015): https://www.nature.com/articles/sdata201523#f2

本文分享自微信公众号 - 科技记者(kejijizhe),作者:zd200572

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-03-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • ​宏转录组学习笔记(三)--通过脚本和snakemake实现自动化

    到目前为止,我们已经完成了所有工作,并复制并粘贴了许多命令来完成所需的操作。这可行!但是也可能很耗时,并且更容易出错。接下来,我们将向你展示如何将所有这些命令放...

    用户1075469
  • 简单的snptest要不要学

    下载地址在这个网站 https://mathgen.stats.ox.ac.uk/genetics_software/snptest/snptest.html

    用户1075469
  • 让windows 10 内置ubuntu(WSL)成为扩增子分析生产力

    先提示下,由于现在大部分电脑的win10版本是1903或者更低,wsl的性能相比2004版本的wsl2有一定差距。据说前者不是真正的linux内核,后者才是。又...

    用户1075469
  • WebRTC常见问题 (FAQ)

    业务后台实现,关于userSig参考:https://cloud.tencent.com/document/product/647/17275

    jialuhu
  • prometheus 监控docker

    cAdvisor(Container Advisor)用于收集正在运行的容器资源使用和性能信息。

    py3study
  • SpringCloud核心技术 | 初识SpringCloud微服务解决方案

    最近这几个月文章更新处于停滞状态,因为公司的事情比较多,公司系统一直处于高速的迭代更新阶段, 尽管如此,我这段时间也一直在整理接下来要更新的文章大纲以及知识点...

    恒宇少年
  • Docker Frp 中文文档

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 tcp, udp 协议,为 http 和 https 应用协议提供了额外的能力,且尝试性支持了点对点穿...

    雪梦科技
  • Java热更新

    最近参与开发一个java项目,每次修改调试时就需要重启进程,由于工程较大,进程初始化任务较多,重启较慢,严重影响了开发效率,因此花了点时间研究jav...

    jemuelmiao
  • 开发者 AI 转型指南

    人工智能…好吧,目前看来,这项尖端技术现在是最流行的,同时也是一项会对人类产生决定性影响的技术。我们对人工智能的力量和它们在几乎任何行业中的有效使用方式感到惊讶...

    AI研习社
  • Android - 通过真实案例学习解内存泄漏问题,最终发现Android原生Bug

      作为一个Android新手小白,刚到新公司,最近的工作就是在学习解各类Bug。转型之初,面临各种新知识,会有压力,但是学习的过程是快乐的。   上周刚遇上一...

    宋凯伦

扫码关注云+社区

领取腾讯云代金券