首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >宏转录组学习笔记(一)

宏转录组学习笔记(一)

作者头像
用户1075469
发布2020-03-18 10:51:58
8550
发布2020-03-18 10:51:58
举报
文章被收录于专栏:科技记者科技记者科技记者

前面提到,已经有两家公司通过宏转录组(Metatranscriptomics)测序检测肠道微生物,面向消费者提供检测服务。对宏转录组充满了好奇,有这样的比方说,宏基因组可以告诉我们这个微生物群落可能有什么样的功能(潜能),宏转录组就是告诉我们群落正在做什么,相比宏基因组的眉毛胡子一把抓,宏转录组是更针对当下的结果。由于测序的目标序列少了很多,结果不是变态大,对计算机的配置要求也相对降低。苦于想学宏基因组暂时没有服务器的我,就退而求其次试试宏转录组了,相信不会让我失望。之前学习过单转录组数据的分析,一般的笔记本(双核,8g ram)扛了下来。鉴于中文网络上能找到的宏转录组教程基本没有,只在Github上搜索到两个,选其中一个学习下。

1.整体过程概览

整理了一个流程图放在这里,和普通转录组的区别在于多了个物种注释的过程。

2.软件环境准备

软件安装使用conda进行,需要几个G的空间,由于电脑配置有限,教程可能止步于某个对配置要求特别高的地方,后面如果运算时间不长,下载数据量不大,内存和核心数要求不太高,成本可以接受的话可以考虑使用腾讯云、vultr,aws等云服务完成。

#首先安装conda, 添加清华源加速,教程有很多,这里省略
#建立一个新的工作环境
conda create -n tara
#激活工作环境
source activate tara
#安装所需软件
conda install fastqc multiqc trimmomatic khmer \
busco megahit sourmash salmon r dammit cd-hit -y
#可选,如果后面要把环境打包,可以导出一个环境的软件安装列表,如果哪天可以整体打包文件就好了
#conda env export -n tara -f $PROJECT/tara_conda_environment.yaml
#安装conda中没有的其他软件
cd <location-to-put-transrate>
wget https://bintray.com/artifact/download/blahah/generic/transrate-1.0.3-linux-x86_64.tar.gz
tar zxvf transrate-1.0.3-linux-x86_64.tar.gz
#添加环境变量
echo 'export PATH=/LUSTRE/apps/workshop/transrate-1.0.3-linux-x86_64:$PATH' >> ~/.bashrc
source ~/.bashrc
#安装 hmmer
wget http://eddylab.org/software/hmmer/hmmer.tar.gz
tar zxvf hmmer.tar.gz

3.数据和数据库准备

数据来自塔拉海洋探险[1](2009-2013)采样对比世界海洋生态系统,利用现代测序和最先进的成像技术收集环境数据和浮游生物,从病毒到后生动物,用于以后的分析。它对20个生物地理省份中的210个生态系统进行了调查,收集了35,000多个海水和浮游生物样本。

我们选择分析的数据是《全球海洋真核基因图集》的[2]一部分(Carradec et al.2018)[3]。本文使用跨转录组学的方法对TARA海洋数据进行了研究,从浮游性真核生物中生成了一个全球海洋参考基因目录,并探讨了它们在生物地理学和环境条件方面的表达方式。

在本次研讨会上,我们选择了东太平洋的TARA 135、136和137站,您可以在下面的地图上看到它们。我们分析了大小为5-20µm的mRNAseq样品(选择了poly-A,因此可能大部分包含真核序列)中的数据,因为该部分在我们选择的TARA工作站上具有良好的重复性。对于大多数教程,我们使用这些数据的一小部分,以使程序运行时在研讨会中可行。您可以通过开放式科学资源[4]找到完整的数据,以发现和分析塔拉海洋数据(Pesant等,2015)[5]。将向您展示如何从您的数据中获得与上述TARA论文相同的答案!

主要是教程中的样本测序数据,以及软件的数据库,文件较大,对于我们的网络,下载可能费时较长,可以使用多线程下载工具如axel、aria2等下载,加速明显。

#建立工作目录和数据目录
mkdir -p work/data
#转到工作目录
cd work/data
#wget下载测序数据, -c可以断点续传,如果支持的话,多线程工具下载耗时1小时左右
wget -c https://osf.io/76qm3/download -O tara135_1m.zip --no-check-certificate
wget -c https://osf.io/y5dfh/download -O tara136-137_1m.zip --no-check-certificate
#解压数据,并让数据不容易误删除
unzip tara135_1m.zip
unzip tara136-137_1m.zip
chmod u-w *fq.gz
#为了简单,定义一个PROJECT变量
 export PROJECT=~/work
 #查看文件
 ls $PROJECT/data/
TARA_135_DCM_5-20_rep1_1m_1.fq.gz       TARA_136_SRF_5-20_rep1_1m_2.fq.gz
TARA_135_DCM_5-20_rep1_1m_2.fq.gz       TARA_136_SRF_5-20_rep2_1m_1.fq.gz
TARA_135_DCM_5-20_rep2_1m_1.fq.gz       TARA_136_SRF_5-20_rep2_1m_2.fq.gz
TARA_135_DCM_5-20_rep2_1m_2.fq.gz       TARA_137_DCM_5-20_rep1_1m_1.fq.gz
TARA_135_SRF_5-20_rep1_1m_1.fq.gz       TARA_137_DCM_5-20_rep1_1m_2.fq.gz
TARA_135_SRF_5-20_rep1_1m_2.fq.gz       TARA_137_DCM_5-20_rep2_1m_1.fq.gz
TARA_135_SRF_5-20_rep2_1m_1.fq.gz       TARA_137_DCM_5-20_rep2_1m_2.fq.gz
TARA_135_SRF_5-20_rep2_1m_2.fq.gz       tara135_1m.zip
TARA_136_SRF_5-20_rep1_1m_1.fq.gz       tara136-137_1m.zip
#下载所需数据库文件,从名字可以看出是来自genbank的rna数据,还好数据不怎么大,一两G,三十分钟左右
wget -O genbank-rna-vertebrate_other-k31.tar.gz https://osf.io/qgyax/download
wget -O genbank-rna-vertebrate_mammalian-k31.tar.gz https://osf.io/6c9uy/download
wget -O genbank-rna-invertebrate-k31.tar.gz https://osf.io/7v8ck/download
wget -O genbank-rna-fungi-k31.tar.gz https://osf.io/g6mcr/download
wget -O genbank-rna-plant-k31.tar.gz https://osf.io/kctus/download
wget -O genbank-rna-protozoa-k31.tar.gz https://osf.io/fnu2q/download
wget -O mmetsp-k31-named.tar.gz https://osf.io/cdvqn/download
#使用一个for循环解压数据
for infile in *.tar.gz;do tar xf ${infile};done
#dammit数据库准备
dammit databases --install --busco-group metazoa  --quick

这样准备工作就基本结束了,可以愉快地进行学习了。

参考资料

[1]塔拉海洋探险: https://oceans.taraexpeditions.org/en/m/about-tara/les-expeditions/tara-oceans/

[2]《全球海洋真核基因图集》的: https://www.nature.com/articles/s41467-017-02342-1

[3](Carradec et al.2018): https://www.nature.com/articles/s41467-017-02342-1

[4]开放式科学资源: https://www.nature.com/articles/sdata201523#f2

[5]以发现和分析塔拉海洋数据(Pesant等,2015): https://www.nature.com/articles/sdata201523#f2

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-03-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科技记者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.整体过程概览
  • 2.软件环境准备
  • 3.数据和数据库准备
  • 参考资料
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档