前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >能重复出来图表,却不知自己正确与否?

能重复出来图表,却不知自己正确与否?

作者头像
生信技能树
发布2020-11-03 14:53:11
1.2K1
发布2020-11-03 14:53:11
举报
文章被收录于专栏:生信技能树生信技能树

前面我布置了一系列学徒作业, 终于开始陆陆续续收到答案啦!下面的教程来自于7月的数据挖掘学员,对应的题目是:仅提供bam文件的RNA-seq项目重新分析

下面她提交的答案

主要目标:复现figS4-D

mRNA-seq heatmap and PCA plot

数据:https://www.ebi.ac.uk/ena/browser/view/PRJEB36947

文献标题:《Genome-wide Screens Implicate Loss of Cullin Ring Ligase 3 in Persistent Proliferation and Genome Instability in TP53-Deficient Cells》

**DOI:**https://doi.org/10.1016/j.celrep.2020.03.029

文献描述:

To this end, we analyzed gene expression changes between RPE,CUL3 and RPE TP53 cells by mRNA sequencing (mRNA-seq) and identified 1,630 upregulated and 1,558 downregulated genes with an FDR of 1% (Figure S4D; Table S4).

复现方法:下载这个项目的bam文件,然后走featureCounts命令拿到表达矩阵,通过R进行数据整理和绘图

上游分析视频以及代码资料在:https://share.weiyun.com/5QwKGxi

1. Linux-下载bam数据

可以直接使用wget下载BAM文件,但速度较慢,所以使用ascp下载。

1.1 asperasoft下载安装

代码语言:javascript
复制
#创建文件夹asper
mkdir asper & cd asper;

#下载asper:
wget https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz

#解压asper
tar xzvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz

#激活Aspera
sh aspera-connect-3.8.1.161274-linux-g2.12-64.sh

## 检查结果
cd
ls -a ##查看是否有.aspera文件夹
ascp --help #帮助文件

1.2 下载BAM文件

(1) 进入https://www.ebi.ac.uk/ena/browser/view/PRJEB36947获取BAM的下载链接。

(2) ascp --help 查看帮助文件,并使用ascp:

代码语言:javascript
复制
## -QT   Disable encryption 禁用加密
## -l 设置最大传输速度,一般200m到500m
## -k 断点续传,一般设置为值1
## -P 提供SSH port,端口一般是33001
## -i 提供私钥文件的地址,一般是找~/.aspera/connect/etc/asperaweb_id_dsa.openssh

(3)下载:

原bam文件链接:ftp://ftp.sra.ebi.ac.uk/vol1/run/ERR395/ERR3958154/lane317s0005536.star.chr.bam;将链接中的ftp://ftp.sra.ebi.ac.uk/替换为fasp@fasp.sra.ebi.ac.uk:

LInux命令如下:

代码语言:javascript
复制
ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/run/ERR395/ERR3958154/lane317s0005536.star.chr.bam .
ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/run/ERR395/ERR3958155/lane317s005537.star.chr.bam .
ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/run/ERR395/ERR3958156/lane317s005538.star.chr.bam .
ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/run/ERR395/ERR3958157/lane317s005539.star.chr.bam .
ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/run/ERR395/ERR3958158/lane317s005540.star.chr.bam .
ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/run/ERR395/ERR3958159/lane317s005541.star.chr.bam .

【注】1. 如果报ascp: Source file list not specified, exiting,看下最后那个点是否加了“.”并且有空格!最后那个.一定要有,表示下载后的路径。

  1. 批量下载bam文件,需要先建立list文件。

2. Linux-featureCounts

2.1 featureCounts

  1. featuresCounts软件常用于raw count定量,属于subread包;
  2. 下载安装subread:使用conda直接下载安装:conda install -y subread
  3. 查看帮助文件:featuresCounts -h Usage: featureCounts [options] -a <annotation_file> -o <output_file> input_file1 [input_file2] 即需要准备 **annotation_file 注释文件(GTF格式)**以及BAM/SAM文件

2.2 准备GTF文件

注释基因组的获取:ftp://ftp.ensembl.org/pub/current_gtf

代码语言:javascript
复制
## 下载GTF文
wget ftp://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.101.abinitio.gtf.gz
## 使用gunzip解压缩
gunzip Homo_sapiens.GRCh38.101.gtf.gz 

选择注释文件:读README

2.2 从BAM到表达矩阵

代码语言:javascript
复制
featureCounts -T 5 -p -t exon -g gene_id -a ~/gene/Homo_sapiens.GRCh38.101.gtf -o ~/all.id.txt ~/bio_lll/*.bam

得到all.id.txt就可以到R中进一步分析了。

3. R整理绘图

主要是从all.id.txt中整理count文件,并绘制相关性热图及PCA图。

下游主要是参考jimmy老师的counts矩阵的标准分析的代码 https://share.weiyun.com/50hfuLi

注:SraRunTable.txt文件存放分组信息(Sample Alias)

写在后面:

其实学员很早就反馈了我她的结果,但是她复现出来了图表,却无法理解它:

PCA图横纵坐标的范围,当时就吓到我了!

也就是说,仅仅是学习了代码,不明白后面的统计学意义,PCA图的意义,我一直强调,做表达矩阵分析一定要有三张图,见:你确定你的差异基因找对了吗? ,有了3张图你不理解也不行啊!!!

  • 左边的热图,说明我们实验的两个分组,normal和npc的很多基因表达量是有明显差异的
  • 中间的PCA图,说明我们的normal和npc两个分组非常明显的差异
  • 右边的层次聚类也是如此,说明我们的normal和npc两个分组非常明显的差异

PS:如果你的转录组实验分析报告没有这三张图,就把我们生信技能树的这篇教程甩在他脸上,让他瞧瞧,学习下转录组数据分析。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Linux-下载bam数据
    • 1.1 asperasoft下载安装
      • 1.2 下载BAM文件
      • 2. Linux-featureCounts
        • 2.1 featureCounts
          • 2.2 准备GTF文件
            • 2.2 从BAM到表达矩阵
            • 3. R整理绘图
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档