前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >都2020年了你还在用tophat吗(RNA-seq数据免费分析)

都2020年了你还在用tophat吗(RNA-seq数据免费分析)

作者头像
生信技能树
发布2020-02-20 15:13:39
1.5K0
发布2020-02-20 15:13:39
举报
文章被收录于专栏:生信技能树

五年前我在生信菜鸟团博客写过一个《RNA-seq流程需要进化啦》,上面分享过:

Tophat 首次被发表已经是6年前 Cufflinks也是五年前的事情了 Star的比对速度是tophat的50倍,hisat更是star的1.2倍。 stringTie的组装速度是cufflinks的25倍,但是内存消耗却不到其一半。 Ballgown在差异分析方面比cuffdiff更高的特异性及准确性,且时间消耗不到cuffdiff的千分之一 Bowtie2+eXpress做质量控制优于tophat2+cufflinks和bowtie2+RSEM Sailfish更是跳过了比对的步骤,直接进行kmer计数来做QC,特异性及准确性都还行,但是速度提高了25倍 kallisto同样不需要比对,速度比sailfish还要提高5倍!!!

如果你现在(2020)做人类数据分析,比如lncRNA的鉴定啥的,当然是走hisat2+stringTie流程啦,取代已经十多年了的tophat+Cufflinks流程。但是我这两天假期无聊刷文献,看到发表在Theranostics 2020,的研究文章:Long noncoding RNA PiHL regulates p53 protein stability through GRWD1/RPL11/MDM2 axis in colorectal cancer里面的RNA-seq数据居然还是在走十几年前的tophat流程哦,有趣,而且写的不清不楚那个FPKM是如何计算的。在广州锐博公司?

实际上,RNA-seq我们在生信技能树应该是至少推出了400篇教程,而且是我们全国巡讲的标准品知识点,其中还有一个阅读量过两万的综述翻译及其细节知识点的补充:

相信大家听完了我B站的RNA-seq分析流程后,对这个数据的应用方向都不陌生。代码也很简单,如果你有Linux基础,基本上一两个小时就可以完成数据分析流程,拿到表达矩阵啦。就是:

代码语言:javascript
复制
# 安装RNA-seq数据处理流程
# 代码参考:https://www.jianshu.com/p/a84cd44bac67
# 视频教程见:https://www.bilibili.com/video/av28453557

hisat2=/home/jianmingzeng/biosoft/HISAT/hisat2-2.0.4/hisat2
# # 如果使用conda安装的 hisat2,那么 hisat2 命令应该是在环境变量的。
## 索引文件需要自己下载
# https://ccb.jhu.edu/software/hisat2/manual.shtml
# wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/mm10.tar.gz

index=/home/jianmingzeng/reference/index/hisat/mm10/genome
ls raw_fq/*gz |  while read id; do 
$hisat2 -p 10 -x $index -U $id  -S ${id%%.*}.hisat.sam
done 

ls *.sam|while read id ;do (samtools sort -O bam -@ 5  -o $(basename ${id} ".sam").bam   ${id});done
rm *.sam 
ls *.bam |xargs -i samtools index {}

## gtf文件推荐去gencode数据库下载
gtf=/home/jianmingzeng/reference/gtf/gencode/gencode.vM12.annotation.gtf
featureCounts=/home/jianmingzeng/biosoft/featureCounts/subread-1.5.3-Linux-x86_64/bin/featureCounts   
# # # 如果使用conda安装的 subread,那么featureCounts  命令应该是在环境变量的。
$featureCounts -T 5 -p -t exon -g gene_id  -a $gtf -o  all.id.txt  *.bam  1>counts.id.log 2>&1 &

这篇文章其实并没有怎么使用这个RNA-seq数据,可能是因为确实他们课题组并不懂测序数据,也没有生物信息学基础知识背景吧。就是委托公司简单测序而已。

做的是GSEA分析

(A) Gene set enrichment analysis (GSEA) results based on PiHL expression levels (siRNA-PiHL vs siRNA-NC, with three repeats) in HCT116 cells.

The GSEA plots for the enrichment of p53 target genes involved in modulation of apoptosis and cell cycle are shown.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-02-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 做的是GSEA分析
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档