前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >6 RNA-seq数据和WXS数据分组及改名

6 RNA-seq数据和WXS数据分组及改名

作者头像
Y大宽
发布2019-06-15 14:55:35
9450
发布2019-06-15 14:55:35
举报
文章被收录于专栏:Y大宽Y大宽


下一步,需要把RNA-seq(448个样本)和WXS(279个样本)分开进行比对,所以首先要把他们分开,并重新命名 具体信息见总目录


1 找到原始分组信息

下载SraRunTable.txt文件,里面有分组信息(这一步应该放在开始就更名完成),内容见下

代码语言:javascript
复制
Assay_Type  Library_Name    Run
RNA-Seq Lib_FUSCCTNBC001    SRR8518252
WXS Lib_FUSCCTNBC001.TT_WES SRR8517928
WXS Lib_FUSCCTNBC002.TT_WES SRR8517929
RNA-Seq Lib_FUSCCTNBC003    SRR8518401
RNA-Seq Lib_FUSCCTNBC003.PT SRR8518217
RNA-Seq Lib_FUSCCTNBC004    SRR8518316
RNA-Seq Lib_FUSCCTNBC005    SRR8518285
RNA-Seq Lib_FUSCCTNBC005.PT SRR8518339
WXS Lib_FUSCCTNBC005.TT_WES SRR8518032
RNA-Seq Lib_FUSCCTNBC006.rep    SRR8518187
WXS Lib_FUSCCTNBC006.TT_WES SRR8518006

那么现在要以Library_Name来对Run进行重新命名 而我的文件名现在是这样的

代码语言:javascript
复制
SRR8517955_1_val_1.fq.gz  SRR8518077_2_val_2.fq.gz  SRR8518211_1_val_1.fq.gz  SRR8518332_2_val_2.fq.gz  SRR8518454_1_val_1.fq.gz  SRR8707666_2_val_2.fq.gz
SRR8517955_2_val_2.fq.gz  SRR8518078_1_val_1.fq.gz  SRR8518211_2_val_2.fq.gz  SRR8518333_1_val_1.fq.gz  SRR8518454_2_val_2.fq.gz  SRR8707667_1_val_1.fq.gz
SRR8517956_1_val_1.fq.gz  SRR8518078_2_val_2.fq.gz  SRR8518212_1_val_1.fq.gz  SRR8518333_2_val_2.fq.gz  

所以首先

  • 1 把_val_1_val_2去掉,不去也行
  • 2 把SRR开头的替换成Library_Name

2 去掉val

代码语言:javascript
复制
sudo rename 's/_val_1//g' *.gz
sudo rename 's/_val_2//g' *.gz

顺便把report.txt也改了

代码语言:javascript
复制
sudo rename 's/_trimming_report//g' *.txt

现在显示为

代码语言:javascript
复制
├── SRR8707700_1.fastq.gz.txt
├── SRR8707700_1.fq.gz
├── SRR8707700_2.fastq.gz.txt
├── SRR8707700_2.fq.gz
├── SRR8707702_1.fastq.gz.txt
├── SRR8707702_1.fq.gz
├── SRR8707702_2.fastq.gz.txt
├── SRR8707702_2.fq.gz

所以接下来把SRRX变为Library_Name

3 批量更换RunLibrary_Name

change_name

用脚本完成这个任务对我有些难度,需要耗费时间,所以先用比较快的方法来做,借助我熟悉的excel文件 把下载的SraRunTable.txt文件,用excel进行处理,具体就是借助&命令进行连接,写到脚本里,内容如下

代码语言:javascript
复制
mv SRR7696207_2.fq.gz Lib_FUSCCTNBC158.TT_WES_2.fq.gz
mv SRR8517853_2.fq.gz Lib_FUSCCTNBC337.TT_WES_2.fq.gz
mv SRR8517854_2.fq.gz Lib_FUSCCTNBC123.TT_WES_2.fq.gz
mv SRR8517855_2.fq.gz Lib_FUSCCTNBC228.TT_WES_2.fq.gz
mv SRR8517856_2.fq.gz Lib_FUSCCTNBC230.TT_WES_2.fq.gz
mv SRR8517857_2.fq.gz Lib_FUSCCTNBC233.TT_WES_2.fq.gz
mv SRR8517858_2.fq.gz Lib_FUSCCTNBC234.TT_WES_2.fq.gz

最后改完名称之后为

代码语言:javascript
复制
├── [2.8G]  Lib_FUSCCTNBC001_1.fq.gz
├── [3.0G]  Lib_FUSCCTNBC001_2.fq.gz
├── [5.2G]  Lib_FUSCCTNBC001.TT_WES_1.fq.gz
├── [5.5G]  Lib_FUSCCTNBC001.TT_WES_2.fq.gz
├── [5.4G]  Lib_FUSCCTNBC002.TT_WES_1.fq.gz
├── [5.9G]  Lib_FUSCCTNBC002.TT_WES_2.fq.gz
├── [1.8G]  Lib_FUSCCTNBC003_1.fq.gz
├── [2.0G]  Lib_FUSCCTNBC003_2.fq.gz
├── [2.6G]  Lib_FUSCCTNBC003.PT_1.fq.gz
├── [2.8G]  Lib_FUSCCTNBC003.PT_2.fq.gz
├── [2.2G]  Lib_FUSCCTNBC004_1.fq.gz
├── [2.4G]  Lib_FUSCCTNBC004_2.fq.gz
├── [3.3G]  Lib_FUSCCTNBC005_1.fq.gz
├── [3.7G]  Lib_FUSCCTNBC005_2.fq.gz
├── [1.8G]  Lib_FUSCCTNBC005.PT_1.fq.gz
├── [2.0G]  Lib_FUSCCTNBC005.PT_2.fq.gz
├── [4.8G]  Lib_FUSCCTNBC005.TT_WES_1.fq.gz
├── [5.2G]  Lib_FUSCCTNBC005.TT_WES_2.fq.gz
├── [2.6G]  Lib_FUSCCTNBC006.rep_1.fq.gz

至此更名工作完成,做起来也非常快就几分钟,但对我来说,第一是保证不出错。后面再添加脚本。 下面再进行分组,名称中有WES的都为WXS数据

4 分组

分别建立wes和RNA-seq文件夹

代码语言:javascript
复制
mkdir wes
mkdir RNA-seq
mv *TT_WES* wes
mv Lib* RNA_seq/
cd wes
ls|grep WES_1|wc
    279     279    8928
cd ../RNA_seq
ls *1.fq.gz|wc
    448     448   11600

到现在为止,就完成了分组和改名工作,继续进行下面外显子分析部分,等最后再分析RNA-seq数据。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019.06.11 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 找到原始分组信息
  • 2 去掉val
  • 3 批量更换Run为Library_Name
  • 4 分组
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档