前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布

RNA-SEQ

作者头像
生信技能树
发布2019-05-13 18:59:32
6800
发布2019-05-13 18:59:32
举报
文章被收录于专栏:生信技能树生信技能树

跑完一个RNA-SEQ项目,下意识的看了看bam文件大小,还有最后的文库统计情况,发现非常的 诡异,首先是bam文件大小就很奇特:

代码语言:javascript
复制
 29M Apr 29 12:15 S12.bam
 30M Apr 29 12:15 S1.bam
 35M Apr 29 12:10 S22.bam
 33M Apr 29 12:10 S2.bam
2.3G Apr 26 18:54 S8.bam
2.2G Apr 26 15:27 S7.bam
2.1G Apr 26 12:05 S4.bam
2.2G Apr 26 06:36 S18.bam
1.8G Apr 26 05:14 S19.bam
2.3G Apr 26 03:35 S6.bam

很明显,有4个样本应该是流程失败了,bam文件这么小,最开始推测是不是参考基因组使用错了,但是觉得不应该,这个项目都是同一个物种,不太可能部分样本失败部分样本成功。

然后我看到了文件名很有规律,失败的是 1, 12, 2,22 但是没有一眼看出来为什么,又转向其它项目了,只是把同样的代码重新跑一遍,以为是服务器问题。

因为RNA-SEQ项目我早就搭建好了,很少出这样的幺蛾子,这个坑有点类似于我三年前分享的:做过1000遍RNA-seq的老司机告诉你如何翻车

然后是文库统计情况:

是不是很有趣,看起来这4个样本只是文库偏小而已,并没有其它问题,所以我去检查fq文件,实际情况是他们的fq文件大小相当。

不过我这时候注意到了文件名的排序很诡异,灵光一现,想起来了我录制linux视频的时候,专门提到过的一个问题,就是sort的排序问题。

sort排序问题

这个问题来源于我自己的操作习惯,我制作配置文件一直使用

代码语言:javascript
复制
ls /home/jianmingzeng/rna/raw_data/*1.fq.gz > 1
ls /home/jianmingzeng/rna/raw_data/*2.fq.gz > 2
wc 1 2
cut -d"/" -f 8 1 |cut -d"_" -f 1
cut -d"/" -f 8 1 |cut -d"_" -f 1  > 0
paste 0 1 2  > config

而这个ls的顺序会出现,S1_1.fq.gz 高于 S12_1.fq.gz ,但是呢 S12_2.fq.gz 高于 S1_2.fq.gz是不是很诡异?

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-04-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • sort排序问题
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档