前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >参考基因组用错了单细胞转录组流程照样可以走通

参考基因组用错了单细胞转录组流程照样可以走通

作者头像
生信技能树
发布2020-08-07 16:33:02
7920
发布2020-08-07 16:33:02
举报
文章被收录于专栏:生信技能树生信技能树

前些天我发布了 cellranger更新到4啦,提到了可以免费做一下10X的单细胞转录组数据上游分析,反正刚刚购买的服务器闲着也是闲着。然后,马上就有粉丝寄给我了一个2.4T硬盘,里面有24个10X单细胞转录组原始测序数据,真的是超级大,两个星期过去了,我还没有跑完。可能是自己的服务器有点辣鸡吧,或者说因为我使用的是Windows的ubuntu子系统,而不是纯正的ubuntu这样的Linux?

我的服务器配置

当然,这不是重点,麻烦的事情是粉丝仅仅是寄给我数据和md5,我校验后文件都是完整的,就直接上流程了,结果,打开一个运行日志后才发现不太对劲额。

粗看起来是很漂亮的结果,本次10x单细胞转录组得到的细胞数量是5548给,符合3到5千个细胞的预期,然后每个细胞的平均测序reads数量是56K,也符合预期,就是每个细胞的平均基因数量有点少额。(当时我没有意识到有问题)

错误的报告

其实后续seurat流程也很顺利,很漂亮,但是呢,没有线粒体基因,所以我回过去再看了看10x的cellranger count 流程报告,有一个很小的警告,如下:

警告

我略微思考了一下,因为是比对,所以参考基因组的版本是无所谓的,比对不到参考基因组,肯定是物种选错了。果然,回邮件询问了一下粉丝,**把小鼠单细胞数据错当做了是人类数据,就匆匆忙忙跑流程了。**唉···

但是,为何我用错了参考基因组,把小鼠的单细胞转录组测序数据比对到人类上面,**但是仍然是有10%的成功率呢?**而且前面的表达矩阵,后续seurat流程,都有模有样啊, 分群也挺好的,高表达量基因都没有问题,如果不回过头检查,难道就这样将错就错了吗?

当然了,后面我仍然是选择了正确的参考基因组,重新跑了一下流程,报告如下:

正确的报告

首先,细胞数量由5000多增加到了7000多,然后每个细胞的平均检测到的基因数量由600多变成了2700多

一些思考

  1. 小鼠单细胞转录组数据里面的10%的reads是可以比对到人的参考基因组,那么做PDX模型这样的人鼠混合数据的时候就必然有一些reads天然就多比对咯?
  2. 小鼠单细胞转录组数据里面的10%的reads是可以比对到人的参考基因组,这些reads落入了几百个基因里面,这些基因进行生物学功能基因集富集,是不是有一些含义?
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-08-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一些思考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档