专栏首页生信技能树参考基因组用错了单细胞转录组流程照样可以走通

参考基因组用错了单细胞转录组流程照样可以走通

前些天我发布了 cellranger更新到4啦,提到了可以免费做一下10X的单细胞转录组数据上游分析,反正刚刚购买的服务器闲着也是闲着。然后,马上就有粉丝寄给我了一个2.4T硬盘,里面有24个10X单细胞转录组原始测序数据,真的是超级大,两个星期过去了,我还没有跑完。可能是自己的服务器有点辣鸡吧,或者说因为我使用的是Windows的ubuntu子系统,而不是纯正的ubuntu这样的Linux?

我的服务器配置

当然,这不是重点,麻烦的事情是粉丝仅仅是寄给我数据和md5,我校验后文件都是完整的,就直接上流程了,结果,打开一个运行日志后才发现不太对劲额。

粗看起来是很漂亮的结果,本次10x单细胞转录组得到的细胞数量是5548给,符合3到5千个细胞的预期,然后每个细胞的平均测序reads数量是56K,也符合预期,就是每个细胞的平均基因数量有点少额。(当时我没有意识到有问题)

错误的报告

其实后续seurat流程也很顺利,很漂亮,但是呢,没有线粒体基因,所以我回过去再看了看10x的cellranger count 流程报告,有一个很小的警告,如下:

警告

我略微思考了一下,因为是比对,所以参考基因组的版本是无所谓的,比对不到参考基因组,肯定是物种选错了。果然,回邮件询问了一下粉丝,**把小鼠单细胞数据错当做了是人类数据,就匆匆忙忙跑流程了。**唉···

但是,为何我用错了参考基因组,把小鼠的单细胞转录组测序数据比对到人类上面,**但是仍然是有10%的成功率呢?**而且前面的表达矩阵,后续seurat流程,都有模有样啊, 分群也挺好的,高表达量基因都没有问题,如果不回过头检查,难道就这样将错就错了吗?

当然了,后面我仍然是选择了正确的参考基因组,重新跑了一下流程,报告如下:

正确的报告

首先,细胞数量由5000多增加到了7000多,然后每个细胞的平均检测到的基因数量由600多变成了2700多

一些思考

  1. 小鼠单细胞转录组数据里面的10%的reads是可以比对到人的参考基因组,那么做PDX模型这样的人鼠混合数据的时候就必然有一些reads天然就多比对咯?
  2. 小鼠单细胞转录组数据里面的10%的reads是可以比对到人的参考基因组,这些reads落入了几百个基因里面,这些基因进行生物学功能基因集富集,是不是有一些含义?

本文分享自微信公众号 - 生信技能树(biotrainee),作者:生信技能树

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-08-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 拿奖拿到手软的单细胞技术

    我们生信技能树旗下的单细胞天地,只分享干货计划,致力于让每个人都能理解自己的单细胞数据,早日发表。

    生信技能树
  • 全网第一个单细胞转录组数据分析实战视频教程

    回首年前开创的单细胞天地公众号,再看看单细胞转录组知识星球的精华资源,一年时间就这样过去了,感慨万千!

    生信技能树
  • 单细胞转录组下游分析这样报价合理吗?

    单细胞转录组的流行趋势让我们惊讶,不少有钱的课题组甚至宣传以后只上单细胞转录组,传统的bulk测序干脆不做了,可是花了几百万经费拿到一堆表达矩阵,然后呢?

    生信技能树
  • [日常] 腾讯云发送邮件失败问题

    陶士涵
  • 速读原著-TCP/IP(安全性考虑)

    很明显,截获网络中传输的数据流使我们可以看到很多不应该看到的东西。例如,T e l n e t和F T P用户输入的口令在网络中传输的内容和用户输入的一样(与口...

    cwl_java
  • Oracle ASM diskgroup在主机重启后启动失败

    Alfred Zhao
  • 企业移动化未来混合模式占主流 HTML5天残无法统治全局

    HTML5的重要性与日俱增,在可预见的未来也还会在许多用户案例中继续成为统治性的平台。企业架构师需要考虑将HTML5能力纳入其应用开发工具链当中,尤其是企业...

    人称T客
  • 资源 | 如何开启深度学习之旅?这三大类125篇论文为你导航(附资源下载)

    选自Github 作者:songrotek 机器之心编译 参与:晏奇、黄小天 如果你现在还是个深度学习的新手,那么你问的第一个问题可能是「我应该从哪篇文章开始...

    机器之心
  • 【Nginx】还不会使用Nginx解决跨域问题?肝这一篇就够了!!

    作者个人研发的在高并发场景下,提供的简单、稳定、可扩展的延迟消息队列框架,具有精准的定时任务和延迟队列处理功能。自开源半年多以来,已成功为十几家中小型企业提供了...

    冰河
  • 这个可视化库,有点牛逼...

    好久不见,今天终于可以继续来写数据分析系列的文章了。在之前的文章中,我介绍过matplotlib的简单使用,同时也分享了几篇matplotlib应用实战的文章(...

    Python进击者

扫码关注云+社区

领取腾讯云代金券