有些时候,我们可能真的很努力了,但事情就是解决不了,这个时候仍然是自己的问题,努力能解决一些问题,但不是所有。
最近在用star找融合基因,对人类物种的数据来说,没啥问题,很轻松就运行成功了,合作方给我了一些小鼠的测序数据,居然出现了问题,当然,我下载数据库肯定不会出错的啦。
报错如下:
看起来很复杂,又是perl又是模块,还有gtf的问题,事实上只需要看第一句话,就是star-fusion自带的基因注释数据库文件里面的gtf问题,有一些基因是没有对应转录本的。
我去gencode数据库里面搜索了同样的ID,发现这个问题一模一样,很有可能是gencode那边的人并没有做好这个数据库的维护,而star-fusion的开发团队直接沿用了这个数据库文件。
但是为什么star-fusion的开发团队并没有去仔细检查呢?
难道他们开发了数据库缺没有实际上运行任何一个小鼠的例子吗?
当然了,解决方案非常简单:
就是挑选那些既有基因ID,又有转录本ID的那些咯,可以看到原来是1745955行,经过过滤只剩下1693314行。
当然了,软件也成功运行了。
领取专属 10元无门槛券
私享最新 技术干货