首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

「R」TCGA barcode(样本ID)以及重名过滤

TCGA barcode 接触和分析过TCGA数据的朋友肯定会经常处理TCGA barcode的前15位(有时12位),实际从上图可以看出TCGA的barcode设计总共有28位之多。...每一个短横杠衔接的都是含不同意义的序列,如下图 Create Barcode 具体的解释如下表: Label Identifier for Value Value Description Possible...这也就导致在实际的分析中有可能会出现多个barcode对应同一个样本(即前15位是一致的),那么分析的时候用哪个呢?...通过谷歌引擎找到Biostars上有人对这个问题加以讨论,我按照着提供的链接找到了Broad研究所进行barcode去重的策略: 主要内容如下: In many instances there is more...with the highest portion and/or plate number is selected when all other barcode fields are identical

2.1K20

RNA速率分析中遇到的问题以及debug纪实

我检查了velocyto的源码,发现他在运行过程中不会导致barcode格式发生如此严重的改变。首先,在run10x这一函数中没有对barcode进行任何改动。...barcode前添加了sample id,barcode结尾的-1被替换成了'x'接下来检查合并loom文件这一步。...那么现在唯一不同之处在于loom文件的barcode命名格式与scanpy等软件不同,我们在scvelo的merge函数中发现了如下内容:所以问题的根源就在run.py这里,我们直接修改ldata的barcode...再进行merge,根据velocyto源码中的内容:首先将sampe id添加于barcode之前,然后检查16位的barcode是否有重复,如果有重复把-1替换为x,如果没有就保留-1。...(':') new_barcode = barcode[:16] + '-1' + barcode[17:] return f"{new_barcode}-{prefix}"# 应用修改函数到所有的

8500
领券