导语
GUIDE ╲
单细胞 RNA-seq (scRNA-seq) 被广泛用于解决细胞异质性问题。随着公共 scRNA-seq 数据的快速积累,有效且高效的利用现有数据来注释新数据至关重要。
Cell BLAST
过去十年的技术进步形成了大规模单细胞 RNA 测序 (scRNA-seq) 数据的快速积累。类似于生物序列分析,现有的注释(例如细胞类型和细胞分化潜力)可用于通过细胞查询算法对新测序的细胞进行注释,该算法主要基于转录组,无监督地搜索相似细胞的参考数据。小编在这里给大家介绍一款单细胞注释工具Cell BLAST。这款细胞查询工具基于神经网络模型,可有效处理批次效应,并提供细胞间相似性的度量。其文章通过两个实验数据证明Cell BLAST 可进一步用于预测连续细胞的分化潜力和识别新细胞类型。该工具不仅提供了用户友好的web界面,并且提供了一个多物种单细胞转录组学数据库用于参考数据的选择。
算法简介
Cell BLAST 使用基于神经网络模型,使用参考单细胞转录组数据,以无监督的方式学习从高维转录组空间到低维空间的非线性映射,并通过以下方式校正参考批次效应。当呈现查询数据时,Cell BLAST 使用预训练模型将参考数据和超讯数据细胞映射到同一低维空间中,并在低维空间中利用后验分布来估计细胞相似性,然后将具有高相似性的参考细胞作为查询命中返回,最后利用参考数据的注释作为查询数据的注释结果。该方法的一个优点是,当查询数据中存在参考数据中没有的新细胞类型时,它们并不会被错误的分配到其他已知的标签,而是会被识别为unknown,从而提供了识别新单元格类型的机会。
该款工具的网络界面简洁清晰,使用方便。下面给大家介绍一下主要步骤。
使用简介
01
上传查询数据集
首先上传查询数据的基因表达矩阵,目前支持的基因表达矩阵文件格式包括:csv、tsv、h5ad (anndata) 和 loom (loompy)。矩阵必须满足以下要求:
在 Cell BLAST 主页上传数据之后,如果使用 csv 或 tsv 文件,系统会提示选择矩阵方向(“逐个基因”或“逐细胞”)、并显示前 5 行和 5 列的概览,确保数据正确。以下的演示均来自于demo的示例。
02
选择参考数据集
确认查询数据之后,将转入到“BLAST”选项。在这里我们需要选择合适的参考数据。该工具提供了参考数据的数据库,用户可以通过“物种”和“器官”来选择、合适的参考数据。对于示例查询,默认情况下会选择适当的参考数据。用户也可以在“显示附加参数”中调整查询参数(默认设置在大多数情况下有效)。
03
参考数据与查询数据比对
设置好参考数据后,会进入到“HITS”选项,显示每个查询细胞与参考细胞的比对情况。界面上也提供了下载选项。
04
对查询数据作出预测结果
通过选择用于预测的特征阈值,最后用户可以通过“PREDICT”对查询数据中的细胞进行预测,得到最终的查询结果。
小编总结
该工具使用简单,与其他使用参考数据的工具类似,结果的准确性依赖于参考数据的质量。该工具的一个显著优点是对未知类别细胞的注释,未知类别的细胞会被附上未知的标签,而不会被错误的归为别的已知类别。虽然该工具提供了一个参考数据库,但由于数量有限,可能无法很好的满足用户的需求。该工具还提供了python版本,方便用于使用自定义的参考数据集。
Reference:
Cao, ZJ., Wei, L., Lu, S. et al. Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST. Nat Commun 11, 3458 (2020). https://doi.org/10.1038/s41467-020-17281-7