简读分享 | 蒋一 编辑 | 陈兴民
论文题目
scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data
论文摘要
在单细胞RNA-seq数据的基础上对细胞类型进行标注是研究疾病进展和肿瘤微环境的先决条件。这里作者表明,现有的方法通常缺乏策划的标记基因列表,对批量效应处理不当,难以利用潜在的基因-基因互动信息,损害了它们的通用性和稳健性。作者开发了一个基于深度神经网络的预训练模型,即来自transformers的单细胞双向编码器表示法(scBERT)以克服这些挑战。按照BERT的预训练和微调方法,scBERT通过对大量未标记的scRNA-seq数据进行预训练,获得了对基因-基因相互作用的一般理解;然后将其转移到未见过的和用户特定的scRNA-seq数据的细胞类型标注任务中,进行监督微调。广泛而严格的基准研究验证了scBERT在细胞类型标注、新型细胞类型发现、对批次效应的鲁棒性和模型的可解释性方面的卓越性能。
论文链接
https://www.nature.com/articles/s42256-022-00534-z