细胞类型注释是单细胞 RNA 测序(scRNA-seq)分析的基本步骤。然而单细胞注释往往费时费力,需要比较每个细胞簇中高表达的基因与经典细胞类型的标记基因,传统的单细胞自动细胞注释又依赖于特定参考数据集。
2024年3月25日,Nature 子刊《Nature Methods》发表的一项研究利用了 ChatGPT 对单细胞转录组数据进行自动细胞类型注释。
DOI:10.1038/s41592-024-02235-4
ChatGPT 4 拥有大量的训练数据,可用于多种组织/细胞的注释,其对话功能也方便灵活修改。GPT 4 的性价比较高,可以通过 API 接口集成到现有的单细胞分析流程中,不用重新搭建单细胞分析流程或收集高质量的参考数据集。
作者基于 ChatGPT 开发了一款名为 "GPTCelltype" 的 R 包。并测试了 GPT 4 在 10 组数据集中的细胞注释效果,数据包含5个物种、数百种组织/细胞类型,包括正常和癌症样本。结果显示,GPT 4 生成的细胞注释结果与人工注释结果基本一致,并且 GPT 4 的生成速度更快,生成效果比传统的自动细胞注释方法更好。
GPT 4 在细胞注释中的优点与示例
另外,作者发现 GPT 4 在亚型(如CD4记忆T细胞)细胞注释中,75%以上的注释结果与人工注释结果一致。相比于亚型注释,GPT 4 在主要细胞类型(如T细胞、B细胞、巨噬细胞)注释的表现更好。
为了评估 GPT 4 在复杂真实场景的稳定性,作者用 GPT 4 区分纯细胞类型和混合细胞类型,结果显示 GPTCelltype 的准确率可以达到 93%,在区分已知和未知细胞的准确率能达到99%,可见 GPTCelltype 具有较强的稳定性。此外,GPTCelltype 在可重现性方面的表现同样优秀。
GPT 4 性能评估
虽然 ChatGPT 可以解放双手,但作者也指出了一些局限性。当 top marker 少于5的细胞类型或者基因数量少于10个时,不建议使用 GPTCelltype 进行细胞注释。此外,GPT 4的训练数据库并未公开,无法验证其注释的可靠性,需要人工进行评估验证。
注:作者在 github 中上传了 GPTCelltype 软件包和具体的操作方法,感兴趣的小伙伴可以自行了解学习。
github 指路:
https://github.com/Winnie09/GPTCelltype
ChatGPT 使用方法: