前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >细胞注释之marker列表

细胞注释之marker列表

原创
作者头像
追风少年i
修改2023-11-20 10:25:46
5874
修改2023-11-20 10:25:46
举报

最近一段时间更新的少,是因为自己搜集经典marker的工作接近尾声了,所以花了比较长的时间整理和总结,我自己拿了几个数据测试了一下,基本上效果不错,用搜集到的marker配合clustermole的自动化分析,基本都能定义出该有的细胞类型。

当单细胞基础分析已经完善的时候,摆在眼前首要的问题就是,每个cluster具体是细胞细胞类型?只有在注释了每个群的基础上,才可以进行下游更加深入的个性化分析。细胞注释通常分为三步进行,1)自动注释(可选)、2)手动注释、3)验证。目前已经有了很多的软件和算法来识别细胞类型,但真正落在确定注释的时候,仍然要靠生物学背景和经验的积累。

10X单细胞细胞注释分析策略

 图1 细胞注释流程
图1 细胞注释流程

自动注释

自动注释是一种非常快速的有效的方法,它通过计算机算法或者先前的生物学知识去标记细胞或者细胞cluster。主要的原则就是在单个细胞或细胞cluster中识别与已知细胞类型或状态的特征基因表达信号(模式或信号)相匹配的基因表达信号;然后给细胞或细胞cluster分配相应的标签。标签通常有一个相应的confidence score。自动注释分为两大类,依据“marker gene”,称之为marker-based annotation;另外一种依据参考数据集,称之为reference-based或Correlation-based annotation。

手动注释

尽管自动注释方法非常方便,但它们需要适当的参考数据库,有时产生的注释结果的置信度并不高,当自动注释结果置信度较低、细胞标签冲突或缺失时,需要生信工程师手动注释,一方面可以检查算法自动注释的结果是否准确,另一方面将算法没注释出来的细胞群通过Marker Gene等方法手动注释出来。虽然手动注释被认为是细胞类型注释的“gold-standard method”,但注释过程是复杂且耗时的,同时存在着人为的主观性。

首先,我们需要知道样本中包含有哪些主要的细胞类型,如:血液样本中有T细胞、B细胞、单核细胞等,方便工程师快速完成初步注释;然后需要有对应组织类型的Marker Gene list,可以通过相关研究领域的文章、Marker数据库获得以及自己通过多年的实验经验积累,常用的marker数据库:CellMarker, HCA, PanglaoDB, SCSig, EMBL-EBI, MCA, CancerSEA;最后就可以通过基因表达可视化结果来命名,如:通过热图、小提琴图、箱线图、气泡图等方式查看Marker Gene的表达情况来注释细胞类型,如图2所示,MS4A1, CD79A为B细胞的经典Marker,在cluster3中特异高表达而在其他细胞群中基本不表达或表达较低,故可将cluster3命名为B细胞。也可以通过获得每个细胞群的Marker Gene,结合富集分析获得基因可能的功能来完成注释。注释时会经常碰到一些细胞群同时高表达2个或2个以上的细胞类型标志物,可能需要考虑是不是doublet所带来的影响。

图2 MS4A1, CD79A在不同细胞群中的表达
图2 MS4A1, CD79A在不同细胞群中的表达

验证

通过上述2种方法已经可以将某种组织类型的细胞图谱完成,但mRNA检测能部分定义细胞类型和功能,对于得到的稀有或者新的细胞类型须经过实验验证(多组学技术、原位杂交、免疫荧光等实验)。比如:使用T细胞受体(TCR)和B细胞受体克隆分型来细化组织驻留免疫细胞的细胞类型标签,以检查T细胞和B细胞的转录特征。

marker list

目前已经发表了很多的单细胞文献,极大的丰富了单细胞做注释的marker list,其中我用网盘分享了大约5个G的单细胞空间文献,并且花了差不多3年的时间整理文献用到的经典marker,包括人和小鼠的marker,以及细胞亚类,截图如下:

不过对于细胞定义来讲,仍然是一个很有挑战的内容,我把所有的marker放在这里,因为总结的时间太长(3年多),所以对大家不太友好,对我来讲已经是压箱底的内容了,大家酌情而定吧

细胞注释之marker列表

如遇过期,请留言,并留下邮箱

生活很好,有你更好

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 当单细胞基础分析已经完善的时候,摆在眼前首要的问题就是,每个cluster具体是细胞细胞类型?只有在注释了每个群的基础上,才可以进行下游更加深入的个性化分析。细胞注释通常分为三步进行,1)自动注释(可选)、2)手动注释、3)验证。目前已经有了很多的软件和算法来识别细胞类型,但真正落在确定注释的时候,仍然要靠生物学背景和经验的积累。
  • 10X单细胞细胞注释分析策略
  • 自动注释是一种非常快速的有效的方法,它通过计算机算法或者先前的生物学知识去标记细胞或者细胞cluster。主要的原则就是在单个细胞或细胞cluster中识别与已知细胞类型或状态的特征基因表达信号(模式或信号)相匹配的基因表达信号;然后给细胞或细胞cluster分配相应的标签。标签通常有一个相应的confidence score。自动注释分为两大类,依据“marker gene”,称之为marker-based annotation;另外一种依据参考数据集,称之为reference-based或Correlation-based annotation。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档