首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >细节分享--关于高精度(Xenium、CosMx)细胞分割外基因表达的分析讨论

细节分享--关于高精度(Xenium、CosMx)细胞分割外基因表达的分析讨论

原创
作者头像
追风少年i
发布2025-12-12 11:07:08
发布2025-12-12 11:07:08
2150
举报

作者,Evil Genius

北国风光

今天我们来扩展细节分析,那就是基于成像的空间转录组学(iST)能够在空间背景中可视化RNA分子,但多达40%的转录本未被分配到细胞,但是uRNA(unassigned RNA)的生物学意义以及分析,目前一般都是不考虑,今天我们来讨论一下。

问题发现:iST 数据中高达 40% 的转录本未被分配到细胞,成为 uRNA,常被忽视。

研究目标:系统性分析 uRNA,区分其技术来源与生物意义。

关键发现:约 1/3 uRNA 有生物来源,富集于神经元等复杂形态细胞周围,与细胞突起、细胞间接触相关。

挑战认知:uRNA 不全是技术噪声,可能包含重要的生物学空间信息。

分析结果1、误分割是未分配RNA的主要来源

iST数据中uRNA普遍存在且比例高,分割策略是关键影响因素。

即使应用最先进的分割方法,仍有大量uRNA无法消除,且其组成稳定。

新分析方法表明,大部分uRNA来源于被分割遗漏的类细胞区域,证实误分割是主要原因。

误分割的影响具有组织/细胞类型特异性,与组织结构复杂性相关。

结果2、量化噪声和扩散对未分配RNA的影响

平均43.2%的uRNA无法用误分割解释,可能源于其他技术性因素,主要是技术噪声和RNA扩散。

1. 技术噪声评估:

利用部分iST平台的阴性对照探针或自定义方法估计噪声阈值。

各数据集中,平均42%的基因其uRNA丰度低于噪声阈值,主要由技术噪声造成,但组织间差异大。

2. RNA扩散评估:

将RNA扩散定义为转录本从起源细胞被动扩散到附近位置被检测到。

在iST中,扩散现象研究较少。组织切片具有伪三维几何结构,建模复杂。

为简化分析,将扩散建模为二维过程,假设uRNA来自附近表达相同基因的细胞,并测量未分配转录本到最近表达细胞的距离。

理论上,点源的被动扩散会产生瑞利分布的距离分布。

比较实际距离分布与Rayleigh distribution的预期发现,实际分布显著偏离瑞利预期,表明被动扩散不能完全解释观察到的整体uRNA模式。

但扩散贡献存在基因特异性:平均31.1%的基因其uRNA距离分布与Rayleigh model一致,符合扩散特征。

综合定量总结:

通过对三大技术来源进行系统量化,uRNA的组成比例如下:

误分割:56.8%(主要来源)

技术噪声:3.1%

符合扩散模式的信号:11.4%

无法用上述技术原因解释的uRNA:28.7%

这剩余近三分之一的uRNA(特别是富含在脑、骨等具有复杂细胞形态的组织中)可能具有生物学起源,为后续研究其生物意义奠定了基础。

核心结论: 研究明确量化了uRNA的主要技术来源,并揭示出相当一部分uRNA无法用现有技术模型解释,强烈暗示其潜在的生物学重要性。

结果3、基因特异性uRNA分布揭示不同的起源和行为

为了理解与技术假象无关的uRNA,分析了其特征,发现不同基因的uRNA丰度和比例存在显著差异,部分基因在uRNA池中高度富集,且与特定细胞类型及其不规则形态相关。

关键发现:

基因特异性的uRNA富集模式

示例1(黑色素瘤数据):角蛋白基因(KRT1, KRT10等)在复层鳞状上皮细胞中表达,但uRNA比例极高(>30%)。

示例2(小鼠结肠数据):肠胶质细胞标志物Gfap的uRNA比例最高(23.3%),显著高于同一细胞类型的其他标志物(如Sox2、Plp1仅约10%)。

机制关联:这种差异与已知的RNA亚细胞定位知识一致(例如,Gfap RNA已知定位于胶质细胞突起,而Sox2作为核转录因子停留在细胞核内),提示uRNA可能反映了主动的mRNA运输到特定亚细胞结构(如细胞突起),形成了与细胞本体不同的空间RNA特征。

uRNA具有独立的空间模式

对于多数基因,其在已分割细胞内的表达空间模式与其uRNA的空间模式相关性很低。

典型例证(小鼠脑):基因Ppp1r16b的uRNA在齿状回分子层高度富集并形成独特的空间聚集模式,而其表达细胞本体却位于颗粒层。这与该基因已知在神经元树突中富集的报道相符,强烈提示这些uRNA来源于细胞的树突等远端突起。

跨平台一致性证实生物学起源

使用不同iST平台(Xenium和CosMx)对生物学上等价的小鼠海马体样本进行分析比较。

结果发现,单个基因的uRNA丰度、空间自相关性和uRNA比例在平台间呈现强相关性。

特别是在两个平台的uRNA池中共同高度富集的基因,多是与突触可塑性相关且已知定位于细胞突起的基因(如Camk2a, Ckb, Snap25)。

核心结论:

研究揭示了uRNA具有基因和细胞类型特异性。其富集模式与细胞的复杂形态和已知的RNA亚细胞定位知识吻合。uRNA常表现出独立于细胞本体的独特空间分布,并与细胞远端结构(如树突)相关。最重要的是,这些信号在不同技术平台间表现出一致性,强有力地证明相当一部分uRNA并非技术假象,而是反映了真实的生物学过程,特别是与细胞内RNA定位和细胞形态相关。

结果4、uRNA的空间模式反映了细胞外躯体结构

研究发现,部分基因的uRNA呈现出独特的空间特征,可能反映了协调的表达程序。通过非细胞假设的网格化分析,揭示了uRNA空间模式与已知脑解剖结构相对应,且通常不与任何特定细胞类型的表达或位置重合。

关键分析方法与发现:

非偏倚网格分析:将组织划分为 10×10 μm 网格单元,分析每个单元内的uRNA分子组成,避免了关于细胞或解剖结构的先验假设。

揭示解剖级结构:基于分子相似性识别的uRNA聚类与已知脑解剖结构(如海马亚区、胼胝体)高度吻合,表明uRNA能捕捉组织层面的空间结构信息。

识别驱动uRNA异质性的基因程序:

应用非负矩阵分解(NMF) 和非线性模型(DRVI) 等方法,识别驱动uRNA空间变异的潜在维度(DRs)。

发现了总计20个驱动维度(DRs),可分为不同类型:

细胞类型相关DRs:例如DR10(小胶质细胞)、DR16(少突胶质前体细胞),这与误分割来源一致。

同一细胞类型内的亚细胞定位DRs:例如,同样关联于CA1-CA2锥体神经元的DR3和DR11展现出截然不同的空间模式。DR3由Arc、Fibcd1等驱动,分布在整个CA1-CA2区域,反映了树突定位;而DR11由Spink8、Grem1等标记,定位于锥体细胞层附近,提示不同的亚细胞或功能分区。

区域特异性DRs:例如DR1(胼胝体)、DR4(齿状回分子层),代表了组织域层面的特异性。

与形态学染色的关联:uRNA变异模式部分地与形态学染色(如18S染色)的像素强度相关。细胞类型特异性DRs(如DR11)在高染色强度区域得分高,而区域特异性DRs(如DR1、DR4)则在所有染色均较弱的区域被识别,这可能反映了这些区域细胞密度低或存在非细胞结构。

跨组织普适性验证:在股骨(非神经组织) 的Xenium数据中同样应用此分析,识别出了仅存在于uRNA中的空间分布和分子特征(例如OGN和Aqp3基因在骨外周的模式),以及定位于无分割细胞的骨内部区域的uRNA特异性基因表达特征。

核心结论:

分析表明,uRNA的空间组织具有多层次的结构性,能够捕获从亚细胞定位(如树突)、细胞类型到组织解剖域等不同尺度的生物变异。这一现象不仅存在于复杂的脑组织,也存在于骨等其他组织中,暗示uRNA的规律性分布是跨组织的普遍现象,很可能与多样的生物过程(如细胞突起、细胞外基质、组织微环境) 相关。这进一步证明了uRNA具有重要的生物学意义,而非单纯的噪声。

结果5、未分配RNA为细胞内RNA定位模式和细胞结构提供新见解

研究表明,非技术性的uRNA能为已分割细胞提供补充信息。基于uRNA来源于组织细胞的假设,研究开发了两种互补的量化指标,并利用uRNA揭示了细胞外躯体RNA定位及细胞间相互作用。

核心方法与应用发现:

开发两种uRNA来源量化指标

uRNA贡献度分数:基于细胞的基因表达量,估计每个细胞对其基因所产生uRNA的贡献。在小鼠脑数据中,神经元亚型是主要贡献者。

uRNA来源分数:结合细胞的基因表达和空间邻近性(距离加权),计算每个细胞作为每个uRNA来源的概率并加和。该分数同时考虑了表达和空间信息。

标准化(单位细胞内转录本的uRNA期望值)后,内皮细胞和星形胶质细胞的分数最高,这既可能反映其形态复杂(分割困难),也可能反映其主动的RNA外输。

识别“无源”uRNA与发现

通过分析基因层面的来源分数,识别出一类uRNA比例高但来源分数异常低的基因(如Pou4f3, Apoa4)。这些uRNA无法追溯到任何已分割细胞。

有趣的是,许多这类转录本在胼胝体(富含髓鞘轴突的区域)空间富集,而轴突结构常被分割遗漏。部分基因(如Pou4f3)已知在采样区域外的神经元中表达,提示uRNA可能捕获了来自组织样本外或深部细胞的投射。

推断细胞外躯体(突起)中的RNA定位

利用uRNA来源分数,量化了不同基因和细胞类型在细胞突起中的转录本富集程度。

结果符合已知生物学:例如,参与核内RNA剪接的Rsrp1在所有细胞类型中外躯体富集度最低;而与轴突导向(Nsmf)或树突定位(Sptbn2)相关的基因,外躯体富集度最高。

使用数据中现有的核质分割作为验证,证实了该方法的准确性,但指出其对细胞质转录本存在系统性低估,因为缺乏局部胞体表达的远端转录本无法被溯源。

基于uRNA推断细胞间接触

开发了一个基于突起的评分框架:为每个uRNA推断其来源细胞和目标细胞,利用两者间的空间位移作为突起介导的细胞接触证据。

应用该框架于小鼠脑数据,成功复现了已知的细胞间相互作用,并揭示了标准以细胞为中心的方法无法检测到的、由突起介导的新型接触。

尤其突出的是,该方法凸显了星形胶质细胞介导的相互作用,这与它们复杂的形态及其与多种细胞类型接触的已知功能角色相符。

核心结论:

研究证明了uRNA不仅是待清理的“噪音”,更是一个宝贵的信息源。通过开发新的计算方法,能够:

量化细胞对其uRNA池的贡献。

识别可能来自远端投射或样本外细胞的“孤儿”转录本。

系统性地推断不同基因在细胞突起中的定位偏好。

重建基于细胞突起的细胞间接触网络,超越传统细胞分割的局限。

生活很好,有你更好,下一篇我们分享uRNA的分析代码。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 作者,Evil Genius
  • 北国风光
  • 今天我们来扩展细节分析,那就是基于成像的空间转录组学(iST)能够在空间背景中可视化RNA分子,但多达40%的转录本未被分配到细胞,但是uRNA(unassigned RNA)的生物学意义以及分析,目前一般都是不考虑,今天我们来讨论一下。
  • 问题发现:iST 数据中高达 40% 的转录本未被分配到细胞,成为 uRNA,常被忽视。
  • 研究目标:系统性分析 uRNA,区分其技术来源与生物意义。
  • 关键发现:约 1/3 uRNA 有生物来源,富集于神经元等复杂形态细胞周围,与细胞突起、细胞间接触相关。
  • 挑战认知:uRNA 不全是技术噪声,可能包含重要的生物学空间信息。
  • 分析结果1、误分割是未分配RNA的主要来源
  • iST数据中uRNA普遍存在且比例高,分割策略是关键影响因素。
  • 即使应用最先进的分割方法,仍有大量uRNA无法消除,且其组成稳定。
  • 新分析方法表明,大部分uRNA来源于被分割遗漏的类细胞区域,证实误分割是主要原因。
  • 误分割的影响具有组织/细胞类型特异性,与组织结构复杂性相关。
  • 结果2、量化噪声和扩散对未分配RNA的影响
  • 平均43.2%的uRNA无法用误分割解释,可能源于其他技术性因素,主要是技术噪声和RNA扩散。
  • 1. 技术噪声评估:
  • 利用部分iST平台的阴性对照探针或自定义方法估计噪声阈值。
  • 各数据集中,平均42%的基因其uRNA丰度低于噪声阈值,主要由技术噪声造成,但组织间差异大。
  • 2. RNA扩散评估:
  • 将RNA扩散定义为转录本从起源细胞被动扩散到附近位置被检测到。
  • 在iST中,扩散现象研究较少。组织切片具有伪三维几何结构,建模复杂。
  • 为简化分析,将扩散建模为二维过程,假设uRNA来自附近表达相同基因的细胞,并测量未分配转录本到最近表达细胞的距离。
  • 理论上,点源的被动扩散会产生瑞利分布的距离分布。
  • 比较实际距离分布与Rayleigh distribution的预期发现,实际分布显著偏离瑞利预期,表明被动扩散不能完全解释观察到的整体uRNA模式。
  • 但扩散贡献存在基因特异性:平均31.1%的基因其uRNA距离分布与Rayleigh model一致,符合扩散特征。
  • 综合定量总结:
  • 通过对三大技术来源进行系统量化,uRNA的组成比例如下:
  • 误分割:56.8%(主要来源)
  • 技术噪声:3.1%
  • 符合扩散模式的信号:11.4%
  • 无法用上述技术原因解释的uRNA:28.7%
  • 这剩余近三分之一的uRNA(特别是富含在脑、骨等具有复杂细胞形态的组织中)可能具有生物学起源,为后续研究其生物意义奠定了基础。
  • 核心结论: 研究明确量化了uRNA的主要技术来源,并揭示出相当一部分uRNA无法用现有技术模型解释,强烈暗示其潜在的生物学重要性。
  • 结果3、基因特异性uRNA分布揭示不同的起源和行为
  • 为了理解与技术假象无关的uRNA,分析了其特征,发现不同基因的uRNA丰度和比例存在显著差异,部分基因在uRNA池中高度富集,且与特定细胞类型及其不规则形态相关。
  • 关键发现:
  • 基因特异性的uRNA富集模式
  • 示例1(黑色素瘤数据):角蛋白基因(KRT1, KRT10等)在复层鳞状上皮细胞中表达,但uRNA比例极高(>30%)。
  • 示例2(小鼠结肠数据):肠胶质细胞标志物Gfap的uRNA比例最高(23.3%),显著高于同一细胞类型的其他标志物(如Sox2、Plp1仅约10%)。
  • 机制关联:这种差异与已知的RNA亚细胞定位知识一致(例如,Gfap RNA已知定位于胶质细胞突起,而Sox2作为核转录因子停留在细胞核内),提示uRNA可能反映了主动的mRNA运输到特定亚细胞结构(如细胞突起),形成了与细胞本体不同的空间RNA特征。
  • uRNA具有独立的空间模式
  • 对于多数基因,其在已分割细胞内的表达空间模式与其uRNA的空间模式相关性很低。
  • 典型例证(小鼠脑):基因Ppp1r16b的uRNA在齿状回分子层高度富集并形成独特的空间聚集模式,而其表达细胞本体却位于颗粒层。这与该基因已知在神经元树突中富集的报道相符,强烈提示这些uRNA来源于细胞的树突等远端突起。
  • 跨平台一致性证实生物学起源
  • 使用不同iST平台(Xenium和CosMx)对生物学上等价的小鼠海马体样本进行分析比较。
  • 结果发现,单个基因的uRNA丰度、空间自相关性和uRNA比例在平台间呈现强相关性。
  • 特别是在两个平台的uRNA池中共同高度富集的基因,多是与突触可塑性相关且已知定位于细胞突起的基因(如Camk2a, Ckb, Snap25)。
  • 核心结论:
  • 研究揭示了uRNA具有基因和细胞类型特异性。其富集模式与细胞的复杂形态和已知的RNA亚细胞定位知识吻合。uRNA常表现出独立于细胞本体的独特空间分布,并与细胞远端结构(如树突)相关。最重要的是,这些信号在不同技术平台间表现出一致性,强有力地证明相当一部分uRNA并非技术假象,而是反映了真实的生物学过程,特别是与细胞内RNA定位和细胞形态相关。
  • 结果4、uRNA的空间模式反映了细胞外躯体结构
  • 研究发现,部分基因的uRNA呈现出独特的空间特征,可能反映了协调的表达程序。通过非细胞假设的网格化分析,揭示了uRNA空间模式与已知脑解剖结构相对应,且通常不与任何特定细胞类型的表达或位置重合。
  • 关键分析方法与发现:
  • 非偏倚网格分析:将组织划分为 10×10 μm 网格单元,分析每个单元内的uRNA分子组成,避免了关于细胞或解剖结构的先验假设。
  • 揭示解剖级结构:基于分子相似性识别的uRNA聚类与已知脑解剖结构(如海马亚区、胼胝体)高度吻合,表明uRNA能捕捉组织层面的空间结构信息。
  • 识别驱动uRNA异质性的基因程序:
  • 应用非负矩阵分解(NMF) 和非线性模型(DRVI) 等方法,识别驱动uRNA空间变异的潜在维度(DRs)。
  • 发现了总计20个驱动维度(DRs),可分为不同类型:
  • 细胞类型相关DRs:例如DR10(小胶质细胞)、DR16(少突胶质前体细胞),这与误分割来源一致。
  • 同一细胞类型内的亚细胞定位DRs:例如,同样关联于CA1-CA2锥体神经元的DR3和DR11展现出截然不同的空间模式。DR3由Arc、Fibcd1等驱动,分布在整个CA1-CA2区域,反映了树突定位;而DR11由Spink8、Grem1等标记,定位于锥体细胞层附近,提示不同的亚细胞或功能分区。
  • 区域特异性DRs:例如DR1(胼胝体)、DR4(齿状回分子层),代表了组织域层面的特异性。
  • 与形态学染色的关联:uRNA变异模式部分地与形态学染色(如18S染色)的像素强度相关。细胞类型特异性DRs(如DR11)在高染色强度区域得分高,而区域特异性DRs(如DR1、DR4)则在所有染色均较弱的区域被识别,这可能反映了这些区域细胞密度低或存在非细胞结构。
  • 跨组织普适性验证:在股骨(非神经组织) 的Xenium数据中同样应用此分析,识别出了仅存在于uRNA中的空间分布和分子特征(例如OGN和Aqp3基因在骨外周的模式),以及定位于无分割细胞的骨内部区域的uRNA特异性基因表达特征。
  • 核心结论:
  • 分析表明,uRNA的空间组织具有多层次的结构性,能够捕获从亚细胞定位(如树突)、细胞类型到组织解剖域等不同尺度的生物变异。这一现象不仅存在于复杂的脑组织,也存在于骨等其他组织中,暗示uRNA的规律性分布是跨组织的普遍现象,很可能与多样的生物过程(如细胞突起、细胞外基质、组织微环境) 相关。这进一步证明了uRNA具有重要的生物学意义,而非单纯的噪声。
  • 结果5、未分配RNA为细胞内RNA定位模式和细胞结构提供新见解
  • 研究表明,非技术性的uRNA能为已分割细胞提供补充信息。基于uRNA来源于组织细胞的假设,研究开发了两种互补的量化指标,并利用uRNA揭示了细胞外躯体RNA定位及细胞间相互作用。
  • 核心方法与应用发现:
  • 开发两种uRNA来源量化指标
  • uRNA贡献度分数:基于细胞的基因表达量,估计每个细胞对其基因所产生uRNA的贡献。在小鼠脑数据中,神经元亚型是主要贡献者。
  • uRNA来源分数:结合细胞的基因表达和空间邻近性(距离加权),计算每个细胞作为每个uRNA来源的概率并加和。该分数同时考虑了表达和空间信息。
  • 标准化(单位细胞内转录本的uRNA期望值)后,内皮细胞和星形胶质细胞的分数最高,这既可能反映其形态复杂(分割困难),也可能反映其主动的RNA外输。
  • 识别“无源”uRNA与发现
  • 通过分析基因层面的来源分数,识别出一类uRNA比例高但来源分数异常低的基因(如Pou4f3, Apoa4)。这些uRNA无法追溯到任何已分割细胞。
  • 有趣的是,许多这类转录本在胼胝体(富含髓鞘轴突的区域)空间富集,而轴突结构常被分割遗漏。部分基因(如Pou4f3)已知在采样区域外的神经元中表达,提示uRNA可能捕获了来自组织样本外或深部细胞的投射。
  • 推断细胞外躯体(突起)中的RNA定位
  • 利用uRNA来源分数,量化了不同基因和细胞类型在细胞突起中的转录本富集程度。
  • 结果符合已知生物学:例如,参与核内RNA剪接的Rsrp1在所有细胞类型中外躯体富集度最低;而与轴突导向(Nsmf)或树突定位(Sptbn2)相关的基因,外躯体富集度最高。
  • 使用数据中现有的核质分割作为验证,证实了该方法的准确性,但指出其对细胞质转录本存在系统性低估,因为缺乏局部胞体表达的远端转录本无法被溯源。
  • 基于uRNA推断细胞间接触
  • 开发了一个基于突起的评分框架:为每个uRNA推断其来源细胞和目标细胞,利用两者间的空间位移作为突起介导的细胞接触证据。
  • 应用该框架于小鼠脑数据,成功复现了已知的细胞间相互作用,并揭示了标准以细胞为中心的方法无法检测到的、由突起介导的新型接触。
  • 尤其突出的是,该方法凸显了星形胶质细胞介导的相互作用,这与它们复杂的形态及其与多种细胞类型接触的已知功能角色相符。
  • 核心结论:
  • 研究证明了uRNA不仅是待清理的“噪音”,更是一个宝贵的信息源。通过开发新的计算方法,能够:
  • 量化细胞对其uRNA池的贡献。
  • 识别可能来自远端投射或样本外细胞的“孤儿”转录本。
  • 系统性地推断不同基因在细胞突起中的定位偏好。
  • 重建基于细胞突起的细胞间接触网络,超越传统细胞分割的局限。
  • 生活很好,有你更好,下一篇我们分享uRNA的分析代码。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档