前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Mach. Intell. | 多模态补全和特征的联合变分自编码器

Nat. Mach. Intell. | 多模态补全和特征的联合变分自编码器

作者头像
DrugAI
发布2023-09-19 14:21:36
4340
发布2023-09-19 14:21:36
举报
文章被收录于专栏:DrugAI

编译 | 曾全晨 审稿 | 王建民

今天为大家介绍的是来自威斯康星大学麦迪逊分校团队的一篇关于单细胞多模态的论文。单细胞多模态数据能够测量细胞的各种特征,从而深入了解细胞和分子机制。然而,多模态数据的生成仍然昂贵且具有挑战性,同时缺失模态也经常发生。最近,机器学习方法已经被开发用于数据补全,但通常需要完全匹配的多模态数据才能学习共同的潜在特征,可能缺乏模态特异性。为了解决这些问题,作者开发了一个机器学习模型,名为JAMIE。JAMIE接受单细胞多模态数据,这些数据可以在模态之间部分匹配样本。变分自编码器学习每个模态的潜在特征。然后,跨模态匹配样本的特征被聚合以识别联合的跨模态潜在特征,然后进行重构。为了进行跨模态补全,可以使用一个模态的潜在特征和另一个模态的解码器。为了提高解释性,作者使用Shapley值来确定跨模态补全和已知样本标签的输入特征的优先级。

以细胞为基础理解分子机制可以更深入地洞察细胞功能、发育和疾病进展,但目前仍然难以实现这个目标。为此,最近出现了单细胞多模态数据集,通过使用新的测序技术测量单个细胞的各种特征,并确定细胞功能(例如,细胞类型)。因此,整合单细胞多模态数据集可以通过自动发现跨模态关系,显著帮助我们理解贡献于细胞类型和疾病的生物学机制。目前研究人员已经开发了许多方法来整合多模态数据集,以改进对细胞类型和细胞表型的预测(参见图1a)。虽然这些方法主要关注预测,但其基本思想可以扩展到预测分布在不同模态中的数据,即下面所称的跨模态插值(请参见图1b)。跨模态插值并非新颖,但随着深度学习的发展,它已经得到了越来越多的探索。此外,自编码器允许灵活定义潜在空间的形式。然而,这些方法主要专注于多组学数据,如scRNA-seq和scATAC-seq,并且不考虑来自其他单细胞模态(例如电生理)的高非线性特征。此外,它们要求完全一致的多模态数据(匹配的细胞),限制了对缺失模态数据的处理能力。

图 1

此外,分析多模态数据集还面临着一些额外的困难,包括异构分布、多重共线性和可靠性的差异。为了解决这些问题,目前研究人员已经使用了几种方法来对齐多模态数据集(请参见图1b)。例如,UnionCom从每个模态的距离矩阵中推断对应关系信息,然后使用修改的t分布随机邻域特征(tSNE)方法进行最终映射。然而,如果只知道部分对应关系信息,现有方法的能力有限,并且很少有专门针对这种情况设计的方法。为了解决这些问题,在本文中作者介绍了用于多模态插补和特征的联合变分自编码器(JAMIE)。JAMIE训练了一个可重复使用的联合变分自编码器(VAE)模型,将可用的多模态数据投影到类似的潜在空间中(但对于每个模态仍然是独特的),从而增强了对单模态模式的推断。为了进行跨模态插补,数据可以输入编码器,然后通过另一个模态的解码器处理产生潜在空间内的特征。JAMIE能够使用部分对应关系信息。JAMIE将自编码器的可重复使用性和灵活的潜在空间生成与对齐方法的自动对应估计相结合。

模型

图 2

JAMIE采用联合自编码器模型进行数据整合和插补(图2a)。作为输入,JAMIE接受两个模态X和Y的数据矩阵X和Y。可选地,当两个模态的样本部分对应时(例如,来自相同单个细胞),可以提供额外的对应关系矩阵F。JAMIE中的编码器将X和Y转换为潜在空间中的特征,并利用可用的对应信息进行聚合。JAMIE中的解码器然后预测原始模态的重构X和Y。在训练完JAMIE模型后,可以依次使用其用于模态X的编码器和用于模态Y的解码器进行从一种模态到另一种模态的插补(图2b)。此外,JAMIE模型的潜在空间可以用于表型预测。使用Shapley加法解释值(Shapley additive explanation values)等重要性评估方法,可以对用于插补的多模态特征进行排序(图2c)。

模拟的多模态数据

图 3

作者首先在模拟的单细胞多模态数据上对JAMIE进行了测试。模拟数据是通过从分支流形上的高斯分布进行采样生成的(图3a)。作者发现JAMIE中两个模态的潜在特征保留了流形的分支结构,同时对于同一类型的细胞在任一模态中进行了对齐,同时保持了细胞类型的分离(图3b)。为了量化整合质量,作者使用了两个指标:标签传输准确率(LTA)和最接近真实匹配的样本比例(FOSCTTM)。在细胞类型分离方面,JAMIE(LTA 0.976,FOSCTTM 0.001)在LTA指标上优于最先进的对齐方法NLMA(LTA 0.970,FOSCTTM 0.001),并且优于UnionCom(LTA 0.947,FOSCTTM 0.079)的LTA和FOSCTTM指标(图3c)。此外,作者发现JAMIE所填充的特征值与测量值一致。例如,如图2d所示,模态1特征的填充值在细胞类型之间具有高分布相似性,平均Jensen-Shannon(JS)距离为0.428 ± 0.097(图3d)。图3e突出显示了两个具有高相似性的特征,其平均JS距离为0.278和0.281,同时显示了跨细胞类型的表达变化保持(即,细胞类型1的值低于其他两个细胞类型)。填充性能通过相关性和AUROC与基准方法进行比较,如图3f、4f和5f所示。每个点代表一个细胞,坐标轴表示每种方法的性能。红线表示方法之间的相等性能区域。对于填充第一个模态,作者还发现JAMIE在AUROC和相关性方面优于基准方法的k最近邻填充(KNN),在特征数量上分别为1,490对466(P < 1 × 10^−100)和1,147对853(P < 6 × 10^−11)(图3f)。

小鼠神经元的基因表达和电生理

图 4

作者运用JAMIE来推断跨模态特征并填补小鼠视皮层(图4a)中抑制性神经元类型(Lamp5、Serpinf1、Sst、Vip、Pvalb和Sncg)的神经元细胞的基因表达和电生理(ephys)数据。可以发现,JAMIE所确定的基因和电生理特征能够有效地区分这些细胞类型(图4b)。此外,JAMIE在LTA和FOSCTTM两个评估指标上表现出色,例如线性流形对齐(LMA)(LTA 0.907,FOSCTTM 0.072)和UnionCom(LTA 0.887,FOSCTTM 0.124)(图4c)。此外,JAMIE在各个细胞类型上均具有一致的填补效果,并且通常能够保持不同细胞类型的电生理变化,平均JS距离为0.537 ± 0.115。两个电生理特征的高相似性进一步证明了这种保持性,平均JS距离为0.314和0.316。最后,与基线KNN相比,JAMIE对电生理特征的填补效果明显更好,在33个中的39个特征中(P < 2 × 10^−5),在AUROC和相关性方面表现更好。

人脑中的基因表达和染色质可及性

图 5

为了进一步研究人类大脑发育中的单细胞多组学数据对基因调控的影响,作者将 JAMIE 应用于人类大脑皮层发育中的基因表达和染色质可及性数据(使用10x Multiome 进行的 scRNA-seq 和 scATAC-seq)(图5a)。染色质可及性数据测量开放染色质区域(OCR)的可及性,OCR 在调控基因表达中起着关键的表观遗传作用。JAMIE 的特征结果能够将细胞类型分离开来,与仅使用 Uniform Manifold Approximation and Projection (UMAP) 相比(图5a,b)。在细胞类型分离的比较中,JAMIE(LTA 0.959,FOSCTTM <0.001)在 LTA 和 FOSCTTM 方面均优于其他方法,包括 NLMA(LTA 0.767,FOSCTTM 0.002)和 LMA(LTA 0.775,FOSCTTM 0.002)(图5c)。CCA(LTA 0.544,FOSCTTM 0.930)和 UnionCom(LTA 0.458,FOSCTTM 0.494)由于数据的复杂性无法进行对齐。需要注意的是,即使仅提供了75%的对应信息(LTA 0.951,FOSCTTM 0.047)和50%的对应信息(LTA 0.936,FOSCTTM 0.106),JAMIE 在 LTA 方面仍然优于所有其他方法。

对于跨模态填补的生物可解释性

图 6

作者应用了Shapley Additive Explanations (SHAP)方法来优先选择特征用于跨模态填补。具体来说,这种分析可以确定在一个模态中用于填补另一个模态中给定特征的顶级特征。如图6a所示,JAMIE将OCRs(开放染色质区域)优先选择用于填补DENND1B基因,这是一个与胃癌相关的基因,位于第123条染色体上。进一步地,将OCRs保持接近DENND1B的位置通常会产生更好的填补效果。例如,删除10 kb内的OCRs与染色体其他位置相比,相关性较低,这表明JAMIE可能能够揭示从染色质可及性到基因表达中的基因组近距离的重要性。在发育中的大脑中,JAMIE识别出了几个重要的基因,包括MIA和BBC3(两者的LTA为0.889),它们对于区分细胞类型做出了重要贡献。MIA已与神经发育障碍的增加风险相关24,而BBC3则与成年大脑中的细胞死亡相关。此外,JAMIE还确定了在小鼠视皮层中的重要基因SST(LTA 0.423)。已知SST与视觉辨别直接相关。在优先考虑的前200个基因中,发现了许多细胞类型标记基因,而在前400个基因中则涵盖了所有可能的细胞类型标记基因。

结论

JAMIE是一种用于跨模态估计的新型深度神经网络模型。它适用于复杂、混合或部分对应的多模态数据,通过一种基于联合VAE结构的新型潜在特征聚合方法来实现。除了上述的优越性能外,JAMIE还具有计算效率高、内存使用少的特点。此外,预训练模型以及学习到的跨模态潜在特征可以在下游分析中被重复使用。作者使用了针对对齐方法设计的评估指标(如FOSCTTM和LTA)来评估JAMIE。尽管JAMIE并未明确设计为在每个模态中提供共同的潜在空间,但在很多应用中,JAMIE的FOSCTTM与现有方法相媲美甚至更好。此外,LTA在包含未经滤波和噪声数据的复杂使用情况下似乎更好。这表明JAMIE中使用的模态特定和聚合的潜在空间能够灵活地形成潜在特征,从而更好地将不同细胞类型与噪声样本区分开来。

参考资料

Cohen Kalafut, N., Huang, X. & Wang, D. Joint variational autoencoders for multimodal imputation and embedding. Nat Mach Intell (2023).

https://doi.org/10.1038/s42256-023-00663-z

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-30 00:01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档