Science述评|大规模单细胞组学解析人类基因遗传学互作

中科院青促会特邀述评人 蒋岚

(中科院北京基因组研究所)

评述论文:Exploring genetic interaction manifolds constructed from rich single-cell phenotypes (Science, 9 August 2019, 365 (6453))

解析基因型和表型之间的关系是生命科学的一个核心问题。然而,特定的性状或表型由单一的基因决定是比较不常见的,大多数的性状或表型是由多个基因的协同作用来共同决定。在过去的研究中科学家发现,细胞类型复杂的多细胞生物并没有比简单的生物表达更多数量的基因, 而是通过精细的调控数量不多的基因的组合表达,来实现多种多样的细胞类型和行为。

换句话说,某些特定的基因的组合,当它们同时受到干扰(过表达或者敲低)的时候,可以使细胞状态发生“质”的变化,达到类似“三个臭皮匠,胜过一个諸葛亮”的效果。这些基因被认为具有遗传学上的相互作用(Genetic interactions, GIs)。癌症细胞中的合成致死效应,2012年获得诺贝尔奖的IPS技术,都属于GI的范畴[1,2]。

此前的研究范式,是通过同时干扰一对基因或者更多组合,然后定量的度量表型,例如细胞生长快慢,来鉴定基因之间是否具有这种相互作用[3,4]。在酵母这种简单的单细胞模式生物中,已经完成了比较完整和系统性的研究,并通过遗传学相互作用无偏好的鉴定了基因功能,蛋白复合体亚基,基因调控网络等,取得了颇为丰硕的成果。但传统研究方式扩展到哺乳动物等复杂生物时,面临巨大的挑战。

首先在规模来说,假设希望度量所有1万个左右转录的基因的两两相互作用,需要构建5千万个双突变体。其次从表型的刻画来说,单一的细胞生长率或者适应性作为表型是非常粗糙的。相同“不适应”表型有可能是完全不同的原因导致,例如细胞凋亡和细胞周期停滞。

近期,研究者把基于基因魔剪CRISPR系统的遗传学干扰筛选和单细胞测序结合起来,建立的高通量的方法Perturb-seq有望解决这些问题[5–8]。在Perturb-seq中,每一个细胞都是一个独立的实验,通过单细胞转录组测序,不但可以刻画细胞状态作为表型,还可以回溯追踪具体的遗传学干预,并且可以成千上万的实验同时并行进行。

在最新一期的《科学》杂志上,美国科学院院士Jonathan S. Weissman团队把Perturb-seq进行升级,并开创性的把Manifold learning(Manifold最早是德国数学家黎曼提出的一个概念,中国第一个拓扑学家江泽涵把这个词翻译为 “流形”,出自《易经》)应用到数据的解读中(图1)。在此全新的生物信息学分析框架下,构建的遗传互作流形(GI manifold),比传统的遗传互作图谱(GI map)更加强大,将大大加速人类基因的遗传学互作的研究。

图1. 一个嵌入到三维空间的二维流形

在三维空间中两点之间的欧式距离(Euclidean distance, 黑箭头所示)和学习到流形结构之后的测地距离(Geodesic distance,蓝箭头所示)截然不同。但测地距离更能揭示事物内在的规律。流形通常被认为具有局部坚硬和全局柔软的特征。

图片来源于:https://pulse.embs.org/

作者首先在K562细胞系中,以细胞生长作为表型,对112个基因进行一对基因组合过表达和相匹配的单个基因过表达的比较,构建了遗传互作图谱,证明了CRISPRa系统(过表达)和CRISPRi系统(敲低)一样也可以用于研究基因互作。

而后,作者基于遗传互作图谱中的基因聚类结果,稀疏的采样了的132种基因对组合的287种单基因或者双基因干扰,进行了基于CRISPRa系统的Perturb-seq。测序深度为一半以上的干扰条件至少测到273个单细胞转录组。对这287种组合遗传干扰的平均转录状态进行降维之后,推断得到低维空间的一个曲面,即遗传互作流形(GI manifold)。进一步使用UMAP[9]在二维空间里对遗传互作流形进行可视化,可以观察到具有相似后果的遗传学组合干扰很自然的聚类到在一起,如图2所示。

图2. 遗传互作流形的可视化

分析结果不但确认了一些已知的基因互作,还发现了一些此前未被报道的基因互作关系。例如,数据显示CBL和CNN1的协同效应(synergistic effect)驱动红细胞的分化过程,作者进一步在HUDEP2细胞系中得到实验验证很好的支持(图3)。此前有关CNN1基因的研究非常少,提示此种分析策略具备不依赖于先验生物学知识大规模的发掘重要新基因的潜质。

图3. 利用升级Perturb-seq发现新的遗传互作

基于遗传互作流形,作者将遗传互作进行建模,将遗传互作分为更加丰富的类型,包括Epistasis, Potentiation, Redundant, Synergy等等。提供了比传统遗传互作图谱更加丰富的信息。此外,作者还成功的推断了基因的调控关系,重建了基因调控通路。更为重要的是,基于对遗传互作流形的学习,为不做实际的遗传干扰试验而预测遗传互作提供了激动人心的可能性。

此项工作是Weissman实验室前期一系列工作的延续或者说集成。最初建立CRISPRa和CRISPRi平台的工作[10],侧重干扰单个基因来鉴定基因功能。同时干扰成对的基因构建遗传互作图谱(GI map)方面的工作,则侧重细胞生长等单一表型[11]。此前版本的Perturb-seq技术,已经使用单细胞测序来刻画丰富的表型,但侧重干扰单个基因而非成对基因,并且主要的干扰手段是基因敲低[7]。

此项工作和前作的主要区别是,侧重同时干扰一对基因,使用此前较少使用的CRISPRa过表达系统,并且使用单细胞测序来度量丰富的表型。在生物信息学分析方面,此前遗传互作图谱方面的工作,是对基因进行聚类,而在遗传互作流形(GI manifold)的框架下,则是基于单细胞测序刻画的表型来对组合遗传干扰进行聚类。此项工作证明了大规模高效率的进行遗传学组合干扰-观察-推断-验证的基因遗传互作研究切实可行,建立了新的研究范式,将大大推动癌症的合成致死,遗传病的抑制,干细胞的定向分化等领域的进展。

值得一提的是在单细胞分析领域,此前Martin Hemberg曾指出时间轨迹分析(pseudotime analysis)就是推断一个一维的流形[12],Dana Pe'er将流形学习运用到替换缺失观察值(imputation)中[13],Rahul Satija将不同数据学习到的流形进行匹配从而实现多维数据整合[14]。未来可期机器学习和人工智能领域的思想和技术还将和单细胞组学大数据碰撞出更多的火花。

述评人简介:蒋岚 博士,中国科学院北京基因组所研究员,入选第十四批国家高层次人才计划青年项目,主要从事表观遗传学和单细胞基因组学等方面的研究。

单细胞这么好玩,要不要来参加下CNS常客 单细胞转录组培训课程!

参考文献

1. Takahashi K, Yamanaka S: Induction of Pluripotent Stem Cells from Mouse Embryonic and Adult Fibroblast Cultures by Defined Factors. Cell 2006, 126:663–676.

2. Hartman J, LI V, Garvik B, Hartwell L: Principles for the Buffering of Genetic Variation. Science 2001, 1001:1–5.

3. Costanzo M, Kuzmin E, van Leeuwen J, Mair B, Moffat J, Boone C, Andrews B: Global Genetic Networks and the Genotype-to-Phenotype Relationship. Cell 2019, 177:85–100.

4. Domingo J, Baeza-Centurion P, Lehner B: The Causes and Consequences of Genetic Interactions (Epistasis). Annual Review of Genomics and Human Genetics 2019, 20:annurev-genom-083118-014857.

5. Dixit A, Parnas O, Li B, Chen J, Fulco CP, Jerby-Arnon L, Marjanovic ND, Dionne D, Burks T, Raychowdhury R, Adamson B, Norman TM, LanderES, Weissman JS, Friedman N, Regev A: Perturb-Seq: Dissecting Molecular Circuits with Scalable Single-Cell RNA Profiling of Pooled Genetic Screens. Cell 2016, 167:1853-1866.e17.

6. Datlinger P, Rendeiro AF, Schmidl C, Krausgruber T, Traxler P, Klughammer J, Schuster LC, Kuchler A, Alpar D, Bock C: Pooled CRISPR screening with single-cell transcriptome readout. Nature Methods 2017, 14:297–301.

7. Adamson B, Norman TM, Jost M, Cho MY, Nuñez JK, Chen Y, Villalta JE, Gilbert LA, Horlbeck MA, Hein MY, Pak RA, Gray AN, Gross CA, DixitA, Parnas O, Regev A, Weissman JS: A Multiplexed Single-Cell CRISPR Screening Platform Enables Systematic Dissection of the Unfolded Protein Response. Cell 2016, 167:1867-1882.e21.

8. Jaitin DA, Weiner A, Yofe I, Lara-Astiaso D, Keren-Shaul H, David E, Salame TM, Tanay A, van Oudenaarden A, Amit I: Dissecting Immune Circuits by Linking CRISPR-Pooled Screens with Single-Cell RNA-Seq. Cell 2016, 167:1883-1896.e15.

9. McInnes L, Healy J, Melville J: UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. 2018.

10. Gilbert LA, Horlbeck MA, Adamson B, Villalta JE, Chen Y, Whitehead EH, Guimaraes C, Panning B, Ploegh HL, Bassik MC, Qi LS, Kampmann M, Weissman JS: Genome-Scale CRISPR-Mediated Control of Gene Repression and Activation. Cell 2014, 159:647–61.

11. Horlbeck MA, Xu A, Wang M, Bennett NK, Park CY, Bogdanoff D, Adamson B, Chow ED, Kampmann M, Peterson TR, Nakamura K, Fischbach MA, Weissman JS, Gilbert LA: Mapping the Genetic Landscape of Human Cells. Cell 2018, 174:953-967.e22.

12. Kiselev VY, Andrews TS, Hemberg M: Challenges in unsupervised clustering of single-cell RNA-seq data. Nature Reviews Genetics 2019, 20:273–282.

13. van Dijk D, Sharma R, Nainys J, Yim K, Kathail P, Carr AJ, Burdziak C, Moon KR, Chaffer CL, Pattabiraman D, Bierie B, Mazutis L, Wolf G, Krishnaswamy S, Pe'er D: Recovering Gene Interactions from Single-Cell Data Using Data Diffusion. Cell 2018:1–14.

14. Butler A, Hoffman P, Smibert P, Papalexi E, Satija R, Andrew Butler 1,2, Paul Hoffman 1, Peter Smibert 1, Efthymia Papalexi 1,2 & Rahul Satija1 2: Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nature Biotechnology 2018, 36(July 2017).

原文发布于微信公众号 - 生信宝典(Bio_data)

原文发表时间:2019-08-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券