写在课程前:
14年高考没考好,阴差阳错读了某二本的生物信息学专业,是我们学校生物信息学专业的第一届(xiao)学(bai)生(shu),记得刚进校门整个班的同学围着老师问生物信息学到底是干啥的,出来能干什么样的工作。但是老师们至今也没回答出个所以然来。因此大学浑浑噩噩过了两年,混社团混学生会,想着毕业之后去当个销售了事。
大二下学期竞选学生会主席团失败,于是“解甲归田”,宿舍的小床成了我最长停留的地方。
有一天游戏玩腻了,电视也追完了,躺在床上发呆的我不知咋的脑海里突然响起院长天天给我们安利的那句“感受编程之美”,萦绕耳畔,久久不能自拔。于是在这一天,我觉得自己应该干点什么,生信也许并不像我们想象的那样不堪。而且总觉得冥冥之中,高考失常->调剂专业->竞选失败->现在,似乎有种无形的东西在引导我——————认识生信技能树。
于是阴差阳错从16年左右开始关注生信技能树:
之后就是最近大热的单细胞测序专题:
单细胞转录组
课程会在2019年9月底之前录制完毕并上线:
课程说明在:https://mp.weixin.qq.com/s/AV2uTbsvJGBRq_zv7yDmNg
所有代码在:https://github.com/jmzeng1314/scRNA_smart_seq2
观看链接 :http://jm.grazy.cn/index/mulitcourse/detail.html?cid=53
手机微信观看(推荐):http://jm.grazy.cn/wechat/course/detail?cid=53
新入门的旁友们可以按照健明大大的学习路线光速入门,此次的单细胞转录组课程需要掌握linux,r,转录组的相关知识,需要加强巩固的旁友们可以按照学习路线重新温习一下基础知识。
正文
2
背景介绍
第一单元概括性的介绍了一下单细胞转录组近10年的发展历程,以及两大主流技术smart-seq2(力求检测到单个细胞的基因数量)和10x(追求检测到的细胞数量)的介绍,最后对一篇单细胞转录组文献进行了深入解读。
在学习之前,我们要理解为什么做单细胞转录组,单细胞转录组和bulk转录组分析有什么区别
生物体内广泛存在着细胞异质性,即使是同一个病人体内,表达水平也会呈现持续的动态变化,在不同时期或肿瘤组织的不同部位,很可能有着很大的差异。
常规转录组测序尽管方便快捷,但毕竟是建立在异质混合物的基础上,是一种“平均数数据” 这种总体上的平均值可能在很大程度上掩盖了不少稀有、微量样本的作用以及在生命体内广泛存在的随机行为,细胞异质性的研究更使得群体研究倍受争议。
因此单细胞转录组测序应运而生
3
单细胞转录组流程
2009年开发出了第一个单细胞转录组测序方法(汤富酬),经过这么多年的进步与发展如今的scRNA-seq流程一般都分为六步:
1.单细胞(核)的分离和裂解
2.反转录
3.cDNA扩增
4.测序文库制备
5.高通量测序
6.单细胞转录组分析
单细胞转录组分析又分为:
单细胞测序策略选择主要有两个方向 :
所以总结一下:
不同算法比较(https://mp.weixin.qq.com/s/acKQ0fNB15OImugCpVTZuQ)
4
文献解读
课程中以单细胞转录组探索CAFs的功能和空间异质性(https://vip.biotrainee.com/d/883-49-cafs)为例讲解单细胞转录组基本概念和应用
肿瘤相关成纤维细胞是一类具有高度异质性的细胞群,不同的细胞亚群可能起源于不同的前体细胞,如固有成纤维细胞、肿瘤上皮细胞、肿瘤内皮细胞、骨髓来源细胞、其他间充质细胞等。
一系列证据提示CAF通过多种途径在肿瘤发生、进展、转移等过程中起重要作用:
细胞外基质(extracellular matrix,ECM)是由大分子构成的错综复杂的网络。为细胞的生存及活动提供适宜的场所,并通过信号转导系统影响细胞的形状、代谢、功能、迁移、增殖和分化。
细胞外基质的成分
构成细胞外基质的大分子种类繁多,可大致归纳为四大类:
上皮组织、肌组织及脑与脊髓中的ECM含量较少,而结缔组织中ECM含量较高。细胞外基质的组分及组装形式由所产生的细胞决定,并与组织的特殊功能需要相适应。例如,角膜的细胞外基质为透明柔软的片层,肌腱的则坚韧如绳索。细胞外基质不仅静态的发挥支持、连接、保水、保护等物理作用,而且动态的对细胞产生全方位影响。
胚胎发育与癌症发展中的细胞可塑性变化有着惊人的相似性,而这种可塑性变化受到上皮间质转化epithelial-mesenchymal transition(EMT)过程的调节。胚胎发育时期,上皮状态和间充质状态的细胞能够自由转化。上皮间质转化(EMT)使得细胞具备转移和浸润特性。其反向过程,间质上皮转化mesenchymal-epithelialtransition (MET)赋予了细胞极性变化并失去移动能力。EMT会促发癌细胞从病灶分离,转移到其它部位,而MET导致癌细胞停留,并在停留处引起新的肿瘤。
研究乳腺癌的经典模型
自发性肿瘤模型小鼠 —乳腺癌MMTV-PyMT转基因小鼠是一种通过遗传育种而保留下来的一类自发性乳腺癌动物模型, 这种自发性肿瘤模型的优点:
A negative selection fluorescence-activated cell sorting (FACS) strategy
用于活细胞的荧光激活细胞分选术(FACS) 根据荧光标记将一个细胞群分为多个亚群。在流式细胞仪中,这种分选的机制相比非分选分析更为复杂。根据所染荧光团的类型,可将荧光团偶联抗体染色细胞彼此分离。例如,表达一种细胞标记物的细胞可通过识别该标记物的FITC-偶联抗体进行检测,而表达另一种细胞标记物的细胞则可使用特异性识别该标记物的PE-偶联抗体进行检测。这是流式细胞仪的基本功能。
技术分享 | 单细胞RNA测序的实验设计参考(https://mp.weixin.qq.com/s/qea0GwPI5AOMj6MrbKsCSg)
External RNA Controls Consortium (ERCC) Spike-In Control
ERCC:外部RNA控制联盟,就是一套RNA-seq,基因表达检测过程中的控制系统,使得结果具有可重复性。
另外,在评估技术差异的时候常用的两种策略是“Spike-in”和“UMI”,两者的定义:
Spike-in:
A molecule or a set of molecules introduced to the sample in order tocalibrate** measurements and account for technical variation; commonly used examples include external RNA control consortium (ERCC) controls (Ambion/Thermo Fisher Scientific) and Spike-in RNA variant control mixes (SIRVs, Lexogen);
spike-in control是常用的评估技术差异的方法, Lun et al.的研究发现spike-in control 在确定测序过程中的empty Wells和的dead cells有重要作用,因为高的ERCC含量与低质量数据相关,并且通常是排除的标准。 Spike-in:A molecule or a set of molecules introduced to the sample in order to calibrate measurements and account for technical variation; commonly used examples include external RNA control consortium (ERCC) controls (Ambion/Thermo Fisher Scientific) and Spike-in RNA variant control mixes。
UMI(Unique molecular identifier):
A variation of barcoding, in which the RNA molecules to be amplified are tagged with random n-mer oligonucleotides. The number of distinct tags is designed to significantly exceed the number of copies of each transcript species to be amplified, resulting in uniquely tagged molecules, and allowing control for amplification biases.
UMI是反转录过程中添加到每个cDNA的5'或3'端,长度为4-10bp的barcodes(Islam et al., 2014)。 它的作用是将reads分配给每个反转录事件,区分哪些reads是来自于同一个原始的cDNA分子,然后估算原始分子数量(Islam et al., 2014; Kivioja et al., 2011)。
一个分子或一组分子引入到样品中以校准测量并解释技术变化;常用的例子包括外部RNA控制联合体(Ercc)和spike-in RNA变体控制混合物。
瑞士卷(Swiss roll)是二维流形的例子,它可以在高维空间中弯曲。更一般地,一个d维流形在n维空间弯曲(其中d<n)。在瑞士卷的情况下,D=2和n=3。基于流行数据进行建模的降维算法称为流形学习(Manifold Learning)。它假设大多数现实世界的高维数据集接近于一个低维流形。
流行假设通常隐含着另一个假设:通过流形在低维空间中表达,任务(例如分类或回归)应该变得简单。如下图第一行,Swiss roll分为两类,在3D的空间看起来很复杂,但通过流行假设到2D就能变得简单。但是这个假设并不总是能成立。
t-distributed Stochastic Neighbor Embedding(t-SNE)(https://www.analyticsvidhya.com/blog/2017/01/t-sne-implementation-r-python/)
一种Manifold Learning方法
t-SNE(TSNE)将数据点之间的相似度转换为概率。原始空间中的相似度由高斯联合概率表示,嵌入空间的相似度由“学生t分布”表示。
虽然Isomap,LLE和variants等数据降维和可视化方法,更适合展开单个连续的低维的manifold。但如果要准确的可视化样本间的相似度关系,如对于下图所示的S曲线(不同颜色的图像表示不同类别的数据),t-SNE表现更好。因为t-SNE主要是关注数据的局部结构。
通过原始空间和嵌入空间的联合概率的Kullback-Leibler(KL)散度来评估可视化效果的好坏,也就是说用有关KL散度的函数作为loss函数,然后通过梯度下降最小化loss函数,最终获得收敛结果。注意,该loss不是凸函数,即具有不同初始值的多次运行将收敛于KL散度函数的局部最小值中,以致获得不同的结果。因此,尝试不同的随机数种子(Python中可以通过设置seed来获得不同的随机分布)有时候是有用的,并选择具有最低KL散度值的结果。
微阵列50(PAM50) 是一种50基因测试可识别真正的乳腺癌亚型(导管A型、导管B型、HER2丰富型与基底细胞样型),除了生成复发风险(ROR)评分外还可用于预测绝经后激素受体阳性乳腺癌女性的预后。
PAM50 signature can provide prognostic information from the lymph node metastases of ABC patients。When considering all sites of metastasis, only PAM50 was statistically significant in Kaplan–Meier analysis (Log-rank P = 0.008 and 0.008 for long- and short-term postrelapse breast cancer–specific survival, respectively).
Tobin N P, Lundberg A, Lindstrã¶M L S, et al. PAM50 provides prognostic information when applied to the lymph node metastases of advanced breast cancer patients[J]. Clinical Cancer Research, 2017, 23(23):7225.(https://www.ncbi.nlm.nih.gov/pubmed/?term=PAM50%20provides%20prognostic%20information%20when%20applied%20to%20the%20lymph%20node%20metastases%20of%20advanced%20breast%20cancer%20patients)