检索关于TCGA可变剪切的相关文献。虽然总的数量并不是很多,但是其在2019年猛增为49,在2020年的上半年发文数量也达到了2019的一半,说明可变剪切研究在生信方面的热度有上升的趋势。
根据基因的某个转录本与其组成型转录本(可以理解为最长转录本)之间的比较,可对不同的基因的不同转录转本进行分类。
Spliceseq是MDAnderson cancer center开发的,基于java探究高通量RNA-seq数据可变性剪切模式的软件。SplAdder是基于python或matlab软件。此外,还有很多方法可用于识别可变剪切。
很多方法识别可变剪切均是基于剪切图谱(splice graph)。至于剪切图谱的构建,可参考以下模式图:转录本1-4分别是基因x的4个不同的转录版本,将他们进行取并集的形式,构建囊括所有转录本结构的统一体,即针对gene x创建了单个基因的剪切图谱。至于如何解读剪切图谱,可参考接下来的示例。
PSI指数(percent spliced in index):它是可以量化可变剪切的指标,可以实现某个外显子是否纳入转录本定量,从而用于单个样本或组间多个样本的比较。其计算公式可总结成如下:
PSI = splice_in / (splice_in +splice_out)。
例如在如下的模式图中,展示的某基因的exon 2外显子跳过事件,其PSI计算等于含有该外显子的reads除以(含有该外显子的reads+不含有该外显子的reads),故针对这一事件的PSI=0.8。
也就是说,外显子2纳入该基因所有转录本中的比例是0.8。
左上图展示的是经过spliceseq算法处理得到的可变剪切矩阵。
上中图是对可变剪切矩阵的箱线图可视化结果,可用于直观比较不同肿瘤类型中某种可变剪切类型的差异。上右图与NCBI、uniprot相连展示基因的信息,而exon table则是对目前基因的外显子情况进行汇总,包含每个外显子的序列,这对感兴趣序列的接头的设计非常有用。
可变剪切图谱的应用与解读:下图是基于右上角选中基因(如FBLN2),构建的可变剪切图谱。 根据可变剪切矩阵,可以知道该基因发生的是外显子11跳过事件,而该剪切图谱就是阐释为什么发生的是外显子11跳过事件,而不是其他类型的可变剪切事件。在外显子11处,外显子10-外显子11、外显子11-外显子12连接分别对应的OPKM读数为0.3、0.4(OPKM:校正基因长度和样本含量,类似于RPKM;READS:raw data),而外显子10-外显子12连接对应的OPKM为2,故基因FBLN2倾向于发生外显子11跳过的转录版本,故得出外显子11发生跳过事件。
另外,我们还可以观察到,在剪切谱图中:同一基因的不同外显子发生相同类型或者不同类型的可变剪切,通过软件计算出不同的PSI值,如NEIL3的外显子10和外显子8.2。也就是说,同一个基因能够同时发生多种类型的可变剪切事件,可用upset图进行汇总展示,如下:
在可变剪切分析中,首先需要在软件中输入待分析的RNA-seq数据(这里指的应该是RNA-seq raw data),然后软件利用其已经配置好的参考基因组数据库进行RNA测序数据的注释和比对,接着构建每个基因的剪切图谱,进行可变剪切事件的量化(这些识别的基因可变剪切模式,有些是在已有的数据库(如GENECODE=ensemble,refseq=NCBI,UCSC)中注释过的,但是有些是未注释过的)。
最后,就是将识别的可变剪切事件与临床意义联系起来,探究可变剪切在疾病发展、治疗和预后中的作用。这一部分的分析就需要“仁者见仁,智者见智”啦。如果从应用的角度来说,探究可变剪切的生物学意义是研究的精华所在,其较弄明白可变剪切事件识别的算法更加有意义。
cox分析在具有临床数据的预后分析中常常采用,根据可变剪切事件进行分组,进行单因素cox分析,探究其与患者预后的关联;然后利用具有显著性的可变性剪切事件,构建多因素cox分析模型,探究多因素与患者预后的关联。可参考文献3和4。
可绘制剪切因子表达与可变剪切事件PSI相关性的汇总圈图(上方的A图,绿色的连线表示为负相关,红色的连线表示正相关),也可绘制单个剪切因子表达与可变剪切事件PSI指数的散点图(上方的B-K图),从生信的角度探究可变剪切事件与剪切因子表达的相关性,为后续的湿试验提供思路。可参考文献3和4。
CPTAC的数据尚是一个未被充分挖掘的宝藏!整合基因组学、转录组学、micRNA、表观组学和蛋白质组学的综合分析绝大多数属于高分典范。在可变剪切分析中,可以考虑将可变剪切来源的多肽与CPTAC数据中的蛋白质表达进行整合。
可变剪切事件能翻译成介导不同功能的蛋白质,故联合CPTAC蛋白质组学数据库,从新生抗原肽的角度探究可变剪切事件的临床应用,也可从蛋白质的角度探究其与患者预后的关系。根据可变剪切推测其可能引发的抗原表位,利用CPTAC数据库进行验证抗原表位,根据肿瘤样本中常发生的AS来源抗原表位探究免疫干预疗法,如嵌合抗原抗体T细胞治疗和个性化抗癌疫苗,参考文献2。
本次关于可变剪切的学习主要是从基础部分和可变剪切应用方向进行展开。如果在后续的学习中,能够继续开展应用实例的深入学习,我们又继续分享。期待我们再次相见!
1.Djebali S, Davis CA, Merkel A, Dobin A, Lassmann T, Mortazavi A, et al. Landscape of transcription in human cells. NATURE. [Journal Article; Research Support, N.I.H., Extramural; Research Support, Non-U.S. Gov't; Research Support, U.S. Gov't, Non-P.H.S.]. 2012 2012-09-06;489(7414):101-8.
2.Kahles A, Lehmann KV, Toussaint NC, Huser M, Stark SG, Sachsenberg T, et al. Comprehensive Analysis of Alternative Splicing Across Tumors from 8,705 Patients. CANCER CELL. [Journal Article; Research Support, Non-U.S. Gov't]. 2018 2018-08-13;34(2):211-24.
3.Li Y, Sun N, Lu Z, Sun S, Huang J, Chen Z, et al. Prognostic alternative mRNA splicing signature in non-small cell lung cancer. CANCER LETT. [Journal Article]. 2017 2017-05-01;393:40-51.
4.Zhu J, Chen Z, Yong L. Systematic profiling of alternative splicing signature reveals prognostic predictor for ovarian cancer. GYNECOL ONCOL. [Journal Article]. 2018 2018-02-01;148(2):368-74.