欢迎关注”生信修炼手册”!
融合基因是指两个或者多个基因联合起来,共同转录形成一个转录本,融合基因可以作为某些疾病的特异分子标记,常见的有以下几种
利用RNA_seq的数据,我们可以检测融合转录本,从而识别融合基因。 fusionMap就是这样的一款工具,官网如下
http://www.arrayserver.com/wiki/index.php?title=FusionMap
通过两种方式来检测融合基因:
示意图如下
在fusionmap中,假定融合基因由2个基因组成,对于没能比对上基因组的Fusion Junction-spanning reads, 又分为两类:设定一个比对长度的阈值,如果这条reads在两个基因中比对上的长度都大于阈值,就属于seed reads; 如果在任意一个基因中比对上的长度小于阈值,就属于rescued reads,示意图如下
Fusionmap会输出如下所示的表格
关键的几列信息解释如下
除此之外,还包含以下几种比较难理解的信息
包含以下3种
SeedCount
和RescuedCount
代表的就是上文中提到了seed reads
和rescued reads
的个数,二者相加就是Fusion Junciton-spanning reads
数目,除此之外,还有Inter-transcript reads,这两种reads的总数就是所有支持该融合基因的reads数目,reads数肯定是越多越好,但是由于建库过程中存在PCR重复,所以为了提供更加可信的reads数信息,需要去冗余,保证PCR reads不重复计算,去冗余之后,就得到了UniqueCuttingPositionCount。示意图如下
黑色的线条是真实存在的融合基因形成的转录本,灰色的fragment是随机打断该转录本生成的序列,红色为融合基因对应的breakpoint,图中一共4条reads, 但是中间的2条reads 位置相同,可能是PCR 重复,所以实际上只能说有3条reads 支持该融合基因;fusinomap 在统计reads 数目的时候,实际上只看在第二个基因中的终止位置是否相同来判断,对于例子中的融合基因,最终的UniqueCuttingPositionCount的值就是3,这个数值越大,该融合基因越可靠。
融合转录本也会进行翻译,相比原本两个基因的密码子,融合转录本的密码子会存在移码现象,对于结果中frameshift
这一列的信息,示意图如下
以上就是4种常见的融合转录本密码子类型,在FrameshiftClass
这一列信息中,将这4种常见类型定义为In-Frame, 其他类型定义为Frame-Shift。
通常认为是两个基因的exon区域连接形成了融合转录本,而exon起始和终止的碱基序列相对保守,根据这一特征,fusionmap定义了SplicePattern
, 即连接点两侧序列的模式,GA-TC这样的剪切模式是最常见的,类型为CanonicalPatter[Major],接下来比较常见的是GC-AG 和 AT-AC, 类型为CanonicalPatter[Minor], 对于其他的剪切模式,一般不常见,类型为NonCanonicalPatter;如果一个融合基因的breakpoint 处的剪切模式越常见,则检测到的该融合基因为真实存在的融合基因的可能信越大。
同时也会判断连接点两侧是否位于eoxn边界,对应的信息保存在OnExonBoundary
这一列,如果连接点位于两个exon边界,取值为Both, 其他取值包括Single和None。详细的用法请参阅官方文档。
·end·
—如果喜欢,快分享给你的朋友们吧—