【Python版】 极简单方式实现 Circos

很高兴再次见到生信技能树的粉丝们,我是技能树VIP小编tsznxx,目前在安德森肿瘤医院工作,记忆力好的小朋友应该对我之前的教程有印象:

用GenePred注释文件进行数据分析

在那里我用了最优雅的方式来解决基因结构的呈现方式,希望对大家胃口。

如何下载注释文件并查看基因结构

对bed格式的基因组区间文件进行基因注释

生物信息学技能面试题(第3题)-探索人类基因组注释文件

生物信息学技能面试题(第5题)-根据GTF画基因的多个转录本结构

这里我将带来完全不一样的教程:

人生苦短

我用Python!

之前用过Perl版的circos,配置文件一堆,安装包一堆,非常痛苦。后来也试过R版的circos,也并不方便。于是自己花时间用Python实现了这个东西。代码一共200多行,大概一半是注释行。还有部分是优化呈现。基本功能的实现极其简单。

1

Packages (git@github.com:tsznxx/PyCircos.git)

  • Python版本2.7.
  • 用到的只有3个基本包:matplotlib,pandas,numpy。这些都是Pythonb必装包。没有任何其他额外的包!!!

2

实现技巧

2.1 matplotlib 的polar 画图。 说白了就是按照极坐标的形式画常规的matplotlib图。

?

pax = fig.add_axes([0,0,1,1],polar=True)

然后就可以像普通2D的axis对象一样call各种bar,scatter,fill_between, vlines, hlines等图了。参数上有细微的差别,角度(弧度单位)是横坐标,半径方向是纵坐标。 染色体band 用pax.bar() (填充和非填充两种方式) 刻度用pax.vlines() CNV的图用的是pax.fill_between() 2.2 画inter-chrom link 这个用的是SVG里面的路径Path里的CURVE3(这个功能很简单,在Javascript的SVG画图里面很常用,但是由于我很少用JavaScript,我花了好久才找到这种实现方式)。CURVE3的意思就是由3个点确定一条曲线(quadratic Bézier curve),(起点,控制点,终点)。控制点是表示切线方向。

对于一条路径,就是一组点组成的闭合曲线:(起点,控制点1,点2,控制点2,...... ,点N,控制点N,起点)。我们所见的inter-chrom 链接就可以用9个点组成一条闭合曲线(chord):

3

画图

当呈现方式就绪后,下一步就是做图了。

cytoband是用的UCSC的文件。

3.1 画染色体cytoband (barplot,颜色采用的是R里面的染色体配色)

3.2 画染色体空框(barplot, {'edgecolor':'k','linewidth':1,'linestyle':'-','fill':False})

3.3 画 ticks (每50M为间隔,刻度用M表示)

3.4 画染色体名字 (旋转)

3.5 画CNV amplification (fill_between, 低于cutoff用灰色表示)

3.5 画CNV deletion (fill_between, 负值,向内画,低于cutoff用灰色表示)

3.6 因为这里并用不到inter-chromosome interaction,我只是随便画了2个link作为例子。注:染色体内部的控制点我偷懒,直接用了半径,所以靠近染色体的弧线有些平(以后有空了改下)。

最终效果图:

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-11-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏木子昭的博客

Django网页模板的继承include与复用extends

Django使用网页模板的方式分为两种, 一是建立代码块, 在新的页面导入代码块, 关键词为include 二是建立模板,新的页面在模板基础上扩充, 关键词为e...

1461
来自专栏CDA数据分析师

如果用R语言读《笑傲江湖》……

上周末,闲着没事就试了一个新的R中文文本分词包——jiebaR,支持Windows,支持简体及繁体中文,速度也很快,大家可以根据该包文档去学习,很容易上手!下面...

2356
来自专栏Kurt Niu 的博客

我用C#写的CF外挂

        妈的,你就是想变瘦,你可以卖个减肥药什么的都可以,但是你卖女人就是不行。

2883
来自专栏黑白安全

高清无码!比鬼片还刺激!且听“诡娃”远控的这首惊魂曲

近日,360云安全系统发现一款名为“诡娃”的远控木马,正通过钓鱼软件、网页挂马等多渠道扩散。“诡娃”除了能进行操控中招电脑等行为外,还会通过控制指令让中招机器弹...

932
来自专栏生信技能树

【直播】我的基因组62:用Delly检测SV

人类单体型(Haplotype)及单核苷酸多态性位点(Single Nucleotide Polymorphism, SNP),能够揭示对药物和环境因子的个体反...

5218
来自专栏非典型技术宅

iOS传感器:实现一个随屏幕旋转的图片1. 加速计介绍2. 加速计的使用3. 获取加速计数据的两种方式4. 实现图片永远水平方向

1574
来自专栏机器人网

为什么采用4~20mA的电流来传输模拟量?

大家可能会非常熟悉RS232,RS485,CAN等工业上常用的总线,他们都是传输数字信号的方式。那么,我们用什么方式来传输模拟信号呢?工业上普遍需要测量各类非电...

2628
来自专栏iOSDevLog

初试 iOS 11 新框架:Vision Framework 让文字检测变得更容易

4214
来自专栏用户2442861的专栏

Pyqt phonon的使用

Qt phonon地址:http://wenku.baidu.com/link?url=nH_dZ8lZbXHy8N5__8jAWLXcuMYf4yRjdCK...

1171
来自专栏生信宝典

生物信息学数据库分类概览 (第一版)

生物与计算机的结合让生物进入大数据时代,为方便管理各种生物数据,科学家们开发了各式各样的生物数据库。了解与自己研究领域相关的数据库,并加以利用可能会使研究工作得...

2803

扫码关注云+社区