中国制造:碉堡的TCGA可视化网站GEPIA

听生信群里大神闲聊,说他师弟做了个TCGA可视化工具,并且有志于各种数据库的可视化,我就点开链接看了一下,不点就算了,一点开不得了, 本来我还举了个例子:

就像我手上的锤子手机,千万别用,用了就无法回头。

但是我怕你们有些人会不适应就率真地删除了。

基于TCGA数据库的网站有很多 但我最关心的功能只有三个(我是临床医生),差异表达,生存分析,相关性分析,这也是我筛选课题的一个方向

  • 基因能够差异表达是前提,没有差异就不大可能用于诊断,也不适合当做治疗靶点
  • 如果这个基因跟生存相关,那就锦上添花了,临床医生搞科研其实很功利的,目的只有一个,能对患者有利。
  • 通过基因的相关性分析找出他的朋友们,所谓物以类聚,看看这个人的朋友基本上就知道他是什么样子的人。 有一个恐怖的传说一直让我后背冒汗心里起火:你的工资是跟你密切交往的6个朋友的平均值。

朋友居然重要到这个层面,所以那么多男女朋友分分合合都能理解了。 好了,不鬼扯,我们简单介绍一下这个数据库GEPIA(Gene Expression Profilling Interactive Analysis),翻译一下应该是 基因表达谱数据动态分析。 http://gepia.cancer-pku.cn/index.html

这个数据库是北京大学开发的,没有发文章,没有发文章。

This tool is developed by Zefang Tang, Chenwei Li and Boxi Kang of Zhang Lab, Peking University.

我要学学宝剑叔叔右哉,先拟定一个让你痛心的场景,蓝后一步一步帮你解决, 这可能有助于我们直接解决问题。 假设,

你现在已经研二了,之前放浪形骸,行散神也散,现在木有课题,木有鱼丸,明年要毕业了,蓝后没有人管你,没有男女朋友,没有大师兄,没有沙师弟,你该怎么办呢?

我们可以这样,先找出某个特定癌症中跟生存最相关的一串基因,再来慢慢筛选,删选后再分析分析,就可以去灌水了,正好GEPIA有这个功能。 先点击一下Survival Analysis,依次点击

点击list会出现下面的结果,可以查询,可以翻页,可以一个个复制粘贴用以前讲的方法做GO分析,KEGG分析,互作分析。

这里我们直接选择VADC1来看看,首先我们检查一下这个基因分生存分析图究竟是什么样子,点击它后跳转成如下页面

这时候相当于进入了单基因入口,这里面给出了这个基因概括,说是线粒体膜的主要组成成分,也跟铁的转运相关,我觉得都是热门方向 如果这个领域你hold不住,就返回去再换一个基因点进来,最右边图我觉得很直观,绿色代表VDAC1在正常组织的表达,红色代表在肿瘤组织中的表达 可能这张图看不出啥特殊,我举个例子,

A基因几乎只在乳腺表达,而且在乳腺癌中明显高表达 B基因在全身广泛表达,但是表达风度不高,而在乳腺癌中表达显著提高 好了页面往下拉就可以看到这个基因在多个癌症癌和癌旁的表达情况,我们可以看出他在乳腺癌中是高表达的 但是在其他许多癌症中也明显差异表达,这张表不会让你漏掉其他癌症(oncomine数据库也有类似的效果),如果恰巧实验室有人在做那个癌症,你就可以跟他合伙搞一搞嘛。 因为你没有人管,没有大师兄,没有沙师弟,你还有什么选择?

此外,你是可以选择呈现方式的,按照如下步骤操作可以得到漂亮的癌和癌旁的表达图

点击plot之后是这个样子的,可以下载,可以直接放在文章里面,如果再挑选几个癌症一起作图,也很方便。

返回一开始的界面,往下面翻一翻就会看到和这个基因表达类似的基因

哎呦歪,里面HNRNPAB就是核内不均一核糖核蛋白家族成员,他可是要调控RNA的可变剪切的,许多LNCRNA作pulldown后就会拉下这个家族的成员 相关的文章从SCIENCE,CELL到ONCOTARGETS都有。 但是我们差点忘了进来是干什么的,我们是来看生存分析的。依次操作。

点击plot就会得到下面的图

这个图真的是漂亮,一点都不含糊,好了这时候课题基本上就有苗头了

VDAC1以暂时不知道的原因升高导致乳腺癌的发生,而乳腺癌患者高表达VADAC1的患者低生存。

而临床医生做科研不外乎诊和疗,就是对自己的工作有用。

  • 从诊治的角度来说,这个基因表达水平对诊断乳腺癌有没有帮助?
  • 从治疗的角度来说,既然高表达低生存,那么有没有可能设计抗体来治疗乳腺癌呢?

当然那个是转化医学,很遥远,在这之前就是基础医学,很多人觉得基础医学没有用,才不是呢。 从研究的角度来看:

  • 这个基因高表达的原因是什么?表观遗传相关么,突变么,转录激活么,翻译修饰么,搞清楚就已经不容易了。

我们试一试表观遗传有没有影响,在UCSC数据库中打开VDAC1(更为严谨的做法是使用乳腺组织的Chip-seq数据来分析,以后会写ENCODE数据库),我的妈呀,他的启动子区域这么汹涌澎湃的H3K27ac修饰(这个基因的转录方向是从右到左的,所以启动子在右边),说明他的表达量本身就很高,不大可能是个坏分子,要么就是他在癌中突变了,要么就是他启动子在癌症中被过度激活了,我只是说可能 那么就会有个子课题产生:

H3K27ac组蛋白乙酰化修饰促使VDAC1基因启动子激活从而升高其表达

  • 另外一个问题,这个基因在乳腺癌中的功能是什么?

可以尝试用生物信息学找到共表达的基因,之前已经列出来了,再去预测他可能有什么功能, 也可以直接构建慢病毒shRNA敲减后看看他的表型, 可是这不是你想要的,我们需要的是短平快,怎么办呢?查文献, 恰好我刚知道那个写过Hallmars of Cancer这篇文章老爷爷Weinberg在nature发表了一篇文章,时间是2017年3月30日(对的我清明节没有休息),他们找到了乳腺癌中一个新的抑癌基因 叫做LACTB,他能够调控脂质代谢抑制乳腺癌,LACTB是一个线粒体相关的蛋白,VDAC1也是一个线粒体相关的蛋白,他们之间可能有联系么?

他们的联系可能多种多样,我们尝试用现成的工具看一下,相关性分析

点击plot试一下

居然他们还有相关性,欢天喜地庆丰收,毕业在望。可是他们他们应该表达呈负相关才合理呀, 这么来把这些结果整合到一起呢?VDAC1和LACTB相关,抑制癌症的产生,蓝后不知怎么的他的启动子就过度活化了 然后他就促发了癌症? 我觉得自己都说服不了,我们还是换一种思路吧,用string数据库来看一看

VDAC1居然跟BAX,BCL2L1相关,表明其可能跟细胞的凋亡相关 好了最终的课题就是 H3K27ac修饰使VDAC1的启动子过度乙酰化促进其表达从而抑制细胞凋亡促进乳腺癌的发展。 我觉得这时候真的可以搞一搞了,什么,你没有shRNA? 不是说了跟别人合作么,你怎么又搞忘了。 蓝后检索一下VDAC1和乳腺癌的文章,发现少之又少,燃烧吧我的小宇宙。

这个过程中好像文献阅读并不重要,但是不要忘了LACTB是Weinberg老爷爷团队的结果,所谓龙生九子,个个不同,但都是神兽呀。 LACTB在乳腺癌中的表达和调控还没有研究呢,上面那个课题要是实在弄不好,就换这一个吧。

蓝后,我觉得科研结果的呈现最基本的要求就是

自洽

四个字就是自圆其说,不要前后矛盾,你自己构建了一个体系,一定要让自己信服。 自己都不相信的东西还想让别人相信,你把我当什么了。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-04-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏互联网杂技

知其所以然(以算法学习为例)

其实下文的绝大部分内容对所有学习都是同理的。只不过最近在正儿巴经地学算法,而后者又不是好啃的骨头,所以平时思考总结得就自然要比学其它东西要多一些。 问题:目前几...

3458
来自专栏Golang语言社区

为什么程序员都是夜猫子

一种很流行的说法是,程序员是把咖啡因转化成程序代码的机器。 说的是实情,随便问一个程序员,问他什么时候工作最有状态,估计他很有可能说是深夜。有人...

3187
来自专栏清墨_iOS分享

OpenGLES- 拨开迷雾

一、OpenGLES简介(请自行百度) 使用OpenGLES你可以做出很多超酷的东西!但(That's not what I said): 很多编程语言都是入门...

3337
来自专栏PPV课数据科学社区

图表大师:数据可视化常用的五种方式及案例分析

因为接下来要做卖家后台数据纵横的改版,对数据 可视化这块儿又进行了研究和心得的整理,跟大家分享下数据可视化常用的五种方式,希望能给大家带来思路的拓展。 概念...

2657
来自专栏PPV课数据科学社区

数据可视化常用的五种方式及案例分析

因为接下来要做卖家后台数据纵横的改版,对数据可视化这块儿又进行了研究和心得的整理,跟大家分享下数据可视化常用的五种方式,希望能给大家带来思路的拓展。 概念 借助...

3215
来自专栏PPV课数据科学社区

【数据可视化专题】做好数据可视化的五虎将

  因为接下来要做卖家后台数据纵横的改版,对数据可视化这块儿又进行了研究和心得的整理,跟大家分享下数据可视化常用的五种方式,希望能给大家带来思路的拓展。概念 ...

3364
来自专栏大数据文摘

【可视化】图表展示中的10个经典问题

1957
来自专栏AI科技评论

开发 | Theano停止更新之后,开发者们怎么说?

关于深度学习的框架之争一直都没停止过,每隔一阵大家就要进行一次框架大讨论: TensorFlow的使用者虽多,又有谷歌的背书,但真的很!难!用! Pytorch...

34810
来自专栏AI研习社

博客 | 一份中外结合的 Machine Learning 自学计划

看了Siraj Raval的3个月学习机器学习计划的视频,感觉非常好,地址:https://www.youtube.com/watch?v=Cr6VqTRO1v...

431
来自专栏玉树芝兰

如何快速写作论文初稿?

(由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开。如有需要,请点击文末的“阅读原文”按钮,访问可以正常显示外链的版本。)

571

扫描关注云+社区