中国制造:碉堡的TCGA可视化网站GEPIA

听生信群里大神闲聊,说他师弟做了个TCGA可视化工具,并且有志于各种数据库的可视化,我就点开链接看了一下,不点就算了,一点开不得了, 本来我还举了个例子:

就像我手上的锤子手机,千万别用,用了就无法回头。

但是我怕你们有些人会不适应就率真地删除了。

基于TCGA数据库的网站有很多 但我最关心的功能只有三个(我是临床医生),差异表达,生存分析,相关性分析,这也是我筛选课题的一个方向

  • 基因能够差异表达是前提,没有差异就不大可能用于诊断,也不适合当做治疗靶点
  • 如果这个基因跟生存相关,那就锦上添花了,临床医生搞科研其实很功利的,目的只有一个,能对患者有利。
  • 通过基因的相关性分析找出他的朋友们,所谓物以类聚,看看这个人的朋友基本上就知道他是什么样子的人。 有一个恐怖的传说一直让我后背冒汗心里起火:你的工资是跟你密切交往的6个朋友的平均值。

朋友居然重要到这个层面,所以那么多男女朋友分分合合都能理解了。 好了,不鬼扯,我们简单介绍一下这个数据库GEPIA(Gene Expression Profilling Interactive Analysis),翻译一下应该是 基因表达谱数据动态分析。 http://gepia.cancer-pku.cn/index.html

这个数据库是北京大学开发的,没有发文章,没有发文章。

This tool is developed by Zefang Tang, Chenwei Li and Boxi Kang of Zhang Lab, Peking University.

我要学学宝剑叔叔右哉,先拟定一个让你痛心的场景,蓝后一步一步帮你解决, 这可能有助于我们直接解决问题。 假设,

你现在已经研二了,之前放浪形骸,行散神也散,现在木有课题,木有鱼丸,明年要毕业了,蓝后没有人管你,没有男女朋友,没有大师兄,没有沙师弟,你该怎么办呢?

我们可以这样,先找出某个特定癌症中跟生存最相关的一串基因,再来慢慢筛选,删选后再分析分析,就可以去灌水了,正好GEPIA有这个功能。 先点击一下Survival Analysis,依次点击

点击list会出现下面的结果,可以查询,可以翻页,可以一个个复制粘贴用以前讲的方法做GO分析,KEGG分析,互作分析。

这里我们直接选择VADC1来看看,首先我们检查一下这个基因分生存分析图究竟是什么样子,点击它后跳转成如下页面

这时候相当于进入了单基因入口,这里面给出了这个基因概括,说是线粒体膜的主要组成成分,也跟铁的转运相关,我觉得都是热门方向 如果这个领域你hold不住,就返回去再换一个基因点进来,最右边图我觉得很直观,绿色代表VDAC1在正常组织的表达,红色代表在肿瘤组织中的表达 可能这张图看不出啥特殊,我举个例子,

A基因几乎只在乳腺表达,而且在乳腺癌中明显高表达 B基因在全身广泛表达,但是表达风度不高,而在乳腺癌中表达显著提高 好了页面往下拉就可以看到这个基因在多个癌症癌和癌旁的表达情况,我们可以看出他在乳腺癌中是高表达的 但是在其他许多癌症中也明显差异表达,这张表不会让你漏掉其他癌症(oncomine数据库也有类似的效果),如果恰巧实验室有人在做那个癌症,你就可以跟他合伙搞一搞嘛。 因为你没有人管,没有大师兄,没有沙师弟,你还有什么选择?

此外,你是可以选择呈现方式的,按照如下步骤操作可以得到漂亮的癌和癌旁的表达图

点击plot之后是这个样子的,可以下载,可以直接放在文章里面,如果再挑选几个癌症一起作图,也很方便。

返回一开始的界面,往下面翻一翻就会看到和这个基因表达类似的基因

哎呦歪,里面HNRNPAB就是核内不均一核糖核蛋白家族成员,他可是要调控RNA的可变剪切的,许多LNCRNA作pulldown后就会拉下这个家族的成员 相关的文章从SCIENCE,CELL到ONCOTARGETS都有。 但是我们差点忘了进来是干什么的,我们是来看生存分析的。依次操作。

点击plot就会得到下面的图

这个图真的是漂亮,一点都不含糊,好了这时候课题基本上就有苗头了

VDAC1以暂时不知道的原因升高导致乳腺癌的发生,而乳腺癌患者高表达VADAC1的患者低生存。

而临床医生做科研不外乎诊和疗,就是对自己的工作有用。

  • 从诊治的角度来说,这个基因表达水平对诊断乳腺癌有没有帮助?
  • 从治疗的角度来说,既然高表达低生存,那么有没有可能设计抗体来治疗乳腺癌呢?

当然那个是转化医学,很遥远,在这之前就是基础医学,很多人觉得基础医学没有用,才不是呢。 从研究的角度来看:

  • 这个基因高表达的原因是什么?表观遗传相关么,突变么,转录激活么,翻译修饰么,搞清楚就已经不容易了。

我们试一试表观遗传有没有影响,在UCSC数据库中打开VDAC1(更为严谨的做法是使用乳腺组织的Chip-seq数据来分析,以后会写ENCODE数据库),我的妈呀,他的启动子区域这么汹涌澎湃的H3K27ac修饰(这个基因的转录方向是从右到左的,所以启动子在右边),说明他的表达量本身就很高,不大可能是个坏分子,要么就是他在癌中突变了,要么就是他启动子在癌症中被过度激活了,我只是说可能 那么就会有个子课题产生:

H3K27ac组蛋白乙酰化修饰促使VDAC1基因启动子激活从而升高其表达

  • 另外一个问题,这个基因在乳腺癌中的功能是什么?

可以尝试用生物信息学找到共表达的基因,之前已经列出来了,再去预测他可能有什么功能, 也可以直接构建慢病毒shRNA敲减后看看他的表型, 可是这不是你想要的,我们需要的是短平快,怎么办呢?查文献, 恰好我刚知道那个写过Hallmars of Cancer这篇文章老爷爷Weinberg在nature发表了一篇文章,时间是2017年3月30日(对的我清明节没有休息),他们找到了乳腺癌中一个新的抑癌基因 叫做LACTB,他能够调控脂质代谢抑制乳腺癌,LACTB是一个线粒体相关的蛋白,VDAC1也是一个线粒体相关的蛋白,他们之间可能有联系么?

他们的联系可能多种多样,我们尝试用现成的工具看一下,相关性分析

点击plot试一下

居然他们还有相关性,欢天喜地庆丰收,毕业在望。可是他们他们应该表达呈负相关才合理呀, 这么来把这些结果整合到一起呢?VDAC1和LACTB相关,抑制癌症的产生,蓝后不知怎么的他的启动子就过度活化了 然后他就促发了癌症? 我觉得自己都说服不了,我们还是换一种思路吧,用string数据库来看一看

VDAC1居然跟BAX,BCL2L1相关,表明其可能跟细胞的凋亡相关 好了最终的课题就是 H3K27ac修饰使VDAC1的启动子过度乙酰化促进其表达从而抑制细胞凋亡促进乳腺癌的发展。 我觉得这时候真的可以搞一搞了,什么,你没有shRNA? 不是说了跟别人合作么,你怎么又搞忘了。 蓝后检索一下VDAC1和乳腺癌的文章,发现少之又少,燃烧吧我的小宇宙。

这个过程中好像文献阅读并不重要,但是不要忘了LACTB是Weinberg老爷爷团队的结果,所谓龙生九子,个个不同,但都是神兽呀。 LACTB在乳腺癌中的表达和调控还没有研究呢,上面那个课题要是实在弄不好,就换这一个吧。

蓝后,我觉得科研结果的呈现最基本的要求就是

自洽

四个字就是自圆其说,不要前后矛盾,你自己构建了一个体系,一定要让自己信服。 自己都不相信的东西还想让别人相信,你把我当什么了。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-04-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

手把手 | 用R分析宋词三百首 自己动手写个“机器诗人”

1957
来自专栏生信小驿站

使用RNA-seq数据通过网络熵评估肿瘤内异质性摘要介绍

肿瘤内异质性(ITH)出现在肿瘤进展、转移和复发的不同阶段,而这些对于临床应用是重要的。我们使用来自肿瘤样品的RNA测序数据,并根据生物网络状态测量ITH水平。...

421
来自专栏AI研习社

机械臂还能这样玩?Touch & Melt : 抽象触觉和机器人热成型

这篇文章最初发表于2018年5月13日,是在卡内基梅隆大学教授的课程的一部分。 是关于的 Varun Gadh 和 Hang Wang 的项目。

302
来自专栏腾讯高校合作

【犀牛鸟·视野】SIGGRAPH Asia 2017 视觉盛宴精彩回顾

ACM SIGGRAPH Asia 今年是第10届,全球6000名Computer Graphics and Interactive Techniques领域的...

2886
来自专栏架构师小秘圈

为什么说英语是一个码农成熟的标志?

作为在中国工作的程序员,不懂得英语似乎也不妨碍找到好工作,升职加薪。但程序员这个工种则稍有不同,因为程序,尤其是高级语言,基本上都是由英语 和数字表达式构成的。...

39811
来自专栏CDA数据分析师

书单 | 从入门到精通,数据分析「好书」推荐

统计学与数据挖掘书籍推荐 1.1《 The Elements of Statistical Learning 》,神书,不解释 1.2《实用多元统计分析》,...

3619
来自专栏AI科技大本营的专栏

快讯 | 玩游戏玩出一篇论文,清华大学团队获信息检索顶会 SIGIR 最佳学生论文奖

作者|周翔 最近几个月,以《王者荣耀》为代表的游戏受到了各方的攻击,其中以家长和老师的反应最为激烈。不过,玩物真的就一定会丧志吗?清华大学的几位学霸告诉你,玩游...

3077
来自专栏生信宝典

勤能补拙,过目不忘,提高m6A助力好记性?中科院王秀杰/杨运桂合作最新成果

CellRes | 王秀杰组联合杨运桂组揭示RNA m6A修饰影响长时记忆形成效率

572
来自专栏媒矿工厂

AI如何用于现场直播场景

与许多产业一样,通过软件和算法辅助,电视与视频制作很可能被人工智能和机器学习所改造,而当前这些制作任务都是由人来执行。随着现场直播报道涉及的范围越来越广,而相关...

892
来自专栏逍遥剑客的游戏开发

《Honey Select》捏人剖析

关于游戏中的捏人系统, 很少有资料提到怎么做, 印象中只有《天涯明月刀》分享过. 前段时间关注了个VR资源分享的公众号, 经常推送HS的捏人作品, 所以才引发了...

7357

扫码关注云+社区