前面一期 从网络图探寻基因互作的蛛丝马迹(1) (此链接可入)中我们给大家讲解了网络图的构造,以及在文章当中构建网络图需要用到的两个资源:STRING数据库和Cytoscape软件。
我们还给大家出了一个研究课题:如何从100多个差异表达的基因当中快速锁定重要的关键基因。这个课题的分析步骤分了如下几个步骤:
1、从基因列表到蛋白互作;
2、从蛋白互作到互作网络;
3、从互作网络到关键基因。
今天我们先来看第一步:如何从一堆基因构建一个蛋白互作网络。
很多请公司做过类似分析的都知道,这是一个价值上千的分析项目,但是实际操作并不困难,分分钟就可以带大家搞定。不说闲话,直接上手。
【温馨提示】倾情大放送,文末视频教程,手把手教学!
Step1:准备基因列表
这个基因列表的文件说白了就是一列基因,对于基因的数量我们略作要求,在50-300个左右(具体原因,上期跟大家说过了)。在我们的学习资料中,给大家准备了这个研究课题所需的资料,其中有一个差异基因的列表。有些同学可能不知道哪里领取资料,这里再跟大家说一下,学习资料见文末,找胖雨小姐姐。
Step2:打开STRING数据库
STRING数据库的网址:https://string-db.org/。
STRING要跟大家详细的讲解一下,这是一个搜寻已知蛋白质之间和预测蛋白质之间相互作用的系统。这种相互作用既包括蛋白质之间直接的物理的相互作用,也包括蛋白质之间间接的功能的相关性,是目前最为全面、最为权威的蛋白相互作用数据库。
它除了包含有实验数据、从PubMed摘要中文本挖掘的结 果和综合其他数据库数据外,还有利用生物信息学的方法预测的结果。所应用的生物信息学的方法有:染色体临近、基因融合、系统进化谱和基于芯片数据的基因共表达等等。我们来看看他们的光房网页:
超过5000多个物种,2千多万个蛋白,20亿个蛋白互作,数据库可谓及其庞大。光“大”还不够,我们再来看看数据库的质量,STRING数据库仅仅在牛刊(NAR,Nucleic Acids Research)上就发表了7次(累计影响因子80分):
所以说,STRING数据库可谓是“数据全,质量高”,那么怎么来使用这个数据库呢?点击STRING的官方网址进入之后,点击中间大大的“Search”就可以了。如下图:
然后就会转跳到让我们输入基因列表的页面,如下图所示,我们点击“Multiple proteins”,再依次输入我们的基因列表和物种名称即可。
然后网页会自己搜索我们提交的蛋白,我们只要点击continue即可,这个页面我就不展示了,continue之后,就会出现这些基因的互作网络图啦。整个操作还是非常简单的哦。结果页面如下图所示,上面是一个总的网络图。
我们在很多数据挖掘的文章中可以看到这个样子的图。这个网络图当中有很多彩色的点,这个颜色是随机分配没有意义的,有的点当中还有花花绿绿的蛋白质三维结构,这个对我们来说也不是非常重要,重要的是蛋白之间的连线,也就是相互作用。那么怎么输出这个图呢?
这个结果页面的下面有很多的panel,这里面蕴含了非常多的功能,其中最主要的就是Export输出,从这里面可以输出我们想要的图形和网络。那我们应该保存哪个文件呢?下图帮大家标注出来了,既可以直接输出网络图,也可以输出网络图的文本源文件,到底哪个更好呢?
对于初级分析来说,网络图就行了,但是实话实说,这个图稍微有点丑;如果需要高级的分析和美观的网络图,比如我们的研究课题中提及的,需要找到关键基因,需要发表质量的高级网络图,那么就需要源文件了。源文件是一个tsv文件,通过它,我们可以制作各种各样的网络图。
到这里,我们的研究课题的三大步:
1、从基因列表到蛋白互作;(已完成)
2、从蛋白互作到互作网络;
3、从互作网络到关键基因;
超详细操作视频
已经顺利完成第一步了,下节教程我们讲解第二步骤,如何从蛋白互作的网络文件到发表质量的网络图。
本期干货
·
蛋白互作网络视频教程
及学习资料
原文详情:“科研猫”公众号
以上内容均为“科研猫”公众号原创,严禁未经许可擅自转载及资源分享,如需转载,请申请获得许可。