前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >不编程就能完成差异表达分析

不编程就能完成差异表达分析

作者头像
生信技能树
发布2018-03-09 09:36:07
1.6K0
发布2018-03-09 09:36:07
举报
文章被收录于专栏:生信技能树生信技能树

上几周,生信技能树的元老级人物果子发了一篇重量级文章数据库一网打尽:不会编程又怎样,还不照样拿课题发文章! 阅读量逼近4000,还超过了Jimmy的署名文一个全基因组重测序分析实战, 为Jimmy心疼几秒。可见不编程做生信分析还是很有诱惑力的,刚好转录组入门生信到了尾声,这里给大家演示如何使用网页工具完成差异表达分析(这个转折有点 突然,猝不及防)。

大部分实验室不一定有钱烧高通量测序,但是芯片的钱还是有的。貌似我还道听途说,某医大的研究生分析一波芯片,2个月就能灌水一篇文章呢。

在线平台:genelibs

我用的平台是基因云馆(genelibs),网址为 http://www.genelibs.com/gb/ 需要用到公共数据库和差异分析这两个模块。

PS: 这个网站的搜基因功能做的还不错的,整合了多个数据库,功能十分强大。比如说我搜一个AGO1(在基因库里面),

除了一些基因基本信息外,还能看该基因在不同部位的表达量哦

以及基因相互作用关系等

使用数据分析模块的时候,需要进行注册。本来这个注册环节介绍是可以跳过的,但是有个吐槽,我必须得说,大家有没有发现这个注册页面里设置密码居然不需要重复,天哪,我万一手抖怎么办,注册之后马上找回密码?前端工程师你给我过来,我们来好好聊聊

。(不过很有可能在你看到本文后注册使用的时候,工程师已经做好了修改,赶快去试试看吧

第一步,GEO数据库检索

如何检索请参阅网站关于GEO数据库检索的教程。检索完成后,输入我们感兴趣数据的数据号,现在就以 GSE75037为例进行分析, 如Pic7所示 。

2、然后点击运行,这时会生成一系列的文件,如Pic8。这些中.RData是后期所需要的,然后点击html文件查看报告,如Pic9所示,看看报告中列名称有无空格。若有空格的话,数据信息需要更改,而且我们是要进行差异分析的,所以需要操作表达集数据信息和基因表达集生成器这一步骤。

第二步: 表达集数据信息

1、进入后需要把本地化那一步的 .RData 放入,如Pic10。

2、点击运行,就会生成类似第一步中的很多文件,两个 .CSV 是我们所需要的,如Pic11。将生成的 “pDatamatrix.csv” 保存后根据需要进行更改,如Pic12。(要做到:第一个csv文件的列名称与第二个csv文件的行名称对应且无空格;分组列中名称后无空格且分组名称尽量简单)修改完成后保存备用。(如 PData 的行名称更改,则 exprsmatrix.csv 的列名称也要做相应的改变)。点击html即可查看报告,如Pic13所示。

第三步:基因表达集生成器

将修改好的“exprsmatrix.csv”文件放matrix;将“pDatamatrix.csv “文件放入pData中,根据需要填写保存名称,运行即可,如Pic14。

运行结束生成一个新的RData文件及报告等,如Pic15。

点击html 查看报告,如Pic16。

第四步:芯片数据预处理

在预处理模块选择“芯片数据预处理”,将新生成的.RData文件放入eSetPath,在platform选择相应平台,这里的选择依据是在GEO数据库检索的时候,会有一个平台号,及platform信息,请你记录这个信息,并且选择对应的平台号。

groupName处填入分组列的列名称(一般取名为groups),点击运行,如Pic17。

运行结束会生成新的RData文件及报告,如Pic18所示。

第五步:表达集取子集

对照组中除了一直吸烟与从不吸烟外还有其他的,所以要进行表达集取子集这一步骤,就是把对照组拿出来做分析,点击表达集取子集后,把上一步中的.RData输入 eSetPath ,在 groupnames 中写上取子集的名称,用逗号隔开,点击运行,生成了新的 .RData,如Pic19。

生成了新的.RData,如Pic20。

第六步:差异基因分析

1、按照提示输入,inputset中输入上一步的.RData,logFC和pvalue是阈值,可以调节这两部分来得到差异基因的数量,输入完后,点击运行,如Pic21。

2、就可以生成html ,点击html就可以查看报告,如Pic22。

第七步: 查看报告结果

报告中显示共筛选出差异较大的表达基因37个,在这个平台的 基因搜索模块 对比较有代表性的几个基因进行了搜索,可以看到基因的基本信息、基因在染色体的位置、基因表达等,其中还包括基因的相关疾病,如下图所示,每个基因下面都有几个疾病名称,通过疾病名称我们可以知道该基因导致哪种疾病。如下图所示。

比如搜索FGG基因,可以看到FGG基因可以导致瘢痕瘤、静脉血栓栓塞等与肺癌相关的疾病,并且FGG基因还与其他癌症有关;TYRP1基因可以导致腺癌肺肿瘤、恶性黑素瘤等疾病;IYD基因可以导致甲状腺机能减退、急性焦虑症、地方性呆小病等疾病;CYP3A5基因可以导致肾病、血栓症、肝硬化、神经中毒综合征等疾病;CCL20基因可以导致肺炎、溃疡性结肠炎、结肠肿瘤、糖尿病等;CYP24A1基因可以导致肺肿瘤、肾功能不全、前列腺恶性肿瘤等。

目前芯片分析的流程基本上就是如此,非常流程化,你完成可以自己写一个脚本从头到尾跑一遍。但是没办法,可视化工具就是如此受人喜欢呀。 如果你立志要成为一名生信工程师的话,请思考一下可视化每一步所要对应的流程。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 在线平台:genelibs
  • 第一步,GEO数据库检索
  • 第二步: 表达集数据信息
  • 第三步:基因表达集生成器
  • 第四步:芯片数据预处理
  • 第五步:表达集取子集
  • 第六步:差异基因分析
  • 第七步: 查看报告结果
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档