不编程就能完成差异表达分析

上几周,生信技能树的元老级人物果子发了一篇重量级文章数据库一网打尽:不会编程又怎样,还不照样拿课题发文章! 阅读量逼近4000,还超过了Jimmy的署名文一个全基因组重测序分析实战, 为Jimmy心疼几秒。可见不编程做生信分析还是很有诱惑力的,刚好转录组入门生信到了尾声,这里给大家演示如何使用网页工具完成差异表达分析(这个转折有点 突然,猝不及防)。

大部分实验室不一定有钱烧高通量测序,但是芯片的钱还是有的。貌似我还道听途说,某医大的研究生分析一波芯片,2个月就能灌水一篇文章呢。

在线平台:genelibs

我用的平台是基因云馆(genelibs),网址为 http://www.genelibs.com/gb/ 需要用到公共数据库和差异分析这两个模块。

PS: 这个网站的搜基因功能做的还不错的,整合了多个数据库,功能十分强大。比如说我搜一个AGO1(在基因库里面),

除了一些基因基本信息外,还能看该基因在不同部位的表达量哦

以及基因相互作用关系等

使用数据分析模块的时候,需要进行注册。本来这个注册环节介绍是可以跳过的,但是有个吐槽,我必须得说,大家有没有发现这个注册页面里设置密码居然不需要重复,天哪,我万一手抖怎么办,注册之后马上找回密码?前端工程师你给我过来,我们来好好聊聊

。(不过很有可能在你看到本文后注册使用的时候,工程师已经做好了修改,赶快去试试看吧

第一步,GEO数据库检索

如何检索请参阅网站关于GEO数据库检索的教程。检索完成后,输入我们感兴趣数据的数据号,现在就以 GSE75037为例进行分析, 如Pic7所示 。

2、然后点击运行,这时会生成一系列的文件,如Pic8。这些中.RData是后期所需要的,然后点击html文件查看报告,如Pic9所示,看看报告中列名称有无空格。若有空格的话,数据信息需要更改,而且我们是要进行差异分析的,所以需要操作表达集数据信息和基因表达集生成器这一步骤。

第二步: 表达集数据信息

1、进入后需要把本地化那一步的 .RData 放入,如Pic10。

2、点击运行,就会生成类似第一步中的很多文件,两个 .CSV 是我们所需要的,如Pic11。将生成的 “pDatamatrix.csv” 保存后根据需要进行更改,如Pic12。(要做到:第一个csv文件的列名称与第二个csv文件的行名称对应且无空格;分组列中名称后无空格且分组名称尽量简单)修改完成后保存备用。(如 PData 的行名称更改,则 exprsmatrix.csv 的列名称也要做相应的改变)。点击html即可查看报告,如Pic13所示。

第三步:基因表达集生成器

将修改好的“exprsmatrix.csv”文件放matrix;将“pDatamatrix.csv “文件放入pData中,根据需要填写保存名称,运行即可,如Pic14。

运行结束生成一个新的RData文件及报告等,如Pic15。

点击html 查看报告,如Pic16。

第四步:芯片数据预处理

在预处理模块选择“芯片数据预处理”,将新生成的.RData文件放入eSetPath,在platform选择相应平台,这里的选择依据是在GEO数据库检索的时候,会有一个平台号,及platform信息,请你记录这个信息,并且选择对应的平台号。

groupName处填入分组列的列名称(一般取名为groups),点击运行,如Pic17。

运行结束会生成新的RData文件及报告,如Pic18所示。

第五步:表达集取子集

对照组中除了一直吸烟与从不吸烟外还有其他的,所以要进行表达集取子集这一步骤,就是把对照组拿出来做分析,点击表达集取子集后,把上一步中的.RData输入 eSetPath ,在 groupnames 中写上取子集的名称,用逗号隔开,点击运行,生成了新的 .RData,如Pic19。

生成了新的.RData,如Pic20。

第六步:差异基因分析

1、按照提示输入,inputset中输入上一步的.RData,logFC和pvalue是阈值,可以调节这两部分来得到差异基因的数量,输入完后,点击运行,如Pic21。

2、就可以生成html ,点击html就可以查看报告,如Pic22。

第七步: 查看报告结果

报告中显示共筛选出差异较大的表达基因37个,在这个平台的 基因搜索模块 对比较有代表性的几个基因进行了搜索,可以看到基因的基本信息、基因在染色体的位置、基因表达等,其中还包括基因的相关疾病,如下图所示,每个基因下面都有几个疾病名称,通过疾病名称我们可以知道该基因导致哪种疾病。如下图所示。

比如搜索FGG基因,可以看到FGG基因可以导致瘢痕瘤、静脉血栓栓塞等与肺癌相关的疾病,并且FGG基因还与其他癌症有关;TYRP1基因可以导致腺癌肺肿瘤、恶性黑素瘤等疾病;IYD基因可以导致甲状腺机能减退、急性焦虑症、地方性呆小病等疾病;CYP3A5基因可以导致肾病、血栓症、肝硬化、神经中毒综合征等疾病;CCL20基因可以导致肺炎、溃疡性结肠炎、结肠肿瘤、糖尿病等;CYP24A1基因可以导致肺肿瘤、肾功能不全、前列腺恶性肿瘤等。

目前芯片分析的流程基本上就是如此,非常流程化,你完成可以自己写一个脚本从头到尾跑一遍。但是没办法,可视化工具就是如此受人喜欢呀。 如果你立志要成为一名生信工程师的话,请思考一下可视化每一步所要对应的流程。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-08-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

密码又泄露?大数据告诉你什么样的密码最牢靠!

乌云漏洞报告平台近日宣布网易邮箱数据泄露,目前网易与乌云的撕逼大战虽然还没有一个确切的结果,但已让亿万邮箱用户惊出一身冷汗,也顺带反思自己的邮箱密码是否够牢靠。...

742
来自专栏张善友的专栏

XCodeGhost表明:为了安全,开发工具应该从官方网站下载

今天的热门话题就是XCode编译器,这个神器在火热的移动互联网浪潮下也被人利用了,据文章分析 (XCode编译器里有鬼 - XCodeGhost样本分析)htt...

18110
来自专栏嵌入式程序猿

小猿推荐MCUXpresso 软件和工具

最近使用体验了NXP新推出的MCUXpresso软件和工具,此款软件和工具是专为广大的嵌入式程序猿设计的,简直是给众猿友带来了极大的福利,包括三个部分:MCUX...

2805
来自专栏一个会写诗的程序员的博客

第2章 Kotlin简介 《Kotin 编程思想·实战》

2.2 快速学习工具 2.2.1 云端IDE 2.2.2 本地命令行环境搭建 2.2.3 Kotlin REPL 2.2.4 使用IntelliJ ID...

1053
来自专栏北京马哥教育

12 张图片,快速回顾 Ubuntu 2017 年大事件

在过去的12个月里,对于 Ubuntu 的粉丝来说,可能充满了戏剧性和令人兴奋的时刻。尽管做了几个引起争议的决定,但 Ubuntu 在 2017 年的状态比以往...

27012
来自专栏知晓程序

超实用!这 6 个小程序,你生活中一定用得上

「倒数记日」这款小程序能帮你记录生命中那些重要的日子,让你不再错过每一个难忘的时间。

712
来自专栏CreateAMind

car_demo代码简介

该程序是基于ros和gazebo的。ros简单来讲就是一个robot OS(机器人操作系统),它使你简单方便地制作机器人(具体优点就不说了,感兴趣的可以自己g...

1072
来自专栏FreeBuf

因存在安全漏洞,intel下架远程键盘APP建议停止使用

近期,英特尔在远程键盘APP中发现三个严重的安全漏洞之后,并没有决定修复这些漏洞,而是正式下架该应用,并且提醒用户停止使用。 ? 这款远程键盘APP是英特尔...

2746
来自专栏FreeBuf

传播恶意软件最有效帮手:超95%的PowerShell脚本都是恶意脚本

对很多IT专业人士来说,Powershell的确是Windows系统中一个相当强大的工具,而且微软也有意将PowerShell作为Windows系统的默认命令行...

1846
来自专栏TAPD

总监突然把我拉进了一个群……

大噶好,又是我,TAPD的产品经理圆圆。 上周一上班的时候, 我发现隔壁组来了个巨帅的小哥哥。 ? 有多帅呢?可以说,是吴彦祖+金城武的那种帅。 我立马就去企...

934

扫码关注云+社区