不编程就能完成差异表达分析

上几周,生信技能树的元老级人物果子发了一篇重量级文章数据库一网打尽:不会编程又怎样,还不照样拿课题发文章! 阅读量逼近4000,还超过了Jimmy的署名文一个全基因组重测序分析实战, 为Jimmy心疼几秒。可见不编程做生信分析还是很有诱惑力的,刚好转录组入门生信到了尾声,这里给大家演示如何使用网页工具完成差异表达分析(这个转折有点 突然,猝不及防)。

大部分实验室不一定有钱烧高通量测序,但是芯片的钱还是有的。貌似我还道听途说,某医大的研究生分析一波芯片,2个月就能灌水一篇文章呢。

在线平台:genelibs

我用的平台是基因云馆(genelibs),网址为 http://www.genelibs.com/gb/ 需要用到公共数据库和差异分析这两个模块。

PS: 这个网站的搜基因功能做的还不错的,整合了多个数据库,功能十分强大。比如说我搜一个AGO1(在基因库里面),

除了一些基因基本信息外,还能看该基因在不同部位的表达量哦

以及基因相互作用关系等

使用数据分析模块的时候,需要进行注册。本来这个注册环节介绍是可以跳过的,但是有个吐槽,我必须得说,大家有没有发现这个注册页面里设置密码居然不需要重复,天哪,我万一手抖怎么办,注册之后马上找回密码?前端工程师你给我过来,我们来好好聊聊

。(不过很有可能在你看到本文后注册使用的时候,工程师已经做好了修改,赶快去试试看吧

第一步,GEO数据库检索

如何检索请参阅网站关于GEO数据库检索的教程。检索完成后,输入我们感兴趣数据的数据号,现在就以 GSE75037为例进行分析, 如Pic7所示 。

2、然后点击运行,这时会生成一系列的文件,如Pic8。这些中.RData是后期所需要的,然后点击html文件查看报告,如Pic9所示,看看报告中列名称有无空格。若有空格的话,数据信息需要更改,而且我们是要进行差异分析的,所以需要操作表达集数据信息和基因表达集生成器这一步骤。

第二步: 表达集数据信息

1、进入后需要把本地化那一步的 .RData 放入,如Pic10。

2、点击运行,就会生成类似第一步中的很多文件,两个 .CSV 是我们所需要的,如Pic11。将生成的 “pDatamatrix.csv” 保存后根据需要进行更改,如Pic12。(要做到:第一个csv文件的列名称与第二个csv文件的行名称对应且无空格;分组列中名称后无空格且分组名称尽量简单)修改完成后保存备用。(如 PData 的行名称更改,则 exprsmatrix.csv 的列名称也要做相应的改变)。点击html即可查看报告,如Pic13所示。

第三步:基因表达集生成器

将修改好的“exprsmatrix.csv”文件放matrix;将“pDatamatrix.csv “文件放入pData中,根据需要填写保存名称,运行即可,如Pic14。

运行结束生成一个新的RData文件及报告等,如Pic15。

点击html 查看报告,如Pic16。

第四步:芯片数据预处理

在预处理模块选择“芯片数据预处理”,将新生成的.RData文件放入eSetPath,在platform选择相应平台,这里的选择依据是在GEO数据库检索的时候,会有一个平台号,及platform信息,请你记录这个信息,并且选择对应的平台号。

groupName处填入分组列的列名称(一般取名为groups),点击运行,如Pic17。

运行结束会生成新的RData文件及报告,如Pic18所示。

第五步:表达集取子集

对照组中除了一直吸烟与从不吸烟外还有其他的,所以要进行表达集取子集这一步骤,就是把对照组拿出来做分析,点击表达集取子集后,把上一步中的.RData输入 eSetPath ,在 groupnames 中写上取子集的名称,用逗号隔开,点击运行,生成了新的 .RData,如Pic19。

生成了新的.RData,如Pic20。

第六步:差异基因分析

1、按照提示输入,inputset中输入上一步的.RData,logFC和pvalue是阈值,可以调节这两部分来得到差异基因的数量,输入完后,点击运行,如Pic21。

2、就可以生成html ,点击html就可以查看报告,如Pic22。

第七步: 查看报告结果

报告中显示共筛选出差异较大的表达基因37个,在这个平台的 基因搜索模块 对比较有代表性的几个基因进行了搜索,可以看到基因的基本信息、基因在染色体的位置、基因表达等,其中还包括基因的相关疾病,如下图所示,每个基因下面都有几个疾病名称,通过疾病名称我们可以知道该基因导致哪种疾病。如下图所示。

比如搜索FGG基因,可以看到FGG基因可以导致瘢痕瘤、静脉血栓栓塞等与肺癌相关的疾病,并且FGG基因还与其他癌症有关;TYRP1基因可以导致腺癌肺肿瘤、恶性黑素瘤等疾病;IYD基因可以导致甲状腺机能减退、急性焦虑症、地方性呆小病等疾病;CYP3A5基因可以导致肾病、血栓症、肝硬化、神经中毒综合征等疾病;CCL20基因可以导致肺炎、溃疡性结肠炎、结肠肿瘤、糖尿病等;CYP24A1基因可以导致肺肿瘤、肾功能不全、前列腺恶性肿瘤等。

目前芯片分析的流程基本上就是如此,非常流程化,你完成可以自己写一个脚本从头到尾跑一遍。但是没办法,可视化工具就是如此受人喜欢呀。 如果你立志要成为一名生信工程师的话,请思考一下可视化每一步所要对应的流程。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-08-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏生信技能树

把vcf文件转换为maf格式,肿瘤外显子上游分析教程到此为止

可能还有一些教程我漏掉了,毕竟这些年发布了近万篇教程了,大家直接我去我博客,生信菜鸟团就可以搜索,去我们的论坛,生信技能树里面也可以搜到。

1002
来自专栏SeanCheney的专栏

Python工程的文档结构

Python工程的文档结构,可以参考https://stackoverflow.com/questions/193161/what-is-the-best-pr...

862
来自专栏杨俊标的专栏

CSS 路径动画工具的诞生

每当重构页面的时候,除了设计师精致的设计稿,还需要在页面这个蛋糕上放上一个樱桃,无论蛋糕多么美味,但樱桃的点缀却更容易吸引住顾客的目光,对,就是那些细微的动画....

2480
来自专栏生信技能树

【直播】我的基因组61:scalpel软件找indel

那么现在正式的开始第61讲: 其实这次的call variation的软件,不仅仅是找到SNV,也顺便找到了indel,只是可能不太准确。一般业界的公认标准是 ...

35210
来自专栏熊二哥

Html与CSS快速入门02-HTML基础应用

这部分是html细节知识的学习。 ? 示例代码:https://github.com/wanliwang/Bjork.Demo htmlDemo 最近胡乱删除...

1906
来自专栏生信宝典

一文教会你查找基因的启动子、UTR、TSS等区域以及预测转录因子结合位点

本文授权转载自科研小助手(ID:SciRes)斜体小一号字体为生信宝典的备注或校正。

1311
来自专栏编舟记

一名Clojurian的Emacs配置

我是一名热衷于函数式编程的Clojurian(Clojure粉),网络ID是lambeta(λβ),读作/‘læmeitə/,个人的博客网站是https://l...

622
来自专栏一名叫大蕉的程序员

RSA 这俩世纪最重要的算法之一No.91

本文大概1000字,读完共需5分钟 Diffie–Hellman加密算法的劣势 上一篇文章我们聊到 Diffie–Hellman key exchange ...

2615
来自专栏生信技能树

【直播】我的基因组74:快速给测序reads比对到物种

其实这一讲只是把未比对到人类基因组的序列快速比对到细菌基因组,并得到各个种类的菌的占比。 在这之前我们讲的是对几亿条reads定位到指定参考基因组的具体某个坐标...

34413
来自专栏程序员的碎碎念

Hello World,Python!

早上在床上挣扎了一个多小时,才起床的我,思来想去,还是觉得学一些python可能会有用些。 于是乎,刷牙洗脸,背上书包,吃个早饭,跑到图书馆四...

3044

扫描关注云+社区