不编程就能完成差异表达分析

生信技能树

发布于 2018-03-09 09:36:07

1.7K0

发布于 2018-03-09 09:36:07

文章被收录于专栏：生信技能树

上几周，生信技能树的元老级人物果子发了一篇重量级文章数据库一网打尽：不会编程又怎样，还不照样拿课题发文章！阅读量逼近4000，还超过了Jimmy的署名文一个全基因组重测序分析实战，为Jimmy心疼几秒。可见不编程做生信分析还是很有诱惑力的，刚好转录组入门生信到了尾声，这里给大家演示如何使用网页工具完成差异表达分析（这个转折有点突然，猝不及防）。

大部分实验室不一定有钱烧高通量测序，但是芯片的钱还是有的。貌似我还道听途说，某医大的研究生分析一波芯片，2个月就能灌水一篇文章呢。

在线平台：genelibs

我用的平台是基因云馆(genelibs)，网址为 http://www.genelibs.com/gb/ 需要用到公共数据库和差异分析这两个模块。

PS: 这个网站的搜基因功能做的还不错的，整合了多个数据库，功能十分强大。比如说我搜一个AGO1（在基因库里面），

除了一些基因基本信息外，还能看该基因在不同部位的表达量哦

以及基因相互作用关系等

使用数据分析模块的时候，需要进行注册。本来这个注册环节介绍是可以跳过的，但是有个吐槽，我必须得说，大家有没有发现这个注册页面里设置密码居然不需要重复，天哪，我万一手抖怎么办，注册之后马上找回密码？前端工程师你给我过来，我们来好好聊聊

。（不过很有可能在你看到本文后注册使用的时候，工程师已经做好了修改，赶快去试试看吧）

第一步，GEO数据库检索

如何检索请参阅网站关于GEO数据库检索的教程。检索完成后，输入我们感兴趣数据的数据号，现在就以 GSE75037为例进行分析, 如Pic7所示。

2、然后点击运行，这时会生成一系列的文件，如Pic8。这些中.RData是后期所需要的，然后点击html文件查看报告，如Pic9所示，看看报告中列名称有无空格。若有空格的话，数据信息需要更改，而且我们是要进行差异分析的，所以需要操作表达集数据信息和基因表达集生成器这一步骤。

第二步：表达集数据信息

1、进入后需要把本地化那一步的 .RData 放入，如Pic10。

2、点击运行，就会生成类似第一步中的很多文件，两个 .CSV 是我们所需要的，如Pic11。将生成的 “pDatamatrix.csv” 保存后根据需要进行更改，如Pic12。（要做到:第一个csv文件的列名称与第二个csv文件的行名称对应且无空格；分组列中名称后无空格且分组名称尽量简单）修改完成后保存备用。(如 PData 的行名称更改，则 exprsmatrix.csv 的列名称也要做相应的改变）。点击html即可查看报告，如Pic13所示。

第三步：基因表达集生成器

将修改好的“exprsmatrix.csv”文件放matrix；将“pDatamatrix.csv “文件放入pData中，根据需要填写保存名称，运行即可，如Pic14。

运行结束生成一个新的RData文件及报告等，如Pic15。

点击html 查看报告，如Pic16。

第四步：芯片数据预处理

在预处理模块选择“芯片数据预处理”，将新生成的.RData文件放入eSetPath，在platform处选择相应平台，这里的选择依据是在GEO数据库检索的时候，会有一个平台号，及platform信息，请你记录这个信息，并且选择对应的平台号。

groupName处填入分组列的列名称（一般取名为groups），点击运行,如Pic17。

运行结束会生成新的RData文件及报告，如Pic18所示。

第五步：表达集取子集

对照组中除了一直吸烟与从不吸烟外还有其他的，所以要进行表达集取子集这一步骤，就是把对照组拿出来做分析，点击表达集取子集后，把上一步中的.RData输入 eSetPath ，在 groupnames 中写上取子集的名称，用逗号隔开，点击运行，生成了新的 .RData，如Pic19。

生成了新的.RData，如Pic20。

第六步：差异基因分析

1、按照提示输入，inputset中输入上一步的.RData，logFC和pvalue是阈值，可以调节这两部分来得到差异基因的数量，输入完后，点击运行，如Pic21。

2、就可以生成html ,点击html就可以查看报告，如Pic22。

第七步：查看报告结果

报告中显示共筛选出差异较大的表达基因37个，在这个平台的基因搜索模块对比较有代表性的几个基因进行了搜索，可以看到基因的基本信息、基因在染色体的位置、基因表达等，其中还包括基因的相关疾病，如下图所示，每个基因下面都有几个疾病名称，通过疾病名称我们可以知道该基因导致哪种疾病。如下图所示。

比如搜索FGG基因，可以看到FGG基因可以导致瘢痕瘤、静脉血栓栓塞等与肺癌相关的疾病，并且FGG基因还与其他癌症有关;TYRP1基因可以导致腺癌、肺肿瘤、恶性黑素瘤等疾病；IYD基因可以导致甲状腺机能减退、急性焦虑症、地方性呆小病等疾病；CYP3A5基因可以导致肾病、血栓症、肝硬化、神经中毒综合征等疾病；CCL20基因可以导致肺炎、溃疡性结肠炎、结肠肿瘤、糖尿病等；CYP24A1基因可以导致肺肿瘤、肾功能不全、前列腺恶性肿瘤等。

目前芯片分析的流程基本上就是如此，非常流程化，你完成可以自己写一个脚本从头到尾跑一遍。但是没办法，可视化工具就是如此受人喜欢呀。如果你立志要成为一名生信工程师的话，请思考一下可视化每一步所要对应的流程。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-08-10，如有侵权请联系 cloudcommunity@tencent.com 删除

数据分析

本文分享自生信技能树微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

数据分析

登录后参与评论

0 条评论

热度

不编程就能完成差异表达分析