不编程就能完成差异表达分析

上几周,生信技能树的元老级人物果子发了一篇重量级文章数据库一网打尽:不会编程又怎样,还不照样拿课题发文章! 阅读量逼近4000,还超过了Jimmy的署名文一个全基因组重测序分析实战, 为Jimmy心疼几秒。可见不编程做生信分析还是很有诱惑力的,刚好转录组入门生信到了尾声,这里给大家演示如何使用网页工具完成差异表达分析(这个转折有点 突然,猝不及防)。

大部分实验室不一定有钱烧高通量测序,但是芯片的钱还是有的。貌似我还道听途说,某医大的研究生分析一波芯片,2个月就能灌水一篇文章呢。

在线平台:genelibs

我用的平台是基因云馆(genelibs),网址为 http://www.genelibs.com/gb/ 需要用到公共数据库和差异分析这两个模块。

PS: 这个网站的搜基因功能做的还不错的,整合了多个数据库,功能十分强大。比如说我搜一个AGO1(在基因库里面),

除了一些基因基本信息外,还能看该基因在不同部位的表达量哦

以及基因相互作用关系等

使用数据分析模块的时候,需要进行注册。本来这个注册环节介绍是可以跳过的,但是有个吐槽,我必须得说,大家有没有发现这个注册页面里设置密码居然不需要重复,天哪,我万一手抖怎么办,注册之后马上找回密码?前端工程师你给我过来,我们来好好聊聊

。(不过很有可能在你看到本文后注册使用的时候,工程师已经做好了修改,赶快去试试看吧

第一步,GEO数据库检索

如何检索请参阅网站关于GEO数据库检索的教程。检索完成后,输入我们感兴趣数据的数据号,现在就以 GSE75037为例进行分析, 如Pic7所示 。

2、然后点击运行,这时会生成一系列的文件,如Pic8。这些中.RData是后期所需要的,然后点击html文件查看报告,如Pic9所示,看看报告中列名称有无空格。若有空格的话,数据信息需要更改,而且我们是要进行差异分析的,所以需要操作表达集数据信息和基因表达集生成器这一步骤。

第二步: 表达集数据信息

1、进入后需要把本地化那一步的 .RData 放入,如Pic10。

2、点击运行,就会生成类似第一步中的很多文件,两个 .CSV 是我们所需要的,如Pic11。将生成的 “pDatamatrix.csv” 保存后根据需要进行更改,如Pic12。(要做到:第一个csv文件的列名称与第二个csv文件的行名称对应且无空格;分组列中名称后无空格且分组名称尽量简单)修改完成后保存备用。(如 PData 的行名称更改,则 exprsmatrix.csv 的列名称也要做相应的改变)。点击html即可查看报告,如Pic13所示。

第三步:基因表达集生成器

将修改好的“exprsmatrix.csv”文件放matrix;将“pDatamatrix.csv “文件放入pData中,根据需要填写保存名称,运行即可,如Pic14。

运行结束生成一个新的RData文件及报告等,如Pic15。

点击html 查看报告,如Pic16。

第四步:芯片数据预处理

在预处理模块选择“芯片数据预处理”,将新生成的.RData文件放入eSetPath,在platform选择相应平台,这里的选择依据是在GEO数据库检索的时候,会有一个平台号,及platform信息,请你记录这个信息,并且选择对应的平台号。

groupName处填入分组列的列名称(一般取名为groups),点击运行,如Pic17。

运行结束会生成新的RData文件及报告,如Pic18所示。

第五步:表达集取子集

对照组中除了一直吸烟与从不吸烟外还有其他的,所以要进行表达集取子集这一步骤,就是把对照组拿出来做分析,点击表达集取子集后,把上一步中的.RData输入 eSetPath ,在 groupnames 中写上取子集的名称,用逗号隔开,点击运行,生成了新的 .RData,如Pic19。

生成了新的.RData,如Pic20。

第六步:差异基因分析

1、按照提示输入,inputset中输入上一步的.RData,logFC和pvalue是阈值,可以调节这两部分来得到差异基因的数量,输入完后,点击运行,如Pic21。

2、就可以生成html ,点击html就可以查看报告,如Pic22。

第七步: 查看报告结果

报告中显示共筛选出差异较大的表达基因37个,在这个平台的 基因搜索模块 对比较有代表性的几个基因进行了搜索,可以看到基因的基本信息、基因在染色体的位置、基因表达等,其中还包括基因的相关疾病,如下图所示,每个基因下面都有几个疾病名称,通过疾病名称我们可以知道该基因导致哪种疾病。如下图所示。

比如搜索FGG基因,可以看到FGG基因可以导致瘢痕瘤、静脉血栓栓塞等与肺癌相关的疾病,并且FGG基因还与其他癌症有关;TYRP1基因可以导致腺癌肺肿瘤、恶性黑素瘤等疾病;IYD基因可以导致甲状腺机能减退、急性焦虑症、地方性呆小病等疾病;CYP3A5基因可以导致肾病、血栓症、肝硬化、神经中毒综合征等疾病;CCL20基因可以导致肺炎、溃疡性结肠炎、结肠肿瘤、糖尿病等;CYP24A1基因可以导致肺肿瘤、肾功能不全、前列腺恶性肿瘤等。

目前芯片分析的流程基本上就是如此,非常流程化,你完成可以自己写一个脚本从头到尾跑一遍。但是没办法,可视化工具就是如此受人喜欢呀。 如果你立志要成为一名生信工程师的话,请思考一下可视化每一步所要对应的流程。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-08-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏张善友的专栏

LINQ via C# 系列文章

LINQ via C# Recently I am giving a series of talk on LINQ. the name “LINQ via C...

3045
来自专栏一个爱瞎折腾的程序猿

sqlserver使用存储过程跟踪SQL

USE [master] GO /****** Object: StoredProcedure [dbo].[sp_perfworkload_trace_s...

3070
来自专栏闻道于事

js登录滑动验证,不滑动无法登陆

js的判断这里是根据滑块的位置进行判断,应该是用一个flag判断 <%@ page language="java" contentType="text/html...

8928
来自专栏我和未来有约会

Kit 3D 更新

Kit3D is a 3D graphics engine written for Microsoft Silverlight. Kit3D was inita...

2956
来自专栏落花落雨不落叶

canvas画简单电路图

89411
来自专栏hbbliyong

WPF Trigger for IsSelected in a DataTemplate for ListBox items

<DataTemplate DataType="{x:Type vm:HeaderSlugViewModel}"> <vw:HeaderSlug...

4224
来自专栏一个会写诗的程序员的博客

Spring Reactor 项目核心库Reactor Core

Non-Blocking Reactive Streams Foundation for the JVM both implementing a Reactiv...

2902
来自专栏ASP.NETCore

ASP.NET Core 整合Autofac和Castle实现自动AOP拦截

除了ASP.NETCore自带的IOC容器外,我们还可以使用其他成熟的DI框架,如Autofac,StructureMap等(笔者只用过Unity,Ninjec...

774
来自专栏C#

DotNet加密方式解析--非对称加密

    新年新气象,也希望新年可以挣大钱。不管今年年底会不会跟去年一样,满怀抱负却又壮志未酬。(不过没事,我已为各位卜上一卦,卦象显示各位都能挣钱...)...

6088
来自专栏张善友的专栏

Miguel de Icaza 细说 Mix 07大会上的Silverlight和DLR

Mono之父Miguel de Icaza 详细报道微软Mix 07大会上的Silverlight和DLR ,上面还谈到了Mono and Silverligh...

3037

扫码关注云+社区