首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

GeoDiver:GEO数据挖掘分析利器

这才是GEO数据库挖掘的正确姿势。

前阵子,酸谈学社的大师兄Ewen给大家介绍了一个GEO数据集分析工具

shinyGEO

。本期小编就再来给大家介绍一个来自大英帝国的GEO数据分析神器-GeoDiver(https://www.geodiver.co.uk/)。

1

首先,官网的使用界面非常直观简单,不仅可以高质量的作图,还可以做差异表达和基因富集分析。听着就感觉非常666,而其用户体验也确实是更加nice,下面让我们一起去探索学习吧。

跟shinyGEO一样,用户只要输入GEO dataset的编号运行即可。比如网站的举例数据GDS724,输入编号后,网站会自动识别分组因素,包括不同组织间比较或者individual间的比较。

另外,ADVANCED PARAMETERS里还有更多可供选择的参数,包括列表里展示的差异表达基因数目、P value的矫正方法、热图里展示的基因数目、热图聚类的方法,及树状图的展示等等。

2

接下来,我们以individual为例分析下数据挖掘结果:

Overview Boxplot

从此图可以看到表达量的均值还是有波动的,没有完全在一条直线上,说明数据没有进行归一化,而归一化的目的是调整由于基因芯片技术引起的误差。

但在实际的数据分析过程中,数据均值的这条线,只要没有太大的波动,像本例中的情况还是可以用的。如果要进行均一化,一般用平均数或者中位数进行标准化处理,那样处理也更加科学严谨。

主成分分析(Principal Component Analysis)

我们可以看到PC1和PC2两个主成分的解释度超过了60%,按推断应该可以通过主成分的的坐标图将两组分开,实际情况如下:

1)2D图

2)3D图

用户可以自行选择主成分,观察主成分是否能够将两组数据分开,以判断两组样本是否存在差异,本例数据来看,两组间的差异还是比较明显的。

热图(Heatmap)

热图分为两个模块,一个模块是差异表达的基因(很像是Pheatmap的作图风格啊,应该就是它了),另外一个是gene set的富集分析图。不管是差异表达的基因还是富集到的通路,网站都提供搜索功能,可在Table的右侧进行搜索筛选。

富集到的每个通路,用户可以点击如下图所示的红色箭头,查看在KEGG中的通路情况,而且应该是实时的KEGG通路数据(笔者推测,因为加载通路数据时需要一些时间),所以功能还是比较强大的。

火山图

网站作者煞费苦心,画了两个火山图如下。笔者认为火山图就只是一个粗略的展示,并没有太多意义。当然,对于筛选差异表达基因时观察某个基因在整体中的情况,还是有一定帮助意义的。

这个网站能够完成基本的GEO数据分析,就看各位能不能各显神通,用好这个工具啦!可惜的是,这个网站没有加入生存分析的功能,甚为遗憾!不过没关系,我们解螺旋有GEO数据分析的课程,欢迎加入学习!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181205G120J700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券