前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GEO数据库挖掘(1)--SCI文章速成

GEO数据库挖掘(1)--SCI文章速成

作者头像
用户6317549
发布2019-09-24 15:27:52
2.7K0
发布2019-09-24 15:27:52
举报
文章被收录于专栏:科研猫

最近这段时间,相信好多人都在忙着写国自然标书,一晃2019年的2月份已经过去,今年只剩下10个月了,留给我们的时间不多啦(像不像导师或者主任开会时的讲话啊

不管标书写的满意与否,也都到了该交的时候,交完标书,工作重心又要回到日常的科研工作中,继续做实验·发文章的日子。

说到发文章,相信大家公认的套路都是“找分子 · 养细胞 · 养老鼠“的湿实验套路,这样的实验一旦做起来,至少要耗掉1-2年,乃至更长时间。那有没有什么发文章的捷径,无需做实验,无需花钱,无需耗费大量宝贵青春,轻松发表SCI文章,走上人生巅峰呢?答案是:有!

现今到处可见“大数据”、“数据库“、”数据挖掘”等热门词汇,在我们的身边有大量宝贵的生物医学大数据,如果能够加以合理利用,几天时间完成一篇SCI文章也绝非难事。

从本篇推文起, 科研猫 公众号将带领大家学习生物医学领域内的大数据挖掘。第一课先从一个相对简单,而又非常重要的数据库入手:GEO (Gene Expression Ominibus)。

基因表达数据库 (Gene Expression Omnibus, GEO)隶属于美国国立卫生研究院的NCBI。GEO(www.ncbi.nlm.nih.gov/geo/)是当今最大、最全面的公共基因表达数据资源。目前GEO数据库中共包含了近11万个数据集,约290万个标本,是一个极其庞大的巨无霸型公共数据库。GEO中主要存储了关于基因表达谱的数据,其中一大部分是芯片(microarray)和测序(RNA sequencing)的数据,有mRNA的,也有lncRNA和miRNA的,还包含一部分甲基化和SNP array的数据。

GEO作为一个公共数据库资源,对所有人公开免费。近几年使用GEO进行数据挖掘发表的SCI文章也日趋增多,说爆发式增长也不为过。为了检验GEO在数据挖掘当中的重要性和普适性,我们用“GEO“、“Data mining”和”TCGA“这三个关键词分别在PubMed中进行搜索,统计从1991年迄今为止每年的相关文章数量,其结果如下图所示。可以看出,自2008年开始,有关GEO数据挖掘的文章呈指数式爆发,从每年不到100篇,到每年3000篇以上。相对于另一个重要的肿瘤数据库TCGA而言,GEO的相关文章可谓遥遥领先。

现在我们开始正式的学习吧。

首先,先来看看GEO数据库的构成。GEO当中的数据主要分为两大类:用户提交的数据和GEO整理后的数据。其中,用户在提交数据的时候,GEO对数据定义了以下几个概念:Sample (样本),Series(系列)和 Platform(平台)。

其中“Sample”可以理解为被检测的样本;“Series”可以理解为一项研究中多个样本构成的数据集;而“Platform”可以理解为检测样本表达时所用的芯片/检测方法。GEO要求上传者在上传数据时,必须提供以上基本信息。GEO在得到用户上传的数据后,将产生DataSet和Profile两类数据。

GEO首先把提交的样本集中到有生物学意义和统计学上可比较的GEO数据集组(DataSets),能够提供关于一个实验的相关更改,作为下游数据挖掘和数据显示工具的基础。而表达谱(Profile)则来自于DataSets基因表达谱信息,其存储了单个基因表达的数据资料。

(轻点图片,查看高清大图~)

熟悉了GEO的构成,后续就是如何分析其中的数据了。为了方便用户对数据进行初步的分析,GEO本身就提供了如GEO2R及聚类、箱线图、基因查找等工具,这些分析工具可以为我们提供关于数据信息的初步挖掘结果,但是如果想要深入探讨临床表型与基因表达的相关性,或者筛选出发挥重要调控作用的核心基因出来,GEO自带的分析工具就显得有些捉襟见肘了。

后面的课程中,我们会带领大家一步步学习如何由浅入深地分析GEO当中的数据,实现较为复杂的挖掘和绘图,正如下图所示的层次聚类、火山图、主成分分析等高级操作。敬请关注

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科研猫 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档