首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

GEO数据库挖掘

生信技能树学习之geo数据库挖掘图片1、图表介绍1.1 热图:输入数据是数值型矩阵/数据框,颜色的变化表示数值的大小。有相关性热图和差异基因热图。...2、GEO背景介绍及表达芯片分析思路2.1 表达数据实验设计实验目的:通过基因表达量数据的差异分析和富集分析来解释生物学现象。...图片2.4 数据库介绍图片3、代码分析流程3.1 数据分析之前先安装R包options("repos"="https://mirrors.ustc.edu.cn/CRAN/") ##这个地方的镜像可以设置为清华镜像...3.2.1 GEO数据库 芯片数据获取#数据下载rm(list = ls())library(GEOquery)#先去网页确定是否是表达芯片数据,不是的话不能用本流程。...db")ids <- toTable(hgu133plus2SYMBOL)head(ids)# 方法2 读取GPL网页的表格文件,按列取子集##https://www.ncbi.nlm.nih.gov/geo

53121
您找到你想要的搜索结果了吗?
是的
没有找到

上传数据到GEO数据库获得GEO

我自己的笔记主要是参考官方文档:Submitting high-throughput sequence data to GEOHow to upload files to GEO以及我师兄给我写的教程...大致的流程从网站上截取下来的 第一步是申请一个GEO账号用来传输数据 第二步是准备提交的数据 准备的数据有三个 There are three required components for the.../geo/info/examples/seq_template.xlsx 这个网址下载下来,可以参考他们给的例子进行填写,这个一步比较费劲。...数据准备完之后就是需要上传这些数据到GEO ftp 上,这个过程比较麻烦,GEO 的服务器真的是不太好用,速度很慢。 第三步就是传输准备好的数据到GEO ftp 上。.../geo_submission_January6/ /home/.../geo_submission_december16/*

1.8K21

GEO数据库简介

一、GEO 数据库简介 GEO 数据库全称是 Gene Expression Omnibus,是由美国国立生物技术信息中心NCBI 创建并维护的基因表达数据库。...GEO 数据库中包含了多种基因表达相关的数据,里面除了二代测序数据,还包含芯片测序、单细胞测序数据等,因此 GEO 数据与 NCBI 中的 SRA 数据是存在交集的,同一个数据可以包含在 SRA 数据库中...二、GEO 数据库检索数据 1、打开网址 https://www.ncbi.nlm.nih.gov/geo/ GEO 数据库官网 进入之后界面如下,右边就是检索框,输入关键词即可搜索...1、GEO 数据库相关的使用教程,例如我们可以点击相应的链接查看 Dataset、Profiles、GEO2R 的说明文档; 2、GEO 数据库相关的各种小工具; 3、GEO...数据库目前现有的数据量; 4、GEO 数据库数据上传相关的说明信息。

4.2K20

GEO数据库架构介绍

GEO是一个国际化的开源项目,允许研究者提交自己的数据到该数据库,在世界范围内公开共享自己的数据,网址如下 https://www.ncbi.nlm.nih.gov/geo/ 该数据库最开始主要用于分享芯片数据...在该数据库中,将所有相关信息分成以下几类,示意如下 ? 1. Platform 芯片平台或者测序平台,每个平台有一个唯一的以GPL开头的编号,高通量测序平台,示意如下 ?...对于高通量测序数据,根据数据类型会给出不同种类的文件,如果原始的测序数据有上传到SRA数据库,也会给出对应SRA编号,示意如下 ? 3....以上这3种信息由数据的提交者提供,对于同一个series下的原始数据,GEO会对其进行简单的挖掘,比如基于表达量进行聚类分析等,这些分析的结果对应的类型为DataSet, 有一个唯一的以GDS开头的编号...数据共享使得基于公共数据库的数据挖掘成为可能,也可以通过分析已有的同种类型数据来和自己的测序数据相互印证。 ·end· —如果喜欢,快分享给你的朋友们吧—

94110

GEO数据库介绍 (一)

昨天通过岛上生活来和大家了解了一下基本的生信分析文章的思路是什么样子的从荒岛求生看公共数据库生信分析文章。今天就和大家来学习一下GEO数据库,这个存放公共高通量测序数据的地方。 ?...简介 GEO数据库(https://www.ncbi.nlm.nih.gov/gds/)是一个储存芯片、二代测序以及其他高通量测序数据的一个数据库。...基本使用 由于GEO数据库和我们之前介绍的gene数据库 [数据库推荐]gene:基因相关信息查询 以及我们常用来搜索文献的pubmed都是一个机构的。...由于GEO包括了很多不同组学的数据,如果我们有特定的检索目的的话,我们可以在 Study Type当中来选择合适的数据类型。 ? 默认的检索结果的排序是基于检索相关性来排序的。...GEO岛上日记1.0 ? 上岛的第一天,首先,我们可以观察一下我们这个岛,这个岛的中间由河流分成了,三个部分。由于上岛的第一天什么都没有,自身业务能力还是太差。所以也没办法进入到别的地方去。

1.2K20

GEO2R:对GEO数据库中的数据进行差异分析

GEO数据库中的数据是公开的,很多的科研工作者会下载其中的数据自己去分析,其中差异表达分析是最常见的分析策略之一,为了方便大家更好的挖掘GEO中的数据,官网提供了一个工具GEO2R, 可以方便的进行差异分析...从名字也可以看出,该工具实现的功能就是将GEO数据库中的数据导入到R语言中,然后进行差异分析,本质上是通过以下两个bioconductor上的R包实现的 GEOquery limma GEOquery...一组样本在GEO数据库中用series表示,比如GSE25724, 包含了case和control两组样本,case组包含6个生物学重复,control组包含7个生物学重复,共13个样本,链接如下 https...://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?...在网页上可以看到GEO2R的按钮,点击这个按钮就可以进行分析了, 除了差异分析外,GEO2R还提供了一些简单的数据可视化功能。 1.

2.9K23

GEO数据库可能遇到的问题 (二)

昨天我们介绍了在使用GEO数据可能遇到的一些问题(GEO数据库可能遇到的问题)。由于篇幅的关系,还有一些没有说完,今天就把剩下的问题和大家说一下吧。 ?...这种情况的话~ 有可能是GEO注释文件老了。可能这个芯片已经发出新的注释文件了,那这个时候就可以试着去公司网站上找找看。有的话,那最好了。...不过这个东西就不能用GEO2R来分析了,就只能自己去找分析工具了,比如R语言。 ?...1 甲基化芯片能不能用GEO2R分析 有时候我们在进行甲基化相关数据检索的时候,发现在甲基化数据下面也是有GEO2R的分析选项的。 ?...写在最后 关于GEO以及差异表达分析GEO2R能想到的有可能遇到的问题就是这么多,如果还有什么问题,欢迎后台留言探讨。 在我们经过一定的筛选之后,会得到一些差异表达基因。

4K30

GEO数据库可能遇到的问题 (一)

昨天介绍完GEO2R之后其实该和大家说一下富集分析相关的东西了(昨日链接:GEO2R差异表达分析软件)。...但是,由于GEO数据库里面的数据种类比较多,所以经常我们用的这个数据集和其他数据集有区别,所以就导致碰到这种这样的问题。...这个就涉及到GEO2R的使用目标了。GEO2R只适用于 表达谱芯片分析。但是GEO数据里面,并不止是包括表达谱芯片数据。还包括一些二代测序的数据。...那能融合到一起用GEO2R分析嘛?答案是,不能。。。。 由于GEO2R是基于GEO数据库设计的,所以并没有提供上传数据分析的功能,所以这个时候就不能融合到一起来进行分析了。...那推荐我们这个帖子[数据库介绍]一站式表达谱数据分析。这个数据库可以帮我们去掉批次效应来进行差异分析的。 由于篇幅的关系,还有一些问题就放到明天再和大家说吧!

2.4K21

中文版GEO数据库来了!

后者GEO数据库全称Gene Expression Omnibus database,是由美国NCBI创建并维护的基因表达数据库。...好在,为“生信分析0代码”而生的临床生信之家,继解决TCGA数据后,1月29日今天上午,终于开始录入GEO数据了,这预示中文版GEO数据库的到来!...这样的“中文版GEO数据库”你爱不爱呢?! ? ? ? 临床生信之家之前发起了一个调查,就是GEO数据库你最想录入的是哪些疾病的数据: ?...临床生信之家官网 点击检索后,就出来匹配到的数据集,根据匹配程度排序,没接触过geo数据库的同学可能有点懵,这里稍微解释下,1.数据集:在Geo数据库中代表一个实验项目(就是某个作者上传的集合),包括所有样本信息...不要着急,geo数据库数据量是巨大的,后面会自动逐渐录入,稍等几天再试试即可。 还是不懂?那看下面的视频讲解吧... n

1.8K10

GEO数据库表达谱差异基因分析

关于GEO数据库表达谱差异基因分析,网上有很多教程,但很多都不系统,几乎千篇一律,而且都是直接使用整理好的矩阵文件来操作的。...大家都知道,GEO数据库只负责用户上传数据,而不负责对数据质量的控制,因此,有小伙伴也会发现,自己下载好的矩阵文件里面基因表达量数值特别大而且数据不集中,究其原因就是GEO数据库的数据参差不齐,不能确定上传者是否对整理好的数据进行了标准化处理...今天公众号:BioInfoCloud将从GEO芯片的原始数据进行分析,为大家详细的讲解。 我们选择了宫颈癌的表达芯片“GSE89657”来分析。 ? 点击芯片的标题,就能看到芯片的全部信息了!...将页面下拉至底部,第1个是矩阵文件(GEO分析最常用的),第2个是原始文件(数据最精确的)。虽然说矩阵文件分析最简单,但是因为GEO不对芯片数据做质量控制,因此矩阵文件在某些时候并不是十分准确的。...我们看GEO详情页里面的18个样本信息,有3个正常组织,其余都是肿瘤。 ? 我们需要将文件进行分类,在工作目录建立一个cancer文件夹和一个normal文件夹,将相应的cel文件复制到相应文件夹中。

8.8K2118

从零开始的异世界生信学习 GEO数据库数据挖掘--GEO背景知识简介

大圈表示置信区间 图片 图片 GEO背景知识+表达芯片分析思路 1.表达数据实验设计 图片 差异分析是两组间分析差异,多组分析中也是两两分析 图片 图片 图片 下载数据:表达矩阵,临床信息,GPL编号...富集分析使用ENTREDID KEGG分析以及GO分析 图片 富集分析结果 行名和第一列都是通路的ID description:通路的注释 GeneRatio:差异基因中有多少个富集到该通路/差异基因有多少被数据库收录...BgRatio:数据库中记载总共多少基因/数据库中所有通路一共多少基因 pvalue/p.adjust/qvalue:衡量富集是否显著的3个p值,默认使用p.adjust geneID:属于通路的差异基因列在

1.5K10
领券