展开

关键词

上传数据到GEO数据库获得GEO

我自己的笔记主要是参考官方文档:Submitting high-throughput sequence data to GEOHow to upload files to GEO以及我师兄给我写的教程 大致的流程从网站上截取下来的 第一步是申请一个GEO账号用来传输数据 第二步是准备提交的数据 准备的数据有三个 There are three required components for the /geo/info/examples/seq_template.xlsx 这个网址下载下来,可以参考他们给的例子进行填写,这个一步比较费劲。 数据准备完之后就是需要上传这些数据到GEO ftp 上,这个过程比较麻烦,GEO 的服务器真的是不太好用,速度很慢。 第三步就是传输准备好的数据到GEO ftp 上。 /geo_submission_January6/ /home/.../geo_submission_december16/*

29921

GEO数据库架构介绍

GEO是一个国际化的开源项目,允许研究者提交自己的数据到该数据库,在世界范围内公开共享自己的数据,网址如下 https://www.ncbi.nlm.nih.gov/geo/ 该数据库最开始主要用于分享芯片数据 在该数据库中,将所有相关信息分成以下几类,示意如下 ? 1. Platform 芯片平台或者测序平台,每个平台有一个唯一的以GPL开头的编号,高通量测序平台,示意如下 ? 对于高通量测序数据,根据数据类型会给出不同种类的文件,如果原始的测序数据有上传到SRA数据库,也会给出对应SRA编号,示意如下 ? 3. 以上这3种信息由数据的提交者提供,对于同一个series下的原始数据,GEO会对其进行简单的挖掘,比如基于表达量进行聚类分析等,这些分析的结果对应的类型为DataSet, 有一个唯一的以GDS开头的编号 数据共享使得基于公共数据库的数据挖掘成为可能,也可以通过分析已有的同种类型数据来和自己的测序数据相互印证。 ·end· —如果喜欢,快分享给你的朋友们吧—

35810
  • 广告
    关闭

    腾讯云图限时特惠0.99元起

    腾讯云图是一站式数据可视化展示平台,旨在帮助用户快速通过可视化图表展示大量数据,低门槛快速打造出专业大屏数据展示。新用户0.99元起,轻松搞定数据可视化

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    GEO数据库介绍 (一)

    昨天通过岛上生活来和大家了解了一下基本的生信分析文章的思路是什么样子的从荒岛求生看公共数据库生信分析文章。今天就和大家来学习一下GEO数据库,这个存放公共高通量测序数据的地方。 ? 简介 GEO数据库(https://www.ncbi.nlm.nih.gov/gds/)是一个储存芯片、二代测序以及其他高通量测序数据的一个数据库。 基本使用 由于GEO数据库和我们之前介绍的gene数据库 [数据库推荐]gene:基因相关信息查询 以及我们常用来搜索文献的pubmed都是一个机构的。 由于GEO包括了很多不同组学的数据,如果我们有特定的检索目的的话,我们可以在 Study Type当中来选择合适的数据类型。 ? 默认的检索结果的排序是基于检索相关性来排序的。 GEO岛上日记1.0 ? 上岛的第一天,首先,我们可以观察一下我们这个岛,这个岛的中间由河流分成了,三个部分。由于上岛的第一天什么都没有,自身业务能力还是太差。所以也没办法进入到别的地方去。

    69220

    GEO数据库单基因文章套路视频(GEO生存分析)

    GEO数据库单基因文章套路视频(GEO生存分析) --生信自学网 今天我们给大家介绍下GEO数据库单基因文章套路”的课程,该课程根据最新发表3分多的文章录制。 也可以通过和TCGA数据库进行联合分析,对TCGA预后模型进行验证。 该课程主要分为4个部分:1)从GEO下载探针矩阵和平台文件,根据平台文件中探针和基因名字的对应关系,对探针矩阵进行注释,得到基因矩阵;2)通过生存分析过滤、独立预后分析过滤和临床相关性分析过滤,得到备选的预后相关基因

    1.6K00

    GEO2R:对GEO数据库中的数据进行差异分析

    GEO数据库中的数据是公开的,很多的科研工作者会下载其中的数据自己去分析,其中差异表达分析是最常见的分析策略之一,为了方便大家更好的挖掘GEO中的数据,官网提供了一个工具GEO2R, 可以方便的进行差异分析 从名字也可以看出,该工具实现的功能就是将GEO数据库中的数据导入到R语言中,然后进行差异分析,本质上是通过以下两个bioconductor上的R包实现的 GEOquery limma GEOquery 一组样本在GEO数据库中用series表示,比如GSE25724, 包含了case和control两组样本,case组包含6个生物学重复,control组包含7个生物学重复,共13个样本,链接如下 https ://www.ncbi.nlm.nih.gov/geo/query/acc.cgi? 在网页上可以看到GEO2R的按钮,点击这个按钮就可以进行分析了, 除了差异分析外,GEO2R还提供了一些简单的数据可视化功能。 1.

    84121

    GEO数据库中platform信息详解

    GEO数据库中的platform代表测序平台或者芯片平台,每一个platform用GPL开头的编号唯一标识。 Database_web_link = http://www.ncbi.nlm.nih.gov/geo ! Database_email = geo@ncbi.nlm.nih.gov ^PLATFORM = GPL20814 ! Platform_geo_accession = GPL20814 !Platform_status = Public on Jun 12 2017 ! 数据库的基本信息,PLATFORM代表该平台的基本信息,SAMPLE代表用该平台得到的样本信息,SERIES代表使用该平台得到的一组样本。

    69630

    GEO数据库可能遇到的问题 (二)

    昨天我们介绍了在使用GEO数据可能遇到的一些问题(GEO数据库可能遇到的问题)。由于篇幅的关系,还有一些没有说完,今天就把剩下的问题和大家说一下吧。 ? 这种情况的话~ 有可能是GEO注释文件老了。可能这个芯片已经发出新的注释文件了,那这个时候就可以试着去公司网站上找找看。有的话,那最好了。 不过这个东西就不能用GEO2R来分析了,就只能自己去找分析工具了,比如R语言。 ? 1 甲基化芯片能不能用GEO2R分析 有时候我们在进行甲基化相关数据检索的时候,发现在甲基化数据下面也是有GEO2R的分析选项的。 ? 写在最后 关于GEO以及差异表达分析GEO2R能想到的有可能遇到的问题就是这么多,如果还有什么问题,欢迎后台留言探讨。 在我们经过一定的筛选之后,会得到一些差异表达基因。

    1.9K30

    GEO数据库可能遇到的问题 (一)

    昨天介绍完GEO2R之后其实该和大家说一下富集分析相关的东西了(昨日链接:GEO2R差异表达分析软件)。 但是,由于GEO数据库里面的数据种类比较多,所以经常我们用的这个数据集和其他数据集有区别,所以就导致碰到这种这样的问题。 这个就涉及到GEO2R的使用目标了。GEO2R只适用于 表达谱芯片分析。但是GEO数据里面,并不止是包括表达谱芯片数据。还包括一些二代测序的数据。 那能融合到一起用GEO2R分析嘛?答案是,不能。。。。 由于GEO2R是基于GEO数据库设计的,所以并没有提供上传数据分析的功能,所以这个时候就不能融合到一起来进行分析了。 那推荐我们这个帖子[数据库介绍]一站式表达谱数据分析。这个数据库可以帮我们去掉批次效应来进行差异分析的。 由于篇幅的关系,还有一些问题就放到明天再和大家说吧!

    1.4K21

    GEO数据库挖掘(1)--SCI文章速成

    第一课先从一个相对简单,而又非常重要的数据库入手:GEO (Gene Expression Ominibus)。 基因表达数据库 (Gene Expression Omnibus, GEO)隶属于美国国立卫生研究院的NCBI。 GEO(www.ncbi.nlm.nih.gov/geo/)是当今最大、最全面的公共基因表达数据资源。目前GEO数据库中共包含了近11万个数据集,约290万个标本,是一个极其庞大的巨无霸型公共数据库GEO作为一个公共数据库资源,对所有人公开免费。近几年使用GEO进行数据挖掘发表的SCI文章也日趋增多,说爆发式增长也不为过。 首先,先来看看GEO数据库的构成。GEO当中的数据主要分为两大类:用户提交的数据和GEO整理后的数据。

    1.9K33

    中文版GEO数据库来了!

    后者GEO数据库全称Gene Expression Omnibus database,是由美国NCBI创建并维护的基因表达数据库。 好在,为“生信分析0代码”而生的临床生信之家,继解决TCGA数据后,1月29日今天上午,终于开始录入GEO数据了,这预示中文版GEO数据库的到来! 这样的“中文版GEO数据库”你爱不爱呢?! ? ? ? 临床生信之家之前发起了一个调查,就是GEO数据库你最想录入的是哪些疾病的数据: ? 临床生信之家官网 点击检索后,就出来匹配到的数据集,根据匹配程度排序,没接触过geo数据库的同学可能有点懵,这里稍微解释下,1.数据集:在Geo数据库中代表一个实验项目(就是某个作者上传的集合),包括所有样本信息 不要着急,geo数据库数据量是巨大的,后面会自动逐渐录入,稍等几天再试试即可。 还是不懂?那看下面的视频讲解吧... n

    60510

    GEO数据库表达谱差异基因分析

    关于GEO数据库表达谱差异基因分析,网上有很多教程,但很多都不系统,几乎千篇一律,而且都是直接使用整理好的矩阵文件来操作的。 大家都知道,GEO数据库只负责用户上传数据,而不负责对数据质量的控制,因此,有小伙伴也会发现,自己下载好的矩阵文件里面基因表达量数值特别大而且数据不集中,究其原因就是GEO数据库的数据参差不齐,不能确定上传者是否对整理好的数据进行了标准化处理 今天公众号:BioInfoCloud将从GEO芯片的原始数据进行分析,为大家详细的讲解。 我们选择了宫颈癌的表达芯片“GSE89657”来分析。 ? 点击芯片的标题,就能看到芯片的全部信息了! 将页面下拉至底部,第1个是矩阵文件(GEO分析最常用的),第2个是原始文件(数据最精确的)。虽然说矩阵文件分析最简单,但是因为GEO不对芯片数据做质量控制,因此矩阵文件在某些时候并不是十分准确的。 我们看GEO详情页里面的18个样本信息,有3个正常组织,其余都是肿瘤。 ? 我们需要将文件进行分类,在工作目录建立一个cancer文件夹和一个normal文件夹,将相应的cel文件复制到相应文件夹中。

    5.9K2117

    Geo Hash

    工作需要,实现了一下Geo Hash算法。 尽量直接使用位操作,比网上常见的字符串判断位值得写法效率应该高一点。 TODO:循环的写法可以再优雅一点;注释可以再清晰一点。 } } /** * hash编码 * * @param lat 纬度 * @param lon 经度 * @return geo

    16320

    GEO数据库挖掘(2)--快速锁定目标数据

    在上一期的推文 GEO数据库挖掘(1)--SCI文章速成 ,我们讲解了关于GEO数据库的背景知识,想必大家也了解了GEO是一个非常实用和权威的基因表达谱数据库。那么如何检索自己想要的数据呢? ,出现了一个下拉菜单,一个是“results in GEO DataSets”,另一个是“results in GEO Profiles”,我们选择上面一个(绿框所示)。 (不知道这几个名词概念的,自行查阅上一篇文章:GEO数据库挖掘(1)--SCI文章速成) Study type:研究类型,也即数据类型,这里面内容就非常多了,因为我们做的事表达谱,所以常用的一般就是“Expression 此外,还有一个需要我们知道的就是一个分析工具—GEO2R,这个工具是GEO官方开发的使用R语言来进行差异表达分析的工具,十分好用,通过GEO2R可以快速便捷地筛选出我们想要的差异表达基因。 当然仅仅进行差异表达分析,发文章是远远不够的,后面的文章,我们会继续给大家讲解GEO2R的使用以及我们自行开发的一整套GEO数据挖掘自动化工具,卖个关子,敬请期待哟~ 本期重点回顾(Take home

    1.9K86

    GEO数据库的这个功能你知道吗

    大家都想学单细胞转录组数据处理,可是如果你不会R语言,没玩过GEO数据库挖掘,没有这些背景知识点,你会学的很辛苦,所以这里接受大家的投稿带领大家一起学习R及bioconductor技能!!! 首先来一个简单的GEO数据库挖掘吧! ? 前言 今天在技能树学徒班听了一节关于GEO数据库的课,GEO是什么,又是一头雾水,强迫基因受环境影响出现短暂的表达,赶紧搜索了解下,GEO(Gene Expression Omnibus database )是由NCBI负责维护的一个数据库,设计初衷是为了收集整理各种表达芯片数据,但是后来也加入了甲基化芯片,lncRNA,miRNA,CNV芯片等各种芯片,甚至高通量测序数据,从文章拿到了GSE的study 利用GEO数据库GEO2R工具分析一个GSE的study ID,操作如下: 登录GEO官网 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi? ?

    85020

    GEO数据库中国区镜像奔走相告啊

    最近还是大量粉丝留言表示自己因为疫情困在家里,想做数据挖掘混个本科毕业论文,但是看完我的GEO数据挖掘视频后,想下载个数据集,就被卡死了,实在是巧妇难为无米之炊! 这个不怪大家,我给大家的免费的GEO数据挖掘视频其实录制很早了,那个时候还没有写:GEO数据库中国区镜像 ? b站GEO数据挖掘视频 上次推送完GEO数据库中国区镜像,反响很不错,我自己在给大家做免费数据分析的时候也是使用它。 ? 点赞和打赏 说明大家是认可我们的! <- geoChina("GSE59867") gset <- geoChina("GSE68004") gset <- geoChina("GSE8157") 下载后的 gset 对象就可以走我们的GEO

    84961

    GEO数据库中国区镜像横空出世

    经过个把月的不懈努力,我终于把全部的GEO数据库里面的表达芯片数据都下载并且全部格式化处理成为r数据文件,并且购置一个2万块钱的腾讯云服务器来存放它们,供广大粉丝使用! (文末有惊喜哈) 使用起来非常方便,就一句话,找到你的GSE数据集的ID,传给我们的函数即可: use it to download GEO dataset, as below : eSet=geoChina the expression matrix and phenotype data: ## download GSE95166 data # https://www.ncbi.nlm.nih.gov/geo 所以是不会有bug的,但是,也许大家在使用的过程有新的需求,我可以酌情根据时间来开发增加功能,感兴趣可以进入我们的交流群:4年前的TCGA重磅资料你学了吗 当然了,表达芯片的公共数据库挖掘系列更多教程, 见推文 ; 解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 GSEA分析一文就够(单机版+R语言版) 根据分组信息做差异分析- 这个一文不够的

    2.5K41

    GEO二代测序表达数据下载数据库

    GEO公共数据检索的时候,发现有一个数据集想要分析,但是发现是二代测序的数据,没有相关的原始数据处理经验,要怎么办呢? ? 二代测序对于没有生信基础的人的难点 之前我们在介绍GEO分析基础的时候,提到过利用目前的个人电脑以及一些网络工具分析工具,我们能分析就是一些基因芯片的数据,但是对于二代测序的数据的话,分析起来就有一些困难了 那要是发现GEO里面有一个二代测序的数据很好,特别想使用怎么办呢?这次就给大家推荐一个把GEO的二代测序的数据经过处理转换为基因表达数据的的数据库,这个数据库就是ARCHS4数据库。 (https://amp.pharm.mssm.edu/archs4/index.html) ARCHS4数据库介绍 ARCHS4数据库是一个把GEO数据库的一些人和鼠的二代测序的数据进行统一流程前期分析的数据库 数据的下载 对于原始数据的下载,数据库提供了所有相关经过统一流程分析后的数据,包括count数据和tpm数据,同时也提供了目前数据库纳入的所有GSE信息。 ?

    92221

    redis geo 全网最好用的redis-geo

    当乘客下单后,会通过乘客的位置查询附近司机然后进行匹配 2、GEO简介 reids在版本 3.2.0之后,引入了geo功能,可用于处理地理位置。 spring-boot-starter-web org.springframework.boot spring-boot-starter-data-redis GEO = "geo_key"; /** * 使用redis+GEO,上报司机位置 */ @PostMapping("addDriverPosition") public cityId, String driverId, Double lng, Double lat) { String redisKey = CommonUtil.buildRedisKey(GEO_KEY System.out.println("添加位置坐标点:" + points); return addnum; } /** * 使用redis+GEO

    47410

    MongoDB 整合GEO

    org.bson.types.ObjectId; import org.springframework.data.annotation.Id; import org.springframework.data.mongodb.core.geo.GeoJsonPoint log.info("受到影响的结果有:{}条", modifiedCount); } catch (Exception e) { log.error("数据库操作异常 " + e); return Results.error("数据库操作异常"); } 查询附近用户 List<UserLocationVo> userLocationVos query, UserLocation.class, "User_Location")); } catch (Exception e) { log.error("数据库操作异常 " + e); return Results.error("数据库操作异常"); } 特殊说明: 解决问题的光鲜,藏着磕Bug的痛苦。

    16320

    相关产品

    • 时序数据库 CTSDB

      时序数据库 CTSDB

      腾讯云时序数据库(CTSDB)是一种高效、安全、易用的云上时序数据存储服务。特别适用于物联网、大数据和互联网监控等拥有海量时序数据的场景。您可以根据实际业务需求快速创建CTSDB 实例,并随着业务变化实时线性扩展实例。CTSDB 为您提供高性能的数据读写服务,满足您业务快速发展的需求。

    相关资讯

    热门标签

    活动推荐

    扫码关注腾讯云开发者

    领取腾讯云代金券