在我们发表高通量测序文章之前通常要上传测序数据到GEO数据库,现总结流程如下。 注册账户、填写MetaSheet 在NCBI GEO官网注册一个账号,然后登陆。 点击Submission Guidelines . 从中查找GEOarchive spreadsheet format,并下载Metadata spreadsheet, 通常是Download metadata spreadsheet (template and examples) UPDATED!,官方推荐下载最新版,这儿就提供链接了。 下载完
最近这段时间,相信好多人都在忙着写国自然标书,一晃2019年的2月份已经过去,今年只剩下10个月了,留给我们的时间不多啦(像不像导师或者主任开会时的讲话啊
1、创建账号 将数据上传到GEO数据库,首先要创建并登陆NCBI帐号, 然后进入提交的网址:https://www.ncbi.nlm.nih.gov/geo/info/submission.html 以高通量测序数据为例:
昨天我们介绍了在使用GEO数据可能遇到的一些问题(GEO数据库可能遇到的问题)。由于篇幅的关系,还有一些没有说完,今天就把剩下的问题和大家说一下吧。
众所周知,GEO里面大部分是表达谱数据,而表达谱的数据挖掘涉及众多的分析方法和繁琐的分析步骤,这里给大家做了一个大致的流程图,以便大家有一个整体而全面的认知。简而言之,GEO的数据分析就分为两大步骤:(1)从原始数据到基因表达值,这里要经过繁琐的数据前处理过程;(2)从表达值到功能分析(差异基因/聚类/功能富集等)。下面我们就按部就班地进行讲解。
GEO数据库中的platform代表测序平台或者芯片平台,每一个platform用GPL开头的编号唯一标识。对于一个platform而言,通常包含以下3种文件
前面我们介绍了一些背景知识,主要是理解什么是DNA甲基化,为什么要检测它,以及芯片和测序两个方向的DNA甲基化检测技术。具体介绍在:甲基化的一些基础知识,也了解了甲基化芯片的一般分析流程 。(PS:如果这两个你没有阅读,本文后面的也不要看了,谢谢,请脱粉,我们不需要你)
昨天介绍完GEO2R之后其实该和大家说一下富集分析相关的东西了(昨日链接:GEO2R差异表达分析软件)。但是,由于GEO数据库里面的数据种类比较多,所以经常我们用的这个数据集和其他数据集有区别,所以就导致碰到这种这样的问题。这里就简单说一下我们之前碰到的一些问题吧,如果大家还有新的问题,欢迎后台留言提问~
在第一讲我们详细介绍了GEO数据库的基础知识及规律,也了解了如何利用官方R包GEOquery来探索GEO数据库,当然,我的生信菜鸟团博客里面也从很多其它角度解析过它,欢迎大家自行搜索学习。总得来说,从GEO数据库里面得到感兴趣数据集的表达矩阵分成两类,最简单的就是直接下载作者归一化好的表达矩阵咯,比较麻烦的就是下载最原始芯片数据,然后根据不同的芯片来一一解读成表达矩阵。 解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 直接下载数据集作者上传的表达矩阵 通常我们默认作者对其芯片数据处理的
一些经常画图的开发人员大概都用过echart,不过小白用Python比较多,学习了python下的Pyecharts,发现这个包真的很强大。下面是小白对动态地图的实践案例:
我自己的笔记主要是参考官方文档:Submitting high-throughput sequence data to GEOHow to upload files to GEO以及我师兄给我写的教程
GEO是一个国际化的开源项目,允许研究者提交自己的数据到该数据库,在世界范围内公开共享自己的数据,网址如下
事情总不会一直顺风顺水,如果有人带你,学习当然舒服,明天我们会发布学徒招募,敬请期待! 尝试一篇文献的表达差异分析和热图重现,主要参考您Github中GEO-master/GSE42872_main的
NCBI Gene Expression Omnibus(GEO)作为各种高通量实验数据的公共存储库。这些数据包括基于单通道和双通道微阵列的实验,检测mRNA,基因组DNA和蛋白质丰度,以及非阵列技术,如基因表达系列分析(SAGE),质谱蛋白质组学数据和高通量测序数据。
打造地理位置信息与区块链的关系对象模型,建立一套 人->位置->真实世界->传递信任->价值转移->位置->人 的生态模型,实现用区块链来索引真实世界的愿景。
我们可以利用head命令检查数据三个表格的内容。 Barcodes通俗来讲就是每个细胞的代码,组成就是ATCG四个碱基排列组合成的不同的14个碱基组合; Gene.tsv或者features.tsv一般是基因的ensembl ID 和symbol matrix.mtx说白了就是每个细胞不同基因的表达矩阵,我们利用分别检查文件的开头和结尾:
和GEO数据库类似,ArrayExpress是属于EBI旗下的公共数据库,用于存放芯片和高通量测序的相关数据,网址如下
对于公共测序数据的分析,好多二代测序的数据都储存在 [[GEO数据库介绍]] 以及 SRA 这样的平台。之前介绍过的 [[ARCHS4-公共二代测序数据下载数据库]] 就是把 GEO 的很多 [[RNA-seq]] 的数据进行了统一重新分析最后组合成一个大型数据集。除了 ARCHS4 之外还有其他的大型数据集比如今天要介绍的这个:Digital Expression Explorer 2(DEE2): http://dee2.io/index.html
GEO 数据库全称是 Gene Expression Omnibus,是由美国国立生物技术信息中心NCBI 创建并维护的基因表达数据库。它收录了世界各国研究机构提交的高通量基因表达数据,目前已经发表的论文中涉及到的基因表达检测的数据可以通过这个数据库中找到,并且免费提供下载,对科研人来说真是非常友好的存在。
众所周知,TCGA和GEO是最著名的两大公共数据库,前者主要存储高通量(二代测序)数据的肿瘤样本数据(TCGA的0代码可视化已被临床生信之家实现)。
我之所以注意到它,主要是他们做了芯片加上测序再结合qPCR,非常的保险。胞外囊泡的芯片分析共发现了85种差异circRNA分子,癌与癌旁组织的高通量测序分析发现了140种显著差异的circRNA分子。两种分析的结果中发现了3个circRNA变化趋势一致,最后又使用QPCR分析,如下所示:
单细胞转录组测序(Single cell RNA sequencing)可以在单个细胞水平对转录组进行测序,研究单个细胞内的基因表达情况,同时解决用组织样本测序无法解决的细胞异质性难题,让解析单个细胞的行为、机制及其与机体的关系成为了现实。
昨天通过岛上生活来和大家了解了一下基本的生信分析文章的思路是什么样子的从荒岛求生看公共数据库生信分析文章。今天就和大家来学习一下GEO数据库,这个存放公共高通量测序数据的地方。
小伙伴们,上次为大家解读了一篇GEO甲基化芯片相关的SCI文献,详情点击:GEO数据库甲基化芯片挖掘发SCI是怎样炼成的,今天,小编打算带领大家用R软件实例操作分析GEO甲基化芯片。作为目前最大的芯片数据库,GEO数据库提供给我们了海量的数据,但是,错综复杂的数据交织在一起,如何选择数据是摆在我们面前最重要的问题,读完今天这篇文章,我相信大家都能学会GEO甲基化芯片的分析。下面,就和大家一起跑一遍R,希望大家喜欢这篇文章!
因为是 Human LncRNA Array v3.0 (8 × 60 K, Arraystar). 芯片,所以直接使用 GeneSpring GX v12.1软件 (Agilent Technologies).
虽然一直演示的表达芯片数据分析,这些芯片分析难点主要是在ID转换,因为不同公司设计的探针命名都不一样,在我4年前博客整理的芯片平台对应R包找:(16)芯片探针与基因的对应关系-生信菜鸟团博客2周年精选文章集
当然了,仅仅是做到这些还不够,我们还需要足够的资金支持,因为绝大部分网页工具的十几年如一日的维护推广和更新,也是不小的花销。相信大家应该是看到过无数的网页工具云平台如雨后春笋般出现和消失,这一点来说,由美国国立生物技术信息中心(NCBI)维护的一个公共数据库,用于存储和共享高通量基因表达数据的GEO(Gene Expression Omnibus)就是其中的佼佼者啦,它有一个在线分析工具GEO2R,用于比较两个或多个基因表达数据集,并识别在不同条件下表达显著差异的基因。用于快速的基因表达分析,研究人员可以使用它来比较不同实验条件下的基因表达差异,例如,疾病与对照组、不同治疗组之间的差异等。
文章标题是:Prospective Derivation of a Living Organoid Biobank of Colorectal Cancer Patients ,研究人员利用由癌症患者肿瘤衍生出的三维(3D)类器官,接近复制出了原发肿瘤的一些关键特性。这些“类器官”培养物适用于大规模的药物筛查来检测与药物敏感性相关的一些遗传改变,为采用个体化治疗改善癌症患者的临床结局铺平了道路。
而且circRNA领域的芯片或者测序技术拿到的也是表达量矩阵,所以表达量矩阵的差异分析呢,都可以看到我8年前的教程,推文在:
一般来说,NCBI数据库提供的prefetch命令下载sra文件速度太慢,可以参考:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件:
目前很多对于公共测序数据的分析,很多都是集中在肿瘤数据当中,主要原因还是在于,肿瘤有一个TCGA的数据库。倒不是说TCGA数据库有多大的样本,而是在于TCGA数据库可以获得每个患者的临床数据。基于这些内容,我们在分析的时候,除了做基本的差异,同时可以看预后等等的。
上篇文章完成了直播的简单业务,我们可以慢慢将这个直播进行完善, 例如 附近直播 直播礼物 直播回放, 当然实际业务要比我说的复杂,博主这里提供一个思路
ceRNA-芯片,其实就是大杂烩,包含了mRNA、lncRNA、circRNA的基因芯片,可同时获得这三个层面的表达数据,同时作为lncRNA和circRNA两种非编码RNA调控功能研究的利器。
通过rsyslog转发云服务器系统日志到GrayLog进行日志分析系统安全日志,结合GeoIP2地址数据库就可以获取SSH暴力破解攻击者IP的地理位置信息
关于GEO数据库表达谱差异基因分析,网上有很多教程,但很多都不系统,几乎千篇一律,而且都是直接使用整理好的矩阵文件来操作的。大家都知道,GEO数据库只负责用户上传数据,而不负责对数据质量的控制,因此,有小伙伴也会发现,自己下载好的矩阵文件里面基因表达量数值特别大而且数据不集中,究其原因就是GEO数据库的数据参差不齐,不能确定上传者是否对整理好的数据进行了标准化处理。我们之前也讲过芯片数据的处理和分析流程,不了解的小伙伴们先读一下之前的文章:基因芯片数据挖掘分析表达差异基因。今天公众号:BioInfoCloud将从GEO芯片的原始数据进行分析,为大家详细的讲解。
临床样品的特色是:通常是FFPE样本,在保存过程中往往造成RNA的断裂,不论是qPCR还是RNA-seq都难以进行精准的定量,这个时候Nanostring 仪器就是为了解决这些问题而诞生的。所以它在医院的流行程度很高,而我们要介绍的这篇文章就来自于医院科研人员,所以选择Nanostring就很容易理解啦。
用 R 的话也可以使用 getGEO(gse) 和 getGEOSuppFiles(gse)函数 ,
《探针注释文件中没有基因名字怎么办?》 https://zhuanlan.zhihu.com/p/356707029 代码如下:
比如发表在 January 2019, https://doi.org/10.1002/1878-0261.12446 文章:Expression of long non‐coding RNA ENSG00000226738 (LncKLHDC7B) is enriched in the immunomodulatory triple‐negative breast cancer subtype and its alteration promotes cell migration, invasion, and resistance to cell death ,而且作者还实验验证了LncKLHDC7B (ENSG00000226738) 及其临近基因KLHDC7B的功能。
网址:https://www.ncbi.nlm.nih.gov/account/
从GEO中选择示例数据:GSE181454。因为作者上传的10x输入文件比较古老(cellranger V2定量),我们重新运行该过程。
Hierarchical clustering of the 64 samples was performed using the selected 4539 clones representing 3341genes whose expression varied more than threefold from the overall mean abundance in at least three samples (Figure 1).
ReMap收集来自GEO和Encode项目中人的chip_seq数据,对来自不同细胞系,不同类别转录因子的数据进行归类整理,网址如下
我最早接触的高通量数据就是RNA-seq,后来接触的也基本是高通量测序结果而不是芯片数据,因此我从来没有分析过一次芯片数据,而最近有一个学员在看生信技能树在腾讯课堂发布的课程GEO数据库表达芯片处理之R语言流程(阅读原文购买)遇到了问题问我请教,为了解决这个问题,我花了一个晚上时间学习这方面的分析。
前面我们提到过表达芯片探针注释的3种方法,参见:第一个万能芯片探针ID注释平台R包, 并且帮助大家搞定了第一种bioconductor包的方法,大家无需下载几十个bioconductor包,然后自己一个个提取基因信息,我全部为大家做好啦,也就是 idmap1 这个目前host在GitHub的R包:
easyBio是一个由上海交通大学 shilei 维护的基于Python的生物信息学软件项目,提供了多个小工具,旨在简便生物信息学数据的分析和处理。
本教程就是跟大家一起去挖掘二代测序结果的数据,从你什么也不会开始,到最后得到Figure。其实关键节点在于怎样获取二代测序的数据,得到了数据框结合其他平台的挖掘教程,为大家发高效发文章加油!
有学员提出来了一个问题,就是可以比较同样实验设计的表达量探索研究,一个研究使用的是芯片,一个是测序,看看两者的差异基因情况的overlap情况。其实这样的例子非常多,比如下面这样的展现方式:
sra数据库的文件的srr开头的ID需要以gsm开通的id进行中转才能对应到真正的样本处理信息。
领取专属 10元无门槛券
手把手带您无忧上云