Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >不装了,摊牌了,转录组测序表达量矩阵就这么简单!

不装了,摊牌了,转录组测序表达量矩阵就这么简单!

作者头像
生信技能树
发布于 2024-11-21 01:03:59
发布于 2024-11-21 01:03:59
11700
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

前面我在笔记:作者仅提供了fpkm格式表达量矩阵的转录组测序数据集该如何重新分析呢 提到了一个小技巧,是可以通过下面的r代码读取geo数据库里面的转录组测序表达量矩阵,这个矩阵来自于geo官方的转录组定量流程 ,如下所示的r代码 :

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
urld <- "https://www.ncbi.nlm.nih.gov/geo/download/?format=file&type=rnaseq_counts"
path <- paste(urld, "acc=GSE182923", "file=GSE182923_raw_counts_GRCh38.p13_NCBI.tsv.gz", sep="&");
tbl <- as.matrix(data.table::fread(path, header=T, colClasses="integer"), rownames=1)

虽然说我们确实是在单细胞天地,生信菜鸟团,生信技能树等多个公众号转发了:作者仅提供了fpkm格式表达量矩阵的转录组测序数据集该如何重新分析呢 里面的小技巧,但仍然是各个交流群还是有人发问,关于转录组测序的公共数据集如何分析,因为大家看到的常规教程都是之前的表达量芯片的数据分析流程。

转录组测序首先是表达量矩阵是一个问题, 其次处理所用的r包,统计学方法也不一样。

比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE254592

对应的文章是:Programmed cell death-1 is involved with peripheral blood immune cell profiles in patients with hepatitis C virus antiviral therapy. PLoS One 2024;19(5):e0299424. PMID: 38781172

如果是看文件:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
GSE254592_Group01_vs_Group02_cds_expression_diff_summary.txt.gz 2.2 Mb (ftp)(http) TXT
GSE254592_Group01_vs_Group03_cds_expression_diff_summary.txt.gz 2.2 Mb (ftp)(http) TXT
GSE254592_Group02_vs_Group04_cds_expression_diff_summary.txt.gz 2.2 Mb (ftp)(http) TXT
GSE254592_Group03_vs_Group04_cds_expression_diff_summary.txt.gz 2.2 Mb (ftp)(http) TXT

GSE254592_TR_2305.genes.fpkm_table_annotation.txt.gz 6.4 Mb (ftp)(http) TXT
GSE254592_merged.gtf.gz 15.5 Mb (ftp)(http) GTF

确实是一个fpkm格式的表达量矩阵,虽然说geo页面给出来了一下 差异分析的组合,但是没办法替代我们自己想从原始的counts矩阵开始的差异分析需求。

其实,如果是现在的大家仔细看说geo页面,就可以看到页面多了一个下载渠道的按钮 :

页面多了一个按钮

点进去就是geo官方的转录组定量流程后得到的表达量矩阵文件 ,如下所示链接 :

  • https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE254592
  • https://www.ncbi.nlm.nih.gov/geo/download/?type=rnaseq_counts&acc=GSE254592&format=file&file=GSE254592_raw_counts_GRCh38.p13_NCBI.tsv.gz

而且是每个数据集都是同样的结构

任意数据集,下面的URL只需要替换里面的gse编号即可:

  • https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE122709
  • https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE122709

每个数据集都有自己的表达量矩阵文件下载,要么是作者自己给出来的转录组测序定量好的矩阵,要么是geo官方统一定量的文件,如下所示:

geo官方统一定量的文件

也可以看它们的URL的规则:

  • https://ftp.ncbi.nlm.nih.gov/geo/series/GSE122nnn/GSE122709/suppl/GSE122709_all.counts.txt.gz
  • https://www.ncbi.nlm.nih.gov/geo/download/?type=rnaseq_counts&acc=GSE122709&format=file&file=GSE122709_raw_counts_GRCh38.p13_NCBI.tsv.gz

实战一下

让我们看看2024年5月31日,中山大学附属孙逸仙纪念医院苏士成、陆艺文等人在癌症领域顶级期刊 Cancer Cell 上发表了题为:Tumor cells impair immunological synapse formation via central nervous system-enriched metabolite 的研究论文,该研究里面有一个公开的单细胞转录组数据集,以及转录组测序数据集:

  • https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE233484

可以看到,这个转录组测序是9个样品,分成两组:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
GSM7429237 resistant1
GSM7429238 resistant2
GSM7429239 resistant3
GSM7429240 resistant4
GSM7429241 sensitive1
GSM7429242 sensitive2
GSM7429243 sensitive3
GSM7429244 sensitive4
GSM7429245 sensitive5

文章里面也给出来了转录组差异分析结果:

转录组差异分析结果

但是如果大家直接从geo界面看是每个样品的fpkm矩阵 :

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
GSM7429237_resistant1_pt01002_S19187.txt.gz 915.7 Kb
GSM7429238_resistant2_pt01003_S20199.txt.gz 923.3 Kb
GSM7429239_resistant3_pt01004_S20223.txt.gz 928.3 Kb
GSM7429240_resistant4_pt01009_S1820.txt.gz 923.1 Kb
GSM7429241_sensitive1_pt01006_S2040.txt.gz 903.4 Kb
GSM7429242_sensitive2_pt01007_S20177.txt.gz 911.0 Kb
GSM7429243_sensitive3_pt01010_S20195.txt.gz 922.3 Kb
GSM7429244_sensitive4_pt01011_S20191.txt.gz 907.0 Kb
GSM7429245_sensitive5_pt01012_S2017.txt.gz 919.7 Kb

就不适合做差异分析,所以可以下载这个 GSE233484_raw_counts_GRCh38.p13_NCBI.tsv.gz 文件 然后读取:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# load counts table from GEO
urld <- "https://www.ncbi.nlm.nih.gov/geo/download/?format=file&type=rnaseq_counts"
path <- paste(urld, "acc=GSE233484", "file=GSE233484_raw_counts_GRCh38.p13_NCBI.tsv.gz", sep="&");
path='GSE233484_raw_counts_GRCh38.p13_NCBI.tsv.gz'
tbl <- as.matrix(data.table::fread(path, header=T, colClasses="integer"), rownames=1)

简单的做了常规的转录组测序 差异分析,基本上跟上面的题为:Tumor cells impair immunological synapse formation via central nervous system-enriched metabolite 的研究论文里面的图表一致,说明文章的数据分析是准确无误的!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
规范统一格式的GEO RNA-seq count及其标准化数据
参考网址:https://www.ncbi.nlm.nih.gov/geo/info/rnaseqcounts.html#why
用户11414625
2024/12/20
3160
规范统一格式的GEO RNA-seq count及其标准化数据
count转TPM/FPKM实战(GSE229904)
接下来是对学员的答疑部分,学员提了一个问题,他想知道怎么将我们的count值进行标准化转为tpm和fpkm值。我们技能树对这个转换已经介绍过非常多次啦:
生信技能树
2025/03/29
1490
count转TPM/FPKM实战(GSE229904)
胰腺的腺泡和导管细胞的转录水平差异
单细胞RNA测序技术(scRNA-seq)的应用使得研究人员能够在更细致的层面上理解这些细胞亚群的异质性和功能。这些信息对于研究胰腺疾病的发病机制、开发新的治疗方法以及理解胰腺在健康和疾病中的作用至关重要。
生信技能树jimmy
2024/05/31
1420
胰腺的腺泡和导管细胞的转录水平差异
单细胞表达量矩阵读取后居然是一个长度为3的list对象
发来的数据集为 GSE243665:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE243665
生信技能树
2025/04/13
20
单细胞表达量矩阵读取后居然是一个长度为3的list对象
作者仅提供了fpkm格式表达量矩阵的转录组测序数据集该如何重新分析呢
研究者们在GEO数据库是有数据分享:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE182923
生信技能树
2024/06/08
3480
作者仅提供了fpkm格式表达量矩阵的转录组测序数据集该如何重新分析呢
没有生物学重复的转录组差异分析如何挑选基因呢: 变化倍数与P值选谁?
2、没有生物学重复的时候 还有算法可以做差异分析吗?进而得到一个统计学显著性Pvalue值。
生信技能树
2024/12/27
1820
没有生物学重复的转录组差异分析如何挑选基因呢: 变化倍数与P值选谁?
作者为什么要上传一个错误的表达量矩阵呢
凭我对他的了解,他肯定是提问的方式就是错误的,写一段自己的”感悟“,其实完全没必要,我也压根不会看他给出来的这些“长篇大论” :
生信技能树
2023/10/23
2450
作者为什么要上传一个错误的表达量矩阵呢
可以质疑来自哈佛医学院的顶刊Cell结果吗?
最早看到这篇文章在某公众号:发现Cell文章“造假”,怎么办??。他质疑了作者的单细胞数据分析结果有问题,下面来看看这篇 Cell文章中有什么古怪呢!!!
生信技能树
2025/03/03
450
可以质疑来自哈佛医学院的顶刊Cell结果吗?
Mfuzz做转录变化的时间趋势分析后对每个趋势分组挑一个代表性基因
而对基因的划分不同组别,还可以是根据表达量的相似性,代表性的方法有层次聚类、K-means聚类、WGCNA、Mfuzz等,其中Mfuzz是专门的做转录变化的时间趋势分析的方法,核心算法基于模糊c均值聚类(Fuzzy C-Means Clustering,FCM),关于它的用法我们很早以前就分享了笔记,见:使用Mfuzz包做时间序列分析。最近交流群有粉丝提问他看到了一个Mfuzz做转录变化的时间趋势分析后对每个趋势分组挑一个代表性基因,是发表在NaTure PLaNTS 杂志的文章:《Jasmonate-mediated wound signalling promotes plant regeneration》,如下所示:
生信技能树
2022/06/08
5.1K1
Mfuzz做转录变化的时间趋势分析后对每个趋势分组挑一个代表性基因
GEO2R更新后可以分析bulk RNAseq
当然了,仅仅是做到这些还不够,我们还需要足够的资金支持,因为绝大部分网页工具的十几年如一日的维护推广和更新,也是不小的花销。相信大家应该是看到过无数的网页工具云平台如雨后春笋般出现和消失,这一点来说,由美国国立生物技术信息中心(NCBI)维护的一个公共数据库,用于存储和共享高通量基因表达数据的GEO(Gene Expression Omnibus)就是其中的佼佼者啦,它有一个在线分析工具GEO2R,用于比较两个或多个基因表达数据集,并识别在不同条件下表达显著差异的基因。用于快速的基因表达分析,研究人员可以使用它来比较不同实验条件下的基因表达差异,例如,疾病与对照组、不同治疗组之间的差异等。
生信技能树
2023/09/19
6370
GEO2R更新后可以分析bulk RNAseq
一个简单转录组测序数据发两篇sci(你也可以!)
最近看到群里有小伙伴在讨论一个数据集 GSE140275 ,我发现它这个简单转录组测序数据发两篇sci,是关于 acute ischemic stroke 这个疾病 , 急性缺血性脑卒中 ,我了解不多,就不过多班门弄斧的介绍它了。。。
生信技能树
2021/07/06
2.4K0
把转录组测序的FPKM矩阵当做是芯片表达量处理真的好吗
是一个铁死亡策略的非肿瘤数据挖掘文章,标题是:《Bioinformatics Identification of Ferroptosis-Related Biomarkers and Therapeutic Compounds in Ischemic Stroke》,链接是:https://www.frontiersin.org/articles/10.3389/fneur.2021.745240/full
生信技能树
2022/03/03
7350
把转录组测序的FPKM矩阵当做是芯片表达量处理真的好吗
如果所有的RNA-seq项目都这样提供数据
前面我们发布了 明码标价之普通转录组上游分析,马上就有粉丝提出了需求,是数据集GSE165752,希望我们帮忙走转录组上游分析拿到其表达量矩阵。 但是其实人家本来就是提供了表达量矩阵,链接是:http
生信菜鸟团
2021/04/13
5050
如果所有的RNA-seq项目都这样提供数据
可以假装你的转录组测序有重复吗?
无独有偶,之前我们也分析过一个组内相关性超高的数据集,高到看起来像是造假的数据,一起来看看吧。
生信技能树
2025/01/07
930
可以假装你的转录组测序有重复吗?
批量下载geo上面的单细胞表达量矩阵
其中,GSEXXXXXX 是该数据集的 accession number,是一个唯一标识符,用于在 GEO 数据库中检索该数据集的信息。可以通过构建类似这样的 URL,将 accession number 替换为任意感兴趣的 GSE 数据集的 accession number,以访问该数据集的主页。然后,就可以从主页中获取数据集的相关信息,包括表达量矩阵文件的下载链接等。
生信技能树
2024/03/29
5520
批量下载geo上面的单细胞表达量矩阵
不要简单的相信作者提供的表达量矩阵
处理这些平台的数据时,研究者需要了解各自平台的特点和数据处理流程,选择合适的工具和方法来进行分析。此外,由于不同平台之间的技术差异,直接比较不同平台的数据时需要格外小心,可能需要进行平台间的标准化或使用兼容的分析方法。
生信技能树
2024/11/21
1330
不要简单的相信作者提供的表达量矩阵
单细胞转录组鉴定与骨关节炎相关的关键基因和通路
今天我们复现的文章是2020年发表在Medicine 杂志上的一个单细胞数据挖掘文章,标题是《Identification of the key gene and pathways associated with osteoarthritis via single-cell RNA sequencing on synovial fibroblasts》,文章链接是:https://journals.lww.com/md-journal/Fulltext/2020/08140/Identification_of_the_key_gene_and_pathways.81.aspx
生信技能树
2021/12/04
9800
单细胞转录组鉴定与骨关节炎相关的关键基因和通路
ADAR1基因敲除前后肿瘤免疫微环境单细胞水平变化
在单细胞大行其道的近两年,我也安排了学徒们做了几百个有表达量矩阵可以下载的单细胞转录组文献图表复现,挑选其中100个成功的案例,提供代码给大家,希望对大家有帮助!
生信技能树
2021/04/29
8160
ADAR1基因敲除前后肿瘤免疫微环境单细胞水平变化
合并两个不同物种的单细胞转录组数据集注意harmony的参数
这两个数据集分别是人和鼠的SMC异质性探索的,文献标题是:《Single-Cell Genomics Reveals a Novel Cell State During Smooth Muscle Cell Phenotypic Switching and Potential Therapeutic Targets for Atherosclerosis in Mouse and Human》,可以看到GSE155513和GSE155512这两个单细胞转录组表达量矩阵是可以很好的整合:
生信技能树
2024/05/30
3420
使用Seurat的v5来读取多个10x的单细胞转录组矩阵
它虽然说是多样品,但是被作者整理成为了一个10x的样品的3文件格式, 所以很容易读取。接下来我们演示真正的Seurat的v5来读取多个10x的单细胞转录组矩阵。数据集在 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE162616 可以看到作者给出来的矩阵还算是10X文件的3个标准文件,但是在每个样品下面都是3个文件,就是需要合理的修改文件名字而已:
生信技能树jimmy
2023/12/26
2.4K0
使用Seurat的v5来读取多个10x的单细胞转录组矩阵
推荐阅读
相关推荐
规范统一格式的GEO RNA-seq count及其标准化数据
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验