用户11211038
GEO数据库学习
原创
关注作者
前往小程序,Get
更优
阅读体验!
立即前往
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
用户11211038
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
社区首页
>
专栏
>
GEO数据库学习
GEO数据库学习
原创
用户11211038
关注
发布于 2024-07-23 15:55:50
121
0
发布于 2024-07-23 15:55:50
举报
文章被收录于专栏:
R语言学习
数据库介绍
platform-----sample------series
sample:用户提交给GEO的样本数据 GSM开头
series:一个完整的研究,提供了整个研究的描述,包括对数据的描述,总结分析 (GSE开头)
platform:用户测定表达量使用的芯片/平台(GPL)开头;不同开头的表达芯片,资料不同
问题:
想从文章找到作者用的数据集编号,开头为GSE
芯片产品:GPL
样本的编号 GSM
基因表达芯片的原理:探针的表达量代表基因的表达量
分析思路
找数据,找到GSE编号
下载数据:(表达矩阵)和临床信息(分组信息)
数据探索:分组自建是否有差异:PCA图和热图
差异分析以及可视化:1.P值,logFC 2.火山图和热图
富集分析:KEGG和GO
表达矩阵:
探针:转换为gene symbol
样本编号:需要分组信息
富集分析
输入数据:差异基因的entrezid
symbol:常说的基因名
entrezid:富集分析指定用的
两者并非一一对应的,一对二,三等
富集分析
KEGG:pathway hsa03030
GO数据库:细胞组分 分子功能 生物功能
Y叔和clusterProfiler:写出了富集分析的R包
富集分析的结果:
十列的表格:ID;通路编号 pvalue:衡量是否显著,GENEID:哪些属于这条通路,后米娜及逆行计数
成果更新的时候BgRatio会发生改变:该通路有多少个基因/数据库中所有通路有多少个基因
Generatio:差异基因多少个属于该通路/差异基因中有多少个被数据库收录(差异基因通过差异分析获得)
富集分析的理解:
kegg数据库里的基因,相同颜色代表同一种通路;该通路一共有8个,基因库一共有86个基因,8/86是BgRatio
差异基因一共
衡量每个通路里面的基因在差异基因里是否足够多;多就是富集
举例:BgRatio 35/13000,Generatio 25/1000:总中奖率是第一个值;你做出来的值是第二个值;第二个值明显高,为富集
把差异基因和通路联系起来
富集分析的可视化:第一张横坐标为GeneRatio;第二张横坐标为count;还可以分面;还可以一张图展现上调基因和下调基因;
不想解释的东西,尽量不要展示:调整p值/拆开图
展示通路之间的共同基因:基因不一定属于同一个通路:可能有 比较重要的功能
展示GOterm之间的关系
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
r 语言
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
r 语言
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
LV.
文章
0
获赞
0
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐