专栏首页生信技能树《GEO数据挖掘课程》配套练习题

《GEO数据挖掘课程》配套练习题

学徒和学员已经陆续出师,是时候把生信技能树的舞台交给后辈了!

下面是《GEO数据挖掘课程》的配套练习题

我把3年前的收费视频课程:3年前的GEO数据挖掘课程你可以听3小时或者3天甚至3个月,免费到B站:

  • 这个课程超级棒,B站免费学习咯:https://m.bilibili.com/video/BV1dy4y1C7jz
  • 配套代码在GitHub哈:https://github.com/jmzeng1314/GSE76275-TNBC
  • TCGA数据库挖掘,代码在:https://github.com/jmzeng1314/TCGA_BRCA
  • GTEx数据库挖掘,代码在:https://github.com/jmzeng1314/gtex_BRCA
  • METABRIC数据库挖掘,代码在:https://github.com/jmzeng1314/METABRIC

然后马上就有了3千多学习量,而且有学员给出来了图文并茂版本万字笔记,让我非常感动!

扫描下面二维码马上就可以学习起来啦,笔记需要至少半个小时来阅读哦!

本次配套练习题,需要复现的文章是 lncRNAs PVT1 and HAR1A are prognosis biomarkers and indicate therapy outcome for diffuse glioma patients,请自行仔细研读,拿到数据处理流程。

问题1:表达芯片里面的lncRNA

如何从Affymetrix HG-U133 Plus 2.0 arrays挑出1950 probe sets (corresponding to 1303 lncRNA genes),不包括 pseudogenes 。(数量差不多就好了,不要纠结于精准的1950个探针。)

library(hgu133plus2.db)
ids=toTable(hgu133plus2SYMBOL)
length(unique(ids$symbol))
tail(sort(table(ids$symbol)))
table(sort(table(ids$symbol)))
plot(table(sort(table(ids$symbol))))
# 可以看到很多基因都是有着多个对应的探针

参考:http://www.biotrainee.com/thread-626-1-1.html 找到每个基因的分类属性。去gencode数据库下载gtf文件后,使用R包读入进行分类。或者其它bioconductor解决方案。

LncRNA的分类:

分类依据是lncRNA在基因组上面的位置和与附件一些编码基因的位置关系来分类的)

  • Intergenic lncRNA(这种lncRNA完全位于基因的间距的和旁侧的编码基因是没有重叠的)
  • bidirectional lncRNA(这种lncRNA和编码基因mRNA的位置小于1kp,转录的方向是相反的)
  • Intronic lncRNA(这种lncRNA位于编码基因内含子的区域,不与该内含子的外显子存在重叠)
  • Antisense lncRNA(这种lncRNA与蛋白质编码基因的外显子有重叠区,但是转录方向相反)
  • sense overlapping lncRNA(这种lncRNA与蛋白质编码基因的外显子有重叠区,而且转录方向相同)
lncRNA的数据库:

NCBI 、UCSC 、Ensembl 、Gencode 、Lncpedia 、lncrnadb 、NONCODE 、the lncRNAand disease datebase

还没有公认的权威的数据库,需要用到不同的数据库,各种数据库各有优劣。

问题2:GEO数据集下载

下载GEO dataset (GSE4290) 数据集,使用GEOquery包或者其它。然后筛选 77个 glioblastoma samples and 23 non-tumor controls

问题3:差异分析并且绘制热图

在下载的GSE4290表达矩阵里面提取1303 lncRNA基因的热图。(数量级是1000即可,不要求精确数量)

问题4:绘制火山图

仅仅是对1303个 lncRNA基因的表达矩阵进行差异分析,并且根据 (|logFC| >1; P <0.05), 阈值来画火山图

问题5:R包和GPL的soft信息差异

比较hgu133plus2.db里面的基因的注释信息和https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570的数据的区别。

主要是更新时间问题,看:hgu133plus2_dbInfo()

1558290_a_at	Homo sapiens	BG200951	PVT1

问题6: 指定基因(这里是PVT1)画boxplot,多个分组

下面仅仅是示例代码而已:

n_expr=raw_exprSet[,tmp1==" non-tumor"]
t_expr=raw_exprSet[,tmp1==" glioblastoma, grade 4"]
a=raw_exprSet[, grep('astrocytoma',tmp1)]
od=raw_exprSet[, grep('oligodendroglioma',tmp1)]

raw_exprSet=cbind(n_expr,t_expr,a,od)
group_list=c(rep('NC',ncol(n_expr)),
             rep('GBM',ncol(t_expr)),
             rep('a',ncol(a)),
             rep('od',ncol(od)))
raw_exprSet=log(raw_exprSet)
library(ggstatsplot)
dat=as.data.frame(t(raw_exprSet))
dat$group=group_list
# 1558290_a_at	Homo sapiens	BG200951	PVT1
ggbetweenstats(data = dat, x = group,  y = '1558290_a_at')

问题7:摸索TCGA的GBM的临床信息,找到classical, neural, proneural and mesenchymal分类方式。

建议使用ucsc的xena浏览器探索,下载数据。如果你网速太差,也可以看我这边备份的TCGA数据,就是来源于xena,ucsc的,都在,https://share.weiyun.com/5zLnKmO

需求最大的是tcga数据库的生存分析和表达量差异,看看这两个视频:

  • https://www.bilibili.com/video/av25643438?p=9
  • https://www.bilibili.com/video/av49363776?p=6

问题8:摸索TCGA的GBM的mRNA-seq表达矩阵(完成PVT1的boxplot)

下载mRNA-seq表达矩阵,counts矩阵,然后提取PVT1基因的表达量信息,根据临床信息,分类汇总后绘图。!

本文分享自微信公众号 - 生信技能树(biotrainee),作者:生信技能树

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-09-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 关键问题答疑:WGCNA的输入矩阵到底是什么格式

    这样的问题我其实被问过好多次了,因为这次是学员提问,虽然已经过了一个月的答疑期,但是情谊还在,所以就系统性的回复一下。

    生信技能树
  • 惊!3个同样的数据挖掘策略居然同时发表

    这个问题怎么说呢,生命科学领域的数据挖掘课题的发表主要是靠工作量,很少有新颖或者前沿,无非就是替换癌症替换分子替换生物学功能基因集,我整理过大家耳熟能详的策略,...

    生信技能树
  • Conquer-对单细胞数据差异表达分析的重新审视

    随着单细胞测序技术的流行,我们对复杂疾病和性状的理解从patient,tissue的表达谱(bulk RNA-seq)到单个细胞的表达谱(single cell...

    生信技能树
  • 同事想盗取我邮箱几个G的种子,我用Python守护我的邮箱!

    偶然一次机会被室友看到我邮箱的密码,我就感觉兜不住了,他一直想要看,像我这种花了长时间沉淀下来的东西,怎么可能拱手相让呢?于是他就想盗取我的邮箱,那我只能用Py...

    诸葛青云
  • COS Android SDK DEMO搭建实践

    **在实际的开发环境过程中,我们经常会遇到一些开发环境搭建的困扰,本篇介绍一下Android开发环境以及结合腾讯云COS产品的Android SDK的使用,仅限...

    孙伟
  • Kubernetes stateful set讲解以及一个基于postgreSQL的具体例子

    版权声明:本文为博主汪子熙原创文章,未经博主允许不得转载。 https://jerry.blog.c...

    Jerry Wang
  • R语言之可视化(33)绘制差异基因分析统计图

    基于此,就可以得到一张专门展示多个数据集差异分析结果统计的图,红色为每个数据集上调的基因数目。绿色为下调的基因数目。

    用户1359560
  • Python搭建脚本环境,配置path环境变量设置超详细步骤

    大多数刚开始学习编程的小伙伴都需要一个从学习程序到运行调试的过程,而其中所编写的程序大部分都是在固定的开发环境下所运行的,

    灰小猿
  • LinkedIn 即时通信系统的优化

    前言 LinkedIn 的即时通信系统目前单台机器可以处理数十万的持久连接,这是不断调优的结果。 最近,他们在官网博客中发布了优化过程,介绍了即时通信系统的技术...

    dys
  • 自动美化你的Matplotlib ,使用Seaborn控制图表的默认值

    如果您曾经在 Python 中进行过数据可视化,那么很可能您使用了 Matplotlib 库。这个库包含了许多绘图的功能。但是一些概念上简单的可视化需要大量的代...

    deephub

扫码关注云+社区

领取腾讯云代金券