Bioconductor与基因芯片

今天是生信星球陪你的第124天

你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。

你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。

终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆

豆豆写于18.9.10

实战上从数据下载到差异基因的获得、初步作图

实战下进行富集分析,使用数据库进行注释

在此感谢jimmy的limma包等教程

1 下载芯片数据

使用Fabbrini E于2015年发表在J Clin Invest上的文章:Metabolically normal obese people are protected from adverse effects following weight gain

文章研究了体重适度增加对代谢正常(MNO)和代谢异常(MAO)受试者脂肪组织基因表达的影响,选取11个代谢正常的人、7个代谢异常的人增重前后的皮下脂肪组织,得到36个数据

使用的数据集是GSE62832

实验平台是GPL6244, Affymetrix Human Gene 1.0 ST Array

方法一:打开网页https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE62832 【可能会有网速限制】

GEO数据GSE62832

方法二:使用GEOquery包

下载完,看一下eSet这个对象都包含什么

2. 将表达矩阵的探针ID转换为gene ID

首先需要知道GSE62832对应平台是GPL6244

然后需要知道GPL6244对应哪个注释包【阅读jimmy之前整理的平台信息https://www.jianshu.com/p/f6906ba703a0】

下载相应的注释包

开始探索、过滤、整合

简单的探索

过滤+整合

3. 对表达矩阵进行一些检验

表达矩阵不局限于GEO数据库的芯片分析,转录组及其他涉及基因、样本、分组关系的都会有一个表达量矩阵,就是一个基因在不同样本中(对照、处理;是否患病等)的表达差异。

拿到表达矩阵,在进行后续分析之前,首先要检测这个矩阵是不是合理的,比如看管家基因是否表达量突出、一致;样本分组是不是和实验设计一致,用PCA、hclust检验

3.1 检测一些管家基因表达量

3.2 看表达矩阵的整体分布

先把表达矩阵=》tidy data【四列:基因名、样本、表达量、表型分组(看文献按MAO、MNO分组)】

以图为证

检查数据

4. 对表达矩阵进行差异分析

只需要提供表达矩阵efilt、分组信息group_list,就能使用limma进行分析

详细内容参考jimmy的http://www.bio-info-trainee.com/bioconductor_China/software/limma.html

4.1 准备就绪,就可以开始差异分析

4.2 对一个小表达矩阵,如30、50个基因,可以用热图

前30基因的热图

4.3 对一个大的表达矩阵,如全部的差异基因,可以用火山图

火山图实际上就是根据两列进行作图:logFC、pvalue

火山图

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180911G20N1T00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券