专栏首页生信修炼手册手把手教你处理illumina beadchip芯片数据

手把手教你处理illumina beadchip芯片数据

在NAD+代谢相关的文献中,使用了两批illumina beadchip的芯片数据进行分析,本文以其中一篇数据为例,详细展示该平台的数据处理流程。

GSE112676包含741个样本的全血基因表达谱数据,链接如下

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE112676

该数据的处理流程在以下文献中有详细描述

https://translational-medicine.biomedcentral.com/articles/10.1186/s12967-019-1909-0

可以分为以下几步

1. 下载GenomeStudio导出的数据

GenomeStudio是处理illumina原始芯片的软件,在数据库中提供了该批数据的导出结果

该文件的内容如下

每一行为一个探针,每个样本用两列表示,第一列是AVG_Signal, 表示探针的荧光信号强度,第二列为Detection_Pval, 表示检测信号的p值。

2. 进行pvalue 的校正

计算荧光信号强度与检测p值的相关性,代码如下

> x <- read.table("GSE112676_HT12_V3_preQC_nonnormalized.txt", header = T, sep = "\t", row.names = 1)
> sample_cnt   <- ncol(x) / 2
> # 计算pvalue 和 intensity 之间的相关性
> spearman_cor <- unlist(lapply(1:sample_cnt, function(t){
+     res <- cor.test(x[[t * 2 - 1]], x[[t * 2]], method="spearman")
+     res$estimate
+ }))
There were 50 or more warnings (use warnings() to see the first 50)
>
> # 统计相关系数的分布
> length(spearman_cor[spearman_cor > 0.9])
[1] 221
> length(spearman_cor[spearman_cor < -0.9])
[1] 520

可以看到,正如文章中所说,520个样本的相关性小于-0.9, 221个样本的相关性大于0.9, 整体样本分为明显的两类,一类正相关,一列负相关。为了使整体保持一致,将占比较少的正相关样本的p值,改为1-P, 代码如下

> # 校正p值
> for(t in which(spearman_cor > 0.9)) {
+     x[[t * 2]] <- 1 - x[[t * 2]]
+ }
> # 校正后重新查看相关系数的分布
> spearman_cor <- unlist(lapply(1:sample_cnt, function(t){
+     res <- cor.test(x[[t * 2 - 1]], x[[t * 2]], method="spearman")
+     res$estimate
+ }))
There were 50 or more warnings (use warnings() to see the first 50)
>
>
> length(spearman_cor[spearman_cor > 0.9])
[1] 0
> length(spearman_cor[spearman_cor < -0.9])
[1] 741

可以看到,校正之后,所有的样本都为负相关。

3. 背景校正和归一化

文献中描述的方法如下

使用limma包进行处理,背景校正选择normexp方法,归一化选择quantile方法,代码如下

> # 读取 illumina beadchip, 读取校正后的数据
> RG <- read.ilmn("GSE112676_HT12_V3_preQC_nonnormalized.adjust.pvalue.txt", ctrlfiles = NULL)
Reading file GSE112676_HT12_V3_preQC_nonnormalized.adjust.pvalue.txt ... ...
> # 背景校正 normal–exponential convolution model
> RG <- backgroundCorrect(RG, method="normexp")
Array 1 corrected
Array 2 corrected
Array 3 corrected
....
Array 739 corrected
Array 740 corrected
Array 741 corrected
> # quantile 归一化
> RG <- normalizeBetweenArrays(RG, method="quantile")
> dim(RG)
[1] 48803   741

预处理之后,得到了741个样本共48803个探针水平的表达量。

4. 提取基因水平的表达量

由于一个基因对应多个探针,在该文献中,只使用表达量最高的探针作为该基因的表达量。以上就是一个完整的illumina芯片的数据处理流程。

文章分享自微信公众号:
生信修炼手册

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

原始发表时间:2022-04-15
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • 第一个万能芯片探针ID注释平台R包

    首先,我们说官网,肯定可以找到,不然这种芯片出来就没有意义了!然后,我们看看NCBI下载的,会比较大

    生信技能树
  • 手把手教你Excel数据处理!

    今天还是数据分析的学习,如果你觉得文章太长太没意思,欢迎拉到底部直接看大纲总结,一秒学会(学不会我也不负责,让你不看全文)。

    数据森麟
  • minfi 分析甲基化芯片数据-数据导入篇

    如果要用这个包进行分析,首先需要在R中将我们的芯片数据读取进来,就是常说的import data。对于minfi 来说,其设计思路是通过读取SampleShee...

    生信修炼手册
  • 独家 | 手把手教你处理数据中的缺失值

    本文为大家介绍了数据缺失的原因以及缺失值的类型,最后列举了每一种缺失值类型的处理方法以及优缺点。

    数据派THU
  • 学徒任务-探索DNA甲基化的组织特异性

    该课题的实验设计是,从4个尸体解剖的人身上提取17种不同的组织部位去做450K甲基化芯片数据,在 https://www.ncbi.nlm.nih.gov/ge...

    生信技能树
  • GEO表达芯片平台 — GPL14951,注释文件探索过程

    最近jimmy老师在学徒群了扔了一个数据挖掘文献图表复现任务,作为老师的新晋小透明学徒,希望可以表现一下,在分析数据集GSE62133时,并没有其平台GPL14...

    生信技能树
  • 用了旧的CNV芯片还用旧的参考基因组,把数据发出来也不容易啊

    Published online 2017 Mar 16. doi: 10.1186/s13058-017-0825-6

    生信技能树
  • 教你分析后缀为gpr的芯片数据

    分析芯片数据,我们首先需要确定芯片平台。不同的芯片平台技术不同,既有单通道,也有双通道,而且输出文件的格式也不同。

    生信修炼手册
  • GWAS筛查多民族癌症易感基因

    发表于: 6.1影响因子 PLoS Genet. 2013 Mar , 使用的是 能覆盖 191,032 common and rare nonsynonym...

    生信技能树
  • 手把手教你从数据预处理开始体验图数据库

    本文首发于 Nebula 公众号:手把手教你从数据预处理开始体验图数据库,由社区用户 Jiayi98 供稿,分享了她离线部署 Nebula Graph、预处理 ...

    NebulaGraph
  • 我是如何发现850K甲基化芯片和EPIC的区别

    也帮忙去各种检索,但确实没有好的解决方案,就让她发过来2个G的原始数据和代码,认真检查了好久,看起来就是我的教程的代码,一模一样啊!

    生信技能树
  • 手把手教你-----巧用Excel批量生成SQL语句,处理大量数据

    在做系统或者做项目的时候,经常会遇到这样的要求:用户给我们发过来一些数据,要求我们把这些数据导入到数

    令仔很忙
  • 手把手教你处理单细胞公共数据集从fastq开始

    分享了一个Bioinformatics analysis of single-cell RNA sequencing,其封装了数据分析流程成为了一个 repro...

    生信技能树jimmy
  • spark | 手把手教你用spark进行数据预处理

    在机器学习和数据分析当中,对于数据的了解和熟悉都是最基础的。所谓巧妇难为无米之炊,如果说把用数据构建一个模型或者是支撑一个复杂的上层业务比喻成做饭的话。那么数据...

    TechFlow-承志
  • WGBS和RRBS,还有450K或者850K芯片甲基化数据分析服务

    有文章比较这3个技术:Empirical comparison of reduced representation bisulfite sequencing a...

    生信技能树
  • 明码标价之甲基化差异分析

    转眼间2021都过去了快三分之一,我们的明码标价专栏建设的进度条却纹丝不动,感觉略微有点尴尬,得加油啦!根据大家在我们《生信技能树》,《生信菜鸟团》以及《单细胞...

    生信技能树
  • 甲基化的一些基础知识

    同样的策略,我们也可以应用到其它领域的知识背景快速学习,比如我们的lncRNA系列,miRNA系列,现在我们一起学习一下DNA甲基化吧。

    生信技能树
  • 手把手教你用Pandas透视表处理数据(附学习资料)

    来源:伯乐在线 - PyPer 本文共2203字,建议阅读5分钟。 本文重点解释pandas中的函数pivot_table,并教大家如何使用它来进行数据分析...

    数据派THU

扫码关注腾讯云开发者

领取腾讯云代金券