450K甲基化芯片数据处理传送门

写在前面

Illumina甲基化芯片目前仍是很多实验室做甲基化项目的首选,尤其是对于大样本研究而言,其性价比相当高。这种芯片的发展主要经历了27K、450K以及850K,目前积累的数据主要是450K芯片的,未来850K可能会成为主流。之前我写过一篇450K芯片预处理的帖子,其中也介绍了这种芯片的基础知识以及流程图和代码,大家可以先看看。芯片的处理流程一般就是:数据读入——数据过滤——数据校正——下游分析。

step1:计算机资源的准备

与测序相比,芯片的处理可能对计算资源的要求是不算高,主要使用的工具就是R,R的使用比较耗内存,尤其是处理大批量数据的时候。

R本身是支持各种系统的,所以不管是mac、windows还是linux理论上都是可以的,只要下载对应版本即可。当然,如果你会linux最好在linux操作。其实数据分析很多都是相通的,所以之前群主推荐的配置和工具都是可以拿来用的。

需要安装的R packages包括 ChAMP,minfi和wateRmelon等.

作业1

  1. 安装好R软件及相应的包,下载R包的说明书,整理它们的官网链接。
  2. 了解illumina 450K甲基化芯片的探针设计,下载manifest文件。

step2:读文章拿到测序数据

本次讲解用到的数据来自文章The relationship between DNA methylation, genetic and expression inter-individual variation in untransformed human fibroblast

从文章里面找到数据存放地址如下:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52025

作业2

看文章里的methods部分,把它的分析步骤摘抄下来,然后理解GEO数据库的数据存放形式,把规律和笔记发在论坛上面,类似于RNA-seq数据处理入门和CHIP-seq数据处理入门

step3:了解芯片数据

需要阅读相关的资料,比如illumina的官网介绍及相关的文献,对甲基化及该芯片的技术核心有一定了解,对于存在的问题也要知道,这对于后面分析时理解校正的意义非常重要!

作业3

理解芯片的probe,Bead,p值,I型探针和II型探针等。

step4:了解probe注释

在GEO或者illumina下载450K注释文件,理解每一列的意义及探针的分类。或者下载官网的manifest文件并且理解。

作业4

下载注释文件,理解甲基化探针的分类及注释。

step5:数据读入

处理甲基化芯片的R包其实很多,我之前用的是minfi,现在用ChAMP应该更加方便,它整合了很多分析处理数据的方法,例如过滤和校正等,所以大家可以以ChAMP为主。

作业5

查看甲基化芯片文件的命名规则,整理文件读入所需的表格,使用ChAMP包读入文件。

step6:数据过滤及数据校正

数据过滤主要是根据p值和bead数,probe还需要注意过滤snp和multiple-hit,样本过滤可以考虑PCA或MDS,很多时候R包会直接帮我们做了,但是需要对过滤的标准做到心中有数。

数据校正主要是I型探针和II型探针校正,批次校正和混杂因素校正等。

作业6

根据p值和bead数过滤探针和样本,过滤SNP和multiple-hit的探针,使用BMIQ校正探针类型,使用combat校正批次效应,使用lm校正混杂因素。

step7:下游分析

下游分析一般根据需求来定,比如差异甲基化分析、甲基化与表达的整合分析等。

作业7

学习T-test和线性回归的差异甲基化分析。

step8:探针注释、绘图等

甲基化探针可以根据官方给的注释文件进行基因和CGI的注释。

也可以使用webgestalt对感兴趣的探针做GO和Pathway的分析。

可以使用ggplot等对探针的分布进行绘图。

作业8

理解甲基化探针的CGI及基因位置注释并且简单可视化。

后记

希望和大家一起学习,共同进步。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-09-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏QQ会员技术团队的专栏

小明带你看WWDC 2017(day2实况)

作者介绍: 黄明,WWDC 2017大会的小时光茶社特派员 ,腾讯SNG增值产品部内容中心iOS组leader,主要负责手Q个性化业务、手Q WebView等项...

18910
来自专栏量子位

Google开源机器学习示例库:浏览器上可运行,免费GPU后端支持

942
来自专栏SDNLAB

SDN实战团分享(十三):SDN测量的研究尝试

各位前辈,大神好!我是张鹏飞,现在上海交大博士生在读,来自OMNILab。我的主要研究兴趣是SDN 网络测量和分析,今天厚着脸皮分享下我们在SDN测量方面的一些...

2649
来自专栏SDNLAB

超大规模数据中心网络

一、计算模式的演进 图 1 计算模式的演进 计算纪年: 1、大型机时代:20世纪60~70年代,计算机体积大、价格高,支持成百上千用户同时操作。 2、个人电...

3456
来自专栏机器人网

机器人基础:舵机及转向控制原理

舵机也叫伺服电机,最早用于船舶上实现其转向功能,由于可以通过程序连续控制其转角,因而被广泛应用机器人的各类关节运动,以及用在智能小车上以实现转向,如图1 、图2...

3005
来自专栏生信技能树

qualimap+multiqc完美解决多组学比对结果的质控

这个完全是项目实战经验分享咯,有大样本量NGS多组学数据处理经验的朋友应该能很容易理解,动辄几个T的数据,上百个样本很难一个个的检查是否出现问题,需要一个简单方...

1464
来自专栏IT派

Pix2code一个直接生成代码的神经网络工具

相信前端同学在被频繁变化的UI设计折磨的时候,当你揪着头发不停微调想让界面看起来与设计图一致的时候,你们一定有过直接从图片生成代码的美好设想。现在,这样的黑科技...

4036
来自专栏python开发者

[验证码识别技术]-初级的滑动式验证图片识别

初级的滑动式验证图片识别方案 1 abstract 验证码作为一种自然人的机器人的判别工具,被广泛的用于各种防止程序做自动化的场景中。传统的字符型验证安全性已经...

1835
来自专栏机器之心

学界 | OpenAI开源机器人仿真软件Roboschool:已整合OpenAI Gym

选自OpenAI 作者:JOHN SCHULMAN、JACK CLARK、OLEG KLIMOV 机器之心编译 参与:黄小天、蒋思源 近日,OpenAI 在其...

2647
来自专栏机器之心

业界 | DeepWarp:一款可以玩转所有人眼球的机器学习Demo

选自the verge 作者:Lizzie Plaugic 机器之心编译 参与:黄小天 最近发生了一件互联网趣事:一款可以操控面部表情的神经网络 Demo——D...

34411

扫码关注云+社区