首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

基因芯片小知识(二)数据分析

发送生信到后台,分类整理好的生信推文合辑。

提取生物样品的mRNA并反转录成cDNA,同时用荧光素或同位素标记。在液相中与基因芯片上的探针杂交,经洗膜后用图像扫描仪捕获芯片上的荧光或同位素信号,由此获得的图像就是基因芯片的原始数据(raw data),也叫探针水平数据。

获取探针水平的数据是芯片数据处理的第一步,然后需要对其进行预处理(pre-processing),以获得基因表达数据(gene expression data)。基因表达数据通常用矩阵形式表示,称为基因表达矩阵。

基因表达矩阵的每一行代表一个基因的表达量,一列代表一个样本的所有基因的表达情况。

背景(background)处理

背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。一般以图像处理软件对芯片划格后,每个杂交点周围区域各像素吸光度的平均值作为背景。

但此法存在芯片不同区域背景扣减不均匀的缺点,同时会使1%~5%的点产生无意义的负值。也可利用芯片最低信号强度的点(代表非特异性的样本与探针结合值)或综合整个芯片非杂交点背景所得的平均值做为背景。

Brown等提出利用整个芯片杂交点外的平均吸光度值作为背景的best-fit方法,使该问题得到较好的解决,并有效地提高了处理数据的质量。背景处理之后,我们可以将芯片数据以矩阵的格式输出。

数据筛选

经过背景校正后的芯片数据中可能会产生负值,显然负值是没有生物学意义的。数据集中还可能包括一些单个异常大(或小)的峰(谷)信号,它们被认为是随机噪声。另外,对于负值和噪声信号,通常的处理方法就是将其去除。

然而,数据的缺失(除了上述原因会造成数据缺失以外,扫描的过程中也可能会产生缺失)对后续的统计分析(尤其是层式聚类和主成分分析)有致命的影响,所以在进行分析前需要数据筛选。数据筛选的步骤是先筛选点样,然后是数据标准化、截断异常值,最后筛选基因。

1 点样筛选

点样筛选指在单独芯片上对点样进行筛选,主要用于质量控制目的,以去除“坏”点样。与基因筛选不同的是,点样筛选并不会去除整个(行)基因,而只是用以缺失值替换原有值。可以根据信号强度(intensity),点样标志(Spot Flag)和点样大小(Spot size)来进行筛选。

信号强度筛选:一个点样可以被直接剔除,也可以通过设定阈值在分析中剔除。阈值一般设定为正值。

点样标志筛选:筛选可以同时使用数值和字符。可以指定一个数值范围,在此范围之外的值被剔除,或指定一个基因列表来表示要剔除的点。

例如Affymetrix芯片专门对每个表达值进行了打分(A,M,P三类),以允许用户剔除标识为“A”(Absent)的表达值,以剔除含有“A”较多比例的“坏”探针。

2 数据标准化

在芯片实验中,各个芯片的绝对光密度值是不一样的,在比较各个芯片结果之前必需将其归一化(normalization,也称作标准化)。在同一块芯片上杂交的、由不同荧光分子标记的两个样品间的数据即双通道数据,也需归一化。

目前有4个常用的标准化方法:中位数标准化(median normalization)、管家基因标准化(housekeeping gene normalization)、Lowess标准化(lowess normalization)和点样组内标准化(print-tip group normalization)。

前二者适用于单/双通道数据,二后两者只能用于双通道数据。对于单通道数据,必须选择一张参照芯片以使其它芯片进行标准化。双通道数据中每张芯片需进行单独的标准化。

参照芯片一般是一张“中位数”芯片作为参照,选择的方法如下:

1) 设N为实验数,i为1到N中的一个数。

2) 对于每张芯片i,计算其对数信号强度的中位数:Mi。

3) 从中获得其中位数M。如果N是偶数,则M为中间两数中较小的那个。

4) 选中的那个Mi即为参照芯片。

中位数标准化(Median Normalization)对于双通道数据来说,这种标准化方法就是将每张芯片上的对数值减去各自芯片上对数比值的中位数,这样该芯片的对数比值中位数就变成了0。

对于单通道数据,首先在待标准化的芯片与参照芯片上的每个对应基因上计算差值,然后在待标准化的芯片上减去该差值的中位数,以使两者间的总差值为0。

管家基因标准化(HouseKeeping Gene Normalization)选择一组表达水平稳定的管家基因。

对于双通道数据而言,该方法通过把待标准化芯片上的所有对数比值减去该芯片管家基因对数比值的中位数来进行。对于单通道数据,则比较待标准化芯片和参照芯片上管家基因的差值,然后把待标准化芯片上的信号强度减去这一系列差值的中位数。

但目前很难找到理想的看家基因,研究表明,所谓“管家基因”在不同实验条件下其表达水平同样发生着变化。

Lowess标准化(Lowess Normalization)双通道数据还可用Lowess标准化方法(Locally Weighted Scatter plot Smooth:局部加权线性回归)。

对于双通道数据,中位数标准化相当于在所有对数比值上减去一个相同的标准化因子即该芯片上对数比值的中位数,但在某些情况下并不适用,例如由于染色偏差会对低信号强度和高信号强度产生偏差。

在Lowess标准化中,会基于一个非线性的平滑函数观察标准化后芯片的M-A散点图来决定是否有必要进行强度依赖性的标准化。如果散点的分布在Y轴的正负区间大概一致,并且随着X值的变化没有呈现出典型的相关性,则无需进行。

该函数是根据重叠分割在不同X轴区域上的散点而构造的线性回归函数连接而成。待标准化的芯片减去该平滑函数值来进行标准化。

点样组内标准化(Print-tip Group / Sub Grid Normalization)全局化的标准化方法由于受空间效应和非均匀点样给信号强度带来的影响会造成系统偏差。点样组内标准化方法就是考虑上所述的系统偏差对其进行调整。

点样组(Print-tip Group)亦可称为网格(Grid)或亚网格(Sub-grid)。点样组标识数据一般放置在每张芯片的表达谱数据后面。中位数点样组内标准化独立地计算每个点样组内的对数比值的中位数,该中位数当然只适用于点样组内的数据。

举例来说,如果一张芯片由16个点样组构成,则会计算16个标准化因子。同理,Lowess点样组内标准化是把之前所述的Lowess标准化方法应用于点样组内。

3 截断(Truncation)异常值

设置信号强度(单通道数据)或强度比值(双通道数据)的最大允许值。任何大于此阈值的数值会被截断成阈值。对于双通道数据则会出现两种情况(如设定截断值为64,则任何大于64或小于1/64的数值都会被截断)。

截断主要用于双通道情况,因为微小的分母容易使对数比值变得异常巨大。

4 基因筛选

不同于点样筛选,基因筛选并不是对每张芯片重复进行,而是在所有芯片上对某个基因制定一个标准,以决定是否保留需要保留这个基因。基因筛选的目的并不在于去除质量较差的点样,而在于筛除那些信息量较少的基因。主要由最小倍数变化筛选(Minimum fold-change filter),对数表达量方差筛选(Log Expression Variation Filter)和空缺百分比筛选(Percent Missing Filter)三种。

最小倍数变化筛选是将差异性较小的基因可去除。此处筛选的标准基于以下条件:满足表达量在所有芯片上表达量中位数相差指定倍数的基因的个数,占总基因个数的比例。小于上述比例的基因则被筛去。这种筛选并非必要,往往是为了应对内存不足的分析条件下,例如内存要求随基因数迅速增长的聚类分析。

对数表达量方差筛选是剔除方差最小的比例基因,即所有基因的方差会被与方差中位数进行比较,差异并不显著的基因会被筛去。同样这种筛选也非必要,往往为了应对内存不足的情况。

空缺百分比筛选是对单个值的点样筛选后缺失值的最大比例设定阈值,以去除那些包含了太多缺失项而被认为不可靠的基因。一般超过50%就删除整行的基因表达值。

这里看R界传奇老司机直播录像

长按以上二维码留言“生信”进生信微信交流群

这里查看sci文章润色服务

这里领我们整理的软件库

这里进免费免安装的文献下载神器

生信大数据版主介绍:赵忻艺,将大数据应用于医学科研,主要包括临床医学数据的挖掘、收集、整理和利用(标准化和科学化的数据库),医学分子大数据的整理、利用及研究(基因、蛋白及代谢)。特别针对肿瘤个体化的基因测序和数据快速处理,寻找个体化的分子标志物、药物靶标和治疗方案。目前,已建立浙大freescience大数据挖掘团队,旨在降低研究者学习大数据的门槛,推动大数据共享与研究协作,发表更高质量的研究成果,为科研决策提供精准的预测和实验证据。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180728B0GRLD00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券