前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >差异基因检测方法

差异基因检测方法

作者头像
Y大宽
发布2018-11-09 15:53:45
1.7K0
发布2018-11-09 15:53:45
举报
文章被收录于专栏:Y大宽Y大宽

差异基因的检测方法很多,但生物学家偏好使用的是fold change(FC)和t-test。猜测因为一是它们比较简单,二来好解释。很多研究表明,改进的t-test可以提高top gene list的质量。现在简单的说一下原理

1 Fold change 或log ratio

指两个组group之间每个gene平均值在log2水平的差异。 FC=3=log2A-log2B=log(A/B) 所以,A/B=2^3=8 这样有一个缺点就是高的FC并非真正的差异,而是来自变异,并无生物学意义。 值得注意的是,基于FC的gene list比基于t-test的可重复性强,但这不代表着更准确。 所以,如果关注基因表达的绝对变化,则看FC 如果关注潜在的噪音,则用t-test。 也就是说,FC只考虑到组间差异,二未考虑组内变异。

2 T-test

差异性=signal/noise,期中signal即为组间变异,二noise为组内变异 groupA和groupB的差异XA均值-XB均值,这个同FC的M均值。受3个因素影响 (1)Fold change(M均值):M均值越大,t值越大,也就是说signal大 (2)Variance(s):s越小,t越小,就是组内差异大,即noise大 (3)sample size(n):n越大,t越大,即M均值和s同样的情况下,n越大,结果越精确。

上面可以看出,即使FC不大,但s值足够小,也会有大的t值,所以引入惩罚t-test。初衷是避免将表达水平和变异程度较低的无生物学意义的gene识别为差异gene。

其中,s0是个小的正数。引入s0消除s过小 可见,若S小,则S0作用大,反之,S大,S0作用小。 芯片分析中的SAM(significant analysis of microarrays)即这种方法。 步骤 (1)samples在AB之间随机打乱重拍1000次,d-value依次计算,这些d-value的均值作为整个gene的d-value,观察到的d-value偏离期望d-value越大,越可能是真正的差异gene。 (2)随着作者的cut off(德尔塔value)被选择,需要权衡差异基因数目和假阳性结果的数目(FDR).

继而,有基于贝叶斯理论的moerated t-test。也是最常用的。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.10.23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Fold change 或log ratio
  • 2 T-test
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档