前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【统计学&机器学习】假设检验的集成方法讨论

【统计学&机器学习】假设检验的集成方法讨论

作者头像
统计学家
发布2024-03-06 15:20:50
1310
发布2024-03-06 15:20:50
举报

本文是西南财经大学刘耀午教授所撰写。为大家介绍他近期发表在JRSSB上的工作。

1. 集成的想法

在机器学习里,集成学习是一类被广泛成功应用的方法,其中比较著名的算法有随机森林(Random forest)和提升算法(boosting)等。

集成想法非常的自然,即把一些弱学习器组合起来构成一个强学习器,类比于俗语里的“三个臭皮匠,顶个诸葛亮”。

集成学习算法主要是用于做预测。一个很有意思的问题是可否把集成想法也用于统计假设检验里,即把一些弱检验组合成一个强检验。事实上,在假设检验文献里,已经有不少检验方法都隐含了集成的想法,比如各种omnibus 检验,都可以看成是检验的集成。

集成这个词有着非常广泛的含义。Omnibus 检验主要是把不同类型的检验做集成。而像随机森林和提升算法等集成学习中的著名方法,它们是把同一类型的学习器(比如,树模型)做集成。因此,在我们这篇文章里,主要是模仿随机森林的形式,来探索把同一类型的检验(比如,线性检验)做集成。

2. 一个检验集成框架

仿照集成学习的框架来构建集成检验的框架是很简单直接的,即把一些基检验(base test)组合起来构成一个集成检验(见图1)。

但要让该框架可以落地应用,我们有两个主要问题需要解决:一是如何构造基检验,二是如何把不同检验组合起来。

关于第一个问题,我们仿照随机森林的形式,在某一类型的检验统计量

T_{\mbox{stat}}

里引入一些随机元素

\Theta_i

来得到不同的基检验。具体的

T_{\mbox{stat}}

\Theta_i

的选择需要根据检验问题而定,我们在后面具体讨论。

关于第二问题,由于不同基检验都是应用到同一个数据上,它们的p值是有相依性的。因此,我们这里利用ACAT方法【1】来组合有相依性的p值。

图1 集成检验框架

3. 关于效应同方向问题的集成检验方法

方法需要为问题服务。在论文中,我们讨论了几个集成方法可以发挥作用的检验问题。这里我们主要介绍效应同方向问题。

具体地,记

\boldsymbol{\beta}

为(广义)线性模型中的回归系数向量,我们检验的原假设为

H_0: \boldsymbol{\beta}=0

,备择假设为

H_a: \boldsymbol{\beta}≠0

且所有的非零回归系数有相同的符号。

此类备择假设常来源于遗传中的情形,比如在一个DNA片段里,与某个疾病有关联的遗传变量(SNPs)往往是同时起保护作用,或者同时起有害作用,即效应同方向。

此类备择假设的主要困难点在于参数空间带有约束,使得从理论上推导某种意义下的最优检验比较困难。

这里我们利用集成方法来处理参数空间的约束。把(广义)线性模型进行适当简化后,可以得到多元正态模型

\boldsymbol{S}\sim N_p(\sqrt n\Sigma \boldsymbol{\beta},\Sigma)

,其中

\Sigma

是由设计矩阵(design matrix)得到的协方差阵。

一般线性检验具有如下形式:

T=\boldsymbol{w}^T \boldsymbol{S}

,其中

\boldsymbol{w}

是一个单位向量,表示线性检验中的权重。如果w与备择假设下真实的

\boldsymbol{\beta}

的方向

\boldsymbol{w}_\boldsymbol{\beta}=\boldsymbol{\beta}/\|\boldsymbol{\beta}\|

一致,那么该线性检验有着最优的功效。

效应同方向这一约束意味着

\boldsymbol{w}_\boldsymbol{\beta}

是在

\mathbb{R}^p

的第一象限的球面上,记为

S_p^+

。我们的方法是在

S_p^+

中随机抽取

B

个权重向量,从而得到

B

个线性检验。从

S_p^+

中抽取刻画了备择假设下的参数约束,采取随机抽取则反映了对于

\boldsymbol{w}_\boldsymbol{\beta}

在该参数空间的同等无知。

最后,再根据前面讲的集成检验的框架,把所有的线性检验组合起来得到最终的集成检验。在理论上,我们可以在Bahadur efficiency的意义下证明该集成检验的最优性。

4. 基检验个数B的选择

在第2节的集成框架里,我们还遗留一个关于基检验个数B选择的问题。这看似是一个小问题,但对于实际落地应用(即计算量)至关重要。

在随机森林里,我们可以通过画一个测试误差随树的数量变化的图,来直观地看需要多少棵树。

这一直观方法对于随机森林计算上的可行性发挥了重要作用(试想一下如果采用交叉验证选择树的个数的计算量)。

在我们集成检验的框架里,我们也可以画一个p值随着检验个数B变化的图,看p值在什么时候变得稳定,来直观地选择B。

5. 总结

在论文中还介绍了针对其它几个检验问题(比如稀疏信号)的集成检验方法。

与集成学习一样,集成想法在检验中也是非常符合直觉的。因此,我们期待在以后的研究中,集成方法可以在更加广泛的检验问题中发挥作用。

参考文献

  1. Liu, Y. and Xie, J.(2020). Cauchy combination test: a powerful test with analytic p-value calculation under arbitrary dependency structures. Journal of the American Statistical Association. 115(529), 393-402.
  2. Liu, Y., Liu, Z., and Lin, X. (2024) Ensemble methods for testing a global null. Journal of the Royal Statistical Society: Series B (Statistical Methodology) .Published online.
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 本文是西南财经大学刘耀午教授所撰写。为大家介绍他近期发表在JRSSB上的工作。
  • 1. 集成的想法
  • 2. 一个检验集成框架
  • 3. 关于效应同方向问题的集成检验方法
  • 4. 基检验个数B的选择
  • 5. 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档