机器学习之特征筛选（2）

机器学习之禅

发布于 2022-07-11 14:54:43

2370

发布于 2022-07-11 14:54:43

继上篇的介绍了特征筛选中的TF-IDF与信息增益后，本篇继续介绍卡方检验和互信息。

卡方检验

开方检验其实是数理统计中一种常用的检验两个变量独立性的方法，在特征选择方面，其主要计算特征项ti与类别Cj之间的关联程度，如果特征项对于某类的卡方值越高，则其与该类之间的相关性越大，从侧面可以反映出特征项对该类携带的信息越多，反之则越少。

如果令n表示训练预料中文档的总数，a表示属于Cj类且包含ti的文档个数，b表示不属于Cj类但包含ti的文档个数，c表示属于Cj类但不包含ti的文档个数，d表示既不属于Cj类又不包含ti的文档个数，那么特征项ti对Cj类的卡方值即为：

卡方值=

对于多分类的情况，我们需要统计出ti对各个Cj类的卡方值，将卡方值低于预定阈值的特征项予以剔除，反之予以保留。

互信息

互信息是信息论里一种有用的信息度量，它是指两个事件集合之间的相关性。互信息值越大，特征项ti与Cj类的共现程度越大，继卡方检验中对各个变量的约定，ti与Cj类的互信息为：

同样对于多分类的情况，我们需要统计出ti与各个Cj类的互信息值，将互信息值低于预定阈值的特征项予以剔除，反之予以保留。

以上介绍的四种只是众多特征选择过程中用到的几个策略，其他的如皮尔逊系数、期望交叉熵等，但在进行特征选择之后，都会遇到特征空间的髙维数问题，即常说的”维数灾难“，因此需要在降维方面做更多的研究与实验，后期也会对降维进行分享，如线性判别分析与主成分分析等。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-03-19，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自机器学习之禅微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度