前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习之特征筛选(2)

机器学习之特征筛选(2)

作者头像
机器学习之禅
发布2022-07-11 14:54:43
2370
发布2022-07-11 14:54:43
举报
文章被收录于专栏:机器学习之禅机器学习之禅

继上篇的介绍了特征筛选中的TF-IDF与信息增益后,本篇继续介绍卡方检验和互信息。

卡方检验

开方检验其实是数理统计中一种常用的检验两个变量独立性的方法,在特征选择方面,其主要计算特征项ti与类别Cj之间的关联程度,如果特征项对于某类的卡方值越高,则其与该类之间的相关性越大,从侧面可以反映出特征项对该类携带的信息越多,反之则越少。

如果令n表示训练预料中文档的总数,a表示属于Cj类且包含ti的文档个数,b表示不属于Cj类但包含ti的文档个数,c表示属于Cj类但不包含ti的文档个数,d表示既不属于Cj类又不包含ti的文档个数,那么特征项ti对Cj类的卡方值即为:

卡方值=

对于多分类的情况,我们需要统计出ti对各个Cj类的卡方值,将卡方值低于预定阈值的特征项予以剔除,反之予以保留。

互信息

互信息是信息论里一种有用的信息度量,它是指两个事件集合之间的相关性。互信息值越大,特征项ti与Cj类的共现程度越大,继卡方检验中对各个变量的约定,ti与Cj类的互信息为:

同样对于多分类的情况,我们需要统计出ti与各个Cj类的互信息值,将互信息值低于预定阈值的特征项予以剔除,反之予以保留。

以上介绍的四种只是众多特征选择过程中用到的几个策略,其他的如皮尔逊系数、期望交叉熵等,但在进行特征选择之后,都会遇到特征空间的髙维数问题,即常说的”维数灾难“,因此需要在降维方面做更多的研究与实验,后期也会对降维进行分享,如线性判别分析与主成分分析等。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-03-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习之禅 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档