继上篇的介绍了特征筛选中的TF-IDF与信息增益后,本篇继续介绍卡方检验和互信息。
卡方检验
开方检验其实是数理统计中一种常用的检验两个变量独立性的方法,在特征选择方面,其主要计算特征项ti与类别Cj之间的关联程度,如果特征项对于某类的卡方值越高,则其与该类之间的相关性越大,从侧面可以反映出特征项对该类携带的信息越多,反之则越少。
如果令n表示训练预料中文档的总数,a表示属于Cj类且包含ti的文档个数,b表示不属于Cj类但包含ti的文档个数,c表示属于Cj类但不包含ti的文档个数,d表示既不属于Cj类又不包含ti的文档个数,那么特征项ti对Cj类的卡方值即为:
卡方值=
对于多分类的情况,我们需要统计出ti对各个Cj类的卡方值,将卡方值低于预定阈值的特征项予以剔除,反之予以保留。
互信息
互信息是信息论里一种有用的信息度量,它是指两个事件集合之间的相关性。互信息值越大,特征项ti与Cj类的共现程度越大,继卡方检验中对各个变量的约定,ti与Cj类的互信息为:
同样对于多分类的情况,我们需要统计出ti与各个Cj类的互信息值,将互信息值低于预定阈值的特征项予以剔除,反之予以保留。
以上介绍的四种只是众多特征选择过程中用到的几个策略,其他的如皮尔逊系数、期望交叉熵等,但在进行特征选择之后,都会遇到特征空间的髙维数问题,即常说的”维数灾难“,因此需要在降维方面做更多的研究与实验,后期也会对降维进行分享,如线性判别分析与主成分分析等。