前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >特征选择的评估方法

特征选择的评估方法

作者头像
星回
发布2018-08-02 15:23:33
7910
发布2018-08-02 15:23:33
举报
文章被收录于专栏:星回的实验室

数据挖掘中,特征选择的过程就是计算特征与样本观测结果的相关性。卡方检验和互信息是用得较多的计算方法。

1. 卡方检验

卡方检验有多种方法,最著名的就是皮尔逊卡方检验[1]。检验包含三个步骤:

  1. 计算卡方检验的统计值 X2,把每一个观察值和理论值的差做平方后、除以理论值、再加总。
  2. 计算统计值的自由度df。
  3. 依据研究者设定的置信水准,查出自由度为df的卡方分配临界值,比较它与第1步骤得出的 X2 统计值,推论能否拒绝虚无假设

其中,虚无假设 H0 一个样本中已发生事件的次数分配会遵守某个特定的理论分配。在虚无假设的句子中,事件必须互斥,也就是说在概率事件中相互独立,即几率之和等于1。

统计值 X2 的计算公式为:

其中 r 是样本数(行数),c 是特征数(列数)。

自由度df的计算公式为: df = (r - 1)(c - 1)

2. 互信息

在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度[2]。

首先,信息熵的定义为:

其中 I(xi) 又称 i 的自信息。熵表征的是信息的不确定性,它假设一份信息中,随机性的事件越多,则信息量越大,计算出的熵也就越大。比如中文里某个不常见的汉子出现在一个句子里,那么这个字通常代表了特殊的含义,而英文中一个句子里出现某个字母(近似 1/26),却并不能说明什么特别。

互信息表达的是一个随机事件与另一个随机事件的包含关系。计算如下:

经过推导,公式有可写为两者熵的如下关系:

可以解释为抽离掉一个事件,对另一个事件发生造成的影响大小。显然,这个值越大,说明两个变量关联越强。

Reference

[1] https://zh.wikipedia.org/wiki/%E7%9A%AE%E7%88%BE%E6%A3%AE%E5%8D%A1%E6%96%B9%E6%AA%A2%E5%AE%9A

[2] https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 卡方检验
  • 2. 互信息
  • Reference
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档