特征选择的评估方法

数据挖掘中,特征选择的过程就是计算特征与样本观测结果的相关性。卡方检验和互信息是用得较多的计算方法。

1. 卡方检验

卡方检验有多种方法,最著名的就是皮尔逊卡方检验[1]。检验包含三个步骤:

  1. 计算卡方检验的统计值 X2,把每一个观察值和理论值的差做平方后、除以理论值、再加总。
  2. 计算统计值的自由度df。
  3. 依据研究者设定的置信水准,查出自由度为df的卡方分配临界值,比较它与第1步骤得出的 X2 统计值,推论能否拒绝虚无假设

其中,虚无假设 H0 一个样本中已发生事件的次数分配会遵守某个特定的理论分配。在虚无假设的句子中,事件必须互斥,也就是说在概率事件中相互独立,即几率之和等于1。

统计值 X2 的计算公式为:

其中 r 是样本数(行数),c 是特征数(列数)。

自由度df的计算公式为: df = (r - 1)(c - 1)

2. 互信息

在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度[2]。

首先,信息熵的定义为:

其中 I(xi) 又称 i 的自信息。熵表征的是信息的不确定性,它假设一份信息中,随机性的事件越多,则信息量越大,计算出的熵也就越大。比如中文里某个不常见的汉子出现在一个句子里,那么这个字通常代表了特殊的含义,而英文中一个句子里出现某个字母(近似 1/26),却并不能说明什么特别。

互信息表达的是一个随机事件与另一个随机事件的包含关系。计算如下:

经过推导,公式有可写为两者熵的如下关系:

可以解释为抽离掉一个事件,对另一个事件发生造成的影响大小。显然,这个值越大,说明两个变量关联越强。

Reference

[1] https://zh.wikipedia.org/wiki/%E7%9A%AE%E7%88%BE%E6%A3%AE%E5%8D%A1%E6%96%B9%E6%AA%A2%E5%AE%9A

[2] https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯大讲堂的专栏

白底黑字or黑底白字,眼睛更喜欢哪一个?

12410
来自专栏腾讯社交用户体验设计

ISUX Xcube智能一键生成H5

51620
来自专栏钱塘大数据

中国互联网协会发布:《2018中国互联网发展报告》

在2018中国互联网大会闭幕论坛上,中国互联网协会正式发布《中国互联网发展报告2018》(以下简称《报告》)。《中国互联网发展报告》是由中国互联网协会与中国互联...

13850
来自专栏FSociety

SQL中GROUP BY用法示例

GROUP BY我们可以先从字面上来理解,GROUP表示分组,BY后面写字段名,就表示根据哪个字段进行分组,如果有用Excel比较多的话,GROUP BY比较类...

5.2K20
来自专栏钱塘大数据

理工男图解零维到十维空间,烧脑已过度,受不了啦!

让我们从一个点开始,和我们几何意义上的点一样,它没有大小、没有维度。它只是被想象出来的、作为标志一个位置的点。它什么也没有,空间、时间通通不存在,这就是零维度。

35230
来自专栏微信公众号:小白课代表

不只是软件,在线也可以免费下载百度文库了。

不管是学生,还是职场员工,下载各种文档几乎是不可避免的,各种XXX.docx,XXX.pptx更是家常便饭,人们最常用的就是百度文库,豆丁文库,道客巴巴这些下载...

44830
来自专栏前端桃园

知识体系解决迷茫的你

最近在星球里群里都有小伙伴说道自己对未来的路比较迷茫,一旦闲下来就不知道自己改干啥,今天我这篇文章就是让你觉得一天给你 25 个小时你都不够用,觉得睡觉都是浪费...

22540
来自专栏haifeiWu与他朋友们的专栏

复杂业务下向Mysql导入30万条数据代码优化的踩坑记录

从毕业到现在第一次接触到超过30万条数据导入MySQL的场景(有点low),就是在顺丰公司接入我司EMM产品时需要将AD中的员工数据导入MySQL中,因此楼主负...

31040
来自专栏Ken的杂谈

【系统设置】CentOS 修改机器名

18430
来自专栏怀英的自我修炼

考研英语-1-导学

英二图表作文要重视。总体而言,英语一会比英语二难点。不过就写作而言,英语二会比英语一有难度,毕竟图表作文并不好写。

12410

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励