机器学习利器之汇总
一直想写些东西来记录我的机器学习之路(包括学术和工业),经过N多次决定,终于下定决心把自己积累的点点滴滴保存下来,一方面帮助自己更好的归纳之前研究和使用过的技术,另一方面希望大家多多提出宝贵意见,一起学习进步,有说的不对的地方还请多多包涵。
在接下来的很长一段时间,我会从数据结构、基础算法、数值分析、自然语言处理(NLP)、机器学习(ML)、深度学习(DL)等方面与大家一起学习。
我目前主要从事的是新闻算法推荐领域的工作,因此更多的例子可能还是在文本处理方面,本篇主要和大家一起分享下文本特征筛选方面的一些工作。
文本特征选择
无论目前文本特征选择的方法还是比较多的,特别是在深度学习推出之后,可能大大解放了我们在特征选取方面的要求。
特征选择主要包括基于TF-IDF、信息增益、卡方检验和互信息等
Entropy(S)可以认为是样本空间中所有点的信息熵,而Gain(S ,A)则为A特征的信息增益值,以下表中的天气数据集为例子:
该数据集的特征维度为4,目的是判断能否出去玩,即我们需要标记的标签。 初始状态下,label列总共为14行,有9个yes和5个no,所以label列初始信息熵为:
假设我们先划分outlook这一列,分成sunny、rain、overcast三类,数量分别为5:5:4,考虑到每个类别下对应的label不同,可以计算出划分后的信息熵:
其中E(S1)、E(S2)、E(S3)分别为每个类别下对应的label列的信息熵。 则关于A特征的信息增益值即为:
信息增益值越大,则说明该特征的区分能力越强。 第一次写博客,难免有遗漏和照顾不周之处,还请多多包涵,下次继续和大家讨论关于特征筛选的卡方检验和互信息方法,谢谢大家。