特征提取步骤
1. 卡方检验
1.1 统计样本集中文档总数(N)。
1.2 统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。
1.3 计算每个词的卡方值,公式如下:
1.4 将每个词按卡方值从大到小排序,选取前k个词作为特征,k即特征维数。
1.5 进一步化简,注意如果给定了一个文档集合(例如我们的训练集)和一个类别,则N,M,N-M(即A+C和B+D)对同一类别文档中的所有词来说都是一样的,而我们只关心一堆词对某个类别的开方值的大小顺序,而并不关心具体的值,因此把它们去掉是完全可以的,故实际计算的时候我们都使用
2. 信息增益
2.1 统计正负分类的文档数:N1、N2。
2.2 统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。
2.3 计算信息熵
2.4 计算每个词的信息增益
2.5 将每个词按信息增益值从大到小排序,选取前k个词作为特征,k即特征维数。
例子
10月23日十佳球:亨利快攻隔人扣,九指扣将占两席(篮球)
欧冠第三轮全进球:阿扎尔&科斯塔60米奔袭(足球)
C罗皇马生涯50大经典进球(足球)
2013中网女单第三轮:李娜2-0淘汰利斯基集锦 (网球)
13韩国站排位赛集锦 (赛车)
10月 23日 十佳 球 亨利 快攻 隔 人 扣 九 指 扣 将 占 两 席
欧 冠 第三 轮 全 进球 阿扎尔科斯塔 60 米 奔袭
C 罗 皇 马 生涯 50 大 经典 进球
2013 中 网 女单 第三 轮 李娜 2-0 淘汰 利斯基 集锦
13 韩国 站 排位 赛 集锦
部分代码展示
文件预览