前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【Matlab机器学习】用Matlab编写的文本分类程序

【Matlab机器学习】用Matlab编写的文本分类程序

作者头像
量化投资与机器学习微信公众号
发布2018-01-29 15:46:38
1.3K0
发布2018-01-29 15:46:38
举报

特征提取步骤

1. 卡方检验

1.1 统计样本集中文档总数(N)。

1.2 统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。

1.3 计算每个词的卡方值,公式如下:

1.4 将每个词按卡方值从大到小排序,选取前k个词作为特征,k即特征维数。

1.5 进一步化简,注意如果给定了一个文档集合(例如我们的训练集)和一个类别,则N,M,N-M(即A+C和B+D)对同一类别文档中的所有词来说都是一样的,而我们只关心一堆词对某个类别的开方值的大小顺序,而并不关心具体的值,因此把它们去掉是完全可以的,故实际计算的时候我们都使用

2. 信息增益

2.1 统计正负分类的文档数:N1、N2。

2.2 统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。

2.3 计算信息熵

2.4 计算每个词的信息增益

2.5 将每个词按信息增益值从大到小排序,选取前k个词作为特征,k即特征维数。

例子

10月23日十佳球:亨利快攻隔人扣,九指扣将占两席(篮球)

欧冠第三轮全进球:阿扎尔&科斯塔60米奔袭(足球)

C罗皇马生涯50大经典进球(足球)

2013中网女单第三轮:李娜2-0淘汰利斯基集锦 (网球)

13韩国站排位赛集锦 (赛车)

10月 23日 十佳 球 亨利 快攻 隔 人 扣 九 指 扣 将 占 两 席

欧 冠 第三 轮 全 进球 阿扎尔科斯塔 60 米 奔袭

C 罗 皇 马 生涯 50 大 经典 进球

2013 中 网 女单 第三 轮 李娜 2-0 淘汰 利斯基 集锦

13 韩国 站 排位 赛 集锦

部分代码展示

文件预览

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-10-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量化投资与机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档