使用机器学习方法 做文档的自动分类
套路:
1.根据每个文件 生成该文件的一个特征
2.根据特征 选择 分类器 进行文本分类
3....(可选)根据 2 步结果,调整参数/特征等
示例:
数据:搜狗文本分类语料库 精简版
分类器:朴素贝叶斯
编程语言:Python+nltk自然语言处理库+jieba分词库
[python] view plaincopy...SogouC.mini\Sample'
folder_list = os.listdir(folder_path)
class_list = [] ##由于乱码等问题 仅以数字[0,1,...]来代表文件分类...) in test_set]
print "train number:",len(train_data),"\n test number:",len(test_data)
## 朴素贝叶斯分类器...就像在图像处理中 稀疏模型 学习字典(KSVD)一样
自然语言处理/文本处理 中也应该存在这样的方法
3.文件的特征 是[0,0,1,0,0,1,...]并不是统计每个文件的词频,
这跟选择的分类器相关