文本自动分类案例（源码）

机器学习AI算法工程

发布于 2018-03-13 11:02:32

1.2K0

发布于 2018-03-13 11:02:32

文章被收录于专栏：机器学习AI算法工程

使用机器学习方法做文档的自动分类

套路：

1.根据每个文件生成该文件的一个特征

2.根据特征选择分类器进行文本分类

3.(可选)根据 2 步结果，调整参数/特征等

示例：

数据：搜狗文本分类语料库精简版

分类器：朴素贝叶斯

编程语言：Python+nltk自然语言处理库+jieba分词库

[python] view plain copy

__author__ = 'LiFeiteng'
# -*- coding: utf-8 -*-
import os
import jieba
import nltk
## 由搜狗语料库生成数据
folder_path = 'C:\LIFEITENG\SogouC.reduced\\Reduced'
#folder_path = 'C:\LIFEITENG\SogouC.mini\Sample'
folder_list = os.listdir(folder_path)
class_list = [] ##由于乱码等问题仅以数字[0,1,...]来代表文件分类
nClass = 0
N = 100 #每类文件最多取 100 个样本 70%train 30%test
train_set = []
test_set = []
all_words = {}
import time
process_times = [] ## 统计处理每个文件的时间
for i in range(len(folder_list)):
new_folder_path = folder_path + '\\' + folder_list[i]
files = os.listdir(new_folder_path)
class_list.append(nClass)
nClass += 1
j = 0
nFile = min([len(files), N])
for file in files:
if j > N:
break
starttime = time.clock()
fobj = open(new_folder_path+'\\'+file, 'r')
raw = fobj.read()
word_cut = jieba.cut(raw, cut_all=False)
word_list = list(word_cut)
for word in word_list:
if word in all_words.keys():
all_words[word] += 1
else:
all_words[word] = 0
if j > 0.3 * nFile:
train_set.append((word_list, class_list[i]))
else:
test_set.append((word_list, class_list[i]))
j += 1
endtime = time.clock()
process_times.append(endtime-starttime)
print "Folder ",i,"-file-",j, "all_words length = ", len(all_words.keys()),\
"process time:",(endtime-starttime)
print len(all_words)
## 根据word的词频排序
all_words_list = sorted(all_words.items(), key=lambda e:e[1], reverse=True)
word_features = []
## 由于乱码的问题，没有正确使用 stopwords；简单去掉前100个高频项
## word_features 是选用的 word-词典
for t in range(100, 1100, 1):
word_features.append(all_words_list[t][0])
def document_features(document):
document_words = set(document)
features = {}
for word in word_features: ## 根据词典生成每个document的feature True or False
features['contains(%s)' % word] = (word in document_words)
return features
## 根据每个document 分词生成的 word_list 生成 feature
train_data = [(document_features(d), c) for (d,c) in train_set]
test_data = [(document_features(d), c) for (d,c) in test_set]
print "train number:",len(train_data),"\n test number:",len(test_data)
## 朴素贝叶斯分类器
classifier = nltk.NaiveBayesClassifier.train(train_data)
print "test accuracy:",nltk.classify.accuracy(classifier, test_data)
## 处理每个文件所用的时间可见到后面处理单个文件的时间显著增长
## 原因已查明
import pylab
pylab.plot(range(len(process_times)), process_times, 'b.')
pylab.show()