, 0, 0, 0, 0]
句子2:我 喜 欢 上 海
转换为 [1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1]
可以利用sklearn的CountVectorizer来实现这一步骤...如果N取值为2,则句子1和句子2就变为:
句子1:我爱 爱北 北京 京天 天安 安门
句子2:我喜 喜欢 欢上 上海
2.4 TF-IDF
TF-IDF分数由两部分组成:第一部分是词语频率(Term...五、考虑其他分类模型
特征提取使用TF-IDF,与第三节中TF-IDF + RidgeClassifier的特征提取保持一致,再来看下其他几种分类算法的效果。...val_pred, average='macro'))
输出为0.846470490043.
5.2 SGDClassifier
SGDClassifier使用mini-batch来做梯度下降,在处理大数据的情况下收敛更快...对比几种机器学习算法可以看出,在相同的TF-IDF特征提取方法基础上,用SVM得到的分类效果最好。