特征提升
早期机器学习的研究与应用,受模型种类和运算能力的限制。...所谓特征抽取,就是逐条将原始数据转化为特征向量的形式,这个过程同时涉及对数据特征的量化表示;而特征筛选则更进一步,在高维度、已量化的特征向量中选择对指定任务更有效的特征组合,进一步提升模型性能。...特征抽取
原始数据的种类有很多种,除了数字化的信号数据(声纹、图像),还有大量符号化的文本。然而,我们无法直接将符号化的文字本身用于计算任务,而是需要通过某些处理手段,预先将文本量化为特征向量。...mnb_count= MultinomialNB ()
#使用朴素贝叶斯分类器,对CountVectorizer(不去除停用词)后的训练样本进行参数学习。...那么交叉验证得出的准确性有着很大的波动,最好的模型性能表现在选取前7%维度的特征的时候;
如果使用前7%维度的特征,那么最终决策树模型可以在该分类预测任务的测试集上表现出85.71%的准确性,比起最初使用全部特征的模型性能高出接近