我有一些特征集,比如X1和X2 .每个特征集都有一些可变的特征,并且不同的特征集之间没有交集,比如X1有100个特性,X2有500个特性,而且它们都没有相同的特性。尽管从其中提取这些特征的文件对于x1和x2都是相同的。
每个特征集可以单独用于二进制分类。像X1一样,也可以用于分类,X2也可以用于分类。它们也可以结合使用,例如X1 U X2,它将有600个特性。但是
这将生成一个n x m的矩阵,其中n表示我的数据集中的评论数量,m是特征的数量。然后,在将术语文档矩阵拆分成80:20的train:test后,我通过K- Neighbours (KNN)算法将其通过,准确率达到53%。在另一个实验中,我使用了谷歌新闻Word2Vec预训练嵌入(300维),并平均每个评论的所有单词向量。因此,每个评论由x个单词组成,每个单词都有一个300维向量。然
我有数据,我随机分割的训练和测试集,以80/20的比率。: 1.0、2.0和3.0[[-0.5036443480260487, -0.03450760227559746, 0.06723230162846759, 0.23028986544844693,准确率明显下降。具有规范化特性的kNN的结果:
Average accuracy for K=1