我试图使用weka和朴素贝叶斯分类器对一些网络帖子进行分类。
首先,我手动对许多帖子进行分类(大约100个否定的和100个肯定的),并使用以下形式创建了一个.arff文件:
@relation classtest
@attribute 'post' string
@attribute 'class' {positive,negative}
@data
'RT @burnreporter: Google has now indexed over 30 trillion URLs. Wow. #LeWeb',positive
'A speci
目前,我正在将熊猫数据帧设置到csv中,并将其作为weka数据集从CSV加载器加载。是否有一种机制可以直接将pandas数据帧加载到weka数据集中,而无需在中间创建CSV文件
learn_df = pd.DataFrame.from_records([s.to_dict() for s in learnList])
header = ["reviewId","word","type","positive_sentiment","negative_sentiment","number_of_noun"
我一直在尝试将这个数据集http://archive.ics.uci.edu/ml/datasets/Communities+and+Crime+Unnormalized放入Weka,但没有任何成功。我将其转换为CSV,然后将其加载到Weka中,然后尝试将其转换为ARFF,但仍然显示错误"attribute names are not unique"。
另外,我是必须从测试数据集中分散训练数据集,还是将它们放在一起?
我从两个不同的数据集准备了两个不同的.arff文件,一个用于测试,另一个用于训练。它们中的每一个都具有相同的实例,但具有不同的特征,从而改变了每个文件的特征向量的维度。当我对每个文件进行交叉验证时,它们都工作得很好。这表明.arff文件准备得很好,没有任何错误。
现在,如果我使用与测试文件相比维度较小的训练文件进行评估。我得到一个下面的错误。
Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 5986
at weka.classifiers.bayes.NaiveBayesMultinom