我试图使用weka和朴素贝叶斯分类器对一些网络帖子进行分类。
首先,我手动对许多帖子进行分类(大约100个否定的和100个肯定的),并使用以下形式创建了一个.arff文件:
@relation classtest
@attribute 'post' string
@attribute 'class' {positive,negative}
@data
'RT @burnreporter: Google has now indexed over 30 trillion URLs. Wow. #LeWeb',positive
'A speci
我正在尝试理解当从数据库而不是文件中加载数据时,如何在Weka中表达以下.arff文件。.arff文件具有以下格式:
@relation sample
@attribute expression string
@attribute tone {postive,negative}
@data
'this is a happy message', positive
'this is an unhappy message', negative
在从数据库加载数据的情况下,由一个表和两个字段-表达式和音调-组成,我如何让weka知道字段音调只有两个可能的值,正值或负值
我从两个不同的数据集准备了两个不同的.arff文件,一个用于测试,另一个用于训练。它们中的每一个都具有相同的实例,但具有不同的特征,从而改变了每个文件的特征向量的维度。当我对每个文件进行交叉验证时,它们都工作得很好。这表明.arff文件准备得很好,没有任何错误。
现在,如果我使用与测试文件相比维度较小的训练文件进行评估。我得到一个下面的错误。
Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 5986
at weka.classifiers.bayes.NaiveBayesMultinom
我是python的新手,需要帮助!我正在练习python NLTK文本分类。以下是我在上练习的代码示例
我已经试过这个了
from nltk import bigrams
from nltk.probability import ELEProbDist, FreqDist
from nltk import NaiveBayesClassifier
from collections import defaultdict
train_samples = {}
with file ('positive.txt', 'rt') as f:
for line i
我已经写了一段代码,它本质上是统计词频,并将它们插入到一个ARFF文件中,以便与weka一起使用。我想修改它,使其可以计算双字母组的频率,即成对的单词而不是单个单词,尽管我的尝试充其量是不成功的。
我意识到有很多东西要看,但在这方面的任何帮助都是非常感谢的。下面是我的代码:
import re
import nltk
# Quran subset
filename = raw_input('Enter name of file to convert to ARFF with extension, eg. name.txt: ')
#
我正在制作一个稀疏的arff文件,但它不会加载到Weka中。我得到的错误是,我在@attribute类行中有错误的值数,它需要1个值,而拒绝接收12个值。我做错了什么?我的文件如下所示:
%ARFF file for questions data
%
@relation brazilquestions
@attribute att0 numeric
@attribute att1 numeric
@attribute att2 numeric
@attribute att3 numeric
%there are 469 attributes which represent my bag o
我正在尝试从我拥有的csv数据文件生成.arff文件。现在我对Weka完全陌生,一天前就开始使用它了。首先,我正在尝试一个简单的twitter情绪分析。我已经在CSV中生成了训练数据。CSV文件的内容如下:
tweet,affinScore,polarity
ATAUTHORcfoblog is giving away a $25 Amex gift card (enter to win over $600 in prizes!) http://t.co/JD8EP14c ,4,4
"American Express has always been my dark horse a