我想用weka对10个网页进行分类。如何将网页转换成Weka的ARFF文件格式?我是否需要将所有10页转换为一个ARFF文件,还是需要转换每个网页的ARFF文件,即10个ARFF文件。
发布于 2013-10-25 12:35:31
假设您希望保持HTML格式,这是相对容易的。只需将HTML文件放在单独的文件夹/目录中(每个目录都是一个类),然后应用TextDirectoryLoader
转换器,如基于WEKA的文本分类教程中所解释的那样。
假设您有两个类,那么您应该做的是一个ARFF文件,每个文件都有一个实例,每个文件的文本与类(目录名)一起变成一个文本属性的字段(属性值)。然后,您可以继续使用StringToWordVector过滤器将文档转换为术语向量并执行分类。
https://stackoverflow.com/questions/19538933
复制相似问题