首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >将网页转换为ARFF文件进行Weka分类

将网页转换为ARFF文件进行Weka分类
EN

Stack Overflow用户
提问于 2013-10-23 10:17:12
回答 1查看 1.8K关注 0票数 0

我想用weka对10个网页进行分类。如何将网页转换成Weka的ARFF文件格式?我是否需要将所有10页转换为一个ARFF文件,还是需要转换每个网页的ARFF文件,即10个ARFF文件。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-10-25 12:35:31

假设您希望保持HTML格式,这是相对容易的。只需将HTML文件放在单独的文件夹/目录中(每个目录都是一个类),然后应用TextDirectoryLoader转换器,如基于WEKA的文本分类教程中所解释的那样。

假设您有两个类,那么您应该做的是一个ARFF文件,每个文件都有一个实例,每个文件的文本与类(目录名)一起变成一个文本属性的字段(属性值)。然后,您可以继续使用StringToWordVector过滤器将文档转换为术语向量并执行分类。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19538933

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档