首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >分析WEKA上的数据集

分析WEKA上的数据集
EN

Stack Overflow用户
提问于 2018-01-03 10:08:29
回答 1查看 238关注 0票数 1

我刚开始使用WEKA,我会问你是否有人能帮助我理解我是否正确地使用了WEKA。

1)我有一套数据集,其中包括11377份记录,分类如下:

  1. 11111张唱片有“是”类
  2. 266张唱片没有等级

(由于某些原因,我只能使用J48算法进行分类)当我选择J48算法进行分类时,由于类分布不平衡,模型对数据进行了不正确的"NO“分类。我怎样才能正确地解决这个问题?

( 2)平衡班级后,我必须将数据集划分为测试集和训练集,但在WEKA上,最佳/正确的筛选器是什么?

3)当数据通过预处理阶段后,一旦选择了分类形式的J48算法,我应该测试什么?训练还是测试?我要重复几次测试?

提前感谢!

EN

回答 1

Stack Overflow用户

发布于 2018-01-04 05:42:21

这里有一个方法。在“预处理”选项卡中,使用ClassBalancer过滤器(在受监督的实例下)。这将适用权重,以便您的是和否将具有同等的权重。

在“分类”选项卡中,选择“培训”和“测试”之间的百分比分隔。默认情况是66%的培训,34%的测试。这是随机选择的。

(如果您想要查看结果是否取决于确切的随机拆分,您可以使用不同的随机启动多次运行它--在百分比拆分下,您将看到一个“更多选项”按钮。单击那里,您将看到随机种子设置为默认值1。将其更改为任何其他正整数。)

您应该能够从几种算法中进行选择,而不仅仅是J48算法。不知道为什么会这样。

请注意,一旦得到结果,这些结果将反映加权实例,您可能需要返回一个转换(即,取这个混淆矩阵并将其转换回是和否的实际数字)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48075224

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档