首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >大型分类数据集中ML方法的经验论文?

大型分类数据集中ML方法的经验论文?
EN

Data Science用户
提问于 2023-01-07 07:41:46
回答 1查看 20关注 0票数 0

只是想看看是否有人有任何额外的资源,为大型分类数据集提供适当的机器学习方法(15万次观察,健康调查,~10-15功能)。需要帮助,因为运行这些算法需要很长时间,所以最好有一些通用指标来处理。很难找到我所关心的细节(而且有很多)。我研究并考虑了一些事情:

  1. 我们有大量丢失的数据,有时是90%。曾经考察过各种形式的失意,看来我们的结果将是不偏不倚的。这最好的估算方法,如果这是指示?或者有证据显示KNN更合适,也许CCA本身就更合适?主要使用老鼠。
  2. 最适合这种形式的数据的ML方法?都是绝对的,有些是多层次的,有些是二进制的。据我所见,射频可能是最合适的,但很高兴看到关于更好方法的替代论文/证据。
  3. 平衡数据还是不平衡数据?结果为数据的1%。我看到了这两种情况的原因,我们目前使用的是低采样,因为它只是计算效率高。不确定在这种情况下,其他方法是否产生了较少的偏差。
  4. 不管我们是否执行某种形式的变量选择(使用类似于VSURF的方法)。再次听说,这显然是好的预测能力和减少错误,但我也看到,这可能是本质上反映了P-黑客(纠正我,如果这是不正确的)。

谢谢!

EN

回答 1

Data Science用户

发布于 2023-01-07 11:26:24

几点意见:

  • 您关注的是数据的技术特性。当然,它很重要,但任务的语义性质也非常重要。有很多基于健康调查的研究,所以你很可能会在之前关于类似课题的研究中找到一些答案。
  • “运行这些算法需要这么长时间”,->我感到困惑,您是指运行时间还是设计和实现时间?因为在我看来,这个数据集不太大,所以我希望有一个合理的运行时间。如果没有,您可能需要探索其他硬件选项(例如云)。
  • 我当然不会将丢失的值归责,它很可能会破坏您的数据imho。
  • 最合适的方法取决于任务是什么。显然,这是一些监督分类,所以是的,射频是一个很好的方法,在一般的imho。
  • 一般说来,我要说的是,重采样只应出于某些特定的原因(例如,赞成召回而不是精确)。在任何情况下,不重采样都应该作为基线来尝试,当然,测试集永远不会被重放。
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/117590

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档