首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >机器学习还是生存分析?

机器学习还是生存分析?
EN

Data Science用户
提问于 2016-07-20 21:08:35
回答 2查看 1.6K关注 0票数 3

我正在构建磁盘故障的预测模型(发生磁盘故障所需的时间以及哪些参数会对磁盘故障产生强烈影响)。我有点困惑于-

  1. 应该执行哪些数据预处理步骤。数据集高度不平衡(500个故障和40000个非故障)
  2. 由于数据高度不平衡,我应该考虑哪些类型的机器学习模型?
  3. 几天前,我读到了关于生存分析的文章,现在我陷入了一个难题:问题是生存分析还是机器学习?

我目前正在使用BackBlaze(https://www.backblaze.com/b2/hard-drive-test-data.html)提供的数据集。

那太好了--我能找到方向:)

EN

回答 2

Data Science用户

发布于 2016-08-23 05:41:59

有些算法,如支持向量机( SVM )或后勤回归算法,有可能对某些类增加权重,从而解决了不平衡问题。

这听起来确实像是生存分析的工作,特别是用来回答诸如“机器X故障时”或“哪种原因对失败影响最大”之类的问题。您可以简单地从绘制Kaplan曲线开始,然后通过一些属性将其进一步分层。然后,您可以尝试Cox回归模型--看看属性对生存的影响是有用的--风险比。但不要忘记验证假设(函数形式和比例风险)。

在R中,生存分析是很好的实现,所以不要被围捕。有简单和简短的教程,这可能会有所帮助。

票数 3
EN

Data Science用户

发布于 2016-07-22 00:11:43

  1. 您可以考虑使用多数类的欠采样、过度采样少数数据集或将击打应用于数据集来重新平衡数据集。
  2. 如果数据集更加平衡,那么Logistic回归/随机森林并不是一个糟糕的起点。我相信随机森林能更好地处理不平衡的分类问题,但它们可能仍然存在着与你所说的不平衡程度有关的问题。
  3. 生存分析通常有一个方面的时间问题(即:什么时候硬盘可能失败?)因此,如果你的数据中包含了时间,那么你肯定可以把它作为一个生存分析问题。然而,如果时间没有进入问题,那么就更容易将其作为ML问题进行分析。
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/12895

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档