我正在构建磁盘故障的预测模型(发生磁盘故障所需的时间以及哪些参数会对磁盘故障产生强烈影响)。我有点困惑于-
我目前正在使用BackBlaze(https://www.backblaze.com/b2/hard-drive-test-data.html)提供的数据集。
那太好了--我能找到方向:)
发布于 2016-08-23 05:41:59
有些算法,如支持向量机( SVM )或后勤回归算法,有可能对某些类增加权重,从而解决了不平衡问题。
这听起来确实像是生存分析的工作,特别是用来回答诸如“机器X故障时”或“哪种原因对失败影响最大”之类的问题。您可以简单地从绘制Kaplan曲线开始,然后通过一些属性将其进一步分层。然后,您可以尝试Cox回归模型--看看属性对生存的影响是有用的--风险比。但不要忘记验证假设(函数形式和比例风险)。
在R中,生存分析是很好的实现,所以不要被围捕。有简单和简短的教程,这可能会有所帮助。
发布于 2016-07-22 00:11:43
https://datascience.stackexchange.com/questions/12895
复制相似问题