我刚刚读了一篇关于使用Mahout进行逻辑回归的有趣的this文章。这个教程对我来说很清楚……但是一个真实的用例是什么样子的呢?例如,当web应用程序第一次启动时,需要处理一些训练数据...并将结果保存在OnlineLogisticRegression
实例中。然后,要测试新数据,只需调用OnlineLogisticRegression.classifyFull
并查看数据属于给定分类的概率-由0到1之间的值表示。
但是,如果我想要改进一个模型,并在web应用程序在线时使用额外的数据对其进行训练,该怎么办?这个想法是每周一次或类似的用额外的数据训练模型,以提高准确性。实现这种机制的正确方式是什么?是否存在严重的性能问题?
发布于 2015-01-05 15:27:52
不知道你的用例是什么,但我已经实现了如下所示。我用的是Naivebayes当前流量使用我的在线模型。现在,在15天后,我习惯于将新的训练数据添加到以前的训练数据中,并生成新的模型。一旦创建了新模型,cron就会将其替换为在线模型。
https://stackoverflow.com/questions/27618819
复制相似问题