我有关于事故的用户报告,我想知道如何确保报告的数量足以将事故视为真正的事故,而不是垃圾邮件。
我的想法是在特定的时间间隔内考虑最少数量的报告,例如,20分钟内的4份报告足以让人相信事故的存在。
我的问题是如何选择最低报告的数量和时间间隔?做出这一决定还有其他逻辑吗?我会感谢你的回答。
发布于 2017-10-31 13:24:53
你不需要一个预测模型。如果你有用户的数据的话。但是没有其他的东西,那么你只需要标记数据。你知道这是否真的是意外的历史数据。
当您有标记的数据时,您就可以遵循这样的过程,它仍然严重依赖于数据的类型。
开始迭代您的标记数据集,并计算真实事故报告的准确性,为不同的组合(5,10,15,20,25,30 .和(1,2,3,4,5,6,7等用户)。
你会得到一个二维矩阵。我想,在你的案子中,对事故采取快速行动是很重要的。设定一个可接受的精度,并选择最小间隔的组合,高于该精度。
https://datascience.stackexchange.com/questions/16872
复制相似问题