我在这里提出了这个问题,但我也在这里发布,以获得更好的洞察力:
假设我有一个简单的线性预测器模型,我想更新我的模型以适应环境中发生的变化。
我主要有两种工具来检测动态变化: 1-模型预测误差(概念漂移) 2-数据漂移
应该使用哪种方案(1或2或两者)来更新模型以适应变化?
有几个方面我有兴趣通过更新我的模型来最小化:
1-更快(或最快)检测更改2-最小化漏检率3-最小化处理成本。
每种方法的优缺点是什么?什么时候和为什么要用一个而不是另一个?
例如,模型误差(概念漂移)除了由于环境的动态变化造成的任何误差外,还包括参数估计器的嵌入误差。
这里的问题是:通过检测数据漂移来更新模型优于仅仅通过观察模型的误差(概念漂移)来更新模型吗?
谢谢!
发布于 2023-01-18 05:59:27
简短答覆:
数据漂移和概念漂移都很重要。发现他们很重要。如果有发现,你需要重新训练。这些都是不同的东西,你不能说一个比另一个好。
模型性能漂移=数据漂移和/或概念漂移
较长的答覆:
首先,我需要解释概念漂移与数据漂移。这两者都是我们所谓的模型性能漂移的一部分。见此链接:https://datatron.com/what-is-model-drift/#:~:text=Concept%20drift%20is%20a%20type,S)%20更改(S)
首先,让我们用一些例子来解释这两个漂移。假设您训练一个模型来检测x产品上的缺陷,输入是使用特定光条件捕获的图像。
数据漂移:任何可以改变数据生成分布的东西。如果数据点是(X,Y),其中X是图像,Y是标号,则P(X)是生成这些图像的随机函数。以下任何更改都可能导致对此函数的更改(请注意,实际标签没有更改):
现在让我们思考一下这个概念的漂移。在这种情况下,更改将发生在Y中,而不是X中。由于某种原因,我们以前考虑标签Y1的特定图像,现在是Y2。这会发生吗?答案是肯定的。在工业界,改变观念比在学术界更为普遍。他们可以决定采用更高的质量,并将新事物视为缺陷…。
漂移检测只是告诉你有什么问题的机制,把它看作是一个危险的标志,当前的数据分布与你的训练数据分布不匹配。
为什么我们在乎?
漂移是机器学习模型的敌人。…不能保证模型在漂移条件下的行为(不能保证预测的可信度很低)。它可以是非常随机的!
该怎么办呢?
我们需要保护我们的模型“生产环境”。我们可以做两件事:
1-审核:该模型所做决策的一定百分比将进行手动检查,以进行二次检查。这可能会影响自动化百分比(模型的收益)。
2-保护模型不受分布数据的影响:这些是在模型输入端运行的算法。如果一个数据点被确定为异常/异常/分布外,它将被发送到人工审查或将不由模型处理。
这两种技术可以在您拥有手动处理功能以支持您的模型(自动化)时使用,如果不是这样的话,您需要预先收集大量数据以确保您的模型非常健壮,您也可以进行一些预处理以消除任何噪音或漂移源,但是没有什么可以做的。
如果你看一看CVPR和NIPS过去三到四年的论文,你会发现你会非常关注“分布外检测”的概念。今天,阻碍工业利用越来越多的机器学习成为主要的敌人。
https://datascience.stackexchange.com/questions/117838
复制相似问题