首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >模型漂移与概念漂移在在线学习中的优势是什么?

模型漂移与概念漂移在在线学习中的优势是什么?
EN

Data Science用户
提问于 2023-01-17 20:56:03
回答 1查看 48关注 0票数 1

我在这里提出了这个问题,但我也在这里发布,以获得更好的洞察力:

https://stats.stackexchange.com/questions/602282/what-are-the-advantages-of-model-drift-vs-concept-drift-in-online-learning

假设我有一个简单的线性预测器模型,我想更新我的模型以适应环境中发生的变化。

我主要有两种工具来检测动态变化: 1-模型预测误差(概念漂移) 2-数据漂移

应该使用哪种方案(1或2或两者)来更新模型以适应变化?

有几个方面我有兴趣通过更新我的模型来最小化:

1-更快(或最快)检测更改2-最小化漏检率3-最小化处理成本。

每种方法的优缺点是什么?什么时候和为什么要用一个而不是另一个?

例如,模型误差(概念漂移)除了由于环境的动态变化造成的任何误差外,还包括参数估计器的嵌入误差。

这里的问题是:通过检测数据漂移来更新模型优于仅仅通过观察模型的误差(概念漂移)来更新模型吗?

谢谢!

EN

回答 1

Data Science用户

发布于 2023-01-18 05:59:27

简短答覆:

数据漂移和概念漂移都很重要。发现他们很重要。如果有发现,你需要重新训练。这些都是不同的东西,你不能说一个比另一个好。

模型性能漂移=数据漂移和/或概念漂移

较长的答覆:

首先,我需要解释概念漂移与数据漂移。这两者都是我们所谓的模型性能漂移的一部分。见此链接:https://datatron.com/what-is-model-drift/#:~:text=Concept%20drift%20is%20a%20type,S)%20更改(S)

首先,让我们用一些例子来解释这两个漂移。假设您训练一个模型来检测x产品上的缺陷,输入是使用特定光条件捕获的图像。

数据漂移:任何可以改变数据生成分布的东西。如果数据点是(X,Y),其中X是图像,Y是标号,则P(X)是生成这些图像的随机函数。以下任何更改都可能导致对此函数的更改(请注意,实际标签没有更改):

  • 改变灯光设置
  • 镜头中的问题
  • 改变材料供应商
  • 新产品/新模式
  • 新缺陷签名
  • 机械问题…等

现在让我们思考一下这个概念的漂移。在这种情况下,更改将发生在Y中,而不是X中。由于某种原因,我们以前考虑标签Y1的特定图像,现在是Y2。这会发生吗?答案是肯定的。在工业界,改变观念比在学术界更为普遍。他们可以决定采用更高的质量,并将新事物视为缺陷…。

漂移检测只是告诉你有什么问题的机制,把它看作是一个危险的标志,当前的数据分布与你的训练数据分布不匹配。

为什么我们在乎?

漂移是机器学习模型的敌人。…不能保证模型在漂移条件下的行为(不能保证预测的可信度很低)。它可以是非常随机的!

该怎么办呢?

我们需要保护我们的模型“生产环境”。我们可以做两件事:

1-审核:该模型所做决策的一定百分比将进行手动检查,以进行二次检查。这可能会影响自动化百分比(模型的收益)。

2-保护模型不受分布数据的影响:这些是在模型输入端运行的算法。如果一个数据点被确定为异常/异常/分布外,它将被发送到人工审查或将不由模型处理。

这两种技术可以在您拥有手动处理功能以支持您的模型(自动化)时使用,如果不是这样的话,您需要预先收集大量数据以确保您的模型非常健壮,您也可以进行一些预处理以消除任何噪音或漂移源,但是没有什么可以做的。

如果你看一看CVPR和NIPS过去三到四年的论文,你会发现你会非常关注“分布外检测”的概念。今天,阻碍工业利用越来越多的机器学习成为主要的敌人。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/117838

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档