所以我正在考虑将我的模型从GCP的AI平台移到顶点AI,我的主要动机是,当数据倾斜或漂移时,顶点AI有自动的电子邮件通知(https://cloud.google.com/vertex-ai/docs/model-monitoring/using-model-monitoring)。
因此,如果你开始收到与训练集不一样的可疑数据,他们会给你发一封电子邮件,告诉你你想要预测的数据的哪些特征(列)正在偏离你的训练数据。
但是,我不确定在我的情况下如何工作,因为我的数据是使用word2vec嵌入编码的文本数据。因此,我的数据集有300列,但我不知道每个列都引用了什么特性。
这种数据漂移分析在我的特殊情况下仍然有用吗?
谢谢
发布于 2022-06-10 09:00:36
目前,顶点AI模型监控支持仅限于分类和数字特征的特征倾斜和漂移检测。正如您所说,嵌入不能追溯到实际数据,在这种情况下,编码本身不能被认为是绝对的或数字的。
这种数据漂移分析在我的特殊情况下仍然有用吗?
是的,做漂移分析是有用的。在NLP数据集中有几种解释漂移的方法。有关在NLP中处理此类漂移的更多信息,您可以查看此博客。请注意,这篇文章没有得到Google的官方支持。
https://stackoverflow.com/questions/72314675
复制相似问题