首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >DAI如何在生产环境中处理新的(在培训中看不到)类别值?

DAI如何在生产环境中处理新的(在培训中看不到)类别值?
EN

Stack Overflow用户
提问于 2019-05-06 10:43:44
回答 1查看 160关注 0票数 2

我希望确认DAI遵循类似的结构来处理它在训练中没有遇到的分类变量,就像在这个答案h2o DRF unseen categorical values handling中一样。我在H2O无人驾驶AI文档中找不到它。

还请说明该链接的某些部分是否过时(如答案中所述),以及如何处理它,如果这是不同的发生。请注意h2o DAI的版本。谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-05-22 06:20:17

EDIT此信息现已在documentation here中进行了详细介绍

下面描述了当您尝试在训练过程中看不到的分类级别上进行预测时会发生什么。根据您使用的DAI版本,您可能无法访问特定算法,但给定算法后,详细信息应适用于您的DAI版本。

  • XGBoost、LightGBM、RuleFit、TensorFlow、GLM

无人驾驶AI的特征工程流水线将为数据中存在的每个分类级别计算一个数值,无论它是不是以前看到的值。对于频率编码,看不见的电平将替换为0。对于目标编码,将使用目标值的全局平均值。等。

  • FTRL

FTRL模型不区分分类值和数字值。无论FTRL是否在训练期间看到了特定值,它都会将所有数据逐行散列为数字,然后进行预测。由于您可以认为FTRL是在用心学习数据集中所有可能的值,因此不能保证它会对看不见的数据做出准确的预测。因此,就唯一值而言,确保训练数据集与用于进行预测的值具有合理的“重叠”是很重要的。

由于DAI使用与H2O-3不同的算法(XGBoost除外),因此最好将它们视为单独的产品,对未见级别或缺失值的处理可能不同-尽管在某些情况下有相似之处。

正如评论中提到的,H2O-3的DRF文档现在应该是最新的。

希望这个解释能有所帮助!

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55998189

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档