我希望确认DAI遵循类似的结构来处理它在训练中没有遇到的分类变量,就像在这个答案h2o DRF unseen categorical values handling中一样。我在H2O无人驾驶AI文档中找不到它。
还请说明该链接的某些部分是否过时(如答案中所述),以及如何处理它,如果这是不同的发生。请注意h2o DAI的版本。谢谢!
发布于 2019-05-22 06:20:17
EDIT此信息现已在documentation here中进行了详细介绍
下面描述了当您尝试在训练过程中看不到的分类级别上进行预测时会发生什么。根据您使用的DAI版本,您可能无法访问特定算法,但给定算法后,详细信息应适用于您的DAI版本。
无人驾驶AI的特征工程流水线将为数据中存在的每个分类级别计算一个数值,无论它是不是以前看到的值。对于频率编码,看不见的电平将替换为0。对于目标编码,将使用目标值的全局平均值。等。
和
FTRL模型不区分分类值和数字值。无论FTRL是否在训练期间看到了特定值,它都会将所有数据逐行散列为数字,然后进行预测。由于您可以认为FTRL是在用心学习数据集中所有可能的值,因此不能保证它会对看不见的数据做出准确的预测。因此,就唯一值而言,确保训练数据集与用于进行预测的值具有合理的“重叠”是很重要的。
由于DAI使用与H2O-3不同的算法(XGBoost除外),因此最好将它们视为单独的产品,对未见级别或缺失值的处理可能不同-尽管在某些情况下有相似之处。
正如评论中提到的,H2O-3的DRF文档现在应该是最新的。
希望这个解释能有所帮助!
https://stackoverflow.com/questions/55998189
复制相似问题