通过这个参数,您可以找到一对特性的强度(两个特性的重要性)。
在输出中,您将得到每对特性的列表。列表将有3个值,第一个值是该对中第一个特性的索引,第二个值是该对中第二个特性的索引,第三个值是该对的特性重要性得分。具体实施请查看嵌入式笔记本。
有趣的是,在单一功能重要性中,前两个功能不一定会成为最强的一对。
笔记本中使用的数据集
你为什么要知道?
使用此功能,您可以计算每个对象对测试数据优化指标的影响。正值表示优化指标增加,负值表示优化指标减少。该方法是本文所描述方法的一个实现。这些算法的细节超出了本文的范围。
cb.get对象重要性中有三种更新方法:
例如,下面的值将方法设置为TopKLeaves,并将叶子的数量限制为3:
TopKLeaves:top=3
模型分析情节
CatBoost最近在其最新更新中启动了此功能。有了这个特性,我们将能够可视化算法是如何分割每个特性的数据的,并查看特性特定的统计信息。更具体地说,我们将能够看到:
这个图会给我们提供信息,比如我们的分割有多均匀(我们不希望所有的物体都放在一个容器里),我们的预测是否接近目标(蓝色和橙色的线),红线会告诉我们预测对某个特征有多敏感。
感谢您阅读本文。希望下次您能够使用这些工具更好地开发您的模型。
End