前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深入探索Catboost模型可解释性(下)

深入探索Catboost模型可解释性(下)

作者头像
AiTechYun
发布2019-07-22 16:02:37
1.6K0
发布2019-07-22 16:02:37
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号

交互

通过这个参数,您可以找到一对特性的强度(两个特性的重要性)。

在输出中,您将得到每对特性的列表。列表将有3个值,第一个值是该对中第一个特性的索引,第二个值是该对中第二个特性的索引,第三个值是该对的特性重要性得分。具体实施请查看嵌入式笔记本。

有趣的是,在单一功能重要性中,前两个功能不一定会成为最强的一对。

笔记本

笔记本中使用的数据集

对象重要性

你为什么要知道?

  • 从训练数据中删除最无用的训练对象
  • 将一批新对象按优先级排列,以便根据哪些对象最有帮助进行标记,类似于主动学习。

使用此功能,您可以计算每个对象对测试数据优化指标的影响。正值表示优化指标增加,负值表示优化指标减少。该方法是本文所描述方法的一个实现。这些算法的细节超出了本文的范围。

Catboost对象重要性教程

cb.get对象重要性中有三种更新方法:

  • SinglePoint:最快最不准确的方法
  • TopKLeaves:指定叶数。数值越大,计算越精确,速度越慢
  • AllPoints:最慢最准确的方法

例如,下面的值将方法设置为TopKLeaves,并将叶子的数量限制为3:

代码语言:javascript
复制
TopKLeaves:top=3

模型分析情节

CatBoost最近在其最新更新中启动了此功能。有了这个特性,我们将能够可视化算法是如何分割每个特性的数据的,并查看特性特定的统计信息。更具体地说,我们将能够看到:

  • 每个容器(容器用于连续特征)或类别的平均目标值(目前仅支持OHE特征)
  • 每个容器/类别的平均预测值
  • 每个容器中的对象数
  • 对不同特征值的预测:对于每个对象,特征值都是不同的,因此它会落入某个容器中。然后,该模型根据该特性的新值预测目标,并取一个容器中预测的平均值(由红点给出)。

这个图会给我们提供信息,比如我们的分割有多均匀(我们不希望所有的物体都放在一个容器里),我们的预测是否接近目标(蓝色和橙色的线),红线会告诉我们预测对某个特征有多敏感。

数值特性分析

一组热编码特征分析

感谢您阅读本文。希望下次您能够使用这些工具更好地开发您的模型。

End

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 交互
  • 笔记本
  • 对象重要性
  • Catboost对象重要性教程
  • 数值特性分析
  • 一组热编码特征分析
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档