首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >summary_plot形状图的正确解释

summary_plot形状图的正确解释
EN

Data Science用户
提问于 2020-01-03 12:39:53
回答 1查看 7.2K关注 0票数 7

虽然通过网上的各种资源来理解shap的情节,我最终还是有点困惑。以下是我对例子中的整体情节的解释-

  1. 特征的Shap值0对应于使用除感兴趣的特征以外的所有其他可能的特征组合的平均预测。例如,LSTAT的shap值0对应于具有不同特征组合的模型的平均预测(不包括LSTAT)。
  2. 相对于0,Shap值为4意味着预测值相对增加为1。我们如何解释shap值4、2等相对于0的外行术语?
  3. 在解释整体图与单点图时略有混淆((

)--在单个数据点示例中,基值/期望值是整个数据集->中的平均预测,但在总体图中(在顶部引用),我们是说它是没有该特性的平均预测。所以事情就不算了?谢谢你的帮助!)

EN

回答 1

Data Science用户

发布于 2020-03-15 23:56:56

我认为你的解释不完全正确。松散地重新定义朗德伯格等人[arXiv:1802.03888],特性i的SHAP值是

E[f(x) \mid S \cup \{i\}] - E[f(x) \mid S]

对所有可能的特性子集( Si \notin S )进行平均。这里,f(x)是输入x模型的预测。预印的图2是一个很好的例子:

我们感兴趣的是特定特征的(符号)箭头长度,在特征的所有排列上平均。对于线性模型y(x) = w^Tx,特征i的SHAP值只是w_i x_i

现在让我们看看你的物品:

  1. 对于某些特性,SHAP值为0意味着在当前示例中,该特性的值被模型忽略。在线性模型中,该特征的权重为0。
  2. SHAP值为4意味着当前示例中该特性的值会使模型的输出增加4。让我以您的摘要图为例。它是用波士顿住宅数据生成的,我们可以在数据集中查看特征‘RM’(每户平均房间数)的最大值约为9。图显示,该特征最亮的红色颜色对应于3、4和8左右的SHAP值。这意味着一所房子中有9个房间的价格往往会增加3、4或8000美元。
  3. 摘要只是所有示例的SHAP值的一组图。下面包含的幂图对应于摘要图中的\text{SHAP}_\text{LSTAT} = 4.98\text{SHAP}_\text{RM} = 6.575等点。
票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/65795

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档