编译:chux
出品:ATYUN订阅号
构建有效的ML系统意味着提出了很多问题。仅训练模型是不够的。相反,优秀的从业者像侦探一样,探索并更好地理解他们的模型:数据点的变化将如何影响我的模型的预测?它对不同的群体有不同的表现,例如,历史上被边缘化的人群?我正在测试我的模型的数据集多样化如何?
回答这些问题并不容易。探索“假设”场景通常意味着编写自定义的一次性代码来分析特定模型。这个过程不仅效率低下,而且非程序员很难参与塑造和改进ML模型的过程。一个焦点Google AI PAIR计划使广泛的人员可以更轻松地检查,评估和调试ML系统。
今天,谷歌推出What-If工具,这是开源TensorBoard Web应用程序的一项新功能,它允许用户在不编写代码的情况下分析ML模型。给定了一个TensorFlow模型和一个数据集的指针,这个假设工具提供了一个交互式的可视化界面来探索模型结果。
工具展示了一组250张人脸照片,以及从一个检测微笑的模型中得出的结果。
What-If工具具有大量功能,包括使用Facets自动显示数据集,从数据集手动编辑示例并查看这些更改的效果,以及自动生成部分依赖图,以显示模型的预测随着任何单个功能的更改而更改。
在一个数据点上探索假设场景。
只需单击一个按钮,就可以将数据点与模型预测不同结果的最相似点进行比较。我们称这些点为“反事实”,它们可以揭示模型的决策边界。或者,你可以手动编辑数据点,并探索模型预测的变化。在下面的屏幕截图中,该工具用于二进制分类模型,该模型根据UCI人口普查数据集中的公共人口普查数据预测一个人是否收入超过5万美元。这是ML研究人员使用的基准预测任务,特别是在分析算法公平性时。在这种情况下,对于选定的数据点,模型预测该人获得超过5万美元的可信度为73%。该工具自动定位数据集中最相似的人,模型预测收益低于5千美元,并将两者并排比较。在这种情况下,只有年龄和职业变化的微小差异,模型的预测已经翻了。
你还可以探索不同分类阈值的影响,同时考虑不同数值公平性标准等约束条件。下面的屏幕截图显示了微笑探测器模型的结果,该模型用开源CelebA数据集训练,该数据集由名人的注释面部图像组成。下面,数据集中的面被划分为是否有棕色头发,并且对于这两个组中的每一个都有一个ROC曲线和混淆矩阵预测,以及滑块,用于设定模型在确定面部微笑之前必须有多自信。在这种情况下,工具自动设置两组的置信度阈值,以优化机会均等。
比较两组数据在微笑检测模型上的性能,并将其分类阈值设置为满足相等的机会约束。
为了说明假设工具的功能,谷歌使用预先训练的模型发布了一组演示:
谷歌内部的团队中测试了What-If工具,并看到了这种工具的直接价值。一个团队很快发现他们的模型错误地忽略了他们数据集的整个特征,导致他们修复了以前未被发现的代码错误。另一个团队使用它在视觉上组织他们的示例,从最佳到最差的性能,导致他们发现他们的模型表现不佳的示例类型的模式。
谷歌期待人们使用此工具更好地了解ML模型并开始评估公平性。代码是开源的。
工具:pair-code.github.io/what-if-tool/