2019年2月,波兰政府对银行法进行了修订,赋予客户在做出信贷拒绝时获得解释的权利。这是在欧盟实施GDPR的直接后果之一。这意味着,如果决策过程是自动的,银行需要能够解释为什么不发放贷款。
2018年10月,《世界新闻头条》报道了亚马逊的人工智能招聘工具偏袒男性。亚马逊的模型是根据偏向男性候选人的有偏见数据建立的。它制定了一些规则,对包含“女性”一词的简历进行处罚。
上述两个例子的共同之处在于,银行业的模型和亚马逊构建的模型都是非常复杂的工具,即所谓的黑箱分类器,它们不提供直接的、可由人类解释的决策规则。
如果金融机构想继续使用基于ml的解决方案,就必须对模型可解释性研究进行投资。他们很可能会这么做,因为这类算法在预测信贷风险方面更准确。另一方面,如果这个模型被正确地验证和理解,亚马逊本可以省下很多钱和坏的新闻。
自2014年以来,机器学习一直处于Gartner的炒作周期的顶端,2018年将被深度学习(ML的一种形式)所取代,这表明机器学习的应用还没有达到顶峰。
来源:https://www.gartner.com/smarterwithgartner/5-trends-emerge-in-gartner-hype-cycle-for-emerging-technologies-2018/
预计机器学习的增长将进一步加快。根据Univa的报告,96%的公司预计将在未来两年内在生产中使用ML。
这背后的原因是:广泛的数据收集、大量计算资源的可用性和活跃的开源社区。ML的采用增长伴随着ML可解释性研究的增加,这些研究受到诸如GDPR、欧盟的“解释权”、对安全(药物、自动驾驶汽车)的担忧、可重复性、偏见或最终用户期望(调试模型以改进模型或学习一些东西)等法规的推动。
来源:http://people.csail.mit.edu/beenkim/papers/BeenK_FinaleDV_ICML2017_tutorial.pdf
作为数据科学家,我们应该能够向最终用户解释模型是如何工作的。然而,这并不一定意味着理解模型的每一部分或生成一组决策规则。
也有可能不需要这样做:
如果我们看看Kaggle 2018年机器学习和数据科学调查的结果,大约60%的受访者认为他们可以解释大多数机器学习模型(有些模型仍然很难解释)。用于ML理解的最常用方法是通过查看特征重要性和特征相关性来分析模型特性。
特性重要性分析首先提供了对模型正在学习的内容和可能重要的因素的深入了解。然而,如果特征是相关的,这种技术可能是不可靠的。只有模型变量是可解释的,它才能提供良好的洞察力。对于许多GBMs库,生成特性重要性图相当容易。
在深度学习的情况下,情况要复杂得多。当使用神经网络时,你可以观察权重,因为它们包含了关于输入的信息,但是信息被压缩了。更重要的是,你只能分析第一层的联系,因为在更深的层次上它太复杂了。
难怪2016年在NIPS大会上发表的LIME (Local interpretation model - interpretation interpretation)论文产生了巨大的影响。LIME背后的思想是局部逼近一个黑盒模型,在可解释的输入数据上构造一个更容易理解的白盒模型。它为图像分类和文本解释提供了很好的结果。然而,对于表格数据,很难找到可解释的特性,其局部解释可能具有误导性。
LIME可用Python (LIME and Skater)和R (LIME package and iml package, live package)实现的,非常容易使用。
另一个有前途的想法是SHAP (Shapley加法解释)。它基于博弈论。它假设特征是参与者,模型是联盟,Shapley值告诉我们如何在特性之间公平分配“支出”。这种技术公平地分配效果,易于使用,并提供了视觉上引人注目的实现。
R中可用的DALEX package(描述性机器学习解释)提供了一组工具,帮助理解复杂模型是如何工作的。使用DALEX,您可以创建模型解释器并可视化地检查它,例如分解图。您可能还对DrWhy.Ai感兴趣,它是由DALEX所在的研究小组开发的。
图像识别已经得到了广泛的应用,比如在自动驾驶汽车上检测汽车、交通灯等是否在画面上,在野生动物保护上检测是否有某种动物在画面上。
我们将使用的“Husky vs Wolf例子”来说明模型解释的重要性。分类器的任务是识别图片上是否有狼。它错误地将西伯利亚哈士奇误认为狼。多亏了LIME,研究人员能够识别出图片的哪些区域对模型来说是重要的。原来,如果照片上有雪,它就被归为狼。
该算法利用图像的背景,完全忽略了动物的特征。模型应该看动物的眼睛。多亏了这一发现,才有可能修正模型并扩展训练示例,以防止出现snow = wolf推理。
分类作为决策支持系统
阿姆斯特丹联合医科大学重症监护室希望预测患者出院时再入院和/或死亡的概率。其目的是帮助医生选择正确的时机将病人从ICU转移出来。如果医生了解模型在做什么,他更有可能在做出最终判断时使用模型的建议。
为了演示如何使用LIME解释这样的模型,我们可以看看另一个研究的例子,该研究的目的是对ICU的死亡率进行早期预测。随机森林模型(black-box model)用于预测死亡状态,lime包用于局部解释每个患者的预测得分。
来源:https://www.researchgate.net/publication/309551203_Machine_Learning_Model_Interpretabilit
所选示例中的患者具有较高的死亡率(78%)。导致死亡率的模型特征是房颤计数较高,乳酸水平较高,这与目前医学认识一致。
为了成功地构建可解释的人工智能,我们需要结合数据科学知识、算法和最终用户的专业知识。创建模型之后,数据科学的工作还没有完成。这是一个迭代的过程,通常很长,由专家提供反馈循环,确保结果是可靠的,并且可以被人类理解。
我们坚信,通过将人类的专业知识与机器的性能相结合,我们可以得到最好的结论:提高机器的性能,克服人类的直觉偏见。
原文链接: https://appsilon.com/please-explain-black-box/