前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何评估可解释的人工智能系统给出的解释的质量

如何评估可解释的人工智能系统给出的解释的质量

作者头像
CreateAMind
发布2023-09-01 08:31:35
2660
发布2023-09-01 08:31:35
举报
文章被收录于专栏:CreateAMind

https://link.springer.com/article/10.1007/s13218-020-00636-z

抽象

人工智能 (AI) 和机器学习 (ML) 的最新成功允许自动解决问题,无需任何人工干预。自主方法可能非常方便。然而,在某些领域,例如在医学领域,有必要让领域专家理解,为什么算法得出了一定的结果。因此,可解释人工智能(xAI)领域迅速引起了全世界各个领域的兴趣,特别是在医学领域。可解释的人工智能研究不透明人工智能/机器学习的透明度和可追溯性,并且已经有各种各样的方法。例如,通过逐层相关性传播,可以突出显示引起结果的神经网络的输入的相关部分和神经网络中的表示。这是确保最终用户(例如医疗专业人员)承担人工智能/机器学习决策责任并引起专业人士和监管机构兴趣的第一个重要步骤。交互式机器学习将人类专业知识的组成部分添加到人工智能/机器学习流程中,使他们能够重新制定和追溯人工智能/机器学习结果,例如让他们检查其合理性。这需要新的人机交互界面来实现可解释的人工智能。为了构建有效且高效的人机交互界面,我们必须解决以下问题:如何评估可解释的人工智能系统给出的解释的质量。在本文中,我们介绍了系统因果关系量表来衡量解释的质量。它基于我们的因果性概念(Holzinger 等人,在 Wiley Interdiscip Rev Data Min Knowl Discov 9(4), 2019 中),并结合了广泛接受的可用性量表改编的概念。

1简介

人工智能 (AI) 是旨在提供与人类相当的任务解决能力的算法的总称。一个主要的子领域是自动(或自主)机器学习(aML),旨在开发可以从以前的经验中完全自动学习的软件,以根据新数据进行预测。目前非常成功的 aML 方法系列包括深度学习 (DL),它基于神经网络的概念,以及这种网络的深度产生令人惊讶的能力的见解。

自动方法存在于人类社会的日常实践中,支持和提高我们的生活质量。一个很好的例子是深度学习[ 2 ]在自动语音识别的语音分类任务上取得的突破。实际上,语音识别是深度学习的第一个商业成功应用[ 3 ]。如今,自主软件能够在呼叫中心与客户进行对话;Siri、Alexa 和 Cortana 向智能手机用户提供建议。另一个例子是无需人工干预的自动游戏[ 4 ]。掌握围棋游戏有着悠久的传统,并且是自动方法进步的良好基准,因为围棋对于计算机来说很难 [ 5】 因为它是策略性的,虽然游戏是一个封闭的环境,有明确的规则,可以模拟大量的游戏进行大数据。

即使在医学领域,自动方法最近也表现出了令人印象深刻的结果:自动图像分类算法与人类专家相当,甚至超过了他们[ 6 ];在断层扫描中自动检测肺部结节,发现了提供测试数据的同一位人类专家所遗漏的肿瘤形成[ 7 ];神经网络优于传统的分割方法 [ 8 ],因此,自动深度学习方法很快成为医学图像分析的首选方法 [ 9 ]

毫无疑问,出于理论、实践和商业原因,自动方法具有很好的动机。不幸的是,这种方法也有一些缺点。它们消耗资源,需要大量的工程工作,需要大量的训练数据(“大数据”),但最重要的是,它们通常被认为是黑盒方法,不能促进信任和接受,最重要的是责任。近年来,国际社会对人工智能发展的伦理、法律和道德方面提出了担忧,特别是在医学领域[ 10 ]。这种国际努力的一个例子是《蒙特利尔宣言》。脚注1

缺乏透明度意味着此类方法没有明确公开决策过程[ 11 ]。这是因为此类模型没有明确的声明性知识表示,因此它们难以生成所需的解释结构,这在很大程度上限制了其全部潜力的实现[12 ]。

因此,在医学领域,人类专家参与决策过程可能是有益的,但也是强制性的[ 13 ]。然而,问题在于许多算法(例如深度学习)本质上是不透明的,这给算法开发人员以及人机交互带来了困难。

出于多种原因,了解预测、查询和建议 [ 14 ]背后的原因非常重要。最重要的原因之一是对结果的信任,这是通过解释性交互式学习框架得到改善的,其中算法能够向用户解释每个步骤,并且用户可以交互式地纠正解释[15 ]。这种方法称为交互式机器学习(iML)[ 16 ],其优点是在学习和解释抽象概念方面包含人类的优势[ 17 ]。

当前的 ML 算法与人类专家异步工作,预计人类专家将帮助进行数据预处理(有关数据质量重要性的最新示例,请参阅 [ 18 ])。此外,人们还希望在学习算法之前或之后帮助解释数据。人类专家应该了解问题的背景并正确评估特定的数据集。

因此,当 aML 方法变得低效时,iML 方法可以有效解决稀缺和/或复杂数据集的问题。此外,iML 支持重要的机制,包括可追溯性、透明度和可解释性,这些都是任何未来信息系统的重要特征 [ 19 ]。

ML和iML提供的解释的效率和有效性需要进一步研究[ 20 ]。解决该问题的一种方法是通过定性评估三个解释模型的有效性来检查人们如何理解 ML 的解释 [ 21 , 22 ]。另一种方法衡量实用性的代理,例如应用程序的简单性[ 11 , 23 ]或响应时间[ 24 ]。我们的贡献是通过采用广为接受的可用性方法来直接衡量用户对解释效用的感知,包括原因方面[ 25 ]。

2因果性和可解释性

5系统因果关系量表

下面我们提出了使用类似于 SUS 的李克特量表的系统因果关系量表 (SCS)。Likert 方法 [ 32 ] 被广泛用作衡量人类反应的标准心理测量量表(请参阅结论中的局限性)。我们 SCS 的目的是快速确定可解释的用户界面(人机交互界面)、解释或解释过程本身是否以及在何种程度上适合预期目的。

1.

我发现这些数据包含了所有相关的已知因果因素,并且具有足够的精度和粒度。

2.

我在我的工作背景下理解了这些解释。

3.

我可以根据需要更改详细程度。

4.

我不需要支持来理解这些解释。

5.

我发现这些解释帮助我理解因果关系。

6.

我能够根据我的知识库使用这些解释。

7.

我没有发现解释之间存在不一致之处。

8.

我认为大多数人会很快学会理解这些解释。

9.

我不需要在解释中提供更多参考资料:例如医疗指南、法规。

10.

我及时有效地收到了解释。

作为说明,渥太华医院的一位医生(参见致谢部分)将 SCS 应用到弗雷明汉风险工具 (FRT) [ 33 ]。FRT 被选为当今使用的预测模型的经典示例。

FRT 估计没有糖尿病或临床明显心血管疾病的患者 10 年内患冠状动脉疾病的风险,并使用弗雷明汉心脏研究的数据 [34 ]。FRT包括以下输入特征:性别、年龄、总胆固醇、吸烟、HDL(高密度脂蛋白)胆固醇、收缩压和高血压治疗。SCS 分数的评级如表 1所示。

6结论

系统因果关系量表的目的是提供一种简单快速的评估工具来衡量解释界面(人机交互界面)或解释过程本身的质量。我们的灵感来自于日常生活中经常使用的系统可用性量表和弗雷明汉模型。SCS 的局限性在于,李克特量表属于测量的顺序级别,这意味着响应类别具有排名顺序。然而,不能假定值之间的间隔相等(推断强烈不同意和不同意之间的感觉强度等于李克特量表上其他连续类别之间的感觉强度是不合法的)。为李克特类型类别假设区间量表的合法性是一个重要问题,35 ]。我们相信,我们的系统因果关系量表对于国际机器学习研究社区很有用。目前我们正在开展医疗领域应用的评估研究。

note: https://declarationmontreal-iaresponsable.com/wp-content/uploads/2023/01/ZHS-UdeM_Decl-IA-Resp_LA-Declaration-ENG_ZHS_v3.pdf

相关推荐:

AGI结构模块很细分:脑网络结构高清大图

AGI部分模块的优秀复现:

最新代码:一个epoch打天下:深度Hebbian BP (华为实验室) 生物视觉 +

AGI之 概率溯因推理超越人类水平 VSA符号溯因abductive推理 +

Spaun2 Extending the World's Largest Functional Brain Model 架构 +

自由能AI模型的理论高度和潜力(信息量大)自由能loss +

DeepMind Dreamer 系列为什么效果这么好及自由能理论高度和潜力 世界模型+

世界模型仅用 1 小时训练一个四足机器人从头开始翻滚、站立和行走,无需重置。10 分钟内适应扰动或快速翻身站立 躯体控制 +

代码:Learning to Learn and Forget (华为)长短期记忆网络 +

inductive Logic Programs 视觉推理 +

框架及硬件

生物神经网络的开源芯片 +

矢量符号架构作为纳米级硬件的计算框架 +

Self-Expanding ⾃扩展神经⽹络

benchmark:

NeuroGym- An open for developing and sharing neuroscience tasks

60作者的NeuroBench:通过协作、公平和有代表性的基准测试推进神经形态计算

Towards Data-and Knowledge-Driven AI: A Survey Neuro-Symbolic 图表

系统观:

大脑中复杂适应动力学的神经调节控制

突触神经耦合的混沌动力特性

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云小微
腾讯云小微,是一套腾讯云的智能服务系统,也是一个智能服务开放平台,接入小微的硬件可以快速具备听觉和视觉感知能力,帮助智能硬件厂商实现语音人机互动和音视频服务能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档