前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >公平与精确同样重要!CMU提出学习公平表征方法,实现算法公平

公平与精确同样重要!CMU提出学习公平表征方法,实现算法公平

作者头像
AI科技评论
发布于 2020-02-21 03:32:31
发布于 2020-02-21 03:32:31
4470
举报
文章被收录于专栏:AI科技评论AI科技评论

作者 | 赵晗

编译 | Mr Bear

编辑 | 丛末

所有方法的共同之处在于,为了降低依赖性,在一定程度上必须牺牲准确性。 ——Calders et al 「Building Classifiers with Independency Constraints」

人工智能发展的初期,人们对算法的要求往往停留于「准」的层面,预测结果越精确似乎越好。然而,随着人工智能技术逐渐融入日常生活,人们对于算法「公平性」的要求与日俱增。在本文中,来自 CMU (卡内基 · 梅隆大学)的研究人员赵晗提出了一种通过学习公平表征来实现算法公平的方法。(相关论文发表在ICLR 2020上)

图 1:统计均等(Statistical Parity,又称群体公平)和最优决策之间权衡的示意图。在本例中,由于圆形和方形群组之间在群体层面上的还款率不同,为了遵循统计均等,决策者必须要么拒绝向某些处于还款状态(repaying)的圆形申请者贷款(左图),要么同意向某些违约的方形申请者贷款(右图)。

随着机器学习应用程序在诸如刑事判决,医学检测,在线广告等高风险领域中的盛行,确保自动化的决策支持系统不会传播历史数据中可能存在的固有偏见或歧视是至关重要的。从广义上讲, 有关算法公平性的文献中包含两个核心的「公平性」概念:

  • 第一个概念是「个体公平」。简而言之,它要求公平的算法以类似的方式对待相似的个体。然而,在实践中,通常很难找到或设计一种被社会所认可的距离度量标准,该标准用于衡量个体在面对特定任务时的相似度。
  • 第二个概念是「群体公平」,这是本文重点讨论的问题。更具体地说,就是所谓的统计均等,它本质上是要求预测器对于不同子群输出的结果相同。

举例而言,我们不妨考虑一下下面的贷款核准问题。假如这个虚拟设定的环境中有通过圆形和方形代表的两组贷款申请人。

自动贷款核准系统 C 的目标是预测:如果某位贷款申请人被批准放贷,在给定对于申请人的描述信息 X 时,他是否会按期还款,C(x)=1 代表会按期还款,C(x)=0 代表不会按期还款。

如果我们分别使用 A=0 表示申请人来自圆形群组,A=1 表示申请人来自方形群组,这种统计均等的定义要求如下:

Pr(C(x)=1 | A=0) = Pr(C(x)=1 | A=1)

其中,该概率值是根据 X,A,Y(即申请人的描述信息、申请人所属群体、申请人实际是否还款的真实标签) 的联合分布 D 得到的。换而言之,统计均等要求预测器 C(x) 与群体属性 A 无关:C(x)⊥A。

一、学习公平的表征

在尽可能地保证任务的效用的同时,一种构建(近似地)满足统计均等的分类器的方式是:学习公平的表征(详见论文「Learning Fair Representations」:https://www.cs.toronto.edu/~toni/Papers/icml-final.pdf)。

从宏观上说,这类工作试图找到一种信息丰富的表征 Z(详见 Richard Zemel 教授的相关工作:http://www.cs.toronto.edu/~zemel/inquiry/home.php)、一种输入变量 X 的特征转换方式,从而使 Z(近似地)与 A 无关,同时 Z 仍然包含关于目标 Y 的丰富信息。这种目标可以被形式化定义为下面的优化问题:

其中 ϵ > 0 是一个预设的常数,我们使用 I(⋅;⋅) 表示两个随机变量之间的互信息。如图 2 所示,得益于近期深度神经网络表征学习方面的研究进展,我们可以通过对抗性训练算法实现上面的优化问题。这种特殊的方法至少可以追溯到 Edwards 等人的工作:「Censoring Representations with an Adversary」(https://arxiv.org/abs/1511.05897)。

图 2:学习公平表征的一种算法实现。中间的表征 Z 试图骗过对抗者 A,A 的目标是识别出输入变量的群体属性是「圆形:A=0」还是「方形:A=1」。整体的网络架构可以使用梯度下降法训练。

现在,我们的目标就非常直接了:根据著名的数据处理不等式(DPI),如果我们试图训练一种特征转换方式 Z,使其能够骗过非常强的对抗者(判别器),那么任何使用这种表征的预测器也会是公平的(即满足统计均等)。

二、公平性和效用间的权衡

如图 2 所示的模型包含两个目标函数,我们在训练阶段同时优化他们。第一个目标是为了通过骗过对抗者确保统计均等,第二个目标是为了减小预测 Y 的目标任务的损失函数。

这两个目标函数往往会通过一个调和超参数 λ 融合在一起。然而,统计均等的概念并没有考虑与真实标签 Y 相关的信息。正如你可以想到的,加入某个人的群体特征 A 与其目标标签 Y 高度相关,那么要想使预测器满足统计均等就必然会同时破坏预测器的最佳性能。

例如,在我们图 1 所示的贷款核准问题中,圆形群体的还款率(90%)要高于方形群体的还款率(80%)。根据统计均等的概念,一个公平的预测器必须以相同的比例将贷款发放给圆形和方形群体。举例而言,一个公平的分类器会将贷款恰好发放给 80% 会还款的方形申请者,同时也会将贷款发放给 80% 会还款的圆形申请者(详见图 1 左图)。但是,这就意味着有 10% 确实会还款的圆形申请者会被拒绝放款。

另一种可能的情况是,一个公平的分类器会将贷款恰好发放给 90% 会还款的圆形申请者,同时将贷款发放给 80% 会还款和 10% 不会还款的方形申请者。在我们例子中的这两种情况下,为了满足统计均等的标准,一个公平的分类器都会在预测准确率方面有所损失。当然,也可能存在其它公平的预测器,这些预测器可不可能遭受较小的损失呢?

在 NeurIPS 2019 上发表的论文「Inherent Tradeoffs in Learning Fair Representations」(论文地址:https://arxiv.org/pdf/1906.08386.pdf)中,作者说明了上述两种公平分类器某种程度上说都是效用最优的。就形式化定义而言,令

为由群体属性为

产生的 0-1 二分类误差。我们定义:

为各个群体之间基准比率(Base Rate)之差。则下面的定理成立:

定理1:对于任意满足统计均等的预测器

在我们贷款核准的例子中,圆形申请者和方形申请者的还款率之差为 10%,因此

。请注意,上述两种公平分类器针对圆形申请者和方形申请者的的误差率都为 0.1。

根据定理 1,对于任意公平分类器,它在两种群体上的误差率之和必然至少为 10%,所以它们都是最优的。定理 1 是非常直观的,它本质上说明了:

当不同群体的基准比率有差异时,所有满足统计均等的公平分类器都必然会至少在其中一个群体上产生较大的误差。

具体而言,根据鸽巢原理,我们很容易发现任意的公平分类器必然会至少在其中一个群体上产生至少

的误差率。此外,该结论是预算法无关的,它在群体层面上成立(即使用大的训练集并不能有所帮助)。接下来,让我们深入分析

这个量:

  • 如果 A⊥Y,那么Pr(Y=1 | A=0) = Pr(Y=1 | A=1),这意味着

。也就是说,如果群体属性与目标无关,那么上述下界为 0,因此此时不存在效用和公平性的权衡。

  • 如果基于可以确定 A=Y 或 A=1-Y,那么

将取到其最大值 1。在这种情况下,任何公平分类器都必然会在至少一个群体上产生至少为 0.5 的误差。

通常而言,

取介于 0 和 1 之间的值,正是这个值表示了在二分类情况下对于公平性和效用的权衡。

三、公平表征学习的权衡

定理 1 仅仅在某种「精确」的情况下成立:预测器需要「精确地」满足统计均等。然而,实际上,由于有限的训练数据量或模型容量,这种要求可能是难以实现的。

我们是否有可能在某种预测器只能近似地满足统计均等的标准时,表示这种内在的权衡?如果可能的话,这种表征的特性将会在何时、以何种方式发挥作用?

事实证明,这种近似有助于减小定理 1 中的下界。具体而言,令

为给定 A=a 时的条件分布 D。对于特征转换函数

来说,令

为 Da 在使用 g 转换后的前推分布(Pushforward Distribution)。此外,如果我们使用

代表两个概率分布之间的总变分距离,那么下面的定理成立:

定理 2:

为一种特征变换。对于任意(随机的)假设

,令

为一种预测器,则下面的不等式成立:

首先,显然当

时,定理 2 退化到了定理 1 中的下界。

在本例中,同样根据数据处理不等式(DPI),任何作用于 Z 的假设 h 也会在不同的群体上以相同的比率输出结果,因此是公平的。

其次,要意识到,

越小,则下界越大。因此,当

较大时,针对不同群体的表征对齐地越好,则不同群体上的误差之和也会越大。

需要指出的是,选择总变分距离作为分布对齐质量的度量没有什么特别之处。在论文「Inherent Tradeoffs in Learning Fair Representations」的 3.2 节,我们使用 f 散度给出了一种一般性分析,读者可以也可以使用其它的散度测度(例如,HS 距离、Hellinger 距离等)对其进行实例化,从而得到相同的下界。

从积极的一面来看,在一定的条件下,我们也证明了学习公平的表征有助于实现另一种公平的概念,即准确率均等,它要求组间的误差率相等。

四、实际情况如何?

上述下界意味着在群体间过度对齐的特征分布将会不可避免地导致更大的联合误差。为了证明这种可能性,我们在真实世界数据集(UCI 成人数据集)上进行了实验。这里的任务是收入预测(年薪是否高于 50,000),群体属性则对应于「男性/女性」。对于该数据集而言,

,即在 1994 年男性年收入大于 50,000 的比率比女性高 19.7%。

我们实现了图 2 所示的模型,将对抗性损失的权衡超参数 λ 取了不同的值:0.1,1.0,5.0,以及 50.0。实验结果如图 3 所示:

图 3:统计均等的权衡,以及在不同这种系数 λ 下群体间的误差率之和。

在图 3 中,我们绘制出了三种度量标准以及它们随着 λ 增大而发生的变化。第一个竖条对应于联合误差(即

),它是在成人数据集上的整体误差。第二个红色的竖条代表群体间误差率之和,这正是在我们的定理 1 和定理 2 中都出现了的下界。第三个灰色竖条对应于衡量

满足统计均等的程度的差异得分(gap score)。具体而言,灰色的竖条代表的是:

。简而言之,这个差异得分越小,预测器

越满足统计均等。

正如预期的那样,随着 λ 的增大,差异得分迅速减小。当 λ=50.0 时,相应的

已经非常接近于满足统计均等。另一方面,我们也可以观察到,随着 λ 的增大,红色的竖条也迅速增大,最终群体间误差之和达到了大于 0.36 的水平。

请注意,在图 3 中,黑色的水平线对应于

,所有的红色薯条都超过了这个水平线,这与我们的理论分析结果是一致的。实际上,

是非常容易计算的,它可以在不实际训练公平分类器的情况下,限制它们所产生的误差之和。

五、结语

理解效用和统计均等之间的基本权衡既有趣又充满挑战。在我们的论文和这篇博文中,我们在二元分类问题的环境下,给出了对这种内在权衡的简单而直观的描述:当各群体之间的基准比率不同时,任何满足统计均等的公平分类器都必然至少在其中一个群体上产生较大的误差!

而要想在回归问题中找到相应的描述方式,仍然是个有待解决的问题,目前尚不明确如何将我们现在的这种证明策略扩展到分析回归问题中类似的权衡上去。

另一方面,我们的实验结果说明了,将统计均等定义为公平性是有缺陷的。当我们定义公平性的概念时,还应该将目标的信息考虑进来。例如,均等几率和准确率均等是两种另外的定义群体公平性的方式,它们都是可以与完美的预测器兼容的。

我们最近在 ICLR 2020 上发表的论文「Conditional Learning of Fair Representations 」也提出了一种算法,在二分类问题中,再次通过学习表征近似地实现这两种标准。

论文地址:https://openreview.net/forum?id=Hkekl0NFPr

Via https://blog.ml.cmu.edu/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-02-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
UCI 信用卡数据集的二元分类分析
人工智能(AI)为改变我们分配信贷和处理风险的方式提供了一个机会,并创造了更公平、更包容的系统。人工智能可以避免传统的信用报告和评分系统,这有助于抛弃现有的偏见,使它成为一个难得的,改变现状的机会。然而,人工智能很容易朝另一个方向发展,加剧现有的偏见,创造出一个循环,加强有偏见的信贷分配,同时使贷款歧视更难找到。我们将通过开源模型Fairlearn来释放积极的一面,缓解偏见消极的一面。
润森
2022/12/20
2.1K0
UCI 信用卡数据集的二元分类分析
机器学习公平性研究,走在正确的道路上吗?
随着人工智能的发展,机器学习的技术越来越多地被应用在社会的各个领域,来帮助人们进行决策,其潜在的影响力已经变得越来越大,特别是在具有重要影响力的领域,例如刑事判决、福利评估、资源分配等。
AI科技评论
2020/02/21
7140
学界 | 伯克利最新研究:用算法解决算法偏差?公平机器学习的延迟影响
大数据文摘作品 编译:小鱼 在一些敏感领域使用机器学习,算法的公平性常会引发巨大争议。 近期频频登上头条的几项研究大多如此:比如利用算法识别犯罪团伙或者,利用图像识别判定同性恋。 这些问题的出现往往是因为历史数据中的偏差特征,比如种族和性别上的小众团体,往往因此在机器学习预测中产生不利的歧视结果。在包括贷款,招聘,刑事司法和广告在内的各种广泛使用AI的领域,机器学习因其预测误差伤害到了历史上弱势群体,而广受诟病。 本月,在瑞典斯德哥尔摩举行的第35届机器学习国际会议上,伯克利AI研究协会发布了一篇论文,来试
大数据文摘
2018/05/23
5740
Berkeley研究:机器学习决策的偏见及对弱势群体的潜在影响
经过训练以减少预测误差的机器学习系统通常会根据敏感特征(如种族和性别)呈现歧视行为。一个原因可能是由于数据中的历史偏见。在包括贷款,招聘,刑事司法和广告在内的各种应用领域,机器学习因其损害历史上代表性不足或弱势群体的可能性而受到批评。
AiTechYun
2018/07/27
5360
Berkeley研究:机器学习决策的偏见及对弱势群体的潜在影响
AI伦理与公平性:算法偏见的识别与缓解措施
随着人工智能(AI)技术的广泛应用,其对社会、经济乃至个体生活的影响日益显著。然而,AI系统并非绝对公正的决策者,它们可能在设计、训练和部署过程中引入或放大现有的社会偏见。这种现象被称为“算法偏见”,它可能导致不公平的结果,损害弱势群体的利益,违背AI伦理原则。本文旨在深入探讨算法偏见的成因、识别方法,并提出针对性的缓解措施,同时结合实战案例与代码示例,为AI从业者和政策制定者提供实用的指导。
zhouzhou的奇妙编程
2024/04/18
2.3K0
当谈论机器学习中的公平公正时,我们该谈论些什么?
随着人工智能系统和应用程序在我们日常生活中的广泛应用,人工智能已经成为了辅助人们决策的重要工具,例如,使用推荐系统算法做出电影推荐、购买产品推荐等,使用预测和分析系统用于贷款申请、约会和雇佣等高风险决策。美国法院使用了一款人工智能软件—「选择性制裁罪犯管理档案」(Correctional Offender Management Profiling for Alternative Sanctions,COMPAS),用于预测一个人再次犯罪的风险,辅助法官决定是释放罪犯,还是把罪犯关进监狱。对该软件的一项调查发现了对非洲裔美国人的一种偏见:相较于白人罪犯,COMPAS 更有可能给非洲裔美国人罪犯打出较高的潜在风险分数,从而不予以释放 [1]。
机器之心
2020/02/26
6270
深度 | 如何保证算法公正性?ICML 2018两篇获奖论文解读
第一篇缩略版本:公正反而会伤害弱势群体么?有一定情况下是的:对弱势群体降低门槛会致使他们无法完成期预期目标,使他们信用度降低,造成更长久的伤害。我们不仅要考虑算法本身是否符合人对道德的定义,更要考虑算法对社会的实际影响。
机器之心
2018/07/26
5370
深度 | 如何保证算法公正性?ICML 2018两篇获奖论文解读
R语言基于决策树的银行信贷风险预警模型
我国经济高速发展,个人信贷业务也随着快速发展,而个人信贷业务对提高内需,促进消费也有拉动作用。有正必有反,在个人信贷业务规模不断扩大的同时,信贷的违约等风险问题也日益突出,一定程度上制约着我国的信贷市场的健康发展。
拓端
2021/06/15
9010
R语言基于决策树的银行信贷风险预警模型
前沿 | BAIR探索机器学习公平准则的长期影响:对弱势群体的善意真的种出了善果?
选自BAIR 作者:Lydia T. Liu、Sarah Dean、Esther Rolf、Max Simchowitz、Moritz Hardt 机器之心编译 参与:刘天赐、晓坤 由于机器学习系统容易受到历史数据引入的偏见而导致歧视性行为,人们认为有必要在某些应用场景中用公平性准则约束系统的行为,并期待其能保护弱势群体和带来长期收益。近日,伯克利 AI 研究院发表博客,讨论了静态公平性准则的长期影响,发现结果和人们的期望相差甚远。相关论文已被 ICML 2018 大会接收。 以「最小化预测误差」为目的训
机器之心
2018/06/08
4750
R语言基于决策树的银行信贷风险预警模型|附代码数据
最近我们被客户要求撰写关于信贷风险预警的研究报告,包括一些图形和统计输出。 我国经济高速发展,个人信贷业务也随着快速发展,而个人信贷业务对提高内需,促进消费也有拉动作用
拓端
2022/12/22
5910
深度学习中的公平性
深度学习十分流行,在许多领域有着不错的表现。然而,深度学习算法中的公平性(fairness) 亦是重要的研究方向。这次,我们以Du的一篇文章为例,给大家介绍一下深度学习中的公平性。
Mezereon
2021/04/09
1.2K0
深度学习中的公平性
金融科技&大数据产品推荐:百融信贷决策审批系统
金融科技&大数据产品推荐:百融信贷决策审批系统
数据猿
2018/04/24
2.5K0
金融科技&大数据产品推荐:百融信贷决策审批系统
写给人类的机器学习 2.2 监督学习 II
这个邮件是不是垃圾邮件?贷款者能否偿还它们的贷款?用户是否会点击广告?你的 Fackbook 照片中那个人是谁?
ApacheCN_飞龙
2022/12/01
2640
写给人类的机器学习 2.2 监督学习 II
一文看懂风控模型所有
在当代,金融机构在风险管理的每个环节都尽可能地引入计量分析方法,依托大数据进行后台的分析回顾,不断的优化调整,使得金融机构在风险与收益的博弈过程中更快达到平衡,实现局部甚至更多空间的利润最大化。
全栈程序员站长
2022/09/06
7K0
一文看懂风控模型所有
机器学习顶会 ICML 2018 斯德哥尔摩开幕,公平性研究戴上光环
AI 科技评论按:经过 7 月 10 日的三个 Tutorial Session 和 Opening Reception 晚宴之后,在瑞典斯德哥尔摩举办的机器学习顶会 ICML 2018 正式进入第一天的正会。
AI科技评论
2018/07/27
5780
机器学习顶会 ICML 2018 斯德哥尔摩开幕,公平性研究戴上光环
反欺诈黑产总结
羊毛党专注于市场上各类机构的营销活动,以低成本甚至零成本换取高额奖励,其主要活跃在 O2O 平台或电商平台。
用户3578099
2022/11/25
2K0
反欺诈黑产总结
Science Advances:社会和健康科学中用于描述、预测和因果推理的机器学习方法
社会和健康科学中使用的机器学习(ML)方法需要符合描述、预测或因果推理等预期研究目的。本文通过结合这些学科的统计分析的必要要求,为社会和健康科学中的研究问题与适当的ML方法进行了全面、系统的元映射。作者将已建立的分类映射到描述、预测、反事实预测和因果结构学习,以实现共同的研究目标,如估计不良社会或健康结果的流行率、预测事件的风险、识别不良结果的风险因素或原因,并解释通用的ML性能指标。这种映射可能有助于充分利用ML的好处,同时考虑与社会和健康科学相关的特定领域方面,并希望有助于加速ML应用的普及,以推进基础和应用社会和健康科学研究。
悦影科技
2023/01/25
7300
【金融数据】消费金融:大数据风控那点事?
大数据风控同传统风控在本质上没有区别,主要区别在于风控模型数据输入的纬度和数据关联性分析。据统计,目前银行传统的风控模型对市场上70%的客户是有效的,但是对另外30%的用户,其风控模型有效性将大打折扣。 大数据风控作为传统风控方式补充,主要利用行为数据来实施风险控制,用户行为数据可以作为另外的30%客户风控的有效补充。大数据风险控制的作用就是从原来被拒绝的贷款用户中找到合格用户,识别出已经通过审核的高风险客户和欺诈客户。 一、银行信用风险控制的原理 金融行业中,银行是对信用风险依赖最强的一个主体,银行本质
陆勤_数据人网
2018/02/28
3.9K0
【深度学习基础】多层感知机 | 环境和分布偏移
深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现。 【GitCode】专栏资源保存在我的GitCode仓库:https://gitcode.com/Morse_Chen/PyTorch_deep_learning。
Francek Chen
2025/01/27
940
【深度学习基础】多层感知机 | 环境和分布偏移
SAS用梯度提升回归树(GBDT)迁移学习预测抵押贷款拖欠风险和垃圾电子邮件数据
GBDT梯度提升模型由多个决策树组成。预测模型的目的是根据输入预测目标值。GBDT使用 已知目标值的_训练数据_来创建模型 ,然后可以将该模型应用于目标未知的观测。如果预测很好地拟合了新数据,则该模型可以 很好地 _推广_。良好的概括是预测任务的主要目标。预测模型可能很好地拟合了训练数据,但泛化性很差。
拓端
2022/04/13
4770
SAS用梯度提升回归树(GBDT)迁移学习预测抵押贷款拖欠风险和垃圾电子邮件数据
推荐阅读
相关推荐
UCI 信用卡数据集的二元分类分析
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文