专栏首页arxiv.org翻译专栏概率公平聚类(CS AI)
原创

概率公平聚类(CS AI)

在聚类问题中,中央决策者将获得关于顶点的完整度量图,并且必须提供将某些目标函数最小化的顶点聚类。在公平聚类问题中,顶点具有一种颜色(例如,组中的成员资格),并且有效聚类的特征也可能包括该聚类中颜色的表示。公平集群中的先前工作假定您完全了解组成员身份。在本文中,我们通过假设概率分配对组成员身份的知识不完善来概括先前的工作。我们在这种具有近似率保证的更通用的设置中提出了聚类算法。我们还解决了“度量标准成员身份”问题,其中不同的组具有顺序和距离的概念。

原文标题:Probabilistic Fair Clustering

原文:In clustering problems, a central decision-maker is given a complete metric graph over vertices and must provide a clustering of vertices that minimizes some objective function. In fair clustering problems, vertices are endowed with a color (e.g., membership in a group), and the features of a valid clustering might also include the representation of colors in that clustering. Prior work in fair clustering assumes complete knowledge of group membership. In this paper, we generalize prior work by assuming imperfect knowledge of group membership through probabilistic assignments. We present clustering algorithms in this more general setting with approximation ratio guarantees. We also address the problem of "metric membership", where different groups have a notion of order and distance. Experiments are conducted using our proposed algorithms as well as baselines to validate our approach and also surface nuanced concerns when group membership is not known deterministically.

原文作者:Seyed A. Esmaeili, Brian Brubach, Leonidas Tsepenekas, John P. Dickerson

原文地址:https://arxiv.org/abs/2006.10916

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 在连续或大型离散行动空间中进行规划的边际工具(CS AI)

    基于样本的计划是一种功能强大的算法系列,可以根据环境模型生成智能行为。产生良好的候选动作对于基于样本的计划者的成功至关重要,特别是在连续或大型动作空间中。通常,...

    刘子蔚
  • 使用软屏蔽BERT纠正拼写错误(CS CL)

    拼写错误纠正是一项重要而又具有挑战性的任务,因为令人满意的解决方案本质上需要人类水平的语言理解能力。在不失一般性的前提下,我们在本文中考虑了中文拼写错误纠正(C...

    刘子蔚
  • 具有参数化数据的Petri网:建模和验证(扩展版)(CS AI)

    在过去的十年中,已经提出了各种方法来将业务流程与不同类型的数据集成在一起。每种方法都反映了整个过程数据集成范围内的特定需求。一个特别重要的一点是,这些方法能够灵...

    刘子蔚
  • 开发 | 机器学习之确定最佳聚类数目的10种方法

    AI科技评论按,本文作者贝尔塔,原文载于知乎专栏数据分析与可视化,AI科技评论获其授权发布。 在聚类分析的时候确定最佳聚类数目是一个很重要的问题,比如kmean...

    AI科技评论
  • 【机器学习】确定最佳聚类数目的10种方法

    在聚类分析的时候确定最佳聚类数目是一个很重要的问题,比如kmeans函数就要你提供聚类数目这个参数,总不能两眼一抹黑乱填一个吧。之前也被这个问题困扰过,看了很多...

    小莹莹
  • 常用图像分类功能包

    为了能够有效地识别位置,我们需要提取表征图像的特征,之后将相同的特征分成一组,并搜索相似的图像。当然位置识别也可以应用于其他程序,例如在图像恢复我们也需要查找相...

    小白学视觉
  • 算法研习:K-means聚类和分层聚类分析

    无监督学习是机器学习的另一大分支,与监督学习不同,无监督学习的数据集中没有数据标签,因此无法像监督学习的分类和回归问题那样学习对应标签的数据特征,无监督学习只能...

    深度学习与Python
  • 深入浅出聚类算法!如何对王者英雄聚类分析,探索英雄之间的秘密

    寄语:首先,对聚类算法进行了介绍;然后,解释了EM算法E步、M步的原理;最后,对sklearn参数进行了详解,并对王者荣耀英雄利用EM算法聚类,助力深入理解EM...

    Datawhale
  • 爆料!百度与手机厂商一起谋划大事,要给搜狗IPO添堵?

    几天之后,王小川就会在美国敲钟,搜狗圆梦IPO,搜狐和腾讯会成为大赢家。而说到搜狗就不得不提中文搜索老大百度。搜狗体量距离百度有距离,谈不上大的威胁,不过,搜狗...

    罗超频道
  • 【AlexeyAB DarkNet框架解析】十,池化层代码详解(maxpool_layer.c)

    继续阅读DarkNet的源码,今天主要来讲一下池化层的构造,前向传播,和反向传播。池化层的实现在src/maxpool_layer.c中。

    BBuf

扫码关注云+社区

领取腾讯云代金券