专栏首页arxiv.org翻译专栏在Reddit中发现并分类语言偏见 (CS CL)
原创

在Reddit中发现并分类语言偏见 (CS CL)

我们提出了一种数据驱动的方法,使用词嵌入来发现讨论平台Reddit上的语言偏见并进行分类。作为独立的用户社区空间,Reddit等平台与种族主义、性别歧视和其他形式的歧视问题联系越来越紧密。因此,有必要监控这些群体的语言。在大型文本数据集中追踪语言偏差的最有前途的人工智能方法之一涉及单词嵌入,它将文本转化为高维密集向量并捕获单词之间的语义关系。然而,以前的研究需要预先定义潜在偏见集再研究,例如,性别是否与特定类型的工作有更多或更少的关联。这使得这些方法不适合处理较小的和以社区为中心的数据集,例如Reddit上的数据集,这些数据集包含较小的词汇表和俚语,以及可能是该社区特有的偏见。本文提出了一种数据驱动的方法来自动发现Reddit上在线社区词汇中编码的语言偏见。在我们的方法中,受保护的属性被连接到数据中发现评价性词语,然后通过语义分析系统进行分类。我们通过比较我们在谷歌新闻数据集中发现的偏见和以往文献中发现的偏见,来验证我们方法的有效性。然后,我们成功发现了不同Reddit社区中的性别偏见、宗教偏见和种族偏见。最后,我们讨论了这种数据驱动偏见发现方法的潜在应用场景和局限性。

原文题目:Discovering and Categorising Language Biases in Reddit

原文:We present a data-driven approach using word embeddings to discover and categorise language biases on the discussion platform Reddit. As spaces for isolated user communities, platforms such as Reddit are increasingly connected to issues of racism, sexism and other forms of discrimination. Hence, there is a need to monitor the language of these groups. One of the most promising AI approaches to trace linguistic biases in large textual datasets involves word embeddings, which transform text into high-dimensional dense vectors and capture semantic relations between words. Yet, previous studies require predefined sets of potential biases to study, e.g., whether gender is more or less associated with particular types of jobs. This makes these approaches unfit to deal with smaller and community-centric datasets such as those on Reddit, which contain smaller vocabularies and slang, as well as biases that may be particular to that community. This paper proposes a data-driven approach to automatically discover language biases encoded in the vocabulary of online discourse communities on Reddit. In our approach, protected attributes are connected to evaluative words found in the data, which are then categorised through a semantic analysis system. We verify the effectiveness of our method by comparing the biases we discover in the Google News dataset with those found in previous literature. We then successfully discover gender bias, religion bias, and ethnic bias in different Reddit communities. We conclude by discussing potential application scenarios and limitations of this data-driven bias discovery method.

原文作者:Xavier Ferrer, Tom van Nuenen, Jose M. Such, Natalia Criado

原文地址:https://arxiv.org/abs/2008.02754

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据定制索引的代价:病毒对学习型索引结构的攻击 (CS CR)

    学习型索引结构的概念依赖于这样一种想法,即数据库索引的输入输出功能可以被看作是一种预测任务,因此,可以使用机器学习模型而不是传统的算法技术来实现。这个新颖的角度...

    Antonia
  • 引领数字社会经济提高效率—通证经济学入门 (CS CY)

    互联网的下一个进化步骤已经到来了是通过使用加密安全和数字稀缺的代币来实现。加密代币代表了加密运动的一种新现象,它能够通过编程规则和激励机制来引导参与者的行为,使...

    Antonia
  • 通过在线社交网络确定广告活动的最佳目标k (CS SI)

    我们提出了一种新颖的方法,用于向广告商(如品牌)推荐可能的客户(用户),主要基于两个方面。(1)在线社交网络的资料比较,和(2)在线社交网络的邻域分析。用户和品...

    Antonia
  • 在不确定的情况下,转向数据驱动的平权行动政策(cs)

    本文研究的是在一个集中式系统下的大学招生,该系统使用等级和标准化考试分数来匹配申请者的大学项目。本文考虑的是平权行动政策,旨在增加来自弱势群体的录取人数。由于这...

    用户7454091
  • 【redis从入门到上线(1)】- 初识redis及部署

    Redis是一个开源(BSD许可),内存存储的数据结构服务器,可用作数据库,高速缓存和消息队列代理。它支持字符串、哈希表、列表、集合、有序集合,位图,hyper...

    一条老狗
  • 分布式 | DBLE Release Notes 详细解读 2.20.04.0

    以下对 DBLE 2.20.04.0 版本的 Release Notes 进行详细解读。

    爱可生开源社区
  • translateY()——动画示例

    Html5知典
  • rotate3d()

    Html5知典
  • CSS中的计数器

         <p>Place the flour in a large bowl, make a well in the centre and pour in t...

    大江小浪
  • Vivado Non-Project模式

    read_verilog [ glob ./sources_1/imports/new/*.v ]

    瓜大三哥

扫码关注云+社区

领取腾讯云代金券