专栏首页arxiv.org翻译专栏用于自动检测多模态歧视妇女内容的带文本转录的模因基准数据集

用于自动检测多模态歧视妇女内容的带文本转录的模因基准数据集

在本文中,我们提出了一个基准数据集生成的一个项目,自动识别厌女症的在线内容,其中特别侧重于模因。这里描述的基准是由800条从最流行的社交媒体平台,如 Facebook,Twitter,Instagram 和 Reddit,以及专门收集和创建迷因的咨询网站收集的迷因组成的。为了收集厌恶女性的文化基因,特定的关键词指向厌恶女性的内容被认为是搜索标准,考虑到对女性的仇恨的不同表现形式,如身体羞辱,陈规定型,客观化和暴力。同时,没有厌恶女性内容的文化基因也是从同一个网站手工下载的。在所有收集到的模因中,三位领域专家选择了一个800个模因的数据集,这些模因平衡了厌恶女性和非厌恶女性的模因。这一数据集已通过一个众包平台得到验证,涉及标签流程的60个主题,以便为每个实例收集三个评价。从专家和众包平台上又收集了两个二进制标签,用于评估米姆是否厌恶女性,是否具有攻击性和讽刺性。最后,对于每个模因,文本都是手工转录的。因此,所提供的数据集由800个模因、专家给出的标签和众包验证获得的标签以及转录的文本组成。这些数据可以用来解决依靠文本和视觉线索自动检测网络上歧视妇女内容的问题,面对日益增长的现象,如网络性别歧视和技术推动的暴力。

原文题目:Benchmark dataset of memes with text transcriptions for automatic detection of multi-modal misogynistic content

原文:In this paper we present a benchmark dataset generated as part of a project for automatic identification of misogyny within online content, which focuses in particular on memes. The benchmark here described is composed of 800 memes collected from the most popular social media platforms, such as Facebook, Twitter, Instagram and Reddit, and consulting websites dedicated to collection and creation of memes. To gather misogynistic memes, specific keywords that refer to misogynistic content have been considered as search criterion, considering different manifestations of hatred against women, such as body shaming, stereotyping, objectification and violence. In parallel, memes with no misogynist content have been manually downloaded from the same web sources. Among all the collected memes, three domain experts have selected a dataset of 800 memes equally balanced between misogynistic and non-misogynistic ones. This dataset has been validated through a crowdsourcing platform, involving 60 subjects for the labelling process, in order to collect three evaluations for each instance. Two further binary labels have been collected from both the experts and the crowdsourcing platform, for memes evaluated as misogynistic, concerning aggressiveness and irony. Finally for each meme, the text has been manually transcribed. The dataset provided is thus composed of the 800 memes, the labels given by the experts and those obtained by the crowdsourcing validation, and the transcribed texts. This data can be used to approach the problem of automatic detection of misogynistic content on the Web relying on both textual and visual cues, facing phenomenons that are growing every day such as cybersexism and technology-facilitated violence.

原文链接:https://arxiv.org/abs/2106.08409

原文作者:Francesca Gasparini, Giulia Rizzi, Aurora Saibene, Elisabetta Fersini

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 女神节先别高兴太早,人工智能正在扩大职场性别歧视

    导读:很多人认为,既然AI(人工智能)是最新的技术,那一定代表着进步。那么,AI真的带来了职场的性别平等和社会进步吗?

    华章科技
  • 引用量比肩ImageNet的数据集被下线!给黑人标N*gger,比基尼姑娘标记妓女,MIT道歉

    在一篇名为《LARGE IMAGE DATASETS: A PYRRHIC WIN FOR COMPUTER VISION?》的论文中,研究者发现,MIT正在使...

    大数据文摘
  • 程序员逻辑测试题(4)

    一些人对某法官在针对妇女的性别歧视案中的客观性提出疑问。但是有记录表明:在60%的这类案例中,法官的决定对妇女有利,这个记录表明法官在针对妇女的性别歧视案件中并...

    剑走天涯
  • MIT下架偏见性数据集,Bengio兄弟建议多引少数群体的论文:BLM运动持续

    轰轰烈烈的「Black Lives Matter」运动已经持续了一个多月,虽然已有缓和迹象,但整体运动开始往各领域蔓延,包括学术界。

    机器之心
  • 久混科技圈的女神们,真的还会在意节日福利吗?

    VRPinea
  • 近亿级数据集下线,MIT道歉,ImageNet 亦或遭殃

    麻省理工学院(MIT)已永久删除包含8000万张图像的Tiny Images数据集。

    AI科技评论
  • 社交媒体分析:洞察希拉里面对的性别歧视

    大数据文摘
  • 算法决策兴起:人工智能时代的若干伦理问题及策略|AI观察

    本文系根据腾讯研究院研究员曹建峰在“全球人工智能技术大会·2017”的分论坛“AI变革时代的智能系统测评分论坛”上的演讲整理而来。 ? 大家好!很荣幸今天有...

    腾讯研究院
  • ImageNet训练的AI,把白人认成黑人,给人贴上“酒鬼”“连环杀手”标签,网友不能忍

    不止如此,AI还常常带有偏见,带有攻击性,比如骂一个妹子蠢 (Foolish Woman) :

    量子位
  • 妇女节|庆祝节日的同时,别忘记维护自己的合法权益

    VRPinea
  • 解密幸福婚姻:心理学家+40年研究+3000对情侣数据

    心理学家高特曼夫妇给出了肯定的答案。通过40年的情侣和婚姻关系研究,他们收集实验数据并用数学的方法建立模型,预测哪些夫妇不能白头偕老。

    华章科技
  • 腾讯乐享背后的女人们

    她基本总是最早来到公司,除了桌上永远都有三、四杯咖啡,还铺满了打印好的用户需求,商务经理们还要手写大字报,随时“威胁”她!

    腾讯乐享
  • 依图医疗CEO:解读首登Nature Medicine的中文NLP辅诊研究成果

    AI掘金志按:以医学影像分析起家的依图医疗,其实也早已在医学NLP领域默默耕耘两年多。近日,其联合广妇儿研发的中文AI辅诊系统一炮打响。因相关论文是「全球首次」...

    AI掘金志
  • 解密幸福婚姻:心理学家+40年研究+3000对情侣数据

    大数据文摘
  • 2019年AI年度主题:公众对面部识别更加警惕,反对浪潮汹涌

    近日,纽约大学AI Now Institute 第四届年度AI Now研讨会在纽约大学举办,AI Now联合创始人凯特·克劳福德(Kate Crawford)和...

    新智元
  • 人工智能续写贝多芬生前未完成的《第十交响曲》【智能快讯】

    AI 无处不在的时代,每天都有新的技术与研究成果出现。无论学术界还是商界,技术还是产品,AI 的新发现都源源不断,在带给我们全新视角的同时,也引起我们更深的思考...

    HyperAI超神经
  • Stata广义矩量法GMM面板向量自回归 VAR模型选择、估计、Granger因果检验分析投资、收入和消费数据

    面板向量自回归(VAR)模型在应用研究中的应用越来越多。虽然专门用于估计时间序列VAR模型的程序通常作为标准功能包含在大多数统计软件包中,但面板VAR模型的估计...

    拓端
  • CVPR 2020 满分 | 挖坑等跳,FineGym,一个面向细粒度动作分析的层级化高质量数据集

    本文介绍的是CVPR2020 满分论文《FineGym: A Hierarchical Video Dataset for Fine-grained Actio...

    AI科技评论
  • 破解性别歧视,助力职业发展

    如果你说“我真的觉得没有、我没经历过、我觉得,从小到大似乎都是男女平等的”。那说明你生活在一个非常友好环境;有非常开明的父母给你营造了一个很好的成长空间;在学校...

    叶锦鲤

扫码关注云+社区

领取腾讯云代金券