首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

重磅!IBM研究院发布百万级“人脸多样性”数据集DIF,推进人脸识别系统公平性研究

关键时刻,第一时间送达

前言

2019年1月30日,IBM在arXiv上发表一篇论文:《Diversity in Faces》。该论文系统且全面性介绍了这个DIF百万"人脸多样性"数据集。

论文

《Diversity in Faces》

pdf: https://arxiv.org/abs/1901.10436

Abstract:人脸识别是人工智能(AI)领域的长期挑战。目标是创建准确检测,识别,验证和理解人脸的系统。由于与姿势,分辨率,照明,遮挡和视点相关的混杂因素,使这些系统准确存在显著的技术障碍,特别是在无约束设置中。然而,随着神经网络的最新进展,人脸识别已经实现了前所未有的准确性,主要建立在数据驱动的深度学习方法之上。虽然这是令人鼓舞的,但是限制人脸识别准确性和公平性的一个关键方面是固有的面部多样性。每张脸都不一样。每张脸都反映出我们独特的东西。我们的遗传 - 包括种族,民族,文化,地理 - 以及我们的个人认同 - 年龄,性别和其他可见的自我表现形式,反映在我们的面孔中。我们希望人脸识别能够同样准确地适用于每个人脸。由于我们依靠数据驱动的方法来创建人脸识别技术,我们需要确保训练数据必要的平衡。然而,关于如何表示和提取相关的人脸特征以及定量测量人脸多样性仍然存在科学问题。为实现这一目标,“人脸多样性”(DIF)提供了一百万个带注释的人脸图像数据集,用于推进人脸多样性研究。使用来自科学文献的十个完善的人脸编码方案生成注释。人脸编码方案提供人类可解释的人脸特征量化测量。我们相信,通过在大量人脸上提供提取的编码方案,我们可以加快研究和开发,以创建更公平和准确的人脸识别系统。

IBM AI研究院官方对DIF数据集进行了详细介绍:

https://www.ibm.com/blogs/research/2019/01/diversity-in-faces/

官方介绍

你有过不公平待遇吗?它是如何让你感觉到的?可能不太好。大多数人普遍认为,更公平的世界是一个更美好的世界,我们的AI研究人员也十分同意这一点。这就是为什么我们利用科学的力量来创建更公平和准确的AI系统。

我们最近在AI中取得的许多进展为计算机提供了卓越的功能,可以完成越来越复杂和重要的任务,例如跨语言翻译语音以跨越跨文化交流,改善人与机器之间复杂的交互,并自动识别视频内容以帮助安全应用。

今天人工智能的大部分功能来自于使用数据驱动的深度学习来通过使用不断增长的数据来训练越来越精确的模型。然而,这些技术的优势也可能是一个弱点。人工智能系统会学习他们所教授的内容,如果他们没有使用强大而多样化的数据集进行教学,那么准确性和公平性就会受到威胁。出于这个原因,IBM以及AI开发人员和研究社区需要考虑我们用于训练的数据。IBM仍致力于开发人工智能系统,以使世界变得更加公平/平等(fair)。

今天,制作满足公平期望的面部识别系统可能会遇到困难。问题的核心不在于人工智能技术本身,而在于人工智能的人脸识别系统是如何训练的。为了使人脸识别系统能够按照要求执行 - 并且结果变得越来越准确 - 训练数据必须是多样的并且提供广泛的覆盖范围。例如,训练数据集必须足够大且足够不同,以使技术能够学习人脸不同的所有方式,以便在各种情况下准确识别这些差异。图像必须反映我们在世界中看到的人脸特征的分布。

我们如何衡量和确保人脸的多样性?一方面,我们熟悉人脸在年龄,性别和肤色方面的差异,以及不同面部在某些尺寸上的差异。人脸识别技术的重点在于它在这些属性中的表现如何。但是,正如先前的研究所表明的那样,这些属性只是这个难题的一部分,并不完全足以表征人脸的完整多样性。人脸对称,人脸对比度,面部姿势,面部属性(眼睛,鼻子,额头等)的长度或宽度等尺寸也很重要。

今天,IBM Research正在发布一个名为Diversity in Faces(DiF)的新的大型多样化数据集,以推进人脸识别技术的公平性和准确性研究。DiF是全球学术界首次提供的,它提供了100万个人脸图像注释的数据集。使用来自YFCC-100M知识共享数据集的公开图像,我们使用科学文献中的10个完善且独立的编码方案对表面进行注释。 [1-10]编码方案主要包括人脸的客观测量,如颅面特征,以及更多的主观注释,如人类标记的年龄和性别预测。我们相信通过在100万张人脸图像的大型数据集上提取和发布这些人脸编码方案注释,我们将加速AI人脸识别系统的数据多样性和覆盖范围的研究,以确保更加公平和准确的AI系统。今天的发布只是第一步。

我们相信DiF数据集及其10种编码方案为全球研究人脸识别技术的研究人员提供了一个起点。10种面部编码方法包括颅面(例如,头部长度,鼻子长度,前额高度),面部比率(对称性),视觉属性(年龄,性别),以及姿势和分辨率等。这些方案是科学文献中最强的一些方案,为我们的集体知识奠定了坚实的基础。

数据集申请网址

https://www.research.ibm.com/artificial-intelligence/trusted-ai/diversity-in-faces/

这么硬的干货,不给个好看?!

欢迎给我"好看"!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190131G064Z900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券