首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

清华大学和芯翌科技联合发布全球最大公开人脸数据集

此前,芯翌科技在NIST-FRVT戴口罩人脸识别评测中以绝对优势获得世界第一的成绩,并在FRVT 1:1人脸识别评测中取得了世界前三,国内主流厂商第一的成绩。

如今,中国队在人脸识别领域再次传来捷报,芯翌科技与清华大学自动化系智能视觉实验室合作,推出了全球最大的公开人脸数据集WebFace260M。该数据集包含数百万ID和数亿图片,旨在进一步推动人脸识别相关技术的进步,促进智能化行业的发展,助力AI时代科技创新。

人脸数据集的发布背景

手机解锁、上班打卡、购物付钱、乘坐火车……人脸识别已经融入到我们日常生活的方方面面,实现了大规模落地。但当前人脸识别仍然面临公开数据规模小、标准混杂、测评无法对齐、公开数据和实际人脸识别系统所需数据规模差距过大等问题,制约着人脸识别进一步发展。

在WebFace260M发布之前,公开的数据规模都较小,此前规模最大的就是MegaFace2和MS1M,分别拥有67.2万ID和470万图片,以及10万 ID和1000万图片。如此规模的公开数据,对于科研人员来说,是远远无法满足实际人脸识别系统的数据需求。

此外,评测准则和测试集也是影响人脸识别技术进一步发展的重要因素。据了解,目前公开的人脸识别评测集,包括LFW、CFP、AgeDB、RFW、MegaFace、IJB系列等,在精度上基本已经比较饱和。

同时,还存在不同场景下表现不够细致的情况,没有持续迭代、升级和维护,也没有根据实际应用限制搭建评测准则。

因此,WebFace260M的推出,在一定程度上可以说是拉近了公开数据集规模与实际应用产业界的这条鸿沟,进一步推动以深度学习为核心的人脸识别相关技术的进步,促进智能化行业的繁荣发展。

全球之最的人脸数据集,长什么样?

WebFace260M数据集是完全基于全球互联网公开人脸数据,它的问世,一举打破了此前人脸数据集的规模:不仅规模最大,也是首次在人脸ID数目和图片数,分别达到了400万和2.6亿的规模,将很大程度上推动以深度学习为基础的人脸识别相关技术发展。

(WebFace260M人脸数目和图片张数上远超其他公共数据集,图片摘自论文)

研究团队从互联网上收集了共计4百万的姓名列表,并下载了2.6亿张人脸图片。然后设计了一个自动利用自我训练(CAST)流水线来对庞大的数据库进行清洗。数据库拥有高效且可扩展的特性。

(数据清洗过程,图片摘自论文)

据悉,净化后的WebFace42M是目前全球规模最大的可直接用于训练的干净人脸数据集。该数据集包含200万ID和4200万图片,ID数目和图片数目相比目前使用最广泛、最受认可的公开数据集MS1MV2都提高了一个数量级以上。

(清洗过后的人脸姿势、年龄以及人种分布,图片摘自论文)

出于期望缩小学术界和产业之间的数据差距的目的,团队参照实际场景,构建了Inference Time conStraint(FRUITS)协议和测试集来全面评估人脸识别数据库。利用FRUIT协议,团队开发了一个分布式框架来有效地训练人脸识别模型,而不影响其性能。

(WebFace260M与其他公开数据集在IJB-C上的表现,图片摘自论文)

在WebFace42M的支持下,我们在具有挑战性的IJB-C集上降低了40%的失败率,在NIST-FRVT 1:1人脸识别评测中的430个条目中排名世界第三。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210317A05G2K00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券