大数据文摘出品
作者:刘俊寰、牛婉杨
抵制种族歧视最紧张的关头,MIT忽然被牵扯了进去。
在一篇名为《LARGE IMAGE DATASETS: A PYRRHIC WIN FOR COMPUTER VISION?》的论文中,研究者发现,MIT正在使用的一个高引用图片数据集Tiny Images存在强烈种族歧视和厌女症标签。
这个数据库内,当黑人或猴子出现时,标签显示为N*gger这一对黑人的蔑称词汇;此外,身穿比基尼或抱着孩子的妇女的图片被标记为b*tch等这一侮辱性词汇。
这一曝光引发了学术圈的激烈争议。得知消息后,麻省理工学院迅速下线了这一数据集,并发布公告称,由该数据集训练出的AI系统,会潜在地使用种族主义、厌女症和其他激进术语来描述对象,请所有研究员暂停使用和训练。
比如,利用Tiny Images训练的机器学习模型,能够自动识别并列出静止图像中的人和物体,当用户输入公园照片,系统会标注出照片中的儿童、成人、宠物、野餐点、花草和树木。但同时,由于在组合训练集时采用的方法,系统也可能将女性标记为妓女,黑人和亚裔的标记也多带有贬义色彩的词语。
使用该数据集训练出的神经网络的应用程序、网站和其他产品,都很有可能在最终分析照片和视频时出现带有歧视性的术语。
下线该数据库后,MIT还表示,将敦促研究人员和开发人员停止使用培训库,并删除所有副本。
一位教授回应称:“我们深表歉意。”
Tiny Images数据集创建于2008年,包含了8000万个微型图像,主要用于对象检测技术。之所以被命名Tiny Images,是因为该数据集中的图片都足够小,对于比较老旧的图片非常友好,甚至可以支持2000年代末和2010年代初的计算机视觉算法。
从本质上讲,Tiny Images包含了大量照片和带有描述照片内容的标签集合,所有这些都可以输入到神经网络中,以训练神经网络将照片中的图案与描述性标签关联起来。训练完成后,当向该神经网络展示一辆自行车时,它就可以准确地做出判断。
如今,研究员一般会将Tiny Images数据集与更知名的ImageNet数据集一起使用,作为计算机视觉算法的训练基准,不过,与大名鼎鼎的ImageNet不同,到目前为止,还没有人对Tiny Images的内容进行过审查。
最近,硅谷一家专注隐私的初创公司UnifyID的首席科学家Vinay Prabhu和爱尔兰都柏林大学的博士候选人Abeba Birhane对Tiny Images进行了仔细的研究,他们发现,该数据库内包含了成千上万张带有针对黑人和亚洲人的种族主义诽谤标签图像,用于女性的标签也大多带有贬义色彩。
比如,在该数据集中,黑人和猴子图片都加了“N*gger”这一对黑人带有污蔑性质的标签,穿着比基尼或抱着着孩子的女人,会被标记为“w*ore”或“b*tch”。通过把日常生活中的图像与带有侮辱性质的语言联系起来,该数据集就会把偏见传递给了AI模型,再通过AI的输出结果强化了这一偏见。
据了解,Tiny Images中图像主要来源是谷歌,研究人员搜集到这些图像后将它们归类在了75000多个标签下。Tiny Images还拥有一个更小的版本,包含220万张图片,此前可以通过麻省理工学院计算机科学和人工智能实验室的网站上直接访问和读取,不过周一的时候,这个可视化数据集,连同完整的数据集,都从CSAIL网站上被移除了。
这是220万数据集的可视化截图,展示了一些被打上“whore”标签的图片,出于法律原因打上了马赛克。这些照片包括一个穿着比基尼的女人和一个母亲抱着她的孩子,以及圣诞老人的头像照等。
Vinay Prabhu和Abeba Birhane将研究结果写成论文,并打算提交给明年的计算机视觉大会。
论文链接:
https://arxiv.org/pdf/2006.16923.pdf
CSAIL的电子工程和计算机科学教授Antonio Torralba说,实验室根本没有意识到数据集中存在这些冒犯性的图像和标签。“很明显,只能进行手动筛查,对此,我们真诚道歉。事实上,我们已经将数据集下线,这样违规的图片和类别就可以被删除。”
在CSAIL网站上的一份声明中,CSAIL表示,由于图像太小,无法人工进行手动检查和过滤,数据集将永久离线。
该实验室还承认,他们在没有检查是否有攻击性图片或语言被吸收进图书馆的情况下,从互联网上自动获取了这些图片,并敦促人们删除他们的数据副本:
引起我们注意的是,微小的图像数据集包含一些贬义词分类和冒犯的图像。这是依赖于WordNet中的名词的自动数据收集过程的结果。我们对此深表关切,并向可能受到影响的人们表示歉意。
由于数据集太大(8000万幅图像),而图像太小(32 x 32像素),人们很难从视觉上识别其内容。因此,人工检查,即使可行,也不能保证令人反感的图像被完全删除。
所以,我们决定正式撤回数据集。它已经永久下架。我们要求社区今后不要再使用它,并删除任何可能已经下载的数据集的现有副本。
Torralba教授向我们介绍了图片数据库的建设方式:获得了大量单词(包括贬义词),然后编写代码以使用这些单词在网络上搜索图像并将其结合在一起。因此最终得到的是一个包含原始互联网资料的数据集。
Torralba教授说:“这个数据集包含53,464个不同的名词,都是直接从WordNet拷贝过来的。”
WordNet是普林斯顿大学(Princeton University)一个将英语单词分类成相关集的数据库。“然后这些系统就会自动从当时的互联网搜索引擎上下载相应名词的图片,并使用当时可用的过滤器来收集8000万张图片。”
WordNet是在20世纪80年代中期在普林斯顿大学的认知科学实验室中创建的,该实验室由认知心理学创始人之一George Armitage Miller领导。“Miller对单词之间的关系非常着迷,”Prabhu告诉我们。“这个数据库基本上绘制了单词之间是如何关联的。”这也是ImageNet的灵感来源。
例如,“猫”和“狗”的关系比“猫”和“伞”的关系更密切。但是,WordNet中的一些名词是种族主义俚语和侮辱。几十年后的今天,随着学者和开发人员使用数据库作为方便的英语词汇仓库,这些术语困扰着现代机器学习。
Birhane告诉El Reg:“当你构建巨大的数据集时,你需要某种结构。”这就是为什么WordNet非常有必要。它提供了一种方法,为计算机视觉研究人员分类和标签他们的图像。既然你可以用WordNet,为什么还要自己动手呢?”
作为一个单词列表,WordNet本身没什么害处,不过当与图像和AI算法结合在一起时,它可能会产生令人不安的后果。
Birhane说:“这个WordNet项目的目的是绘制出彼此接近的单词。但当你开始把图片和这些词联系起来时,你是在把一个真实的人的照片和那些有害的词语联系起来,这些词语会使人们的成见根深蒂固。”
ImageNet也有同样的问题,因为它也是使用WordNet进行注释的。一项名为“ImageNet Roulette”的实验允许人们将照片提交给由ImageNet训练出来的神经网络,该神经网络将使用数据集中的标签来描述这些图片。不出所料,人们在系统中输入的是他们最感兴趣的照片:自拍,而软件会输出一些种族主义和冒犯性的标签描述他们。
在这些庞大的数据集中,有问题的图像和标签所占的比例很小,并且很容易将其作为异常现象清除掉。Prabhu和Birhane认为,如果将这些材料用于训练现实世界中使用的机器学习模型,则很可能导致真正的伤害。
他们在论文中写道:“缺乏对规范数据集的规范,会对女性、种族和少数民族以及处于社会边缘的弱势个体和社区造成不成比例的负面影响。”
少数群体在AI训练数据集中往往没有得到重视,这也是人脸识别算法在识别女性和肤色较深的人时遇到困难的原因。今年早些时候,底特律的一名黑人被面部识别软件误认为小偷嫌疑人,被警察错误逮捕。
这也是为什么本月早些时候,一个有争议的人工智能算法从低分辨率的快照中生成高分辨率的图像,把一张奥巴马的模糊照片变成更像白人而不是黑人的原因。
Birhane说:“人们不会考虑这些模型将如何应用或将其用于什么领域。他们可能只会想到‘这是我可以做到的一件很酷的事情’,但是,当深入思考,就会开始发现所有潜藏在表面的黑暗的目的,也可以逐渐了解这些危害是如何显现的。”
为收集图像数据,ImageNet和Tiny Images等巨型数据库通常在未经人们同意的前提下,从Flickr或Google Images进行爬取照片。
Facebook目前的做法相比是比较可取的,他们聘请了同意将自己的脸部数据用于数据集的人员,这些数据集旨在教授软件以检测计算机生成的伪造图像。
Prabhu和Birhane表示,社交网络可能是一个好方法,尽管他们也指出,学术研究不太可能有足够的资金支付数据集所需照片量的相关费用。他们说:“我们承认,对于创建理想的数据集,可能不存在绝对完美的方案,但这也并不意味着我们应该放弃尝试。”
他们提出,在关注对象识别的数据集中模糊人脸,仔细筛选图像和标签,去除任何令人反感的材料,甚至使用真实的合成数据训练系统,“完全无需将种族侮辱、色情或儿童色情图片囊括在其中,做好科学和遵守道德标准不会相互排斥”。
学术圈“中枪”在MIT道歉之前就已经有所显现。
昨天,谷歌AI掌门人Jeff Dean因关注了一名种族主义博主卷入纠纷。
简单来说,就是DeepMind在最近的GAN课程中没有提及黑人女性研究员Adji B. Dieng的研究成果PresGAN,被这位女研究者各种责问,甚至在推特上发起了”#CiteBlackWomen(引用黑人女性)#的话题。
随即推特网友@Gwern控诉Dieng有优生主义倾向,这个时候,Dieng在Gwern的关注列表发现了Jeff Dean,并艾特本人,“你也关注了这个人,但我相信你不知道他是一个优生主义者”。目前,Jeff Dean和Deepmind都未作出回应。
再之前,因为一篇被指“种族歧视”的PULSE算法论文,图灵奖得主、Facebook首席AI科学家Yann Lecun在推特上遭遇了飓风般的“网暴”。
为自己辩解两周后,Lecun在推特上宣布,自己将永远退出推特。
再加上今天道歉的MIT,人工智能研究似乎正成为美国弗洛伊德事件的新战场,机器学习圈的伦理讨论是必要还是矫枉过正?你怎么看?