塔说 | 麦克阿瑟天才奖得主解码计算机视觉“原罪”：AI 如何认识人类世界

灯塔大数据

发布于 2018-04-04 14:23:33

8420

发布于 2018-04-04 14:23:33

文章被收录于专栏：灯塔大数据

导读：麦克阿瑟“天才奖”获得者Trevor Paglen训练AI算法，他的展览项目“看不见的图像的研究”（A Study of Invisible Images），反向展示AI如何认识世界。在此过程中，他注意到一些问题，比如作为业界标准的ImageNet数据集中，有很多图像带有奇怪的标签，如今计算机视觉界中使用最多的一张女性图像来自《花花公子》，类似这样的数据问题以不显眼但深刻的方式影响着AI研究、应用和AI元素越来越多的整个社会。

日前，一系列令人着迷的图像显示了计算机在被输入西方文学、哲学和历史作品中的图像和符号后，能够“看到”的东西，这些内容简直太令人熟悉——原来，人工智能里有卡拉瓦乔，有维米尔、有弗朗西斯·培根、达利……如果你努力，甚至还能看到爱德华·霍普。

虽然看上去与古典大师作品十分类似，但这些奇怪而生动的场景并非出自人类大师之手。它们是我们未来的主人——人工智能算法的产物。而这些AI算法则出自艺术家Trevor Paglen之手，他上周刚刚获得了50万美元的麦克阿瑟“天才”奖。

计算机视觉中使用最广泛的一张女性图像，是《花花公子》的“11月小姐”

现年43岁Paglen认为，他的使命是聚焦我们周围的数据交换、监控和自动化数据结构。他最近尝试将相机对准世界的观察者——各种监控摄像头，Paglen深入了自动化系统的大脑，揭示了AI系统“眼中所见的事物”。

Paglen在纽约市Metro Pictures画廊的新展览，揭示了“云的内部是什么样的？”“人工智能系统实际看到的世界是什么样的？”

“彗星”（由AI创作，它被训练来识别与历史上的预示、征兆有关的事物，例如彗星、日食、彩虹、黑猫、人脸形状的云）(Courtesy of Trevor Paglen and Metro Pictures, New York)

他的展览项目，称为“看不见的图像的研究”（A Study of Invisible Images），显示了研究人员用来训练算法进行标注、分类的图像，展现了AI是如何处理风景、脸部或手势的，以及AI生成的巴洛克风格的艺术。

Paglen将AI训练图像集称为计算机视觉的“亚当和夏娃”。这些图像中包括了美军在上世纪90年代开始收集整理的，面部识别技术（FERET）计划中的肖像，这是美军用于教授计算机识别人脸的图像，并成为此后计算机视觉研发的基础。

美军在上世纪90年代开始收集整理的，面部识别技术（FERET）计划中的肖像，最初是一个军事计划，后来成为计算机视觉研究的基础。

计算机视觉已经广泛应用于人们的生产和生活中，从在机场登记到监控工场生产管理。所有的这一切都始于像FERET这样的训练数据库，而这里库里的图像标签可能带有少数研究人员无意识的偏见，还由可能来自于未经训练的Mechanical Turk外包人员，以及实习生的偏见。

在去年发表在 New Inquiry上的一篇文章中，Paglen描述了CNN的识别误差：

将印象派与写实派大师马奈的作品“Olympia”喂给在ImageNet训练的CNN，这个CNN将这幅画分类成立“卷饼”（burrito）。

马奈的作品“Olympia”

或许，值得一提的还有计算机视觉中最着名的“夏娃”：Lenna，一名瑞典女性，其形象被《花花公子》杂志撕毁，并于1972年被南加州大学的工程师扫描复原。后来《花花公子》杂志授权，Lenna的形象获得许可，出现在了世界各地的研究中，成为图像处理测试的行业标准。自此，《花花公子》一张“11月小姐”的图片已经成为计算机视觉研究中使用最广泛的女性图像之一。这也正是Paglen希望提醒公众注意的“研究者选择偏见”。

莱娜图（局部）：莱娜图（Lenna）是指刊于1972年11月号《花花公子》上的一张裸体插图照片的一部分，是一张大小为512x512像素的标准测试图。该图在数字视频处理学习与研究中颇为知名，常被用作数字视频处理各种实验（例如数据压缩和降噪）及科学出版物的例图。来源：维基百科

《IEEE图像处理汇刊》（IEEE Transactions on Image Processing）的主编戴维·蒙森（David C. Munson），在1996年1月引用了两个原因来说明莱娜图在科研领域的流行：

“ 首先，该图片很好的包含了平坦区域、阴影和纹理等细节，这些都有益于测试各种不同的图像处理算法。它是一幅很好的测试照片！其次，由于这是一个非常有魅力女人的照片。因此，多数由男性组成图像处理研究行业倾向于使用他们认为很有吸引力的图片，也并不令人惊奇。

人脸检测可能是计算机视觉中最令人担忧的应用。今天，在广泛使用的图像处理数据库ImageNet中，一些随机的个人照片仍然被标记为“jezebel（译注：耶洗别，《旧约圣经》中的负面人物，以色列王国国王亚哈的王后，个性冷酷）”和“犯罪”，不知道在多少的时间里默默地影响着分类和识别的结果。

“这到底是什么？”Paglen说：“谁在发明这些类别，为什么有这些类别，而没有那些？是谁决定这些东西看起来是什么样的？

偏见是一种特征，不是bug

Paglen 的工作室有一个全职的程序员，以及其他工作人员。使用定制的平台“Chair”，工作室可以运行自己的计算机视觉测试，在新的数据集上训练AI，并生成显示出AI所学习的东西的图像。Chair 应用了不同的机器视觉算法，包括 Caffe, Tensor Flow, Dlib, Eigenface, Deep Visualization Toolbox 和 Open CV。

在一个例子中，Paglen 对他的同事 Hito Steyerl 进行了面部分析。数百张快照拍下了她的各种表情，包括做鬼脸、大笑、打哈欠、叫喊、愤怒、微笑等等。每一张照片都带有 AI 对 Steyerl 的年龄、性别和情绪状态的猜测。在一张照片中，她被评估为74%的可能是女性。

提出这样一个复杂的问题可能是荒谬但却简单的：计算机是否应该尝试测量存在不可分割的特征，例如性别、社会属性、性格等——在没有询问它们的主题的情况下？（其次，100%的女性应该是什么样子的？）

图：机器可读的 Hito, 2017. 来源：Trevor Paglen, “A Study of Invisible Images.”

AI视觉及其应用的这些盲区能被纠正吗？

Paglen坚持认为，基于外表进行分类是一种根本上的危险行为。他说：“我认为，种族主义是机器学习的一个特征（feature）——而不是一个bug。”“这就是你想要做的事情：你试图根据元数据标签来区分不同的人，而种族就是一个最大的元数据标签，你不会想要把它从系统中拿出来的。”

即使可以消除机器视觉在训练过程中的偏见，你仍然会担心计算机视觉在影响现实世界的过程中的不透明性。计算机已经越来越多地为你做决定，基于大量的训练数据和图像库，而这些数据和图像对于那些对机器视觉研究不了解的人来说基本上是不可得的。这可能很快就会使传统的问责制度变得更加复杂：未来，在企业或执法机构中使用计算机视觉技术的人可能无法追溯AI是如何做出决定的，更不可能让这一过程对消费者和公民透明。

Paglen 想警醒我们的正是这种看不见的过程，他写了一些书，包括《盲点》（Blank Spots on the Map: The Dark Geography of the Pentagon’s Secret World）和《视而不见：分类中看不见的运算》（Invisible: Covert Operations and Classified Landscapes）。

AI 如何将人类概念绘制成图：超现实主义审美，揭露你或许不曾留意的本质

在某种程度上，Paglen 当前的展览中，AI生成的艺术部分还是相当“黑暗”的。

为了创建它，艺术家的团队训练AI来识别数据库中的图像。这些图像主要是视觉隐喻或符号，代表了哲学，当代文化，文学和精神分析等主题。例如，用于训练人工智能识别“吉兆”或“凶兆”的数据库，包括彩虹和黑猫的图像，而“美国的捕食者”数据库包括北美当地的食肉动物和植物的图像以及美国的图像无人机，隐形轰炸机和Facebook创始人马克·扎克伯格。

然后，AI被要求生成对这些概念进行描绘的草稿。Paglen说：“我们可以让它画出数以万计的图片，然后从中挑选出一些能引起我的共鸣的照片”，为机器人画家扮演策展人角色的Paglen说。

最终的选择是梦幻般的，总是有一点点融化的物体和朦胧的风景。Paglen说，美学并不是偶然的。 “有这样一种哥特式，甚至是超现实主义的审美观念。这实际上是非常有意思的，就像任何一个艺术家想要了解一些关于我们现在所处的当下和政治的时刻的东西。”