【前沿】CMU研发算法透明化系统，点亮机器学习黑箱

新智元

发布于 2018-03-22 16:29:50

6380

发布于 2018-03-22 16:29:50

文章被收录于专栏：新智元

【新智元导读】现在的机器学习系统并不是完全安全可靠的，这不仅是因为我们无从得知黑盒子里发生的事情，还因为用人类生成的数据训练机器，难免会把人类的偏见和固有缺陷也教给机器。要实现更好的智能必须解决这些问题。谷歌研究总监认为要设计一种测量方法，将系统生成的结果和系统应该生成的结果区分开来，由此找出并排除偏见。CMU开发的一个系统能够量化机器学习系统各个输入因素对输出结果的影响，打开了黑箱子的第一把锁。

日前，著名人工智能学家、谷歌研究总监 Peter Norvig 在 EmTech Digital 大会上讨论了机器学习在调试和验证方面存在的问题。

传统软件编程使用布尔逻辑，可以通过测试确定软件是否按设计执行。而机器学习编程则是一个黑盒子，计算机自己处理数据，而且数据“一动则全动”，无法使用传统的测试方法进行验证。Novirg 表示，目前机器学习编程验证的方法还在发展之中，谷歌在从事相关研究并有了一些思路，但只取得了非常初级的进展。

那么，既然机器学习调试这么难，为什么还要继续用呢？

Novirg 的观点是，尽管当前在验证方面有局限，但机器学习的优势在于速度快。像语音识别或图像分类等问题的复杂系统解决方案，机器学习的处理速度至少是传统软件的两倍。Novirg 举了一个实际案例并且评价说：“使用机器学习的效率之高，开发人员简直不得不用它”。

需要新的方法和模型

机器学习相对传统编程的优势进一步印证了，我们急需开发新的机器学习验证方法。

对此，Novirg 的提案是，新的验证方法一开始就要把问题所固有的风险、危害和用于解决该问题的技术区分开来。人类能够控制的只有技术解决方案固有的风险和危害。

这种被称为“非平稳性”（non-stationarity）的情形对传统编程和机器学习都有影响。非平稳性意味着，随着时间变化条件也会改变，而那些被设计为在原先条件下工作的系统将变得不那么有效。传统的编程，当现有系统变得不好用时，可以开发新的版本，还可以在发布这个新版本之前对其进行测试和验证，而且这么多年事实证明这些测试和验证的方法是确实有效的。

但对机器学习系统来说，这种验证方式就不再适用了，因为机器学习系统不符合传统编程从研发到测试再到发布这样一个过程。在机器学习系统中，数据持续生产出来、持续地输入到系统之中，同时数据也在不停地对系统进行重新编程，这就使得传统的 step-by-step 方法不再行得通。

Norvig 阐释了他对机器学习验证问题的思考。传统软件测试套件断言的反馈是 “真” “假” 或 “相等”，Norvig 认为机器学习测试断言应该使用评估的方法，比如今天试验的结果 90% 是好的并且与昨天测试结果相一致。

这件衣服是白金相间还是蓝黑相间？有些问题人类也会判断错误。这种情况下，该怎么训练机器对这类问题进行学习呢？图片来源：wired.com

此外，对于现实生活中的一些问题，有时候人类也会判断错误（见上图），甚至不知道真相究竟如何（生命的意义是什么）。那在这种情况下，又该如何使用没有确定结果的数据训练机器呢？

Norvig 认为，在这样的情形中，解决问题的关键不是找到问题的终极正确答案，而是找到一种能够不偏不倚地确定问题答案的方法，例如组建一个评审委员会共同判定结果。

机器“学习”人类错误

机器学习还有一个问题，那就是使用人类产生的数据训练机器学习系统，机器会不可避免地把人类的偏见、错误也复制过去。微软的聊天机器人 Tay 就是一个例子——在 Twitter 上，人们教会了它说各种侮辱性的话、种族主义言论甚至纳粹主义口号。

微软 Tay 所揭示的只是问题的冰山一角。在机器的监督学习过程中，需要雇佣大量人手来为数据打标签，而打标签过程可能给机器带来严重偏见，也很难控制。阿姆斯特丹自由大学的博士生 Emiel van Miltenburg 分析了 Flickr 的标注图片数据库，他发现描绘图片的语句中性别歧视和种族主义偏见很常见。Flickr 一直是把标记图片的任务众包给成百上千个人，然后用这些标记数据来训练神经网络，教会神经网络自动识别和描述图片。这样，成百上千的标记者的偏见也就传递给了标记图片数据和使用这些数据的机器学习程序。

例如，当一男一女在办公室怒目交谈时，标记者会把它描述为“老板正在骂他的女下属”，而这种标记就包含了这样的偏见——女性在企业中总是担任男性的下属。连 Flickr 数据库的首席研究员 Julia Hockenmaier 也承认，“如果我们通过众包得到的图片标记传达了种族主义或性别歧视，我不会感到奇怪，尽管这不是我们的本意”。

Norvig 指出，目前急需设计出一种测量方法，将系统生成的结果和系统应该生成的结果区分开来，由此找出并排除偏见。

打开黑盒子的第一把锁

在昨天刚刚结束的 IEEE Symposium on Security and Privacy 会议上，卡耐基梅隆大学计算机学院副教授 Anupam Datta 等人发表报告，提出了他们开发的量化输入影响（Quantitative Input Influence，QII）系统。QII 系统能揭示机器学习系统的各种输入参数或参数组合各自在什么程度上影响了输出结果，为实现机器学习系统的算法透明性提供了计算基础。

随着基于机器学习算法的决策系统应用增多，人们也愈发意识到，这些决策系统可能会引入一些种族主义、性别歧视或其他危害社会的因素。人们希望决策系统具有算法透明性，能够知晓系统算法的实际输入、处理和输出机制，从而能够对这些危害的产生进行有效监控。

例如，当一个人申请贷款却被机器学习决策系统拒绝时，我们可能想知道，在这个人的年龄、教育状况、性别等因素中，哪些因素或因素组合对机器的决策的影响最大？ QII 系统通过对机器学习过程进行监控，可以对各个输入因素对输出结果的影响力做出量化的评价。

Datta 等人用该系统测量了几个标准机器学习算法，发现在预测犯罪、收入预测等许多场景中，QII 系统都能提供比现有标准测量更好的解释。QII 系统可以用来实现各个领域中机器学习系统的算法透明化，进而防止机器在学习过程中被“教坏”。

参考资料

JORDAN PEARSON：It’s Too Late—We’ve Already Taught AI to Be Racist and Sexist，motherboard.vice.com
Peter Norvig: 'The methodology for scaling [machine learning verification] up to a whole industry is still in progress.' networkworld.com
Carnegie Mellon transparency reports make AI decision-making accountable，eurekalert.org

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-05-26，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法