那些打着AI万金油旗号的产品欺骗大众，如何识别?

AI科技大本营

发布于 2019-12-11 17:22:27

4140

发布于 2019-12-11 17:22:27

文章被收录于专栏：AI科技大本营的专栏

作者 | Arvind Narayanan

译者 | 刘畅

出品 | AI科技大本营（ID:rgznai100）

如今，很多打着AI名号售出的产品都属于万金油系列，没什么实质性的功能。为什么会这样？我们应该如何识别这类AI？

幻灯片上是评估性格和工作合适性的30秒视频

数以百万计的求职者已经接受了这类算法的评估。上图是来自某家公司的促销视频截图。这些系统声称甚至不用理会应聘者说的内容，根据肢体语言和语音就可以分析一个应聘者。

基本常识会告诉我们这不可能，但是AI专家会说这是可能的。而实际上这个产品只是一个精心制作的随机数生成器。

这些公司筹集了数亿美元，并且积极的占领客户。伪造AI来筛选求职者的现象变得越来越严重。这张PPT显示了该问题有多严重，其中的表格来自https://arxiv.org/abs/1906.09208

人们正在学习如何利用这些虚假系统来工作，并在社交媒体上分享一些恐怖的故事

这为什么会发生？为什么人事部门如此容易受欺骗？除了雇佣，其它哪些领域还有打着AI旗号的万金油工具？

以上是作者的关于为什么有如此多的AI万金油工具，以及为什么决策者会被它们欺骗的假设。

例如，AlphaGo是一项非凡的成就，并且值得称赞。大多数专家都没想到这种可能。

但是，它与声称可以预测工作绩效的工具之间，却大相径庭。

媒体大肆宣传公司可以将AI作为解决所有问题的解决方案。因此，美国公众认为，所有工种的自动化仅10年之遥！

如果决策者认为这种根本性变革即将到来，请想象一下它将如何扭曲我们正在进行的优先事项。我相信在如今社会这实际上是正在发生的。

请注意，AI专家对人工智能或强AI的预测距离尚有50多年之久，但是历史告诉我们，即使是专家，也往往对AI的发展太乐观了。

让我们更具体一点。我将把AI应用程序分为三类（并非详尽无遗）。

这张幻灯片上的所有内容都是一个识别问题（Deepfakes并不是纯粹的识别而是紧密相关的。它们是使用生成对抗网络来实现的）。识别是人工智能快速发展的几个领域之一。

在这张幻灯片上的所有任务中，AI都已经达到或超过了人类的准确性，并且正在不断迅速提高。

取得进展的根本原因是，这些任务没有不确定性或模棱两可。给定两张图像，关于它们是否代表同一个人是有一个基本事实。因此，如果有足够的数据和计算能力，人工智能能够学到将一张脸与另一张脸区分开的模式。人脸识别存在一些明显的失败，但是我很高兴地预测它将能变得更加准确（不过这也正是我们应该担心的原因）。

第二类是关于尝试自主判别的应用程序。人的思维是具有启发性的，例如什么是垃圾邮件，而不是垃圾邮件，并且给出足够的例子。机器会尝试去学习它。

在这些任务上，人工智能将永远是不完美的，因为它们涉及判别力，并且理性的人可能会不同意正确的决定。

我们似乎已经准备部署这些系统，并且必须决定如何最好地管理它们，例如为被错删内容的人们找出适当的程序机制。

我将把剩下的话题集中在第三类，那里有大量的万金油。

上面已经展示了声称可以预测工作适合程度的工具。类似的，基于惯犯的算法来预测保释金的多少。人们使用算法去分析社交媒体帖子并预测恐怖分子的危险程度，因而被拒之门外。

这些问题很难解决，因为我们无法预测未来。而这些应该是常识。但在涉及AI时，我们似乎已经决定忘记常识。

当然，这甚至与AI所面向的事物（如机器人技术）都不相近。但，要点是说明对于不同类型的任务，数据的数量和质量对精度的限制上是如何不同的。

接下来将展示，无论你投入多少数据，第三类应用不会有真正的改善。

我知道这是一次衡量社会结果可预测性，非常严格的尝试。

他们根据深入访谈和多年来多次重复进行的家庭观察收集了有关每个孩子和家庭的大量数据。

他们使用了与许多其他机器学习竞赛相似的挑战环境。

任务是根据训练实例学习背景数据和结果数据之间的关系。比赛期间在排行榜上评估准确性，比赛结束后根据保留的数据评估准确性。

完美预测对应于R^2为1。预测每个实例的均值对应于R^2为0（即，该模型完全没有学会区分实例）。

大多数人的直觉似乎都认为R^2的值在0.5到0.8之间。并且组织竞赛的许多专家都寄予厚望。

这是实际发生的情况。

记住：数百名AI / ML研究人员和学生尝试过这样做，他们需要最大限度地提高预测准确性，每个家庭都有13,000个特征。图上的是表现最好的模型。

这就是问题所在。

回归分析已有一百年历史了。

在许多领域都有相同的发现。

请注意，上图所示是准确度，而不是R^2，因此65％仅比随机数略好。

实际准确性可能更低，这是因为虽然该工具声称可以预测累犯，但实际上是能预测重新逮捕，因为这就是数据中记录的内容。因此，至少算法的某些预测性能来自预测策略的偏差。

这是个人的意见。当然，如果发现相反的证据，我愿意改变主意。但是，鉴于目前的证据，这似乎是最谨慎的看法。

驾照的欠费可以被视为预测事故风险的一种方式。一些研究发现此类系统可以进行合理的使用。

很长时间以来，我们就知道，如果我们真正想做的只是预测，那么简单的公式比人类的预测更准确，甚至是经过多年训练的专家。丹尼尔·卡尼曼（Daniel Kahneman）解释说，这是因为人类的预测往往“太多杂念”：如果输入相同，则不同的人（甚至在同一时间的同一个人）将做出非常不同的预测。而使用统计公式则可以消除这种不同。