专栏首页AI科技大本营的专栏那些打着AI万金油旗号的产品欺骗大众,如何识别?

那些打着AI万金油旗号的产品欺骗大众,如何识别?

作者 | Arvind Narayanan

译者 | 刘畅

出品 | AI科技大本营(ID:rgznai100)

如今,很多打着AI名号售出的产品都属于万金油系列,没什么实质性的功能。为什么会这样?我们应该如何识别这类AI?

幻灯片上是评估性格和工作合适性的30秒视频

数以百万计的求职者已经接受了这类算法的评估。上图是来自某家公司的促销视频截图。这些系统声称甚至不用理会应聘者说的内容,根据肢体语言和语音就可以分析一个应聘者。

基本常识会告诉我们这不可能,但是AI专家会说这是可能的。而实际上这个产品只是一个精心制作的随机数生成器。

这些公司筹集了数亿美元,并且积极的占领客户。伪造AI来筛选求职者的现象变得越来越严重。这张PPT显示了该问题有多严重,其中的表格来自https://arxiv.org/abs/1906.09208

人们正在学习如何利用这些虚假系统来工作,并在社交媒体上分享一些恐怖的故事

这为什么会发生?为什么人事部门如此容易受欺骗?除了雇佣,其它哪些领域还有打着AI旗号的万金油工具?

以上是作者的关于为什么有如此多的AI万金油工具,以及为什么决策者会被它们欺骗的假设。

例如,AlphaGo是一项非凡的成就,并且值得称赞。大多数专家都没想到这种可能。

但是,它与声称可以预测工作绩效的工具之间,却大相径庭。

媒体大肆宣传公司可以将AI作为解决所有问题的解决方案。因此,美国公众认为,所有工种的自动化仅10年之遥!

如果决策者认为这种根本性变革即将到来,请想象一下它将如何扭曲我们正在进行的优先事项。我相信在如今社会这实际上是正在发生的。

请注意,AI专家对人工智能或强AI的预测距离尚有50多年之久,但是历史告诉我们,即使是专家,也往往对AI的发展太乐观了。

让我们更具体一点。我将把AI应用程序分为三类(并非详尽无遗)。

这张幻灯片上的所有内容都是一个识别问题(Deepfakes并不是纯粹的识别而是紧密相关的。它们是使用生成对抗网络来实现的)。识别是人工智能快速发展的几个领域之一。

在这张幻灯片上的所有任务中,AI都已经达到或超过了人类的准确性,并且正在不断迅速提高。

取得进展的根本原因是,这些任务没有不确定性或模棱两可。给定两张图像,关于它们是否代表同一个人是有一个基本事实。因此,如果有足够的数据和计算能力,人工智能能够学到将一张脸与另一张脸区分开的模式。人脸识别存在一些明显的失败,但是我很高兴地预测它将能变得更加准确(不过这也正是我们应该担心的原因)。

第二类是关于尝试自主判别的应用程序。人的思维是具有启发性的,例如什么是垃圾邮件,而不是垃圾邮件,并且给出足够的例子。机器会尝试去学习它。

在这些任务上,人工智能将永远是不完美的,因为它们涉及判别力,并且理性的人可能会不同意正确的决定。

我们似乎已经准备部署这些系统,并且必须决定如何最好地管理它们,例如为被错删内容的人们找出适当的程序机制。

我将把剩下的话题集中在第三类,那里有大量的万金油。

上面已经展示了声称可以预测工作适合程度的工具。类似的,基于惯犯的算法来预测保释金的多少。人们使用算法去分析社交媒体帖子并预测恐怖分子的危险程度,因而被拒之门外。

这些问题很难解决,因为我们无法预测未来。而这些应该是常识。但在涉及AI时,我们似乎已经决定忘记常识。

当然,这甚至与AI所面向的事物(如机器人技术)都不相近。但,要点是说明对于不同类型的任务,数据的数量和质量对精度的限制上是如何不同的。

接下来将展示,无论你投入多少数据,第三类应用不会有真正的改善。

我知道这是一次衡量社会结果可预测性,非常严格的尝试。

他们根据深入访谈和多年来多次重复进行的家庭观察收集了有关每个孩子和家庭的大量数据。

他们使用了与许多其他机器学习竞赛相似的挑战环境。

任务是根据训练实例学习背景数据和结果数据之间的关系。比赛期间在排行榜上评估准确性,比赛结束后根据保留的数据评估准确性。

完美预测对应于R^2为1。预测每个实例的均值对应于R^2为0(即,该模型完全没有学会区分实例)。

大多数人的直觉似乎都认为R^2的值在0.5到0.8之间。并且组织竞赛的许多专家都寄予厚望。

这是实际发生的情况。

记住:数百名AI / ML研究人员和学生尝试过这样做,他们需要最大限度地提高预测准确性,每个家庭都有13,000个特征。图上的是表现最好的模型。

这就是问题所在。

回归分析已有一百年历史了。

在许多领域都有相同的发现。

请注意,上图所示是准确度,而不是R^2,因此65%仅比随机数略好。

实际准确性可能更低,这是因为虽然该工具声称可以预测累犯,但实际上是能预测重新逮捕,因为这就是数据中记录的内容。因此,至少算法的某些预测性能来自预测策略的偏差。

这是个人的意见。当然,如果发现相反的证据,我愿意改变主意。但是,鉴于目前的证据,这似乎是最谨慎的看法。

驾照的欠费可以被视为预测事故风险的一种方式。一些研究发现此类系统可以进行合理的使用。

很长时间以来,我们就知道,如果我们真正想做的只是预测,那么简单的公式比人类的预测更准确, 甚至是经过多年训练的专家。丹尼尔·卡尼曼(Daniel Kahneman)解释说,这是因为人类的预测往往“太多杂念”:如果输入相同,则不同的人(甚至在同一时间的同一个人)将做出非常不同的预测。而使用统计公式则可以消除这种不同。

与人工评分规则相比,使用AI进行预测有许多缺点。也许最重要的是缺乏可解释性。想象一下这样一个系统,在该系统中,每次您被警务人员拦下时,警务人员都会将您的数据输入计算机,这并不像驾照上的积分。大多数情况下,您可以免费离开,但是在某些时候,黑匣子系统会告诉您不再允许被开车。

不幸的是,实际上如今我们在许多领域都拥有这种系统。

来源:

https://www.cs.princeton.edu/~arvindn/talks/MIT-STS-AI-snakeoil.pdf

(*本文为AI科技大本营编译文章)

本文分享自微信公众号 - AI科技大本营(rgznai100),作者:Arvind Narayanan

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-12-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 张宏江:人工智能的长远发展需要有人坐冷板凳

    从金山 CEO 退休两年后,除了在源码资本任职投资合伙人,张宏江又在刚刚成立不久的北京智源人工智能研究院担任首届理事长,致力于推动不同行业分享大数据,让从事基础...

    AI科技大本营
  • Hinton、吴恩达们也“吹牛”炒作?媒体和研究人员共谋,AI圈误导信息泛滥

    媒体通常热衷于报道人工智能、纳米技术或者任何领域中每一个微小的进步,并将之视为一次将很快从根本上改变世界的巨大胜利。当然,偶尔也会有新的发现没有得到足够曝光。比...

    AI科技大本营
  • AI帮清华博士写说唱歌词晋级了,AI相声行不行?

    人们曾一度认为艺术是免受 AI 侵袭的最后一块净土,却没成想它很快就在这里“撒了个野”。

    AI科技大本营
  • 从科技企业的技术驰援,看AI“全链条”抗疫之战

    “复工”在各地陆续开始,要说谁最紧张,产业聚集、流动人口集中地区的主管职能部门无疑在列。

    用户2908108
  • 张宏江:人工智能的长远发展需要有人坐冷板凳

    从金山 CEO 退休两年后,除了在源码资本任职投资合伙人,张宏江又在刚刚成立不久的北京智源人工智能研究院担任首届理事长,致力于推动不同行业分享大数据,让从事基础...

    AI科技大本营
  • 机器学习之父Michael I.Jordan刚发了一篇长文反思人工智能,从一个生死攸关的故事说起

    大数据文摘
  • 福布斯等出版团队加快使用AI自动生成新闻的步伐

    自动化正在影响各种领域。现在,很多出版社正在使用AI帮助生成想法,这些想法可能在以后演变为可发表的文章。

    AiTechYun
  • 阿里出手,“姚班”入局,AI芯片为何频频挑动大众的神经?

    过去4个月以来,迎合AI产业发展的需要,阿里、云知声、出门问问、Rokid和百度等公司相继发布了自己的AI芯片。其中,阿里更是频频出手并购或投资芯片企业,而旷视...

    镁客网
  • 砸115亿元入局!后知后觉的欧洲重金建设AI,为赶中超美

    昨天,欧盟委员会称,将在2020年前投资15亿欧元建设欧洲AI产业,折合成人民币约115亿元。有趣的是,这个数额比最初的预算高了70%。

    量子位
  • 金融学如何应对人工智能和大数据?

    ? 李开复说未来十年金融行业的从业人员很有可能会被人工智能所取代,而人文、文化、艺术方面的领域人工智能尚难以涉及。那么还有学金融学专业的必要吗? 大数据这是一...

    小莹莹

扫码关注云+社区

领取腾讯云代金券