专栏首页量子位MIT长篇论文:我们热捧的AI翻译和自动驾驶,需要用技术性价比来重估

MIT长篇论文:我们热捧的AI翻译和自动驾驶,需要用技术性价比来重估

白交 发自 凹非寺 量子位 报道 | 公众号 QbitAI

深度学习在计算上受到限制并不是一件「新鲜事」。

只是在过去十年里面,这种计算限制被「淡化」了。人们专注于「算法」优化和「硬件」性能的提升,以及愿意投入更高的「成本」来获得更好的性能。

性价比这件事,从来没被严肃以待。

但是现在,深度学习的计算需求越来越大,这些所谓的「方法」开始变得无济于事了。

最近,MIT计算机科学与人工智能实验室的研究科学家Neil Thompson发表了最新研究,主题旗帜鲜明:「Computational Limits of Deep Learning」。

46页研究千余篇论文告诉你,深度学习的算力局限在哪里。

从设置的生成模型中发现理论上的算力局限。

首先,来看看理论上的算力局限。

他们设置了一个生成模型,在可能的1000个参数中,有10个非零参数,并考虑4个模型来尝试发现这些参数。

Oracle model:在模型中有完全正确的10个参数。

Expert model:模型中恰好有9个正确参数和1个错误参数。

Flexible model:拥有模型中所有1000个潜在参数,并使用「最小二乘估计」。

Regularized model:跟「Flexible model」一样,它拥有模型中所有参数,但是是在正则化模型中。

于是,就得出了这样的结果——模型复杂度与正则化对模型性能和对计算要求的影响。

其中模型性能,是以与最佳预测器相比预测的归一化平均平方误差的负对数(以10为底)。

可以看到,随着样本量的增加,Oracle model跟Expert model一开始表现出更好的性能,而Flexible model和Regularized model这两个模型后进之势十分猛烈。

而与之相应的「计算要求」,Flexible model和Regularized model跟前两个压根就不是一个量级的。

这恰好印证了吴恩达的一个观点:

当数据量小的时候,传统的机器学习技术做得更好,但灵活的深度学习模型在数据量更大的情况下做得更好 。

那么这篇论文将这一见解推向了更加广泛的结论:

灵活的深度学习模型有更大的潜力,但也有更大的数据和计算要求。

1058篇论文看到实际中的算力需求

直接上图。

可以看到,所有的深度学习模型的实际算力需求,在近几年里,远远高于「硬件性能」提升中需要的计算能力。

为了研究深度学习对计算的依赖性,团队研究了1058篇研究论文。

涵盖了图像分类(ImageNet基准)、对象检测(MS COCO)、问题回答(SQuAD 1.1)、命名实体识别(COLLN 2003)和机器翻译(WMT 2014 En-to-Fr)等领域。

图像分类为例。

ImageNet为基准,显示了ImageNet数据集上图像识别错误率的下降及其与这些模型的计算要求的相关性。

除此之外,在问题回答、命名实体识别、机器翻译等领域也表现出了对计算能力的依赖性。

除了机器翻译(英语到德语),使用的计算能力的变化很小。其他的模型的依赖性都很强,其中问题回答的依赖性达到了7.7。

总的来说,在深度学习的许多领域中,训练模型的进展都依赖于计算能力的大量增加。

但随之而来的,就是「高昂的研究成本」

MIT助理教授,清华大学校友韩松,就曾说过:

深度神经学习网络在计算上非常昂贵,这是一个关键的问题。

今年一月,Facebook的AI副总裁Jerome Pesenti在接受《连线》采访时,就表示,该领域很快就会「碰壁」

AI科研成本的持续上涨,或导致我们在该领域的研究碰壁,现在已经到了一个需要从成本效益等方面考虑的地步,我们需要清楚如何从现有的计算力中获得最大的收益。

现在,用千余篇论文研究再次证实了这一结论。

那么对于现在的机器翻译、自动驾驶等项目需要重新考虑一下,「如何实现以最低的成本实现收益最大化」。

换而言之,作为商业模型来落地的AI翻译和自动驾驶项目,是时候要用「性价比」来重估了。

你觉得呢?

论文地址: http://www.neil-t.com/moores-law-and-computer-performance/ 参考链接: https://www.wired.com/story/prepare-artificial-intelligence-produce-less-wizardry/

本文分享自微信公众号 - 量子位(QbitAI),作者:关注前沿科技

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-07-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 别慌,谷歌说AutoML无意取代工程师,AI人才缺口仍然巨大

    李根 发自 国贸大酒店 量子位 报道 | 公众号 QbitAI ? Google云的工程师们正让其他(和未来的)AI工程师们瑟瑟发抖? 1月18日,Cloud...

    量子位
  • 比尔·盖茨:我不认为中国AI能弯道超车

    李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI 微软创始人比尔·盖茨,怎么看当前AI发展态势? 在近日接受CNN采访中,他就向记者Fareed Z...

    量子位
  • 谷歌大脑AutoML最新进展:不断进化的阿米巴网络

    才把神经系统从最原始的雏形——阿米巴(Amoeba)变形虫分化出可对外界环境刺激做出响应的内浆,进化到现在的高度复杂的人脑。

    量子位
  • 飞桨带你使用度量学习,提升人脸识别准确率

    想必在日常生活中,我们总会有一种感觉,身边认识的一些人,明明没有任何血缘关系,但是长得却可能很像,尤其对于脸盲的同学,真的是傻傻分不清楚。

    用户1386409
  • 如何用TF Serving部署TensorFlow模型

    如何将机器学习(ML)模型部署上线至生产环境已成为经常性的热门话题。为此许多公司和框架提出了各种不同的解决方案。

    AI研习社
  • 语言生成实战:自己训练能讲“人话”的神经网络(下)

    在昨天的学习当中,我们了解了培养一个会说话的语言生成模型所需要的如何创建数据集这一模块,今天我们继续学习构建语言生成模型。

    AiTechYun
  • Jürgen Schmidhuber眼中的深度学习十年,以及下一个十年展望

    2020年是充满科幻的一年,曾经我们畅想飞行汽车、智能洗碗机器人以及能自动写代码的程序,然而这一切都没有发生。

    大数据文摘
  • 将 TensorFlow 训练好的模型迁移到 Android APP上(TensorFlowLite)

    最近在做一个数字手势识别的APP(关于这个项目,我会再写一篇博客仔细介绍,博客地址:一步步做一个数字手势识别APP,源代码已经开源在github上,地址:Chi...

    AI研习社
  • lldb 入坑指北(2)-​ 15行代码搞定二进制与源码映射

    http://mpvideo.qpic.cn/tjg_3013949891_50000_5817e3ee3a3244308677fd52dcfc2a8f.f10...

    酷酷的哀殿
  • 【免费门票】全球100位人工智能名人和2500名资深AI人士,将聚首深圳

    腾讯大讲堂

扫码关注云+社区

领取腾讯云代金券