前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【重磅】深度学习难以加冕算法之王 3 大根本原因

【重磅】深度学习难以加冕算法之王 3 大根本原因

作者头像
新智元
发布2018-03-26 16:41:33
6350
发布2018-03-26 16:41:33
举报
文章被收录于专栏:新智元

【新智元导读】New Frontiers in Computing 2016 日前在斯坦福举行, 探讨视觉、NPL、人机界面等认知和计算前沿问题。本文是参会笔记。作者指出,眼下机器学习算法,尤其是卷积神经网络(CNN)因在多个领域表现优秀而大受欢迎,但要建立认知计算系统,需要整合多种算法和数据结构,CNN 只是其中之一且尚存很多问题。智能算法中,还没有绝对的第一。

(文/Ron Wilson)很多媒体报道都将深度学习算法比作当前的算法之王,尤其是卷积神经网络(CNN),似乎已经成了深度学习算法里毋庸置疑的第一名。ImageNet 视觉识别竞赛中,CNN 击败了所有其他的算法,其性能之强大,让人觉得只剩下实施的细节问题。

从自动驾驶汽车到下围棋的计算机,CNN 看起来还在一系列更实用的系统中牢牢占据了一席之地。CNN 是时下的宠儿——似乎集技术之大成,凌驾其他所有人工智能。

但在人工智能领域,所有力量都不是注定的。深度学习批评家指出,CNN 还有很多没有解决的问题。最近有讨论,机器在物体识别上的准确率超过人类究竟意味着什么。关于如何架构 CNN 以及架构好 CNN 之后,如何预测架构的准确率和性能,也存在很多未解决的问题。当神经网络的层数和节点不断增加,如何维持 CNN 的性能也是问题。还有一个更大的问题,那就是如何衡量 CNN 的准确率。

2016 年 5 月底,斯坦福大学召开了 IEEE Computer Society 2016 年认知计算会议,很多论文不但没有提及 CNN 取得的成就,反而研究了相反的问题。

CNN很少出错,但出错则造成毁灭性后果

CNN 最大的一个强项就是 ImageNet 图库识别的准确率。微软的应用几乎在所有类型的物体识别中都超过了人类。但要弄清物体分类测试的原理:算法需要检测给定图像中的物体,在周围标上框,然后从一份含有 1000 个标签的表单中,选取最能代表这一物体的 5 个标签。评分标准是看算法在物体周围画的框,与实物边缘有多近、给的标签有多准。

批评家指出,ImageNet 竞赛用于比较不同算法之间的性能可能挺管用,但比较不同算法与人类之间的区别则没多大用处。试想,在图像中找出一只猴子,估计对人类而言很简单,但又有多少人知道,那只猴子是长尾猴而不是长鼻猴呢——经过充分训练的算法可是能够做到这一点的。此外,在那些认出了是长尾猴的人当中,又有多少知道那是德赖斯长尾猴呢?

以上只是针对 ImageNet 的讨论。但放在现实生活应用场景,CNN 就会产生很现实的问题,倒不是说错误出现概率,而是错误后果大小的问题。一个人或许认不出路上的一只猴子是长尾猴,但她不会把这只猴子当作水坑,或者“no high-likelihood response available”,然后直接碾过去。

鉴于网络架构,人类没有办法确保 CNN 是否会在全新的情境下造成毁灭性的错误。CNN 训练好以后,无论是通过定性还是定量分析,几乎都没有办法预测网络会对新的输入产生怎样的结果。但是,我们可以根据 CNN 运行的理论,对网络的反馈有个大致的了解。

CNN 由很多层节点构成,每一层都在前一层的基础上依次形成抽象概念。

粗略讲,训练好的 CNN 的一层神经网络中,每个节点都是对一个具体命题真实性的估计,命题跟输入的数据有关。从紧挨着输入的一层到输出前的一层,命题会变得越来越抽象。

每一个抽象层中,你能得到的原子命题(atomic propositions)受制于每一层网络节点的数量。尤其是算法识别一个物体时可用的标签数量,不能大于网络最终的输出数量。

精心设计的 ImageNet 竞赛中,这个数字是 1000。开发人员发现,20 到 50 级的 CNN 适合用于 ImageNet 竞赛,这样的网络大约包含 500 万个节点,但这样规模的网络只有数据中心才有。

而且,给物体打标签的 CNN 比在现实道路上操纵一辆车的 CNN 小很多,那要有多少标签才能确保,操纵汽车的网络在遇上看不清或从未见过的物体时,不会发生差错?要评估多少个命题才能确保网络在真实世界情景中选择最优路线?还有,最关键的,怎么把只能在数据中心运行的网络放进一辆汽车里?

硬件加速,并不解决根本问题

方法之一是使用专门的硬件加速 CNN 的训练和执行。鉴于 CNN 的训练和执行都以矩阵运算为主,内存带宽高、有很多乘法器的芯片,比如 GPU 和 FPGA 都不错。

我们也充分理解了 CNN 的数学原理——除非你用下降梯度算法做强化学习。因此,可以设计一个 ASIC 处理计算,并寄希望于 CNN 的卓越性能能开创一个新的市场,由此缓解芯片开发成本高带来的压力。

这方面的典型代表是谷歌,他们推出了定制芯片 TPU。新创公司 Nervan 也推出了一款 TPU,但与谷歌的不同,这款 TPU 是由海量 RAM 组成的乘法器阵列,比 GPU 的乘法器多了 100 多倍。IBM 的 TrueNorth 芯片采用神经网络架构,TrueNorth 处理器速度与大型 CNN 相当,能耗却很少。

但是,虽然芯片能提高 CNN 的训练和执行速度,可并没有解决根本问题。

智能系统需要多种算法和数据结构

斯坦福计算机科学副教授 Sivio Savarese 表示,物体上带的所有标签加在一起,没有任何意义

现在,市场上出现了对新的认知系统的需求,这些新的系统要能够赋予数据库以意义并推理得出结论,很多人担心 CNN 不足以建立这样的系统。

Svarese 描述了一个能在三维空间跟踪定位物体的系统。通过将位置和方向纳入一个目标的属性,系统能够推断出这些三维物体的关系。

DOCOMO 资深科学家 Sayandev Mukherjee 从自然语言处理的角度,提出了一种全新的方法。Mukherjee 的系统能够接收非结构化的语音和文本信息,再将其分解成带标签的对象,比如专有名词、普通名词、定语和表语。系统会利用这些数据建造一个知识图谱,其中节点就代表概念。

这种环境下,图像分析工具就成了推理工具,能够找到关联,进行类比、归纳和演绎,即使用到 CNN,也只会是在语音或文本识别模块的前端。和知识图谱一样,这类方法也能在空间中工作。

人类说话时带有很多模棱两可的信息。斯坦福副教授 Noah Goodman 在演讲中讨论了常识在理解模糊语言中的作用,通过在语言分析中加入条件概率,模拟不确定性(non-deterministic faculty)。

Goodman 以 Lisp 语言为此基础,加入条件概率分布和条件分布函数,设计了一种名叫 Church 的语言。Church 利用概率函数的组件,获取关于自然语言语句的大量有用信息,而且只需要少量代码就能实现。Church 看上去非常善于处理双关语、比喻等自然语言结构。

IBM 研究院的 Jeffrey Welser 认为,关于未来的发展趋势并不是逐渐建立规模更大的 CNN,也不会只使用一种通用算法。Welser 表示,系统需要很多不同的组件,每个组件都有特定的功能。

Welser 表示,从宏观层面上讲,认知系统包括对真实世界模拟建模,以及对直接从现实世界采集的非结构化数据进行大数据分析。认知系统将结合这两者并优化模型,得出一个所有可能情形的分布,并从中选择让能够自己接近目标的结论。这种模型既可以用来形容自动驾驶汽车,同样说它是辩论机器人也没问题。

而上述系统可能会将 CNN 用于视觉处理、类似目标识别和打标签。但是,CNN 还将和许多其他算法以及数据结构整合在一起。

机器智能算法世界里,还没有谁能称王。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-06-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
灰盒安全测试
腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档