【AI100 导读】在最近的六年当中,深度学习技术使得机器在物理世界的认知能力方面取得了巨大的进步。这只是一个开始。在未来几年,创业公司和一般的大型科技巨头都会使用深度学习技术,从而来改进他们一系列的现有应用程序,并创造新的产品和服务。本文作者 Aditya Singh 预测深度学习技术将彻底改变人们与技术交互的方式。
尽管温度与声音都是能量的表现形式,但年幼的你并不需要知道热对流的概念。每次你的孩子碰到一个流浪动物时,他们不太可能先在大脑中去执行一个判断动物属性的程序,从而来判断这个流浪动物是一只猫还是一只狗。人类大脑生来就具有认知能力,我们可以很容易地感知事物之间的区别。假如事物之间的差异很明显,那么感知差异对我们来说是再正常不过的事情了,我们将其称为常识。相比之下,计算机需要使用确定性地算法来一步一步地处理这些最基本的判断。尽管几十年来机器在速度和处理能力方面有了很大的进步,但是机器仍然不能像幼儿一样,即使在没有尝试的情况下也能处理问题。直到现在,都是如此。
在最近的六年当中,深度学习技术使得机器在物理世界的认知能力方面取得了巨大的进步,该技术是受到人类大脑结构启发,并且也是人工智能的一个分支。在 Facebook 的 AI 实验室中,科学家们建立了一个深度学习系统,该系统可以回答一些以前从未出现过的简单问题。Amazon 的 Echo 也使用了深度学习技术。三年前,微软的首席研究员在中国的演讲给参会者留下了深刻的印象,他在会上演示了使用深度学习技术的语音软件,该软件将他的英语口语翻译成中文,然后再模仿他的发音,以一种普通话的口吻将中文说出来,误差率只有7%。现在,该技术已经被使用在了 Windows 的移动手机和 Bing 的语音搜素上面。
世界上最强大的科技公司一直以来都在悄悄的部署深度学习系统,从而来改善他们的产品和服务,但是没有一家公司的投资力度可以超过 Google。它将整个公司的命运都压在 AI 上了,纽约时报如是说,Google 不但投入了海量的资源,并且聚拢了该领域众多一线研究人员。而它也因此获得了巨大的收益。几年前,Google 通过使用来自于 YouTube 的1000万个未被标记的图片来训练深度学习网络,结果证明该网络模型对图像中对象(猫,人脸,花朵,各种鱼类和其他数千个类别)的正确识别率提高了近两倍。当 Google 在 Android 语音搜索上部署深度学习系统之后,一夜之间,语音搜索的错误率就下降了25%。在今年年初,另一个 Google 深度学习系统击败了世界上最复杂的棋盘游戏的最好的一位选手。
这仅仅是一个开始。我相信在未来几年,创业公司和一般的大型科技巨头都会使用深度学习技术,从而来改进他们一系列的现有应用程序,并创造新的产品和服务。完全崭新的业务线和市场将会兴起,这反过来又会带来更多的创新。深度学习系统将变得更加容易使用并且被更加广泛的应用。我预测,深度学习技术将改变人们与技术的交互方式,正如操作系统从根本上改变了普通人对计算机的访问。
深度学习
历史上,计算机通过使用确定性算法进行编程,从而来执行任务,也就是说,算法详细的规定程序必须采取的每一个步骤。这在许多情况下,我们的程序都可以很好地执行任务,比如说从执行复杂的计算,到击败国际象棋大师。但是在有些情况下,我们无法确定算法,例如面部识别,情绪识别,问答系统等等。
假如我们通过手动编程的方式来处理脸部与音位(这两个对象都具有无数的属性)那么我们的工作量将是巨大的。此外,我们的机器也无法处理那些不符合程序要求的参数类型的数据。想想现在的语音助手与自动电话菜单系统的区别。前者,比如说 Siri 与 Alexa,你可以使用自然语言来向他们询问一些事情;而对于后者,你只能使用具体的、固定的词语集合(这个集合是程序用来理解用户输入的),只有这样该电话系统才能工作。相比之下,基于深度学习的系统本身对数据就有自己的理解,他们并不需要显示的算法。这种设计灵感来源于人类的大脑,就真正意义上来讲,这些机器是从他们的经验中进行学习。在一些领域当中,机器现在已经能达到人类水平了,比如说物体识别与语音识别。
那么深度学习的工作原理是什么呢?
深度学习系统模拟的是人类大脑新皮质中的神经网络,该部位拥有更高级别的认知能力。在大脑中,神经元是能够传递电流或化学信息的细胞。当它与其他神经元链接时,这样就形成了神经网络。在机器中,神经元是虚拟的——基本上就是运行统计回归的代码。足够多的虚拟神经元连接在一起,你就得到了一个虚拟的神经网络。将下面网络中的每个神经元视为一个简单的统计模型:它接受一些输入,并且沿着输出路线进行输出。
然而,为了使得神经网络能起作用,我们必须对它进行训练。为了训练神经网络,我们映射出一组虚拟神经元,并为该组神经元分配随机数字,这些数字我们称为“权重”,权重确定了神经元如何响应新的数据(数字化物体或声音)。像任何系统或机器学习一样,机器最初也是需要知道正确的答案。因此,如果神经网络没有准确的识别输入——例如,没有识别出图像中的脸部——则系统调整权重,以便产生正确答案(权重就是每个神经元对于数据的关注程度)。最终,在经过充分的训练之后,神经网络将能够正确地识别语音与图像。
构建人工神经元的想法已经存在了至少60年。在20世纪50年代,弗兰克·罗森布拉特创造了一个由电机,拨号盘和检光器组成的“感知器”。通过训练,该感知器可以成功地区别基本的形状。但早期的神经网络可以模拟的神经元数量是极其有限的,这也意味着,他们不能识别复杂的模式。在过去的十年,三个方面的发展使得深度学习成为了可能。
首先,多伦多大学的 Geofffrey Hinton 和其他研究人员在软件神经元方面取得了突破性的进展。软件神经元可以通过分层来训练自己。(Hinton 现在的精力主要在多伦多大学与 Google)第一层神经元将学习如何区分基本特征,比如说边缘或者轮廓信息(这些信息有数以百万计的数据点)。一旦该层学习到如何准确地识别这些东西,它就会把这些信息传送到下一层,通过训练自身从而识别更复杂的特征,例如鼻子或耳朵。然后,该层信息被送到另一层,通过继续训练自身以识别更高级别的抽象信息等等,一层接着一层,这就是深度学习中“深度”的含义,直到系统可以可靠地识别非常复杂的模式,例如人脸。
第二个对 AI 技术进步起到作用的是大量可用的数据的获取。快速数字化已经导致了大规模数据的产生,数据就是用于训练深度学习系统的氧气。经过几次演示如何辨别物品之后,孩子们就能够挑选东西了。然而,AI 机器需要进行无数次的实验训练才可以。深度学习本质上是使用蛮力的方式来教会机器如何辨别一个东西,以及东西是什么。我们通过使用1900万张猫的图片来训练我们的深度学习神经网络,通过训练我们得到了概率,排除了倾向,最终我们的软件神经元得到了统计学意义上判断猫的显著因素,也就是我们的系统能够辨别猫了。这就是为什么大数据是如此的重要原因——没有它,深度学习无法进行工作。
最后一点是,由斯坦福大学吴恩达(现在在百度)领导的团队在意识到图像处理单元芯片,也就是 GPU(发明 GPU 的初衷是为了处理视频游戏的图像)可以被用于深度学习之后,他们取得了突破性的进展。直到最近,典型的计算机芯片依然是一次只能处理一个事件,但是 GPU 设计初衷就是用于并行计算的。使用这些芯片运行拥有几百万个连接的神经网络,我们可以在几个数量级上并行的加速深度学习系统的训练与能力。以前一台机器需要数周的训练时间来完成某项任务,现在只需要一天就可以了。
目前最先进的深度学习网络是由数百万个模拟神经元组成的,它们之间有数十亿个链接,并且可以通过无监督学习方式来训练。这是人工智能的最有效的实际应用,虽然还没有被设计出来。对于某些任务,最好的深度学习系统是与人类能力相当的模式识别器,该技术正在从研究实验室走向工业界。
深度学习系统 1.0
早期深度学习已经取得了一些令人印象深刻的成果。如果我把它类比到个人计算机,深度学习系统就是处于绿色和黑色 DOS 界面的演变阶段。目前,大量的时间和精力花在深度学习前期过程——例如清洗数据,标记数据和解释数据,而不是学习深度学习模型。但是在接下来的几年中,初创企业和成熟的公司将开始发布商业解决方案,用于构建生产环境的深度学习应用程序。通过利用一些像 TensorFlow 等的开源框架,这些解决方案将大大降低创建复杂深度学习系统的工作量、时间以及成本。他们将一起构成深度学习操作系统的基础。
深度学习操作系统将广泛采用实际的 AI 系统。Windows 操作系统与 Mac 操作系统已经允许普通用户使用计算机与 Saas 功能来访问云端,同样,在未来几年,科技公司也将大力推广深度学习技术。最终,深度学习操作系统将使那些不是计算机科学家或者自然语言处理研究人员的用户,同样也可以使用深度学习来解决现实生活中的问题,如检测疾病而不单单是识别猫。
构建深度学习操作系统的第一批新公司将致力于数据,软件和硬件方面的解决方案。
数据:获得高质量的大规模数据是采用深度学习技术所面临的最大障碍。但是会出现相应的服务商和软件平台来处理数据问题。相关公司已经建立了自己内部的智能平台,该平台可以帮助人们快速标记数据。未来的数据标记平台将嵌入到应用程序的设计中,这样通过使用产品产生的数据,就可以用来训练我们的系统。而且未来也将会产生新的服务型公司,这些公司将标注任务外包给低成本国家,以及通过合成手段来创建标签数据。
软件:我认为在两个主要领域中会有创新产生。
1)神经网络的设计和编程。不同的深度学习架构,例如 CNN 和 RNN,支持不同类型的应用(图像、文本等)。有时候也会使用神经网络架构的组合。至于训练,许多应用程序将使用机器学习算法、深度学习、强化学习或无监督学习的组合来解决应用程序的不同子部分。我预测有人将构建一个机器学习引擎来提供解决方案,它将检查应用程序,训练数据集,提供基础架构资源等,并推荐使用正确的架构和算法。
2)可重用的神经网络模块的市场。如上所述,神经网络中的不同层会学习不同的概念,然后彼此之间建立一些联系。这种架构自然而然地创造了共享和重用已经训练好的神经网络的模型的机会。已经训练好的能够识别边缘的虚拟神经元,本来该神经元是被用来识别猫的脸,但是也可以被重用来识别人脸。TensorFlow 已经成为了最流行的深度学习框架,它支持整个子图组件的重用。很快,机器学习专家社区将会将会贡献开源模块,而这一举动很可能会创造出机器学习版本的 GitHub 与 Stack Overflow。
硬件:为开发人员寻找 GPU,CPU,云资源的最佳组合;确定并行化的级别;以及分析执行成本。这为平台和服务的公司创造了机会,它们将为训练任务推荐正确的基础设施。此外,将会有公司专门在深度学习硬件方面提供基础设施服务,如协调,横向扩展,管理和负载均衡。此外,我希望老牌公司和初创公司能够推出自己的深度学习优化芯片。
这些只是一些可能性。我确信还有更多的创新思想存在于其他创业家的脑海当中,因为这项技术的愿景是无比光明的。我们正在开始建立能够自我学习的机器,并且这些机器能够做出一些明智的判断。
本文作者 Aditya Singh 是 Foundation Capital 的合伙人,专注于基础设施(网络规模和企业),安全和服务方面的投资。
本文由 AI100 编译,转载需得到本公众号同意。
编译:AI100
原文链接:https://hbr.org/2017/01/deep-learning-will-radically-change-the-ways-we-interact-with-technology