为什么现在人工智能掀起热潮?

本文为 AI 研习社编译的技术博客,原标题 : Why now this Artificial Intelligence boom? 翻译 | King4、迪达拉 校对 | 就2 整理 | 菠萝妹 原文链接: https://towardsdatascience.com/why-now-this-artificial-intelligence-boom-b50a35713090

20世纪50年代,John McCarthy开创了Artificial Intelligence(简称AI)这个词,一下子就和Marvin Minsky一起,成为AI领域的奠基人。同样在1958年,Frank Rosenblatt造了一个神经网络的雏形,这个模型被他称为“感知器”。后来,1989年时,计算机视觉的“深度学习神经网络”也火了。再后来,1997年,处理“时间序列”的基础算法也发展了起来,比如,LSTM(Long Short-Term Memory,长短期记忆网络)。给了这么多例子,那么,为什么这些AI 技术会繁荣起来呢?

我们不可否认的是,“计算能力”是这AI发展中的中坚力量。虽说如此,但还有其他很多要素,多多少少也激发了AI和相关领域的潜能。接下来,我们就来看看,这些非常重要的影响因素都有哪些?

数据,人工智能的能量来源

来源:JúliaTorres - 巴塞罗那

人工智能需要大型数据集来训练其模型,但幸运的是,由于成本的大幅降低和数据生成的可靠性提高,数据的创建和可用性呈指数级增长:数码照片,更便宜和精确的传感器等。此外,近年来存储硬件的改进,与NoSQL[8]等非关系型数据库管理技术的惊人进步相关,这就允许拥有庞大的数据集来培训人工智能模型。 除了最近由于互联网出现导致的数据可用性增加之外,专业数据资源催生了该领域的进步。很多开放数据库都支持人工智能算法的快速发展。 一个例子是ImageNet [9]数据库,我们已经说过了这个数据库,可以免费获得超过1000万张手工标记的图像。但ImageNet的特殊之处并不在于它的规模,而是每年都在进行的竞赛,这是激励研究人员和工程师的绝佳方式。 虽然在早期这些提案基于传统的计算机视觉算法,但在2012年,Alex Krizhevsky使用了一种深度学习神经网络,现在称为AlexNet,它将错误率降低到上届竞赛的胜利者的一半。早在2015年,获胜算法已经与人类能力相媲美,而今天的深度学习算法的误差率远远比有人类存在的竞赛低。 但ImageNet只是最近用于训练深度学习网络的可用数据库之一;许多其他的数据库都很受欢迎,例如:MNIST[10], STL[11], COCO[12], Open Images[13], Visual Question Answering[14], SVHN[15], CIFAR-10/100[16], Fashion-MNIST[17], IMDB Reviews[18], Twenty Newsgroups[19], Reuters-21578[20], WordNet[21], Yelp Reviews[22], Wikipedia Corpus[23], Blog Authorship Corpus[24], Machine Translation of European Languages[25], Free Spoken Digit Dataset[26], Free Music Archive[27], Ballroom[28], The Million Song[29], LibriSpeech[30], VoxCeleb[31], The Boston Housing[32], Pascal[33] , CVPPP Plant Leaf Segmentation[34], Cityscapes[35]. 在这里提及Kaggle[36]也很重要,这是一个数据分析竞赛的平台,公司和研究人员在这些竞赛中贡献和分享他们的数据,同时来自世界各地的数据工程师竞相创建最佳的预测或分类模型。

进入计算民主化时代

资料来源:BSC-CNS

但是,如果您的公司没有这种计算能力,会发生什么?到目前为止,人工智能主要是亚马逊,百度,谷歌或微软等大型科技公司的玩具,以及一些拥有这些能力的新公司。对于许多其他业务和经济领域而言,人工智能系统迄今为止过于昂贵,难以完全使用所需的硬件和软件。 但现在我们正在进入计算民主化的另一个时代,公司可以使用超过28,000平方米的大型数据处理中心(巴塞罗那足球俱乐部(巴萨)的四倍),里面有数十万台服务器。我们谈论的是云计算[37]。

云计算通过计算的民主化彻底改变了行业,并彻底改变了业务运营方式。现在是改变人工智能和深度学习的时候了,这为不能构建这类基础设施的中小型企业提供了巨大的机会。事实上,它提供了以前只有大型组织或政府才能使用的计算能力。

此外,云提供商现在提供所谓的作为服务的人工智能算法(AI-as-a-Service),通过云实现的人工智能服务,可以通过基于API的简单协议与公司的内部应用程序协同工作REST[38]。 这意味着几乎每个人都可以使用它,因为它是一项仅按使用时间付费的服务。 这是具有破坏性的,因为现在它允许软件开发人员使用并将几乎任何人工智能算法立即投入到生产中。 亚马逊,微软,谷歌和IBM正在引领这股AIaaS服务浪潮,从最初的阶段(训练)迅速投入生产。在撰写本书时,AmazonAIaaS分为两个层次:亚马逊机器学习[39]的预测分析和快速模型构建与部署的SageMaker[40]工具。Microsoft通过Azure机器学习提供服务,该机器学习分为两大类:Azure机器学习工作室[41]和Azure智能库[42]。Google提供了PredictionAPI[43]和GoogleMLEngine[44]。IBM通过其WatsonAnalytics[45]提供AIaaS服务。我们也不要忘记已经来自初创公司的解决方案,如PredicSis[46]或BigML[47]。 毫无疑问,人工智能将引领下一场革命。它的成功在很大程度上取决于公司的创造力,部分归功于云计算,而不是硬件技术。

深度学习的开源世界

深度学习框架(来源:https://aws.amazon.com/ko/machine-learning/amis/)

几年前,深度学习需要使用C++和CUDA等语言的经验;如今,只需要基本的Python技能就足够了。这要归功于我们出版的大量开源软件框架,例如Keras。这些框架极大地促进了模型的创建和训练,并允许将算法设计者的硬件特性抽象出来,以加速训练过程。 目前最受欢迎的是TensorFlow,Keras和PyTorch,因为我们依靠GitHub上这些项目的贡献者和协议或星星,它们是最动态可调的[48]。 特别是,TensorFlow最近采取了很多行动,无疑是主导者。它最初是由谷歌GoogleBrain小组的研究人员和工程师开发的。该系统旨在促进机器学习研究,并更快地从研究原型过渡到生产系统。如果我们查看项目的Gihub页面[49],我们将会看到他们在撰写本书时有超过35,000个协议,超过1500个贡献者和超过100,000个星星。根本不微小。 TensorFlow之后是Keras[50],这是一个用于神经网络的高级API,这为这一课题的开始提供完美环境。代码在Python中指定,目前它可以在三个出色的环境中运行:TensorFlow,CNTK或Theano。Keras拥有超过4500个协议,超过700个贡献者和超过30,000个星星[51]。

PyTorch和Torch[52]是使用OpenMP[53]和CUDA,利用高度并行的结构,用C语言实现的两个机器学习环境。PyTorch是由Facebook基于Python为深度学习开发的最受关注的版本。它是该研究领域中的一种流行环境,因为它在神经网络的构建中具有很大的灵活性,并且具有动态张量等。在撰写本书时,Pytorch有超过12,000个提交者,大约650个贡献者和超过17,000个星[54]。

最后,虽然它不是深度学习的专属环境,但很重要的是它提到了Scikit-learn[55],它在深度学习中经常用于数据的预处理[56]。Scikit-learn有超过22500个提交者,超过1000个贡献者和近30,000个星[57]。

但是,正如我们已经提出的那样,还有许多面向深度学习的框架。我们要特别指出的是Theano[58](蒙特利尔学习算法研究所),Caffe[59](伯克利大学),Caffe2[60](Facebook研究所),CNTK[61](微软),MXNET[62](由亚马逊等人支持),Deeplearning4j[63],Chainer[64],DIGITS[65](英伟达),Kaldi[66],Lasagne[67],Leaf[68],MatConvNet[69],OpenDeep[70],Minerva[71]和SoooA[72]以及其他许多人。

一个开放式的准则

来源: ArXiv.org

在过去的几年里,这个研究领域,与其他科学领域相比,产生了一种开放式文化。在这种文化里,许多研究人员立即在诸如康奈尔大学的arxiv.org(arXiv)等的数据库中[73]公布他们的研究结果(没有等会议中同业界的评审批准)。这意味着与这些文章相关的许多软件成为开源,这可以让这个研究领域迅速发展,因为任何新发现都可以立即给整个业界查看。如果是这样的话,可以提出一项新的重要提案。 对于这些技术的用户来说,这是一个很好的机会。研究组公开发布最新进展的原因可能是多种多样的。例如,在该地区的主要会议中被拒绝的文章可以仅作为arxiv的预印本传播。有一个重要论文的案例,这篇论文是由G.Hinton,N。Srivastava,A。Krizhevsky,I。Sutskever和R.Salakhutdinov撰写的关于提升深度学习性能的文章。这篇文章介绍了Dropout机制[74]。本文于2012年被NIPS拒绝[75]。 或者谷歌,当谷歌在发布结果时,巩固了其作为该领域领导者的声誉,吸引了下一波人才,这是该领域发展的主要困难之一。

算法改进

来源: https://arxiv.org/pdf/1712.00617.pdf

我们已经展现出的硬件的改进以及在该领域进行研究的科学家展现出的更多的计算容量,使得在新算法的设计方面取得显着进步成为可能,新算法能够克服了以前的算法种的缺陷。例如,直到很多年前,从算法的角度来看很难训练多层网络。但是在过去十年中,在激活函数的改进,预训练网络的使用,训练优化算法的改进等方面取得了令人瞩目的进步。今天,从算法来讲,我们可以毫无问题地训练数百层的模型。

想要继续查看该篇文章更多代码、链接和参考文献?

戳链接:

http://www.gair.link/page/TextTranslation/1028

AI研习社每日更新精彩内容,点击文末【阅读原文】即可观看更多精彩内容:

良心推荐:一份 20 周学习计算机科学的经验贴(附资源)

决策树:一种像人脑一样工作的算法

如何让你的深度神经网络跑得更快

手把手教你从零开始用Python打造自己的神经网络

等你来译:

Cartpole -强化学习介绍(深度Q学习)

用深度强化学习玩Atari第一部分:DDQN

深度学习文本分类实战报告:CNN, RNN & HAN

使用Tensorflow进行深度强化学习课程5:如何用策略梯度玩Doom和Cartpole

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2018-10-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

Ian Goodfellow回忆GAN诞生故事:几杯啤酒喝出“20年来最酷的深度学习想法”

1812
来自专栏腾讯高校合作

【犀牛鸟论道】社会传播学的若干课题与实践

社会传播学的若干课题与实践 贺鹏、易玲玲、高瀚、陈川 腾讯微信数据中心社会传播组 [摘要]俗话说“酒香不怕巷子深”,表面上说的是酒香引人,实际上是指好酒在街坊邻...

3525
来自专栏IT派

个性化推荐系统那些绕不开的经典问题

在恰到好处的时候,用户邂逅到心仪的事物,想必正是一件美好之事。推荐系统就是那个促成美好的丘比特。

2144
来自专栏机器之心

业界 | 拿下吴文俊奖,今日头条李磊谈AI如何实现内容创作

3758
来自专栏PPV课数据科学社区

一名合格的机器学习工程师需要具备的5项基本技能,你都get了吗?

你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝...

4209
来自专栏腾讯高校合作

【犀牛鸟·视野】现场报道 | SIGGRAPH Asia 2017 (DAY 2):“图像和显示”session探究

今天是SIGGRAPH Asia 2017的第二天,与昨天稍显冷清的会场相比,今天可谓是百花齐放,热闹非凡,这主要是因为有两大重头戏上演,即各式各样的展台(Ex...

3577
来自专栏深度学习自然语言处理

资料 |《深度学习500问》,川大优秀毕业生的诚意之作

今天,给大家推荐一本还未完成的深度学习书籍——《深度学习500问》。为什么要推荐一本未完成的书?

1122
来自专栏华章科技

机器学习进阶路上的五个境界

关于机器学习,这个话题最近实在太火了,甚至有些虚火了。有了虚火,就容易有泡沫。大浪淘沙,要想在数据科学这个行业生存下来,任何一个从业者都需要认清自己的位置,每上...

1073
来自专栏大数据文摘

数据科学中的“数据智慧”

18410
来自专栏灯塔大数据

一名合格的机器学习工程师需要具备的5项基本技能,你都get了吗?

你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝...

4188

扫码关注云+社区

领取腾讯云代金券