谷歌深度学习四大教训：应用、系统、数据及原理（附数据集列表）

新智元

发布于 2018-03-26 10:31:11

8960

发布于 2018-03-26 10:31:11

文章被收录于专栏：新智元

【新智元导读】刚刚结束的伦敦深度学习峰会上，曾与吴恩达在 Google Brain 共事的谷歌高级研究员 Greg Corrado 分享了他对何时、何地、如何使用深度学习等非常实用的经验。Corrado 表示：某些情况下，尽管深度学习十分有用，也完全可以使用其他方法；没有谷歌那样强大的系统也能做深度学习。Corrado 尽管是神经科学出身，但他认为 AI 从脑科学研究成果中受益非常有限。本文结合吴恩达、RNN 之父 Jürgen Schmidhuber 的观点对其做了进一步阐经验。

在深度学习和人工智能上，谷歌聘请了一些世界上最聪明的研究研究员，听听他们怎么看待这一领域并不是个坏主意。在刚刚结束的伦敦深度学习峰会上，谷歌高级研究员 Greg Corrado发表演讲，就何时、为什么以及怎么样使用深度学习提出了几点建议。

深度学习并非必须，即便它可能会有用

Corrado 给出的最有用的建议也许就是：深度学习并不一定都是解决问题的最佳方式，即便它也许能得到最好的结果。现在，深度学习计算成本高昂，而且通常都要求有大量的数据，如果你是自己搭建系统的话，可能还需要一些内行的专业知识。所以，深度学习可能最终在一些结构化数据基础之上的模式识别任务上可以做得很好，比如欺诈检测、股票市场预测或者是销售管道分析等等。

Corrado 说，在一些已经得到广泛采用的领域，调整（justify）会更容易进行。“机器感知上，深度学习就比其他方法要好得多得多。” 但是，在别的领域，深度学习和其他方法之间的差距其实并没有那么大。

实际上，从新智元之前的报道《11 位机器学习大牛最爱算法全解》中就能发现，在深度学习如此流行的今天，即使是大牛最喜欢用的也不一定是深度学习。

小“引擎”也能做深度学习

Corrado 说，即使当一家公司已经决定使用深度学习技术，它也没有必要像谷歌、Facebook 或者百度一样建立那么巨大的系统。台式计算机如果有一块高效的 GPU，也能发挥作用。

Corrado 解释说，谷歌需要一个巨大的系统，是因为他们有大量的数据，并且，随着研究的演进，他们要能够迅速推动项目才行。但是，如果你知道自己想干什么，或者没有大的时间限制，那么小的系统也足够了。

“答案肯定是没有必要，”Corrado 重复道：“……你的系统只要大到能存下火箭燃料就行了。”

Corrado “火箭燃料”的比喻来自他的前同事、现在的百度首席科学家吴恩达，这是后者经常提到的比喻（现在是“AI 是新的电力”）。不过，关于什么才是“火箭燃料”，吴恩达自己也有两种说法。

2015 年初，吴恩达在未来论坛创立大会发表主旨演讲《机器学习与AI人工智能》，以百度语音识别为例，对“火箭论”做了比较详细的介绍。其中，吴恩达说：

“为什么深度学习现在开始火了？我要做一个比喻，你想象一下我们建造火箭，火箭有两个部分，第一部分是火箭发射机，第二个是燃料。如果发动机小，燃料很多是不可能的；如果发动机很小，燃料很少也不行，所以火箭必须要有一个大发动机和很多的燃料。深度学习和这个差不多，现在神经网络就是发动机，它推动着 AI 的发展，燃料就是我们所用的数据，社会数据化给我们提供了大量的数据输入发动机中给作燃料。AI最近发展的主要推动力，是因为能够建很大的神经网络。百度这样的公司能够收集很多的数据，还有一个很大的技术网络，这样当然深度学习可以越来越好了。

“我再给大家举一个例子，解释我刚才做的发动机核燃料的比喻。我现在和大家展示一个关于语音识别的例子。百度在语音识别方面投入了很多，直到最近基本上所有语音识别都是很简单的软件实施，一个方块里是一个复杂的体系。我们最近决定改用神经网络——就是我们的发动机——会取得什么效果（参见下面的PPT）。百度早期在 GPU 投入很多，所以能够建造很大的火箭发动机。燃料是什么？在语音识别方面，大部分学术人士都利用数据，有一些人有300个小时，最大的是2000个小时，最开始百度用了几个小时的语音数据，后来有几千个，再后来建立了合成的语音数据，最后一共达到了10万个的语音数据，按照语音识别的标准，这是无法想象的数据量。将火箭燃料和火箭引擎放在一起，就提高了语音识别的性能，而且也有很好开放的OPI进行发现。”

但是，吴恩达在今年 2 月接受《财富》杂志采访时，对“火箭引擎”做了更改：“计算能力的提高和数据的增多，推动机器学习领域取得了很大的进步，尽管这种观点在学术界并不受欢迎。以造火箭来打个比方……在这个比喻中，火箭引擎便是大型计算机——在百度，也就是我们正在建造的超级计算机——而火箭燃料便是我们拥有的大量数据。

在伦敦深度学习峰会当天早些时候，本文作者对吴恩达进行了采访，吴恩达介绍了深度学习是如何驱动百度的广告服务的。但是，吴恩达也建议说，数据中心的运营方式（也就是谷歌正在探索的）可能更适合。

总之，Corrado 建议，“台式计算机如果有一块高效的 GPU，也能发挥作用”，只要你知道自己想做什么就行了。

但是，你可能需要很多数据

不过， Corrado 也指出，训练深度学习模型确实需要大量的数据。理想情况是，把你能拿到是所有数据都用上。如果他要给决策层提建议，什么时候该使用深度学习，那么主要考虑的两个问题便是：

你需要解决的是不是机器感知的问题；
你是不是拥有大量的数据。

他说：“为了让系统运转，你必须要拥有大量的数据。” 如果没有大量的数据，他的建议是可以去想办法拿到数据。保证在每一个你希望训练的特征上都有不少于 100 次的可训练观察，这是一个很好的开始。

Corrado 表示，花上几个月的时间去对模型进行调整和优化浪费时间，想办法在早期获得更多的训练数据能让你更快地解决问题。

Corrado 还说，他对自己工作的定位不是在建立智能计算机（人工智能）或者打造会学习的计算机（机器学习），而是开发一种能学着变得智能的计算机。

训练这样一个系统需要大量的数据

设想一下，假如有（采用相对统一的数据格式保存的）世界各国地图数据库、各种语言的语料库……会是件非常美好的事情。除了各大巨头开源的和 Github、Reddit、Kaggle 这些比较知名的数据库，新智元根据 Wikipedia 整理了一些开放的大规模（英语）数据库，希望对你有所帮助：

跨学科数据库、搜索引擎：

https://www..com/datasets
http://usgovxml.com
http://aws.amazon.com/datasets
http://databib.org
http://datacite.org
http://figshare.com
http://linkeddata.org
http://thewebminer.com/
http://thedatahub.org
http://ckan.net
http://quandl.com
Open Data Inception（这里有 2500+ 开源接口）

单一数据集和数据库：

http://archive.ics.uci.edu/ml/
http://crawdad.org/
http://data.austintexas.gov
http://snap.stanford.edu/data/index.html
http://data.cityofchicago.org
http://data.govloop.com
http://data.gov.uk/data.gov.in
http://data.medicare.gov
http://www.dados.gov.pt/pt/catalogodados/catalogodados.aspx
http://data.sfgov.org
http://data.sunlightlabs.com
https://datamarket.azure.com/
http://econ.worldbank.org/datasets
http://gettingpastgo.socrata.com
http://public.resource.org/
http://timetric.com/public-data/
http://www.bls.gov/
http://www.crunchbase.com/
http://www.dartmouthatlas.org/
http://www.data.gov/
http://www.datakc.org
http://dbpedia.org
http://www.factual.com/
http://www.freebase.com/
http://www.infochimps.com
http://build.kiva.org/
http://www.imdb.com/interfaces
http://knoema.com
http://daten.berlin.de/
http://www.qunb.com
http://databib.org/
http://datacite.org/
http://data.reegle.info/
http://data.wien.gv.at/
http://data.gov.bc.ca

社交网络数据库

http://enigma.io
http://www.ufindthem.com/
http://NetworkRepository.com（有视觉互动分析的机器学习数据库）
http://MLvis.com

深度学习并不是真的基于大脑

Corrado 是神经科学博士，在进入谷歌之前，曾在 IBM 研发了 SyNAPSE 神经突触芯片。他确信，深度学习能从人类大脑运作机制中得到的借鉴是很有限的。同时，前提条件是我们需要弄明白大脑的工作原理，但是在这一点上我们知之甚少。

同样，RNN 之父 Jürgen Schmidhuber 的观点也是如此。在谈到脑科学及其对 AI 影响的时候，Schmidhuber 表示，他的研究基本不会因为脑科学的成果而受益。

Schmidhuber 说：“上一次神经科学对 AI 有启发是几十年前的事情了。最近深度学习的成功主要是由于数学和工程上的发现，与神经科学基本没什么关联。在本世纪初，我在 IDSIA 实验室制造出了从数学上进行优化的通用 AI 和问题解决程序（例如 Marcus Hutter AIXI 模型，或者我提出的自引用的哥德尔机器），它们都只包含几个公式。我认为从简单的原理综合得出一个实用的智能模型，比起分析现有样例——也即人类大脑——要简单得多。从上世纪 90 年代起，我在演讲中就一直谈到这样一个例子，现在有一个 19 世纪的工程师，他懂一点点电的原理，他该如何研究一台现代手机的智能呢？或许他会用针去戳芯片，测量各个半导体特有的曲线（就像神经科学家测量神经元钙离子通道的细节），完全没有意识到半导体的主要存在理由是作为一个简单的二元开关。或许他会监测微处理器根据时间散热分布的变化（就像神经科学家研究大规模现象，比如在思考时脑区的活动），完全没有意识到它上面运行的程序的简单性质。理解智能的原理并不需要神经生物学或电子工程学，而是需要数学和算法，尤其是机器学习和搜索程序的技术。”

大会当天早些时候，吴恩达也表达了相同的观点。他说，很多研究者都认为人类以一种非监督式的方法进行学习，但是，今天大多数的深度学习模型仍然通过监督式方法进行训练。也就是说，计算机分析了很多的标签图像、语音样本或者其他任何东西进行学习。

吴恩达此前也提到，深度学习所面临的一个重要限制是，其创造的几乎所有价值都在输入-输出映射当中。如果在企业数据中，X 代表亚马逊的一个用户账号，Y 代表“他们是否曾进行购物？”你有大量 X-Y 配对的数据，那么就可以采用深度学习。但在自行检索数据和发现价值方面，这类算法仍处在起步阶段。

拿深度学习（或神经网络）与大脑进行比较，虽然是比较形象，但也会导致对深度学习的能力的夸大。Corrado 说，这种类比，现在已经被认为过于夸张了。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-10-28，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

谷歌深度学习四大教训：应用、系统、数据及原理（附数据集列表）

谷歌深度学习四大教训：应用、系统、数据及原理（附数据集列表）

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐