【机器学习】Quora机器学习Sessions：对话百度首席科学家Andrew Ng

陆勤_数据人网

发布于 2018-02-27 15:48:03

8230

发布于 2018-02-27 15:48:03

Writing Sessions是知识共享网站Quora推出的一个与专家交流互动的新板块，在这里你可以看到各个行业领域的专家、学者、名人等对引人注目的问题的独特见解。最近推出的系列围绕如今最热门的技术之一——机器学习所展开，本次机器之心推送是百度首席科学家、Coursera主席、创始人之一、斯坦福大学教师Andrew Ng在Quora上的回答，后续还会陆续更新并推出其他专家系列，敬请期待！

问题一：AI对人类存在威胁吗？

在当今，担心人工智能的罪恶超能力就如同担心火星移民计划导致的人口过剩一样，为时过早。因为实际上，我们甚至还没有登陆到火星表面！

人工智能目前已经有了巨大的进展，并且我对于机器智能技术由上之下构建服务更好的人类社会抱持乐观态度。但是到目前为止，人工智能的发展仍然非常局限。几乎所有深度学习的经济价值和社会价值仍然依赖于监督学习，即同时受限制于特定格式（比如，标记过的数据）。即便人工智能已经能够帮助者数亿人，并以积极的姿态准备去帮助更多的人，我也仍然没有发现任何现实意义上能够威胁到人类社会的人工智能方法。

长久来看，我发现很多种除了监督式学习之外的人工智能方法技术都非常激动人心，比如无监督式学习（由于数据无需再被标记，就有了更多的可用数据）。我个人或是其他的研究组在其他形式的学习方面也都有很多令人振奋的进展。我们所有人都希望看到一个技术性的突破，但谁都没法预测什么时候会真正到来。

我认为诸如对于「邪恶智能杀手」的恐惧，已经都成为了决策者和领导人滥用资源来解决一个根本不存在的幻影的借口。实际上人工智能会引发的其他问题，但更集中于工作的取代上。即便人工智能在未来十年能够帮助我们建立一个更好的社会，我们作为人工智能的创造者同时也应该对可能引发的一系列问题肩负起应有的责任。我希望 MOOCs（Coursera）成为解决问题的一部分，但是我们仍需要除教育之外更多的东西。

对于这个问题，我们看看深度学习三巨头之一的Yoshua Bengio的回答：

在未来，我们是否能研发出具备人类水平智能、甚至超越人类的AI？这个问题依然有很大的不确定性。尽管我是一个乐观主义者，但基于上述不确定性，我不能否认，我们不想看到的事依然有可能会发生。这就是我在FLI（Future of Life）呼吁AI应该稳健且有益于人类的公开信上签字的原因。

然而，必须注意到，这种潜在的危险距离现在的我们还很遥远。新闻媒体总倾向于在这方面夸大其词，以吸引注意力。这将损害AI研究。相反，我们应该鼓励研究者去更好地理解这些问题，如果有那么一天这些问题真的迫在眉睫，他们能让我们准备好，并为我们提供尊重人类价值的更安全的AI。

说到这里，我相信，将媒体的注意力从科幻片中的长期恐惧转向AI短期内可能带来的更具体的社会、经济和政治问题上，是一件很重要的事。但是，我们必须提前思考这些问题，不要等到大多数人遭受不幸（比如失业）而少数幸运者变得超级富裕且强势时才想到这些问题。在决定要怎样使用AI带来的进展时，我们必须发挥群体的智慧，让它有利于大多数人，而不是少数人。为了与科技带来的不断增长的力量相匹配，弱肉强食的丛林法则是不合适的：为了当代人以及我们后代的利益，个人和群体的智慧都必须有所增长。

问题二：无人驾驶汽车何时能真正上路？

我希望在三年之内能够看到大量的无人驾驶汽车问世，而在五年之内能够进行大规模生产。（如果你愿意，你可以在你的日程中写下这一点，三到五年之后再来检验我的预测是否正确。）

最近我们刚刚度过了斯坦福大学赢得DARPA无人驾驶汽车挑战赛十周年纪念日。但是为什么无人驾驶技术花费了这么久的时间还没有成熟呢？

首先，我认为建造一辆可以满世界跑的汽车的方法本身就非常具有挑战性，而且通常情况下第一个要解决的目标也是错误的（或者说不切实际的）。无人驾驶汽车最大的问题是解决所有的极端情况——即每行驶1万甚至10万英里才会发生的一些奇怪的事情。机器学习有助于将你的表现从90%的准确率提高到99.9%，但是却不会从99.9%提高到99.9999%。我认为以另外一个目标为起点或许更合适（更有希望）：区间车只能选择一条巴士路线，或者仅仅在很小的范围内活动。如果我们可以保证该路线的道路表面和车道标线维护良好，例如没有进行施工等；这样我们可以使得可触范围内保持真正的安全；然后依照这样我们可以慢慢加入新的路线，从而逐渐使得在这个区域内我们都能安全行驶。这也是百度正在进行的方案，我希望其他的小组也能采取这样的方法。

其次，汽车看待世界的方式和我们不一样。例如，今天的计算机视觉不能有效地分辨建筑工人朝你挥手时是在让你「过来」还是「停下来」。另一方面，我们的无人驾驶汽车并没有任何的盲点，随时都可以进行360°全方位观察；我们的车载HPC系统的反应速度也要比人类的反应速度要快。因此，我并不认为我们应该期待无人驾驶汽车和人类驾驶汽车的方式一样。我们可以让无人驾驶汽车变得安全、有预测能力和更加可靠；但是，它们将会和人类驾驶的汽车不同。作为技术人员，我们必须要有政府和社会的参与，他们的参与不仅可以帮助建立新的法规，而且能有效l了解社会对于这些汽车的新期望。

当然，对于无人驾驶汽车的未来，我们非常乐观。它将帮助人类节省大量的时间，以及避免大量的交通事故。我希望全球的科技社群能够和政府与社会一起，通力合作，早日实现这一美好愿景。

问题三：未来20年的工作会是什么？

如果你是一名50岁的货车司机，有一天你的工作突然被自动驾驶汽车抢了，你该怎么办？

其实，我们的社会是很擅长为有技能的人提供机会的，问题在于30多年累计的经验技能在一息之间就贬值了。在这种情况下，我们有道德上的义务去帮助这些受影响的个体，获取新技能和新机会。

幸运的是，随着MOOCs及其他可快速扩张的教育形式的兴起（如 Coursera, Khan Academy, Lynda），我们现在可以用较为实际的成本做到这点。我并不为20年后我们是否会缺少重要的工作岗位而担心，因为其实有很多人们正在担任的工作是机器在当下或许在可预见的未来都无法胜任的；但是我为个体的再教育需求感到担心。

同时，我认为基础收入也是有必要的。这样做可以为个体提供保障措施以及获取新技能的机会。当今社会以及政治现状可能还不能接受「毫无缘由地付钱给人们」这个想法。所以，我提议向人们支付薪水，作为他们学习的回报。这样，既不会使大家无所事事，又可以有效地引导失业者去做一些有利于他们重新进入劳动大军的事情。

我十分喜欢Erik Brynjolfsson和Andrew McAfee写的「第二次机器时代」，他们在其中有讨论这些问题。

问题四：开启机器学习职业生涯最好的方法是什么？

Cousera上的斯坦福大学的机器学习课程就是为了让更多的人可以开始接触机器学习而设计的。如果你熟悉基本的编程（通过任何一种语言），我都推荐你从这个课程开始。

很多人通过完成了这门网络公开课得到了机器学习相关的工作。还有一些其他的类似的课程也很有用；比如约翰霍普金斯的数据科学专家系列。参加Kaggle或者其他的机器学习竞赛也帮助很多人获得了不少经验。Kaggle有一个带有在线讨论的社区，你可以从中学到很多实用的技巧。参加本地的meetup见面会或学术会议（如果你愿意付这个价钱），还有多和有经验的人聊聊也很有帮助。

但是最重要的是要坚持学习。不单单是几个月，而是几年。

每周六，你都要在是在家里读论文或实践算法与看电视之间选择。如果你整个周六都在工作，短期内也不会有太多回报，而且你现在的老板甚至不会知道，也不会对你说「干得好」。此外，即使一个周六的学习过后，你也不是真的就对机器学习那么在行。但是秘密在于：如果你不仅仅只是一个周末如此，而是坚持这样学习一年，那么你会变得非常优秀。

如今社会对具备机器学习技能的人才有很高的需求；一旦你得到一份机器学习的工作，你的学习只会进步的更快。

世界需要更多的懂得机器学习的人来帮助解决问题。我们的社会有太多的数据和计算资源，（这些使得）机器学习就像有超能力一般，允许你创造令人震惊的东西；但是现在只是没有足够的（懂的机器学习）的我们来做这些事。我希望我的读者们可以更加努力，学好机器学习。

对这个问题，我们来听听Yoshua Bengio的回答：

首先，你要经过基础的数学和计算机科学的训练。就深度学习而言，你可以看麻省理工出版社出版的深度学习的书的第一部分（现在网上有电子版，最终麻省理工出版社会出版纸质版）来温习或者看数学和计算机科学领域最相关的内容。然后你需要阅读机器学习方面的内容，比如Chris Bishop和 Kevin Murphy的书，Andrew Ng的coursera课程，和Hugo Larochelle关于神经网络的视频，然后你在深度学习书的第五部分中总结出许多基本问题。然后你就需要开始练习了，比如自己编写一些算法，用数据训练它们，试着参加Kaggle的比赛。试着在优化超参数和选择合适模型方面成为专家，同时继续阅读。如果你对深度学习感兴趣，我的书的第二部分会告诉你最基本的算法基础。此时，你已经有足够的知识背景积累，可以开始选择你喜欢的书籍阅读了。

问题五：Coursera早期时候最有趣的故事是什么？

慕课（MOOCs）从早期创建就与众不同。

2011年，斯坦福大学推出了三个引人注目的MOOCs，包括机器学习、数据库和人工智能；也正是这一举动导致了今天的MOOC运动。人们当时的反应是，「哇，这真的是横空出世的新鲜事物！」

但是如果你是其中的建造者之一，你就会看到它一步步的发展历程，到最后如何实现了「横空出世」。2011年推出的这个MOOC是我做的第六个在线教育网站。之前的一些都远不如这一个网站成功，或许你从未听说过。但是我们从早期的原型中不断地学习、总结，直到2011年我们成功地建立了这样实现质变的产品。从 Jennifer Widom和我写的《现代MOOC的起源》中你可以读到更多早期的故事（我们俩负责2011年MOOC推出的三门课中的两门）。

后来，在深度学习中我们也看到了类似的现象。在外行人看来，他们的印象是「哇，这真的是横空出世的新鲜事物！」（这种类似反应出现在2012年，当时我正负责谷歌大脑计划，并宣布了猫的研究结果。）但是对于我们中这些为MOOC工作多年的人来说，这种进步真的是一步步取得的。

线性范畴上的指数式进步看起来通常都是一个不连续的变化过程。在科技领域我们看到了太多这样的例子。

既然你问了这样的问题，这里我就讲述一个故事：2011年，我与斯坦福大学的四个学生一起工作。我们需要为已经注册的10万学生建造新的功能，因此我们的压力非常大。其中的一名学生（Frank Chen）声称另一名学生Jiquan Ngiam经常将他滞留在斯坦福大学的大楼中，知道深夜才让他搭车会宿舍，因此他没有别的选择，只有留下来并继续工作。我从来没有去核实这件事情的真实性。

你对学生们有何建议？

当面临该如何支配时间这个问题时，我建议你考虑以下两个方面：

你正在做的事情是否能够改变世界
你能够从中学到多少

即便是今天，这两个标准也是决定我如何分配时间的标准。

我们现今的社会能够给你非常多的机会让你你去改变这个世界。在数字技术和先进通信技术的帮助下，灵感和产品以前所未有的速度进行传播。拥有一个不错的想法以及强大的执行力，任何人都可以很快的帮助到地球上的很多人。

所以，问问自己：如果你正在做的事情是为了极力追求那些能够超越你狂热梦想的成功，那么你也没有zai很大程度上帮助到其他人？如果不能，那么应该保持探索的心去寻找一些其他的事情来做。而如果恰恰答案是肯定的，那么你就要全力以赴发挥自己最大的潜能去追求。

第二点，特别是当你还年轻的时候，不要去试图预估投资在你自己未来教育中的价值。

我定义的「年轻」是任何在100岁以下的人。

任何你所学习的东西都能够在数十年后给予你回报。但这并不容易。一旦你离开了学校，投资于学习的时间在短时间内几乎很难看到明显回报。没有老师会站在你身后给你一个分数评语或者督促你继续用功。但是如果你肯自我激励或者保持阅读的习惯，继续跟自己的想法较劲，和能够让你获益的人保持沟通，那么在数年之后你可能会成为在特定个人领域学习之中的佼佼者。

拿我自己来说，我喜欢阅读。我的kindle上有超过1000本的书籍，并且我每天晚上、每个周末都会花费很多时间进行阅读。我的阅读范围包括了学术研究论文、商业策略、创新过程、产品、我欣赏的人物的自传，等等。有时我还会参加MOOC课程学习，同时我也非常喜欢与那些能够教会我新知识的人交谈，无论新知还是故交。

学习的过程也会帮助你决定真正该从事什么，当你看到了足够多的关于别人如何改变世界的实例，你也会得到更多灵感来启发自己如何去改变世界。

做一个简单总结：即使并不容易，但还是应该坚持在学习中探索，同时积极寻找一种能帮助整个人类的事业，并投身其中。

是什么促使你追求人工智能？

我希望我们可以使用人工智能建设一个更好的社会。

就如工业革命将人类从大量的体力苦工中解放出来（想想你的生活得是个什么样子，如果你的衣服都需要你自己缝？）在未来，人工智能将会将人类从脑力苦工中解放出来。比如说，有了自动驾驶汽车，就意味着我们不再需要浪费一生中的三年时间在开车上。这将带给我们更多的时间，用以陪伴所爱之人，以及追求更有价值的目标。

我从16岁时就开始做神经网络（现在被称作「深度学习」）。当时我在新加坡国立大学实习。拿今天的标准来看，我们当时做的非常微不足道，但是当时我想几行代码就可以让一个电脑来学习，这件事实在太神奇了！

学霸小爆料：由于当年我们的电脑用emacs太慢，我学会了用vi，并且一直对其有所偏爱使用至今。（译者注：emacs是一种很古老的文本编辑器。在Unix文化里，Emacs是黑客们关于编辑器之战的两大主角之一，它的对手是vi、Vim。）

那段时间，我还做了另外一个实习——办公室助理，并且做了一大堆复印工作。（技术上来说，我是办公室助理的助理。）正是在那时，我意识到更聪明的机器可以帮人类做很多事情，这样人类就可以去做更多在智力上有挑战的事情。

在接下来的十年里，人工智能将改变社会。它将把我们所做的事情转变为我们让电脑为我们做的事情。也许在接下来的数十年里，将有人在Quora提出这样的问题：「如果你不得不自己驾驶汽车，你的生活会是什么样子？」

你更希望在产业中工作还是在斯坦福从事学术研究？

当人们向我咨询自己该去产业界还是学术界时，我通常建议他们应该先认清自己想做什么。比如，自己身上的使命是什么？你想为改变世界做些什么？当你对以上问题有了答案时，就自然而然明白自己的心之所向了。

在产业界工作有这些东西是吸引我的：

为大型项目提供核心资源。人工智能研究是一个对于数据密度、计算资源要求极高的领域。这些资源在企业里相对容易得到。
团队意识很强。在团队工作中，如果不必担心诸如作者排名或者博士论文发表数的问题，你会更容易拥有一种团队意识，也更愿意看到一个集体的成功。
快速决断力（依公司而定) 。我喜欢在一个高强度的工作环境中工作，迅速根据需要提供解决方案，无论是搭建一个计算集群还是大量数据的采购。
通过新产品的发布和产业服务更直观地去帮助大量的人。

当然，学术环境也有它自身的优势：

可以探讨任何类型的问题。比如，我之前在斯坦福做过一些教育视频的工作。一开始并没有人认为这是「正经」的斯坦福的工作，但后来它发展成了Coursera （让Stanford也有受益）。在这里，当我和我的学生想要搭建一个开源的机器人平台时，我们就会按照自己想的直接去实行。这一切促使了 ROS(Robot Operating System）的产生，一个非常成功的开源平台。
你可以完全自由得支配自己的学习时间，好几年都没有任何科研产出也没有关系。像类似百度这样的公司就非常支持员工们的自我学习，鼓励他们花好几个月去学习充电，但也不可能让他们持续好几年的时间。
拥有一个学位。在当今的社会拥有一个高等教育的学位是很有帮助的。学校和企业都善于培养人才，社会只负责甄别人才，无论你的才能是怎么习得的。

对于我而言，让我振奋的一个使命是构建一个获取最佳教育资源的普世方法，我认为Coursera就是一条捷径。我越来越喜欢通过人工智能技术的发展去帮助成千上万的人，并且我认为百度是实现这个梦想的平台。但是也有很多同样重要的使命，比如传道授业、特定领域的投资研发等，这些我觉得更适合在高校中完成。

你对深度学习怎么看？

深度学习是一个已经在帮助数不清的小组制造了令人兴奋的人工智能应用的极棒的工具。它正在帮我们建造自动驾驶汽车，准确的语音识别，能够理解图像的电脑，以及很多很多其他的。

在最近的一些进步之外，我还是看到前方有大量的尚未被挖掘出来的机会。在精准农作、消费金融、医药等领域已经出现了很多项目，在这些方面，我看到非常清晰的看到了深度学习大有作为的机会，但是至今却尚未有人有时间专注其中。所以我对深度学习在近期绝对不会进入「平台期」很有信心，它会持续快速增长。

同时深度学习被过度炒作了。因为神经网络非常专业而且很难解释，我们中的很多人过去习惯通过绘制人类大脑的类比图来解释它。但是我们其实基本上对生物脑到底是怎么工作的一无所知。加州伯克利大学的Michael Jordan将深度学习称作生物脑的「卡通版」，即一个对于我们并不了解的东西的大量过度简化的版本，我同意这个看法。除了在媒体的炒作中，我们离真正造出人类级别的智能还沾不到边呢。因为我们从根本上就不知道到底人脑是如何工作的，我们试图盲目地在计算机上复刻我们根本不了解的东西并没有造出有用的人工智能系统。相反的，当今最有效的深度学习工作是基于计算机科学和工程原则逐渐发展起来的，最多也就从生物领域获得了一点点灵感，而不是试图盲目的抄袭生物。

具体来说，如果你听到有人说「大脑可以做X。我的系统也做X。因此，我们在建造大脑的路上」，我的建议是立刻掉头别理他。

很多深度学习使用的思路已经存在了好几十年了。为什么它现在才开始起飞呢？两个主要的推动因素是1）数据规模；2）计算规模。鉴于我们的社会在网络和移动设备上花费了更多时间，在过去的20年里我们一直在快速地积攒数据。也是到了最近我们才搞清楚如何通过大量增加计算来建造可以利用这些海量数据的深度学习算法。

以上已经将我们带入了两个加速深度学习进程的正循环：

首先，我们现在有可以吸收海量数据的机器了，数据的价值逐渐清晰。这给获取更多数据带来了更大的激励，与此同时，更多的数据又激励我们建造更大更快的神经网络。

其次，我们现在有高速的深度学习装备，这可以加速创新，并且加速深度学习研究的进度。很多人低估了在计算机系统上的投资对于深度学习的影响。当进行深度学习研究时，我们一开始对哪些算法有效、哪些没效一无所知，并且我们的工作就是进行一大堆实验，并且搞清楚到底哪些有效哪些无效。如果我们有一个高效的计算基础设施，可以让你可以用一天完成本来需要一周的实验，那么你的研究进度将要有7倍那么快。

这就是为什么2008 年左右，我在斯坦福的团队开始支持将深度学习转移到图形处理单元（GPU）上（当时这相当的具有争议；但是现在每个人都这么做）；现在我支持转移到高性能超级计算策略（HPC）来增量深度学习。机器学习应该拥抱高性能计算。这些手段将使得研究者更高效，并且加速我们整个领域的进程。

总结一下：深度学习已经帮助人工智能取得了巨大的进展。但最好的还在未来！

来源：机器学习之心。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-02-20，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习

本文分享自数据科学与人工智能微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

机器学习

登录后参与评论

0 条评论

热度