再见,Hadoop时代,深度学习迎来寒武纪大爆发

【新智元导读】作为每年定期在全球多个城市举办,聚集来自全球领先大数据企业及用户的顶级技术峰会,Strata + Hadoop World 今年的大会于3月14日在美国硅谷召开。而O’Reilly 宣布会议从此以后改名为 Strata Data Conference,也宣告了 Hadoop 时代的终结。本文整理了这次峰会 Keynote 的精华内容。重点在于使用高效的方式从存储和处理大数据转为新的机器学习技术,以从现有的数据中获取更高的价值。不过,即使聚光灯已经从大数据转移到机器学习(以及诸如深度学习等更先进的技术领域),从实现的角度来看,分布式和可扩展的处理仍然占据主导地位,因为大多数流行的机器学习模型对输入数据和计算力都有着无尽的需求。

Strata + Hadoop World 是一个每年定期在全球多个城市举办,聚集来自全球领先大数据企业及用户的顶级技术峰会。今年的大会于3月14日在美国硅谷召开,本文整理了这次峰会 Keynote 的精华内容。重点在于使用高效的方式从存储和处理大数据转为新的机器学习技术,以从现有的数据中获取更高的价值。

不过,即使聚光灯已经从大数据转移到机器学习(以及诸如深度学习等更先进的技术领域),从实现的角度来看,分布式和可扩展的处理仍然占据主导地位,因为大多数流行的机器学习模型对输入数据和计算力都有着无尽的需求。

再见,Hadoop时代

值得一提的是,从2007年开源以后,Hadoop 及其相关技术就成为了数据科学的深层驱动力。但是,我们都知道, 虽然 Hadoop/MapReduce 留下了自己的印记,但它已经不再是前沿技术了。 实际上,我们知道 Apache Spark 已经抢了Hadoop 的风头,说 Spark 是去年的热门新闻也不为过。

终于,在今年的Strata+Hadoop 大会上,O’Reilly 宣布从此以后会议改名为 Strata Data Conference。所以,Hadoop 的时代,再见了。

演讲撷英

Cloudera CSO 及董事长 Mike Olson 谈到“机器学习的复兴”,说 ML 和 AI 的大部分基本技术是在20世纪60年代和70年代发明的。当时,这些技术引起了很多有关这个领域具有何等潜力的炒作。然而,所有这些炒作都崩溃了,因为当时没有足够的数据提供给这些数据饥饿型的模型,而且处理数据所需的计算力也非常昂贵。随着ML的关键要素(大数据和成本更低的计算力)变得越来越易得(感谢大数据革命),我们正在目睹 ML 的复兴。虽然 Map-Reduce 仍然是有价值的,但现在更受关注的是由 Apache Spark 支持的横向扩展的机器学习应用。他介绍了 Cloudera 的数据科学工具 Workbench,这是一个面向企业的自助型数据科学工具,可以作为数据科学研究(主要用 R,Python 等编程)与操作化(主要用C ++或Java编程,用于高性能执行)之间的桥梁。Coursera 联合创始人 Daphne Koller 发表“在规模化教育中应用数据与机器学习”的主旨演讲。自2012年成立以来,Coursera 作为一个mooc平台,已经拥有 2500 万学习者(其中75%所在区域在美国之外)和超过2000门课程(180个专业),如此快速的增长使得用户更难找到适合自己需求的课程。因此,Coursera 应用数据科学和机器学习来解决内容发现方面的问题,并提供相关的课程推荐。这是通过二级分类器实现的。在最高级别,使用 t-SNE 嵌入到课程协同注册矩阵,所有课程被分为100个聚类。第二个分类器用于鉴定聚类中可以向用户推荐的某个特定课程。Koller 提到,在使用数据科学来促成教育领域的进步和提高效率方面,仍然非常缺乏。

MapR Technologies 首席应用架构师 Ted Dunning 谈到“互联网的颠覆:将大数据推向边缘”。截至今天,互联网基础设施是建立在少量的服务大量消费者的大型服务器之上的。总投资由消费者基数主导,但是,成本由另一端的服务器驱动,也就是说,位元密度(bit density)和美元密度(dollar density)一样高。

在物联网模式中,基础设施的设计得到改善。有无数机器负责收集和处理数据,然后将量度(metrics)传递给服务器。在这样的模式中,成本由大量的机器(单节点或小聚类)驱动,而收入则由服务器或其他平台设备驱动,由于位元密度较低,这些设备可以执行更多任务。

Ted 介绍了 MapR Edge,这是一个专为物联网设计的平台,用于收集、处理和分析靠近源的 loT 数据,同时通过中央服务器共享关键的量度(metrics)。Niantic CTO Phil Keslin 在采访中分享了推出 Pokemon GO 的经验。Phil 提到,Keyhole 的经验帮助他们更好地了解地球,这在实际地理空间类的游戏中具有关键作用。Keyhole 团队主要使用20世纪90年代的卫星数据,这些数据在当年算是非常庞大,压缩后也有7TB。 Pokemon GO 的这个分布式基础架构是4名核心服务器工程师构建的。这支团队从强大的架构开始,用 Ingress 进行了一些实验,并做好了扩大规模的准备。Phil 说,与其说是一个“大数据”挑战,Pokemon GO 更像是一个“大计算”挑战。Pinterest 首席科学家 Jure Leskovec(同时也是斯坦福大学教授)解释了“实时向100M +用户推荐1B +条目”的机制:利用用户 - 对象图表(user-to-object graph)的结构规模化地提取排名信号。在 Pinterest 上部署的现代推荐系统(名为 Pixie)分为两个阶段:①候选人生成;②排名。候选人生成采用用户查询和侯选库(1B+条目,如pins,boards 等)作为输入,并列为 1K 的候选人名单。然后,基于机器学习的排名模块处理这 1K 候选人以生成一个有排序的推荐列表。该排名模块通过 RandomWalks 实现个性化的 PageRank,类似谷歌搜索的 PageRank。

为了实现“实时”的速度,Pinterest 图表需要完全加载到内存中,但由于具有 +100B 的边线(edges),这几乎是不可能的。因此,使用修剪策略(pruning strategies)以压缩图表是自然的选择。这是的图表可以适应约 100GB 的 RAM。这种架构可以为各种应用用例提供灵活的个性化功能。

深度学习的寒武纪大爆发

有一位讲者用“寒武纪大爆发”这个词形容我们目前经历的深度学习和AI的直线增长。这个词最早是由 DARPA 负责机器人挑战项目的 Gill Pratt 提出来的。

如果你还记得一点地球史,就知道单细胞生物曾霸占地球数十亿年,直到5亿年前的寒武纪初,多样化生物忽然如同爆炸一样出现。学术上的解释是,非常小的变化,比如视觉器官的进化,改变了生物的活动区域,新能力的运用推动了其他能力的发展。最终,人类诞生了。

所以当数据科学家小心翼翼地谈论起AI奇迹时,也按耐不住谈起深度学习带来的新能力时的兴奋之情。这听上去有点儿矛盾,但不妨这么想:深度学习就是给我们带来新的能力的一组工具,其中最受欢迎的包括CNN、RNN、GAN以及RL。所有这些都是深度学习的分支,可以经由诸如 TensorFlow、MXNet、Theano、Torch等等这样的深度学习平台来使用。深度学习平台的出现可能就是触发AI爆发的小小变革。

原文地址:http://www.kdnuggets.com/2017/03/strata-hadoop-san-jose-key-takeaways.html

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-03-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【开源之战】在搜集人类语音数据上,谷歌与火狐展开正面交锋

【新智元导读】巨头都在争相开源,那么彼此之间会不会形成竞争?近日,火狐浏览器的所有者 Mozilla 开源了一个语音数据库,与谷歌所做的数据库高度类似。这篇文章...

30530
来自专栏理论坞

谷歌是怎么设计AI语音界面的?这里总结了对话设计六大原则

编者按:新时代的界面将会突破现有的格局。界面将不再被滑动、轻触和点击局限,取而代之的是更自然细腻的语言呈现形式。 用于GUI(图形用户界面)的设计技法和设计语言...

18730
来自专栏DevOps时代的专栏

衡量:DevOps 架构下的人工智能思维

18760
来自专栏MixLab科技+设计实验室

电影封面海报个性化推荐+人工智能设计师

本文结合Netflix的个性化推荐案例,继续谈《人工智能设计师》的应用。 ? Netflix,让每个用户都看到不一样的电影海报 这家视频网站在最近宣布了他们利用...

43760
来自专栏ATYUN订阅号

Twilio推出Autopilot,可使会话电话,短信和语音机器人无缝协作

Twilio希望将AI与呼叫中心联系起来。在旧金山举行的年度Signal开发者大会期间,该公司采用了Autopilot,这是一种自然语言服务,使开发人员能够构建...

12920
来自专栏AI科技评论

为什么说工业机器人的那双“慧眼 ” 并不聪慧? | 硬创公开课

过去的工业机器人,在我们眼中一直是一些冷冰冰的自动化设备,但随着计算机视觉的应用,它慢慢变成了一个有感官,有思维,有情感的新一代工业机器人,并推动着现在珠三角、...

30890
来自专栏华章科技

漫画:什么是大数据

大数据是具有海量、高增长率和多样化的信息资产,它需要全新的处理模式来增强决策力、洞察发现力和流程优化能力。

12650
来自专栏AI科技评论

重磅 | 腾讯大数据宣布开源第三代高性能计算平台Angel

AI科技评论按:昨日,腾讯大数据技术峰会暨KDD China技术峰会上在深圳召开,腾讯数据平台部总经理,首席数据专家蒋杰做了腾讯大数据平台Angel即将全面开源...

36480
来自专栏ThoughtWorks

一个AR Tech Radar的诞生

技术雷达是ThoughtWorks每年出品两期的技术趋势报告,一般来说大家看到的雷达都是文档形式,其中有一张技术全景图,以及每个技术点的成熟度分析。而AR技术雷...

10510
来自专栏CDA数据分析师

“揭秘”大数据的10个神话!

本文整合自恒信国通 也许对大数据更好的一个类比是它就像一匹意气风发的冠军赛马: 通过适当的训练和天赋的骑师,良种赛马可以创造马场记录–但没有训练和骑手,这个强大...

20450

扫码关注云+社区

领取腾讯云代金券