嫌弃Hadoop?可能是你的打开方式有问题

原作者 Andrew Brust

编译 CDA 编译团队 本文为 CDA 数据分析师原创作品,转载需授权

关于 Hadoop 所谓的消亡,以及它跌落神坛的报道数不胜数。有很多人放马后炮说,Hadoop 从一开始就没有意义。还有人说“Hadoop 对于小型,临时的工作来说很慢”、“ Hadoop 很难”、“ Hadoop 已经死了,Spark 才是胜者”等等。那么事实真的如此吗?

如今围绕着 Hadoop 缺陷的争论和当初对其的大肆追捧一样激烈。

在这些喋喋不休的争论中,你可能已经得出结论,Hadoop 已经死了。个人认为这个想法虽然可以理解,但却是错误的。

TCP/IP

你听过 TCP/IP 吗?如果没有,相信我这是很强大的技术。实际上,你很喜欢TCP/IP ,你只是没有意识到。TCP/IP 不仅能驱动互联网,还能驱动电子邮件,甚至能驱动网络。当你使用各种应用程序,使用各种流媒体,以及打车、上网等等,这都受益于 TCP/IP,没有它你可能无法生活。

虽然你喜欢 TCP/IP,但是你对配置它不感兴趣。你不用输入 ifconfig 这样的命令,从而查看你的 WiFi 适配器是如何联网的。甚至你不用关心它附加的网关,以及它使用何种 DNS 服务器。

在 20 世纪 90 年代,TC/IP 曾被当做产品销售,结果不温不火。最终,TCP/IP 已被建立在操作系统中,如今到处都有它,TCP/IP 成为了普遍的标准。

Hadoop是基础设施

其实,Hadoop 就是大数据世界中的 TCP/IP。它是基础设施,同时也带来巨大的好处。但是,当基础设施暴露出来时,带来的好处就大大削弱了。Hadoop 像Web 浏览器一样被推广,但是它更像 TCP/IP。了解这一点时就会发现,推广 Hadoop 本身就不是个好主意。

如果你直接使用 Hadoop,那么你错了。如果你在命令行中输入“hadoop”和一些参数,那么你就在倒退。你是想自行配置和运行所有内容,还是只想使用数据,让分析软件在后端处理 Hadoop?

大多数人会选择后者,但大数据行业往往把客户导向前者。之前,行业是这么看待Hadoop…如今也将这么看待 Spark 和众多的机器学习工具。这是技术专家讨好商业用户的例子,这永远不会结束。

开发工具不等同于商业工具

业界并不是完全忽视这个问题,一些厂商已经在尝试改进 Hadoop 的不足之处。目前已出现 Hue、 Jupyter、Zeppelin 和 Ambari 等的开源项目,旨在让 Hadoop 从业人员摆脱命令行。

但问题就在此。我们需要为商业用户,而不是为Hadoop 从业者提供工具。Hue 非常适合运行和跟进 Hadoop 任务,以及使用 SQL 或其他语言编写系统查询。相比Spark,Jupyter 和 Zeppelin 非常适合编写、运行代码,以及使用数据科学的 R 和Python 等语言,甚至生成代码的数据可视化。问题是使用这些工具不等同于脱离命令行;它们只是让人们更有效地做这些事情。让人们完全脱离命令行是一回事,但让人们更简便的做同样的事情,并没有什么本质的改变。

BI 工具供应商也尝试改善这一现状。但他们通过简化 Hadoop,并将其当作 SQL 数据库来处理。给 Hadoop 加抽象层是好的,但是在它们之间加 SQL 层并不是。想做大数据分析吗?选择一个使用 Hadoop 的工具,并充分利用它。虽然你不用直接使用 Hadoop,但你的分析工具应该与它密切相关,而不是敬而远之。

如果你还没有找到答案,这里有一个平衡的方法。从事大数据分析,你不用直接用到引擎——本文指 Hadoop,但你仍然需要它的全部效能。为了实现这一目标,你需要一个技术的分析工具来驾驭该技术,而不会否定或忽略它。在技术工具和 BI 用户之间有重要的中间地带。找到它,你将走上正轨。

Hadoop的前景

Hadoop 没有死,这毋庸置疑。Hadoop 是非常强大的关键技术。但它也是基础设施,它不会成为大数据的典型代表。Hadoop (或 Spark)应该嵌入在其他技术和产品中。这样一来,这些技术就可以利用 Hadoop (或 Spark)的强大功能,而不暴露其复杂性。

Hadoop 正如 TCP/IP 一样,问题是人们如何使用它。如果你想要从事大数据分析,那么请使用利用 Hadoop 功能的大数据分析软件。如果你这样做,Hadoop 将会复活,这不是靠魔法,而是靠常识。

原文链接:

https://www.datameer.com/company/datameer-blog/hate-hadoop-youre-doing-it-wrong/

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2017-08-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据和云计算技术

hadoop发行商介绍:Cloudera

‍‍‍‍在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。现在国内很多公司也都选用他们的发行版本(CDH)。‍‍ ‍‍Cloudera由...

3048
来自专栏挖掘大数据

Hadoop的正确打开方式

关于 Hadoop 所谓的消亡,以及它跌落神坛的报道数不胜数。有很多人放马后炮说,Hadoop 从一开始就没有意义。还有人说“Hadoop 对于小型,临时的工作...

2349
来自专栏大数据技术学习

常用的大数据技术有哪些?hadoop学习总结

大数据技术为决策提供依据,在政府、企业、科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国、美国以及欧盟等都已将大数...

2422
来自专栏大数据文摘

图文并茂:5分钟了解Hadoop

1594
来自专栏大数据和云计算技术

SQL on Hadoop技术分析(一)

背景 Hadoop的诞生是划时代的数据变革,但关系型数据库时代的存留也为Hadoop真正占领数据库领域埋下了许多的障碍。对SQL(尤其是PL/SQL)的支持一...

3895
来自专栏祝威廉

用机器学习流程去建模我们的平台架构

spark.ml 在一开始就提出了五个概念。这五个概念也完全可以对一个通用的service platform进行建模和抽象。我们来看看。

831
来自专栏华章科技

Hadoop创始人Doug Cutting谈未来大数据的技术

Cloudera首席架构师就内存及云计算相关技术发表讨论,Hadoop将如何在大数据方面发挥更大价值。

511
来自专栏ATYUN订阅号

Cloudera宣布更新一系列机器学习产品,为数据团队提速

软件公司Cloudera今天在Strata Data伦敦会议上宣布了一系列机器学习产品更新:Cloudera Data Science Workbench 1....

1283
来自专栏hadoop学习

大数据hadoop入门之hadoop家族详解

大数据这个词也许几年前你听着还会觉得陌生,但我相信你现在听到hadoop这个词的时候你应该都会觉得“熟悉”!越来越发现身边从事hadoop开发或者是正在学习ha...

1562
来自专栏JAVA高级架构

从0到1,成为大数据行业领袖

目前最火的大数据,很多人想往大数据方向发展,想问该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向...

2847

扫码关注云+社区

领取腾讯云代金券