Docker和hadoop

Docker很热,怎么形容?感觉开源除了spark技术,就是docker了,甚至把Go语言也带火了,把Go在TIOBE的排名从百名外带入主流语言的行列。

Docker快成救世主了,这么牛逼的技术,docker和hadoop碰撞出什么火花来呢,是不是得赶紧用上呢?

就不介绍具体什么是docker了,不是一门全新的技术,是基于LXC的高级容器引擎,从linux内核发展出来的轻量隔离技术。相比单纯的隔离,核心是标准化了镜像打包,部署和发布这个过程,相当于标准化了开发过程。就运行态来说,相比VM,核心优势就是轻量,劣势也明显,安全性不足,容易攻破。下图是一个VM和容器的对比:

关于LXC,google的大规模集群管理工具borg号称十年前就使用上了,使用场景就是大数据场景,而且批量/实时场景号称都支持的很好,集群资源利用率也非常高,所以照这个说起来,大数据和docker渊源很深。

但是现实的情况是,docker在hadoop领域用的并不是很好。目前主流两种用法:

第一种方法是用Docker来直接运行Hadoop。例如hortonworks,收购了一家叫SequenceIQ的公司,通过叫Cloudbreak的技术,将Hortonworks Data Platform(HDP)打包成Docker镜像,好处是可以在微软Azure、亚马逊AWS、谷歌云平台等任何主流云平台上启动HDP。这种解决的是在多云平台部署的问题。但是这个公司被收购之后也没有更多的消息了。Github上的最后一次更新也在5个月之前。

这个至多只是解决开发环境的问题,hadoop很难在不同的环境下,不调优而跑出一致的表现,天生的使用场景受限,价值有限。

第二种方法是通过YARN来使用Docker容器进行应用部署,yarn是支持docker的,具体可以看看:

http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/DockerContainerExecutor.html

yarn作为资源管理,由于其扩展能力,一直被压缩在了大数据领域,如果为了任务级别更高资源利用,通过FAIR调度算法足于,更强的隔离反而限制了资源的弹性使用。

当前资源调度更火是k8s(google主推,号称从borg发展而来)和mesos(伯克利大学主推)。瞄准的场景也更多的是应用级别,yarn支持docker处在一个很尴尬的地步。

综合来说,hadoop体系有自己的一套资源管理系统,要解决的问题是多个服务器并行调度起来当一个服务器使用的问题。而docker技术本质上和VM一样,是将一个服务器拆成多份给更多的应用使用。Docker和hadoop体系在云下物理机的场景非常有限,未来在云上替代VM解决弹性伸缩问题应该有发展。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2017-06-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SAP最佳业务实践

从SAP最佳业务实践看企业管理(4)-CRM

现在总结本节,重点讲了“销售漏斗”,那么SAP CRM最佳业务实践对应的是: C67 管道性能管理 管道性能管理 (PPM) 是一种高度互动的分析应用程序,用于...

2744
来自专栏SDNLAB

Falco项目:将交换机软硬件去耦合

三年前我们的数据中心的应用程序面临着一个潜在的严重问题,我们没有根据应用程序的需求对网络基础设施进行缩放,这些需求包括高速、高可用性以及快速部署。我们需要在网络...

3245
来自专栏鹅厂网事

腾讯服务器平台架构师精彩分享天蝎3.0整机设计方向

"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网...

2766
来自专栏悦思悦读

基于私有/公有云的数据分析平台实例浅析

随着“大数据”概念的火爆,各色(大)数据分析平台一时之间也是风气云涌,更兼与云计算结合,成为一个个cutting edge startup的营销热点。笔者碰巧在...

33210
来自专栏黑白安全

我的渗透测试之道

我做渗透测试也有一段时间了,服务了很多企事业单位,由于我所在的单位性质的关系,也接触到了很多其他公司接触不到的项目,从中也积累了很多的经验。

622
来自专栏云计算D1net

谈谈集群NAS在VDI存储中的应用

S君小故事:存储选型难在何处?S君是一家公司的存储工程师,每当业务部门提出新的存储设备需求时,他就要配合系统架构师共同确定产品方案。这可不只是数据库放在SAN、...

2776
来自专栏贾老师の博客

《软件方法》实践之业务建模

934
来自专栏云计算D1net

研究表明:直接连接到云端至少降低50倍的延迟

对于将公共云作为其数据中心解决方案的一部分的企业来说,网络延迟是一个很大的问题。对于某些企业而言,还没有考虑到这种延迟,直到他们已经承诺使用公共云,并迅速成为一...

3337
来自专栏EAWorld

数字化企业云平台的Cloud Native12原则(上)

本文作者介绍了未来云原生应用建设的方法论,开发Cloud Native App的理想实践标准——12要素原则的前6个原则,并围绕数字化企业云平台讲述了具体实践方...

2876
来自专栏福利活动清单

CVM 实例价格总览

CVM 实例包括硬件(CPU、内存),磁盘(系统盘、数据盘),网络。在购买时,购买页都提供了对应资源。在这里首先对 CVM 实例硬件(即 CPU 和内存)的价格...

733

扫码关注云+社区