Docker和hadoop

Docker很热,怎么形容?感觉开源除了spark技术,就是docker了,甚至把Go语言也带火了,把Go在TIOBE的排名从百名外带入主流语言的行列。

Docker快成救世主了,这么牛逼的技术,docker和hadoop碰撞出什么火花来呢,是不是得赶紧用上呢?

就不介绍具体什么是docker了,不是一门全新的技术,是基于LXC的高级容器引擎,从linux内核发展出来的轻量隔离技术。相比单纯的隔离,核心是标准化了镜像打包,部署和发布这个过程,相当于标准化了开发过程。就运行态来说,相比VM,核心优势就是轻量,劣势也明显,安全性不足,容易攻破。下图是一个VM和容器的对比:

关于LXC,google的大规模集群管理工具borg号称十年前就使用上了,使用场景就是大数据场景,而且批量/实时场景号称都支持的很好,集群资源利用率也非常高,所以照这个说起来,大数据和docker渊源很深。

但是现实的情况是,docker在hadoop领域用的并不是很好。目前主流两种用法:

第一种方法是用Docker来直接运行Hadoop。例如hortonworks,收购了一家叫SequenceIQ的公司,通过叫Cloudbreak的技术,将Hortonworks Data Platform(HDP)打包成Docker镜像,好处是可以在微软Azure、亚马逊AWS、谷歌云平台等任何主流云平台上启动HDP。这种解决的是在多云平台部署的问题。但是这个公司被收购之后也没有更多的消息了。Github上的最后一次更新也在5个月之前。

这个至多只是解决开发环境的问题,hadoop很难在不同的环境下,不调优而跑出一致的表现,天生的使用场景受限,价值有限。

第二种方法是通过YARN来使用Docker容器进行应用部署,yarn是支持docker的,具体可以看看:

http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/DockerContainerExecutor.html

yarn作为资源管理,由于其扩展能力,一直被压缩在了大数据领域,如果为了任务级别更高资源利用,通过FAIR调度算法足于,更强的隔离反而限制了资源的弹性使用。

当前资源调度更火是k8s(google主推,号称从borg发展而来)和mesos(伯克利大学主推)。瞄准的场景也更多的是应用级别,yarn支持docker处在一个很尴尬的地步。

综合来说,hadoop体系有自己的一套资源管理系统,要解决的问题是多个服务器并行调度起来当一个服务器使用的问题。而docker技术本质上和VM一样,是将一个服务器拆成多份给更多的应用使用。Docker和hadoop体系在云下物理机的场景非常有限,未来在云上替代VM解决弹性伸缩问题应该有发展。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2017-06-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云加头条

云端架构师养成系列之二:云端负载均衡上手与实践

上周四,腾讯云技术社区继续推出了【云端架构师养成】系列分享的第二期:云端负载均衡上手与实践,邀请到的嘉宾是负责该产品的产品经理方坤丁与工程师龚飞斐。 [1496...

3779
来自专栏企鹅号快讯

直播、NFC、分包加载……小程序这两次新能力,有哪些开发者们可以玩的东西?

小程序释放的能力一波接一波,对于开发者而言,真的是高潮一波接一波,微信已经越来越像一个移动端的操作系统。 如今,理论上来说,基于微信几乎可以完成所有想完成的开发...

2815
来自专栏后端技术探索

京东海量订单处理

2014年的618显得和以往任何店庆促销日都不同,不仅仅是因为电子商务本身在中国不断飞速发展对京东系统带来的挑战,更为重要的是2014年5月22日刚走入美国纳斯...

2703
来自专栏大魏分享(微信公众号:david-share)

基于车联网应用场景架构设计PaaS平台以实现DevOps同行技术探讨经验总结

声明:本文作者为edwin1986,上汽通用汽车 系统架构师。本文已获得授权转载。

4705
来自专栏SDNLAB

Neutron:我前进的路还很漫长

作为一直受到广大OpenStack用户诟病的网络项目,Neutron一直在“摸索着”自身的定位。对于用户而言,稳定的商业SDN产品对于网络的管理似乎更能满足他们...

2665
来自专栏编程坑太多

『高级篇』docker之服务编排三大平台扬帆起航(21)

PS: 国内这种公司还是很多的,他们致力于帮助互联网企业来使用docker。让企业不管是传统服务,还是微服务,都可以享受到docker带来的遍历。他们的方案基本...

623
来自专栏SDNLAB

Neutron:我前进的路还很漫长

作为一直受到广大OpenStack用户诟病的网络项目,Neutron一直在“摸索着”自身的定位。对于用户而言,稳定的商业SDN产品对于网络的管理似乎更能满足他们...

3298
来自专栏魏艾斯博客www.vpsss.net

为什么 windows VPS 比 linux VPS 的价格贵一些

3584
来自专栏祝威廉

运维=平台+数据

运维的发展日新月异,曾几何时,运维仅仅是被认知为跑机房,装系统,设计网络,给开发擦屁股。但是现在运维变得极度重要,运维职责也更加细化,譬如稍大点的公司就将运维划...

5175
来自专栏大数据和云计算技术

大数据服务上云的思考

说说大数据怎么上云的一些思考: 1、首先说说,大数据和云的关系。云是一种网络形态的概念,是继1980年代大型计算机到客户端-服务器的大转变之后的又一种巨变。云计...

2938

扫码关注云+社区