运营商在VMware vSphere、vSAN上运行Hadoop的案例剖析

文章来源：企鹅号 - 乐生活与爱IT

【编者 Peter Ye 按】

今天这篇文章《运营商在VMware vSAN上运行大数据应用的案例》可以视为对上一篇文章的回应。VMware不仅支持，而且还有几个国内的案例。

一、提问和答案

例如：Hadoop默认的3副本是否可以在vSAN场景中降到2，以提高容量呢？我简单查了一下资料，并咨询了一位Hadoop领域的技术大拿。问答如下：

问：Hadoop的HDFS可以通过修改dfs.replication将默认值3，改为2或者1，或者其它值，对吗？

答：可以的，这个是修改全局的，也可以创建文件的时候指定。

问：实际使用中，有没有改成2或者1的？什么场景改成1，或改成2？

答：这个看用户需求，如果是一些日志型数据不太重要的，可以设成1或者2，如果是存企业里一些历史数据的，默认都用3。

新的HDFS版本，有纠错码技术，可以明显降低空间的浪费

https://www.edureka.co/blog/hadoop-3/#ErasureEncoding

---

我个人觉得，如果用户为了标准化购买和方便运维和管理，将HDFS运行在vSAN上。由于当前vSAN版本尚未支持vmdk和Hadoop的虚机锁定在同一物理服务器的前提下，为了提高存储利用率，也可以考虑将HDFS的默认副本数3减小。但这个需要用户仔细评估和平衡，因为这可能会影响性能。

二、大数据应用运行在VMwarevSAN上的案例

且不论国外，在国内也已经有些用户了。

1）有一个控股集团，将其电商大数据平台，以及某行业平台的数据分析，运行在Hadoop on vSAN上；

2）有一个电信运营商，将某信令检测系统，运行在Hadoop on vSAN上；

3）还有一些政府用户，正在规划将某些应用运行在Hadoop on vSAN上；

……

4）本文正文要分享的是另一个电信运营商的案例。

需要再次提醒的是，Hadoop不是大数据的全部。当我们考虑大数据应用是否适合运行在vSAN上的时候，应该知道除了Hadoop之外，还有其他许多应用也被归在大数据项目里；即使是Hadoop，除了HDFS之外，还有MapReduce等其他组件，他们运行在vSAN上，也是不错的。即使是HDFS，虽然利用率和性能都会有所减损，但仍有少量用户希望做到：标准化购买和运维，并利用虚拟化资源池实现弹性伸缩，所以将HDFS也运行在vSAN上。

详细分析，仍然是参见上一篇文章《vSAN支持大数据应用吗？》

下面分享我的同事---程恒在电信行业做得很漂亮的一个案例，可以视为Hadoop on vSAN上的很好的实践。

---Begin---

图一：采用超融合vSAN资源池后：

1、存储资源和服务交付更快更灵活

2、业务存储需求变更更快，实时生效

3、降低IT架构复杂度，实施、配置和管理更加简单

4、存储与计算基础架构融合共享，资源利用率更高

5、存储与计算基础架构融合共享，减少硬件采购成本，节约机房空间、节能减排

图二：用户的业务需求 - 物联网Hadoop虚机

图三：采用裸服务器部署大数据业务，每个物理服务器只能部署一个Hadoop节点，加上业务负载具有波动性，导致物理服务器的资源利用率不高，且节点扩容不够快速灵活，虚拟化之后计算、网络和存储资源整合，单个物理服务器上可以部署更多的Hadoop节点，提高了业务分析速度和物理服务器资源利用率，采用虚拟机方式扩容节点更加快速和灵活。另外虚拟化后可以在资源池里为不同租户不同业务部署Hadoop大数据业务，共享基础架构资源。

图四：资源共享和灵活调度

图五：虚拟化后提高了所有节点的可用性，当物理服务器发生故障宕机后，vSphereHA可以其他物理服务器上快速恢复Hadoop节点，采用容错技术可以为Namenode节点提供7*24小时的无中断保护。

图六：物理服务器配置：HPDL380 G7，CPU:2x X5687 Memory: 72GB or 96GB Disk: 16x SAS 146GB NIC: Broadcom 10GbE

Native：在裸服务器上部署1个Hadoop节点

1VM：Hadoop虚拟化后，每台物理服务器上运行1个Hadoop虚拟机数据节点

2VM：Hadoop虚拟化后，每台物理服务器上运行2个Hadoop虚拟机数据节点

4VM：Hadoop虚拟化后，每台物理服务器上运行4个Hadoop虚拟机数据节点

TeraGen：数据生成耗时，100%写

TeraSort：数据排序耗时，40%读，60%写

TeraValidate：数据校验耗时，100%读

从测试结果来看，即使是将物理服务器虚拟化，在每台物理服务器上部署1个虚拟数据节点，该业务的重要参考指标TeraGen耗时相比裸服务器增加了不到6%，部署2个或4个虚拟数据节点情况下只增加了约4%和2.5%。

图七：所有虚拟机的操作系统盘和非Datanode虚拟机的数据盘都放在vSAN共享存储中，为所有节点提供高可用性保护和差异化的数据存储服务，便于迁移和故障恢复。Datanode的数据盘直接采用服务器的3块6TB本地盘。

在上面这张图七中，其实还分享了Hadoop部署在vSphere上的最佳实践。通过将DataNode的数据盘直接部署在物理服务器的本地物理盘上，较好的规避了《vSAN支持大数据应用吗？》提到的存储利用率仅有六分之一，且IO延迟较长的问题。示意图如下所示：

相关的VMware白皮书是《Virtualized Hadoop Performance with VMware vSphere 6 on High-Performance Servers》，详细地介绍了Hadoop运行在vSphere上最佳实践。感兴趣的朋友可以前去软件定义存储讨论群的QQ群：122295009 下载。

图八：Datanode、NameNode和业务虚机的分布

图九：Hadoop虚机在vSAN集群上扩容方便

图十：管理网络、vSAN网络和业务网络物理上隔离。

管理网络采用标准虚拟交换机，业务和vSAN采用2个独立的分布式虚拟交换机，Hadoop业务与vSAN共享虚拟交换机和一对万兆上行链路，上行链路互为主备，当某条链路发生中断时，另外一条链路会同时承载vSAN流量和Hadoop业务流量。

VLAN划分：

1、1个管理网VLAN

2、1个Hadoop业务VLAN

3、1个vSAN网络VLAN

4、若干个其他业务VLAN

---End---

想要了解更多vSAN，可以打开如下链接：

发表于: 2018-01-242018-01-24 22:54:18
原文链接：http://kuaibao.qq.com/s/20180124G10N4900?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

运营商在VMware vSphere、vSAN上运行Hadoop的案例剖析

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐