前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >六个超大规模Hadoop部署案例

六个超大规模Hadoop部署案例

作者头像
静一
发布2018-03-16 15:00:51
8210
发布2018-03-16 15:00:51
举报
文章被收录于专栏:云计算D1net云计算D1net

Hadoop的优点很多,但也并非十全十美。这次我们介绍eBay、Orbitz Worldwide、Facebook、Infchimps等大型网络公司实际部署Hadoop的案例,希望从这些真实的案例当中,能给大家一点启示。

【编者按】近年来,大数据分析很受欢迎,现有的数据挖掘和分析技术往往不能完美胜任大数据的处理任务,虽然搭建Hadoop集群,不能完美解决所有问题,但是Hadoop集群最大的优点就是它非常适合处理分布广泛且非结构化的大数据。中关村在线的这篇文章从六个超大规模Hadoop部署的实际案例出发,为我们详细介绍了企业或组织在实际部署Hadoop过程中是如何做的。

以下为原文:

虽然Hadoop是眼下热闹非凡的大数据领域最热话题,但它肯定不是可以解决数据中心和数据管理方面所有难题的灵丹妙药。考虑到这一点,我们暂且不想猜测这个平台未来会如何,也不想猜测各种数据密集型解决方案的开源技术未来会如何,而是关注让Hadoop越来越火的实际应用案例。

案例之一:eBay的Hadoop环境

eBay分析平台开发小组的Anil Madan讨论了这家拍卖行业的巨擘在如何充分发挥Hadoop平台的强大功能,充分利用每天潮水般涌入的8TB至10TB数据。

虽然eBay只是几年前才开始向生产型Hadoop环境转移,但它却是早在2007年就率先开始试用Hadoop的大规模互联网公司之一,当时它使用一个小型集群来处理机器学习和搜索相关性方面的问题。这些涉及的是少量数据;Madan表示,但是就这个试验项目而言很有用;不过随着数据日益增加、用户活动日益频繁,eBay想充分利用几个部门和整个用户群当中的数据。

eBay的第一个大型Hadoop集群是500个节点组成的Athena,这个专门建造的生产型平台可以满足eBay内部几个部门的要求。该集群只用了不到三个月就建成了,开始高速处理预测模型、解决实时问题;后来不断扩大规模,以满足其他要求。

Madan表示,该集群现由eBay的许多小组使用,既用于日常生产作业,又用于一次性作业。小组使用Hadoop的公平调度器(Fair Scheduler)来管理资源分配、为各小组定义作业池、赋予权重、限制每个用户和小组的并行作业,并且设定抢占超时和延迟调度。

虽然Madan经常在台上畅谈Hadoop具有的实际价值,他也经常提到工作小组在扩建eBay基础设施时面临、继续竭力克服的几个主要挑战。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2014-04-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云计算D1net 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档