谷歌对决亚马逊 在云中运行Hadoop

Google Compute Engine 的虚拟机提供了一种快速、可靠的方式来运行 Apache Hadoop。如今,Google 正在努力通过Google Cloud Storage Hadoop预览版更简单的在 Google Cloud Platform 上运行Hadoop,这样你就可以更加专注于数据处理逻辑而不是集群管理和文件系统。

下图是Hadoop在Google Cloud Platform上的图解。在Google Cloud Storage上存储数据时HDFS、NameNode是可选的。

在十年前,从Google第一次介绍了Google File System (GFS)——Hadoop Distributed File System(HDFS)的基础——Google一直在努力改善Google大数据处理的存储系统。最新的成果是Colossus。

今天的发行版本提供了准确的——使用了一个简单的连接器库,Hadoop现在可以直接地在Google Cloud Storage运行——一个对象存储创建在Colossus上。这意味着你在大数据处理时可以从Google的这项技术中获益。

下面是用Google Cloud Storage运行Hadoop的优势:

兼容性:Google Cloud Storage connector for Hadoop 代码兼容Hadoop。只要将URL指向你的数据就可以。

快速启动:数据准备处理。当你的数据复制到HDFS以及NameNode,你不必等待过长时间来结束这个安全模式。同时,你也不需要花费数据复制VM时间。

更高的可用性和可扩展性: Google Cloud Storage比HDFS具有更高的可用性,因为它有独立的Compute Nodes和NameNode。如果虚拟机拒绝(或云禁止、崩溃)你的数据还在。

低成本:包括存储和计算:存储,因为没有必要维护两份数据,一个用于备份,另一个用于运行Hadoop;计算,因为你不需要仅仅为服务数据而保持VM一直运行。同时,它是以分钟计费,你可以在多个内核上更快的运行Hadoop,并且你的成本不再是四舍五入为一个小时来计算。

没有存储管理开销:鉴于HDFS需要日常维护——比如文件系统校验、重整、升级、反转和NameNode重启——Google Cloud Storage只需要为计算付费。你的数据是安全和一致的,不需要更多的努力。

互通性:通过在Google Cloud Storage保管你的数据,你可以从Google上其它已经完美融合的服务中获益。

性能:由于有了Google Cloud Storage,Google的基础设施将会比HDFS提供更高的性能——因为它没有管理和维护开销。

如果想了解Google Cloud Platform到底有哪些优势,可以访问这个简单指导 。 Google很乐意听到你关于如何更好的在Google Cloud Platform运行Hadoop和MapReduce的反馈和想法。

写在最后:为了与该领域的主要对手 AWS及其EC2竞争,Google已经通过增加一系列得新特性来巩固其平台优势,包括更先进的路由、高达10TB的大型永久磁盘、更新App Engine托管服务以及降低成本等。可以预测,这些措施将使Google获得数十亿美元的基础设施市场,同时,我们期待Google能够为App继续开放更大的空间。

原文发布于微信公众号 - 云计算D1net(D1Net02)

原文发表时间:2014-01-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏hadoop学习

学习Hadoop大数据基础框架

什么是大数据?进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,...

20970
来自专栏大数据和云计算技术

大数据服务上云的思考

说说大数据怎么上云的一些思考: 1、首先说说,大数据和云的关系。云是一种网络形态的概念,是继1980年代大型计算机到客户端-服务器的大转变之后的又一种巨变。云计...

30480
来自专栏灯塔大数据

深度|Google和Linkedin的老司机是如何管理海量数据的

Google的论文整体描述十分详细,可以作为理论来学习,LinkedIn已经开源了一个版本的系统,可以看成最佳实践。两者结合起来,还是很能拓展思路的。 标题有点...

595120
来自专栏BestSDK

Facebook、亚马逊是如何构建超集群数据库的

我们建立了Keen IO,是为了以让大多数软件工程团队无需从头架设所有内容,就可以利用最新的大型事件数据技术。但是,如果您对如何成为巨头公司感到...

42350
来自专栏Albert陈凯

大数据实战项目《大型电商日志分析》的知识点大数据实战项目的知识点

大数据实战项目的知识点 1、大数据集群环境的搭建 CentOS 6.8、 hadoop-2.7.3、 hive-0.13.1 zookeeper-3.4....

57480
来自专栏灯塔大数据

大数据圈盘点:你不知道的15个新技术

大数据中的大作为 对于大数据来说,业界这几周算是比较忙碌的。因为很多初创公司和一些老牌的公司都推出了数据分析和数据管理产品,以及更新了现有产品,提供更丰富的功能...

31260
来自专栏CDA数据分析师

除了Hadoop,其他6个你必须知道的热门大数据技术

原文来自 Cabot Technology Solutions 编译 CDA 编译团队 本文为  CDA 数据分析师原创作品,转载需授权 你知道新的市场领导者和...

29380
来自专栏新智元

谷歌强力推出数据集搜索!Dataset Search神器重磅来袭

还记得曾经的你,在做科研的时候,为了得到一份儿数据集,绞尽脑汁各种百度、各种google,但结果往往一无所获。从今儿起,再也不用担心这个问题了!

15110
来自专栏EAWorld

分布式流处理技术

? 大家好,今天很高兴在这里与大家分享、探讨和学习分布式流处理技术。 ? 本次分享首先回顾分布式流处理技术产生的背景以及技术演变历程; 其次介绍S4,Stor...

418110
来自专栏腾讯云数据库(TencentDB)

腾讯智造,新一代云数据库CynosDB,“C”位出道!

CynosDB是腾讯云自研的新一代高性能高可用的企业级分布式云数据库。融合了传统数据库、云计算与新硬件的优势,100%兼容开源数据库,百万级QPS的高吞吐,不限...

4.6K100

扫码关注云+社区

领取腾讯云代金券