大数据框架Hadoop科普

Hadoop

架构:

Hadoop就是谷歌三宝的开源Java实现,'谷歌三宝'为谷歌的三篇论文(注意:对应的源码谷歌没有开源):MapReduce,GFS,Bigtable。Hadoop如今已经是大数据框架的代名词了。

Hadoop MapReduce对应Google MapReduce,是一种并行计算的编程模型,用于作业调度。

优点:MapReduce分布式编程模型屏蔽了底层实现。允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。

场景:用于处理海量数据的场景。

HBase对应BigTable,是提供结构化数据服务的分布式数据库。HBase有两种访问方式:通过行键进行随机访问;通过map-reduce脱机或批访问。

优点:实时查询,参考谷歌实时搜索。

场景:Hbase适用于随机读写存储在HDFS里的数据的场景。

HDFS对应GFS,Hadoop Distributed File System,分布式文件系统,为上层提供高效的非结构化存储服务。

优点:HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上而形成分布式系统。

场景:HDFS适合于存储一次后数据不再变动,再进行多次分析的场景。

谷歌三论文

MapReduce:映射归纳

BigTable:BigTable 是建立在 GFS 和 MapReduce 之上的。每个Table都是一个多维的稀疏图。

GFS:

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20181213G0ZEOR00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券