大数据hadoop入门之hadoop家族产品详解

文章来源：企鹅号 - IT资讯前沿

大数据这个词也许几年前你听着还会觉得陌生，但我相信你现在听到hadoop这个词的时候你应该都会觉得“熟悉”！越来越发现身边从事hadoop开发或者是正在学习hadoop的人变多了。作为一个hadoop入门级的新手，你会觉得哪些地方很难呢？运行环境的搭建恐怕就已经足够让新手头疼。如果每一个发行版hadoop都可以做到像大快DKHadoop那样把各种环境搭建集成到一起，一次安装搞定所有，那对于新手来说将是件多么美妙的事情！

闲话扯得稍微多了点，回归整体。这篇准备给大家hadoop新入门的朋友分享一些hadoop的基础知识——hadoop家族产品。通过对hadoop家族产品的认识，进一步帮助大家学习好hadoop！同时，也欢迎大家提出宝贵意见！

一、Hadoop定义

Hadoop是一个大家族，是一个开源的生态系统，是一个分布式运行系统，是基于Java编程语言的架构。不过它最高明的技术还是HDFS和MapReduce，使得它可以分布式处理海量数据。

二、Hadoop产品

HDFS（分布式文件系统）：

它与现存的文件系统不同的特性有很多，比如高度容错（即使中途出错，也能继续运行），支持多媒体数据和流媒体数据访问，高效率访问大型数据集合，数据保持严谨一致，部署成本降低，部署效率提高等，如图是HDFS的基础架构。

MapReduce/Spark/Storm（并行计算架构）：

1、数据处理方式来说分离线计算和在线计算：

2、数据存储位置来说分磁盘计算和内存计算：

Pig/Hive（Hadoop编程）：

HBase/Sqoop/Flume（数据导入与导出）:

以上这些数据转移工具都极大地方便了使用的人，提高了工作效率，把精力专注在业务分析上。

ZooKeeper/Oozie（系统管理架构）：

Ambari/Whirr（系统部署管理）：

Mahout（机器学习）：

Mahout旨在帮助我们快速地完成高智商的系统。其中已经实现了部分机器学习的逻辑。这个架构可以让我们快速地集成更多机器学习的智能。

发表于: 2018-12-262018-12-26 15:40:13
原文链接：https://kuaibao.qq.com/s/20181226A0T4NE00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

大数据hadoop入门之hadoop家族产品详解

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐