• 回答 (9)
  • 关注 (1)
  • 查看 (870)

NoSQL和Hadoop之间的关系是什么?HDFS和MapReduce有又什么关系?

chenasxzchenasxz修改于
狼人老沙回答于

Hadoop是一个处理和存储巨大数据集的框架。Hadoop主要由俩部分组成:处理单元和存储单元。而MapReduce就是Hadoop的一个编程模型,主要用于处理存储在Hadoop框架中的大量数据。在完全分布式或伪分布式群集中安装Hadoop时,MapReduce主要是作为服务使用,可以在其中编写并行程序进行分布式执行数据计算。MapReduce有两个独立的进程 :

  1. Mapper阶段:将原始文件作为输入,并将需要的输出键和输出值分开。
  2. Reducer阶段 :将根据密钥对数据进行分组,然后汇总所有输出密钥和输出值。

Reducer然后将输出发送到HDFS,即Hadoop分布式文件系统。

NoSQL是非结构化数据库,和常见的数据库不同的是,它没有按照数据库范式的约定进行设计,正是这个特性,带来了强大的灵活操作性。另外NoSQL比起常规数据库来要快得多,非常适合进行大数据处理。这个特性正是大数据技术所需要的。但NoSQL技术尚未成熟,不过前景发展个人很看好。

而HDFS是一个分布式文件系统,具有以下特性:

  1. HDFS针对大文件的流式访问进行了优化。HDFS会把一个整体的大数据集分成分布式的小数据单元。比如100G的数据分别在HDFS上存储100 MB左右的文件,然后通过上面提到的MapReduce进行批处理。
  2. HDFS文件视为一次写入和多次读取文件。没有随机写入的概念。
  3. HDFS不会进行随机读取。

在这里在补充一下,HBase和Hive。

HBase是一个将数据存储在分布式文件系统中的数据库。HBase和HDFS之间是紧密集成的。HBase提供以下:

  1. 低延迟访问大型数据集内的少量数据。
  2. 使用数据模型并使用行键对数据进行索引。
  3. 快速扫描表。
  4. 根据写入和总数据量进行扩展。

Hive是Hadoop中的数据仓库应用程序

  1. 一种类似于SQL的语言(称为HQL),主要用于创建map-reduce和Tez作业的应用程序
  2. 相等的,PIG和HIve一样是位于Hadoops上的查询语言。两种语言都可以在Hadoop框架上运行,但有所差异,可通过互联网搜索到。

回答过的其他问题

游戏外挂有哪些危害?如何提前揭露?

来源:腾讯手游如何提早揭露游戏外挂风险? 为了帮助项目在发布前发现并修复安全问题,在游戏版本转功能测试的阶段SR手游安全专项测试就介入。 image.png 提早揭露安全漏洞,可以帮助项目在开发阶段进行安全对抗和策略加固,避免在项目运营时,与外挂对抗的被动局面。同时,也从根本上降...... 展开详请

我想注销现在这个腾讯云账号,应该走什么流程?

就像邮箱一样,注册了一个不好听的名字,想销掉,但却只能重新开一个新账号。目前貌似没有支持注销的功能,估计以后各大网络公司都会被强制要求上架注销功能,毕竟用户有消除自己数据的权利,为什么网站不提供这个入口呢?

支持的请点赞。

AI领域无监督学习有哪些难点?

对于无监督学习领域。我只能回答这个领域才刚刚起步。而当下无监督领域流行的算法相比有监督学习来说差别很大。机器学习目前还在有监督学习阶段发展,不过目前有慢慢向无监督学习发展的趋势,从而出现了半监督学习。比如康奈尔大学研究出的半监督学习的方法:主要是结合贝叶斯和对抗生成网络提出来的。...... 展开详请

微服务架构中不同服务之间是如何通信的?

image.png 一般来说。传统的架构风格是将应用程序作为一个整体进行开发。这样的架构风格在开发过程非常容易而且不同模块之间通信十分方便,只需要一个简单的函数就可以实现。但是这也存在很多缺点,比如,这样的应用在开发之后很难进行维护。如果业务需求有所变化很难有所调整。 于是微服...... 展开详请

NAS与CFS的优势区别及应用场景?

不同类型的游戏有哪些不同游戏云方案?

楼主既然提到了不同种类的游戏,那就先看看MMORPG游戏吧:因为MMORPG这种大型游戏,一方面需要低时延,另一方面浏览页面的加载对速度的要求也很高,其次还有批量开服合服的操作,最重要的是面临各种流量攻击等安全问题也是最多的。 对此,要想保证这几个要求,云服务器的部署就应该稳定可...... 展开详请

关于作者

扫码关注云+社区

领取腾讯云代金券