前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >我们为什么需要MapReduce?

我们为什么需要MapReduce?

作者头像
MickyInvQ
发布2020-09-27 16:46:46
7910
发布2020-09-27 16:46:46
举报
文章被收录于专栏:InvQ的专栏InvQ的专栏

我们为什么需要MapReduce?


我们为什么不能使用数据库来对大量磁盘上的大规模数据进行批量分析呢?我们为什么要使用MapReduce? 这些问题的答案来自磁盘的另一个发展趋势: 寻址时间的提高远远慢于传输速率的提高。寻址是将磁头移动到特定磁盘位置进行读写操作的过程。它是导致磁盘操作延迟的主要原因,因而传输速率取决于磁盘的带宽。   如果数据的访问模式中包含大量的磁盘寻址,那么读取大量数据集所化的时间势必会更长(相较于流式数据读取模式),流式读取主要取决于传输速率。另一方面,如果数据库系统只更新一小部分记录,那么传统的B树更有优势。但数据库系统更新大部分数据时,B树的效率比MapReduce低得多,因为需要使用“排序/合并”来重建数据库。   许多情况下,可以将MapReduce视为关系型数据库管理系统的补充。两个系统之间的差异如下表所示。MapReduce比较适合以批处理的方式处理需要分析整个数据集的问题,尤其是即席分析。RDBMS(关系型数据库管理系统)适用于“点查询”和更新,数据集被索引后,数据库系统能够提供低延迟的数据检索和快速的少量数据更新。MapReduce适合一次写入,多次读取数据的应用,而 关系型数据库更适合持续更新的数据集。 关系型数据库和MapReduce的比较

传统关系型数据库

MapReduce

数据大小

GB

PB

访问

交互式和批处理

批处理

更新

多次读写

一次写入多次读取

结构

静态模式

动态模式

完整性

横向扩展

非线性

线性

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016-02-01 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 我们为什么需要MapReduce?
相关产品与服务
数据库管理
数据库管理(Database Management Center,DMC)是一个高效,安全,可靠的数据库一站式管理平台。DMC 提供可视化的库管理、实例会话管理、SQL 窗口、SQL 安全审计、SQL 变更审批、实时监控、操作审计等数据库管理能力,集成诊断优化和数据可视化分析能力,从而简化和规范数据库管理操作、降低数据库运维门槛、提升运维效率。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档