前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop和Spark技术分享.ppt

Hadoop和Spark技术分享.ppt

作者头像
大数据学习与分享
发布2021-07-15 15:30:13
1.3K0
发布2021-07-15 15:30:13
举报

Why Hive ?

  • 相对于使用MapReduce,为什么使用Hive ?
  • MapReduce实现复杂业务逻辑开发难度大
  • Hive提供类SQL语法,避免写MapReduce程序,开发相对快速
  • 扩展功能方便,支持自定义函数
  • 适合于做数据仓库工具,如ETL处理,数据分析等

Why Spark ?

1. Spark

  • 集流批处理、交互式查询、机器学习及图计算等于一体
  • 多线程模型,每个worker节点运行一个或多个executor服务,每个task作为线程运行在executor中,task间可共享资源
  • 基于内存迭代式计算,适合低延迟、迭代运算类型作业
  • 可以通过缓存共享rdd、DataFrame,提升效率中间结果支持checkpoint,遇错可快速恢复
  • map之间以pipeline方式运行,无需刷磁盘
  • Spark编程模型更灵活,支持多种语言并支持丰富的transformation和action的算子

2. MapReduce

  • 适合离线数据处理
  • 多进程模型,任务调度(频繁申请、释放资源)和启动开销大,不适合低延迟类型作业中间结果需要落地,需要大量的磁盘IO和网络IO影响性能
  • 不适合迭代计算、交互式处理、流式处理
  • MR编程不够灵活,仅支持map和reduce两种操作。当一个计算逻辑复杂的时候,需要写多个MR job运行
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-07-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据学习与分享 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
灰盒安全测试
腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档