xingoo, 一个梦想做发明家的程序员-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

xingoo, 一个梦想做发明家的程序员

专栏成员

805

文章

937810

阅读量

80

订阅数

CDH中如何升级Spark

spark hadoop yarn

通过上面的过程分析，可以知道，Spark版本存在两个地方：一个是A节点提交Spark-submit的程序必须是2.3.0版本的；另一个是Yarn使用的lib必须是2.3.0版本的。

2018-07-31

8820

大数据之Yarn——Capacity调度器概念以及配置

试想一下，你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表，B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景，这个时候到底如何分配资源满足这两个任务呢？是先执行A的任务，再执行B的任务，还是同时跑两个？如果你存在上述的困惑，可以多了解一些yarn的资源调度器。在Yarn框架中，调度器是一块很重要的内容。有了合适的调度规则，就可以保证多个应用可以在同一时间有条不紊的工作。最原始的调度规则就是FIFO，即按照用户提交任务的时间来决定哪个任务先

2018-01-17

1.5K0

[大数据之Yarn]——资源调度浅学

大数据 hadoop

在hadoop生态越来越完善的背景下，集群多用户租用的场景变得越来越普遍，多用户任务下的资源调度就显得十分关键了。比如，一个公司拥有一个几十个节点的hadoop集群，a项目组要进行一个计算任务，b项目组要计算一个任务，集群到底先执行哪个任务？如果你需要提交1000个任务呢？这些任务又是如何执行的？为了解决上面的问题，就需要在hadoop集群中引入资源管理和任务调度的框架。这就是——Yarn。 YARN的发展 Yarn在第一代的时候，框架跟hdfs差不多。一个主节点jobtracker，用来分配任务和

2018-01-17

1K0

Oozie 快速入门

设想一下，当你的系统引入了spark或者hadoop以后，基于Spark和Hadoop已经做了一些任务，比如一连串的Map Reduce任务，但是他们之间彼此右前后依赖的顺序，因此你必须要等一个任务执行成功后，再手动执行第二个任务。是不是很烦！这个时候Oozie（驯象人，典故来自评论一楼）就派上用场了，它可以把多个任务组成一个工作流，自动完成任务的调用。简介 Oozie是一个基于工作流引擎的服务器，可以在上面运行Hadoop的Map Reduce和Pig任务。它其实就是一个运行在Java Serv

2018-01-17

1.1K0

[Hadoop大数据]——Hive连接JOIN用例详解

hadoop 大数据

SQL里面通常都会用Join来连接两个表，做复杂的关联查询。比如用户表和订单表，能通过join得到某个用户购买的产品；或者某个产品被购买的人群.... Hive也支持这样的操作，而且由于Hive底层运行在hadoop上，因此有很多地方可以进行优化。比如小表到大表的连接操作、小表进行缓存、大表进行避免缓存等等... 下面就来看看hive里面的连接操作吧！其实跟SQL还是差不多的... 数据准备：创建数据-->创建表-->导入数据首先创建两个原始数据的文件，这两个文件分别有三列，第一列是id、第二列是名

2018-01-17

1.4K0

[Hadoop大数据]——Hive数据的导入导出

大数据数据库 hadoop

Hive作为大数据环境下的数据仓库工具，支持基于hadoop以sql的方式执行mapreduce的任务，非常适合对大量的数据进行全量的查询分析。本文主要讲述下hive载cli中如何导入导出数据：

2018-01-17

3.8K0

[Hadoop大数据]——Hive部署入门教程

大数据 linux 数据库 hadoop

Hive是为了解决hadoop中mapreduce编写困难，提供给熟悉sql的人使用的。只要你对SQL有一定的了解，就能通过Hive写出mapreduce的程序，而不需要去学习hadoop中的api。

2018-01-17

1.7K0

[Hadoop大数据]——Hive初识

大数据数据库 hadoop

Hive出现的背景 Hadoop提供了大数据的通用解决方案，比如存储提供了Hdfs，计算提供了MapReduce思想。但是想要写出MapReduce算法还是比较繁琐的，对于开发者来说，需要了解底层的hadoop api。如果不是开发者想要使用mapreduce就会很困难.... 另一方面，大部分的开发者都有使用SQL的经验。SQL成为开发者必备的技能... 那么可以不可以使用SQL来完成MapReduce的过程呢？—— 答案就是，Hive Hive能够解决的问题 Hive可以帮助开发者从现有的数据基础架构转

2018-01-17

6520

Hadoop HDFS 用户指南

go apache hadoop

This document is a starting point for users working with Hadoop Distributed File System (HDFS) either as a part of a Hadoop cluster or as a stand-alone general purpose distributed file system. While HDFS is designed to "just work" in many environments, a

2018-01-17

7090

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态