Spark 学习笔记

概述

在企业中,应用基本可以分为OLTP(联机事物处理) 和 OLAP(联机分析处理) 这两种。

大数据

大数据一般是指OLAP 应用。最早的分析处理比较简单,主要是使用数据仓库(保存了企业的所有数据,能存数据并且提供查询,就可以叫做数据仓库--hadoop-->hive) 后面逐渐出现mapreduce,spark,机器学习,深度学习等这些都会去读取数据仓库中的数据,然后做处理。处理完之后可以展现出来,或者将数据推给OLTP 应用。

使用数据仓库中的数据,做数据的批量处理,速度上还是比较慢的。 就出现了 流式数据,然后kafka兴起。构成了企业数据总线。 企业数据总线中的数据,可以利用spark,flink,storm 等技术处理分析,也会流向数据仓库做备份。 流式数据处理完之后,可以直接展示,或者对接推荐系

云计算

云计算偏向于硬件层面。 最上面saas (Software-as-a-Service): 软件即服务,不用安装,一个浏览器就可以使用office,ps 等软件功能

下一层是 PaaS (Platform as a service ) : 平台即服务,实际上是指软件研发平台。SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用

最底层 是 IaaS(Infrastructure as a Service),即基础设施即服务。包括 机房,服务器,机架,存储阵列,网络等 基础设施。

大数据其实就是 海量数据 + 能够处理海量数据的工具集合spark 产生的原因

hadoop 处理数据速度太慢

spark 具有通用性,spark core 对标mapreduce ,spark sql 对标hive

一个业务如果使用mr 来写= 几个MR 程序(几个jar包)+调度程序(oozie、azkban等)

spark 的几个组件

Cluster Manager : 独立调度器,Yarn,MESOS 三个其中一个都可以作为该组件

Driver Program

Executor

Standalone 模式安装spark的启动

bin/spark-shell 启动时Local 模式,master = local[*] , * 表示线程数由cpu 的核数来决定。

bin/spark-shell --master spark://hadoop102:7077 启动standalone 模式

配置Job History Server

修改spark-env.sh ,添加以下内容

将修改的文件进行同步

在master 上 start-all.sh 启动集群,start-history-server.sh 启动日志服务器,在4000端口可以进行查看

Standalone HA 搭建

1.修改spark-env.sh

1> 删除掉SPARKMASTERHOST

2>添加一下配置:

3> 同步配置文件到其他节点

4> 1. 执行 sbin/start-all.sh 脚本,启动所有节点 2. 手动选择一个节点,执行 sbin/start-master.sh 启动第二个master节点

提交Jar包任务

需要通过 bin/spark-submit 来提交任务

必须的参数: 1> --class 指定jar包的主类 2> --master 来指定集群地址,如果jar包中已经配置了master 地址,可以不用指定 3> jar包的具体路径,jar 执行需要的参数

sbin/spark-submit 来查看所有参数

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181216G164RQ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券