文章/答案/技术大牛

发布

Spark 学习笔记

文章来源：企鹅号 - 每天写程序

概述

在企业中，应用基本可以分为OLTP（联机事物处理）和 OLAP（联机分析处理）这两种。

大数据

大数据一般是指OLAP 应用。最早的分析处理比较简单，主要是使用数据仓库（保存了企业的所有数据，能存数据并且提供查询，就可以叫做数据仓库--hadoop-->hive) 后面逐渐出现mapreduce，spark，机器学习，深度学习等这些都会去读取数据仓库中的数据，然后做处理。处理完之后可以展现出来，或者将数据推给OLTP 应用。

使用数据仓库中的数据，做数据的批量处理，速度上还是比较慢的。就出现了流式数据，然后kafka兴起。构成了企业数据总线。企业数据总线中的数据，可以利用spark，flink，storm 等技术处理分析，也会流向数据仓库做备份。流式数据处理完之后，可以直接展示，或者对接推荐系

云计算

云计算偏向于硬件层面。最上面saas （Software-as-a-Service）: 软件即服务，不用安装，一个浏览器就可以使用office，ps 等软件功能

下一层是 PaaS (Platform as a service ) : 平台即服务，实际上是指软件研发平台。SaaS的模式提交给用户。因此，PaaS也是SaaS模式的一种应用

最底层是 IaaS（Infrastructure as a Service），即基础设施即服务。包括机房，服务器，机架，存储阵列，网络等基础设施。

大数据其实就是海量数据 + 能够处理海量数据的工具集合spark 产生的原因

hadoop 处理数据速度太慢

spark 具有通用性，spark core 对标mapreduce ，spark sql 对标hive

一个业务如果使用mr 来写= 几个MR 程序（几个jar包）+调度程序（oozie、azkban等）

spark 的几个组件

Cluster Manager ：独立调度器，Yarn，MESOS 三个其中一个都可以作为该组件

Driver Program

Executor

Standalone 模式安装spark的启动

bin/spark-shell 启动时Local 模式，master = local[*] , * 表示线程数由cpu 的核数来决定。

bin/spark-shell --master spark://hadoop102:7077 启动standalone 模式

配置Job History Server

修改spark-env.sh ,添加以下内容

将修改的文件进行同步

在master 上 start-all.sh 启动集群，start-history-server.sh 启动日志服务器，在4000端口可以进行查看

Standalone HA 搭建

1.修改spark-env.sh

1> 删除掉SPARKMASTERHOST

2>添加一下配置:

3> 同步配置文件到其他节点

4> 1. 执行 sbin/start-all.sh 脚本，启动所有节点 2. 手动选择一个节点，执行 sbin/start-master.sh 启动第二个master节点

提交Jar包任务

需要通过 bin/spark-submit 来提交任务

必须的参数： 1> --class 指定jar包的主类 2> --master 来指定集群地址，如果jar包中已经配置了master 地址，可以不用指定 3> jar包的具体路径，jar 执行需要的参数

sbin/spark-submit 来查看所有参数

发表于: 2018-12-162018-12-16 23:36:37
原文链接：https://kuaibao.qq.com/s/20181216G164RQ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Spark 学习笔记

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐