首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >第1天:PySpark简介及环境搭建

第1天:PySpark简介及环境搭建

作者头像
会呼吸的Coder
发布2021-03-16 10:25:37
8030
发布2021-03-16 10:25:37
举报
文章被收录于专栏:会呼吸的Coder会呼吸的Coder
在本系列文章中,我们将会从零开始学习PySpark。

前言

Apache Spark是Scala语言实现的一个计算框架。为了支持Python语言使用Spark,Apache Spark社区开发了一个工具PySpark。利用PySpark中的Py4j库,我们可以通过Python语言操作RDDs。

本系列文章是PySpark的入门手册,涵盖了基本的数据驱动的基本功能以及讲述了如何使用它各种各样的组件。

本手册主要针对那些想要从事实时计算框架编程的用户。本手册的目的是让读者能够轻松的了解PySpark的基本功能并快速入门使用。

本手册中我们假定读者已经有了一些基本的编程语言基础以及了解什么是编程框架。此外,如果读者有一些Apache Spark, Hadoop, Scala, HDFS和Python的基础,那么学习下面的内容将会事半功倍。

概述

Spark概述

Apache Spark是一个流行的实时处理框架,它可以通过内存计算的方式来实时的进行数据分析。它起源于Apache Hadoop MapReduce,然而Apache Hadoop MapReduce只能进行批处理,但是无法实现实时计算;为了弥补这一缺陷,Apache Spark对其进行了扩展,除了批处理外,同时支持了数据的实时计算。

除了批处理和实时计算外,Apache Spark还支持了交互式查询与迭代式算法等特性。此外,Apache Spark有自己的集群管理方式来支持其应用。它利用了Apache Hadoop的存储和计算能力,同时,它也使用了HDFS来存储并且可以通过YARN来运行Spark应用。

PySpark概述

Apache Spark是Scala语言实现的一个计算框架。为了支持Python语言使用Spark,Apache Spark社区开发了一个工具PySpark。利用PySpark中的Py4j库,我们可以通过Python语言操作RDDs。

PySpark提供了PySpark Shell,它是一个结合了Python API和spark core的工具,同时能够初始化Spark环境。目前,由于Python具有丰富的扩展库,大量的数据科学家和数据分析从业人员都在使用Python。因此,PySpark将Spark支持Python是对两者的一次共同促进~

环境搭建

Step1:安装Java和Scale。 Step2:在Apache Spark官网中下载Apache Spark。本文中以spark-2.1.0-bin-hadoop2.7为例。 Step3:解压压缩包并设置环境变量:

tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7

export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin

export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH

export PATH = $SPARK_HOME/python:$PATH

Step4:进入Spark目录并进入PySpark shell:

./bin/pyspark
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-03-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 初级程序员 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 在本系列文章中,我们将会从零开始学习PySpark。
  • 前言
  • 概述
    • Spark概述
      • PySpark概述
      • 环境搭建
      相关产品与服务
      流计算 Oceanus
      流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的企业级实时大数据分析平台,具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档