一、安装 PySpark
1、使用 pip 安装 PySpark
执行 Windows + R , 运行 cmd 命令行提示符 ,
在命令行提示符终端中 , 执行
pip install pyspark...C:\Users\octop>
2、国内代理镜像
如果使用 官方的源 下载安装 PySpark 的速度太慢 ,
可以使用 国内的 镜像网站 https://pypi.tuna.tsinghua.edu.cn...中 , 安装 PySpark ;
尝试导入 pyspack 模块中的类 , 如果报错 , 使用报错修复选项 , PyCharm 会自动安装 PySpark ;
二、PySpark 数据处理步骤
PySpark...编程时 , 先要构建一个 PySpark 执行环境入口对象 , 然后开始执行数据处理操作 ;
数据处理的步骤如下 :
首先 , 要进行数据输入 , 需要读取要处理的原始数据 , 一般通过 SparkContext...RDD 对象处理完毕后 , 写出文件 , 或者存储到内存中 ;
数据的初始形态 , 一般是 JSON 文件 , 文本文件 , 数据库文件 ;
通过 SparkContext 读取 原始文件 到 RDD