一、安装 PySpark
1、使用 pip 安装 PySpark
执行 Windows + R , 运行 cmd 命令行提示符 ,
在命令行提示符终端中 , 执行
pip install pyspark...命令 , 安装 PySpark , 安装过程中 , 需要下载 310 M 的安装包 , 耐心等待 ;
安装完毕 :
命令行输出 :
C:\Users\octop>pip install pyspark...PySpark
也可以参考 【Python】pyecharts 模块 ② ( 命令行安装 pyecharts 模块 | PyCharm 安装 pyecharts 模块 ) 博客 , 在 PyCharm...中 , 安装 PySpark ;
尝试导入 pyspack 模块中的类 , 如果报错 , 使用报错修复选项 , PyCharm 会自动安装 PySpark ;
二、PySpark 数据处理步骤
PySpark...编程时 , 先要构建一个 PySpark 执行环境入口对象 , 然后开始执行数据处理操作 ;
数据处理的步骤如下 :
首先 , 要进行数据输入 , 需要读取要处理的原始数据 , 一般通过 SparkContext