由于需要用到很多第三方的包,比如numpy,pandas等,而生产环境又无法上网单个包安装太麻烦,因此考虑把之前安装的python的独立环境换成Anaconda的集成开发环境。以下是具体步骤:
1安装Anaconda3-5.0.1-Linux-x86_64.sh脚本
2给/opt/modules/anaconda3/bin/python3.6建立软链接
ln -s /opt/modules/anaconda3/bin/python /usr/bin/python3 3修改root环境变量 /root/.bashrc /root/.bash_profile 修改hdfs用户环境变量,因为集群操作大多有hdfs用户完成。 su - hdfs ~/.bashrc export PATH="/usr/bin:$PATH" 4修改pyspark2命令 vi /usr/bin/pyspark2 修改spark2-submit命令 vi /usr/bin/spark2-submit 修改PYSPARK_PYTHON这个变量 几个节点都要修改,之后spark更换到新的python,常用的包都有了。