专栏首页machine_learning使用Pyspark进行特征工程时的那些坑

使用Pyspark进行特征工程时的那些坑

以脚本spark_clean_online_action.py、数据集new_sxf_time_count_1781115582.csv为例: 集群节点包括212、216、217、218。需要注意的是:

  • 每台节点有且仅有Python 2.7.5 和Python 2.6.8 两个环境 完成相关依赖安装

1、上传待处理文件到HDFS

2、Pyspark默认调用的是Python 2.7.5 解释器,所以需更改调用版本,每个节点执行: export PYSPARK_PYTHON=/usr/local/python3/bin/python3

3、spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client spark_clean_online_action.py

或者不执行2和3,仅执行:

4、spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/local/python3/bin/python3 spark_clean_online_action.py

版本

  • pandas==0.20.3
  • pyspark==2.3.0
  • pyarrow==0.12.1

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • pandas:解决groupby().apply()方法打印两次

    对于以下dataframe执行dataframe.groupby(['name', 'course']).apply(lambda x: test(x)) 操作

    Bo_hemian
  • 使用Pandas_UDF快速改造Pandas代码

    PySpark和Pandas之间改进性能和互操作性的其核心思想是将Apache Arrow作为序列化格式,以减少PySpark和Pandas之间的开销。

    Bo_hemian
  • pandas:由列层次化索引延伸的一些思考

    用pandas利用df.groupby.agg() 做聚合运算时遇到一个问题:产生了列方向上的两级索引,且需要删除一级索引。具体代码如下:

    Bo_hemian
  • Spark ListenerBus 和 MetricsSystem 体系分析

    监控是一个大系统完成后最重要的一部分。Spark整个系统运行情况是由ListenerBus以及MetricsSystem 来完成的。这篇文章重点分析他们之间的工...

    用户2936994
  • KPNet,追求轻量化的人脸检测器(AAAI 视频解读)

    人工智能顶级学术会议 AAAI 2020 (第 34 届 AAAI)已在美国纽约落幕,会议从 2 月 7 日持续到 2 月 12 日。

    AI科技评论
  • 机器人程序设计课程配套系统镜像使用说明( Ubuntu 14.04.5 + ROS indigo )

    本镜像主要针对机器人程序设计本科课程,供学生课程学习与实践操作使用,基于ROS爱好者和学生使用的反馈意见对之前发布的版本进行修正和补充,在此致谢。更新日期为:2...

    zhangrelay
  • 字节码编程,Javassist篇三《使用Javassist在运行时重新加载类「替换原方法输出不一样的结果」》

    通过前面两篇 javassist 的基本内容,大体介绍了;类池(ClassPool)、类(CtClass)、属性(CtField)、方法(CtMethod),的...

    小傅哥
  • 字节码编程,Javassist篇三《使用Javassist在运行时重新加载类》

    通过前面两篇 javassist 的基本内容,大体介绍了;类池(ClassPool)、类(CtClass)、属性(CtField)、方法(CtMethod),的...

    小傅哥
  • 自学Linux命令的四种方法

    如果你想成为Linux高手,那么掌握一些Linux命令是必不可少的。下面是自学Linux命令的四种方法。 一,每日提示 ? 学习Linux命令的一种渐进式方...

    小小科
  • Python 定时器 timer

    Java学习123

扫码关注云+社区

领取腾讯云代金券