首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >以脚本形式运行PySpark

以脚本形式运行PySpark
EN

Stack Overflow用户
提问于 2016-07-26 17:56:42
回答 1查看 7.6K关注 0票数 2

我是个新手,需要把它整合到管道中。我已经成功地组装了需要在终端中运行的代码。现在,我想以脚本的形式执行这段代码。但是,当我运行python样式的pyspark -c cmds.py时,我得到了Error: Invalid argument to --conf: cmds.py。我查看了spark-submit --master local cmds.py,但它返回了

代码语言:javascript
运行
复制
File "/path/cmd.py", line 4, in <module>
    sparkValues = SQLContext.read.parquet('/a/file/ranks.parquet');
AttributeError: 'property' object has no attribute 'parquet'

这里最简单的解决办法是什么?这是cmds.py

代码语言:javascript
运行
复制
from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext

sparkValues = SQLContext.read.parquet('/a/file/ranks.parquet');
pandaValues = sparkValues.toPandas();
pandaValues.to_csv('/a/file/ranks.csv');

也许有更好的方法将文件转换为csv,但是Python对我来说是最简单的。

已解决:

This帮助在我的python管道中实现了pyspark调用。不需要外接电话..。

EN

回答 1

Stack Overflow用户

发布于 2016-12-15 06:39:46

我的回答有点晚了,但如果您正在尝试pyscem2.0.0中的某些内容,下面的内容可能会有所帮助。

提交电火花代码:

代码语言:javascript
运行
复制
spark-submit --master mastername samplecode.py

如果您已经安装,或者如果您正在使用AWS EMR,您不必提及的主人,因为纱线将照顾它。

samplecode.py内部的代码如下所示:

代码语言:javascript
运行
复制
# intialize sparkSession
from pyspark.conf import SparkConf
from pyspark.sql import SparkSession
spark =SparkSession.builder.config(conf=SparkConf()).appName("yourappnam").getOrCreate()
df = spark.sql("select * from abc")
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38596805

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档