我是个新手,需要把它整合到管道中。我已经成功地组装了需要在终端中运行的代码。现在,我想以脚本的形式执行这段代码。但是,当我运行python样式的pyspark -c cmds.py
时,我得到了Error: Invalid argument to --conf: cmds.py
。我查看了spark-submit --master local cmds.py
,但它返回了
File "/path/cmd.py", line 4, in <module>
sparkValues = SQLContext.read.parquet('/a/file/ranks.parquet');
AttributeError: 'property' object has no attribute 'parquet'
这里最简单的解决办法是什么?这是cmds.py
from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext
sparkValues = SQLContext.read.parquet('/a/file/ranks.parquet');
pandaValues = sparkValues.toPandas();
pandaValues.to_csv('/a/file/ranks.csv');
也许有更好的方法将文件转换为csv
,但是Python对我来说是最简单的。
已解决:
This帮助在我的python管道中实现了pyspark调用。不需要外接电话..。
发布于 2016-12-14 22:39:46
我的回答有点晚了,但如果您正在尝试pyscem2.0.0中的某些内容,下面的内容可能会有所帮助。
提交电火花代码:
spark-submit --master mastername samplecode.py
如果您已经安装,或者如果您正在使用AWS EMR,您不必提及的主人,因为纱线将照顾它。
samplecode.py内部的代码如下所示:
# intialize sparkSession
from pyspark.conf import SparkConf
from pyspark.sql import SparkSession
spark =SparkSession.builder.config(conf=SparkConf()).appName("yourappnam").getOrCreate()
df = spark.sql("select * from abc")
https://stackoverflow.com/questions/38596805
复制