Pyspark 2.6如何增加值列

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

2回答

、

我正在使用Python2.6附带的cloudera虚拟机在Pyspark中进行训练。我已经读过RDD中的文件了。我需要增加其中一个文件列中的数字。student,gradeAndres,3.9Flor,5Paola,3.8代码： print(grades.co

浏览 0提问于2018-01-24得票数 0

回答已采纳

1回答

火花-如何在不使用熊猫的情况下将数据数据或rdd转换为星火矩阵或numpy数组

、、、、

1.6.0-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/worker.py", line 106, in process File "/home/test/spark-1.6.0-bin-hadoop2.6/python/lib

浏览 2提问于2017-01-12得票数 1

1回答

如何在pyspark中创建中位数、平均值和标准差的新列？

、、、

我有一个pyspark数据帧，如下所示： +-----------+------------++-----------+------------19| 4|| 2017-12-20| 1|| 2017-12-16| 2| 2.6</

浏览 15提问于2021-05-05得票数 1

回答已采纳

2回答

斯卡拉是星火的必备品吗？

、

我是火花的新手。在它的文档中，它说它可以在Scala或Python中使用。

浏览 2提问于2014-12-21得票数 6

1回答

KeyError: SparkConf初始化期间的SPARK_HOME

、、

conf=(SparkConf().setMaster('local').setAppName('a').setSparkHome('/home/dirk/spark-1.4.1-bin-hadoop2.6/bin')) File "/home/dirk/spark-1.4.1-bin-hadoop2.6/python/pyspark/conf.py", li

浏览 3提问于2015-07-22得票数 3

回答已采纳

1回答

运行python应用程序时，可以从Spark1.0开始。

、

基本上，我有如下所示的pyspark脚本(在spark_example.py中是这样说的)：from pyspark import SparkConf, SparkContext: ', ls_out)export SPARK_HOME=~/spark-1.6.0-bin-hadoop2.6export PYSPARK</em

浏览 2提问于2016-05-06得票数 3

回答已采纳

1回答

pyspark:重新分区后出现“值太多”错误

、、、、

我有一个DataFrame (转换为RDD)，并希望重新分区，以便每个键(第一列)都有自己的分区。/python/lib/pyspark.zip/pyspark/worker.py", line 111, in main File "spark-1.5.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspar

浏览 0提问于2015-11-21得票数 5

1回答

星星之火1.6:如何将从Scala jar生成的RDD转换为吡火花RDD？

、、、

我正在尝试创建一些POC代码，演示如何从PySpark调用Scala函数，结果是一个PySpark.RDD。_jsc.sc())>>> <class 'pyspark.rdd.RDD'> 到目前为止，我得到的似乎是PySpark.RDD的一个实例，当我尝试使用RDD时会出现问题：/spark-1.6.3-bin-hadoop2.6/python/pysp

浏览 18提问于2017-05-05得票数 0

回答已采纳

2回答

在DataFrame中将向量列展开为普通列

、

我希望将向量列展开为dataframe中的普通列。.transform创建单独的列，但是当我尝试.show时，数据类型或‘nullable’出现了一些错误--参见下面的示例代码。如何解决这个问题？from pyspark.sql.types import *from pyspark.sql.functions\ data = [

浏览 1提问于2019-04-08得票数 0

回答已采纳

1回答

我应该如何在Spark中构造这个执行流？

、、、、

我一直在玩spark，但我不能理解如何构建这个执行流。-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/rdd.py", line 2379, in _jrdd File "/net/nas/uxhomeFile "/net/nas/uxhome/condor_ldrt-s/spark-1.6.1-bin-h

浏览 1提问于2016-04-19得票数 0

1回答

我在ipython笔记本中使用pyspark并访问netezza数据库。我正尝试在bluemix上做类似的事情。问题是，为了访问netezza，我必须向pyspark启动添加参数。我如何在bluemix上做到这一点？下面是我独立启动pyspark的方法： $ PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" /usr/local/src/spa

浏览 0提问于2016-05-19得票数 0

2回答

多列上的Spark数据帧聚合

、、

Actually I am working on pyspark code.collect1|collect2|collect3|collect4||A1 | 1.02 | 2.62.09 ||C2 | 2.93 | 1.23 |下面的代码分解了各个列的所有平均值是否可以对所有列进行

浏览 0提问于2016-03-24得票数 1

1回答

lambda中的import调用函数会导致导入错误。

、、

/python/lib/pyspark.zip/pyspark/worker.py", line 98, in main File "/opt/spark-1.6.0-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/seri

浏览 4提问于2016-04-07得票数 2

回答已采纳

3回答

Pyspark:序列化任务超过了允许的最大值。考虑增加spark.rpc.message.maxSize或对较大的值使用广播变量

、、、、

我的环境: Python 3.5，Anaconda 5.0，Spark 2 如何避免此错误？

浏览 7提问于2019-01-31得票数 14

1回答

如何在pyspark中将变量传递给spark.sql查询？

、、

如何在pyspark中将变量传递给spark.sql查询？当我查询一个表时，它会失败，并返回一个AnalysisException。为什么？most recent call last): File "/usr/local/spark-2.3.0-bin-hadoop2.6/python/pyspark/sql/sessio

浏览 0提问于2018-12-30得票数 2

回答已采纳

1回答

在未指定类数的情况下，为U‘’DecisionTreeClassifier提供了无效标签列标签的输入。请参阅StringIndexer

、、

{Matrix, Matrices}追溯(最近一次调用)：文件""，第1行，文件"/opt/mapr/spark/spark-1.6.1-bin-hadoop2.6_fit(数据集)文件"/opt&#x

浏览 2提问于2017-04-21得票数 0

1回答

如何在流水线RDD上使用flatMap()？

、、、

我有一个名为“all_tweets”的sql，它只有一个列文本。-1.6.0-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/worker.py", line 106, in process serializer.dump_streamFile "/home/notebook/spark-1.6.0-bin-hadoop2.6/python

浏览 4提问于2016-03-30得票数 0

回答已采纳

1回答

spark 1.6.1 python 3.5.1构建朴素贝叶斯分类器

、、

我如何打印混淆矩阵？如何打印新观测的结果Traceback (most recent call last): File "<stdin>", line 1, in <module> File "c:\spark-1.6.1-bin-hadoop2.

浏览 9提问于2016-04-06得票数 1

2回答

如何向上或向下(旋转到最近)

、

])+----------+-----+|2020-08-02| 1.15||2020-08-04| 2.6------+----+----+|2020

浏览 4提问于2020-08-21得票数 0

3回答

如何使用Pyspark和Dataframes查询Elasticsearch索引

、、

from pyspark.sql import SQLContextdf = sqlContext.read.format("org.elasticsearch.spark.sql").load("index/type")如何执行查询以从Elasticsearch索引返回数据，并使用pyspark将它们作为DataFrame加载到Spark？

浏览 0提问于2016-07-03得票数 11

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云