在PySpark中重新排列RDD

文章/答案/技术大牛

发布

1回答

apache-spark、pyspark、rdd

我有一个这样的RDD [('a', [('d2', 1), ('d1', 1)]), ('administrative', [('d1', 1also', [('d1', 1)])] 我希望输出看起来像这样 a#d2:1;d1:1administrative#d1:1 also#d1:1 我尝试先去掉括号以获得输出 <em

浏览 30提问于2021-02-11得票数 0

回答已采纳

1回答

需要RDD的实例，但返回了类“pyspark.rdd.PipelinedRDD”

python、apache-spark、spark-dataframe、rdd

嗨，我在Notebook中有这段代码，并尝试编写python spark代码： spark.sql("SELECTdf,spark):return result.rdd.sample(False, 0.1).map(lambda row : (row.temper

浏览 0提问于2017-06-04得票数 5

回答已采纳

1回答

如何使用pyspark.mllib rdd api度量来测量pyspark.ml (新数据帧api)？

pyspark、apache-spark-mllib、apache-spark-ml

MlLib的旧API有评估指标类：，而新的dataframe API没有这样的类：

浏览 0提问于2016-09-06得票数 0

2回答

将数据保存到HDFS的格式是什么？

hadoop、apache-spark、hdfs、apache-spark-sql

在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

1回答

电火花纱获得烟斗拒绝许可

pyspark、hadoop-yarn、cloudera-cdh

我试图用CDH在纱线上运行电火花，在这个生火的主程序中，有一条类似于rdd.pipe("XXX.sh")的语句，每次我运行它时，都会弹出一个被拒绝的错误，我该怎么办来解决这个错误呢？谢谢。_0079/container_1495632173402_0079_01_000001/pyspark.zip/pyspark/rdd.py"，第2346行，在"/data/yarn&

浏览 3提问于2017-05-25得票数 0

2回答

访问火花放电中的JavaRDD

java、apache-spark、pyspark、apache-zeppelin

在中，我通过调用从Java加载的类的静态函数来创建一个JavaRDD对象。是否可以使用Pyspark访问这个JavaRDD？从SqlContext访问表。获取表的RDD，并将其内容映射回反序列化版本。

浏览 8提问于2015-08-20得票数 3

1回答

Pyspark：“rdd”对象没有属性“平面映射”

python、apache-spark、pyspark、rdd

我是刚接触过Pyspark的人，我实际上是在尝试用Pyspark对象构建一个平面图。但是，根据文档，即使这个函数显然存在于吡火花RDD类中，我也无法使用它并得到以下错误：我在下面一行中调用后一个函数： my_rdd = my_rdd.flatmap(lambda r: (r[5].s

浏览 2提问于2018-10-28得票数 4

回答已采纳

1回答

如何将<class‘class’_. How .

python、apache-spark、machine-learning、pyspark、k-means

中，当它运行model = kmeans.fit(vdf)时，我得到了以下错误：在org.apache.spark.api.python.PythonRunner/lib/pyspark.zip/pyspark/worker.py"，第106行中，在process serializer.dump_stream(split_index迭代器)中，在文件&quo

浏览 2提问于2017-03-02得票数 5

回答已采纳

1回答

PicklingError:未能序列化对象:同时将数据插入到dynamoDB

amazon-web-services、apache-spark、amazon-dynamodb

我试图在dynamoDB中插入200万项(WCU = 40,000)。但是当我使用星图时，它是抛出的错误。/pyspark/rdd.py", line 205, in __repr__ File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/rd

浏览 6提问于2021-02-27得票数 0

1回答

我有一个pyspark RDD，它有大约200万个元素。我不能一次收集它们，因为它会导致OutOfMemoryError异常。如何批量采集？这是一个潜在的解决方案，但我怀疑还有更好的方法:收集一个批处理(使用take、https://spark.apache.org/docs/3.1.2/api/python/reference/api/pyspark.RDD.take.html#pyspark.RDD</

浏览 29提问于2021-10-12得票数 0

回答已采纳

1回答

火花放电rdd分裂问题

pyspark、split、rdd

我试图从rdd中筛选值为"01-10-2019“的 ### Split RDD</em

浏览 5提问于2020-02-08得票数 1

回答已采纳

3回答

检查类型:如何检查是RDD还是DataFrame？

python、apache-spark、dataframe、apache-spark-sql、rdd

我使用的是Python，这是一个Spark RDD / DataFrame。我正在编写一个函数，其中RDD和DataFrame都可以传入，所以如果传入了DataFrame，我将需要执行input.rdd来获取底层的RDD。

浏览 1提问于2016-04-20得票数 11

回答已采纳

1回答

如何在没有模式的情况下查询dataframe和rdd

pyspark

如何将csv文件without any schema加载到spark rdd和dataframe中并分配模式AA,19970101,47.82,47.82,47.82,47.82,0

浏览 0提问于2019-07-17得票数 0

2回答

火花相交

apache-spark、pyspark

我希望在pyspark中得到两个RDD的交集。它们看起来如下：rdd2 = sc.parallelize([["abc","123"],["df",345],["ghi","678"]) 是否可以使用pyspark的

浏览 4提问于2016-12-19得票数 1

回答已采纳

1回答

火花放电中循环到并行过程的替换

python、apache-spark、pyspark、pyspark-sql

我在脚本中使用for循环为size_DF(数据帧)的每个元素调用一个函数，但这需要很长时间。我尝试通过逐个映射删除for循环，但是我没有得到任何输出。size_DF是我从表中获取的大约300个元素的列表。用于：size_RDD = sc.parallelizelength, end_date)if len(size_DF) == 0: print "No recor

浏览 0提问于2018-02-28得票数 2

回答已采纳

1回答

如何在Spark中从另一个RDD的前n项生成RDD？

pyspark

在pyspark中给出一个RDD，我想创建一个新的RDD，它只包含它的前n项(副本)，如下所示： n=100 rdd2 = rdd1.limit(n) 除了RDD没有像DataFrame那样的方法limit注意，我不想收集结果，结果必须仍然是RDD，因此我不能使用RDD.take()。我使用的是pyspark 2.44。

浏览 19提问于2019-10-13得票数 0

回答已采纳

1回答

Spark RDD* - Scala写和Python读*

python、json、scala、apache-spark、rdd

我有一个简单的Spark Scala脚本，它读取一堆日志文件并返回一个RDD[Map[String, String]]spark.read.json("/path/to/export.json").take(5) org.apache.spark.sql.AnalysisException#20458.; at org.apache.spark.sql.catalyst.plans.lo

浏览 0提问于2017-03-29得票数 0

1回答

如何像scala .drop中那样删除rdd列

python、scala、csv、apache-spark、pyspark

文件videos.csv如下所示099acca-8888-48ca,Action,Comedy 在Scala中，Scala可以使用.drop(1)删除RDD列1，以便对所有行删除rdd列1，例如482cal-2792-48da和099acca-8888-48ca。我想知道如何在PySpark rdd中PySpark中这样做，如下所示，在第2行代码<e

浏览 2提问于2016-12-29得票数 3

1回答

Pyspark-读取包含多个JSON的文本文件时，spark streaming时无法解码json对象

python、apache-spark、pyspark

latitude": 40.71911552, "statusKey": 1, "availableBikes": 30, "id": 79, "location": ""}from pyspark.sqlimport SQLContext, Rowimport json ssc = StreamingContext'] =

浏览 3提问于2017-04-25得票数 0

8回答

ImportError:火花工作者上没有名为numpy的模块

python、numpy、apache-spark、pyspark

在客户端模式下启动火花放电。bin/pyspark --master yarn-client --num-executors 60，shell上的导入numpy很好，但是在kmeans中失败了。我试着设置PYSPARK_PYTHON，但这也不起作用。= sc.parallelize(features, 5000) from numpy/pyspa

浏览 7提问于2016-02-05得票数 19

回答已采纳

点击加载更多