使用Pyspark从单词列表的行条目中创建元组，并使用RDD进行计数_使用map reduce pyspark对rdd进行计数的元组列表 - 腾讯云开发者社区

pyspark

我正在查找数据中所有列的“模式”，并将它们存储在列表中。计算每个列的我的模式的代码： from pyspark.sql.functions import * #calculating mode value mode_val = [] for i in df_num.columns : cnts = df_num.groupBy(i).count() mode = cnts.join( cnts.agg(max("count").alias("max_")), col("count") == col(&#

浏览 0提问于2018-04-03得票数 2

回答已采纳

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

python、python-2.7、apache-spark、pyspark

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Python数据对象，比如数组、列表、元组或字典，会怎么样呢？它们将只存储在我的驱动程序节点的内存中，对吗？如果我把它们转换成RDD，我还能用典型的Python函数做操作吗？如

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

具有查找表的火花平均向量

python、apache-spark、pyspark

我试图在PySpark中实现一个简单的GloVe算法，它使用的是来自的预先训练的GloVe模型。我有两个RDDs：在(K:V)形式中名为documents的一对RDD，其中K是文档ID，V是该文档中所有单词的列表，例如('testDoc1':'i am using spark') ('testDoc2':'testing spark') 一个名为words的对RDD，它以K:V的形式表示单词嵌入，其中K是一个单词，V是表示这个单词的向量，例如('i', [0.1, 0.1, 0.1]) (&

浏览 1提问于2018-02-28得票数 3

回答已采纳

1回答

计算文本行中每一个单词的频率-火花

python、pyspark、rdd、word-count

我在PySpark中用这个表单创建了一个rdd： [(0, ('This', 1)), (0, ('is', 1)), (0, ('the', 1)), (0, ('100th', 1)), (0, ('Etext', 1)), (0, ('file', 1)), (0, ('presented', 1)), (0, ('by', 1)), (0, ('Project', 1)), (0, ('Gutenberg,', 1)), (0,

浏览 1提问于2021-12-31得票数 0

回答已采纳

2回答

RDD过滤器、Spark2.1和Python3.5中的映射操作出错

python-3.x、dictionary、apache-spark、filter、rdd

我正在尝试运行中给出的Spark / Python的Logistic回归示例，并且已经成功地使用了Spark1.6和Python2.7。现在我必须将它移到Spark2.1和Python3.5( 3.6是不兼容的)，我正在使用Ubuntu16.04中的木星笔记本这段代码工作正常 # Evaluate the model on training data labelsAndPreds = modelInput.map(lambda p: (p.label, LRmodel.predict(p.features))) print(labelsAndPreds.count()) print(lab

浏览 2提问于2017-04-12得票数 1

回答已采纳

2回答

如何将2个RDDs的列从单个RDD中添加到其中，然后根据PySpark中的日期数据进行行聚合

python、apache-spark、aggregate、pyspark、rdd

我在PySpark中有两个PySpark： RDD1: [(u'2013-01-31 00:00:00', u'a', u'Pab', u'abc', u'd'),(u'2013-01-31 00:00:00', u'a', u'ab', u'abc', u'g'),.....] RDD2: [(u'41',u'42.0'),(u'24',u'98.0'),....] 两个

浏览 7提问于2015-12-07得票数 5

1回答

当实现RDD时，PySpark作业似乎被卡住了。

apache-spark、pyspark

我有一个SparkJob，它从在N项之间创建一个成对的分数矩阵开始。虽然密集，这是相当快-到大约20K元素，之后，它似乎被困了很长时间。我在多次尝试中看到的最后一个日志行是“清除累加器”，我将下面的代码块附加到下面，以便用随机创建的50K元素数据集来重现这个问题。笛卡尔产品的速度相当快，结果的RDD计数会在几分钟内(25亿行)返回，但是第二次计数会停留两个多小时，日志或Spark中没有任何进展更新。我有一个由15个EC2 M3.2xLarge节点组成的集群。我怎样才能理解这里正在发生的事情，以及如何加快这一进程？ import random from pyspark.context impor

浏览 2提问于2016-06-29得票数 1

1回答

如何计算RDD中某一行中有多少项？

python、scala、pyspark

如您所知，我对使用Pyspark相当陌生，我的RDD设置如下：(ID、名字、姓氏、地址) (ID、名字、姓氏、地址)--无论如何，我可以数一数我在RDD中存储的这些记录中的多少，例如RDD中的所有ID。这样输出结果就会告诉我我有5个。我尝试过使用RDD.count()，但这似乎只是返回了我的数据集中共有多少项。

浏览 0提问于2018-11-25得票数 0

2回答

python双列表对scala等价的理解

python、scala、apache-spark

尝试将一些pySpark转换为scala等效项，而对于双列表理解的正确语法，我遇到了问题。代码接受键值列表，并返回为同一键发生的元组形式的值列表。意思是(2，(‘user3 1’，‘user3 2’，‘user3’)将返回(‘user3 1’，'user2')，(‘user3 1’，'user3')，(‘user3 2’，‘user3’)。 #source rdd [(2, ['user1', 'user3']), (1, ['user1', 'user2', 'user1']),

浏览 2提问于2016-02-11得票数 1

回答已采纳

1回答

在PySpark环境中创建缓存的最佳方法

caching、apache-spark、pyspark、cloudant

我正在使用星火流创建一个系统来丰富来自cloudant数据库的输入数据。例子- Incoming Message: {"id" : 123} Outgoing Message: {"id" : 123, "data": "xxxxxxxxxxxxxxxxxxx"} 驱动程序类的代码如下： from Sample.Job import EnrichmentJob from Sample.Job import FunctionJob import pyspark from pyspark.streaming.kafka import

浏览 6提问于2016-12-30得票数 4

回答已采纳

3回答

以一种分布式的方式高效地生成大型DataFrame (没有pyspark.sql.Row)

apache-spark、pyspark、pyarrow、apache-arrow

这个问题归结为以下几个方面:我希望使用现有的并行化输入集合生成一个DataFrame，而给定一个输入的函数可以生成相对较大的一批行。在下面的示例中，我希望使用例如1000个执行器生成10^12行数据帧： def generate_data(one_integer): import numpy as np from pyspark.sql import Row M = 10000000 # number of values to generate per seed, e.g. 10M np.random.seed(one_integer) np_array = np.rand

浏览 3提问于2020-05-25得票数 4

回答已采纳

1回答

DF.show()在zipWithIndex后将RDD转换为DF后出现的错误

apache-spark、pyspark、apache-spark-sql

我似乎遵循了文档化的方式来显示从带有模式的RDD转换而来的DF。但很明显，我遗漏了一些很小但很重要的一点。然后如下： # Original schema + Index for zipWithIndex with variations on this schema = StructType(result_df.schema.fields[:] + [StructField("index", LongType(), True)]) rdd = result_df.rdd.zipWithIndex() df = spark.createDataFrame(rdd, schema)

浏览 0提问于2019-08-12得票数 2

回答已采纳

1回答

用Kmeans对星火中的小短语进行聚类

apache-spark、cluster-analysis、pyspark、k-means、apache-spark-mllib

我有一个单词/短语的列表(大约一百万)，我想把它们聚在一起。我假定它的清单如下： a_list = [u'java',u'javascript',u'python dev',u'pyspark',u'c ++'] a_list_rdd = sc.parallelize(a_list) 我遵循这个程序：使用字符串距离(假设jaro度量)，我计算单词列表之间的所有距离，该列表将创建一个矩阵5x5，对角线为5x5，因为它计算自身之间的距离。为了计算所有的距离，我广播了整个列表。所以： a_list_rdd_broadc

浏览 3提问于2016-02-22得票数 0

1回答

PySpark %1缺少参数“y”

lambda、pyspark、arguments

Jupyter PySpark发送错误=> TypeError：()缺少1个必需的位置参数：'y‘ 我正在使用Jupyter中的PySpark，并且有以下代码，它会向我发送以下错误： l = [i for i in range (0,3000)] rdd = sc.parallelize(l) def check(x,y,k): if (((2*x+1)**2)+((2*y+1)**2))<(2*k)**2: return 1 else: return 0 rdd4 = rdd.cartesian(rdd) rdd5 = r

浏览 12提问于2019-10-13得票数 0

回答已采纳

1回答

这个带有两个参数的lambda函数映射的Spark有什么问题？

python、lambda、pyspark、rdd

目标打印一个具有电影名称的数据集&它被评级的次数。这是获得最“受欢迎”电影的简单方法数据一个名为"u.data“的文件，带有movieID，userID，评级，时间戳一个名为"u.item“的文件，其中包含movieID和电影名称以及关于每部电影的信息。方法从MovieID文件中创建字典键= u.item，values = Name 将字典广播到集群上的执行程序节点。在每一行上使用MovieID和1创建一个rdd 通过movieID将此rdd减少，并将每个rdd相加

浏览 0提问于2018-12-26得票数 1

回答已采纳

1回答

在pyspark中对RDD的每一行进行排序

python-3.x、pyspark、pyspark-sql

我是pyspark的初学者，所以我无法解决问题。我有一个RDD，如下所示 results = [('alice', 'charlie'), ('charlie', 'alice'), ('charlie', 'doris'),('doris', 'charlie')] result = sc.parallelize(result) result.collect() [('charlie', 'doris'), ('charli

浏览 6提问于2019-08-18得票数 0

1回答

将管道RDD转换为Spark数据帧

python、dataframe、apache-spark、pyspark、rdd

从这里开始： items.take(2) [['home', 'alone', 'apparently'], ['st','louis','plant','close','die','old','age','workers','making','cars','since','onset','mass','automotive'

浏览 6提问于2021-03-06得票数 0

回答已采纳

1回答

如何计算SparseVector中存在的特性数量

apache-spark、pyspark、rdd

我有这样的数据： +---+-------+--------------+ | id|clicked| features | +---+-------+--------------+ | 7| 1.0 |(4,[3],[1.0]) | | 8| 0.0 |(4,[2],[12.0])| | 9| 0.0 |(4,[3],[0.1]) | +---+-------+--------------+ 并将其转换为RDD： Row(id=7, clicked=1.0, features=SparseVector(4, {3: 1.0})) Row(id=8, clicked=

浏览 3提问于2018-09-19得票数 2

回答已采纳

1回答

Scala案例方法在火花放电中的应用

scala、pyspark

在scala中，当我有一个类似于：List(("a",1),("a",2),("b",3),("b",4),("b",5),("a",6))的RDD列表时，我想要计算每个字符的avg数。与a一样，它以1+2+6 = 9的值显示了3次，因此我希望得到的结果是(a, 3)。在Scala中，我可以编写如下代码： val newRdd = rdd.aggregateByKey((0,0))((t,v) => {(t._1 + v, t._2 + 1)}, (t1, t2) => {(t1._

浏览 5提问于2021-12-24得票数 0

回答已采纳

1回答

电火花纱获得烟斗拒绝许可

pyspark、hadoop-yarn、cloudera-cdh

我试图用CDH在纱线上运行电火花，在这个生火的主程序中，有一条类似于rdd.pipe("XXX.sh")的语句，每次我运行它时，都会弹出一个被拒绝的错误，我该怎么办来解决这个错误呢？谢谢。错误日志信息是blow：文件"/data/yarn/nm/usercache/work/appcache/application_1495632173402_0079/container_1495632173402_0079_01_000001/pyspark.zip/pyspark/rdd.py"，第2346行，pipeline_func文件"/data/yarn

浏览 3提问于2017-05-25得票数 0

1回答

Apache-Spark并行处理分离的csv文件

python、csv、apache-spark

我正在尝试使用Apache-Spark来并行处理目录中分离的csv文件。具体地说，我希望每个从节点将每个csv文件中第一列的所有编号相加，并返回计算结果。以下是我的代码： import os, sys, inspect, csv ### Current directory path. curr_dir = os.path.split(inspect.getfile(inspect.currentframe()))[0] ### Setup the environment variables spark_home_dir = os.path.realpath(os.path.abspath(

浏览 1提问于2015-07-15得票数 1

1回答

如何使用PySpark RDD找到哪个句子的最大单词数？

apache-spark、pyspark

我试着用最多的单词来得到这个句子。我对PySpark几乎没有经验，在这方面也有困难。让我列出我所遵循的步骤。创建了一个包含以下句子的text_file : Hello，这是Subhayan，这是我的第一个火花程序，我和Python一起使用火花，这是Subhayan，是我的第一个火花程序，我用的是Spark和Python。将文本文件读取为RDD (必须仅使用RDD ) 编写了下面的代码，用于获取一行中最大字数的计数 def str_split(行)：返回line.split(‘') splitted_rdd = text_rdd.map(str_split) def word_pa

浏览 2提问于2020-08-18得票数 0

回答已采纳

1回答

如何基于控制字符读取日志文件和过滤器？

python、apache-spark、pyspark、apache-spark-sql

我是PySpark的新手，我想读取一个日志文件，其中包含很多行二进制代码，用换行符隔开。我需要使用以下方法过滤该文件： \x00二进制行的长度大于1二进制行的长度以开头下面是一个输入文件中的一个示例行： b'\x18\xb5\x1fM\x00\x02\x00\x^C\x05\x00\x00\x96\x93\x80@2\xf6\x1f2\x01\n' 在检查\x00每行的0位置时，我遇到了一个错误。错误是： pyspark.sql.utils.AnalysisException:无法从b#2中提取值:需要结构类型，但得到字符串；这是我的密码。 from pyspark i

浏览 0提问于2021-02-03得票数 0

2回答

从RDD创建df时出现pyspark错误: TypeError:无法推断类型的架构：

apache-spark、pyspark、rdd、spark-dataframe

我正在使用以下代码将我的rdd转换为数据帧： time_df = time_rdd.toDF(['my_time']) 并得到以下错误： TypeErrorTraceback (most recent call last) <ipython-input-40-ab9e3025f679> in <module>() ----> 1 time_df = time_rdd.toDF(['my_time']) /usr/local/spark-latest/python/pyspark/sql/session.py in toDF(sel

浏览 0提问于2016-09-29得票数 2

1回答

TypeError:在使用reduceByKey计算平均值时，“reduceByKey”对象是不可订阅的

python、apache-spark、pyspark

我的"asdasd.csv“文件具有以下结构。 Index,Arrival_Time,Creation_Time,x,y,z,User,Model,Device,gt 0,1424696633908,1424696631913248572,-5.958191,0.6880646,8.135345,a,nexus4,nexus4_1,stand 1,1424696633909,1424696631918283972,-5.95224,0.6702118,8.136536,a,nexus4,nexus4_1,stand 2,1424696633918,142469663192328885

浏览 0提问于2018-03-07得票数 1

回答已采纳

1回答

如何从任何数据库表创建PySpark RDD？

pyspark

由于我是星火社区的新手，任何人都能解释如何从数据库表创建PySpark RDD吗？我可以使用PySpark方法的textFile()方法从CSV文件创建SparkContext RDD。但我不知道从数据库表中创建PySpark RDD。

浏览 0提问于2018-02-10得票数 1

回答已采纳

1回答

Neo4j作为火花放电的数据源

python、apache-spark、neo4j、pyspark、apache-kafka

我有一个要求，我必须从Neo4j中提取数据，并从这些数据中创建Spark。我在我的项目中使用Python。连接器具有相同的用途，但它是用Scala编写的。所以我现在可以想出解决办法- 以小块/批的形式从neo4j查询数据，使用parallize()方法将每个块转换为Spark。最后，使用union()方法合并/合并所有的RDD，以获得单个RDD。然后我就可以对它们进行转换和操作。另一种方法是从Neo4j读取数据，并从中创建一个卡夫卡制作者。然后使用Kafka作为星火的数据源。例如： Neo4j -> Kafka ->火花我想知道哪一个对大量数据更有效？如

浏览 7提问于2018-01-09得票数 2

1回答

星星之火:如何将元组转化为DataFrame

python、apache-spark、pyspark

我的train_rdd和(('a',1),('b',2),('c',3))一样。我使用以下方法将其转换为DataFrame from pyspark.sql import Row train_label_df = train_rdd.map(lambda x: (Row(**dict(x)))).toDF() 但也许某些RDDS中缺少了一些钥匙。所以错误就会发生。 File "/mnt/hadoop/yarn/local/usercache/hdfs/appcache/application_/container_05_000017/py

浏览 8提问于2020-07-07得票数 1

回答已采纳

1回答

如何使用LabeledPoint过滤RDD？

python、pyspark

我的初始RDD如下所示： RDD_int.collect() = [("a", 0, LabeledPoint(0, f01, f02, ..., f0n)), ("a", 1, LabeledPoint(0, f11, f12, ..., f1n)), ..., ("a", m, LabeledPoint(0, fm1, fm2, ..., fmn))] 我尝试这个操作： RDD.filter(lambda x : "LabeledPoint" in x[2]) 它不起作用。我希望得到这一条： RDD.collect() =

浏览 0提问于2021-05-01得票数 1

1回答

IndexError:超出范围的字符串索引

python、pyspark

我是很新的火花编程。我正在尝试将地图和reduceByKey实现到以下15个字段的数据集。 rdd=sc.parallelize([ ("West", "Apple", 2.0, 10,2.0, 10,2.0, 10,2.0, 10,2.0, 10,2.0,2.0, 10), ("West", "Apple", 3.0, 10,2.0, 10,2.0, 10,2.0, 10,2.0, 10,2.0, 10,2.0]) 这是我的map函数，在这里我试图创建一个包含多个键和值的元组。 rdd1 = rdd.map(lambda

浏览 1提问于2015-08-27得票数 1

1回答

在特定字段上加入json (没有键值)

join、apache-spark

我有两个Spark1.4.1 PipelineRDD (我不知道这是什么对象:-s： 1) ids列表(ids_alsaciens RDD) 2)人员名单(人员RDD) 'Personnes‘RDD有4个字段，都是json格式，键是"id“。对于这个表中的同一个人，我可能有几行( id是相同的)。我想获取'personnes‘RDD上的所有行，该id包含在'alsacien’表中。我怎么能在火花中这样做呢？ >type(ids_alsaciens) pyspark.rdd.PipelinedRDD >type(personnes) pyspark

浏览 0提问于2015-08-24得票数 1

回答已采纳

1回答

为文本文件中的每条记录创建正/负计数矩阵

scala、apache-spark

我正在尝试使用Apache Spark (使用Scala)中的一大堆肯定和否定词对一些评论数据进行情感分析。我是Scala的新手，所以需要一些帮助。程序如下所示：读取RDDs中的正/负。 val pos_words = sc.textFile("D:/spark4/mydata/pos-words.txt") val neg_words = sc.textFile("D:/spark4/mydata/neg-words.txt") 将评论读入RDD val dataFile = sc.textFile("D:/spark4/mydata/review_

浏览 1提问于2015-12-18得票数 0

1回答

PySpark:将一对RDD转换回常规RDD

pyspark、rdd、keyvaluepair

有任何方法可以将一对RDD转换回常规RDD吗？假设我得到一个本地csv文件，并且首先将它作为一个常规的rdd加载。 rdd = sc.textFile("$path/$csv") 然后创建一对rdd (即键是"，“之前的字符串，而值是"，”之后的字符串) pairRDD = rdd.map(lambda x : (x.split(",")[0], x.split(",")[1])) 我使用pairRDD ()存储saveAsTextFile() pairRDD.saveAsTextFile("$savePath"

浏览 1提问于2015-10-06得票数 1

回答已采纳

1回答

是否可以将python对象存储在或rdd中？

apache-spark、pyspark

我试着用火花来实现一些种源算法。我想要做的第一步是将prov文档对象存储到spark中。 text = spark.read.text("./282.json") rdd = text.rdd.map(lambda x: ProvDocument.deserialize(content=x)) print(rdd.take(1)) JSON文件很简单，是prov文件，在本地环境中它可以正常工作。这给了我以下错误： 21/12/10 11:33:16 ERROR Executor: Exception in task 0.0 in stage 58.0 (TID 56) org.

浏览 3提问于2021-12-10得票数 0

回答已采纳

1回答

需要Python代码方面的帮助以从列表中创建RDD

python、pyspark

在运行PYSPARK代码时，我收到一个错误。用于从列表创建RDD的Python代码。我需要在RDD中使用MAP函数。

浏览 0提问于2020-05-20得票数 0

2回答

需要创建一个Dataframe，其中通过循环遍历另一个Dataframe列的值来创建列。我如何在PySpark中做到这一点？

python、pyspark、apache-spark-sql

我试图从原始的Dataframe "User_df“中获取每个列的列名和数据类型，到它们自己的列中，其中列的值分别是列名和数据类型。我有88列和9500行。当我尝试用一个列("ColumnDataTypes")创建一个Dataframe时，下面的代码是有效的，但当我试图为这两个列创建一个Dataframe时，代码就不起作用了： col_types = User_df.dtypes col_types2, col_types3 = [items[:] for items in zip(*col_types)] rdd_col_names = sc.parallel

浏览 36提问于2022-08-16得票数 0

回答已采纳

2回答

打印RDD / Dataframe的特定分区

pyspark

我一直在试验PySpark RDD的分区和重新分区。我注意到，当将一个小样本RDD从2个分区重新划分到6个分区时，只添加了几个空部分。 rdd = sc.parallelize([1,2,3,43,54,678], 2) rdd.glom().collect() >>> [[1, 2, 3], [43, 54, 678]] rdd6 = rdd.repartition(6) rdd6.glom().collect() >>> [[], [1, 2, 3], [], [], [], [43, 54, 678]] 现在，我想知道这是否也发生在我的真实

浏览 2提问于2021-05-19得票数 1

回答已采纳

2回答

从Spark RDD中删除重复的

python、apache-spark、duplicates、pyspark

我在我的文件中收集了重复的记录作为字典列表。下面是我的sampleRDD变量内容，它是一个pyspark.rdd.RDD对象： [{"A": 111, "B": 222, "C": 333} ,{"A": 111, "B": 222, "C": 333}] 我只想获得一条记录，如下所示： [{"A": 111, "B": 222, "C": 333}]

浏览 1提问于2016-01-18得票数 0

1回答

加入RDD并获取最小值

apache-spark、pyspark、rdd

我有多个rdd，并且希望通过加入它来获得常用的单词，并获得最小数量的.So，我加入并通过下面的代码获得它： from pyspark import SparkContext sc = SparkContext("local", "Join app") x = sc.parallelize([("spark", 1), ("hadoop", 4)]) y = sc.parallelize([("spark", 2), ("hadoop", 5)]) joined = x.join(y).map(lam

浏览 1提问于2019-09-24得票数 0

回答已采纳

1回答

将具有值列表的列转换为pyspark中的单个列。

python、apache-spark、pyspark、apache-spark-sql

我有这种格式的数据 df08.select('scaled').show(5, truncate=False) +--------------------------------------------------------------------------------------------------------------------------------+ |scaled

浏览 5提问于2022-04-24得票数 0

2回答

对pyspark中RDD的元素求和和除法

python、apache-spark、pyspark、rdd

我尝试对RDD的所有元素求和，然后将其除以元素的数量。我能够解决这个问题，但使用了不同的行。但是，我只想使用RDD操作在一行代码中完成此操作。例如，RDD为： rdd_example = [(eliana,1),(peter,2),(andrew,3),(paul,4),(jhon,5)] 第一步是使用带有lambda的方法map来提取数字： numbers = rdd_example.map(lambda x: x[1]) 输出为： numbers = [1,2,3,4,5] 然后使用reduce方法计算所有元素的和： from operator import add sum = num

浏览 210提问于2021-10-11得票数 0

回答已采纳

2回答

来自现有RDD的数据帧- Python Spark

apache-spark、dataframe、pyspark、apache-spark-sql、rdd

我试图通过指定列标签和数据类型从现有的RDD创建一个数据框，但是我得到了这个Typeerror： from pyspark.sql import SQLContext from pyspark.sql.types import * sqlContext = SQLContext(sc) yFieldTypes = [FloatType()] ySchemaString = "Predictor" fy_data = [StructField(field_name, field_type, True) \ for field_name, field_type

浏览 0提问于2017-06-10得票数 0

2回答

将函数应用于groupBy数据

apache-spark、pyspark

当在另一列上分组时，我试图从csv中获取单词计数。我的csv有三列: id、message和user_id。我读了这篇文章，然后拆分消息，并存储了一个单字列表： +-----------------+--------------------+--------------------+ | id| message| user_id| +-----------------+--------------------+--------------------+ |10100720363468236|[i'm, sad,

浏览 2提问于2016-12-05得票数 12

回答已采纳

1回答

Pyspark RDD:查找元素的索引

python、pyspark

我是pyspark的新手，我正在尝试将python中的列表转换为rdd，然后我需要使用rdd查找元素索引。对于第一部分，我正在做的是： list = [[1,2],[1,4]] rdd = sc.parallelize(list).cache() 所以现在rdd实际上是我的列表。问题是，我想要找到任意元素的索引，类似于" index“函数，它适用于python列表。我知道一个名为zipWithIndex的函数，它为每个元素分配索引，但我在python中找不到合适的示例(有java和scala的示例)。谢谢。

浏览 2提问于2016-04-06得票数 6

回答已采纳

2回答

如何使用pyspark在cassandra数据上创建RDD对象

python、scala、cassandra、pycassa、apache-spark

我正在使用cassandra 2.0.3，我想使用pyspark (Apache Spark Python API)从cassandra数据创建一个RDD对象。请注意:我不想做导入CQL，然后从pyspark API查询CQL，而是我想创建一个RDD，我想在上面做一些转换。我知道在Scala中可以做到这一点，但我不知道如何在pyspark中做到这一点。如果有人能在这方面给我指点一下，我将非常感谢。

浏览 10提问于2013-12-30得票数 9

2回答

如何对星火库中嵌套列表结构的RDD进行排序？

apache-spark、pyspark

我有一个具有以下(键、值)格式的RDD： [((u'en', 1),[('term1', 2),('term2', 8),('term3', 6))] 注意到，这里的value是一个元组列表：(term,count) 我尝试使用以下方法按值对此rdd进行排序： .map(lambda (a,b): (b,a)).sortByKey(False).map(lambda (a,b): (b,a)) 但是它通过term和count产生了一个排序的RDD。问题是如何通过count对这个RDD进行排序，从而产生以下结果： [((u'

浏览 7提问于2016-01-05得票数 0

回答已采纳

2回答

火花元组获取详细信息/每个键的rdd

hadoop、mapreduce、apache-spark

我有这样的一排： (key1,Illinois|111|67342|...) (key1,Illinois|121|67142|...) (key2,Hawaii|113|67343|...) (key1,Illinois|211|67442|...) (key3,Hawaii|153|66343|...) (key3,Ohio|193|68343|...) (1)如何获得唯一的键？ (2)如何获得每个键的行数(key1 -3行、key2 -1行、键3-2行)因此，产出是: 3,1,2) (3)如何获得每个键(5MB、2MB、3MB)行的字节大小编辑1.这是我的新代码： val rdd :

浏览 2提问于2015-04-23得票数 1

回答已采纳

1回答

pyspark:重新分区后出现“值太多”错误

python、apache-spark、apache-spark-sql、pyspark、rdd

我有一个DataFrame (转换为RDD)，并希望重新分区，以便每个键(第一列)都有自己的分区。这是我所做的： # Repartition to # key partitions and map each row to a partition given their key rank my_rdd = df.rdd.partitionBy(len(keys), lambda row: int(row[0])) 但是，当我试图将它映射回DataFrame或保存它时，我得到了这个错误： Caused by: org.apache.spark.api.python.PythonException:

浏览 0提问于2015-11-21得票数 5

4回答

理解RDDs的Spark中的lambda函数输入

python、apache-spark、lambda、pyspark

我正在上一门关于Spark的课程，我有点困惑。所以这里有下面的代码。我知道第1行正在创建元组(word，1)。然后，第2行按字分组并对计数求和。我不明白的是，第2行中的X和y是什么，lamda函数只有一个数字输入，那就是wordcounts中的count列(全部为1)，那么为什么是y呢？ wordCounts = words.map(lambda x: (x, 1)) #outputs [('self', 1), ('employment', 1), ('building', 1)... wordCounts2 = wordCounts.r

浏览 45提问于2019-10-22得票数 3

回答已采纳

1回答

从RDD创建DataFrame时出错

python、apache-spark、pyspark

在下面的代码中，我试图从管道the创建一个DataFrame： print type(simulation) sqlContext.createDataFrame(simulation) print语句打印如下： <class 'pyspark.rdd.PipelinedRDD'> 但是，在下一行中，我得到了以下错误： org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 3.0 failed 1 times, most recent failur

浏览 2提问于2016-07-06得票数 1

回答已采纳