Pyspark: reduceByKey多列，但独立

文章/答案/技术大牛

发布

1回答

、

我的数据由多个列组成，如下所示：我想将每个列的数据单独分组，并计算每个元素的出现次数，我可以通过这样做来实现：但是，如果有1000个列，这可能会很耗时。df.rdd.map(lambda x: mapFxn1(x)) mapFxn1获取每一行并将其转换为元组的元组:所以基本上第一行看起来像这样：(

浏览 2提问于2018-01-28得票数 0

回答已采纳

2回答

获取RDD中每个键的最大值和最小值

、、、、

spark = SparkSession.builder.getOrCreate()ssc = StreamingContext(sc , 10)rdd.take(1)[['0.02703300', '1.30900000'], ['0.02704600', '3.9

浏览 6提问于2021-01-02得票数 1

1回答

火花词过滤计数过程中的误差

reduceByKey(_ + _) 此代码返回“狮子”的错误计数。令人惊讶的是，只有“狮子”的计数才被归还。我分别使用Python代码检查了计数值的正确性。

浏览 0提问于2018-02-17得票数 0

回答已采纳

1回答

在Spark中使用reduceByKey的正确方法是什么

、、、、

reduceByKey(lambda x，y: y)返回最后一个元组的第一个值，但是reduceByKey(lambda x，y: x)抛出异常。尝试使用reduceByKey(lambda x，y: x+y)通过键对值求和，但该语句抛出与x相同的异常。代码片段：from pyspark import StorageLevel from pyspark.sq

浏览 4提问于2015-09-24得票数 0

9回答

PySpark -对数据格式中的列进行求和，并以int形式返回结果

、、、

我有一列数字的电火花数据。我需要对该列进行求和，然后在python变量中将结果作为int返回。

浏览 22提问于2017-12-14得票数 56

回答已采纳

0回答

Spark计算用户发推文的次数

、、

我尝试了groupByKey和reduceByKey，但输出是用户id和tweet本身，而不是tweet的数量。代码：from pyspark.sql import SQLContext tweets = df.select("user.id

浏览 0提问于2017-12-05得票数 0

回答已采纳

1回答

在没有sql函数的PySpark中对数据进行排序

、、、

是否有按降序格式化月份列的pyspark函数命令？(不使用sql命令)from pyspark.sql import SQLContext .map(lambda x:(x[1], 1))\ .sortByKey(True)\

浏览 1提问于2020-06-15得票数 0

回答已采纳

1回答

我试图在格式为reduceByKey的(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ...数据上调用pyspark的(([a,b,c], 1), ([a,b,通过简单地应用.reduceByKey(add)，pyspark似乎不会接受数组作为普通键的键，即值约简。我已经尝试过先通过.map((x,y): (str(x),y))将数组转换为字符串，但这不起作用，因为字符串的后处理太慢了。是否有一种方法可以使pyspark使用数组作为键，或者使用另

浏览 3提问于2015-07-14得票数 8

回答已采纳

1回答

Cloudera spark，RDD为空

、、

我尝试在cloudera vm上使用pyspark和hive创建数据帧，但每次都收到此错误。回溯(最近一次调用)：文件"/home/cloudera/Desktop/TwitterSentimentAnalysis/SentimentAnalysis.py"，行98，在.reduceByKey(lambda a，b: a+b) \文件"/usr/lib/spark/python/lib/pysp

浏览 3提问于2017-04-28得票数 0

1回答

Spark独立模式:连接异常时失败：

我正在我的虚拟机(Ubuntu 12.04)上运行一个spark(1.2.1)独立集群。我可以成功地运行als.py和pi.py等示例。last): .reduceByKey(add) File "/home/spark

浏览 0提问于2015-03-13得票数 0

1回答

火花:当键是不可接受的numpy数组时，如何"reduceByKey“？

、、、

NumPy数组是不可理解的，当我尝试执行reduceByKey操作时，这会导致问题。import numpy as nprd =

浏览 2提问于2016-09-21得票数 2

回答已采纳

3回答

火花放电字计数器

、

我有一个具有三列( user_id、follower_count和tweet )的pyspark，其中tweet是字符串类型的。counts = lines.flatMap(lambda x: x.split(' ')) \ .reduceByKey因此，我认为列不能被传递到这个工作流中；我也不知道如何在这个工作流中导航。我已经添

浏览 6提问于2019-10-22得票数 1

回答已采纳

2回答

Spark:约简和reduceByKey语义的差异

、、、

为什么reduceByKey确保二进制函数总是按一定的顺序应用(以适应缺乏交换性)，而reduce却不这样做？val r = sc.textFile("file4k", 4)r.reduce(_ + _)r.map(x => (1,x)).reduceByKey

浏览 4提问于2016-02-04得票数 11

回答已采纳

4回答

如何在pyspark脚本中访问SparkContext

、、

下面的SOF问题告诉我们如何启动一个pyspark脚本：但是，我们如何访问现有的火花上下文呢？in repr(x[1]) and len(repr(x[1])) < 150, locals().iteritems()):('SparkContext', <class 'pyspark.context.SparkContext

浏览 4提问于2015-03-11得票数 25

回答已采纳

1回答

如何为多键和单值使用reduceByKey

我有下一个问题，这是我的代码： sc = SparkContext.getOrCreate()[({'2001', 'Brussel'}, 113), ({'2002', 'Brussel'}, 12)] 我以前试过用reduceByKey做

浏览 3提问于2017-12-30得票数 0

回答已采纳

1回答

异常(“storageLevel必须是pyspark.StorageLevel类型的”)

、

嗨，我试着做一个火花放电集成水槽，但得到的错误。这是密码from pyspark.streaming import StreamingContextimport sysfrom pyspark.sql import functions hostname= sys.argv&q

浏览 1提问于2019-12-02得票数 0

回答已采纳

1回答

lambda中的import调用函数会导致导入错误。

、、

，在我的map调用(x.t是datetime对象)中使用它： .reduceByKey_read_with_length(infile) File "/opt/spark-1.6.0-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/serializers.py我可以通过创建一个新<e

浏览 4提问于2016-04-07得票数 2

回答已采纳

2回答

Apache Spark:使用RDD.aggregateByKey()实现RDD.groupByKey()的等价物是什么？

、、

相反，建议使用reduceByKey()、aggregateByKey()、combineByKey()或foldByKey()。给定以下数据集和groupByKey()表达式，什么是不利用groupByKey()但提供相同结果的等效且有效的实现(减少的跨工作进程数据混洗)？

浏览 0提问于2015-06-27得票数 11

回答已采纳

2回答

pyspark缓存似乎没有加速

、、

这里我使用pyspark做了一个简单的字数统计，我使用了cache方法，但似乎没有在第二次运行代码时加速：from time importrdd.cache() rdd.flatMap(lambda r:r.split(" "))\ .reduceByKeyprint t2-t1 rdd.fla

浏览 0提问于2017-07-23得票数 0

3回答

按键值分类

、、、

我正在尝试将一个值(键、值)与(pyspark)组合起来。我设法按键进行分组，但在内部，我希望对值进行分组，如下面的示例所示。 rdd2 = rdd1.map(lambda line : line.split(",")

浏览 1提问于2019-07-05得票数 3

回答已采纳

点击加载更多