腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
Pyspark
中
使用
reduceByKey
减少
元组
值
、
、
我开始
使用
Pyspark
的MapReduce范型,我遇到了一个问题,我不知道这是编程错误还是我不应该这样做。(id, (date, length, counter)),我这样做是为了从原始数据文件中提取我需要的所有信息,并过滤那些嘈杂的行,这样我就不必再
使用
原始数据文件了。顺便说一句: Counter最初是1,打算在未来的
reduceByKey
中
添加。如果a和b应该得到这对的
值
,元素2应该有它的计数器,我无法理解它。将原始数据文件映射多次,每次提取一个不同的所需
值
是不是
浏览 14
提问于2020-01-21
得票数 0
1
回答
Pyspark
:按键聚合RDD,然后也按键对
元组
值
列表求和
、
我
使用
的是
pyspark
,并且有这样的对: (GroupKey , [(userKey, count),...,(userKey, count)]) 其中值是
元组
列表,如下例所示: (Group1, [ (userA, 1), (userA, 1), (userB, 1), (userA, 1) ] )(Group2, [ (userA, 1), (userC, 1), (userC, 1), (userC, 1) ] ) 我必须
使用
R
浏览 18
提问于2020-07-04
得票数 2
回答已采纳
1
回答
在
Spark中
使用
reduceByKey
的正确方法是什么
、
、
、
、
我
使用
spark-1.4.1-bin-hadoop1构建,因为spark-1.4.1-bin-hadoop2
中
的python Cassandra接口有问题。
reduceByKey
(lambda x,y: y)返回最后一个
元组
的第一个
值
,但是
reduceByKey
(lambda x,y: x)抛出异常。尝试
使用
reduceByKey
(lambda x,y: x+y)通过键对
值
求和,但该语句抛出与x相同的异常。代码片段: import s
浏览 4
提问于2015-09-24
得票数 0
1
回答
减少
星火中
元组
的列表
、
我有一个
元组
列表:val re = List((2,3), (3,5), (2,4))变成了我一直
在
研究Scala星火的例子:,例如单词计数: .map(word => (word, 1))
浏览 1
提问于2014-10-09
得票数 0
回答已采纳
1
回答
如何
使用
pyspark
.rdd组合数据格式("word",(1,2))?
、
、
当
使用
pyspark
处理数据时,我想要计算一个单词的两个属性。(2, 3))("word2", (5, 6))("word1", (3, 5))这意味着用单词组合
元组
值
我试过用但不起作用。如何
使用
<
浏览 2
提问于2022-04-12
得票数 0
回答已采纳
1
回答
PySpark
-聚合还是按多个键缩减?
、
我有一个具有以下
元组
格式的RDD:我只想按(a, (b,c))和d进行分组,如下所示:
在
pySpark
中
如何按多个键分组?在这种情况下,
reduceByKey
和aggregateByKey哪个函数更优?
浏览 6
提问于2017-12-19
得票数 0
1
回答
为什么
reduceByKey
是“错误:简单表达式的非法开始”?
我是scala和spark的新手,
在
实现
reduceByKey
时,我遇到了下面的错误。var redRdd = filterRdd.
reduceByKey
((acc , val) => if (acc > val ) acc else val)var redRdd = filterRdd.
reduceByKey
((acc , val) => if (acc > val ) acc
浏览 5
提问于2016-08-14
得票数 1
回答已采纳
1
回答
IndexError:超出范围的字符串索引
、
我正在尝试将地图和
reduceByKey
实现到以下15个字段的数据集。("West", "Apple", 3.0, 10,2.0, 10,2.0, 10,2.0, 10,2.0, 10,2.0, 10,2.0]) 这是我的map函数,在这里我试图创建一个包含多个键和
值
的
元组
(在上面的
元组
中
的
值
上实现类似于聚合的sql )。rdd2 = rdd1.
reduceByKey
(lambda x,y: (x[1]+',
浏览 1
提问于2015-08-27
得票数 1
2
回答
获取RDD
中
每个键的最大
值
和最小
值
、
、
、
、
0.02704600', '3.90800000'], ['0.02704700', '7.44600000'] 我想要得到每个键的最大
值
和最小
值
浏览 6
提问于2021-01-02
得票数 1
1
回答
在
reduceByKey
() api spark
中
获取密钥
、
有没有一种方法可以
在
reduceByKey
()函数的
pyspark
中
获得键的名称,这样我就可以获得传递给
reduceByKey
()函数的两个
值
之间的公共键?例如://can i get the key value common
浏览 3
提问于2017-03-03
得票数 0
1
回答
在
使用
PySpark
时,如何在Spark
中
实现Python数据结构?
、
、
、
我目前正在自学Spark programming,并试图用
PySpark
重新编写一个现有的Python应用程序。然而,我仍然对如何在
PySpark
中
使用
常规Python对象感到困惑。我了解Spark
中
的分布式数据结构,如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作,如.map()、.
reduceByKey
()来操作这些对象。但是,如果我
在
PySpark
中
创建传统的Python数据对象,比如数组、列表
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
1
回答
使用
Python
在
文件中
使用
单词的频率
、
、
我正在尝试
使用
python程序来计算单词数。from
pyspark
import SparkContext lines = sc.textFile(sys.argv[1],
浏览 1
提问于2018-02-27
得票数 0
1
回答
Spark
中
groupBy的替代方案
、
、
、
、
, b: "2"},{a: "1", b: "3"},{a: "1", b: "4"}]我尝试了两种不同的方法,分别
使用
窗口函数和
使用
这两种方法,我都得到了想要的结果。where("rank = 1")val df2 = df.groupBy(df("id
浏览 0
提问于2018-06-05
得票数 3
4
回答
何时
使用
countByValue,何时
使用
map().
reduceByKey
()
、
、
、
因此,我正在
使用
countByValue,如下所示:val wordCounts = words.map(x => (x, 1)).
reduceByKey
现在,我的问题是什么时候
使用
哪种方法?哪一种优先于
浏览 0
提问于2018-10-21
得票数 5
回答已采纳
1
回答
如何将火花放电数据1x9转换为3x3
、
、
我有一个df,是1x9temp = spark.read.option("sep","\n").csv("temp.txt")萨姆11岁约翰13波士顿埃里克22得克萨斯州 如果不
使用
浏览 3
提问于2019-11-04
得票数 0
回答已采纳
1
回答
在
PySpark
中
使用
reduceByKey
()无法获得正确的平均值
、
、
我正在学习
PySpark
。我一直试图通过“性别”(男性('M'),女性(‘F’))
在
键/
值
RDD中
使用
reduceByKey
()转换来获得平均体重。我
使用
的代码是:def get_mean(*args): .filter(lambda x: not x[0].st
浏览 0
提问于2021-08-04
得票数 0
1
回答
整理
PySpark
中
嵌套字典的列表
、
、
、
、
我需要
使用
PySpark
来扁平以下包含嵌套dicts的RDD,示例如下:
在
我所拥有的实际数据
中
,每个嵌套的dict可能有不同的长度和项数。我需要输出为一个字典,其中键和
值
在
必要时被合并:我怎样才能做到这一点?我知道我必须以同样的方式
使用<
浏览 3
提问于2017-10-11
得票数 1
回答已采纳
1
回答
在
不
使用
PySpark
函数的SQL
中
获取每月最大
值
、
、
、
、
我想要找到这个查询的每月最大
值
,以获得每月最繁忙的机场。
在
不
使用
SQL命令的情况下,是否有一个
pyspark
函数可以获得最大
值
并将RDD
减少
到只有12行(每月一行)?from
pyspark
import SparkContextfrom operator import add .map(
浏览 36
提问于2020-06-17
得票数 0
回答已采纳
1
回答
PySpark
-对(
元组
,整型)
值
执行reducyByKey
、
、
、
我想把它
减少
到每个键,以及它在
元组
中
每个点的平均值。(0,19,15,39),1)),(1,((0,64,19,3),1))] 我将得到: [(1,(0,83,34,41),2))] 然后(或直接) [(1,(0,41.5,17,21)] 我试过了:
reduceByKey
(lambda a,b: a+b)
reduceByKey
(lambda a,b: (a[0]+b[0],a[1]+b[1])) 以及其他没有帮助或导致RDD错误的东西。
浏览 11
提问于2021-01-28
得票数 1
回答已采纳
1
回答
为什么我不能在约简逻辑
中
引用键?
、
、
我希望
在
我的combineByKey/
reduceByKey
/foldByKey中有依赖于当前正在操作的密钥的逻辑。从方法签名可以看出,传递给这些方法的唯一参数是合并/还原/折叠的
值
。
使用
一个简单的示例,其中我只有一个RDD,它是(int, int)
元组
,我想要的结果是tuple[0]键控的rdd,其中值是最接近键的int。例如:(1, 3)(2, 4)(2, 2)(3, 4) 应
减少</em
浏览 0
提问于2016-10-11
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
python yield在函数中起返回值中的使用
使用 Python 在 JMeter 中实现循环获取返回值的高效性能测试
在VBA中如何使用动态数组,以及利用动态数组去除重复值的方法
Python Spark安装及配置步骤
一文读懂PySpark数据框
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券