腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
:
reduceByKey
多
列
,
但
独立
、
我的数据由多个
列
组成,如下所示:我想将每个
列
的数据单独分组,并计算每个元素的出现次数,我可以通过这样做来实现:但是,如果有1000个
列
,这可能会很耗时。df.rdd.map(lambda x: mapFxn1(x)) mapFxn1获取每一行并将其转换为元组的元组:所以基本上第一行看起来像这样:(
浏览 2
提问于2018-01-28
得票数 0
回答已采纳
2
回答
获取RDD中每个键的最大值和最小值
、
、
、
、
spark = SparkSession.builder.getOrCreate()ssc = StreamingContext(sc , 10)rdd.take(1)[['0.02703300', '1.30900000'], ['0.02704600', '3.9
浏览 6
提问于2021-01-02
得票数 1
1
回答
火花词过滤计数过程中的误差
reduceByKey
(_ + _) 此代码返回“狮子”的错误计数。令人惊讶的是,只有“狮子”的计数才被归还。我分别使用Python代码检查了计数值的正确性。
浏览 0
提问于2018-02-17
得票数 0
回答已采纳
1
回答
在Spark中使用
reduceByKey
的正确方法是什么
、
、
、
、
reduceByKey
(lambda x,y: y)返回最后一个元组的第一个值,但是
reduceByKey
(lambda x,y: x)抛出异常。尝试使用
reduceByKey
(lambda x,y: x+y)通过键对值求和,
但
该语句抛出与x相同的异常。代码片段:from
pyspark
import StorageLevel from
pyspark
.sq
浏览 4
提问于2015-09-24
得票数 0
9
回答
PySpark
-对数据格式中的
列
进行求和,并以int形式返回结果
、
、
、
我有一
列
数字的电火花数据。我需要对该
列
进行求和,然后在python变量中将结果作为int返回。
浏览 22
提问于2017-12-14
得票数 56
回答已采纳
0
回答
Spark计算用户发推文的次数
、
、
我尝试了groupByKey和
reduceByKey
,
但
输出是用户id和tweet本身,而不是tweet的数量。代码:from
pyspark
.sql import SQLContext tweets = df.select("user.id
浏览 0
提问于2017-12-05
得票数 0
回答已采纳
1
回答
在没有sql函数的
PySpark
中对数据进行排序
、
、
、
是否有按降序格式化月份
列
的
pyspark
函数命令?(不使用sql命令)from
pyspark
.sql import SQLContext .map(lambda x:(x[1], 1))\ .sortByKey(True)\
浏览 1
提问于2020-06-15
得票数 0
回答已采纳
1
回答
作为
PySpark
的
reduceByKey
键的列表
、
、
、
我试图在格式为
reduceByKey
的(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ...数据上调用
pyspark
的(([a,b,c], 1), ([a,b,通过简单地应用.
reduceByKey
(add),
pyspark
似乎不会接受数组作为普通键的键,即值约简。我已经尝试过先通过.map((x,y): (str(x),y))将数组转换为字符串,
但
这不起作用,因为字符串的后处理太慢了。是否有一种方法可以使
pyspark
使用数组作为键,或者使用另
浏览 3
提问于2015-07-14
得票数 8
回答已采纳
1
回答
Cloudera spark,RDD为空
、
、
我尝试在cloudera vm上使用
pyspark
和hive创建数据帧,
但
每次都收到此错误。回溯(最近一次调用):文件"/home/cloudera/Desktop/TwitterSentimentAnalysis/SentimentAnalysis.py",行98,在.
reduceByKey
(lambda a,b: a+b) \文件"/usr/lib/spark/python/lib/
pysp
浏览 3
提问于2017-04-28
得票数 0
1
回答
Spark
独立
模式:连接异常时失败:
我正在我的虚拟机(Ubuntu 12.04)上运行一个spark(1.2.1)
独立
集群。我可以成功地运行als.py和pi.py等示例。last): .
reduceByKey
(add) File "/home/spark
浏览 0
提问于2015-03-13
得票数 0
1
回答
火花:当键是不可接受的numpy数组时,如何"
reduceByKey
“?
、
、
、
NumPy数组是不可理解的,当我尝试执行
reduceByKey
操作时,这会导致问题。import numpy as nprd =
浏览 2
提问于2016-09-21
得票数 2
回答已采纳
3
回答
火花放电字计数器
、
我有一个具有三
列
( user_id、follower_count和tweet )的
pyspark
,其中tweet是字符串类型的。counts = lines.flatMap(lambda x: x.split(' ')) \ .
reduceByKey
因此,我认为
列
不能被传递到这个工作流中;我也不知道如何在这个工作流中导航。我已经添
浏览 6
提问于2019-10-22
得票数 1
回答已采纳
2
回答
Spark:约简和
reduceByKey
语义的差异
、
、
、
为什么
reduceByKey
确保二进制函数总是按一定的顺序应用(以适应缺乏交换性),而reduce却不这样做?val r = sc.textFile("file4k", 4)r.reduce(_ + _)r.map(x => (1,x)).
reduceByKey
浏览 4
提问于2016-02-04
得票数 11
回答已采纳
4
回答
如何在
pyspark
脚本中访问SparkContext
、
、
下面的SOF问题告诉我们如何启动一个
pyspark
脚本:但是,我们如何访问现有的火花上下文呢?in repr(x[1]) and len(repr(x[1])) < 150, locals().iteritems()):('SparkContext', <class '
pyspark
.context.SparkContext
浏览 4
提问于2015-03-11
得票数 25
回答已采纳
1
回答
如何为
多
键和单值使用
reduceByKey
我有下一个问题,这是我的代码: sc = SparkContext.getOrCreate()[({'2001', 'Brussel'}, 113), ({'2002', 'Brussel'}, 12)] 我以前试过用
reduceByKey
做
浏览 3
提问于2017-12-30
得票数 0
回答已采纳
1
回答
异常(“storageLevel必须是
pyspark
.StorageLevel类型的”)
、
嗨,我试着做一个火花放电集成水槽,
但
得到的错误。这是密码from
pyspark
.streaming import StreamingContextimport sysfrom
pyspark
.sql import functions hostname= sys.argv&q
浏览 1
提问于2019-12-02
得票数 0
回答已采纳
1
回答
lambda中的import调用函数会导致导入错误。
、
、
,在我的map调用(x.t是datetime对象)中使用它: .
reduceByKey
_read_with_length(infile) File "/opt/spark-1.6.0-bin-hadoop2.6/python/lib/
pyspark
.zip/
pyspark
/serializers.py我可以通过创建一个新<e
浏览 4
提问于2016-04-07
得票数 2
回答已采纳
2
回答
Apache Spark:使用RDD.aggregateByKey()实现RDD.groupByKey()的等价物是什么?
、
、
相反,建议使用
reduceByKey
()、aggregateByKey()、combineByKey()或foldByKey()。给定以下数据集和groupByKey()表达式,什么是不利用groupByKey()
但
提供相同结果的等效且有效的实现(减少的跨工作进程数据混洗)?
浏览 0
提问于2015-06-27
得票数 11
回答已采纳
2
回答
pyspark
缓存似乎没有加速
、
、
这里我使用
pyspark
做了一个简单的字数统计,我使用了cache方法,
但
似乎没有在第二次运行代码时加速:from time importrdd.cache() rdd.flatMap(lambda r:r.split(" "))\ .
reduceByKey
print t2-t1 rdd.fla
浏览 0
提问于2017-07-23
得票数 0
3
回答
按键值分类
、
、
、
我正在尝试将一个值(键、值)与(
pyspark
)组合起来。我设法按键进行分组,但在内部,我希望对值进行分组,如下面的示例所示。 rdd2 = rdd1.map(lambda line : line.split(",")
浏览 1
提问于2019-07-05
得票数 3
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券