腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
Spark
对
元组
进行
分组
、
计数
和
返回
?
python
、
apache-spark
、
pyspark
1 a 2 a 3 a 1 2 2
浏览 56
提问于2021-09-17
得票数 1
1
回答
火花或闪烁中的reduce、reduceByKey、reduceGroups
apache-spark
、
apache-spark-sql
、
mapreduce
、
apache-flink
reduce:函数采用累加值
和
下一个值来查找一些聚合。 reduceByKey:也是与指定键相同的操作。 reduceGroups:对
分组
后的数据
进行
指定的操作。我不知道这些操作的内存是
如何
管理的。例如,在
使用
reduce函数时
如何
获取数据(例如加载到内存中的所有数据?)?我想知道reduce操作是
如何
管理数据的。我还想知道这些操作在数据管理方面有什么不同。
浏览 113
提问于2019-09-29
得票数 0
2
回答
在
spark
中
使用
.distinct(),结果会发生怎样的变化?
python
、
apache-spark
我
使用
每个日志行中的
元组
(day,host)创建了RDD。下一步是
对
主机
进行
分组
,然后显示结果。 我
使用
distinct()将第一个RDD映射为(day,host)
元组
。当我不
使用
distinct时,我会得到与
使用
时不同的结果。那么当在
spark
中
使用
distinct()时,结果会发生怎样的变化呢?
浏览 4
提问于2015-06-17
得票数 0
2
回答
Spark
:
如何
对
满足一定条件的RDD
进行
分组
统计?
apache-spark
、
rdd
现在我想要获得一个序列,如下所示也就是说,每天每个主题的
计数
。
如何
在
Spark
中
对
其
进行
分组
和
计数
浏览 0
提问于2015-12-24
得票数 0
1
回答
marklogic-client-api中的Agreggate函数
marklogic
、
marklogic-9
是否可以
使用
marklogic-client-api
进行
分组
查询
和
聚合结果?例如,我
对
一个实体有3个索引,并希望根据它们
对
结果
进行
分组
,并知道每个三
元组
的“
计数
”。假设可以做这样的事情,那么
使用
数据数据移动api也可以做同样的事情吗?我知道有cts:element-value-co-occurrences,但我不认为我可以在marklogic-client-api中
使用
它。
浏览 0
提问于2018-05-29
得票数 0
2
回答
实时流数据的聚合
apache-spark
、
bigdata
、
apache-storm
有人能解释一下
如何
使用
风暴、火花等大数据技术
对
实时流数据
进行
聚合吗?计算蒸汽数据是没有意义的,因为数据一直在流动
浏览 3
提问于2017-09-28
得票数 0
回答已采纳
3
回答
如何
使用
value
对
spark
结果的
元组
进行
降序排序
scala
、
hadoop
、
apache-spark
我是
spark
和
scala的新手。我需要对我的结果
计数
元组
进行
降序排序,就像(course,count)。在上面的方式中,它将按
计数
以升序
对
结果
进行
排序。但我需要把它按降序排列。有谁能帮帮我。
浏览 0
提问于2017-01-29
得票数 11
回答已采纳
1
回答
是否可以按ID
对
元组
进行
分组
,并且只获得满足
计数
标准的
元组
?
sql
我有一个问题,我需要得到一个值高于某一阈值的
元组
的数量。我的桌子看起来像这样(result int;现在,我想按id
对
元组
进行
分组
,并查看结果大于50的对象数量,以及具有任意值的对象数量我知道
计数
是存在的,但我似乎不知道
如何
在这种情况下
使用
它。 任何帮助都是非常感谢的!
浏览 1
提问于2021-09-22
得票数 1
回答已采纳
5
回答
对
datetime字段执行group_by月并
返回
元组
列表的Ecto查询
elixir
、
phoenix-framework
、
ecto
作为的一个附加问题:[{1, 2}, {2, 2}, {3, 2}, {4,2}]
浏览 5
提问于2017-04-24
得票数 1
回答已采纳
1
回答
Spark
数据帧中的不同记录
计数
apache-spark
、
count
、
distinct
、
record
我尝试显示
spark
数据帧中几个不同列的不同
计数
,以及
对
第一列
进行
分组
后的记录
计数
。因此,如果我有col1、col2
和
col3,我想groupBy col1,然后显示col2的不同
计数
和
col3的不同
计数
。然后,我想显示col1的相同groupBy之后的记录
计数
。
浏览 1
提问于2018-05-04
得票数 0
3
回答
按键表示
和
求和
元组
scala
、
apache-spark
、
rdd
、
reduce
2020, (name, 1))(05/05/2020, (name2, 1))(06/05/2020, (name, 1)) 我要做的是按日期
对
这些元素
进行
分组
,并将与键具有相同“名称”的
元组
相加。为了做到这一点,我目前正在
使用
一个groupByKey操作和一些额外的转换,以便按键
对
元组
进行
分组
,并计算共享相同的<
浏览 0
提问于2018-10-19
得票数 1
回答已采纳
2
回答
Python:基于传递的
元组
(所有
元组
元素)
对
字典
进行
分组
python
、
dictionary
、
group-by
、
tuples
假设我已经将字典{d}
和
元组
(t)的列表传递给一个函数,其中
元组
的长度可以是任意的(例如,我有一个组函数,它传入一个字典
和
一个
元组
,并
返回
分组
的字典):
元组
元素是字典的关键字之一。E,g.
浏览 0
提问于2021-05-03
得票数 0
2
回答
对
approxSimilarityJoin的
spark
数据帧
进行
分组
和
计数
scala
、
apache-spark
、
spark-dataframe
、
sentence-similarity
distCol** B|C|0.125 D|E|0.125 X|Y|0.19 A|N|0.14 我们希望将输出
分组
并计算相似项
浏览 2
提问于2018-03-12
得票数 0
1
回答
按第一个元素将
元组
列表
分组
list
、
haskell
、
tuples
、
grouping
假设我有一个由[("ab", 1), ("ab", 2), ("ac", 3)]组成的
元组
列表[ [("ab", 2)],]
如何
对
元组
进行
分组
,忽略其中一个索引,以便根据其中一个元素
对
它们
浏览 2
提问于2015-09-28
得票数 8
回答已采纳
3
回答
如何
在clickhouse中将不同的值
分组
为(值,
计数
)数组?
clickhouse
例如,我有一张A桌 id Int64, discrete2 String
和
一些数据insert into A values(1,'B','b')(2,'C','a')
如何<
浏览 3
提问于2020-03-27
得票数 2
回答已采纳
2
回答
使用
apache合并
元组
列表
scala
、
apache-spark
我想
和
RDD结合:val u2 = sc.parallelize(List("b" , (2)))) scala> u1 union u2 found : org.apache.
spark
.rdd.RDD[(String, Any)] required: org
浏览 5
提问于2014-06-23
得票数 2
回答已采纳
1
回答
拆分字符串两次并在Scala中
使用
reduceByKey
scala
、
apache-spark
我有一个.csv文件,我正在尝试
使用
spark
进行
分析。.csv文件包含主题及其
计数
的列表等。我有一个包含一些日期
和
主题字符串date,topicstring的键值
对
的rdd .m
浏览 0
提问于2019-09-20
得票数 0
3
回答
如何
减少python中的
元组
列表
python
、
python-2.7
、
mapreduce
我有一个数组,我想
计数
数组中每一项的出现情况。//(11817685, 1), (2014036792, 1), (2014047115, 1), (11817685, 1) 我期望减值函数可以帮助我按照每个
元组
中的第一个数字(id)
对
计数
进行
分组
。注意到感谢关于解决这些问题的其他方法的所有建议,但是我只是在学习
和</
浏览 10
提问于2017-12-13
得票数 3
1
回答
使用
Spark
组
对
PairRDD
进行
高效的DataFrame操作
scala
、
apache-spark
、
apache-spark-sql
、
rdd
当涉及到聚合操作时,这个问题是关于DataFrame
和
RDD之间的二元性的。在
Spark
中,可以
使用
表生成UDF
进行
自定义聚合,但创建其中一个比
使用
RDDs可用的聚合函数
对
用户的友好性要低得多,特别是在不需要表输出的情况下。是否有一种有效的方法可以将对RDD操作(如aggregateByKey )应用于已
使用
组
分组
或
使用
ordered
进行
排序的DataFrame?通常,需要一个显式的map步骤来创建键值
元组<
浏览 3
提问于2015-08-03
得票数 4
回答已采纳
1
回答
通过两个重复的元素
对
元组
的嵌套列表
进行
分组
python
、
list
、
grouping
1237.19, -697.34), (1237.0, -697.69)],
如何
通过下面列表中的两个重复的
元组
对
它们
进行
分组
697.34), (1237.0, -697.69)],也就是说,这就像是
对
具有公共边的三角形
进行</e
浏览 5
提问于2019-11-17
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从Storm到Flink:大数据处理的开源系统及编程模型
使用迭代器工具 itertools 来提高工作效率
大数据运营技术与工具:分布式实时流式计算框架
常用的Python接口,C语言也挡不住Python的强大
使用SQL理解Django中的Group By
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券