腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
对
rdd
进行
分组
所
依据
的
恢复
元素
apache-spark
、
pyspark
、
rdd
我有一个这样
的
代码: given_list[i][2] , given_list[i][3], **user_id**))其中
rdd
1现在,在process_full函数中,我正在使用
rdd
1中
的
浏览 0
提问于2018-08-16
得票数 1
回答已采纳
1
回答
如何设计这种火花连接
join
、
apache-spark
、
rdd
我需要加入两个大
的
RDDs,并且有可能两次加入。任何帮助,以设计这些连接。问题是, 第一个
RDD
是productIdA, productIdB, similarity,大小约为100 G。第二个
RDD
为customerId, productId, boughtPrice,大小约为35G。因为我不能广播任何一个
RDD
,因为它们都很大,所以我
的
设计是通过product id聚合第二个
RDD
,然后加入第一个
RDD
twice,但是我得到了巨大
的
洗牌溢出和
浏览 1
提问于2016-02-23
得票数 0
回答已采纳
1
回答
为了
对
元素
进行
分组
,可以在Spark中实现CombineByKey()而不是GroupByKey()吗?
apache-spark
我正在尝试
对
我创建
的
RDD
的
元素
进行
分组
。一种简单但昂贵
的
方法是使用GroupByKey()。但最近我了解到CombineByKey()可以更有效地完成这项工作。我
的
RDD
非常简单。它看起来是这样
的
: (1,5)(1,40)(2,20) (2,6) val grouped_elements=first_
RDD
.groupByKey()..mapValue
浏览 4
提问于2020-03-26
得票数 1
回答已采纳
1
回答
火花卡桑德拉连接器keyBy和洗牌
cassandra
、
apache-spark
、
grouping
、
shuffle
、
connector
此定义将以下列格式生成CassandraRow
RDD
元素
: CassandraRow<key=profile1, column1=age, value=34>PairRdd<String,
浏览 4
提问于2015-03-11
得票数 5
回答已采纳
1
回答
星火partition.toList失败
scala
、
apache-spark
我想要
的
是
对
一个分区中
的
多个
元素
进行
分组
,然后
对
每个分区中
的
分组
元素
执行一些操作。但是我发现从分区到列表
的
转换失败了。见下面的示例:val
rdd
= sc.parallelize(Seq("a","b","c","d&qu
浏览 3
提问于2017-06-14
得票数 0
回答已采纳
1
回答
Django按关系数据
分组
python
、
django
、
django-models
、
group-by
在Django{}{} 但是,是否可以使用相关对象
的
数据
进行
分组
?也就是说,在上面的关系中,我可以按B
的
名字
对
A
进行
分组
吗?
浏览 0
提问于2010-02-10
得票数 0
回答已采纳
1
回答
django重组奇怪
的
行为
django
、
django-templates
由于某种原因,我无法在本地复制此问题,但在我
的
生产服务器上,在我
的
一个模板中,regroup标记做了一些奇怪
的
事情。我正在尝试
对
所有具有相同pickup_id
的
捐赠
进行
分组
,并只显示其中有多少是“错过”
的
。由于某种原因,它在我
的
列表中多次显示相同
的
pickup_id。pickup_date }} ({{ routes.list|length }} missed - {{ routes.list.0.pickup_id
浏览 0
提问于2012-09-17
得票数 3
回答已采纳
2
回答
可以在group by中计算列
的
合计吗?
sql
、
sql-server
、
tsql
我有一个sql查询,它生成以下表格,但我希望能够获得按类别
分组
的
标记列
的
总数: 代码如下:pis.Code as Code, pis.Name
浏览 1
提问于2013-04-26
得票数 3
回答已采纳
3
回答
不删除重复项
的
MySQL
分组
方式
php
、
mysql
我
的
表看起来像这样:|user|guess|score||abc |12345|5 ||pqr |81920|13 |每当我使用SELECT user, score FROM guesses GROUP BY score时,我都会得到这样
的
结果+----+-----+|abc |5 ||jkl |13 |我
浏览 4
提问于2013-05-06
得票数 0
回答已采纳
1
回答
Windows7RC中
的
分组
依据
、排序
依据
、堆叠
依据
标题上下文菜单发生了什么变化?
windows-7
、
windows-explorer
、
windows-shell
作为一名开发人员,我通常会根据文件类型
对
资源管理器详细信息视图
进行
分组
。这样,所有配置文件、程序集、可执行文件等都被
分组
并准备好复制,只需单击组标题选择所有相关文件即可。自RC build 7100以来,仅第一次单击
的
组会选择所有相关文件,并且每次在新组上按住Ctrl键
的
同时单击都不会产生任何效果(该组中
的
相关文件不会被选中)。有没有什么我错过
的
选项来找回行为-可以从列表视图列标题上下文菜单中选择
分组
依据
、排序<em
浏览 0
提问于2009-05-11
得票数 0
回答已采纳
1
回答
使用数组
对
RDD
进行
分组
scala
、
rdd
我有一个包含以下
元素
的
RDD
:我希望使用数组
对
其
进行
分组
,以便具有以下内容:
浏览 2
提问于2016-08-14
得票数 0
回答已采纳
1
回答
在java中按键
对
RDD
进行
分组
apache-spark
、
rdd
我试图使用groupby
对
RDD
进行
分组
。大多数文档建议不要使用groupBy,因为它是如何在内部
对
密钥
进行
分组
的
。还有其他方法来实现这个目标吗。前-JavaRDD<Entry> entries =
rdd
.groupBy(Entry::getId)
浏览 5
提问于2018-01-09
得票数 1
1
回答
在Apache Spark中,为什么
RDD
.union不保留分区程序?
apache-spark
、
partitioning
、
hadoop-partitioning
众所周知,Spark中
的
分区
对
任何“宽”操作都有巨大
的
性能影响,所以它通常是在操作中定制
的
。我正在使用以下代码
进行
实验: sc.parallelize(1 to 50).keyBy(_ % 10)val
rdd
2 = val cogrouped =
rdd
浏览 48
提问于2015-05-01
得票数 26
回答已采纳
1
回答
如何根据用户输入动态更改匿名类型
的
属性?
vb.net
如果我有以下代码:Group item By item.Name问题是:我希望基于此
分组
生成一个网格,
分组
是由用户指定
的
,因此.Property将是用户指定为
分组
属性
的
列名。我在原始代码中使
分组
依据
依赖于该用户,但我无法使.Property依赖于该用户,因此,如果用户指定按名称
对
列表
进行
分组
浏览 2
提问于2017-09-27
得票数 0
1
回答
星火嵌套
RDD
操作
python
、
pyspark
、
apache-spark-sql
、
rdd
这里
的
对立面可能会有所不同。大小可以与
rdd
1相同或不同。这样做
的
目的是使用过滤
rdd
1将记录从
rdd
2
的
值提取到
rdd
2中(从
rdd
1获取
的
记录可以在获取时重复,就像在输出中看到
的
那样) 过滤标准
rdd
1.created 1.创建<= ts <
rdd
1.created使用键
的
某些条件
对
RDD
2
进行
浏览 1
提问于2015-10-21
得票数 4
回答已采纳
1
回答
CoGroupedRDD是做什么
的
?
scala
、
apache-spark
、
rdd
有人能用简单
的
语言解释一下CoGroupedRDD是做什么
的
吗?下面的代码在两个RDDs之间
进行
连接。val schema = "some_schema"joinedRDD.take(10).foreach(println) val
RDD
3 = {sc.cassandraTable[(Int,String
浏览 11
提问于2017-03-01
得票数 3
回答已采纳
4
回答
GROUP BY排序
依据
mysql
、
group-by
、
sql-order-by
这是我
的
代码: `pages`.`id`, [...] 结果将如下所示:1 32 32 1 我需要按ID
分组
浏览 3
提问于2011-09-06
得票数 10
1
回答
在新页面上更改组
crystal-reports
我需要在水晶报表中创建一个摘要页面,在那里它用相同
的
ItemName
对
所有细节
进行
分组
,并计算总数Balls 50Food10Food 68Balls 125Dolls45 报告已按另一个详细信息
分组
,是否仍要更改最后一页上报告
的
分组
<em
浏览 0
提问于2015-11-05
得票数 0
1
回答
为什么RDDs不适合流任务?
apache-spark
、
rdd
我正在广泛地使用Spark,Spark
的
核心是
RDD
,正如
RDD
论文所示,在流应用程序方面也有局限性。这是
RDD
文件
的
准确引文。正如在介绍中所讨论
的
,RDDs最适合于将相同操作应用于dataset所有
元素
的
批处理应用程序。在这些情况下,RDDs可以高效地将每个转换记为谱系图中
的
一个步骤,并且可以
恢复
丢失
的
分区,而不必记录大量数据。RDDs不太适合于
对
共享状态
进行
异
浏览 2
提问于2016-03-06
得票数 2
1
回答
如何在星火中使用groupByKey (以DenseVector为密钥)
进行
RDD
?
python
、
apache-spark
、
pyspark
、
apache-spark-mllib
我创建了一个
RDD
,每个成员都是一个键值
对
,键是DenseVector,值是int。例如:现在,我想按k1:DenseVector([3,4])键
分组
。我希望这种行为是
对
键k1
的
所有值
进行
分组
,即10和20。同样
的
代码是:#
rdd
1 is an
rdd
c
浏览 2
提问于2015-07-16
得票数 3
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券