腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
3
回答
如何
合并
RDD
数组
、
、
我有一个
RDD
数组
:Array[
RDD
[(String, Double)]],如何将这些
RDD
合并
到
RDD
[String, Array[Double]]
中
。例如:
RDD
: [('x', [1, 3,...
浏览 5
提问于2017-08-04
得票数 1
回答已采纳
1
回答
如
何在
RDD
中
合并
数组
、
、
、
、
我有以下
RDD
[Array(String,String,String)]我想要
合并</
浏览 5
提问于2016-08-18
得票数 1
回答已采纳
1
回答
Scala
中
的
数组
[(String,Set[String])]转换
、
、
我有一个
数组
类型[
RDD
[(String,SetString)]的
RDD
,其中每个
RDD
都是键和值的元组。键是字符串,值是SetString,我想用相同的键
合并
/
合并
集合。
RDD
["A",Set("1","2")]
RDD
["B",Set(
浏览 1
提问于2016-03-14
得票数 0
回答已采纳
1
回答
星星之火中的“不平坦”
、
、
我有一个N号的
RDD
[LabeledPoint]。val batchedRDD =
rdd
.mapPartitions { iter: Iterator[Int] => def next(): Array[Int] = { iter
浏览 0
提问于2016-02-25
得票数 1
回答已采纳
1
回答
在自定义条件下
合并
星火
RDD
中
的元素
、
如
何在
自定义条件下
合并
星火
RDD
中
的元素? 假设有一个
RDD
[SeqInt],其中一些SeqInt包含重叠元素。任务是将此区域中所有重叠的SeqInt
合并
,并将结果存储到一个新的
RDD
中
。例如,假设
RDD
[SeqInt] = [ 1,2,3,2,4,5,1,2,2,7,8,9],则结果应该是[1,2,3,4,5,7,8,9]。因为
RDD
[SeqInt]非常大,所以我不能在驱动程序
中
完成它。是否有可能
浏览 3
提问于2014-12-01
得票数 2
1
回答
在pySpark
中
删除重复项的最佳方法
、
、
我正在尝试通过对几个列使用dropDuplicates()来删除spark数据帧
中
的重复项。但是由于大量的混洗和数据倾斜,作业被挂起了。为此,我使用了5个内核和30 do的内存。考虑到数据倾斜和混洗,请给我建议在spark
中
删除重复项的最优方法。
浏览 0
提问于2018-09-25
得票数 0
1
回答
当数据太大时如何连接星火中的组件
、
、
、
当处理大数据的组件连接时,我发现很难在火花中
合并
它们。
RDD
[Array(1,2,3), Array(1,4), Array(5,6), Array(5,6,7,8), Array(9), Array(1)]
RDD
[Array(1,2,3,4),
浏览 1
提问于2016-11-09
得票数 0
2
回答
如
何在
星火
RDD
中
通过键连接两个散列映射
、
、
的格式各有两个
RDD
。
RDD
2-> {string1,HashMap[{long c,object}]
RDD
->{string1,HashMap[{long a,obj
浏览 3
提问于2015-03-26
得票数 1
回答已采纳
1
回答
如
何在
星火Java中使用sortby
我有两个
rdd
,想
合并
在一起,我有以下问题, List<Integer> data2 = Arrays.asList(2, 4, 6, 8); JavaRDD<Integer>
rdd
2 = sc.parallelize(data2);
浏览 3
提问于2017-11-25
得票数 2
回答已采纳
1
回答
如
何在
php
中
合并
to
数组
的数据
数组
、
、
如
何在
php?
中
合并
to
数组
的数据
数组
$a=[1,2]; $b =[3,4];$data = [[1,3]],[2,4]]; 如
何在
php
中
编写代码,
如
array_merge或php或laravel
中
的代码?
浏览 4
提问于2022-09-23
得票数 -3
回答已采纳
1
回答
在Spark
中
创建每个执行器
数组
并
合并
到
RDD
中
、
、
但是,我希望在每个执行者
中
并行地创建它们。因此,我想为P火花执行器独立地创建P边缘
数组
。每个
数组
可能有不同的大小,取决于顶点,因此,我还需要从0到n-1的执行器id。接下来,我希望有一个全局的
RDD
阵列的边缘。 在MPI
中
,我将使用处理器级别在每个处理器
中
创建一个
数组
。我如
何在
星火中做到这一点,特别是使用GraphX库?因此,我的主要目标是在每个执行器
中
创建一个边缘
数组
,并将它们
合并
到一个
R
浏览 3
提问于2015-12-15
得票数 3
回答已采纳
4
回答
什么是黑暗?.它与mapPartitions有何不同?
、
我在
RDD
上遇到了glom()方法。根据文件 glom是在分区间对数据进行洗牌,还是只将分区数据作为
数组
返回?我还想知道是否有任何从glom
中
受益的用例。
浏览 4
提问于2016-03-02
得票数 15
回答已采纳
1
回答
在GraphX中将多个图形
合并
在一起
、
我希望能够将它们
合并
在一起形成一个图形。Graph1和Graph2可以在Song上
合并
,Graph2和Graph3可以在Writer上
合并
,Graph1和Graph3可以在Artist上
合并
。WriterProperty(val vertexType: String, val writerName: String) extends VertexProperty val ArtistWriter:
RDD
Writer" => WriterProperty(vertexType, row(2
浏览 0
提问于2018-06-07
得票数 0
1
回答
如何查看
RDD
的每个部分
中
的数据?
、
、
我只是用一个瘫痪的列表作为我的样本
RDD
。是否有任何方法可以检查每个分区的内容,以验证我的怀疑?哦,也许还有其他更新的API可以适应这个目标吗?提前谢谢。
浏览 2
提问于2020-07-06
得票数 3
回答已采纳
1
回答
rdd
上具有累加器的循环
、
、
我想循环n次,其中n是同一
rdd
上的累加器val key = keyAcm.value.toIntval combined =
rdd
.filter(k => (k._1 == key) || (k._1 == key + 1)).reduceByKey { case (x, y) => (x ++ y) }combined.union(re
浏览 1
提问于2018-09-12
得票数 0
1
回答
在使用PySpark时,如
何在
Spark
中
实现Python数据结构?
、
、
、
然而,我仍然对如
何在
PySpark中使用常规Python对象感到困惑。 我了解Spark
中
的分布式数据结构,
如
RDD
、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作,
如
.map()、.reduceByKey()来操作这些对象。但是,如果我在PySpark
中
创建传统的Python数据对象,比如
数组
、列表、元组或字典,会怎么样呢?它们将只存储在我的驱动程序节点的内存
中
,对吗?如果我把它们转换成
RDD</e
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
1
回答
reduceByKey:它是如
何在
内部工作的?
、
、
我对reduceByKey函数在Spark
中
的工作方式感到困惑。pairs = lines.map(s => (s, 1))映射函数很清晰:s是键,它指向data.txt
中
的行
浏览 42
提问于2015-05-10
得票数 66
回答已采纳
2
回答
spark
中
的哪个函数用于按键组合两个RDDs
、
、
、
rdd
1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]
rdd
2 = [ (key1, [value5, value6]), (key2key1, [value1, value2, value5, value6]), (key2, [value3, value4, value7]) ] 我如何使用Python或Scala在spark
中
做到这一点一种方法是使用join,但是join会在元组
中
创建一个元组。但是我希望每个键值对只有一个元组。
浏览 4
提问于2014-11-13
得票数 20
回答已采纳
1
回答
如何使用Spark Map Reduce将一堆镶木地板文件
合并
在一起?
、
、
、
、
我在代表相同数据模式的不同表的目录中有大量的拼图文件,我想将它们
合并
到一个大的
RDD
中
。理想情况下,我想做一个map reduce,映射器发出小的
RDD
,reducer
合并
它们。然而,我不知道如
何在
映射器中发出
RDD
。有什么想法吗? 下面的第一行生成目录
中
的文件列表,第二行应该生成完整的
RDD
。但是,它给出了一个unable to serialize错误,因为我认为您不能在map实例
中
创建
RDD
。
浏览 1
提问于2017-09-06
得票数 1
1
回答
将Spark
RDD
中
的元素相乘
、
、
、
、
在运行Apache Spark作业时,我遇到的问题之一是将
RDD
中
的每个元素彼此相乘。简单地说,我想做一些类似的事情,目前,我正在为每个'foreach‘使用2个迭代器。
浏览 0
提问于2017-09-06
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
对象存储
活动推荐
运营活动
广告
关闭
领券