腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在
Pypsark
中
如
何在
RDD
中
获取
不同
的
值
apache-spark
、
pyspark
、
rdd
在下面的
RDD
中
,我希望获得
不同
的
值
rdd
= sc.parallelize([('id1',['12','12','87']),('id2',['15','17']), ('id3', [
浏览 22
提问于2019-08-29
得票数 0
回答已采纳
1
回答
在
Scala/Spark
中
获取
RDD
的
类型
scala
、
apache-spark
、
rdd
我不确定在这里使用type是否是合适
的
词,但是假设我有一个如下类型
的
RDD
现在,如果我有
RDD
,我如
何在
运行时找到它
的
类型(如上所述我基本上是想在运行时比较两个RDDs,看看它们是否存储相同类型
的
数据(它本身
的
值
可能是
不同
的
),有没有其他方法可以做到这一点?此外,我希望使用以下代码获得一个缓存
的</em
浏览 4
提问于2017-05-09
得票数 3
2
回答
如何更新
RDD
?
apache-spark
、
rdd
、
spark-streaming
到目前为止,我已经能够想到以下方法:对于每个更改请求,我
的
服务器将
获取
特定于作用域
的
RDD
,并在作业中生成作业,
在
该
RDD
- 上应用映射阶段2.b.现在,我
在
步骤2.a
中
对这个新
的</
浏览 45
提问于2014-12-16
得票数 20
1
回答
Spark:将HBase行键
的
RDD
映射到
值
的
RDD
apache-spark
、
hbase
我有一个包含HBase行键
的
RDD
。
RDD
相对较大,无法容纳在内存
中
。我需要为每个提供
的
键
获取
一个
值
的
RDD
。有没有办法做到这一点:因此,问题是如
何在
map任务
中
获取
HTable
的
实例?我应该为每个分区实例化一个HConnection,然后从其中
获取
HTab
浏览 0
提问于2016-01-21
得票数 0
1
回答
将Spark
RDD
中
的
元素相乘
scala
、
apache-spark
、
iterator
、
apache-spark-sql
、
query-optimization
在运行Apache Spark作业时,我遇到
的
问题之一是将
RDD
中
的
每个元素彼此相乘。简单地说,我想做一些类似的事情,目前,我正在为每个'foreach‘使用2个迭代器。我
的
直觉是,这可以以一种更有效
的
方式完成。
浏览 0
提问于2017-09-06
得票数 0
1
回答
基于滤波器
RDD
- PySpark
的
Map输出
pyspark
我一直试图根据过滤器
RDD
值
获得两个
不同
的
输出。我有一个
值
为text2
的
RDD
,
如
text2.flatMap.filter(lambda y:'key' in y).map(lambda x: ('key',0) if len(x)==0 else
浏览 0
提问于2018-07-10
得票数 0
回答已采纳
2
回答
是什么算法火花将相同
的
密钥组合在一起?
apache-spark
假设包括,还有其他情况,但总体情况是这样
的
。 星火如何有效地做到这一点?
在
识别类似的密钥时,Stage1和Stage2之间会有什么时
浏览 8
提问于2021-03-28
得票数 1
回答已采纳
1
回答
由星火聚合
的
Cassandra数据
java
、
cassandra
、
apache-spark
、
cassandra-2.0
我想使用服务器端数据选择和过滤使用cassandra火花连接器.事实上,我们有许多传感器每1s发送一次
值
,我们对这些数据聚合使用月份、天、小时等方法感兴趣,我提出了以下数据模型:然后,我们有兴趣得到一个2014-12月
的
数据聚合-与负载均衡器
在
(0,1,2,3)。所以它们是4
不同
的
分区。 我们使用
的
是
浏览 2
提问于2015-03-17
得票数 5
2
回答
scala
中
基于键
的
两对RDDs
的
比较
scala
、
apache-spark
、
rdd
有没有一种方法来比较基于键
的
2对RDDs
的
值
。例如:
RDD
2:
RDD
[(Int, String)] = {(5, "AAA"), (2, "XYZ"), (3, "LMN")} 我
的
任务是
获取</
浏览 6
提问于2017-10-06
得票数 1
2
回答
如何将2个RDDs
的
列从单个
RDD
中
添加到其中,然后根据PySpark
中
的
日期数据进行行聚合
python
、
apache-spark
、
aggregate
、
pyspark
、
rdd
我
在
PySpark中有两个PySpark:[(u'2013-01-31 00:00:00', u'a', u'Pab', u'abc', u'd'),(u'2013-01-31 00:00
RDD
2:两个RDDs都有相同
的
数字或行。现在,我要做<
浏览 7
提问于2015-12-07
得票数 5
1
回答
如何使用scala+spark比较两个rdds。两个rdds中都没有密钥吗?
scala
、
apache-spark
、
user-defined-functions
、
rdd
、
scala-collections
我想比较两个RDDs
中
的
数据。如何迭代和比较一个
RDD
中
的
字段数据与另一个
RDD
中
的
字段数据。具有前2条记录
的
两个文件相同,但顺序
不同
。现在我只想比较rdds和print
的
不同
记录,即, 3 Loyleeie 45678 12:40 London 9001 abc 我不想在两个
rdd
中
获取
前2条记录,因为它们都
浏览 2
提问于2016-11-17
得票数 0
1
回答
根据
值
将一个
RDD
拆分为多个
RDD
,而不执行“()”和“`filter()”
apache-spark
、
pyspark
、
rdd
、
amazon-emr
我希望根据行
中
的
值
将一个
RDD
分割成多个
RDD
。行
中
的
值
是预先知道
的
,
在
性质上是固定
的
.a_
rdd
, b_
rdd
= source_
rdd
.keyBy(lambda row: row[0]).groupByKey().collect() 当前
的
实现是应用多个筛选器操作来
获取
每个
RDD
。
浏览 0
提问于2018-11-26
得票数 1
1
回答
Spark:
不同
密钥类型
的
RDDs
中
的
密钥交集
apache-spark
、
dataframe
、
set
、
dataset
、
rdd
考虑以下情况,您有两个键-
值
对
的
RDD
,其中两个
RDD
中
的
每个键都属于
不同
的
类型。
RDD
2(String,String)如下所示:("B", 434),("D", 3454),注意:
RDD
2
中
的
键来自
浏览 3
提问于2017-01-14
得票数 0
1
回答
星火嵌套
RDD
操作
python
、
pyspark
、
apache-spark-sql
、
rdd
这里
的
对立面可能会有所
不同
。大小可以与
rdd
1相同或
不同
。这样做
的
目的是使用过滤
rdd
1将记录从
rdd
2
的
值
提取到
rdd
2
中
(从
rdd
1
获取
的
记录可以
在
获取
时重复,就像在输出中看到
的
那样) 过滤标准
rdd
1.created 1.创建<= ts <
rdd</
浏览 1
提问于2015-10-21
得票数 4
回答已采纳
1
回答
星火内部地图功能
scala
、
apache-spark
我有两个RDDs:样本数据:("b" , 2.0)("d" , 4.0)样本数据:("b" , ("a" , "b")) ("c&qu
浏览 1
提问于2014-06-23
得票数 2
回答已采纳
1
回答
星火斯卡拉两个HashMap (HashMap<Integer,HashSet<Integer>>) RDDs
的
交集
scala
、
apache-spark
、
hashmap
、
intersection
、
hashset
我
在
Scala工作,
在
一台独立
的
机器(有Windows 10
的
PC机)上进行星火编程。我是个新手,没有用scala编程
的
经验。所以我会非常感谢你
的
帮助。问题:val
rdd
1 =
浏览 0
提问于2017-11-12
得票数 0
1
回答
的
Scalaz类型类
scala
、
apache-spark
、
functional-programming
、
rdd
、
scalaz
目标是实现
不同
类型
的
类(
如
半群、Monad、函子等)。由Scalaz为Spark
的
RDD
(分布式集合)提供。不幸
的
是,我无法创建任何接受更高类型类型(
如
Monad、函子等)
的
类型类。可以找到RDDs
的
完整代码。下面是一个很好
的
例子:import org.apache.spark.
rdd
.
RDD
implicit def se
浏览 3
提问于2016-04-17
得票数 7
回答已采纳
1
回答
spark-scala
中
的
rdd
.contains函数是否昂贵
scala
、
apache-kafka
、
spark-streaming
、
contains
我收到了来自Kafka stream
的
数百万条消息。有15种
不同
类型
的
消息。消息来自单个主题。我只能根据消息
的
内容来区分消息。因此,我使用
rdd
.contains方法来
获取
不同
类型
的
rdd
。
rdd
.isEmpty()) { ele => ele.contains("First")
浏览 3
提问于2017-09-27
得票数 0
1
回答
如何使用Map/Reduce或任何其他方法查找
rdd
的
每列
的
最小和最大
值
pyspark
、
rdd
我已经
在
一个
RDD
中
读取了近100个CSV文件我想要找到
RDD
.Nearly 100列
中
每一列
的
最小
值
和最大
值
。有人可以建议我如何找到
不同
列
的<
浏览 6
提问于2019-05-02
得票数 0
1
回答
用null以外
的
东西表示缺少JSON字段
json
、
null
、
spark-dataframe
、
missing-data
我正在使用
的
输出来捕获发生在MySQL数据库上
的
更改。它将更改表示为嵌套
的
JSON字段:“data”包含表
的
最新快照,“old”表示更改
的
字段。--这是一种不幸
的
情况,因为我无法判断该字段是从'null‘改为’some‘,还是其他字段更改了该行,'null’表示JSON.JSON
中
缺少
的
字段。,但我只找到了一些文章,这些文章用表示缺失字段
的
“null”
值
来解释这种情况,以及用其他
值</em
浏览 0
提问于2017-11-23
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark常用算子实践总结
Spark应用数据分片介绍
Spark实战(5)_Spark Core核心编程
好程序员大数据教程分享TextFile分区问题
每天读一本:Spark快速大数据分析
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券