在Pypsark中如何在RDD中获取不同的值_从文件中的列获取不同的值以创建RDD_在RDD中查找值的总和 - 腾讯云开发者社区

apache-spark、pyspark、rdd

在下面的RDD中，我希望获得不同的值 rdd = sc.parallelize([('id1',['12','12','87']),('id2',['15','17']), ('id3', [

浏览 22提问于2019-08-29得票数 0

回答已采纳

1回答

在Scala/Spark中获取RDD的类型

scala、apache-spark、rdd

我不确定在这里使用type是否是合适的词，但是假设我有一个如下类型的RDD现在，如果我有RDD，我如何在运行时找到它的类型(如上所述我基本上是想在运行时比较两个RDDs，看看它们是否存储相同类型的数据(它本身的值可能是不同的)，有没有其他方法可以做到这一点？此外，我希望使用以下代码获得一个缓存的</em

浏览 4提问于2017-05-09得票数 3

2回答

如何更新RDD？

apache-spark、rdd、spark-streaming

到目前为止，我已经能够想到以下方法：对于每个更改请求，我的服务器将获取特定于作用域的RDD，并在作业中生成作业，在该RDD - 上应用映射阶段2.b.现在，我在步骤2.a中对这个新的</

浏览 45提问于2014-12-16得票数 20

1回答

Spark:将HBase行键的RDD映射到值的RDD

apache-spark、hbase

我有一个包含HBase行键的RDD。RDD相对较大，无法容纳在内存中。我需要为每个提供的键获取一个值的RDD。有没有办法做到这一点：因此，问题是如何在map任务中获取HTable的实例？我应该为每个分区实例化一个HConnection，然后从其中获取HTab

浏览 0提问于2016-01-21得票数 0

1回答

将Spark RDD中的元素相乘

scala、apache-spark、iterator、apache-spark-sql、query-optimization

在运行Apache Spark作业时，我遇到的问题之一是将RDD中的每个元素彼此相乘。简单地说，我想做一些类似的事情，目前，我正在为每个'foreach‘使用2个迭代器。我的直觉是，这可以以一种更有效的方式完成。

浏览 0提问于2017-09-06得票数 0

1回答

基于滤波器RDD- PySpark的Map输出

pyspark

我一直试图根据过滤器RDD值获得两个不同的输出。我有一个值为text2的RDD，如text2.flatMap.filter(lambda y:'key' in y).map(lambda x: ('key',0) if len(x)==0 else

浏览 0提问于2018-07-10得票数 0

回答已采纳

2回答

是什么算法火花将相同的密钥组合在一起？

apache-spark

假设包括，还有其他情况，但总体情况是这样的。星火如何有效地做到这一点？在识别类似的密钥时，Stage1和Stage2之间会有什么时

浏览 8提问于2021-03-28得票数 1

回答已采纳

1回答

由星火聚合的Cassandra数据

java、cassandra、apache-spark、cassandra-2.0

我想使用服务器端数据选择和过滤使用cassandra火花连接器.事实上，我们有许多传感器每1s发送一次值，我们对这些数据聚合使用月份、天、小时等方法感兴趣，我提出了以下数据模型：然后，我们有兴趣得到一个2014-12月的数据聚合-与负载均衡器在(0,1,2,3)。所以它们是4不同的分区。我们使用的是

浏览 2提问于2015-03-17得票数 5

2回答

scala中基于键的两对RDDs的比较

scala、apache-spark、rdd

有没有一种方法来比较基于键的2对RDDs的值。例如：RDD2: RDD[(Int, String)] = {(5, "AAA"), (2, "XYZ"), (3, "LMN")} 我的任务是获取</

浏览 6提问于2017-10-06得票数 1

2回答

如何将2个RDDs的列从单个RDD中添加到其中，然后根据PySpark中的日期数据进行行聚合

python、apache-spark、aggregate、pyspark、rdd

我在PySpark中有两个PySpark：[(u'2013-01-31 00:00:00', u'a', u'Pab', u'abc', u'd'),(u'2013-01-31 00:00RDD2:两个RDDs都有相同的数字或行。现在，我要做<

浏览 7提问于2015-12-07得票数 5

1回答

如何使用scala+spark比较两个rdds。两个rdds中都没有密钥吗？

scala、apache-spark、user-defined-functions、rdd、scala-collections

我想比较两个RDDs中的数据。如何迭代和比较一个RDD中的字段数据与另一个RDD中的字段数据。具有前2条记录的两个文件相同，但顺序不同。现在我只想比较rdds和print的不同记录，即， 3 Loyleeie 45678 12:40 London 9001 abc 我不想在两个rdd中获取前2条记录，因为它们都

浏览 2提问于2016-11-17得票数 0

1回答

根据值将一个RDD拆分为多个RDD，而不执行“()”和“`filter()”

apache-spark、pyspark、rdd、amazon-emr

我希望根据行中的值将一个RDD分割成多个RDD。行中的值是预先知道的，在性质上是固定的.a_rdd, b_rdd = source_rdd.keyBy(lambda row: row[0]).groupByKey().collect() 当前的实现是应用多个筛选器操作来获取每个RDD。&#

浏览 0提问于2018-11-26得票数 1

1回答

Spark:不同密钥类型的RDDs中的密钥交集

apache-spark、dataframe、set、dataset、rdd

考虑以下情况，您有两个键-值对的RDD，其中两个RDD中的每个键都属于不同的类型。RDD2(String，String)如下所示：("B", 434),("D", 3454),注意: RDD2中的键来自

浏览 3提问于2017-01-14得票数 0

1回答

星火嵌套RDD操作

python、pyspark、apache-spark-sql、rdd

这里的对立面可能会有所不同。大小可以与rdd1相同或不同。这样做的目的是使用过滤rdd1将记录从rdd2的值提取到rdd2中(从rdd1获取的记录可以在获取时重复，就像在输出中看到的那样) 过滤标准rdd1.created 1.创建<= ts <rdd</

浏览 1提问于2015-10-21得票数 4

回答已采纳

1回答

星火内部地图功能

scala、apache-spark

我有两个RDDs：样本数据：("b" , 2.0)("d" , 4.0)样本数据：("b" , ("a" , "b")) ("c&qu

浏览 1提问于2014-06-23得票数 2

回答已采纳

1回答

星火斯卡拉两个HashMap (HashMap<Integer，HashSet<Integer>>) RDDs的交集

scala、apache-spark、hashmap、intersection、hashset

我在Scala工作，在一台独立的机器(有Windows 10的PC机)上进行星火编程。我是个新手，没有用scala编程的经验。所以我会非常感谢你的帮助。问题：val rdd1 =

浏览 0提问于2017-11-12得票数 0

1回答

的Scalaz类型类

scala、apache-spark、functional-programming、rdd、scalaz

目标是实现不同类型的类(如半群、Monad、函子等)。由Scalaz为Spark的RDD (分布式集合)提供。不幸的是，我无法创建任何接受更高类型类型(如Monad、函子等)的类型类。可以找到RDDs的完整代码。下面是一个很好的例子：import org.apache.spark.rdd.RDD implicit def se

浏览 3提问于2016-04-17得票数 7

回答已采纳

1回答

spark-scala中的rdd.contains函数是否昂贵

scala、apache-kafka、spark-streaming、contains

我收到了来自Kafka stream的数百万条消息。有15种不同类型的消息。消息来自单个主题。我只能根据消息的内容来区分消息。因此，我使用rdd.contains方法来获取不同类型的rdd。rdd.isEmpty()) { ele => ele.contains("First")

浏览 3提问于2017-09-27得票数 0

1回答

如何使用Map/Reduce或任何其他方法查找rdd的每列的最小和最大值

pyspark、rdd

我已经在一个RDD中读取了近100个CSV文件我想要找到RDD.Nearly 100列中每一列的最小值和最大值。有人可以建议我如何找到不同列的<

浏览 6提问于2019-05-02得票数 0

1回答

用null以外的东西表示缺少JSON字段

json、null、spark-dataframe、missing-data

我正在使用的输出来捕获发生在MySQL数据库上的更改。它将更改表示为嵌套的JSON字段：“data”包含表的最新快照，“old”表示更改的字段。--这是一种不幸的情况，因为我无法判断该字段是从'null‘改为’some‘，还是其他字段更改了该行，'null’表示JSON.JSON中缺少的字段。，但我只找到了一些文章，这些文章用表示缺失字段的“null”值来解释这种情况，以及用其他值</em

浏览 0提问于2017-11-23得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云