将具有关键字的RDD简化为(String，String)

、、

我想使用一个((String，String)，BigDecimal) RDD作为一个PairRDD，这样我就可以使用reduceByKey函数了。Spark不会将RDD识别为PairRDD。有没有办法用RDD实现reduce功能？scala> jrdd2 jrdd2: org.apache.spark.rdd.RDD[((String, String), java.math.BigDecimal)] = MapPartition

浏览 9提问于2019-05-15得票数 0

6回答

将RDD初始化为空

、、

我有一个RDD，叫做现在我需要将这个existingRDD初始化为空，这样当我得到实际的rdd时，我就可以与这个除了初始化为null之外，如何将existingRDD初始化为空RDD？下面是我的代码： JavaPairRDD<String, List<

浏览 3提问于2015-11-02得票数 19

1回答

如何将(String，Array[String])的RDD拆分为数组中每个项的RDD (String，String)？

、、

我有一个PairRDD格式的RDD[(String, Array[String])]。我希望将值扁平化，这样我就有了一个RDD[(String, String)]，其中第一个RDD的ArrayString中的每个元素都成为第二个RDD中的一个专用元素。例如，我的第一个RDD具有以下元素： ("a&qu

浏览 4提问于2015-09-03得票数 0

回答已采纳

2回答

在scala中合并rdds的最佳实践是什么

、

我得到了多个RDDs作为结果，并想合并它们，它们的格式是相同的： ^ ^HashMap[String, HashMap]的第一个关键字String是统计量的类别，HashMap[String, HashMap]中的HashMap[String</em

浏览 1提问于2016-04-14得票数 0

1回答

基于不同案例类创建数据集

、、、

嗨，我有一个RDD，基本上是在读取一个CSV文件后生成的。我定义了一种方法，它根据输入参数将rdd的行映射到不同的case类。 case class Australiafile1(sectionName: String, profitCentre: String, valueAgainst: String<

浏览 0提问于2018-01-19得票数 0

1回答

如何在转换Scala -> RDD时保留类型？

、

我正在尝试将数据转换为RDD。我的DataFrame有键入的列，如下所示：root |-- num_hits: integer(nullable = true) |-- user_id: string (nullable = true)当我使用df.rdd将其转换为rd

浏览 2提问于2017-04-26得票数 2

回答已采纳

1回答

从scala中的两个RDD中获取公共字符串的计数

、、、

我有两个RDD，即RDD[String]和RDD[String,String]，它们的内容如下。RDD[String] RDD[String,String]smartphone相交，并需要获取公共关键字的数量。我的

浏览 1提问于2015-11-24得票数 0

2回答

如何用星火查找文本表中的关键字？

、、

我是星火的新手。我在HDFS中有两个表。一个表(表1)是一个标签表，由一些文本组成，可以是一些单词或句子。另一个表(表2)有一个文本列。在表1中，每行可能有多个关键字。我的任务是为表2中的文本列查找表1中所有匹配的关键字，并输出表2中每一行的关键字列表。问题是，我必须迭代表2和表1中的每一行。如果我为表1生成一个大列表，并为表2使用一个map函数。def ourMap(line: String, myTag: Li

浏览 4提问于2016-06-01得票数 2

回答已采纳

1回答

从具有返回类型的函数返回后的ReduceByKey

、、、、

， .map(row => createKeyValuePair(//(first key) }} 问题1.如何在返回类型为Either的函数调用返回的RDD上使用redu

浏览 0提问于2018-02-24得票数 0

1回答

火花- Rdd字符串清理/操作

、、、、

我有一个用过滤器创建的spark.rdd.RDD[String] MapPartition。val myMapPartition = myTextFile.filter(_.split("\t")(2) == "\"red\"") 此筛选器将我的textFile行拆分为制表符分隔符，并检查结果数组的第二个元素是否等于myMapPartition.collect()返回类型为String的Arr

浏览 6提问于2016-03-02得票数 0

回答已采纳

3回答

将RDD[String]类型的文本拆分为RDD[String]类型的单词(Scala、Apache Spark)

、、、、

我正在使用Apache Spark和Scala，并且有一个文本行的文本RDDString。我想将它拆分成单词(就像在每个空格中拆分它一样)，并得到由单独单词组成的另一个RDDString。我尝试在每个空格处拆分文本，但不知道如何将ArrayString转换为RDDString。('_'))val words = lines.flatMap(line => line.split('_')).collect()作为一种不同的方

浏览 3提问于2017-05-12得票数 0

1回答

导入后，值reduceByKey不是org.apache.spark.rdd.RDD[(Int，Int)]的成员

、

我创建了这个RDD： scala> val data=sc.textFile("sparkdata.txt") 然后，我尝试返回文件的内容： scala> data.collect 我使用以下命令将现有数据划分为单独的单词count().show(10) 我得到以下错误： <console>:38: error: value groupByKey is not a member of org.apache.spark.rdd.RDD[S

浏览 59提问于2021-04-12得票数 0

回答已采纳

1回答

使用Apache和mllib生成关键字

、、、、

我写了这样的代码：如何从每个articlesList项目的“速率”RDD中获得前5个关键字？ADD:case class ArticleInfo (val url: String, val author: String</

浏览 1提问于2015-01-04得票数 2

回答已采纳

1回答

我们如何得到在graphX图中具有最大权重的整个边？

、、

我想知道如何在graphx图中获得具有最大权重(Attr)的整个边？

浏览 0提问于2016-06-28得票数 0

1回答

卡夫卡·阿夫罗与星火搜索

、、

希望使用Avro作业(以及具有许多定义模式的SchemaRegistry )将来自Kafka主题的Spark消息放入Elasticsearch中。我成功地将记录读取并反序列化为String (json)格式(使用这两个方法)： def avroToJsonString(record这就是我从Kafka读取avro记录的方式 val kafkaStream : In

浏览 3提问于2019-11-20得票数 0

回答已采纳

1回答

将RDD[(Array[String]，Long)]中的内容添加到新的RDD中: RDD[ array [(Array[String]，Long)]]

、、

我有一个RDD[Array[String]]，我zipWithIndex：现在我有了一个RDD[(Array[String], Long)]，我想将RDD中的所有对添加到一个数组中，并且仍然将它放在RDD中。是否有一种有效的办法？我的最后一个数据结构应该是RDD[Array[(Array[String], Long)]

浏览 2提问于2017-12-08得票数 1

回答已采纳

2回答

检查RDD是否包含相同的键，如果包含，则合并它们

、

我有一个RDD[(String，MapString，Int)]， [("A",Map("acs"->2,"sdv"->2,"sfd"->1),("B",Map("ass"->2,"fvv"->2,"ffd"->1)),("A"),Map("acs"->2,"sdv"->2,"sf

浏览 25提问于2018-08-17得票数 0

回答已采纳

2回答

使用reduceByKey时比较日期

、、

我们可以通过reduceByKey(x: String , y: String)使用reduceByKey吗？episodes.avro" val df = sqlContext.read.avro(inPath) val doc = df.select("doctor").rdd.map(r => r(0) val docsss =

浏览 3提问于2016-05-04得票数 1

4回答

RDD和Pair RDD的区别和用例

我刚开始接触spark，并试图理解普通RDD和配对RDD之间的区别。使用成对RDD而不是普通RDD的用例有哪些？如果可能，我想通过一个例子来了解pair RDD的内部结构。谢谢

浏览 1提问于2016-05-06得票数 15

1回答

在动态模式情况下将数据存储到Parquet文件中

、、

我有一个JavaPairRDD，输入如下：它表示以下对象您可能已经猜到，这样做的想法是将每个对象保存为一个名为Table_name的新Parquet表。我面临的挑战是，表的列(模式)是在运行时动态收集的，而且

浏览 3提问于2015-08-12得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将RDD初始化为空

如何将(String，Array[String])的RDD拆分为数组中每个项的RDD (String，String)？

在scala中合并rdds的最佳实践是什么

基于不同案例类创建数据集

如何在转换Scala -> RDD时保留类型？

从scala中的两个RDD中获取公共字符串的计数

如何用星火查找文本表中的关键字？

从具有返回类型的函数返回后的ReduceByKey

火花- Rdd字符串清理/操作

将RDD[String]类型的文本拆分为RDD[String]类型的单词(Scala、Apache Spark)

导入后，值reduceByKey不是org.apache.spark.rdd.RDD[(Int，Int)]的成员

使用Apache和mllib生成关键字

我们如何得到在graphX图中具有最大权重的整个边？

卡夫卡·阿夫罗与星火搜索

将RDD[(Array[String]，Long)]中的内容添加到新的RDD中: RDD[ array [(Array[String]，Long)]]

检查RDD是否包含相同的键，如果包含，则合并它们

使用reduceByKey时比较日期

RDD和Pair RDD的区别和用例

在动态模式情况下将数据存储到Parquet文件中

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐