在apache spark JavaPairRDD中按键排序

文章/答案/技术大牛

发布

1回答

java、sorting、apache-spark、rdd

我有一个密钥类型为Tuple2<Integer, Integer>的JavaPairRDDJavaPairRDD<Tuple2._1()) return o1._1()-o2._1();},true); 这将按元组中的第一个条目对值进行排序，如果它们是按第二个条目

浏览 14提问于2017-08-06得票数 2

回答已采纳

1回答

如何使用MapReduce函数通过Spark对Java语言进行排序

java、hadoop、apache-spark、mapreduce

嗨，我正在寻找一种在Spark中进行简单排序的方法(使用Java代码)，并使用map reduce。我对此非常陌生，所以很好地解释一下map/reduce是如何工作的将会非常有帮助。我在SO上读到了一个有点类似的问题/答案，似乎reduce步骤仍然是必要的。EDIT2:我还看到，在文本文件上使用地图的人通常(据我所见)将文本文件拆分成单独的单词(其他人通常对地图和文本文件所做的操作，以及Spark Doc/Guide站点上的示例)。我已经对行(而不是单个单词

浏览 0提问于2016-05-20得票数 0

1回答

Apache中top()没有与JavaPairRDD一起工作

java、apache-spark

我已经扩展了现有的WordCount示例，并在Apache的官方站点上解释了这个例子。延期如下：从排序列表中拿出前三名。排序做得很好，但是top()不在JavaPairRDD上工作。让我粘贴我的代码。at org.apache.spark.r

浏览 3提问于2015-06-23得票数 0

1回答

leftOuterJoin JavaPairRDD<Integer，Integer>和JavaPairRDD<Integer，Map<Integer，Integer>>

java、apache-spark

我正在尝试执行leftOuterJoin of JavaPairRDD和JavaPairRDD>，在函数中，签名返回类型是 JavaPairRDD<Integer, Tuple2<Integer, Optional

浏览 2提问于2018-05-16得票数 2

回答已采纳

1回答

从DataFrame转换为JavaPairRDD<Long，Vector>

java、apache-spark、apache-spark-mllib

我正在尝试使用apache spark和Java API来实现LDA算法。方法LDA().run()接受参数JavaPairRDD文档。.map { case Row(docId: Long, countVector: Vector) => (docId, countVector) }然后输入到LDA中：lda.run(countVectors)CountVectorizerMode

浏览 0提问于2015-10-24得票数 2

3回答

使用JavaPairRDD按值进行星火排序

sorting、apache-spark

使用apache spark使用Java。我得到了一个JavaPairRDD<String,Long>，我想按它的值对这个数据集进行排序。然而，似乎只有sortByKey方法在其中。如何根据Long类型的值对其进行排序？

浏览 0提问于2014-11-26得票数 4

回答已采纳

2回答

如何将JavaPairRDD转换为HashMap

apache-spark、rdd

我试图通过使用"JavaPairDStream“函数将" JavaPairRDD”转换为"foreachRDD“函数，然后在JavaPairRDD上使用"collectAsMap()”函数来实现同样的目的java.lang.ClassCastException: [Ljava.lang.Object; cannot be cast to [Lscala.Tuple2; at org.apache.spark.rdd.PairRDDFunctions.coll

浏览 3提问于2014-08-10得票数 10

回答已采纳

2回答

如何在Spark (用Java)中将数据序列化为AVRO模式？

java、apache-spark、hdfs、avro、spark-avro

下面是我如何尝试这样做的代码的简化版本：JavaRDD<init>(FileOutputStream.java:162) at org.apache.avro.

浏览 3提问于2016-04-11得票数 1

回答已采纳

1回答

抛出异常

apache-spark

我试着按键对JavaPairRDD进行排序。火花版本: 1.3.0模式:本地有人能看看我的代码哪里做错了吗。JavaPairRDD<String, HashMap<String, Object>> countAndSum = grupBydate:378，在线程"main“中接受0.107696的异常:由于阶段失败而中止作业:任务序列化失败: sun.reflect.NativeMethodAccessorImpl.invoke0(Native$$anon$1.

浏览 2提问于2015-04-29得票数 1

回答已采纳

1回答

星星之词计数与排序(不是排序)

java、apache-spark

我正在学习星火，并试图扩展WordCount示例，并根据其出现的次数对单词进行排序。问题出在哪里，在运行代码之后，我得到了未排序的结果：(46,word2)看来是因为某种原因而失败了。java.io.Serializable;import java.util.Comparator;import org.<

浏览 0提问于2015-04-19得票数 1

回答已采纳

1回答

在JAVA的火花流中添加max和min？

java、apache-spark、spark-streaming

我试图在每个RDD中添加max和min，在它的元组的星星之火dstream..each中。我编写了以下代码，但无法理解如何传递参数min和max。有人能建议一种方法来做这个转变吗？Pushed block input-0-1434639906000 Exception in thread "JobGenerator" java.lang.NoSuchMethodError: org.apache.spark.api.java.JavaPairRDD.

浏览 1提问于2015-06-17得票数 1

1回答

从apache读取/写入发电机db

apache-spark、amazon-dynamodb

我想知道是否有任何java库支持从apache (Mesos)读取/写到dynamo db (AWS)，我知道在本文中有一些库支持EMR。谢谢普拉迪普

浏览 0提问于2017-10-17得票数 5

1回答

由于无法序列化对象，火花作业失败

java、hadoop、apache-spark、hbase、hfile

它过去在我的Cloudera集群中正常工作，但是当我们切换到EMR集群时，它在下面的堆栈跟踪中失败了： - object not serializableorg.apache.spark.SparkContext.runJob(SparkContext.scala:1938) at org.apache.spark.SparkContext.runJobat org.apache.spark.r

浏览 3提问于2017-06-21得票数 1

回答已采纳

1回答

在Spark中读取级联序列文件

hadoop、serialization、apache-spark、cascading

我们有一些HDFS文件编写为级联序列文件，我们希望使用Apache Spark处理这些文件。我尝试使用JavaPairRDD读取键值对，如下所示： JavaPairRDD<String, String> input = ctx.sequenceFile("file-path", String.class我刚开始使用Apache Spark。我尝试在spark上下文对象中设置序列化类，但仍然收到此

浏览 2提问于2015-08-07得票数 0

5回答

星星之火: JavaRDD<Tuple2>到JavaPairRDD<>

java、mapreduce、apache-spark

我有一个JavaRDD<Tuple2<String, String>>，需要将它转换为JavaPairRDD<String, String>。目前，我只是简单地编写映射函数，然后按原样返回输入元组。

浏览 11提问于2014-11-19得票数 12

回答已采纳

1回答

在Spark中配置函数/lambda序列化

java、apache-spark、lambda、closures、kryo

还是我在星火里发现了窃听器？我们对其他地方的数据序列化没有问题，只是在这些lambda中，它使用的是默认值而不是Kryo。:112) at org.apache.spark.rdd.RDD.filter(RDD.scala:387) at org.apache.spark.api.java.JavaPairRDD</

浏览 5提问于2019-11-16得票数 4

回答已采纳

1回答

如何在spark中读取HDFS序列文件

java、hadoop、apache-spark、hdfs

我正在尝试将HDFS(在本例中为s3)中的一个文件作为RDD读入火花。该文件位于SequenceInputFileFormat中。但我无法将文件的内容解码为字符串。org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD; import

浏览 5提问于2015-09-21得票数 2

回答已采纳

2回答

Spark的Join操作的Java等价物

java、dictionary、join、apache-spark、collections

因为Apache Spark提供了一种加入的便捷方法我想知道在vanillaJava中是否也有类似的事情？

浏览 1提问于2016-09-07得票数 0

1回答

如何使用Sockets实现Spark流输出

java、apache-spark、spark-streaming

;import org.apache.spark.api.java.function.Function2;import org.apache.spark.api.java.StorageLevels; import org

浏览 0提问于2015-03-08得票数 3

1回答

Java+Spark* wordCount与电子病历*

java、apache-spark、hadoop、amazon-emr、word-count

我一直在尝试运行Pi估计& wordCount示例在Java和EMR中的中找到Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input"wordCount" --master local[4] Spark05-1.1.jar i

浏览 1提问于2020-04-08得票数 0

回答已采纳

点击加载更多