基于在另一个RDD中排序的Order Spark RDD_在Spark中对RDD排序_在Spark中划分正常的RDD - 腾讯云开发者社区

、

我有一个包含如下字符串的RDD (以特定方式排序)： ["A","B","C","D"] 另一个RDD的列表如下： ["C","B","F","K"],["X","T",&

浏览 29提问于2021-11-23得票数 2

回答已采纳

1回答

使用mapreduce实现列表中连续元素的差异

、、

我有一个数字列表，想要计算该列表中连续数字的差。我正在研究Apache Spark的RDDs。示例：我想知道在不复制输入RDD的情况下，使用mapreduce

浏览 2提问于2015-11-19得票数 0

2回答

火花分选

、、、

我要整理一下RDD。排序需要在我的记录的多个字段上，因此我需要一个自定义比较器。为什么sortBy不接受自定义比较器和排序？为什么我必须重新划分才能使用自定义比较器？

浏览 3提问于2017-10-09得票数 1

2回答

Spark:如何组合两个已排序的RDDs，以便在联合后保持顺序？

、、

我有两个已排序的RDDs：val rdd_b = another_pair_rdd.sortByKey().map(f => f._1)在all_rdd中，我看到顺序并不一定像我想象的</

浏览 5提问于2015-11-26得票数 3

3回答

我想在我的Java Spark应用程序中使用RangePartitioner，但是我不知道如何设置两个scala参数scala.math.Ordering<K> evidence$1和scala.reflect.ClassTag下面是的链接(这对我没有帮助，因为我是新手)：JavaPairRDD<Integer, String> partitionedRDD = rdd.partitionBy(newRangePartitioner<Integer

浏览 17提问于2015-06-09得票数 8

2回答

反向迭代RDD

、、、

我在以下纯Scala上有代码：import spire.random.Distval cdf=new NormalDistribution(0, 1)z排序是因为cdf在增加我想为Spark重写它，但是对于<e

浏览 0提问于2017-11-06得票数 0

回答已采纳

2回答

如何为Scala中的函数分配不同的返回类型？

、、、

我试图编写一个函数，它应该根据输入返回不同的对。我已经重写了Scala中的"+ -/ *“以供我的特定用途。每个实现( +，-，*，/)都有三个基于输入的实现。在的帮助下，我试图对其进行修改，使其能够根据我的输入表达式执行计算。版本： def lastop:(Either[R

浏览 3提问于2015-07-02得票数 0

回答已采纳

1回答

为什么Apache的文档中存在"ML“与"MLLIB”的区别？

https://spark.apache.org/docs/2.2.0/mllib-feature-extraction.html#word2vec https://spark.apache.org/docs/2.2.0/ml-features.html#word2vec这里

浏览 0提问于2018-12-12得票数 6

回答已采纳

1回答

apache spark中的Sortbykey

、

我正在与阿帕奇火花的一个项目。我很清楚spark中的转换和动作，但是突然间我把spark中的sortByKey()函数搞混了。这是如何工作的，它是考虑所有分区(即所有RDD)进行排序，还是在单个RDD中对数据进行排序？我的要求是对数据进行全局排序，就像我们在任何编程语言中进行排序一样(java

浏览 0提问于2016-07-29得票数 1

1回答

什么是“警告ParallelCollectionRDD:星星之火不支持嵌套的RDD(参见Smark-5063)”？

、、

我有以下语法val s = Seq(data)我得到的结果如下： par: org.apache.spark.rdd.RDD[org.apache.spark.

浏览 4提问于2016-12-27得票数 1

回答已采纳

1回答

Apache中top()没有与JavaPairRDD一起工作

、

我已经扩展了现有的WordCount示例，并在Apache的官方站点上解释了这个例子。延期如下：从排序列表中拿出前三名。排序做得很好，但是top()不在JavaPairRDD上工作。让我粘贴我的代码。，并给出了正确的结果，这

浏览 3提问于2015-06-23得票数 0

3回答

如何在Spark* (Python)中对Row对象的字段进行排序*

、、、、

我正在Spark中创建Row对象。我不希望我的字段按字母顺序排序。但是，如果我这样做，它们是按字母顺序排序的。row = Row(foo=1, bar=2)Row(bar=2, foo=1) 然后，当我在这个对象上创建一个dataframe时，列的顺序将是bar优先，foo第二，而我更喜欢的是相反的顺序。我知道我可以使用"_1“和"_2”(分别表示"f

浏览 1提问于2016-02-11得票数 14

回答已采纳

2回答

如何克隆RDD对象[Pyspark]

、、、

1)如何将一个RDD对象克隆到另一个？3)我知道我需要将巨大的数据转换为RDDs，但我是否也需要将单个int值转换为RDDs？如果我只声明一个int变量，它会跨节点分布吗？

浏览 2提问于2017-06-28得票数 0

1回答

火花流，foreachRDD错误:比较方法违反了它的一般契约

、、

该应用程序部署在一个使用Spark1.4.0的Amazon集群上，我正在S3中对数据进行排序并保存文件。管道的代码(排序算法除外)详细说明如下： public KinesisPreProcessPipeline(JavaStreamingContext jssc, final KinesisPreProcessModuleConfiguration15/07/17 13:17:36错误executor.Executor:任务0.1中

浏览 2提问于2015-07-17得票数 1

回答已采纳

3回答

如何对RDD.takeOrdered()进行反向排序？

、

在Spark中颠倒RDD的takeOrdered()方法的顺序的语法是什么？对于奖励积分，Spark中RDD的自定义排序的语法是什么？

浏览 1提问于2014-10-16得票数 14

回答已采纳

2回答

为什么shell无法加载带有RDD导入的类的文件？

、

我在Scala2.11.8中使用Spark2.1.1。这是我正在处理的代码 

浏览 2提问于2017-06-09得票数 3

回答已采纳

1回答

如何从火花放电执行者那里获得正确的数据

、

以下是代码：oRdd.foreach(printFunc) 在此操作之后，数据集的排序几乎是正确的。我希望在最后的数据集排序的整体。以上我得到排序的数据集，但每个执行者。

浏览 2提问于2020-04-13得票数 0

回答已采纳

2回答

将Scala方法转换为火花

、

下面的Scala方法返回Array的k个近邻： def getNearestNeighbours(distances: Array[((String, String), Double)], k: Int我可以尝试将Array转换为RDD，但是RDD类型不支持函数.sortBy(_._2).take(k)，有方法在Spark/Scala中模拟这种方法吗？一种可能的解决方案是修改该方法，以便每次调用该方法时将RDD转换为Array，但我认为对

浏览 2提问于2014-05-21得票数 0

回答已采纳

1回答

使用SQL在DStream.transform()的星火流？

、、、

在foreachRDD()中，有一些使用Spark的示例。AVG(lineno) AS line_a FROM logstash WHERE path = '/var/log/system.log' AND lineno > 70 GROUP BY host ORDER=> org.apache.spark.rdd.RDD_ >：LogStash.AlertMsg具有字符串<：j

浏览 3提问于2015-02-15得票数 1

1回答

spark与mllib的多项式Logistic回归

、

SparkVersion2.0.0的既定目标是在ml和现在不再推荐的mllib包之间实现功能均等。使用mllib的缺点：是否有一种方法可以用ml包

浏览 1提问于2016-05-28得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云