使用元组的Spark repartitionAndSortWithinPartitions_使用spark scala中的元组列表过滤数据帧_Spark Connector -使用元组列表时无法获取数据 - 腾讯云开发者社区

sorting、apache-spark、hbase、rdd

我尝试按照下面的示例对hbase行进行分区：https://www.opencore.com/blog/2016/10/efficient-bulk-load-of-hbase-using-spark} 但repartitionAndSortWithinPartitions仍然不可用。有没有办法对这个元组使用这个方法？

浏览 27提问于2019-05-26得票数 0

回答已采纳

2回答

如何使用Spark的repartitionAndSortWithinPartitions？

scala、apache-spark

为了理解它的功能，我正在尝试构建一个最小的repartitionAndSortWithinPartitions工作示例。到目前为止我已经得到了(不起作用，distinct抛出的值是无序的) val part20to2_sorted =

浏览 2提问于2016-05-14得票数 8

回答已采纳

1回答

如何在SparkSteaming中进行二次排序

apache-spark、spark-streaming

我是用上面提到的的方式在火花流中进行二次排序。但是，它给出了以下错误： val dataSetrawSorted = lines.repartitionAndSortWithinPa

浏览 2提问于2016-09-01得票数 0

1回答

使用Apache Spark* 1.6进行二级排序*

apache-spark

我是指网站链接，以实现二级排序在我的火花工作。import org.apache.spark.SparkContextimport org.apache.spark.SparkConfval t = sc.parallelize(List(((DeviceKey("2","100",1),1)),(DeviceKey("2","100",3),1)), 1)

浏览 2提问于2017-03-27得票数 1

回答已采纳

1回答

repartitionAndSortWithinPartitions不是RDD[(K，V)]的成员

scala、apache-spark、rdd

我正尝试使用Scala进行二次排序，遵循这个。token, (r._1.zid, r._2)) }tokensWithZid在哪里org.apache.spark.rdd.RDD[(TokenZidKey, String)]，但我仍然有 value repartitionAndSortWithinPartitions is not a member of org.apache.spark</em

浏览 2提问于2022-08-05得票数 0

1回答

repartitionAndSortWithinPartitions中的重新分区发生在驱动程序或工作程序上

apache-spark、apache-spark-sql、spark-streaming、datastax、partitioning

我正在尝试理解Spark Streaming中的repartitionAndSortWithinPartitions概念，无论是在driver上还是在worker上发生重新分区。

浏览 0提问于2016-09-19得票数 0

2回答

如何使用RDD在分区内排序(并避免跨分区排序)？

apache-spark

Hadoop MapReduce洗牌的默认行为是在分区内对混叠键进行排序，而不是跨分区排序(使键跨分区排序的是总顺序)。我会问如何使用Spark (分区内排序，但不是跨分区排序)实现相同的目标。RDD的sortByKey方法是进行全排序 RDD的repartitionAndSortWithinPartitions是在分区内进行排序，而不是跨分区，但不幸的是，它增加了一个额外的步骤来执行重新分区是否有一种直接<em

浏览 3提问于2017-04-11得票数 15

回答已采纳

2回答

火花分选

java、sorting、apache-spark、distributed-computing

排序需要在我的记录的多个字段上，因此我需要一个自定义比较器。为什么sortBy不接受自定义比较器和排序？为什么我必须重新划分才能使用自定义比较器？

浏览 3提问于2017-10-09得票数 1

1回答

火花(流) RDD foreachPartitionAsync功能/工作

scala、apache-spark、spark-streaming、rdd

字符串”-一些随机字符串和‘学生’- case class Student(name: String, id: String, arrivalTime: Long, classId: String) 如果我使用foreachPartitionAsync -它会以并行的方式处理所有分区，但是每个分

浏览 7提问于2016-06-28得票数 2

回答已采纳

1回答

如何在星火中进行二级排序？

scala、apache-spark、secondary-sort

我正在使用Spark搜索二级排序，并找到了以下解决方案： Ordering.by(k => (k.R, k.F * -1, k.M * -1, k.C * -1))}val rfmcTableSorted

浏览 0提问于2016-06-14得票数 1

回答已采纳

1回答

repartitionAndSortWithinPartitions &删除单个洗牌的重复项

scala、apache-spark

我有一个用例，其中我需要使用自定义分区&最终对分区进行排序。implicit val ordering: Ordering[Array[Byte]] = new LexicographicalOrdering .map(record => (record.getAs[Array[Byte]](0),record.getAs[Array[Byte]](1))) .repartitionAndSortW

浏览 5提问于2019-12-18得票数 0

1回答

TigerGraph -通过火花将数据加载到用户定义的元组中

apache-spark、intellij-idea、tuples、graph-databases、tigergraph

有人能帮我弄清楚我们如何将数据加载到TigerGraph DB中创建的元组中吗？我已经创建了下面的元组，并且我正在尝试使用Spark从一个文件中加载数据。图名：MyGraph Tuple Name：MyTuple元组MyTuple作为边缘属性被引用到MyGraph的边缘(ed_newEdge寻求帮助，了解如何使用Spark将数据加载到M

浏览 5提问于2021-01-21得票数 2

回答已采纳

1回答

为什么repartitionAndSortWithinPartitions没有排序？

scala、apache-spark

以下是我正在做的事情： //rddkv.collect//Array[(String, Int)] = Array((k1,1), (k2,2), (k1,2), (k3,5), (k3,1)) rddkv.repartitionAndSortWithinParti

浏览 1提问于2017-09-14得票数 0

回答已采纳

1回答

如何在Java中使用repartitionAndSortWithinPartitions

java、sorting、apache-spark、partition

谁能给出一个清楚的例子，说明如何在Java中使用repartitionAndSortWithinPartitions，而不是scala。提前感谢！！Ani

浏览 0提问于2016-12-10得票数 0

1回答

Pyspark:使用带有多类Critiria的repartitionAndSortWithinPartitions

python、apache-spark、pyspark

('a', (5,1)), ('d', (8,2)), ('2', (6,3)), ('a', (8,2)), ('d', (9,6)), ('b', (3,4)),('c', (8,3))])Npartitions = sc.defaultParallelis

浏览 0提问于2016-08-12得票数 4

回答已采纳

1回答

时间戳中的火花查找空白

algorithm、scala、apache-spark

读取数据时，条目按时间戳排序，因此RDD的每个分区都应按时间戳排序。我想做的是，找到每一个键，最大的差距之间的2个顺序时间戳。我已经思考这个问题很长时间了，我看不出这是如何实现的，考虑到火花提供的功能。我看到的问题是:当我做一个简单的地图时，我会丢失订单信息，所以这是不可能的。在我看来，groupByKey失败也是因为一个特定的键有太多的条目，试图这样做会给我一个java.io.IOExceptio

浏览 1提问于2016-10-09得票数 0

回答已采纳

1回答

处理用户定义的Spark分区(1.6.1) DataFrames

python-2.7、apache-spark、pyspark、apache-spark-sql

我有一个DataFrame，其中一个列名为problem_id，包含一个键，该键标识整个数据集的一小部分。我不清楚keyBy + partitionBy(N) + mapPartitions是否会将数据集划分为N=|problem_id|分区，这样我就可以在每个定义的分区上并行执行一些代码。基本上，我需要对共享同一个problem_id的所有行应用一个函数。在sparkR中有gapply函数，但是它在Scala或Python中的等价性是什么？

浏览 3提问于2017-01-26得票数 0

回答已采纳

1回答

如何在Flink中使用Hadoop的MapFileOutputFormat？

hadoop、apache-flink、sequencefile

我在用Apache Flink写程序的时候卡住了。问题是我试图生成作为计算的结果，但是Scala编译器报告类型不匹配。mapfileOF) // syntax error 仅供参考，与SequenceFile相比，MapFile需要更强的条件在使用Flink编写应用程序之前，我使用Spark实现了它，如下所示，它工作正常(没有编译错误，运行正常，没有任何错误)。sequenc

浏览 13提问于2016-06-02得票数 1

1回答

Pyspark UDF -复杂返回类型的性能命中

apache-spark、pyspark

我有一个返回字符串元组的PySpark UDF，我已经将其编码为一个结构。这是一个玩具的例子， def my_func(x): spark.udf.register("my_func", lambda x: my_func(x),StructField("three", StringType()]) 我称之为 spark.sql("select col1, my_func(

浏览 22提问于2019-10-10得票数 1

回答已采纳

1回答

利用clojure/flambo对火花进行二次雷达排序

scala、apache-spark、clojure、secondary-sort、flambo

我有一个scala程序，在这个程序中，我实现了一个完美工作的二级排序。我写这个程序的方式是： // Custom Key and partitioner // val x = rdd.map(RFMCKey(cust,r,f,m,c), r+","+f+","+m+","

浏览 1提问于2016-07-05得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云