腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
元组
的
Spark
repartitionAndSortWithinPartitions
sorting
、
apache-spark
、
hbase
、
rdd
我尝试按照下面的示例对hbase行进行分区:https://www.opencore.com/blog/2016/10/efficient-bulk-load-of-hbase-using-
spark
} 但
repartitionAndSortWithinPartitions
仍然不可用。有没有办法对这个
元组
使用
这个方法?
浏览 27
提问于2019-05-26
得票数 0
回答已采纳
2
回答
如何
使用
Spark
的
repartitionAndSortWithinPartitions
?
scala
、
apache-spark
为了理解它
的
功能,我正在尝试构建一个最小
的
repartitionAndSortWithinPartitions
工作示例。到目前为止我已经得到了(不起作用,distinct抛出
的
值是无序
的
) val part20to2_sorted =
浏览 2
提问于2016-05-14
得票数 8
回答已采纳
1
回答
如何在SparkSteaming中进行二次排序
apache-spark
、
spark-streaming
我是用上面提到
的
的
方式在火花流中进行二次排序。但是,它给出了以下错误: val dataSetrawSorted = lines.
repartitionAndSortWithinPa
浏览 2
提问于2016-09-01
得票数 0
1
回答
使用
Apache
Spark
1.6进行二级排序
apache-spark
我是指网站链接,以实现二级排序在我
的
火花工作。import org.apache.
spark
.SparkContextimport org.apache.
spark
.SparkConfval t = sc.parallelize(List(((DeviceKey("2","100",1),1)),(DeviceKey("2","100",3),1)), 1)
浏览 2
提问于2017-03-27
得票数 1
回答已采纳
1
回答
repartitionAndSortWithinPartitions
不是RDD[(K,V)]
的
成员
scala
、
apache-spark
、
rdd
我正尝试
使用
Scala进行二次排序,遵循这个。token, (r._1.zid, r._2)) }tokensWithZid在哪里org.apache.
spark
.rdd.RDD[(TokenZidKey, String)],但我仍然有 value
repartitionAndSortWithinPartitions
is not a member of org.apache.
spark</em
浏览 2
提问于2022-08-05
得票数 0
1
回答
repartitionAndSortWithinPartitions
中
的
重新分区发生在驱动程序或工作程序上
apache-spark
、
apache-spark-sql
、
spark-streaming
、
datastax
、
partitioning
我正在尝试理解
Spark
Streaming中
的
repartitionAndSortWithinPartitions
概念,无论是在driver上还是在worker上发生重新分区。
浏览 0
提问于2016-09-19
得票数 0
2
回答
如何
使用
RDD在分区内排序(并避免跨分区排序)?
apache-spark
Hadoop MapReduce洗牌
的
默认行为是在分区内对混叠键进行排序,而不是跨分区排序(使键跨分区排序
的
是总顺序)。我会问如何
使用
Spark
(分区内排序,但不是跨分区排序)实现相同
的
目标。RDD
的
sortByKey方法是进行全排序 RDD
的
repartitionAndSortWithinPartitions
是在分区内进行排序,而不是跨分区,但不幸
的
是,它增加了一个额外
的
步骤来执行重新分区是否有一种直接<em
浏览 3
提问于2017-04-11
得票数 15
回答已采纳
2
回答
火花分选
java
、
sorting
、
apache-spark
、
distributed-computing
排序需要在我
的
记录
的
多个字段上,因此我需要一个自定义比较器。为什么sortBy不接受自定义比较器和排序?为什么我必须重新划分才能
使用
自定义比较器?
浏览 3
提问于2017-10-09
得票数 1
1
回答
火花(流) RDD foreachPartitionAsync功能/工作
scala
、
apache-spark
、
spark-streaming
、
rdd
字符串”-一些随机字符串和‘学生’- case class Student(name: String, id: String, arrivalTime: Long, classId: String) 如果我
使用
foreachPartitionAsync -它会以并行
的
方式处理所有分区,但是每个分
浏览 7
提问于2016-06-28
得票数 2
回答已采纳
1
回答
如何在星火中进行二级排序?
scala
、
apache-spark
、
secondary-sort
我正在
使用
Spark
搜索二级排序,并找到了以下解决方案: Ordering.by(k => (k.R, k.F * -1, k.M * -1, k.C * -1))}val rfmcTableSorted
浏览 0
提问于2016-06-14
得票数 1
回答已采纳
1
回答
repartitionAndSortWithinPartitions
&删除单个洗牌
的
重复项
scala
、
apache-spark
我有一个用例,其中我需要
使用
自定义分区&最终对分区进行排序。implicit val ordering: Ordering[Array[Byte]] = new LexicographicalOrdering .map(record => (record.getAs[Array[Byte]](0),record.getAs[Array[Byte]](1))) .
repartitionAndSortW
浏览 5
提问于2019-12-18
得票数 0
1
回答
TigerGraph -通过火花将数据加载到用户定义
的
元组
中
apache-spark
、
intellij-idea
、
tuples
、
graph-databases
、
tigergraph
有人能帮我弄清楚我们如何将数据加载到TigerGraph DB中创建
的
元组
中吗?我已经创建了下面的
元组
,并且我正在尝试
使用
Spark
从一个文件中加载数据。图名:MyGraph Tuple Name:MyTuple
元组
MyTuple作为边缘属性被引用到MyGraph
的
边缘(ed_newEdge寻求帮助,了解如何
使用
Spark
将数据加载到M
浏览 5
提问于2021-01-21
得票数 2
回答已采纳
1
回答
为什么
repartitionAndSortWithinPartitions
没有排序?
scala
、
apache-spark
以下是我正在做
的
事情: //rddkv.collect//Array[(String, Int)] = Array((k1,1), (k2,2), (k1,2), (k3,5), (k3,1)) rddkv.
repartitionAndSortWithinParti
浏览 1
提问于2017-09-14
得票数 0
回答已采纳
1
回答
如何在Java中
使用
repartitionAndSortWithinPartitions
java
、
sorting
、
apache-spark
、
partition
谁能给出一个清楚
的
例子,说明如何在Java中
使用
repartitionAndSortWithinPartitions
,而不是scala。 提前感谢!!Ani
浏览 0
提问于2016-12-10
得票数 0
1
回答
Pyspark:
使用
带有多类Critiria
的
repartitionAndSortWithinPartitions
python
、
apache-spark
、
pyspark
('a', (5,1)), ('d', (8,2)), ('2', (6,3)), ('a', (8,2)), ('d', (9,6)), ('b', (3,4)),('c', (8,3))])Npartitions = sc.defaultParallelis
浏览 0
提问于2016-08-12
得票数 4
回答已采纳
1
回答
时间戳中
的
火花查找空白
algorithm
、
scala
、
apache-spark
读取数据时,条目按时间戳排序,因此RDD
的
每个分区都应按时间戳排序。我想做
的
是,找到每一个键,最大
的
差距之间
的
2个顺序时间戳。我已经思考这个问题很长时间了,我看不出这是如何实现
的
,考虑到火花提供
的
功能。我看到
的
问题是:当我做一个简单
的
地图时,我会丢失订单信息,所以这是不可能
的
。在我看来,groupByKey失败也是因为一个特定
的
键有太多
的
条目,试图这样做会给我一个java.io.IOExceptio
浏览 1
提问于2016-10-09
得票数 0
回答已采纳
1
回答
处理用户定义
的
Spark
分区(1.6.1) DataFrames
python-2.7
、
apache-spark
、
pyspark
、
apache-spark-sql
我有一个DataFrame,其中一个列名为problem_id,包含一个键,该键标识整个数据集
的
一小部分。我不清楚keyBy + partitionBy(N) + mapPartitions是否会将数据集划分为N=|problem_id|分区,这样我就可以在每个定义
的
分区上并行执行一些代码。基本上,我需要对共享同一个problem_id
的
所有行应用一个函数。在sparkR中有gapply函数,但是它在Scala或Python中
的
等价性是什么?
浏览 3
提问于2017-01-26
得票数 0
回答已采纳
1
回答
如何在Flink中
使用
Hadoop
的
MapFileOutputFormat?
hadoop
、
apache-flink
、
sequencefile
我在用Apache Flink写程序
的
时候卡住了。问题是我试图生成作为计算
的
结果,但是Scala编译器报告类型不匹配。mapfileOF) // syntax error 仅供参考,与SequenceFile相比,MapFile需要更强
的
条件在
使用
Flink编写应用程序之前,我
使用
Spark
实现了它,如下所示,它工作正常(没有编译错误,运行正常,没有任何错误)。sequenc
浏览 13
提问于2016-06-02
得票数 1
1
回答
Pyspark UDF -复杂返回类型
的
性能命中
apache-spark
、
pyspark
我有一个返回字符串
元组
的
PySpark UDF,我已经将其编码为一个结构。这是一个玩具
的
例子, def my_func(x):
spark
.udf.register("my_func", lambda x: my_func(x),StructField("three", StringType()]) 我称之为
spark
.sql("select col1, my_func(
浏览 22
提问于2019-10-10
得票数 1
回答已采纳
1
回答
利用clojure/flambo对火花进行二次雷达排序
scala
、
apache-spark
、
clojure
、
secondary-sort
、
flambo
我有一个scala程序,在这个程序中,我实现了一个完美工作
的
二级排序。我写这个程序
的
方式是: // Custom Key and partitioner // val x = rdd.map(RFMCKey(cust,r,f,m,c), r+","+f+","+m+","
浏览 1
提问于2016-07-05
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
spark streaming的使用心得
使用命名元组编写简洁的Python代码
Spark 核心编程RDD的使用(1)
使用Spark进行微服务的实时性能分析
10道关于python tuple元组的使用方法以及案例
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券