如何在使用RDD.mapPartitionsWithIndex时获取每个分区的索引？

、、、

我是spark和scala的新手。Spark中有没有一种方法可以从RDD.mapPartitionsWithIndex中获取分区ID/No，它的定义如下： def randomint(index: Int, iter: Iterator

浏览 12提问于2021-05-16得票数 0

1回答

在使用mapPartitionsWithIndex()的Spark中，节点的索引分配是如何工作的？

、、、、

我正在尝试协调GPU在Spark集群上的执行。为了实现这一点，我需要每个任务/分区在每个系统上只使用一个特定的GPU插槽。每个系统有4个gpu，我找到的最简单的方法是对rdd执行mapPartitionsWithIndex()，然后使用索引作为gpu插槽。我的问题是，我是否可以依赖于总是分配给工作节点的索引？partitions =

浏览 3提问于2016-09-05得票数 1

2回答

是否有可能重置长蓄能器在每个分区在星火？

、、

我试图在每个分区重置longAccumulator，但无法这样做。我在用这种方式尝试。val list = (1 to 100).toListval acc = sc.longAccumulator("1L") acc.reset()iterator当前，此代码不重置每个分区</em

浏览 0提问于2019-08-05得票数 0

回答已采纳

3回答

Spark Streaming -如何在迭代器上的分区中使用reduceByKey

、、

我正在尝试使用Kafka DirectStream，处理每个分区的RDDs，并将处理后的值写入DB。当我尝试执行reduceByKey(每个分区，也就是没有随机)时，我得到以下错误。通常在驱动节点上，我们可以使用sc.parallelize(迭代器)来解决这个问题。但我想用spark streaming来解决这个问题。value reduceByKey is not a member of Iterator[((String, Str

浏览 2提问于2016-10-08得票数 1

1回答

MapReduce火花数据处理(scala)

、、、

我有一个大数据，我想对此数据使用mapRuduce，但我找不到用于此任务的任何内容。(语言:Scala) 此过程的数据为： Y,20,01J,19,10R,20,01T,19,10... (2.000+) 对于我想要加载到地图上的所有这些数据50,10R,20,01T,19,10... (2.000+) 在所有地图中，我希望在本地找到最小的</

浏览 12提问于2019-03-22得票数 0

1回答

在Dataproc上使用Spark，如何从每个分区单独写入GCS？

、、、

使用GCP Dataproc上的Spark，我成功地将整个RDD写成了GCS，如下所示：产品是同一路径中每个分区的文件。如何为每个分区写入文件(基于分区信息的唯一路径) rdd.mapPartitionsWithIndex</

浏览 0提问于2018-09-27得票数 2

2回答

rowNumber() over(partition_index)在火花壳中使用mapPartitionsWithIndex

、

我试图在分区中添加分区索引和行号到rdd中，然后我就这样做了。但是，当我试图获得最后一行数的值时，我得到的值为零，行号数组似乎没有被碰过。变范围问题？它类似于rownumber ()、/count() over(partition_index)，但是行号与分区索引一起添加在一个循环中，所以可能更有效？scala> rownums.foreach(println)0res20: Array

浏览 5提问于2017-05-09得票数 0

回答已采纳

2回答

为星火RDD中的每个键创建唯一值

我想要创建一个key, value对的RDD，其中每个键都有一个唯一的值。这样做的目的是“记住”以后使用的关键索引，因为键可能会在分区周围移动，并且基本上创建了一个排序的查找表。我正在向量化一些文本，需要创建特征向量，所以我必须对每个键都有一个唯一的值。我尝试将第二个RDD压缩到我的RDD键，但问题是，如果这两个RDD不是以完全相同的方式划分的

浏览 1提问于2014-08-19得票数 2

回答已采纳

1回答

server 2005中的分区问题？

、

我已经阅读了不少关于划分表的文章。我目前有以下与sql server 2005中的分区有关的问题- 还有其他方法来加速表上的插入吗？是否有一篇真正简单的文章，其中我可以知道如何根据id值将现有的表划分为x分区？我找到了这

浏览 2提问于2010-12-03得票数 0

回答已采纳

1回答

Cassandra CQL时间范围查询

、、、

它有多个列，为每个事件捕获一些数据。我尝试检索特定时间范围内的事件数据。例如，对于1月份，我使用了以下CQL查询：从Test > 20130101070100000000和Key < 20130115070100000000限制100000选择count(*)；坏请求: Start Key的md5排序在end key的md5之后。我是否需要用键验证类将我的模式重新定义为TimeUUID类型？在不更改架构

浏览 4提问于2013-01-18得票数 4

回答已采纳

1回答

分区表上的唯一约束名称

、

我正在为多租户应用程序使用分区表，我必须检查唯一约束名才能返回合适的错误。谢谢!

浏览 9提问于2022-04-15得票数 1

回答已采纳

2回答

一次从多个分区中选择

、、

它并行执行进程，每个进程通过select语句从第一个表中获取数据，并将处理后的数据放入第二个表中。所以我只需要从第一个表中选择“fast”中的数据(！)分区将其放入第二个表中。但第二个表在其他(日期也是)字段上分区。当进程并行执行时，当不同的进程试图将数据放入第二个表中的同一分区时，我会出现死锁。一个好的解决方案是每个进程只从“快速”分区中获取数

浏览 1提问于2013-10-23得票数 2

回答已采纳

1回答

如何在DynamoDB中获得给定时间段的总计数？

、、

背景:我们有一个api，不同的api用户从不同的公司调用。我们正在DataDog中记录每个请求。从DD中，我每分钟获取这些日志，获取所需的数据，如apiUserKey、companyName、dateAccessed、apiVersion等。我将每个请求记录在一个名为EpgApiStatistics的DynamoDB表中，如图像所示。我可以在列表中分页，但我也需要维护每个api用户的总计数以及<e

浏览 4提问于2021-11-17得票数 0

回答已采纳

2回答

PostgreSQL中精确计数机制的改进

、、

尽管查询单个表时的估计更接近，但使用联接时的结果却相差很远。另外，我需要精确的计数，因为我需要向用户显示确切的数字，就像他做了多少事务一样。我该怎么解决这个问题？我正在

浏览 0提问于2021-05-10得票数 0

3回答

分区表和索引-缺点是什么？

、、、、

当讨论不到100个分区的表的分区表和索引时，我的意思是：非对齐索引一个独立于其相应表的索引。也就是说，索引有不同的分区方案，或者放在与基表分开的文件组上。在以下情况下，设计不结盟分区索引可能很有用:基表尚未分区。索引键是唯一的<

浏览 0提问于2015-10-12得票数 4

回答已采纳

1回答

为什么用列存储分区索引视图会使其变慢？

、、、

我有一个包含大约100米条目的表，其中有3个不同的租户，平均地将行分开。我已经基于这个表创建了一个索引视图，并创建了一个非聚集列存储。两个索引都是根据租户号进行分区的。每个分区大约有30M行。使用这个分区的列存储查询视图需要2.6s，没有分区的相同查询需要2.4s (这两种情况下的执行计划都是相同的)。在分区索引</e

浏览 8提问于2022-08-22得票数 0

1回答

优化从表中获取多行

，时间戳)上有一个索引。数据是一个json对象(3KB)，这个对象中有5个参数(除其他外)是定期获取的。表的大小大约是60 is和15,000,000行。每分钟记录每个资源id的数据。;为每个参数创建一个虚拟列，并为每个参数创建一个索引-- (resource_id，timestamp，pX)。这大大改善了查询，从70到8s (抓取6个月)，但我担心索引的数量减缓了我的</

浏览 0提问于2022-08-18得票数 0

回答已采纳

1回答

SQL Server中数据库表和索引分区的几个问题

、、、、

为了应用分区，我正在为分区键列创建一个非聚集索引，并将其与分区方案相关联。我有几个问题：如何在多个索引的情况下应用

浏览 0提问于2019-02-20得票数 0

2回答

如何对卡桑德拉中可用的行进行get_range？

、

在我的应用程序中，我希望获取列系列中的所有行，但忽略暂时不可用的行(例如，一些节点已关闭)。列家族中的行键与随机字符串类似，因此不能使用get逐个获取所有行。

浏览 2提问于2012-09-15得票数 1

回答已采纳

1回答

每N秒选择不超过1行

、

NULLx_unit char(1) DEFAULT NULL因为每个传感器每分钟报告一次，所以每个传感器每天大约有1440行。理想情况下，我要做的是从表中选择数据，以便在给定的窗口中不超过一个数据点(但在没有数据的情况下，零点是可以的)。窗口是在图中查看的总时间框架，除以图形的宽度(以像素为单位)。注意:尽管看起来不太

浏览 0提问于2015-02-09得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在使用mapPartitionsWithIndex()的Spark中，节点的索引分配是如何工作的？

是否有可能重置长蓄能器在每个分区在星火？

Spark Streaming -如何在迭代器上的分区中使用reduceByKey

MapReduce火花数据处理(scala)

在Dataproc上使用Spark，如何从每个分区单独写入GCS？

rowNumber() over(partition_index)在火花壳中使用mapPartitionsWithIndex

为星火RDD中的每个键创建唯一值

server 2005中的分区问题？

Cassandra CQL时间范围查询

分区表上的唯一约束名称

一次从多个分区中选择

如何在DynamoDB中获得给定时间段的总计数？

PostgreSQL中精确计数机制的改进

分区表和索引-缺点是什么？

为什么用列存储分区索引视图会使其变慢？

优化从表中获取多行

SQL Server中数据库表和索引分区的几个问题

如何对卡桑德拉中可用的行进行get_range？

每N秒选择不超过1行

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐