如何将一个较大的julia DataFrame分区为一个箭头文件，并在读取数据时按顺序处理每个分区

、、

我在Julia中使用非常大的DataFrames，当我对数据进行连接和其他操作时，会导致内存不足错误。幸运的是，数据可以在标识符列上进行分区。我想使用Arrow.jl中内置的记录批处理特性来持久化已分区的DataFrame，然后依次读取和处理每个记录批处理。我设法让下面的代码正常工作，但在读取

浏览 28提问于2021-01-24得票数 2

回答已采纳

2回答

如何使Spark上的笔记本运行得更快、性能更好

、、、、

我试过的是：结果总是在这个范围内: 10K行为1 min，而100 K行为8 min (不论变化)。 100K+的理想结果小于1 min。我错过了什么，其他需要考虑的事情，试一试？谢谢。

浏览 12提问于2022-04-01得票数 -1

回答已采纳

1回答

火花分割:如何选择键

、、

我发现，在默认情况下，火花似乎写了许多小拼花文件。我认为如果我使用分区来减少这种情况，可能会更好？如果我经常按两个键查询，但同时只查询一个或另一个键，那么按这两个键进行分区</

浏览 2提问于2018-04-07得票数 8

回答已采纳

1回答

如何在Kafka中并行处理多个CSV文件？

、、、

我的应用程序有使用web应用程序提交csv文件的用户。每个消费者阅读同一主题，平均30秒可处理1000条记录。因此，4个消费者可以在( 100,000 /4)*30/100

浏览 22提问于2020-11-12得票数 0

1回答

什么是运动数据流中的碎片？

、、

什么是碎片在运动数据流和分区键。我看过aws文件，但我不明白。有人能用简单的术语来解释吗？

浏览 1提问于2019-06-09得票数 15

回答已采纳

1回答

Spark Job将数据帧写入已分区的增量表

、、、、

运行databricks以读取csv文件，然后另存为分区增量表。作业在写入步骤中停滞，并在运行5-6小时后中

浏览 4提问于2021-11-10得票数 1

1回答

星火是否在内部节点间分发数据？

、、

我正在尝试使用Spark处理集群上的csv文件。我想了解是否需要显式读取每个工作节点上的文件来并行处理，还是驱动节点读取文件并在集群中分发数据以便内部处理？的情况下会怎样呢？'2010-12-01' AND date<='2010-12-02' AND town=='Madrid'

浏览 0提问于2019-04-03得票数 5

1回答

为什么达斯克的"to_sql“比熊猫花了更多的时间？

、、、、

我在ETL中使用dask而不是pandas，即从S3存储桶中读取CSV，然后进行一些所需的转换。Until here - dask读取和应用转换的速度比pandas快！最后，我使用to_sql将转换后的数据转储到Redshift。在dask中这个to_sql转储比在pandas中花费更多的时间。有没有可能缩短这段时间？

浏览 2提问于2021-09-27得票数 1

1回答

是否可以在火花阶段重新排序任务？

、、、

我的问题是关于在星火的一个阶段的任务顺序。我有一个星火数据分割成3000个分区。分区是在一个特定键上完成的。因此，任务的执行顺序是增加给定执行器上分区的id。我看到分区中的行数与任务的执行时间之间存在明显的相关性。由于数据集<

浏览 2提问于2019-07-26得票数 1

2回答

Parquet和分区的星火DataFrames

、、

我还没有找到关于这个主题的很多信息，但让我们说，我们使用一个数据读取在一个拼花文件，即10个块火花将自然创建10个分区。但是，当dataframe读取文件来处理它时，它不是要处理一个大的数据与分区比率吗?因为如果它正在处理未压缩的文件，块大

浏览 2提问于2015-09-15得票数 7

回答已采纳

1回答

如何使用结构化流的writestream进行重新分区的文件写入？

、、、

我有一个结构化的流代码，从Kafka读取数据，并转储到HDFS。在转储数据时，我以三列为基础对数据进行分区。我面临的问题是在批处理过程中生成了许多小文件。我希望在每个partitionBy的批处理过程中只生成一个文件。我不确定在这种情况下如何应用重新分区，因为它似乎不起作用。

浏览 16提问于2019-12-11得票数 0

回答已采纳

2回答

将星火数据分割成分区，并并行地将这些分区写入磁盘。

、、、

问题概要:假设我在AWS中的EMR集群上使用spark处理了300+ GB的数据。该数据有三个属性，用于在Hive中对文件系统进行分区:日期、时间和(比方说) anotherAttr。我将它们收集到驱动程序上的一个列表中，并对列表进行迭代，为每个组合构建一个新的DataFrame，使用行数来对DataFrame进行重新分

浏览 0提问于2020-05-09得票数 0

回答已采纳

1回答

dataframe连接和重新分区大文件，用于时间序列和相关性。

、、、

我们可能在较低的时间(例如48小时、1小时、月等)重新采样。在长达11年的时间里，把这些关联想象成11年。数据目前在11个单独的拼花文件中(每年一个)，从11个.txt文件中单独生成Pandas。熊猫没有对任何这些文件进行分区。在内存中，这些拼花文件中的每一个都加载了大约20 In的内存。预期的目标机器只有1

浏览 29提问于2022-06-20得票数 1

1回答

跨分区查询时的DocumentDB读取延迟

我创建了2个空的documentDB集合: 1)单分区和2)多分区。接下来，在这两个集合上插入一行并运行扫描(select * from c)。我发现单个分区占用了大约2RU，而多分区占用了大约50RU。这不仅仅是RU的问题，多分区的读取延迟也要慢20倍左右。那么，当跨分区查询时，多分区总是具有高读取延迟吗？

浏览 1提问于2016-11-08得票数 0

2回答

在DataFrame联合之后管理火花分区

、、、、

我有一个星火应用程序，需要大量使用unions，在不同的情况下，我将在不同的时间将大量的DataFrames合并在一起。我正尽我所能使这件事变得更有效率。我对火花还是很陌生的，我突然想到：如果我有DataFrame 'A‘(dfA)，它有X个分区(numAPartitions)，而我把它与有Y个分区(numBPartitions)的DataFrameval unionedDF : <em

浏览 9提问于2016-09-08得票数 5

回答已采纳

2回答

哪些操作保持RDD顺序？

、

如果由处理，RDD有一个有意义的顺序(与存储模型强加的一些随机顺序相反)，如本所解释的那样。这是保证的(在a.sortBy()之后)吗？._2) 在这里，“相等”===被理解为“功能等效”，即无法使用用户级操作(即，不读取日志&c)来区分结果。

浏览 4提问于2015-03-26得票数 59

回答已采纳

2回答

火花: partitionBy (DataFrameWriter)实际上是如何工作的？

、、

我有这样的csv记录：name | age | entranceDate | dropDate |}; .partitionBy(partitions).parquet(parquetPath);}; .partitionBy(partitions) .mode(

浏览 2提问于2019-09-23得票数 0

回答已采纳

2回答

dataset具有从主排序键生成的分区键。在查询时，Spark不搜索特定分区中的键并将它们全部读取

、

部门是由三个字符组成的字符串。我有点惊讶:难道我不应该找到100左右吗？每个部门一个？我原以为只需要一个:包含分区29的那个。我开始怀疑自己:但我为什么要相信这个呢？Apache如何才能真正知道任何形状为29xxx的城市代码都必须在具有代码29的分区中进行搜

浏览 5提问于2021-03-16得票数 0

2回答

我可以使用卡夫卡多个独立的消费者顺序阅读吗？

我有以下用例： 50名学生编写自己的代码，使用预加载的数据集，并且会重复多次。他们都需要完成相同的任务:按顺序读取数据，并对其进行处理。数据集是一个包含6亿条消息的时间序列，每条消息大约有1.3KB。处理可能在火花，但不是强制性的。数据集是固定的，并且是ReadOnly。对于每个用户，<em

浏览 10提问于2022-09-10得票数 0

回答已采纳

1回答

在JavaPairRDD中，小文件会跨分区分布吗？

、、、

这可能是一个愚蠢的问题，但我不能理解文件是如何跨分区拆分的。我的要求是从Hdfs位置读取10000个二进制文件(Bloom filter持久化文件)，并通过将数据转换为ByteArrayInputStream来单独处理这些二进制文件。要注意的一点是，这些文件是Bloom filter持久化文件，应该从文件<em

浏览 19提问于2019-02-24得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使Spark上的笔记本运行得更快、性能更好

火花分割:如何选择键

如何在Kafka中并行处理多个CSV文件？

什么是运动数据流中的碎片？

Spark Job将数据帧写入已分区的增量表

星火是否在内部节点间分发数据？

为什么达斯克的"to_sql“比熊猫花了更多的时间？

是否可以在火花阶段重新排序任务？

Parquet和分区的星火DataFrames

如何使用结构化流的writestream进行重新分区的文件写入？

将星火数据分割成分区，并并行地将这些分区写入磁盘。

dataframe连接和重新分区大文件，用于时间序列和相关性。

跨分区查询时的DocumentDB读取延迟

在DataFrame联合之后管理火花分区

哪些操作保持RDD顺序？

火花: partitionBy (DataFrameWriter)实际上是如何工作的？

dataset具有从主排序键生成的分区键。在查询时，Spark不搜索特定分区中的键并将它们全部读取

我可以使用卡夫卡多个独立的消费者顺序阅读吗？

在JavaPairRDD中，小文件会跨分区分布吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐