分布在本地计算机上的Dask元数据列顺序与较小的分区大小不匹配

pandas、dataframe、metadata、dask

当我尝试使用dask清理大量jsonl文件时，如果我使用的分区大小为128MB，它会提示我列顺序不匹配，但如果我使用的分区大小为512MB，则可以很好地工作所以我的代码看起来像这样： importdask.dataframe as ddfrom dask.distributed import Clien

浏览 20提问于2021-04-06得票数 1

回答已采纳

1回答

任务: client.persist和client.compute之间的区别

python、dask

我对client.persist()和client.compute()之间的区别感到困惑，它们似乎(在某些情况下)都开始了我的计算，并且都返回异步对象，但在我的简单示例中并非如此：fromdask.distributed import Clientclient = Client() return argsresult = [delayed(f)(x)

浏览 3提问于2017-01-23得票数 22

回答已采纳

1回答

Dask -如何将系列产品串联成一个DataFrame？

python、pandas、dataframe、dask、dask-distributed

如何从应用于Dask系列的函数中返回多个值？我试图从dask.Series.apply的每一次迭代中返回一个系列，最后的结果是一个dask.DataFrame。下面的代码告诉我元数据是错误的。更新：--我认为我没有正确地指定元/模式。我该如何正确地做这件事？现在，当我放弃元参数时，它就起作用了。然而，它提出了一个警告。我想用达斯克“正确”。import dask.dat

浏览 0提问于2019-03-05得票数 1

回答已采纳

1回答

在单个列上执行操作时，dask是否加载所有列？

dask

每当我使用dask数据帧进行计算时，我都会确保只加载必要的列，以便能够节省计算速度。我只是不明白dask是如何在内部工作的，为什么他不能从拼花柱状格式中受益。在下面的小示例中，test.parquet是一个包含13列各种数据类型、10M行和16个分区的拼图文件。正如您所看到的，如果我只对单个列的最小值感兴趣，那么当我只加载目标

浏览 1提问于2019-03-14得票数 2

1回答

合并两个大型数据帧

python、pandas、dataframe、merge

我有两个大数据帧:一个包含3M行，另一个包含2M行第一个数据帧： sacc_id$ id$ creation_date0 001A000000hAUn8IAG_libs.join.inner_join() MemoryError: 有没有其他有效的</em

浏览 16提问于2019-01-31得票数 0

3回答

达克DataFrame卷绕KilledWorker read_sql

python、sqlalchemy、dask

我正在尝试运行一个Dask集群和一个Dash应用程序来分析非常大的数据集。我能够成功地运行一个LocalCluster，并成功地执行DataFrame计算。，然后客户端成功地将数据集拉到变量x中。此问题发生在groupby()计算过程中。Dask Name: from-delayed, 20 tasks我已经尝试增加分配给每个工作人员的内存和Dask Da

浏览 1提问于2021-12-03得票数 0

回答已采纳

1回答

应用dask群元数据的顺序

python、pandas、dataframe、dask、dask-dataframe

在dask中，我得到了一个错误："ValueError:计算数据中的列与所提供的列的元数据顺序中的列不匹配“ 这对我来说没有意义，因为我确实提供了正确的元数据。因为它是在一个小块中提供的，所以它

浏览 11提问于2022-05-09得票数 2

回答已采纳

1回答

KMeans预测的标签上的dask* ()问题*

python、scikit-learn、dask、dask-ml

我正在尝试使用sklearn来集群相当大的数据集(150 k样本和150 k特性)。我想我可以更快地使用来自dask_ml的增量来将我的数据放入块中。下面是虚拟数据集上我的代码片段： from dask_ml.wrappers import Incrementalfrom sklearn.cluster import Mi

浏览 4提问于2021-06-14得票数 0

1回答

dask分布式数据模型上的慢len函数

python、performance、dataframe、dask

我一直在测试如何使用dask (有20个核心的集群)，我对调用len函数和切片遍历loc的速度感到惊讶。import dask.dataframe as ddclient = Client('192.168.1.220:8786')所有的绿色框都与"from_pandas“相对应，而在Matthew 的这篇文章中，调用图看起来更好(调用len_chunk的</

浏览 2提问于2017-01-27得票数 15

回答已采纳

2回答

为什么达斯克要花很长的时间来计算，而不管数据的大小

python、pandas、dask、dask-distributed、dask-dataframe

为什么dataframe需要很长的时间来计算，而不管数据的大小如何。如何避免这种情况发生？背后的原因是什么？我目前正在使用ml.c5.2x大型实例类型来开发AWS，数据位于S3桶中。当我通过本地集群运行客户机时，我会得到这个错误--> AttributeError: MaterializedLayer‘object没有属性'pack_annotations’ 所以，我没有连接任何具体的东西条记录(~27M)上执

浏览 7提问于2022-03-24得票数 0

回答已采纳

1回答

使用java代码中的HiveContext为hive1.2.0抛出内存错误

java、hadoop、apache-spark、hive、apache-spark-sql

我有一个火花-1.5.1的Hadoop2.6运行在我的本地机器上的独立模式。我正在尝试从一个示例java应用程序中运行一个hive查询，将spark.master指向在我的本地计算机上运行的火花主程序( spark ://Dynamic-i0248u:7077)。from bm.rutest"); List<Row> employeeFullNameRows = jdbcD

浏览 2提问于2015-12-10得票数 1

2回答

如何将非常大的火花放电数据转换成熊猫？

python、pandas、apache-spark、pyspark、databricks

我想转换一个非常大的火花放电数据为熊猫，以便能够将它分成火车/测试熊猫框架的滑雪随机森林回归器。我在星火3.1.2的数据库里工作。 at java.lang.Thread.run(Thread.java:748) 根据reply ，这是因为toPandas实现，因为它试图将数据集写入一个ByteArrayOutputS

浏览 14提问于2022-01-31得票数 1

2回答

在Dask* DataFrame.apply()上，在实际行处理之前接收值为1的n行*

python、parallel-processing、dask

我知道数字可能不是按这个顺序排列的，因为任务将被分解成多个并行操作。代码片段：import numpy as np A B

浏览 0提问于2017-04-14得票数 6

回答已采纳

2回答

卡桑德拉的分区大小到底是多少？

cassandra、cassandra-3.0

我是卡桑德拉的新手，我有一个有6个节点的卡桑德拉集群。我想找出分区的大小，现在，我想知道它是如何计算的，为什么结果只有5条记录，而不是min，max，而节点数是表的节点大小和分区数有什么关系吗？从根本上讲，我所知道的是分区密钥用于散列和分发数据，以便在不同<em

浏览 1提问于2021-04-21得票数 0

2回答

有没有办法改变每个分区文件夹的输出行数？

python、dataframe、pyspark

我有大量的最终结果数据，这些数据在我感兴趣的列中分布得并不均匀。当我通过分区直接写入时，每个分区具有与spark.sql.shuffle.partitions相同数量的文件。这会导致拥挤分区中的每个文件都非常大(以GB为单位)，但在其他一些分区中，文件大小实际上很小(甚至以KB为单位)。有没有办法改变每个分区<

浏览 2提问于2018-12-05得票数 0

1回答

dataframe连接和重新分区大文件，用于时间序列和相关性。

python、dataframe、concatenation、dask

我有11年的数据和记录(行)每秒钟，超过100列。它用一系列的日期时间(用Pandas to_datetime()创建)进行索引，我们需要能够在列之间进行一些相关分析，一次只能加载两个列。我们可能在较低的时间(例如48小时、1小时、月等)重新采样。在长达11年的时间里，把这些关联想象成11年。数据目前在11个单独的拼花文件中(每年一个)，从11个.txt文件中单

浏览 29提问于2022-06-20得票数 1

2回答

为什么dask按索引字段选择的速度这么慢？

python、pandas、dataframe、dask

我正在将存储在拼图文件中的数据读取到dask中，然后尝试通过分类索引字段选择数据。在parquet中保存数据时，我使用与在dask中用作索引字段相同的字段对数据进行分区。我希望dask set_index操作会花费一些时间，但看起来后续的基于索引字段的“选择”类型操作应该会非常快。然而，它们的

浏览 1提问于2021-11-06得票数 2

1回答

在Hadoop中，cp命令是如何工作的？

hadoop、hdfs

我正在阅读"Hadoop:防御指南“，为了解释我的问题，请允许我引用本书的内容。即使是单个文件副本，由于hadoop -cp通过运行命令<e

浏览 0提问于2018-08-23得票数 1

回答已采纳

1回答

是否可以在本地缓存和分区缓存上使用分布式连接执行SQL查询？

ignite

我有一个具有两个节点和两个不同缓存的数据网格。一个是本地的，另一个是分区的。有可能吗？是否需要按特定顺序指定联接或激活特定的

浏览 0提问于2018-03-01得票数 0

回答已采纳

1回答

什么是设备验证状态

android、android-source、bootloader

device verity state is: ENABLED 我在启动日志中找到了上面的行。我想知道，它到底会做什么？我在android上看过源码链接，但没看懂。你能帮帮我吗。提前谢谢。

浏览 29提问于2020-04-17得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

任务: client.persist和client.compute之间的区别

Dask -如何将系列产品串联成一个DataFrame？

在单个列上执行操作时，dask是否加载所有列？

合并两个大型数据帧

达克DataFrame卷绕KilledWorker read_sql

应用dask群元数据的顺序

KMeans预测的标签上的dask* ()问题*

dask分布式数据模型上的慢len函数

为什么达斯克要花很长的时间来计算，而不管数据的大小

使用java代码中的HiveContext为hive1.2.0抛出内存错误

如何将非常大的火花放电数据转换成熊猫？

在Dask* DataFrame.apply()上，在实际行处理之前接收值为1的n行*

卡桑德拉的分区大小到底是多少？

有没有办法改变每个分区文件夹的输出行数？

dataframe连接和重新分区大文件，用于时间序列和相关性。

为什么dask按索引字段选择的速度这么慢？

在Hadoop中，cp命令是如何工作的？

是否可以在本地缓存和分区缓存上使用分布式连接执行SQL查询？

什么是设备验证状态

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐