如何使用dask高效地(代码大小，scheduler+cluster运行时)聚合大量的小csv文件(大约50k文件，每个120kb)？

python、pandas、dataframe、dask、intake

我有一个数据集，其中包含每个文件的时间序列。我真的很高兴dask在我们的集群上处理大约1k个文件(在我的例子中是一个目录)。但我有大约50个目录。下面的最小代码应该只创建图形，但似乎已经在调度器上做了大量的工作： df=intake.open_csv(TRAIN_PATH+"{folder_name}/{file_name}.c

浏览 10提问于2020-10-24得票数 1

1回答

在CSV数据解析上Dask性能缓慢？

python、multithreading、performance、pandas、dask

我已经在一大堆文件上进行了大量的文本处理，包括大的CSV和大量的小XML文件。有时我会做聚合计数，但很多时候我会做NLP类型的工作，以便更深入地查看这些文件中除了已标记或已结构化的内容之外还有哪些内容。我经常使用多处理库在多个CPU上执行这些计算，但我已经爱上了Dask背后的想法，它在网上和同

浏览 11提问于2017-01-15得票数 5

回答已采纳

1回答

优化多个小文件的流入

c#、windows、.net-4.0

我在LAN网络共享上有数十万个小文本文件，每个文件大小在0到8kb之间。我可以使用一些带有kernel32.dll和FindFileEx的互操作调用来递归地提取每个文件的完全限定的UNC路径列表，并将这些路径存储在内存中的一个集合类中，比如List<string>。使用这种方法，我能够相当快地填充List<string>

浏览 0提问于2012-08-22得票数 3

回答已采纳

1回答

消息聚合上的骆驼条件

apache-camel、aggregation

我每隔x天从目录中轮询一次，并获取所有文件(file://...). )我将其路由到聚合中，将文件聚合到一个单一大小(directorySize)中。然后，我检查这个大小是否超过了某个阈值。我试图将聚合条件移动到另一条我将调用的路由，但这会导致与第一个解决方案相同的问题。重写聚合策略，不仅聚合大小，而且将

浏览 3提问于2013-12-16得票数 1

回答已采纳

2回答

用内存高效的方式将大型csv读入稀疏的熊猫数据

python、pandas、numpy、scipy、dask

熊猫的read_csv函数似乎没有很少的选择。我有包含大量零的csv数据(它可以很好地压缩，并且去掉任何0值都可以将其减少到原来大小的近一半)。即使我将零从原始文件中删除并调用to_sparse() (因此填充值为NaN)，也会发生这种情况。无论我是传递kind='block'还是kind='integer'，都会发生这种情况。除了手工构建稀疏数据文件外，是否有一种好的

浏览 4提问于2015-08-08得票数 32

1回答

Dask数据流分析

pandas、dask、dask-distributed

这是我的代码：import dask.dataframe as dd client = Client("<scheduler如何通过read_table()将文本文件读入数据帧？客户端是否读取整个文本文件并将数据发送到调度程序，调度程序将数据分割并发送给工作人员？还是每个工作人员直接从文本文件读取其工作的数据分区？对于组而言，

浏览 1提问于2018-10-12得票数 0

3回答

加快对大型数据集的Python文件处理

python、performance、csv、large-files、python-multithreading

我有一个大数据集，存储为一个17 as的csv文件(fileData)，其中包含每个customer_id的可变记录数(最多可达30,000条)。我试图搜索特定的客户(在fileSelection中列出的90000个客户中的1500个左右)，并将每个客户的记录复制到一个独立的csv文件(fileOutput)中。我对Python非常陌生，但使用它

浏览 8提问于2016-07-09得票数 3

回答已采纳

1回答

如何获得最小的ocamlopt编译的本地二进制文件？

compilation、size、ocaml、executable、minimum

我很惊讶地看到，即使是这样的一个简单的程序：当使用一些相当激进的选项(使用ocamlopt )静态地编译到本机代码时(使用musl)，在我的系统上仍然会有~190 to左右。196K helloworld 如何从ocamlopt获得最小二进制数?对于当今的约束条件下的简单程

浏览 2提问于2019-09-20得票数 4

回答已采纳

1回答

评估用于GroupBy计算的簇大小

pandas-groupby、out-of-memory、dask

免责声明:这里的结果和数字绝不是比较任何商业或非商业产品的基准。目前，我的团队正在使用Azure上的Databricks进行数据工程任务，作为一个PoC，我们决定尝试使用Dask框架。因此，我们创建了一个与我们在DBS上使用的k8s集群大小相当的专用Dask集群，并在那里部署了Dask--工作内存总数为512 GiB，有84名工作人员(每个CP

浏览 10提问于2021-12-16得票数 1

1回答

如何从csv文件中读取数据并存储在二叉树中，如何用perl编写多个文件？

perl、csv、binary-tree

我有CSV文件，其中有10多万的数据。我想使用binary::tree来减少内存的使用。my $file = "my_c

浏览 0提问于2013-08-02得票数 0

回答已采纳

3回答

在页面上启动一个大类会减慢它的速度吗？

php、class、lines-of-code

我正在编写一个类，这个类可能会有大约3000行代码。如果是这样的话，我应该考虑创建扩展来处理每个方法，而不是将整个类放在一个文件中吗？因此，考虑到我们网站的大小和功能，3000行是相当

浏览 3提问于2012-01-18得票数 9

回答已采纳

2回答

如何使用Python并行处理CPU-整数数据处理任务？

python、amazon-ec2、parallel-processing、batch-processing、distributed-computing

我正在创建一些代码，以便在pdfs的大型数据集上执行OCR，并将提取的文本写入csv。这是使用Imagemagick、Pillow、PyOCR (Tesseract)等库的组合完成的，并且已经在一个小的数据样本上进行了测试。该数据包含大量文件夹(~2500)，每个文件夹约有15个pdfs。为每个文件夹中的pdf

浏览 3提问于2017-06-15得票数 1

1回答

将大型数据集加载到python中的最快方法

python、pandas、astropy、mat-file、data-ingestion

我有一些相对较大的.mat文件，我正在将它们读入Python，以便最终在PyTorch中使用它们。这些文件的行数范围在55k到111k之间，但每个文件的列数都略低于11k，没有标题，并且所有条目都是浮点型。数据文件大小从5.8 GB到11.8 GB不等。.下面是使用我上面提到的每种方法加载的代码，作为计时实验运行： import pandas a

浏览 8提问于2021-09-17得票数 0

2回答

附加到文件大小限制的标准输出

shell-script、curl、stdout、gnu-parallel

这是大量的数据，而且由于我没有以任何方式转换数据，curl似乎是一种比Python更高效、更轻量级的完成任务的方法(就像Python使并行处理有点麻烦)。在下面的代码中，vins.csv是一个包含25M个VINs的大样本的文件，它被分成100个VINs。这些正在传递给使用4个核的GNU并行。我的问题我的命令中有什么东西会随着nhtsa_vin_

浏览 0提问于2018-07-15得票数 5

回答已采纳

1回答

为什么我的NumPy数组占用的内存比它应该占用的多少？*

python、numpy

我重新构造了联机文件，使其与页面上提到的维度(138000乘27000)相匹配，因为原始文件包含更大的索引(138000×131000)，但包含大量空列。简单地抛出这些空列并重新编制索引就可以得到所需的维度。无论如何，将稀疏csv文件强制转换为密集格式的代码片段如下所示：from scipy import sparse # note th

浏览 0提问于2018-08-08得票数 2

回答已采纳

3回答

在.csv中读取和扩充(复制样本和更改某些值)大数据集的最有效方法是什么？

python、pandas、csv、large-data、data-augmentation

硬件/软件规范: RAM 8GB，Windows 11 64位，Python 3.8.8我有一个在.csv (~13 in )中的数据集，其中每个样本都有一个值和几个月的起始周期，我想创建一个数据集，其中每个样本都有相同的值，但引用每个特定的月份。我的实施：在熊猫里阅读，在字典中增加，附加在CSV后面。使用一个函数，给定一个df，计算每个样本从开始日期到结束

浏览 12提问于2022-09-18得票数 5

回答已采纳

1回答

MATLAB花费了大量的时间来编写一个相对较小的矩阵。

matlab、matrix

我有一个小的MATLAB脚本(包括下面)，用于处理从CSV文件中读取的带有两列和数十万行的数据。每个条目都是一个自然数，零只出现在第二列中。这段代码花费了相当长的时间(小时)才能运行最多几秒钟就能实现的任务。分析器确定，大约100%的运行时间用于编写一个零矩阵，其大小取决于输入，但在所有使用中都小于1000x1000。data(

浏览 2提问于2015-07-02得票数 1

回答已采纳

5回答

如何测量目录中文件的大小？

linux、files

我有一个装满600 of文件的文件夹。我想要自动复制前300到一个文件夹，其余的到另一个文件夹。我不知道如何用ls来限制结果，或者随便哪一个，这样我就可以把它作为一个论点. 平台是linux..。编辑:我想移动300 to，而不是前300个文件。文件大小是任意的，排序并不重要。

浏览 0提问于2009-07-30得票数 1

回答已采纳

2回答

在大于RAM的大型数据文件上应用一个函数

pyspark、data-science、python-multiprocessing、dask、distributed-computing

据信，Dask框架能够处理比RAM更大的数据集。然而，我未能成功地将它应用于我的问题，听起来如下所示：dataframeRelease 标记文本(以运行tokenize(df_part))，并返回给定的一个新的预处理部分--内存，用于从文件</e

浏览 5提问于2020-05-20得票数 1

回答已采纳

1回答

多处理太慢了

python、pandas、parallel-processing、multiprocessing、python-multiprocessing

个文件的程序时，所有的核心都得到了充分的使用(平均每个核心大约90% )。但这一次，在运行代码时，cpu的使用在开始时是不稳定的，过了一段时间，利用率就下降了(每个核心的平均使用率约为10% )。内存利用率也很低，平均为4gb最大(剩余的8gb免费)。我重新启动机器，并试图清除任何不必要的僵尸进程，但仍然，结果是一样的<

浏览 0提问于2019-01-05得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在CSV数据解析上Dask性能缓慢？

优化多个小文件的流入

消息聚合上的骆驼条件

用内存高效的方式将大型csv读入稀疏的熊猫数据

Dask数据流分析

加快对大型数据集的Python文件处理

如何获得最小的ocamlopt编译的本地二进制文件？

评估用于GroupBy计算的簇大小

如何从csv文件中读取数据并存储在二叉树中，如何用perl编写多个文件？

在页面上启动一个大类会减慢它的速度吗？

如何使用Python并行处理CPU-整数数据处理任务？

将大型数据集加载到python中的最快方法

附加到文件大小限制的标准输出

为什么我的NumPy数组占用的内存比它应该占用的多少？*

在.csv中读取和扩充(复制样本和更改某些值)大数据集的最有效方法是什么？

MATLAB花费了大量的时间来编写一个相对较小的矩阵。

如何测量目录中文件的大小？

在大于RAM的大型数据文件上应用一个函数

多处理太慢了

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐