我正在使用Dask在多个数据集上使用Snorkel应用LabelingFunction，但这似乎需要很长时间。这是正常的吗？

Dask是一个开源的并行计算库，用于处理大型数据集。Snorkel是一个用于快速构建和迭代标签函数的开源工具。在使用Dask在多个数据集上应用LabelingFunction时，长时间的执行是有可能的，并且可能是正常的。

多个数据集的处理可能涉及到大量的计算和IO操作，这些操作会消耗大量的时间。此外，Snorkel的标签函数可能需要进行复杂的计算和统计，这也会增加执行时间。因此，在使用Dask和Snorkel处理多个数据集时，长时间的执行是正常的情况。

为了优化执行时间，可以考虑以下几点：

数据集分区：将数据集进行适当的划分，以便并行处理。通过分区，可以将计算任务分发到不同的计算节点上，从而加快执行速度。
资源配置：确保计算节点具有足够的计算资源和内存，以支持并行处理和数据集的加载。
算法优化：优化标签函数的算法和逻辑，减少不必要的计算和循环，以提高执行效率。
并行度设置：根据具体情况，调整Dask的并行度设置，以获得更好的性能。

在腾讯云上，可以使用腾讯云的弹性MapReduce（EMR）服务来处理大规模数据集和并行计算任务。EMR提供了丰富的计算资源和工具，可以方便地进行分布式数据处理和并行计算。您可以参考腾讯云EMR的产品介绍和使用文档来了解更多信息。

腾讯云EMR产品介绍：https://cloud.tencent.com/product/emr 腾讯云EMR使用文档：https://cloud.tencent.com/document/product/589

注意：由于要求不能提及特定的云计算品牌商，以上回答仅针对问题本身，提供一般性建议和相关链接，希望能对您有所帮助。

页面内容是否对你有帮助？

有帮助

没帮助

我正在使用Dask在多个数据集上使用Snorkel应用LabelingFunction，但这似乎需要很长时间。这是正常的吗？

、、

我的问题如下:我有几个csv格式的数据集(900K，1M7和1M7条目)，我将它们加载到多个Dask Dataframe中。然后，我将它们连接到一个Dask Dataframe中，我可以将它们提供给我的Snorkel应用程序，它将一组标记函数应用到我的Dataframe的每一

浏览 9提问于2021-02-06得票数 1

回答已采纳

1回答

同时将xarray数据集写入zarr --如何有效地使用dask分布式扩展

、、、、

TLDR:我有一个工作流程，它在S3上获取栅格数据集的列表，并生成一个dask数组支持的xarray数据集。我需要迭代多个</

浏览 6提问于2021-03-23得票数 1

回答已采纳

1回答

用dask.bag.from_sequence计算核密度估计

、

我正在尝试计算一个相当大的二维数据集的核密度估计到。函数scipy.stats.gaussian_kde需要很长时间，所以我想我可以使用dask (v0.15.2)来更快地得到结果。然而，我不确定我的方法是否真的得到了任何加速。下面是一个示例：from scipy.stats import gaussian

浏览 1提问于2017-12-11得票数 0

回答已采纳

2回答

使用dask* hdf/parquet的Python大型数据集特征工程工作流*

、、、、

已经有了一个很好的问题，但最好的答案是现在已经5年了，所以我认为2018年应该有更好的选择。重复1/2/3 (<em

浏览 0提问于2018-03-29得票数 2

1回答

在Jupyter notebook中初始化任务计算需要很长时间

、、、

我正在尝试使用Dask通过Jupyter笔记本在我的笔记本电脑上处理一个大于内存的数据集。数据存储在Amazon-s3存储桶中的csv文件数量。第一个单元运行很快，我可以按预期查看端口8787上的Dask仪表板。55.1秒，这对我来说似乎很

浏览 27提问于2019-01-17得票数 0

1回答

使用groupby的有效方法是什么&对大型数据集应用自定义函数并避免混洗？

、、、

我试图在一个巨大的数据集上使用groupby和apply，这是一个自定义函数，它会给我带来内存错误，并且工作人员会因为混洗而被杀死。我怎样才能避免洗牌，并有效地做到这一点。我正在读取大约50个700MB (每个)的拼图文件，这些文件中的数据是隔离的，即没有组存在于多个文件中。如果我尝试

浏览 17提问于2019-01-13得票数 1

1回答

用dask加载大型数据集

、

我所处的HPC环境中有集群、紧密耦合的互连和支持光泽的文件系统。我们一直在探索如何利用Dask不仅提供计算，而且充当一个分布式缓存，以加快我们的工作流。我们的专有数据格式是n维和规则的，我们编写了一个懒散的读取器，以传递给from_array/from_delayed方法。我们在Dask集群中加载和持久化比内存更大的数据</e

浏览 0提问于2018-06-11得票数 2

回答已采纳

4回答

可能有两个工作集? 1)数据2)代码

关于操作系统的概念...一个流程是否可以有两个工作集，一个表示数据，另一个表示代码？

浏览 2提问于2010-05-12得票数 0

1回答

重采样和群对大达克阵列与x数组-使用map_blocks？

、、、

我有一个定制的工作流，它需要使用resample来获得更高的时间频率，应用ufunc和groupby + mean来计算最终结果。我想将它应用到一个大型xarray数据集中，该数据集由一个块的dask数组支持。对于计算，我想使用dask.distributed。分组和重采样会在所有块上

浏览 1提问于2020-12-16得票数 3

2回答

在Rails中处理大型记录集

、、

我正在尝试对一个比正常数据集(2m+记录)更大的数据集执行日常操作。然而，Rails在这样的数据集上执行操作似乎需要很长的时间。这样的操作 ...需要很长时间</e

浏览 2提问于2010-04-09得票数 2

回答已采纳

2回答

使用dask的新to_sql提高效率(内存/速度)或替代将数据从dask数据获取到Server表

、、、、

我的最终目标是将SQL/Python一起用于一个有太多数据供熊猫处理的项目(至少在我的机器上)。对于上面的#1、#2和#3，由于内存限制/执行时间长，这是我发现不可能与熊猫一起完成的任务，但是dask解决了上面提到的#1和#2，但是我仍然在努力解决#3 --以一种自动的方式

浏览 4提问于2020-06-16得票数 6

回答已采纳

1回答

减少dask* XGBoost内存消耗*

、、、、

我正在编写一个简单的脚本代码来在我的数据集上训练一个XGBoost预测器。这是我正在使用的代码：import dask_ml from dask.distributed import Client, LocalCluster这里有一个例

浏览 2提问于2021-05-01得票数 0

2回答

dask能取代资源管理系统吗？

地球问候， dask能否取代资源管理系统(如SGE )作为调度程序？我注意到dask可以使用SGE，但从长远来看，我真正想要的是用我可以从conda安装的东西替换SGE，看看dask文档，尝试一下似乎很有趣。SGE不再在较新的linux系统上轻松安装，因此如果dask可以在简单的anaconda安装之后使用，它

浏览 1提问于2018-01-16得票数 1

回答已采纳

1回答

选择子集后将其转换为pandas时，Dask* dataframe内存不足*

、、、、

所以我有一个包含160M记录和240列的拼图文件。因此，我使用dask在python中使用EMR CLuster m5.12xlarge加载它。import dask.dataframe as dd 现在我需要其中一列的值计数和归一化值计数： count = df.a.value_counts这只需要几秒的时间</em

浏览 1提问于2021-09-23得票数 0

1回答

如何使用dask高效地(代码大小，scheduler+cluster运行时)聚合大量的小csv文件(大约50k文件，每个120kb)？

、、、、

我有一个数据集，其中包含每个文件的时间序列。我真的很高兴dask在我们的集群上处理大约1k个文件(在我的例子中是一个目录)。但我有大约50个目录。有趣的是，构建dask图似乎比实际问题消耗了更多的内存和CPU。这只在调度器上。我也一直<em

浏览 10提问于2020-10-24得票数 1

1回答

加载多个csv文件后在dask中运行操作时出现问题

、、、

我正在尝试使用dask来处理一些ML项目中的大型数据集。将单独的CSV文件加载到dask数据帧中工作正常。当我尝试使用多个CSV文件时，任何类似“计算”的操作都会导致程序无限期挂起。这运行得很好 import dask.dataframe as ddimport <em

浏览 11提问于2019-12-12得票数 0

1回答

如何在线程调度程序中利用多线程？

、、

我对Dask的本地线程调度程序感兴趣。此调度程序可以使用多个线程从多维数组中“并行”加载数据块。我对I/O界问题感兴趣，所以暂时不考虑计算密集型应用。使用Dask的存储方法从随机数组加载和保存数据的一些速度测试似乎证实了这一事实:随着块大小的增加，性能下降(据说是因为最小块增加了并行性)。在这个实验中，我</e

浏览 4提问于2019-11-02得票数 2

回答已采纳

2回答

在大规模数据集(400GB+，100 m行x200列)上训练模型的最佳方法(最便宜/最快的选择)是什么？

、、、、

我有一个400 to的数据集，我想训练一个模型。训练这种模型最便宜的方法是什么？到目前为止，我能想到的选择是：具有大量RAM和训练CPU的AWS实例(慢，但实例便宜)。带有许多GPU的AWS实例，并使用Dask + XGBoost分发(速度快，但代价高昂，我甚至不认为有足够大的实例可以处理)。我</e

浏览 0提问于2021-03-18得票数 6

1回答

如何减少将达斯克数据转换成熊猫数据的时间

、、、

我有一个功能，读取大的csv文件使用dask数据，然后转换成熊猫的数据，这需要相当长的时间。parameter_id']==168577]P1MI3=P1MI3.compute()和P1MJC_old=P1MJC_main.compute()分别使用有没有办法缩短时间。

浏览 2提问于2019-09-19得票数 2

回答已采纳

1回答

当控制台终止时，dataframe是否仍然存在？

、、、、

我创建了一个Pandas dataframe {"batch_size" : list(range(64)), "training_time" : list(range(64)),然后，在循环中运行循环仍在进行中，我预计它不会在我

浏览 2提问于2020-07-07得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

我正在使用Dask在多个数据集上使用Snorkel应用LabelingFunction，但这似乎需要很长时间。这是正常的吗？

相关·内容

我正在使用Dask在多个数据集上使用Snorkel应用LabelingFunction，但这似乎需要很长时间。这是正常的吗？

同时将xarray数据集写入zarr --如何有效地使用dask分布式扩展

用dask.bag.from_sequence计算核密度估计

使用dask* hdf/parquet的Python大型数据集特征工程工作流*

在Jupyter notebook中初始化任务计算需要很长时间

使用groupby的有效方法是什么&对大型数据集应用自定义函数并避免混洗？

用dask加载大型数据集

可能有两个工作集? 1)数据2)代码

重采样和群对大达克阵列与x数组-使用map_blocks？

在Rails中处理大型记录集

使用dask的新to_sql提高效率(内存/速度)或替代将数据从dask数据获取到Server表

减少dask* XGBoost内存消耗*

dask能取代资源管理系统吗？

选择子集后将其转换为pandas时，Dask* dataframe内存不足*

如何使用dask高效地(代码大小，scheduler+cluster运行时)聚合大量的小csv文件(大约50k文件，每个120kb)？

加载多个csv文件后在dask中运行操作时出现问题

如何在线程调度程序中利用多线程？

在大规模数据集(400GB+，100 m行x200列)上训练模型的最佳方法(最便宜/最快的选择)是什么？

如何减少将达斯克数据转换成熊猫数据的时间

当控制台终止时，dataframe是否仍然存在？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐