开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

compute() in dask不工作

Dask是一个用于并行计算的灵活、可扩展的开源库，它提供了一种在大数据集上进行高性能计算的方式。在Dask中，compute()函数用于触发计算任务的执行。

当compute()在Dask中不工作时，可能有以下几个可能的原因和解决方法：

任务定义错误：首先，需要确保任务的定义是正确的。检查任务的输入参数、函数调用、依赖关系等是否正确。可以使用Dask提供的调试工具（如visualize()函数）来可视化任务的执行图，以帮助发现问题。
任务依赖未满足：Dask使用延迟计算的方式，只有在需要结果时才会执行计算任务。如果任务的依赖关系未满足，compute()函数将无法触发计算。确保所有的依赖都已经计算完成，或者使用persist()函数将结果持久化到内存中。
内存不足：如果计算任务涉及到大规模的数据集或复杂的计算操作，可能会导致内存不足的问题。可以尝试增加可用内存，或者使用Dask的分布式模式，在多台机器上进行计算。
集群配置问题：如果使用Dask集群进行计算，可能会出现集群配置问题导致compute()函数不工作。检查集群的配置是否正确，包括节点数量、资源分配等。
版本兼容性问题：Dask有时会受到Python和相关库的版本兼容性影响。确保使用的Python版本和相关库的版本与Dask兼容，并尝试升级到最新的稳定版本。

总之，当compute()函数在Dask中不工作时，需要仔细检查任务定义、依赖关系、内存使用和集群配置等方面的问题，并根据具体情况采取相应的解决方法。在解决问题时，可以参考腾讯云提供的Dask相关产品，如腾讯云Dask服务（https://cloud.tencent.com/product/dask）来提供高性能的计算能力。

相关搜索:Dask - compute(scheduler='processes')在提示下不能很好地工作 Dask compute (捕获错误)，但将结果保留在工作进程上 Dask compute()阻塞，不执行任何操作 Dask read_sql_table不返回数据 dask.array.compute()失败，并显示RuntimeError: NetCDF: HDF错误 dask.compute()中的重试次数不明确 Dask并行工作不会比没有dask更好 dask性能随着传递给dask.compute的延迟对象数量的增加而降低，其中scheduler='processes‘Google API Explorer不创建Compute Engine VM实例 Gradle不工作，下载位置不工作

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Windows凭据不工作

如果不是敲错IP、用户名、密码，报凭据不工作，一般情况下执行这几句命令后重启远程服务就正常了第1句：REG ADD "HKLM\SOFTWARE\Policies\Microsoft\Windows NT...用户名或密码敲错了或复制粘贴的时候带了多余的字符，或者键盘兼容性问题，我曾遇到过横排数字键和右侧数字键区，按键不符合预期的情况（可能没按出来值，也可能按出来跟预期的值不一样）2、用户名、密码正确，通过vnc能进入系统，通过远程就是报凭据不工作上次我遇到个

5.9K2 0

【Python 数据科学】Dask.array：并行计算的利器

，我们使用了.compute()方法来触发计算。...在Dask中，计算是延迟执行的，所以在我们调用.compute()方法之前，实际的计算并没有发生。 3....为了使用Dask.array进行分布式计算，我们需要搭建一个分布式集群，并创建一个Dask.distributed客户端。首先，我们需要启动一个Dask调度器和多个工作节点。...在分布式计算中，Dask会将任务分发到不同的工作节点上执行，并监控任务的执行进度。每个工作节点会执行其分配到的任务，并将结果返回给调度器。...8.2 使用原地操作在Dask.array中，原地操作是一种可以提高性能的技巧。原地操作指的是在进行数组计算时，将计算结果直接存储在原始数组中，而不创建新的数组。

7475 0

Dask教程：使用dask.delayed并行化代码

from dask.distributed import Client client = Client(n_workers=4) 基础首先让我们创建一些玩具函数，inc 和 add，它们会休眠一段时间来模拟工作...这个决定，延迟还是不延迟，通常是我们在使用 dask.delayed 时需要深思熟虑的地方。在下面的示例中，我们遍历输入列表。如果输入是偶数，那么我们想调用 inc。...延迟对象上的方法和属性访问会自动工作，因此如果您有一个延迟对象，您可以对其执行正常的算术、切片和方法调用，它将产生正确的延迟调用。...当您有多个输出时，您可能需要使用 dask.compute 函数： >>> from dask import compute >>> x = delayed(np.arange)(10) >>> y =...x ** 2 >>> min_, max_ = compute(y.min(), y.max()) >>> min_, max_ (0, 81) 这样 Dask 就可以共享中间值 (比如 y = x

4K2 0

加速python科学计算的方法（二）

但是，这个不仅会加重学习和开发工作（因为我们的重心还是在分析数据上，而不是在其他外围操作上），而且会加大之后的调试难度。...用下图可以形象地解释这个问题：文件这么导入之后，剩下的工作几乎和在pandas中一样了，这就取决你想怎么分析这些数据了。...有一点需要注意的是，你对raw的操作都不会真正的运算下去，只会继续添加计划，至于当我们使用compute()函数时它才会真正开始运算，并返回pandas.DataFrame格式的对象。...：raw[‘Z’]=raw[‘X’]+raw[‘Y’] （3）把Z字段中等于0的样本都挑选出来，new=raw[raw[‘Z’]==0] （4）返回DataFrame格式的new对象，new=new.compute...简单地说，只要要求不苛刻，用dask准没错。

1.5K10 0

python︱大规模数据存储与读取、并行计算：Dask库简述

('2015-*-*.csv') df.groupby(df.user_id).value.mean().compute() 非常相似，除了.compute() . 2、Dask Array读取hdf5...) b.pluck('name').frequencies().topk(10, lambda pair: pair[1]).compute() 读取大规模json文件，几亿都很easy >>> b =...delayed(process)(data)) # Build connections between variables result = delayed(summarize)(L) result.compute...(), predictions.compute())) import matplotlib.pyplot as plt %matplotlib inline...fpr, tpr, _ = roc_curve(labels_test.compute(), predictions.compute()) # Taken from http://scikit-learn.org

6.1K7 0

又见dask! 如何使用dask-geopandas处理大型地理数据

对于dask-geopandas，可以通过调整Dask的工作进程数和内存限制来优化性能。...='intersects') # 移除多余的索引列 joined = joined.drop(columns='index_right') joined.compute...joined = joined.drop(columns='index_right') # 计算结果前启动垃圾收集 gc.collect() joined.compute...import delayed, compute # 从dask中导入compute函数 input_shapefile = '/home/mw/input/dask6250/201105.shp'...的compute函数来执行所有延迟任务 compute(*tasks) gc.collect() # 手动启动垃圾收集释放内存 end_time = time.time

831 0

使用Dask DataFrames 解决Pandas中并行计算的问题

是的-Dask DataFrames。大多数Dask API与Pandas相同，但是Dask可以在所有CPU内核上并行运行。它甚至可以在集群上运行，但这是另一个话题。...dd.read_csv(‘data/2000.csv’, parse_dates=[‘Date’]) monthly_total = df.groupby(df[‘Date’].dt.month).sum().compute...() 与往常一样，在调用compute()函数之前，Dask不会完成任何处理。...让我们看看Dask提供了哪些改进。它接受read_csv()函数的glob模式，这意味着您不必使用循环。在调用compute()函数之前，不会执行任何操作，但这就是库的工作方式。...dd.read_csv(‘data/*.csv’, parse_dates=[‘Date’]) yearly_total = df.groupby(df[‘Date’].dt.year).sum().compute

4.1K2 0

RDP你的凭据不工作RDP密码不刷新

新电脑使用Microsoft账号登录后，RDP提示“你的凭据不工作” 在修改Microsoft账户密码后，RDP的密码一直不更新在Microsoft账户开启无密码后，RDP无法使用如果你不属于上述的情况

12.6K3 0

对比Vaex, Dask, PySpark, Modin 和Julia

我们的想法是使用Dask来完成繁重的工作，然后将缩减后的更小数据集移动到pandas上进行最后的处理。这就引出了第二个警告。必须使用.compute()命令具体化查询结果。...与PySpark一样，dask不会提示您进行任何计算。准备好所有步骤，并等待开始命令.compute（）然后开始工作。为什么我们需要compute() 才能得到结果?...(d2, on="col") re = re.groupby(cols).agg(params).compute() Dask性能如何比较用于不同目的的两个平台的速度并非易事。...看起来Dask可以非常快速地加载CSV文件，但是原因是Dask的延迟操作模式。加载被推迟，直到我在聚合过程中实现结果为止。这意味着Dask仅准备加载和合并，但具体加载的操作是与聚合一起执行的。...Vaex 到目前为止，我们已经看到了将工作分散在更多计算机核心之间以及群集中通常有许多计算机之间的平台。他们还无法击败Pandas而 Vaex的目标是做到这一点。

4.5K1 0

128 天不上班不工作：照样领工资 9.5 万

和风畅想公司为证明杜某试用期不能胜任岗位工作提交了《录取聘用函》《试用期目标设定表》《工作不胜任数据参考说明》、录音、其他人员工完成的测试用例。...《试用期目标设定表》中载明杜某的主要工作职责是：“1.执行日常测试工作；2.熟悉、掌握业务；3.整理、优化好测试用例；4.性能测试；5.职业技能提升。”...与上述工作职责相对应的衡量标准为：“按期交付，长期bug发现率高于平均水平，遗漏率小于3%；能够胜任车长或备份车长职责，外部干系评价良好；对Case集有整体把握，Case集功能完备、简洁、不冗余并且能适应最新产品...和风畅想公司称《工作不胜任数据参考说明》系杜某的上级主管对其在试用期间的工作评价，但无上级主管签字亦无杜某确认痕迹，该说明中提到杜某存在“工作产出偏低”“组内任务相应偏慢，日常工作积极性偏低”“测试质量低...杜某提交工作数据统计截图、统计数据、自行整理的工作成果、办公软件聊天记录、微信聊天记录，以证明其完成了和风畅想公司安排的工作任务，不存在不能胜任的情况。

2.1K2 0

Pandas高级教程——性能优化技巧

# 不推荐的方式 for index, row in df.iterrows(): df.at[index, 'new_column'] = row['old_column'] * 2 # 推荐的方式...# 不推荐的方式 df['new_column'] = df['old_column'].apply(lambda x: my_function(x)) # 推荐的方式 df['new_column'...使用 Dask 进行并行处理 Dask 是一个用于并行计算的库，可以与 Pandas 配合使用，加速处理大型数据集的操作。...import dask.dataframe as dd # 使用 Dask 加速读取和处理数据 dask_df = dd.read_csv('your_data.csv') result = dask_df.groupby...('column_name').mean().compute() 9.

3161 0

NumPy 高级教程——并行计算

使用 Dask 加速计算 Dask 是一个用于并行计算的灵活工具，可以与 NumPy 结合使用，提供分布式和并行计算的能力。...import dask.array as da # 将 NumPy 数组转换为 Dask 数组 arr_dask = da.from_array(arr_large, chunks=len(arr_large...) // 4) # 并行计算 result_dask = da.sin(arr_dask) # 获取最终结果 result_dask.compute() # 验证结果一致性 assert np.allclose...(result_non_parallel, result_dask.compute()) 4.

6751 0

安利一个Python大数据分析神器！

下面这个就是Dask进行数据处理的大致流程。 ? 2、Dask支持哪些现有工具？...conda install dask 因为dask有很多依赖，所以为了快速安装也可用下面代码，将安装运行Dask所需的最少依赖关系集。...git clone https://github.com/dask/dask.git cd dask python -m pip install . 4、Dask如何使用？...上图明显看到了并行的可能性，所以毫不犹豫，使用compute进行并行计算，这时才完成了计算。...>>> total.compute() 45 由于数据集较小无法比较时间，这里只介绍下使用方法，具体可自己动手实践下。

1.6K2 0

多快好省地使用pandas分析大型数据集

按照app和os分组计数 .groupby(['app', 'os']) .agg({'ip': 'count'}) ) 图6 那如果数据集的数据类型没办法优化，那还有什么办法在不撑爆内存的情况下完成计算分析任务呢...图10 推荐使用conda install dask来安装dask相关组件，安装完成后，我们仅仅需要需要将import pandas as pd替换为import dask.dataframe as dd...接下来我们只需要像操纵pandas的数据对象一样正常书写代码，最后加上.compute()，dask便会基于前面搭建好的计算图进行正式的结果运算： ( raw # 按照app和os分组计数....groupby(['app', 'os']) .agg({'ip': 'count'}) .compute() # 激活计算图 ) 并且dask会非常智能地调度系统资源，使得我们可以轻松跑满所有...CPU：图12 关于dask的更多知识可以移步官网自行学习（ https://docs.dask.org/en/latest/ ）。

1.4K4 0

webpack的watch选项不工作原因分析

但这样webpack检测文件变动的原来逻辑就不工作了。代码见webpack/lib/node/NodeWatchFileSystem.js。

4K6 0

掌握XGBoost：分布式计算与大规模数据处理

XGBoost提供了Dask和Distributed作为分布式计算的后端。...以下是一个简单的示例，演示如何使用Dask设置分布式环境： from dask.distributed import Client # 创建Dask客户端 client = Client() # 查看集群信息...以下是一个简单的示例，演示如何使用Dask和XGBoost处理大规模数据： import xgboost as xgb import dask.dataframe as dd # 加载大规模数据集 data...(preprocess_data) # 查看处理后的数据 print(processed_data.compute()) 结论通过本教程，您学习了如何在Python中使用XGBoost进行分布式计算和大规模数据处理...首先，我们设置了分布式环境，然后使用Dask和XGBoost处理了大规模数据集，包括训练模型和进行特征工程操作。

2861 0

干货 | 数据分析实战案例——用户行为预测

dask中的数表处理库 import sys # 外部参数获取接口面对海量数据，跑完一个模块的代码就可以加一行gc.collect()来做内存碎片回收，Dask Dataframes与Pandas...使用.compute()强迫它这样做，否则它不.compute() 。...# 真正加载数据 data.compute() .dataframe tbody tr th { vertical-align: top; } .dataframe thead th {...text-align: right; } # 可视化工作进程，58个分区任务 data.visualize() 数据预处理数据压缩 # 查看现在的数据类型 data.dtypes U_Id...的时候，所有支持的原pandas的函数后面需加.compute()才能最终执行 Be_counts = data["Be_type"].value_counts().compute() Be_counts

2.5K2 0

satpy系列｜卫星视角看3.15北京沙尘暴

本文的数据为 Himawari-8 静止卫星L1b产品： from glob import glob from datetime import datetime import dask import...res = 0.01 area_extent = (80, 20, 140, 70) composite_name = 'true_color' 由于需要绘制的图形比较多，为了加快绘图速度，使用 dask...并行绘图： %%time tasks = dask.delayed(process([f]) for f in files) tasks.compute() 3月15日0500UTC Himawari...composite_name = 'dust' tasks = dask.delayed(process([f]) for f in files) tasks.compute() 3月15日0500UTC

6381 0

（数据科学学习手札150）基于dask对geopandas进行并行加速

2 dask-geopandas的使用　　很多朋友应该听说过dask，它是Python生态里非常知名的高性能计算框架，可以针对大型数组、数据框及机器学习模型进行并行计算调度优化，而dask-geopandas...就是由geopandas团队研发的，基于dask对GeoDataFrame进行并行计算优化的框架，本质上是对dask和geopandas的封装整合。...dask-geopandas的安装非常简单，在已经安装了geopandas的虚拟环境中，执行下列命令即可： conda install dask-geopandas -c conda-forge -y...demo_points_ddf = dgpd.from_geopandas(demo_points, npartitions=4) demo_points_ddf 　　在此基础上，后续执行各种运算都需要在代码末尾衔接.compute...：　　当然，这并不代表我们可以在任何场景下用dask-geopandas代替geopandas，在常规的中小型数据集上dask-geopandas反而要慢一些，因为徒增了额外的分块调度消耗。

9833 0

手把手带你科研入门系列 | PyAOS基础教程十：大数据文件

当然dask也可以把这些chunks分发到不同的cpu核上进行处理。那么多大的chunk比较合适呢？...%%time pr_max.compute() 第一行代码的作用是打印当前cell的运行时间。...Memory: 17.18 GB 然后，我们再来调用一下computer函数，来看看数据处理花了多少时间，跟前面的单核场景进行对比： %%time pr_max.compute...4、绘图在完成了日最大降雨量的数据计算后，即可以完成画图工作。...5、总结本文的主要知识点：学会用dask和xarray库让netCDF数据加载、处理和可视化等操作更加简单； Dask可以通过并行加速数据处理，但需要特别注意数据分块大小。

1.1K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭