Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >并行但不同的Slurm运行作业步骤调用无效

问并行但不同的Slurm运行作业步骤调用无效
EN

Stack Overflow用户

提问于 2016-02-18 22:32:18

回答 3查看 4.9K关注 0票数 7

我想在大量不同的输入文件上运行相同的程序。我可以把每一个都作为一个单独的Slurm提交来提交，但是我不想一次抛掉1000个作业来淹没队列。我一直在试图找出如何处理相同数量的文件，方法是先创建一个分配，然后在分配中循环使用srun的所有文件，给每个调用分配一个单独的核心。问题是，无论我做什么，一次只运行一个工作步骤。我能想到的最简单的测试案例是：

#!/usr/bin/env bash

srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &

wait

不管我分配了多少个核心，分配：

time salloc -n 1 test
time salloc -n 2 test
time salloc -n 4 test

总要花4秒。不可能并行执行多个作业步骤吗？

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2016-02-27 16:10:09

结果是没有定义每个cpu的默认内存，因此即使是单个核心作业也是通过保留节点的所有RAM来运行的。

设置DefMemPerCPU，或指定显式内存保留，都是其中的诀窍。

票数 6

EN

Stack Overflow用户

发布于 2016-02-24 06:33:17

请注意，在这种情况下，您可以同时测量运行时间和等待时间。您的提交脚本应该如下所示：

#!/usr/bin/env bash

time {
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
wait
}

简单地提交给

salloc -n 1 test
salloc -n 2 test
salloc -n 4 test

然后，您应该观察到差异，以及使用srun: Job step creation temporarily disabled, retrying时的消息(如n<4 )。

票数 4

EN

Stack Overflow用户

发布于 2022-05-15 09:15:18

由于OP解决了他的问题，但没有提供代码，我将在下面分享我对这个问题的看法。

在我的例子中，我遇到了错误/警告step creation temporarily disabled, retrying (Requested nodes are busy)。这是因为，首先执行的srun命令分配了所有内存。与OP所遇到的原因相同。要解决这个问题，首先可以选择(？)指定sbatch的总内存分配(如果您使用的是sbatch脚本)：

#SBATCH --ntasks=4
#SBATCH --mem=[XXXX]MB

然后为每个任务指定内存使用情况：

srun --exclusive --ntasks=1 --mem-per-cpu [XXXX/4]MB sleep 1 &
srun --exclusive --ntasks=1 --mem-per-cpu [XXXX/4]MB sleep 1 &
srun --exclusive --ntasks=1 --mem-per-cpu [XXXX/4]MB sleep 1 &
srun --exclusive --ntasks=1 --mem-per-cpu [XXXX/4]MB sleep 1 &
wait

我没有为srun指定CPU计数，因为在我的sbatch脚本中包含了#SBATCH --cpus-per-task=1。出于同样的原因，我怀疑您可以在--mem命令中使用--mem-per-cpu而不是--mem-per-cpu，但是我还没有测试这个配置。

票数 2

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35498763

复制

相关文章

Linux安装CUDA的正确姿势[通俗易懂]

深度学习 gcc

CUDA（Compute Unified Device Architecture，统一计算架构）是由NVIDIA所推出的一种集成技术，是该公司对于GPGPU的正式名称。

全栈程序员站长

2022/08/01

8.4K0

Linux安装CUDA的正确姿势[通俗易懂]

CUDA共享内存的使用示例

CUDA共享内存使用示例如下：参考教材《GPU高性能编程CUDA实战》。P54-P65 教材下载地址：http://download.csdn.net/download/yizhaoyanbo/10150300。如果没有下载分可以评论区留下邮箱，我发你。 1 #include <cuda.h> 2 #include <cuda_runtime.h> 3 #include <device_launch_parameters.h> 4 #include <device_functions.h> 5

一棹烟波

2018/01/12

2.8K1

Git示例教程 - 有关Git命令无法正确显示中文路径的问题

看到了吧，在我们设置了Git的 core.quotePath 参数后，中文路径就可以正常显示了。

KINGYT

2019/11/11

1.9K0

【示例】基于字符数输出的简单示例

2、需要把准备使用的变量进行定义，通常变量是全局变量，并且，还需要定义一批文字常量。

鲁郭大侠

2020/03/03

7690

DAY48：阅读 Atomic Functions

An atomic function performs a read-modify-write atomic operation on one 32-bit or 64-bit word residing in global or shared memory. For example, atomicAdd() reads a word at some address in global or shared memory, adds a number to it, and writes the result back to the same address. The operation is atomic in the sense that it is guaranteed to be performed without interference from other threads. In other words, no other thread can access this address until the operation is complete. Atomic functions do not act as memory fences and do not imply synchronization or ordering constraints for memory operations (see Memory Fence Functions for more details on memory fences). Atomic functions can only be used in device functions.

GPUS Lady

2018/08/01

9380

DAY48：阅读 Atomic Functions

server2019+vs2022+cuda11.4测试CUDA Samples示例

云服务器 windows server windows

先安装grid驱动，然后安装cuda环境时注意不要安装显卡驱动，否则会冲掉grid驱动

Windows技术交流

2023/01/11

4.1K0

PyTorch中模型的可复现性

在PyTorch发行版中，不同的版本或不同的平台上，不能保证完全可重复的结果。此外，即使在使用相同种子的情况下，结果也不能保证在CPU和GPU上再现。

BBuf

2020/02/27

1.9K0

查看 CUDA 版本正确方法（亲测有效）

深度学习 https java 网络安全命令行工具

这个方法不对，这里的11.2 指的是可驱动的最高版本。下载CUDA的版本应低于11.2。

全栈程序员站长

2022/08/11

15.6K0

查看 CUDA 版本正确方法（亲测有效）

AndroidStudio无法输出日志的Bug

正常情况下我们在真机调试程序时，如图箭头所指的位置显示的应该是该应用的主包名，但是有的时候明明打开了开发者模式，但是却无法输出日志，该位置显示的也不是应用包名，显示的是 no debuggable applications ，这个时候我们就需要打开adb

萬物並作吾以觀復

2018/09/13

1.2K0

AndroidStudio无法输出日志的Bug

CUDA编译器nvcc的用法用例与问题简答

本文使用nvcc版本：Cuda compilation tools, release 5.5, V5.5.0

恋喵大鲤鱼

2018/08/03

3.4K0

DAY49:阅读Arithmetic Functions和Bitwise Functions

reads the 32-bit or 64-bit word old located at the address address in global or shared memory, computes (old + val), and stores the result back to memory at the same address. These three operations are performed in one atomic transaction. The function returns old.

GPUS Lady

2018/08/01

3840

DAY49:阅读Arithmetic Functions和Bitwise Functions

Python王牌加速库：奇异期权定价的利器

python 神经网络深度学习

在金融领域，计算效率有时可以直接转化为交易利润。量化分析师面临着在研究效率和计算效率之间进行权衡的挑战。使用Python可以生成简洁的研究代码，从而提高了研究效率。但是，一般的Python代码速度很慢，不适合用于生产环境。在这篇文章中，我们将探索如何使用Python的GPU库来高性能实现奇异期权定价领域遇到的问题。

量化投资与机器学习微信公众号

2020/04/24

2.6K0

Python王牌加速库：奇异期权定价的利器

electron-builder进行DEBUG输出的正确方式

打包 electron builder debug 脚本

使用Electron进行打包通常会用到electron-builder或者electron-packager两种工具。在使用electron-builder的时候，由于对机制的不熟悉，我们在打包过程中常常遇到很多环境错误，但最终只是一些简单的错误信息，难以排查问题。本文将介绍electron-builder进行DEBUG输出的正确方式来帮助排查打包过程中的各种问题。

w4ngzhen

2023/10/17

6640

electron-builder进行DEBUG输出的正确方式

caffe随记(十)---DeepLabV2安装过程

makefile 深度学习

TeeyoHuang

2017/12/28

1K0

caffe随记(十)---DeepLabV2安装过程

Java如何正确地输出日志

日常开发日志打印需要注意哪些地方我的博客即将同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_co

茶半香初

2021/11/26

2.1K0

Udacity并行计算课程笔记-The GPU Hardware and Parallel Communication Patterns

kernel 编程算法

本小节笔记大纲： 1.Communication patterns gather,scatter,stencil,transpose 2.GPU hardware & Programming Model SMs,threads,blocks,ordering Synchronization Memory model: local, shared, global Atomic Operation 3.Efficient GPU Programming Access memory faster co

marsggbo

2018/01/23

1.1K0

Udacity并行计算课程笔记-The GPU Hardware and Parallel Communication Patterns

CUDA 的卸载_cuda怎么安装

深度学习 java https 网络安全

对于刚接触人工智能领域不久的我而言，装 CUDA 等一些跑模型需要用到的工具是一件痛苦的事，稍不注意就会导致版本依赖问题，最终可能会需要你把前面安装的东西都卸载掉并重新下载，故本文记录如何卸载 CUDA 使得卸载干净。

全栈程序员站长

2022/10/03

2.9K0

CUDA 的卸载_cuda怎么安装

2022版，Root用户，Ubuntu 18.04安装多cuda版本，示例cuda-9.2，cuda-10.2，以及对应版本cudnn

ubuntu apt-get linux 深度学习 https

这篇博客是安装的cuda-9.2,需要说明：cuda-9.2版本下载的时候只没有Ubuntu18.04，由于可以向下兼容，所有这里version选择16.04也是可以的，按照https://www.cxymm.net/article/weixin_43804210/108003802 该教程执行到 sudo apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev 出现报错使用命令apt-get install xxx 安装软件时报“http://cn.archive.ubuntu.com/ubuntu xxx“

水球喵子

2022/09/08

8510

2022版，Root用户，Ubuntu 18.04安装多cuda版本，示例cuda-9.2，cuda-10.2，以及对应版本cudnn

fastjson:JavaBeanInfo无法正确解析setter方法的问题分析

文件存储 json java 数据结构

版权声明：本文为博主原创文章，转载请注明源地址。 https://blog.csdn.net/10km/article/details/88941314

10km

2019/05/25

9310

EasyGBS出现密码正确但无法登录的情况分析

windows 数据库 sql linux

随着现在新内核的EasyGBS、EasyNVR以及EasyCVR的使用场景越来越广泛，这些平台也被运用在大小不同的很多实际项目中。在功能上，基本都能满足大部分用户的需求，也有少部分项目需要进行功能的定制。

TSINGSEE青犀视频

2021/12/08

1.2K0

相似问题

MATLAB中关于尺寸不匹配的错误

10

在Matlab中将表写入csv文件

10

写入CSV文件时的Unicode问题

220

如何克服读取/写入文件时的硬件限制。

36

如何克服scala中的类型不匹配

10

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例