使用AutoScheduler和GPU调度时出现卤化物索引错误，但不是默认CPU调度。 - 腾讯云开发者社区

opencv、halide

我正在测试opencv源代码树中一些示例的性能，这取决于是否使用卤化物。令人惊讶的是，如果使用卤化物进行计算，性能会更差： squeezenet_halide：~24 and与卤化物和~16 and无卤化物。 resnet_ssd_face：~84 and与卤化物和~36 and无卤化物。我按照中的说明编译了卤化物和opencv。opencv代码是从下载的。我已经使用示例文件'resnet_ssd_face.cpp‘和'squeezenet_halide.cpp’测试了性能。在这两种情况下，我都会在调用“forward”之前包含以下代码行，以激活或停用卤化

浏览 10提问于2017-11-09得票数 4

回答已采纳

2回答

使用最优的编译器标志和配置从cmake运行卤化物生成器

c++、cmake、gpu、avx、halide

好的，所以:我已经成功地将第一个工作的集成到了我的小的中。生成器实现了图像调整和-resampling算法，基于Halide代码库- -的示例代码，我调整了示例以利用生成器参数，并使用HalideGenerator.cmake中定义的函数将生成器的编译和调用绑定到我的cmake脚本，就像Halide项目在自己的构建脚本中所做的那样。到目前为止，所有这些都很好，但是在代码生成的细微差别方面，我的领域专长是缺乏的。例如，我调整了调度方法，以便在我的笔记本电脑上获得最佳的观察到的经验速度，但尽管我花了许多长时间的修修课和阅读代码的时间，深入到了Halide的许多与生成器相关的和的深度，但我对代

浏览 7提问于2016-07-31得票数 3

回答已采纳

1回答

如何用CodeGen_LLVM调试卤化物内部错误

llvm、halide

我在用卤化物查找JIT编译的管道报告的错误消息的来源时遇到了问题。日志消息是： Internal Error at Halide-release_2019_08_27/halide/src/CodeGen_LLVM.cpp:2815 triggered by user code at : Condition failed: append_string: 下面一行的LLVM_code是： llvm::Function *append_string = module->getFunction("halide_string_to_string"); internal_ass

浏览 5提问于2020-06-24得票数 0

2回答

JIT编译器有可能在幕后利用GPU进行某些操作吗？

compilation、theory、jit、gpu

如果我的理解有任何错误，请随时纠正我。我的理解是，CPU提供了普通CPU提供的指令子集，但执行速度要快得多。我知道有一些方法可以将GPU周期用于非图形目的，但似乎(在理论上)一种及时编译的语言可以检测到合适的GPU的存在，并将一些工作卸载到幕后的GPU，而不需要更改代码。我的理解是天真的吗？这只是一个问题，它真的很复杂，只是还没有完成吗？

浏览 2提问于2010-06-30得票数 8

回答已采纳

2回答

为什么我的JAX + Haiku代码不能在GPU上运行？

python、gpu、google-colaboratory、jax

下午好，我刚开始学习JAX和Haiku，但是我不能在GPU上运行我的代码。我在激活了GPU的Google Colab和Kaggle笔记本上运行了我的代码，但这比禁用GPU需要更多的时间。此外，当我查看GPU指标时，我发现我只使用了1%的计算能力，但使用了90%的GPU内存。下面是我的代码(MNIST的MLP)： def mlp(images): model = hk.Sequential([hk.Linear(128), jax.nn.relu, hk.Linear(64),

浏览 1提问于2021-11-11得票数 1

1回答

如何在CPU和GPU设备上同时运行任务？

c++、c++-amp

我有这样一段代码，它可以像我的知识水平一样被分析、优化和高速缓存--因为我很可能得到它。它在CPU上运行的概念如下： #pragma omp parallel for schedule(dynamic) for (int i = 0; i < numberOfTasks; ++i) { result[i] = RunTask(i); // result is some array where I store the result of RunTask. } 碰巧的是，RunTask()本质上是一组线性代数操作，每次都在相同的非常大的数据集上重复操作，因此适合在GPU上

浏览 0提问于2013-11-05得票数 5

回答已采纳

1回答

触发对特定资源的重新划分

scala、apache-spark

给定一个星火库集群，混合了各种类型的机器(例如，有和没有GPU)。我想运行一个火花管道，其中一些阶段运行在没有GPU的机器上，有些阶段使用GPU运行。我愿意使用任何集群管理器(纱线、库伯内特斯、梅索斯等)。 import org.apache.spark.sql.functions.udf val cpu_only = udf((v: String) => v) val gpu_only = udf((v: String) => v) val dataset = Seq((0, "hello"), (1, "world")).toDF("

浏览 0提问于2019-09-12得票数 0

回答已采纳

1回答

CPU使用率间歇性为100%

16.04、cpu

我们的度量框上的CPU使用率为100%，间歇性地导致：呈现Grafana仪表板时出现“内部服务器错误” 我们机器上唯一运行的应用程序是带有3个子容器的Docker。以下是我们的配置细节： 3个子容器正在运行\ 顾问\ 石墨地堑司机状况\ 码头版17.09.0-ce\ 内核版本4.4.0-103-泛型\ 操作系统版本Ubuntu 16.04 LTS\ 储物驱动程序->覆盖2\ 备份文件系统-> extfs\ 支持d_type -> true\ 本机覆盖Diff -> true 内存交换限制-> 2.00GB 下面是来自cAdvi

浏览 0提问于2018-01-25得票数 4

1回答

Kubernetes节点在CPU不足时不可用

kubernetes

我有一个Kubernetes集群，当我尝试将部署扩展到8个pods时，它给出了一个错误消息： "0/3个节点可用:3个cpu不足。“ 一段时间后，它显示3/8 pods可用，然后显示5/8 pods可用，但出现相同的错误，但从未达到8 pods。最近，我们引入了Pod的CPU限制。此错误的原因和解决方案是什么？

浏览 19提问于2019-02-07得票数 0

回答已采纳

2回答

如何正确地在Google / AWS上安装OBS？

amazon-web-services、amazon-ec2、virtual-machines、google-cloud-platform、google-compute-engine

我已经开始对24/7的实时流进行实验，我在google云平台上有一个Linux，我想从这个平台开始流。问题是，当我尝试在VM上启动OBS时，会弹出下一个错误：“初始化视频失败。您的GPU可能不受支持，或者您的图形驱动程序可能需要更新。”(截图)。据我所知，这个问题的出现是因为我的VM根本就没有GPU，只有CPU。我试着安装OpenGL，希望它能解决问题，但没有帮助。我可以在Ubuntu上运行OBS吗？如果有，它是什么，我是否必须使用带有GPU的VM？如果没有，你建议24/7小时提供哪些服务？提前谢谢！(：

浏览 0提问于2020-09-29得票数 2

1回答

Tensorflow的tensorflow CPU警告-gpu-夜间软件包

python、tensorflow、deep-learning、gpu

当我开始我的tensorflow会话时，我收到了以下错误:你的CPU支持这个TensorFlow二进制文件没有编译好使用的指令: AVX AVX2 我已经安装了windows的GPU夜间版本，并安装了CUDA GPU工具包9.0。这是一个CPU警告，不应该出现，因为我有一个GPU，并使用它来运行tensorflow模型。以下是我在训练模型时的图形处理器使用情况(任务管理器)：

浏览 1提问于2018-02-17得票数 0

1回答

GPU中的时间戳

cuda、timestamp、nvidia、instrumentation、nvprof

我希望收集在GPU上设备级发生的事件的跟踪。 CPU上的背景/类比：在CPU上，当进程A运行时，它可能会被另一个用户级进程B、系统/内核进程、各种中断(如硬件中断、网络中断、虚拟机管理程序相关中断等)中断。为了度量这些中断，理想情况下，我需要制作一个内核补丁，捕捉所有进程的开始和结束时间，以及调度程序和中断托盘中的中断。使这些内核数据结构对用户级别可见，然后从用户级程序中反复读取它们。我想为GPU做一些类似的事情。如何捕获这些中断和后台进程的时间戳?我在文献中看到可以用来收集时间戳，但我不清楚如何实际测量GPU以获得我需要的东西。有人能指出参考或告诉我如何仪器的GPU获得时间戳吗？或者具

浏览 1提问于2018-03-31得票数 0

1回答

CUDA异步内存复制-哪个硬件设备执行内存复制操作？

cuda

我一直在研究异步CUDA操作，并读到有一个内核执行(“计算”)队列和两个内存复制队列，一个用于主机到设备(H2D)，另一个用于设备到主机(D2H)。可以在这些队列中的每个队列中并发运行操作。如果我正确理解，那么在计算队列中可以同时执行多达16个内核。(32关于一些现代建筑。) 然而，在D2H和H2D队列中只能同时发生一个内存传输。如果两者同时使用，这总共是两个同时进行的内存传输，在两个不同的方向。假设我正确理解了这一切，我的问题是，是哪个设备“管理”数据的传输？进一步的读取表明GPU具有对主机(CPU)存储器(RAM)的直接存储器访问(DMA)。这意味着CUDA设备( GPU)包含一个管

浏览 0提问于2021-06-05得票数 0

2回答

解决SLURM“s批处理:错误:批作业提交失败:请求的节点配置不可用”错误

cluster-computing、batch-processing、slurm

我们有一个4 GPU节点，有2 36核心CPU和200 GB内存可用在我们的本地集群。当我试图提交一个具有折叠配置的作业时： #SBATCH --nodes=1 #SBATCH --ntasks=40 #SBATCH --cpus-per-task=1 #SBATCH --mem-per-cpu=1500MB #SBATCH --gres=gpu:4 #SBATCH --time=0-10:00:00 我得到了以下错误：批处理:错误:批作业提交失败:请求的节点配置不可用造成此错误的原因可能是什么？这些节点有我需要的那种硬件..。

浏览 0提问于2019-03-21得票数 8

回答已采纳

1回答

在卤化物管道中访问功能

c++、optimization、halide

我有一条卤化物管道，我想试几个时间表。我希望通过使用优化创建一个单独的文件来做到这一点，然后在运行时将它们应用到给定的Func中，这样我就可以自动地尝试它们以找到最快的。我开始编写自己的函数来完成这个任务，但是对于一些优化(比如compute_at )来说，这变得相当复杂。compute_at以Func作为第一个参数。有没有一种方法可以访问管道中的Funcs，而不必保留所有函数的列表，然后将这个列表传递给我的函数？我知道，由于卤化物的设计方式，这可能是不可能的。

浏览 0提问于2016-05-26得票数 0

回答已采纳

1回答

如何在windows10中使用GPU包运行lammps？

opencl、lammps

我在GPU10上安装了LAMMPS，以便在WIndows上执行计算。在非常小的规模上完成了计算，没有任何问题，但当计算某个规模的结构时，我得到了以下错误。文件'/home/akohlmey/compile/lammps-packages/mingw-cross/lammps/lib/gpu/geryon/ocl_kernel.h‘中的第467行出现OpenCL错误：-4。我能做什么操作来解决这个问题？我的英语很差，但是谢谢你的好意。

浏览 97提问于2021-04-21得票数 0

回答已采纳

1回答

支持GPU的TensorFlow操作

tensorflow、gpu

有没有办法(或者可能有一个清单？)来确定所有提供GPU支持的tensorflow操作？现在，对我来说，这是一个尝试和错误的过程--我尝试在GPU上放置一组操作。如果有效的话，亲爱的。如果不是，去别的地方试试。这是我到目前为止发现的唯一相关(但没有帮助)的东西：

浏览 4提问于2017-10-31得票数 2

回答已采纳

1回答

GPU和CPU并发性:生产者消费者限制缓冲区

concurrency、cuda

考虑以下问题：您有一个具有单个gpu和一个cpu的计算环境。在gpu上，运行一个在1e6浮点数数组上执行计算的程序。此计算步骤重复n次(过程1)。在每个计算步骤之后，我将数组从设备内存传输到主机内存。一旦传输完成，数据就会被分析，调用CPU上的串行算法(process 2)。这个程序按顺序工作。我想知道如何并行化进程1和2，以减少整个程序运行时。过程1必须等待过程2的完成，反之亦然。我知道CUDA内核是异步调用的，而且我知道存在带有固定主机内存的异步复制操作。但是，在这种情况下，我需要等待GPU完成，然后CPU才能开始处理该输出。我怎样才能传递这些信息呢？我试图修改多线程cpu生产者/

浏览 1提问于2015-04-24得票数 3

回答已采纳

1回答

GPU中的多线程是如何工作的？

multithreading、gpgpu、gpu

GPU如何处理多线程?？例如，在CPU中，每个线程都有独立的寄存器堆副本。但对于GPU这样的大型寄存器文件，这是不可能的。那么GPU是如何处理线程的呢？它们是否适合放在同一个寄存器文件中？如果某些寄存器在多个线程中使用，该怎么办？这是如何工作的呢？

浏览 0提问于2013-06-29得票数 2

回答已采纳

1回答

测量GPU中上下文切换的开销

cuda、gpu、overhead、context-switch

有很多方法来测量CPU上下文切换开销。它似乎没有多少资源来测量GPU上下文切换开销。CPU上下文切换和GPU的不同之处在于。 GPU的调度是基于warp调度的。为了计算GPU上下文切换的开销，我需要知道上下文切换和不进行上下文切换的翘曲时间，并进行减法以获得开销。我很困惑如何用上下文转换来测量翘曲的时间？有人有什么想法要衡量吗？

浏览 2提问于2014-06-17得票数 6

2回答

GPU/CUDA核心是SIMD核吗？

cuda、gpu、gpgpu、simd

我们来看看。上面写着：第一个基于费米的GPU，实现了30亿个晶体管，功能多达512 CUDA核心。CUDA核心为线程执行每个时钟的浮点数或整数指令。512个CUDA核心被组织成16个SMs，每个核心32个。 ..。每个CUDA处理器都有一个完全流水线的整数算术逻辑单元(ALU)和浮点单元(FPU)。 ..。在费米，新设计的整数ALU支持所有指令的完全32位精度，符合标准编程语言的要求。整数ALU也被优化，以有效地支持64位和扩展的精度操作.V 据我所知，也不清楚的是，GPU在所谓的翘曲中执行线程，每个翘曲由32个线程组成。每个翘曲只分配给一个核心(这是真的吗？)这是否意味着，单个

浏览 7提问于2015-02-02得票数 13

回答已采纳

1回答

使用python在GPU上运行函数

python

对于我们的函数，使用gpu比使用cpu更快，所以我想在python中使用gpu运行函数以使其更快。 #this function should run in GPU def sendRequest(url): resp = requests.get(url).text.lower() return resp 上面的函数是向成千上万的URL发送请求，我希望它使用GPU的能力。我的GPU : nvidia GTX 1660超级6 6GB

浏览 1提问于2021-01-02得票数 0

4回答

GPU从CPU读取还是CPU写入到GPU？

cuda、opencl、gpu

我是并行编程的初学者。我有一个问题，可能看起来很愚蠢，但当我在谷歌上搜索它时，我没有得到一个明确的答案。在GPU计算中，有一个设备，即GPU和主机，即CPU。我写了一个简单的hello world程序，它将在gpu上分配一些内存，将两个参数(例如src[]和dest[])传递给内核，将src字符串(即Hello world )复制到dest字符串，并将dest字符串从gpu获取到主机。字符串"src“是由GPU读取还是由CPU写入GPU？另外，当我们从GPU取回字符串时，是GPU写入CPU还是CPU从GPU读取？在来回传输数据时，有四种可能: 1. CPU到GPU - CPU写入

浏览 6提问于2012-07-03得票数 7

2回答

用于GPU的Halide交叉编译

halide

我想在GPU上运行Halide代码。有一个关于如何在GPU上运行和如何进行交叉编译的教程示例。但是，没有将交叉编译与在GPU上运行相结合的教程。我尝试了与交叉编译教程中的方法相同的方法。但我不确定目标的配置。 target.os = Target::Windows; target.arch = Target::X86; target.bits = 64; ... target.os = Target::Windows; // ??? target.arch = ??? ; target.bits = 64; std::vector<Target::Feature> gpu_

浏览 18提问于2017-03-07得票数 1

回答已采纳

1回答

GPU内核的多进程视频处理

cuda、ffmpeg、gpu、video-processing

我们是否可以将多个进程(即100-500个进程)分配给GPU，每个进程在一个GPU内核上运行？在我的视频处理应用中，我必须使用ffmpeg库来处理视频和音频。如果有超过100个甚至500个这样的独立进程，我猜将每个进程分配到一个GPU会更快。然而，我不知道我们是否可以做到这一点，要做到这一点，需要哪些库和工具？库达？

浏览 0提问于2015-08-18得票数 0

1回答

多节点Spark集群上的分布式Tensorflow训练

apache-spark、tensorflow、cluster-computing、distributed

我目前有一个本地spark集群3.0，它由3台机器组成。两台机器有2个NVIDIA GPU，一台机器是没有NVIDIA GPU的spark客户端主服务器。当我创建spark集群时，我看到它将GPU识别为仪表板上的资源。我正在尝试运行为发布的示例。当我创建spark上下文时： sc = pyspark.SparkContext(master = "spark://192.168.1.113:7077", appName="Spark GPU" ) 我看到GPU正

浏览 0提问于2020-09-22得票数 0

2回答

分布式tensorflow中的设备分配

tensorflow、distributed

我根据“”中的示例实现了图间复制和异步培训。然后，设置两个服务器和一个工作人员，如下所示。 python dnn.py --ps_hosts=localhost:19000，localhost:18000 --worker_dnn.py=localhost:11000-job=ps--任务_index=0 python dnn.py --ps_hosts=localhost:19000，localhost:18000 -worker_dnn.py=localhost:11000-job=ps--任务_index=1 python dnn.py --ps_hosts=localhost:190

浏览 0提问于2018-06-09得票数 0

2回答

我的左转怎么了？语法错误

mysql、sql

我有以下错误：您的SQL语法出现了错误；请检查与MySQL服务器版本相对应的手册，以便在第14行使用接近“左联接rep.de_para_game as b on b.exe =a.name”的右语法。当我试图逃跑时： drop table if exists rep.report_daily_gaming; create table rep.report_daily_gaming as select date(a.date) as date, a.name, b.alias, max(a.cpu) as cpu, max(a.mem) as mem, max(a.gpu_clock)

浏览 4提问于2022-09-03得票数 0

回答已采纳

1回答

使用GPU时显像板AVX2错误

python、tensorflow、deep-learning、jupyter-notebook

目前，我已经安装了Tensorflow CPU和GPU，用于木星笔记本。在此之前，我使用了CPU版本，因为我不需要GPU的性能.然而，现在我正在用我的GPU训练一个盗梦空间模型，我想访问Tensorboard。我以前使用CPU版本时遇到的问题是错误：Your CPU supports instructions that this Tensorflow binary was not compiled to use: AVX2。我在其他堆栈溢出问题中读过关于AVX2的文章，据我所知，这是由于我使用的Tensorflow的cpu版本。然而，现在我正在使用gpu版本的Tensorflow (在朱庇

浏览 2提问于2018-04-13得票数 0

2回答

GPU如何使用多个ALU处理任务？

gpu

我知道GPU是如何工作的(许多弱者在执行任务(GPU)，而一个强壮的人正在执行相同的任务(CPU)} )。 GPU如何管理所有ALU并将必要的计算安排到ALU？

浏览 0提问于2016-06-15得票数 3

2回答

GPU如何处理间接分支

gpu

我对GPU的理解是，它们通过执行所有路径来处理分支，同时挂起不应该执行路径的实例。这适用于if/then/else类型的构造和循环(终止循环的实例可以被挂起，直到所有实例都挂起)。如果分支是间接的，则这种展开不起作用。但是现代的R600 ( nVidia的费米和更多，不确定它什么时候出现在AMD，GPU ?)声称支持间接分支(函数指针、虚拟分派等)。问题是，芯片中发生了什么样的魔法才能实现这一点呢？

浏览 0提问于2015-08-11得票数 0

1回答

如何在GPU上正确运行model.fit？(未被原谅的行为)

python-3.x、gpu、tensorflow2.0、model-fitting

目前，我正在为数据科学做课程。在这里，有下面的示例可以在Tensorflow中训练模型： import tensorflow as tf from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense,Dropout model = Sequential() # Choose whatever number of layers/neurons you want. model.add(Dense(units=78,activation='relu')) model

浏览 2提问于2020-08-16得票数 1

3回答

Windows多任务处理破坏了OpenCL性能

c++、windows、multithreading、qt、opencl

我写Qt应用的想法很简单:有几个支持OpenCL的设备，每个设备都有自己的控制线程，负责准备数据、执行OpenCL内核和处理结果。OpenCL代码实际上是比特币挖掘内核(目前它是，但这无关紧要)。当使用2个GPU时，一切正常。当我使用GPU和CPU时，出现了一个问题。CPU以合理的速度工作，但GPU速度减慢到零性能。在Linux下没有这样的问题。在Windows下，poclbm的行为是相同的:当启动多个实例时( GPU为1，CPU为1)，GPU性能为0。我不确定我应该发布代码的哪一部分，所以它将是有帮助的。我只能提一下，这个线程是一个QThread的子线程，用一个繁忙的循环while(

浏览 4提问于2012-03-02得票数 2

回答已采纳

2回答

在调度单个工作项时是否存在不发散的保证？

parallel-processing、gpgpu、vulkan、parallelism-amdahl

如我们所知，当有条件分支时，在GPU上运行的工作项可能会发散。苹果的中也有这样的说法。因此，算法的某些部分可能运行“单线程”，只有一个工作项在运行。当它特别是串行和长时间运行时，一些应用程序将这些工作带回到CPU.。然而，这个问题只涉及GPU，并且假设这些部分是短暂的.当这些“单线程”部分有条件分支时(如执行真代码路径和伪代码路径)是否也会出现分歧？或者计算单元(或者处理元素，不管你喜欢哪个术语)会跳过那些假分支吗？更新作为对评论的回应，我会删除OpenCL标签并将Vulkan标记留在那里。我包括了OpenCL，因为我想知道clEnqueueTask和clEnqueueNDRange

浏览 1提问于2019-08-08得票数 0

1回答

用参数缓冲区动态地绘制地形:理解为什么粒子缓冲区没有被GPU覆盖

objective-c、metal、wwdc

我正在浏览一个Apple演示项目，它与2017年WWDC题为“引入金属2”的视频相关，在该视频中，开发人员演示了参数缓冲区的使用。在苹果开发者的网站上，这个项目在名为“用参数缓冲区动态绘制地形”的页面上链接了。在这里，它们同步CPU编写的资源，以防止与dispatch_semaphore_t发生争用情况，当命令缓冲区在GPU上完成执行时发出信号，如果CPU比GPU多帧写入数据，则等待它。这与前一次2014年WWDC“与金属合作:基本面”中显示的情况是一致的。我注意到，APPLParticleRenderer似乎正在发送GPU在计算pass中写入的数据，然后才从片段着色器读取之前的呈现传递。缓

浏览 4提问于2020-11-20得票数 0

回答已采纳

1回答

如何禁用TensorFlow图形处理器？

python、tensorflow、gpu、tensorflow2.0、cpu

我首先在我的图形处理器上用python创建了我的TensorFlow代码，使用： import tensorflow-gpu as tf 我把它用于训练目的，一切都进行得很顺利。但是现在，我想在没有GPU的设备上部署我的python脚本。所以，我用pip卸载了tensorflow-gpu，并导入了普通的TensorFlow： import tensorflow as tf 但是当我运行脚本时，它仍然在使用gpu： ? 我试过这段代码： try: # Disable all GPUS tf.config.set_visible_devices([], 'GPU

浏览 15提问于2021-01-24得票数 0

2回答

有没有办法在Windows中按进程找出和/或限制GPU的使用？

windows、process、gpu、cpu-usage、gpgpu

我想在一些机器上启动CPU和GPU密集型进程，但这些进程不能干扰用户的任务。因此，我需要限制或至少检测我的进程的GPU使用率。这些进程都是开源的，所以我不能从内部观察GPU的使用情况。

浏览 1提问于2011-01-24得票数 11

3回答

在导入keras时，您正在尝试使用旧的GPU后端。

python、machine-learning、neural-network、keras、theano

我在Ubuntu16.04上使用和后端。但是，我的设置一直在正常工作，但是当我导入Keras (import keras)时突然出现了以下错误： ValueError:您正在尝试使用旧的GPU后端。它是从西亚诺移走的。现在就使用device=cuda*。有关详细信息，请参阅。我该怎么解决这个问题？

浏览 11提问于2017-06-26得票数 16

回答已采纳

5回答

如果我没有指定使用CPU/GPU，我的脚本使用哪一个？

python、pytorch

如果我没有写任何关于使用CPU/GPU的文章，并且我的机器支持CUDA (torch.cuda.is_available() == True)：我的脚本使用什么，CPU还是GPU？如果是CPU，我应该怎么做才能让它在GPU上运行？我需要重写所有东西吗？如果GPU，如果torch.cuda.is_available() == False，这个脚本会崩溃吗这对提高训练速度有帮助吗？我知道，但这是旧的。这种情况是在0.4版还是在即将发布的1.0版中发生变化？

浏览 2提问于2018-05-23得票数 12

回答已采纳

2回答

面向研发的异构集群解决方案

linux、docker、virtualization、cluster、distributed-computing

我在一个研究实验室工作，实验室里有多台不同规格的物理机器。这些机器有不同的CPU(一些英特尔，一些AMD)，不同的RAM大小，一些有离散的GPU，有些没有。我们目前的解决方案基于SSSD和Kerberos，这样用户就可以从每个终端登录到他们的帐户并访问他们的文件。问题在于，这样，用户在工作时被“绑”在一台机器上，从而导致资源分配不太理想。因此，我们正在为我们的集群寻找另一种解决方案。我们的主要目标是真正地统一所有机器，也就是说，从用户的角度来看，集群由一台机器组成。但是，从我们收集的信息来看，Slurm这样的解决方案并不理想，因为我们不希望依赖作业调度程序。我们设想的解决方案如下:当用户登

浏览 0提问于2022-12-20得票数 -3

回答已采纳

2回答

无法再找到附加到google云实例的GPU

python、tensorflow、google-compute-engine

在过去的几个月里，我一直在使用谷歌云平台，没有任何问题。然而，我遇到了一个相当令人困惑的问题。我有一个gpu附件，我们用于我们的深度学习模型。由于某些原因，此GPU不再显示在实例上。当我跑的时候 from tensorflow.python.client import device_lib device_lib.list_local_devices() [name: "/device:CPU:0" device_type: "CPU" memory_limit: 268435456 locality { } incarnation: 9639830

浏览 31提问于2019-11-30得票数 0

回答已采纳

1回答

如何监控CPU和GPU在用户中的使用情况？

users、software-sources、user-management

我有几个用户(用户帐户为/etc/passwd)，他们将SSH登录到我管理的Ubuntu机器上。这是我的系统信息： Distributor ID: Ubuntu Description: Ubuntu 20.04.3 LTS Release: 20.04 Codename: focal HW是一个双插座英特尔Xeon E3 (总共16个核心)与x2 NVidia GTX 970 GPU卡。有大约6TB在机器的内部硬盘空间。每个用户都可以使用tmux来执行在注销后仍然存在的进程。请注意，我没有像SLURM这样的职业经理这样的老练的人，所以请不要建议我。是否有人推荐软件来监测用

浏览 0提问于2021-10-26得票数 0

回答已采纳

1回答

我们真的可以在python中使用numba库进行并行计算吗？

python、cuda、gpu、numba

我刚接触过数据自动化系统，正在通过。对于在中执行的以下代码，GPU的性能优于不带GPU的GPU(没有GPU: 3.525673059999974，GPU: 0.07701390800002628) from numba import jit, cuda import numpy as np # to measure exec time from timeit import default_timer as timer # normal function to run on cpu def func(a): for i

浏览 6提问于2022-10-20得票数 -1

回答已采纳

1回答

卤化物快速傅立叶变换实现错误？

c++、fft、fftw、halide

我正在尝试运行halide FFT实现发现的，用于对FTTW进行基准测试。我可以按原样运行实现，但在深入研究时遇到了一些问题。由于H和W的不同值(随机输入图像的高度和宽度)，例程失败并出现错误。例如，我在使用H=W=5时得到以下错误： Error at ./fft.cpp:603: Cannot vectorize dimension n0 of function v_S1_R5$6 because the function is scheduled inline. Aborted (core dumped) 我一直在尝试对较小的图像尺寸(即5x5)进行测试，以比较算法的结果，但我无法让算法完

浏览 0提问于2015-10-29得票数 1

1回答

轮询事件状态时出错:无法查询事件: CUDA_ERROR_LAUNCH_TIMEOUT

tensorflow、tensorboard、tensorflow-estimator

请注意，我花了一周的时间来寻找解决这个错误的方法我使用的是tensorflow 1.0.0 windows 10 cuda 8.0 cudnn 5.1 这个错误的原因是什么？我已经减小了批处理大小，但仍然出现此错误它在cpu上运行正常，但在gpu上出现以下错误请帮帮我轮询事件状态时出错:无法查询事件: CUDA_ERROR_LAUNCH_TIMEOUT F c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_event_mgr.cc:

浏览 18提问于2018-12-21得票数 0

1回答

keras自动使用gpu吗？

tensorflow、model、keras、gpu

它似乎自动使用gpu，但我不知道为什么。首先，我声明如下： tf_config = tf.ConfigProto( allow_soft_placement=True ) tf_config.gpu_options.allow_growth = True sess = tf.Session(config=tf_config) keras.backend.set_session(sess) 然后，我定义了一些模型如下 with K.tf.device('/gpu:0'): some keras model 这很明显，它将使用gpu，我检查它使用了第一个gpu(索引为0

浏览 0提问于2018-12-26得票数 4

回答已采纳

1回答

使用MesosExecutor定制气流上的任务资源

mesos、airflow

当使用MesosExecutor时，可以为每个DAG操作符指定资源(CPU、内存、GPU、磁盘空间)吗？我知道您可以为任务的资源指定全局值。例如，我有几个CPU昂贵的操作符，而其他的则不昂贵。我想在第一次执行一个，但许多并行的非CPU昂贵的。

浏览 0提问于2018-05-10得票数 7

回答已采纳

1回答

TFLite模型在图形处理器上溢出，在CPU上正常。内部有什么不同？

gpu、precision、tensorflow-lite

在Android上，我有一个在CPU上运行良好的模型，但当切换到GPU委托时溢出(结果中的‘Infinity’)。如果我重新缩放输入，我可以消除溢出，所以这似乎是CPU和GPU之间内部范围/精度不同的问题。我的印象是CPU和GPU都默认使用32位浮点数，因此结果应该是相同的。有没有人足够了解TFLite的内部原理来提供一些见解？

浏览 23提问于2020-05-27得票数 1

回答已采纳

1回答

使用非默认GPU时从cudaLaunchKernel返回的资源句柄无效

cuda

我有一个CUDA程序，运行时没有错误时，留在默认的GPU上运行。当我在main()函数的第一行中将设备设置为GPU #1时，没有立即出错(这并不奇怪，因为nvidia-smi确认我在机器中有8个GPU)。很久以后，当程序试图启动内核时，会遇到一个invalid resouce handle(400)错误。我试着想出一个最小的可行示例，但当然下面的代码运行得很好。不过，它说明了这个概念，所以我把它包括在内。我真正的代码使用多个CPU线程，每个线程都启动自己的内核. #include <iostream> #include <stdio.h> #include <c

浏览 0提问于2019-05-14得票数 0

回答已采纳

1回答