linux gpu 占用率_linux 查看gpu占用率_linux查看gpu占用率 - 腾讯云开发者社区

、、、、

早上好。我开始学习cuda编程，我正在研究性能。我在CUDA的网站上看到，要想有好的表现，我们应该考虑以下四点： -warps / SM (系统多处理器)，-blocks / SM，-Register，SM，-Shared内存，SM 因此，我要回顾一下第一件事情，根据GPU，我定义了内核的尺寸，这取决于每个SM的最大偏差和每个SM的块。我的任务是用一亿美元来衡量哪种方法更好。我所做的是一个for循环，在这个循环中，我在每次迭代时启动一个内核，使占用最大化。例如，对于NVidia 1080 GPU，我读到： int max_blocks = 32; //maximum number of

浏览 0提问于2016-10-17得票数 1

1回答

如何利用块/网格和线程/块？

、、

我正在尝试使用CUDA加速这个数据库搜索应用程序，并且我正在努力与CUDA并行运行一个核心算法。在一次测试中，我在一个大小为5000的数字序列上并行运行了算法，每个网格有500个块，每个块有100个线程，返回的时间大约是500ms。然后我将数字序列的大小增加到8192，每个网格128个块，每个块64个线程，不知何故返回了350ms的结果来运行算法。这将表明所使用的块和线程的数量以及它们之间的关系确实会影响性能。我的问题是如何决定块/网格和线程/块的数量？下面我从一个标准的设备查询程序中获得了我的GPU规格：

浏览 1提问于2011-07-18得票数 0

回答已采纳

1回答

我的程序使用了多少个gpu内核？

、

我正在通过推力在gpu上执行并行计算。有没有办法知道我使用了多少内核？是否所有可用核心实际上都被用于计算？

浏览 2提问于2013-04-02得票数 1

1回答

循环GPULaunch或在内核中使用ALEA

、、

我需要使用相同的数据运行GPU内核(ALEA库) 100次，使用一个整数(0-99)作为参数。我试图在内核中实现这个循环，但是得到了奇怪的结果。我不得不将循环从内核中取出，并围绕GPULaunch函数，如下所示： var lp = new LaunchParam(GridDim, BlockDim); for (int i= 0; i < 100; i++) { GPULaunch(TestKernel, lp, Data, i); } 该代码的CPU版本经过了高度优化，并有效地使用了4个核心(%100)。根据合并的内存访问原则重新组织内存中的数据之后，我可以拥有%92的占用率和%

浏览 1提问于2017-01-29得票数 0

1回答

用于Maxwell体系结构和计算能力5的CUDA占用率表

我正在尝试使用cuda占用率计算器，用于Maxwell GPU，它可以满足5的计算能力。不幸的是，select计算能力选项中的占用率表允许使用到3.5。您知道在哪里可以找到更新版本，或者如何计算计算能力5？谢谢

浏览 2提问于2015-07-03得票数 0

回答已采纳

1回答

CUDA编程:占用是在不同进程之间实现GPU切片的方法吗？

、、、、

可以通过多种方式实现GPU共享。我遇到了入住率。我可以使用它在共享GPU的进程(例如tensorflow)之间对GPU进行切片吗？这里的切片意味着GPU资源始终专用于该进程。使用占用率，我将获得GPU和SMs的详细信息，并在此基础上启动内核，声明为这些GPU资源创建块。我使用的是安装了cuda 9工具包的NVIDIA Corporation GK210GL Tesla K80 请提个建议。谢谢!

浏览 0提问于2018-08-08得票数 1

1回答

有没有办法通过编程的方式知道我们的CUDA代码在哪个GPU上运行？

、

我想知道我的CUDA内核将在哪个GPU上运行，这样我就可以通过编程来决定要使用的最佳块大小，以便最大化任何算法的GPU实现的性能。

浏览 0提问于2018-10-28得票数 2

1回答

增加已实现的占用率并不能线性地提高计算速度

、、、、

我有一个CUDA程序，其中内核寄存器将最大理论达到的占用限制在%50。因此，我决定使用共享内存，而不是寄存器，这些变量是块线程之间的常量，并且在整个内核运行过程中几乎是只读的。我不能在这里提供源代码；我所做的在概念上是这样的：我最初的计划是： __global__ void GPU_Kernel (...) { __shared__ int sharedData[N]; //N:maximum amount that doesn't limit maximum occupancy int r_1 = A; //except for this first initial

浏览 1提问于2013-12-02得票数 0

2回答

如果我在GPU内核中使用了许多局部变量，这些变量会驻留在全局内存中吗？

、、

如果我在GPU内核中使用了很多变量，这些变量会驻留在全局内存中吗？因此读取和写入局部变量将需要访问全局内存？在GPU内核中，变量驻留在寄存器中的典型数量限制是什么？谢谢，山姆

浏览 3提问于2013-01-17得票数 2

1回答

CUDA将数据从全局内存中缓存到统一缓存中，以便将它们存储到共享内存中？

、、

据我所知，GPU按照以下步骤(全局内存-L2-L1-寄存器-共享内存)将数据存储到以前NVIDIA GPU体系结构的共享内存中。但是，maxwell gpu(GTX980)物理上分离了统一缓存和共享内存，我想知道这个体系结构也遵循相同的步骤将数据存储到共享内存中？还是支持全局内存和共享内存之间的直接通信？使用选项"-dlcm=ca“启用了统一缓存。

浏览 2提问于2016-04-20得票数 3

回答已采纳

1回答

为共享变量并行工作的最大块和线程数

、、

考虑到要在K2000 GPU卡上执行的GPU内核函数(计算能力3.0)，如下所示： #define TILE_DIM 64 __global__ void PerformSomeOperations(float* g_A, float* g_B) { __shared__ float BlockData[TILE_DIM][TILE_DIM]; // Some Operation to be performed } 如何确定可以在单个多处理器上并行执行的最大块和线程数？另外，如果我有N个块，这是否意味着每个块的共享内存将被N除以？

浏览 1提问于2013-11-01得票数 1

1回答

batch_size在深度学习模型拟合中的二次幂

、、

我目前正在阅读Keras的作者Francois的“用Python进行深度学习”，在他对小型批处理的一个定义中，他解释说，batch_size的2功能是由于gpu中的内存分配/有人能详细说明这一点吗？小型批处理或批处理-一组小样本(通常在8到128之间)由模型同时处理。样本数通常是2的幂，以便于GPU上的内存分配。在训练时，使用一个小批处理来计算应用于模型权重的单个梯度下降更新。

浏览 0提问于2018-12-23得票数 1

2回答

从多个进程并发执行GPU内核

、、、、

我有一个想要在多个进程之间共享单个GPU的应用程序。也就是说，这些进程中的每一个都会创建自己的CUDA或OpenCL上下文，目标是相同的GPU。根据费米怀特paper1的说法，应用程序级别的上下文切换不到25微秒，但启动在GPU上启动时实际上是序列化的--因此费米不能很好地解决这一问题。根据开普尔白paper2的说法，有一种叫做Hyper-Q的东西，它允许从多个CUDA流、MPI进程或一个进程内的线程同时进行多达32个连接。我的问题是:有没有人在开普勒GPU上尝试过，并验证了它的内核在从不同的进程调度时是并发运行的？这只是一个CUDA功能，或者它也可以在Nvidia GPU上与OpenCL一

浏览 0提问于2012-10-02得票数 9

回答已采纳

1回答

持久的GPU功能/操作

我想知道是否有可能写一个持久的GPU函数。我有我的疑问，但我不确定调度器是如何工作的。我希望处理未知数量的数据点(大约5000万)。数据以20个左右的块的形式到达。如果我能把这20个点放到GPU的“桶”里，让这个“持久化”的操作抓取并处理进来的它们，那就太好了。完成后，获取结果。当存储桶为空时，我可以让GPU忙于处理虚拟数据。但我认为部分为空的存储桶上的竞争条件将是一个问题。我怀疑，当这个持久操作正在运行时，我将无法在GPU上运行任何其他操作。也就是说，让其他非专用的SM工作。这是一种可行的(费米) GPU方法，还是只是一个糟糕的想法？

浏览 2提问于2013-02-07得票数 0

1回答

在代码中共享GPU资源

、、

我的程序使用OpenGL在屏幕上绘图。这个任务是低强度的，但延迟敏感。另一个CPU线程我的程序做一些计算，是高度密集，但低优先级。我使用在GPU上运行的OpenCL实现了这个计算。从那时起，我观察到OpenGL绘图的视觉延迟太大。是否可以管理GPU加载或在GPU上调度任务？我用AMD Radeon GPU。据我所知，OpenCL有“设备裂变”扩展，这在这种情况下是有帮助的，但它只支持CPU，不是吗？我关注的另一件事是AMD系统监视器显示GPU占用率在55%。因此，在我看来，应该有足够的资源来运行OpenGL和OpenCL这两个部分，而不需要延迟。更新.--我用我的OpenCL内核函数做了

浏览 5提问于2012-02-08得票数 1

1回答

我是否应该使用GLSL或OpenCL制作我的射线追踪器，以及如何获得一个大的1gb缓冲区？

、、、、

现在，我已经实现了一个GLSL射线追踪器，它使用一个缓冲纹理来访问用于射线跟踪的加速结构。我正在使用while循环遍历纹理，这非常昂贵，但我认为有希望使它更快。但似乎有一堵墙，我要撞上，我似乎无法修复。缓冲纹理有一个有限的大小，在我的GPU是大约200 my，我完全忘记它是什么。我需要我的数据结构在1gb左右。有人向我推荐OpenCL来解决这个问题，所以我学习了OpenCL，现在我已经熟悉了这个API。但是，我发现OpenCL在最大缓冲区大小方面也有类似的问题。大多数GPU只允许您在一个缓冲区中访问整个vram的1/4。大多数GPU有1或2个gbs的vram，因此为我的结构创建一个缓冲区

浏览 5提问于2014-07-25得票数 0

回答已采纳

1回答

发现我的GPU功能

、

我试图了解我的GPU的内存组织是如何工作的。根据下面的技术规范，我的GPU可以有8个活动块/SM和768个线程/SM。基于此，我认为为了利用上面的优势，每个块应该有96个线程(=768/8)。最近的块有这么多的线程，我认为它是一个9x9块，81个线程。使用8个块可以在一个SM中同时运行的事实，我们将有648个线程。剩下的120 (= 768-648)呢？我知道这些想法出了问题。一个简单的示例描述了SM线程的最大数量、每个块的最大线程数与基于我的GPU规范的翘曲尺寸之间的连接，这将是非常有帮助的。 Device 0: "GeForce 9600 GT" CUDA

浏览 4提问于2013-10-02得票数 0

回答已采纳

1回答

cuda gpu:术语的澄清

、

在gpu的背景下，有人能澄清一下含义的区别:核心，线程处理器，流处理器，多处理器。另外，如何了解GTX570图形处理器的每个SM的活动块数量限制(计算能力2.0)？此外，设备属性显示我的gpu中每个块的最大线程数是1024，但是cuda占用计算器不接受计算能力2.0GPU的这个值。有没有新版本的cuda入住率计算器(2.1以后)？

浏览 1提问于2011-12-28得票数 2

回答已采纳

1回答

通过CUDA实现设备分裂

、、

我正在寻找一种方法来分区我的Nvidia GPU设备，这样我就可以同时运行两组内核，而不会因为SMs而争斗。根据文档，您可以在openCL中使用clCreateSubDevices。是否有任何CUDA等价物？

浏览 0提问于2015-02-11得票数 1

1回答

在普通图形处理器上，OpenACC内核的代码复杂度会降低到什么程度？

、

OpenACC内核在通用图形处理器和寄存器、共享内存操作或其他方面的代码复杂性会降低多少，从而开始成为性能瓶颈？此外，是否有一些点，太少的任务和传输到GPU和内核的开销会成为瓶颈？缓存大小和代码是否适合指示每个内核的最佳任务或其他内容？与潜在的性能相比，每个内核的OpenACC开销有多大?不同的指令会有很大的差异吗？

浏览 2提问于2017-03-12得票数 0

2回答

NVIDA GPU上cuda内核的峰值吞吐量

、、、

我有一个关于运行在GPU上的内核吞吐量的问题。假设它的占用率是0.5，块大小是256:编程指南指出，最好有很多块，这样它们就可以隐藏内存延迟，等等。但我不明白为什么这是正确的。因为一旦内核具有每流多处理器= 24，即3个块的翘曲数目，它就将达到峰值吞吐量。因此，超过24个warps (或3个块)不会对吞吐量产生任何影响。我错过了什么吗？有谁能纠正我吗？

浏览 3提问于2011-08-06得票数 5

回答已采纳

1回答

1D矩阵的2D GPU块

、、

我是cuda编程的新手。我想实现大型数组的向量加法。数组大小为100万。因为我不能创建一百万个1d区块。我曾想过制作1000x1000的块，每个块中有一个线程。相关主代码 //Copy to GPU printf( "GPU\n" ); cudaMemcpy( dev_src1, src1, size * sizeof(int), cudaMemcpyHostToDevice ); cudaMemcpy( dev_src2, src2, size * sizeof(int), cudaMemcpyHostToDevice ); //Exec kernel int nBloc

浏览 6提问于2013-01-29得票数 1

回答已采纳

1回答

未显示“已实现占用”列是Nsight分析结果。

、、

我遇到了一个对我来说很奇怪的问题。在Nsight性能分析输出中，我看不到已实现的占用率列。我正在使用Geforce 920米GPU，NVIDIA 425.31版本的驱动程序，Nsight版本的6.0.0.18296和visual 2017。Nsight的版本和司机的兼容，有人能帮我吗？我完全不知道为什么会这样。我使用Nsight性能分析和CUDA跟踪检查如下：我也使用了Visual，但在那里也看不到已实现的占用率。 GPU检查结果显示了一个错误：注意到，正如talonmies所提到的，上面的错误是由于没有在管理员模式下运行分析器。已解决但已实现的占用仍未显示。

浏览 0提问于2020-06-25得票数 1

回答已采纳

1回答

手工指定线程块的目的

、

刚开始学习CUDA，有些东西我还不太明白。我想知道，除了优化GPU工作负载之外，是否还有理由将线程分割成块。因为如果没有，我不明白为什么需要手动指定块的数量和大小。这样做不是更好吗?简单地提供解决任务所需的线程数，让GPU通过SMs分发线程不是更好吗？也就是说，考虑下面的虚拟任务和GPU设置。 number of available SMs: 16 max number of blocks per SM: 8 max number of threads per block: 1024 假设我们需要处理256×256矩阵的每个条目，我们需要分配给每个条目的线程，即线程总数为256x256 =

浏览 2提问于2017-11-24得票数 0

回答已采纳

1回答

CUDA约简，大数组的方法

、、

我有下面的"Frankenstein“和减少代码，部分取自，部分来自数据自动化系统样本。 __global__ void reduce6(float *g_idata, float *g_odata, unsigned int n) { extern __shared__ float sdata[]; // perform first level of reduction, // reading from global memory, writing to shared memory unsigned int tid = threadIdx.

浏览 3提问于2016-01-27得票数 1

回答已采纳

4回答

CUDA -更好的占用率与更少的全局内存访问？

、、

我的CUDA代码必须使用(减少到均值/标准，计算直方图)4个数组，每个2048个浮点数长，并且已经从以前的内核存储在设备内存中。通常建议至少启动与我的多处理器一样多的块。然而，在本例中，我可以将这些数组中的每个数组加载到单个块的共享内存中，因此只启动了4个块。这远远谈不上“让gpu保持忙碌”，但如果我使用更多的块，我将需要通过全局内存进行更多的块间通信，我预计多处理器的任何额外利用都将是静脉的，因为额外的时间用于将数据传入和传出全局内存。在这种情况下，最好的并行方式是什么？

浏览 2提问于2009-11-25得票数 1

2回答

gpu波的确切含义与线程块之间是否有关联？

、、、

GPU内核执行的计算被划分为称为线程块的线程组，这些线程块通常在并发组中执行，从而导致执行的浪潮。波在这里到底是什么意思？这不是和翘曲一样的意思吗？

浏览 21提问于2022-03-15得票数 1

回答已采纳

1回答

用于改变硬件的CUDA块大小和网格大小

、

想象一下，我开发了一个CUDA内核，并调整了块大小和网格大小，以便在我的机器上实现最佳性能。但是，如果我将我的应用程序交给具有不同GPU的客户，他可能需要为网格大小和块大小设置其他设置，以获得最佳性能。如何在运行时更改网格大小和块大小，以便内核在不同的GPU上运行优化？

浏览 0提问于2019-02-15得票数 1

回答已采纳

3回答

driver.Context.synchronize() - -还需要考虑什么-a清理操作失败

、

我这里有代码(根据答案修改)。信息 32字节堆栈帧，0字节溢出存储，0字节溢出负载 ptxas信息:使用46寄存器，120字节cmem，176个字节cmem2，76个字节cmem16 我不知道还需要考虑什么，才能使它适用于"numPointsRs“和"numPointsRp”的不同组合例如，当我使用Rs=10000运行代码时，使用Rp=100000运行block=(128,1,1)，运行grid=(200,1)就可以了。我的计算： 46 registers*128threads=5888寄存器。我的卡有限制32768寄存器，所以32768/5888=5 +一些

浏览 10提问于2012-09-04得票数 5

回答已采纳

1回答

uint2和uint64_t在cuda10+中是否存在性能/存储差异？

、、、

我正在为A100 GPU(安培)优化一段代码，现在我们使用uint64_t，但我看到在某些cuda代码中使用的是uint2数据类型。uint2是否为注册使用提供了优势？我知道64位寄存器的数量有限，uint2是否将x，y ints拆分成32位寄存器以获得更好的占用率？我找不到关于这些数据类型的注册存储的任何具体信息，所以希望有任何链接到它的文档。

浏览 7提问于2022-03-07得票数 0

回答已采纳

3回答

如何在linux上安装tensorflow 0.10.0？

、、

我想在linux上为gpu安装0.10.0。在tensorflow页面中，它展示了如何安装0.11。我尝试将0.11替换为0.10，如下所示：而不是 export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow-0.11.0rc1-cp27-none-linux_x86_64.whl export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow-0.10.0rc1-cp27-

浏览 4提问于2016-10-29得票数 0

回答已采纳

1回答

计算器与nvprof之间的不同占用率

、

我正在使用nvprof来测量已实现的占用率，并将其确定为已入伙0.344031 0.344031 0.344031 但是使用占用率计算器，我发现75%。研究结果如下： Active Threads per Multiprocessor 1536 Active Warps per Multiprocessor 48 Active Thread Blocks per Multiprocessor 6 Occupancy of each Multiprocessor 75% 我使用33个寄存器，144个字节共享内存，256个线程/块，设备功能3.5。编辑：另外，我想让cla

浏览 3提问于2014-05-05得票数 0

回答已采纳

2回答

估计更改NVIDIA GPU型号时的速度提升

、、

我目前正在开发一个CUDA应用程序，它肯定会部署在比我的GPU更好的GPU上。给出另一个GPU模型，我如何估计我的算法在它上运行的速度有多快？

浏览 0提问于2011-07-12得票数 2

回答已采纳

1回答

CUDA编程-共享内存配置

、

你能解释一下在CUDA编程中同时使用“16KB共享内存+ 48K L1缓存”和“48KB共享内存+16KB L1缓存”的区别吗？我应该期待什么在时间的执行？我什么时候可以期望更短的gpu时间？

浏览 0提问于2012-04-17得票数 1

回答已采纳

1回答

在anaconda创建的虚拟环境中安装软件包的问题

、、、、

在我的工作中，我在沙箱上安装了anaconda，并尝试安装tensorflow。我在命令下运行，遇到了问题。 (venv) [root@box4 venv]# pip install --ignore-installed --upgrade https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow_gpu-1.4.0-cp36-cp36m-linux_x86_64.whl Collecting tensorflow-gpu==1.4.0 from https://storage.googleapis.com/tensorflo

浏览 4提问于2017-11-11得票数 0

2回答

相当于在VM运行Linux的情况下查看眼镜？

、、、

看玻璃是一个开放源码的应用程序，它允许使用配置了通通GPU的KVM，而无需附加物理监视器、键盘或鼠标。在查找眼镜术语中，主机软件是运行在VM来宾(使用GPU的VM )中的外观玻璃的术语。客户端软件是在Linux主机上运行的部分的术语，显示呈现的帧。 “外观眼镜”主机目前仅限于Windows，它涵盖了主要的用例:在Windows中运行只使用Windows的GPU重型软件，在Linux主机上显示结果。我有一个稍微不同的用例:我将我的增强器无头GPU从Linux主机传递到Linux来宾。对于基于OpenCL或CUDA等的GPU计算，它的工作原理很好。我还希望能够在Linux来宾上运行3D软件，并

浏览 0提问于2021-02-04得票数 1

回答已采纳

2回答

OpenCL矩阵乘法应该更快吗？

、、、

我正在努力学习如何使GPU优化OpenCL内核，我以本地内存中使用平方块的矩阵乘法为例。然而，与()(5 Gflops，它使用的是BLAS)相比，在最好的情况下仅为加速比( ~50 Gflops )的10倍。我在研究中发现，的值超过200 x( >1000 Gflops )。我不知道我做错了什么，或者是因为我的GPU ( nvidia GTX 275 )。或者是因为一些pyOpenCl开销。但我也测量了从GPU复制结果到RAM所需的时间，这仅仅是矩阵乘法时间的10%。 #define BLOCK_SIZE 22 __kernel void matrixMul( __glo

浏览 5提问于2013-05-25得票数 4

回答已采纳

2回答

用OpenCL优化本地内存的使用

、、

当然，OpenCL是为了抽象硬件实现的细节而设计的，因此，在担心硬件如何配置的问题上做得太少可能是个坏主意。尽管如此，我想知道在任何特定内核中使用多少本地内存是有效的。例如，如果我有一个工作组，其中包含64个工作项，那么可能不止一个工作项可以同时在一个计算单元内运行。但是，CL_DEVICE_LOCAL_MEM_SIZE查询返回的本地内存大小似乎适用于整个计算单元，而如果该信息是用于工作组的话，则会更有用。是否有一种方法可以知道，如果在同一个计算单元上共存，那么有多少工作组需要共享这个相同的内存池？我曾认为，确保我的工作组内存使用率低于本地内存总量的四分之一是个好主意。这是不是太保守了？手

浏览 4提问于2015-02-15得票数 3

回答已采纳

1回答

linux框架缓冲区和GPU内存之间有什么区别？

、、

Linux或软件控制的帧缓冲区和GPU内存之间有什么区别？有什么好的图片指南来解释Linux框架缓冲区是如何工作的吗？在带有GPU的嵌入式板上，我们通常使用框架缓冲区或GPU来处理实时视频提要吗？

浏览 0提问于2016-09-28得票数 4

1回答

Tensorflow:将CUDA_VISIBLE_DIVICES设置为不同值时，GPU util差异很大

、、

Linux: Ubuntu16.04.3LTS(GNU/Linux4.10.0-38-generic x86_64) Tensorflow:从源代码编译，1.4 GPU: 4xP100 我正在尝试新发布的对象检测教程培训程序。我注意到，当我将CUDA_VISIBLE_DEVICES设置为不同的值时，会有很大的差异。具体来说，当它设置为" gpu :0“时，gpu util相当高，比如80%-90%，但当我将其设置为其他gpu设备时，例如gpu:1、gpu:2等，gpu util非常低，在10%-30%之间。至于训练速度，它似乎大致相同，比只使用CPU时快得多。我只是好奇这是怎么发生

浏览 7提问于2017-11-05得票数 0

1回答

为什么conda无法在Windows上正确安装tensorflow gpu？

、、、

我在工作中使用Linux，并且习惯于通过Conda安装tensorflow GPU版本。 Linux机器安装了NVIDIA驱动程序，nvidia-smi运行正常。我使用的命令是 conda install python tensorflow-gpu 神奇的是，conda会处理所有的事情。它会安装cudatoolkit或其他相关工具。一旦我在那个虚拟环境中运行python，GPU就可以使用了。现在我切换到Windows上工作。Windows盒安装了NVIDIA驱动程序，并且nvidia-smi运行正常。然后，我使用与在Linux上相同的conda命令。conda install成功，但虚拟

浏览 23提问于2021-05-05得票数 0

2回答

确定linux下GPU内存供应商的名称

、

能否确定linux中专用GPU中使用的内存的供应商名称？在Windows下，有一个名为GPU的工具显示这个值，因此在linux下似乎没有显示该值的工具. 我使用的GPU是使用Cuda8和Nvidia专有驱动程序的Geforce GTX 1060 干杯

浏览 0提问于2017-08-11得票数 1

4回答

Pip仅安装tensorflow 0.11的cpu tensorflow

、

我之前安装了tensorflow-gpu v 0.12，它工作得很好，但是对于一个同事的代码，我需要v0.11。因此，我卸载了tensorflow和tensorflow-gpu 0.12，并尝试使用以下命令安装v0.11： pip install https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow-0.11.0-cp27-none-linux_x86_64.whl 它成功地安装了tensorflow，但没有安装gpu版本，即使在上面的链接中，我使用的是gpu版本，而不是cpu版本。显然，我选择cpu或gpu并不重要，它总

浏览 53提问于2017-01-13得票数 2

1回答

是否仍有必要在使用conda tensorflow-gpu软件包之前安装CUDA？

、、、、

当我通过Conda安装tensorflow-gpu时，它给出了以下输出： conda install tensorflow-gpu Collecting package metadata (current_repodata.json): done Solving environment: done ## Package Plan ## environment location: /home/psychotechnopath/anaconda3/envs/DeepLearning3.6 added / updated specs: - tensorflow-gpu T

浏览 5提问于2020-04-30得票数 1

回答已采纳

1回答

ld忽略库

、、、

Ubuntu 11.10中的链接器似乎忽略了我在链接行中指定的库，如果它们不包含被链接的应用程序使用的任何符号： Linking CXX executable ../../bin/gpu_sd_list cd /home/eile/Software/gpu-sd/debug/apps/gpu_sd_list && /usr/bin/cmake -E cmake_link_script CMakeFiles/gpu_sd_list.dir/link.txt --verbose=1 /usr/bin/c++ -Wall -Wextra -Winvalid-pch -Wnon-

浏览 0提问于2011-11-04得票数 1

回答已采纳

1回答

检查失败: gl_version_string。带有颤振的GL proc解析器的glGetString(GL_VERSION)

我运行了颤振运行-d linux，下面是错误 Launching lib/main.dart on Linux in debug mode... Building Linux application... [FATAL:flutter/shell/gpu/gpu_surface_gl_delegate.cc(50)] Check failed: gl_version_string. The GL proc resolver's glGetString(GL_VERSION) failed Error waiting for a debug connection: The log rea

浏览 9提问于2021-07-16得票数 0

2回答

关于寄存器的CUDA内核的优化

、

我正在使用CUDA占用率计算器来优化我的CUDA内核。目前我使用了34个寄存器和零个共享memory...Thus，每块310个线程的最大占用率为63%。当我以某种方式将寄存器(例如，通过共享内存传递内核参数)更改为20或更低时，我可以获得100%的占用率。这是一个好方法吗?或者你会建议我使用另一种优化方法吗？此外，我还想知道是否有更新版本的计算能力2.1的占用计算器！？

浏览 1提问于2011-05-19得票数 4

回答已采纳

2回答

如何在Linux上安装张量流

、

在主TensorFlow网站上，必须特别启用gpu： # Ubuntu/Linux 64-bit, GPU enabled: $ sudo pip3 install --upgrade https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow-0.7.1-cp34-none-linux_x86_64.whl 在anaconda网站上，您只需安装张量流，但没有指示这是GPU版本还是CPU版本： conda install -c https://conda.anaconda.org/jjhelmus tensorflow 运行

浏览 5提问于2016-04-09得票数 4

回答已采纳

1回答

商业JMeter项目推荐的Java大小

、、、

根据自动化工作流的性质和在任何给定时间活动线程的数量，JMeter的堆大小需求可能会有所不同，而且在我所做的测试中，堆大小对测试结果的影响有一些模糊性。托管JMeter的服务器的初始堆大小和最大堆大小显示在附带的屏幕截图中。在对大量当前用户(例如:100)执行测试后，内置的JMeter报告不会呈现结果，但是可以在CSV输出中看到结果。增加堆大小会解决这个问题吗?如果是的话，我们应该增加多少堆大小？请注意，对于10或15这样的小用户计数，不会出现此问题。建议的工业标准价值是多少？用于使用JMeter进行商业性能测试的服务器的堆大小和其他系统变量。

浏览 7提问于2022-12-01得票数 1

1回答

如何确定CUDA gpu的性能？

、、、、

我正在编写一个cuda程序，用于匹配每个分辨率为180 X 180的输入图像，以及大约10,000个分辨率为128*128的模板图像。目标是在1秒内达到实时性能，即25~30幅输入图像的模板匹配(每个输入图像都有10,000个模板)。目前，我正在使用以下方法预加载GPU全局内存上的所有模板，以保存运行时I/O操作。创建一个单独的内核，将一个源映像与所有模板映像匹配，并返回一个数组用于所有正匹配。在时域内执行所有操作(不使用FFT)。原因是，我尝试了基-4 fft实现，但它需要大量的中间全局读写，最终需要更多的时间。到目前为止，对于一个输入图像到10,000个模板，

浏览 3提问于2014-01-11得票数 1

回答已采纳