gpu主机优势_GPU云主机优势_GPU服务器优势 - 腾讯云开发者社区

cuda

在CUDA中，与主机上通过malloc分配的默认内存相比，我们可以使用固定内存更有效地将数据从主机复制到GPU。但是，有两种类型的固定内存：默认固定内存和零拷贝固定内存。默认的固定内存将数据从主机复制到GPU的速度是正常传输速度的两倍，因此绝对有一个优势(只要我们有足够的主机内存来锁定页面)。在不同版本的固定内存中，即零拷贝内存中，我们不需要将数据从主机完全复制到GPU的DRAM。内核直接从主机内存读取数据。我的问

浏览 7提问于2011-03-06得票数 41

回答已采纳

1回答

CUDA共享内存中的扁平与多维数组

cuda

与库达共享内存中的多维数组相比，使用扁平数组有什么性能优势吗？我知道，当涉及到主机内存空间时，扁平数组比多维数组提供了某些优势，但我不确定这是否适用于gpu共享内存中的数组。

浏览 2提问于2015-07-20得票数 0

回答已采纳

1回答

启动android模拟器时出错: FB::flushWindowSurfaceColorBuffer:找不到窗口句柄0x4

android、android-emulator

我刚刚开始使用android。因此，当我尝试启动AVD (详细信息如下)时，它不会启动，只是有一段时间是黑屏，直到我厌倦它并关闭它。我已经安装了intelhaxm，并禁用了hyper-v。[2014-07-28 20:02:52 - app2] ------------------------------[2014-07-28 20:02:52 - app2] adb is running normally. [2014-07-28 20:02:52 - app2] Per

浏览 89提问于2014-07-29得票数 20

回答已采纳

1回答

Cuda内存分配

image-processing、memory-management、cuda、nvidia-jetson

为此，我使用GPU。使用jetson，我们可以避免主机/设备和设备/主机之间的数据传输，因为TX2是在GPU和CPU之间共享内存的。此方法有效，但它太长了： img[i] = buffer[i] ; 我失去了GPU使用naive for循环的优势...如果我只是使用这个方法

浏览 1提问于2020-03-31得票数 0

1回答

如何改进氪星以对抗GPU的开采

sha-256、scrypt

我知道氪星的设计是为了减少GPU/ASIC的优势。我们现在有莱特奥作为这方面的一个现实世界的例子。然而，它的效果并不完美。大多数硬币都是由GPU开采的，尽管优势可能比SHA-256的优势要小。

浏览 0提问于2013-04-17得票数 8

回答已采纳

5回答

CUDA零拷贝内存注意事项

c++、cuda

我正在尝试运行一个内核，其中我的输入数据超过了GPU上可用的数量。"h_p")populate 分配固定主机内存(我们称它为带有输入数据的get设备指针，在GPU上为h_p 运行内核，使用该设备指针来修改数组的内容如果这是正确的，那么我可以看到内核的

浏览 5提问于2011-02-15得票数 8

1回答

CUDA浮点精度与CPU实现不匹配

cuda、precision

上使用CUDA 5.5 compute 3.5，并想计算以下公式： Y=a*a*b/ 64 +c*c 假设我有以下参数： a = 5876c = 664 我通过GPU当我将它们插入到我的计算器中时，GPU的答案更接近于确切的答案，我怀疑这与浮点精度有关。我现在的问题是，如何让CUDA解决方案与CPU版本的精度/舍入相匹配？

浏览 90提问于2020-11-09得票数 0

回答已采纳

1回答

MATLAB代码的code实现

matlab、cuda、mex、ptx

我最近购买了一个gpuarrays GPU，希望能加快并行代码的速度，并需要一些帮助来决定如何将MATLAB代码转换为CUDA代码(我已经从MATLAB中的普通P100移开了)。

浏览 5提问于2017-07-17得票数 0

1回答

CUDA信号到主机

c++、cuda

是否有方法在内核执行结束时向主机发出信号(成功/失败)？在每次迭代结束时复制单个布尔变量将使通过并行化获得的时间增益无效。因此，我想找到一种方法，让主机知道收敛状态(成功/失败)，而不必每次都要CudaMemCpy。注意:使用固定内存传输数据后存在时间问题。我看过的替代方案。使用CudaHostAllocMapped来避免CudaMemCpy，这是没有

浏览 1提问于2018-01-04得票数 3

回答已采纳

1回答

OpenCL -提高内存大小的使用

2d、opencl、dimensions、large-data

因为我想放更多的数据，输出将是481 x 283大，我将达到GPU的内存限制。我不知道怎么少用点内存。

浏览 2提问于2016-06-08得票数 0

2回答

比较CPU和GPU中内存范围的标准方法是什么？

cuda、gpu、equality、thrust

我必须连续范围(指针+大小)，一个在GPU和一个在CPU中，我想比较它们是否相等。my_gpu_type gpu; // gpu.data() returns thrust::cuda::pointer<double> thrust::equal(cpu.data(), cpu.data() + cpu.size(), gpu</em

浏览 19提问于2022-03-17得票数 0

回答已采纳

1回答

什么是GPU实例，它与标准实例有什么不同？

performance、gpu、instancing

我已经读到了很多关于团结5.4中的新特性的辩论: GPU实例。我理解在一般情况下的重要性，无论是在节省内存和吸引电话方面。然而，即使在阅读了一些之后，我仍然无法理解GPU实例和非GPU实例之间究竟有什么不同，更重要的是，所谓的GPU在性能方面的优势来自哪里。谢谢你的知识和任何参考资料。

浏览 0提问于2016-05-29得票数 1

回答已采纳

1回答

Tensorflow:单GPU与多GPU

tensorflow、gpu

与拥有两个更小的GPU相比，拥有一个具有更多内存的GPU有什么优势？

浏览 20提问于2017-02-08得票数 1

1回答

Theano对局域网上多GPU的支持

neural-network、gpu、theano

我想知道theano是否可以用来在局域网上分布在多台计算机上的多GPU架构上训练神经网络。我已经通过Theano的文档了解到，它可以在一台计算机上支持多个GPU，但我想知道它如何扩展到can。

浏览 18提问于2016-09-13得票数 0

2回答

使用Sun Grid引擎(SGE)调度GPU资源

gpu、gpgpu、sungridengine、multiple-gpu

我们有一组机器，每台都有4个GPU。每个作业应该能够要求1-4个GPU。这里有一个问题:我想让SGE告诉每个工作，它应该采取的GPU(s)。与CPU不同的是，如果一次只有一个进程访问GPU，则GPU的工作效果最好。所以我想：Job #2 GPU: 2我遇到的问题是，SGE将允许我在每个节点上创建一个包含4个单元的GPU资源

浏览 6提问于2012-05-11得票数 4

回答已采纳

2回答

GPU实例与标准实例有什么不同？

gpu、performance

我已经阅读了很多关于一个新特性的辩论，这个新特性将在游戏引擎Unitor5.4的新版本中提供，称为GPU实例。我理解在一般情况下的重要性，无论是在节省内存和吸引电话方面。然而，即使在阅读了一些之后，我仍然无法理解GPU实例和非GPU实例之间究竟有什么不同，更重要的是，与标准实例相比，所谓的GPU在性能方面的优势来自哪里。谢谢你的知识和任何参考资料。

浏览 0提问于2016-06-09得票数 3

1回答

Matlab - CPU工作者或GPU处理器中的高度并行任务

matlab、parallel-processing、gpu

workerData = data(:,ix);enddataGPU = gpuArray(data);(实际上，我正在执行一个似然计算，它使用Workers中的for循环在列向量上的

浏览 5提问于2013-08-05得票数 1

1回答

有可能有不同的开发虚拟机环境和访问图形卡吗？

virtual-machine、virtualbox、virtualization、hypervisor

测试应用程序的环境首先，我使用VirtualBox为#1和#2在我的主机Windows中创建了VM环境，但是我不能在VM中运行，因为它不提供对图形卡的访问。

浏览 1提问于2021-01-12得票数 0

1回答

不使用第二次GPU将AMD GPU传送到虚拟机

gpu、virtualization

我阅读了一些关于将GPU传递到虚拟机的主题，但这些示例需要两个GPU(一个用于VM，一个用于主机操作系统)。现在，我发现有人提到将系统GPU中可用的单个文件传递给VM。这在Ubuntu有可能吗?

浏览 0提问于2015-03-11得票数 1

1回答

如何在两个GPU之间直接复制cudaArray？

memory-management、cuda、gpu

假设我在GPU1中有一个GPU1，在GPU2中有另一个cudaArray。使用cudaMemcpyArrayToArray标志调用cudaMemcpyDeviceToDevice实际上会导致GPU1 cudaArray通过查看分析器复制到主机内存和复制到GPU2 cudaArray的主机内存。我尝试将GPU1 cudaArray复制到GPU1全局内存，并调用cudaMemcpyPeer将其复制到GPU2全局内存，然后

浏览 6提问于2016-02-09得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

默认固定内存与零拷贝内存

CUDA共享内存中的扁平与多维数组

启动android模拟器时出错: FB::flushWindowSurfaceColorBuffer:找不到窗口句柄0x4

Cuda内存分配

如何改进氪星以对抗GPU的开采

CUDA零拷贝内存注意事项

CUDA浮点精度与CPU实现不匹配

MATLAB代码的code实现

CUDA信号到主机

OpenCL -提高内存大小的使用

比较CPU和GPU中内存范围的标准方法是什么？

什么是GPU实例，它与标准实例有什么不同？

Tensorflow:单GPU与多GPU

Theano对局域网上多GPU的支持

使用Sun Grid引擎(SGE)调度GPU资源

GPU实例与标准实例有什么不同？

Matlab - CPU工作者或GPU处理器中的高度并行任务

有可能有不同的开发虚拟机环境和访问图形卡吗？

不使用第二次GPU将AMD GPU传送到虚拟机

如何在两个GPU之间直接复制cudaArray？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐