Linux查看cuda并行核_linux核并行_linux核并行计算 - 腾讯云开发者社区

gcc、openacc、pgi

local/pgi/linux86-64/17.4/etc/include_acc -o oacc_test.both test.c -L/usr/local/cuda-8.0/lib64 -Wl,-rpath,/usr/local/cuda-8.0/lib64 -lcudart -lcuda -L/usr/local/pgi/linux86-64

浏览 2提问于2017-08-30得票数 0

回答已采纳

4回答

流多处理器、块和线程(CUDA)

cuda、nvidia

CUDA核心、流多处理器与块和线程的CUDA模型之间有什么关系？这是正确的吗？

浏览 6提问于2010-08-19得票数 96

回答已采纳

1回答

混合精度学习，torch.cuda.amp运行速度比正常慢

deep-learning、pytorch、torch、automatic-mixed-precision

但是，我想在推断的同时获得更快的结果，所以我只在运行测试推理用例时启用了torch.cuda.amp.autocast()函数。(enable_timing=True) model(tensor) # warmup end = torch.cuda.Event(enable_timing=True) model(tensor)start.r

浏览 6提问于2021-06-09得票数 1

2回答

我在“OpenAcc入门指南”中读到：定义应该编译以便在加速器设备上并行执行的程序区域。定义程序的区域，该区域应该被编译成一系列内核，以便在加速器设备上执行。我不明白“加速器设备上的并行执行”和“编译成一系列用于在加速器设备上执行的内核”之间的区别。如果加速器设备是GPU，那么所有的代码都编译成某种大小的CUDA内核(我的意思是CUDA网格和块)，这些CUDA内核是在CUDA线程中在GPU上执行的，不是吗？内核的“序列”是什么？

浏览 1提问于2019-12-17得票数 1

回答已采纳

1回答

整个服务器似乎锁定在一个cpu上。

lamp

我正在运行一个相当密集的grep搜索，尽管CPU运行在95%左右，还有7台不到3%，但系统把它扔到了那里，现在它正在竞争CPU (fast cgi，它也锁定在那个CPU上，在grep期间经常超时)。我将如何找到配置/设置的位置。

浏览 0提问于2010-06-30得票数 0

1回答

有没有办法用cpu来估计gpu的计算时间？

deep-learning、gpu、cpu、gpgpu、cpu-speed

我做了一个简单的深度学习模型。我现在的桌面上只有cpu。但是，在gpu设置下，我必须估计模型的训练时间。我不需要精确的训练时间估计。大概的时间对我来说是可以的。对此有什么方法或度量吗？我的想法之一是比较GFLOPs，但当我计算时，它也是没有意义的。

浏览 5提问于2017-11-24得票数 1

回答已采纳

5回答

CUDA可以帮助解决哪些类型的数据处理问题？

performance、algorithm、cuda、cpu-architecture

我研究过许多数据匹配问题，通常归结为快速并行地运行许多CPU密集型算法的实现，例如Hamming / Edit distance。这是CUDA有用的东西吗？克里斯

浏览 0提问于2010-06-01得票数 3

回答已采纳

2回答

数据自动化系统核心有矢量指令吗？

cuda、opencl、gpu、nvidia、gpgpu

根据大多数NVidia文档，CUDA核心是标量处理器，应该只执行标量操作，这将被矢量化到32组件的SIMT翘曲。但是OpenCL有向量类型，例如，uchar8.It的大小与ulong (64位)相同，可以由单个标量核处理。如果我对一个uchar8向量进行操作(例如，组件级的加法)，这也会映射到单个核上的指令吗？如果一个块(工作组)中有1024个工作项，并且每个工作项处理一个uchar8，这会有效地并行处理8120 uchar吗？编辑:我的问题是，在CUDA体系结构上(独立于OpenCL)，是否有一些矢量指

浏览 3提问于2018-01-19得票数 3

回答已采纳

1回答

用数据自动化系统解决小而孤立的独立任务是否有一种惯用的方法？

c++、cuda

我不太确定的是，如果每个CUDA核心能够真正独立地解决一项任务，那么指令就不会同步。我可以启动多少个任务并行线程，推荐的并行化方法是什么？CPU: Xeon E5-4650L (16 Cores)CUDA Driver Version / Runtime Versio

浏览 13提问于2022-08-18得票数 0

回答已采纳

2回答

同时使用window核+ linux核的R-并行处理

r、parallel-processing

我一直在linux (8核)上使用库(多核)进行并行处理，但速度不够快(叹息..)所以我正在尝试使用我的window工作站(也是8核)。(因此，如果我可以同时使用两个内核，它将使用16个内核)。似乎在Window上使用的是foreach、snow、doSMP，并且在Linux上经常使用多核。有没有人可以分享一下使用这两个系统进行并行处理的经验，或者指出一些好的例子？我试着使用SNOW，但我在windows版本R上找不到相关的软件包(Rmpi)来连接windows到linux</

浏览 1提问于2012-06-28得票数 2

2回答

为什么我被允许运行一个CUDA内核比我的GPU的CUDA核心计数更多的块？

cuda、gpgpu

开始cuda_kernel_func<<<960, 1>>> (... arguments ...)CUDA Device Query (Runtime API) version (CUDART static linking) CUDA D

浏览 11提问于2015-10-18得票数 0

1回答

为什么在我的Compute Capability 2.0 GPU上，每台多处理器1536的最大线程？

cuda、gpu

在我的GPU上，使用Capability 2.0，每个多处理器的最大线程数是1536个。为什么不是2的力量？Physical Limits for GPU Compute Capability: 2.0 Max Warps per Multiprocessor 48 Max Threads per Multiprocessor

浏览 5提问于2017-05-10得票数 1

1回答

要充分利用CUDA* 5的功能，需要哪些卡和计算能力？*

sdk、cuda、language-features、computer-architecture

我们刚刚收到了CUDA 5的稳定版本。有一些新的术语，如开普勒和使用性能更好的MPI的能力，同时运行相同的卡32应用程序。不过，我有点困惑，想找出这些问题的答案：是开普勒体系结构的新特性，如GPUDirect、动态并行、超Q和动态并行。如果我们有费米架构，那么使用CUDA 5的好处是什么?它除了在Linux和Eclipse上使用NSight之外，还带来其他好处吗？我认为最重要的特点是建设图书馆的能力？你看到从CUDA

浏览 2提问于2012-10-19得票数 6

回答已采纳

1回答

GNU并行和GPU？

gpu、gnu-parallel

我感兴趣的是让GNU并行在GPU上运行一些数值计算任务。一般说来，以下是我的初步方法：如果是这样的话，我如何配置GNU并行来做到这一点？

浏览 3提问于2019-03-04得票数 2

回答已采纳

2回答

完全开源ARM板

linux-kernel

我正在学习定制Linux内核，使其在嵌入式系统上可移植。为了测试我的定制内核，我想要一个完全开源的ARM板。我研究了Raspberry pi，但是它的一些固件(即"start.elf")不是开源的。

浏览 8提问于2014-05-30得票数 1

回答已采纳

1回答

CUDA，代码在一台GPU机器上工作，而在另一台GPU上不工作

c、cuda、gpu、gpgpu

更新：========= CUDA-MEMCHECK 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000

浏览 0提问于2014-04-18得票数 0

回答已采纳

1回答

库达-多处理器，翘曲大小和每个块的最大线程:确切的关系是什么？

caching、memory、cuda、textures

我知道在CUDA GPU上有多处理器，其中包含CUDA核心。在我的工作场所，我正在使用一个GTX 590，它包含512个CUDA核，16个多处理器，其翘曲尺寸为32。因此，这意味着每个多处理器中有32个CUDA核，它们在相同的翘曲中精确地工作在相同的代码上。最后，每个块大小的最大线程数是1024。我的问题是，块大小和多处理器计数翘曲的大小是如何精确相关的。因此，在一个块中实际上有32个线程在任何给定的时间内都是在多处理器上并行运行，而不是整个1024。最后，如果块完全

浏览 1提问于2012-07-19得票数 24

回答已采纳

3回答

是否使用R中的detectCores函数来指定并行处理的核数？

r、parallel-processing

在 for detectCores()中，它说： test <- parLapply(cl, m, solve)其中，detectCores()用于指定makeCluster中的核数我的用例包括在我自己的多核笔记本(OSX)上运行并行处理，并在各种多核服务器(

浏览 6提问于2015-03-10得票数 21

回答已采纳

2回答

是否可以同时运行属于不同应用程序的两个内核？

cuda、gpu、gpgpu、nvidia

我想同时运行属于两个不同CUDA程序的两个内核。我不希望发生上下文切换。我希望这两个程序共享设备。我的GPU中有14个SMs，一个程序使用2个SMs，另一个使用1个SM。但是我不能同时运行它们。

浏览 3提问于2013-02-15得票数 2

2回答

如何确定完整的CUDA版本+ subversion？

cuda、version

Linux上的CUDA发行版曾经有一个名为version.txt的文件，该文件的内容如下： CUDA Version 10.2.89 这是非常有用的。但是，从CUDA 11.1开始，此文件不再存在。如何在Linux上从命令行检查/path/to/cuda/toolkit，确定我正在查看的确切版本？包括subversion吗？

浏览 106提问于2021-02-02得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将PGI OpenACC运行时库与gcc直接连接

流多处理器、块和线程(CUDA)

混合精度学习，torch.cuda.amp运行速度比正常慢

OpenAcc标准中内核和并行指令的区别

整个服务器似乎锁定在一个cpu上。

有没有办法用cpu来估计gpu的计算时间？

CUDA可以帮助解决哪些类型的数据处理问题？

数据自动化系统核心有矢量指令吗？

用数据自动化系统解决小而孤立的独立任务是否有一种惯用的方法？

同时使用window核+ linux核的R-并行处理

为什么我被允许运行一个CUDA内核比我的GPU的CUDA核心计数更多的块？

为什么在我的Compute Capability 2.0 GPU上，每台多处理器1536的最大线程？

要充分利用CUDA* 5的功能，需要哪些卡和计算能力？*

GNU并行和GPU？

完全开源ARM板

CUDA，代码在一台GPU机器上工作，而在另一台GPU上不工作

库达-多处理器，翘曲大小和每个块的最大线程:确切的关系是什么？

是否使用R中的detectCores函数来指定并行处理的核数？

是否可以同时运行属于不同应用程序的两个内核？

如何确定完整的CUDA版本+ subversion？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐