如何使用共享内存和全局内存，是否可以使用共享作为计算的中间阶段

文章/答案/技术大牛

发布

1回答

、、、

我看到了很多分别处理设备内存和共享内存的示例。我被卡住了，迷惑了。代码或函数可以同时处理这两种情况吗?例如，代码可以在某种规模上使用共享内存乘以数字，而在另一种规模上使用设备。另外，当我试图一步一步地使代码复杂化以计算适应度函数时，我使用共享内存的空间作为中间阶段</

浏览 20提问于2020-09-03得票数 0

1回答

关于CUDA内存访问的简短问题

、

嘿，假设我有一个问题，每个线程都计算一些东西(从常量内存中读取一些参数并使用它们进行计算)，然后将其存储到全局内存矩阵中。这个矩阵永远不会被读取，只是写入访问...现在是否可以先使用共享内存将所有计算值存储在全局内存中，然后再将它们写入全局内存？我认为不是，因为对全局内存<e

浏览 3提问于2011-05-17得票数 0

回答已采纳

3回答

CUDA:什么时候使用共享内存，什么时候依赖L1缓存？

、、

在计算能力2.0 (Fermi)发布后，我想知道是否还有共享内存的用例。也就是说，什么时候使用共享内存比让L1在后台执行它的魔术更好呢？共享内存只是为了让专为CC < 2.0设计的算法在不修改的情况下高效运行吗？为了通过共享内存进行协作，块中的线程写入共享内存并与__

浏览 1提问于2012-07-01得票数 21

回答已采纳

1回答

在具有虚拟共享内存的分布式系统中，实际共享物理RAM的是谁？(服务器和/或客户端)

有一家公司有大约100台电脑供员工使用，还有一台高性能的服务器.它被系统架构师称为“分布式系统”。它使用分布式共享内存(DSM)。还有中间件，服务器托管虚拟机( Virtual，VM)，运行员工看到的应用程序。问题是: DSM来自服务器共享的物理内存，创建虚拟共享内存，还是内存来自这100台计算机(或两者兼而有之)？除了这里可能的</e

浏览 0提问于2019-09-30得票数 0

回答已采纳

1回答

朱莉娅Distributed.jl问题

、、

我想使用pmap对运行在同一台机器上的多个处理器上的迭代器上的函数并行化，并在Julia集群中共享内存，并想了解一些细节。@everywhere应用于函数和变量，包括数组、字典和数据格式，所有处理器都可以读取它。这是通

浏览 5提问于2021-07-05得票数 3

1回答

如何找出GPU的共享内存和全局内存大小？

、、、、

我想知道我的GPU的共享内存和全局内存大小。我正在使用nvidia特斯拉k40c。我找到了，它说标准内存是12 GB。标准内存是否与全局内存相同？如何找到共享内存的大小？是否有显示gpu功能的命令？我使用了nvidia-smi命令，但它没有

浏览 4提问于2016-06-26得票数 3

回答已采纳

1回答

在多处理器系统中，每个核心外的内存总是在概念上是扁平的/统一的/同步的吗？

、、、、

多处理器系统执行“真实”内存操作(那些影响确定性执行(而不仅仅是推测执行)的操作)无序和异步执行，因为等待全局状态的全局同步几乎总是不必要地阻止所有执行。因此，在CPU上，在一个极端被定义为私有的“寄存器”，在另一个极端是共享的内存；在寄存器的极小空间之外，具有特殊的命名或寻址模式，内存始终是全局的、共享的<e

浏览 1提问于2019-05-23得票数 5

回答已采纳

1回答

使用共享存储器对三维数组的一维求和

、、

; ++x) { index++;我希望每个块都计算一个和，因为每个块都有自己的共享内存为了避免数据竞争，我使用了atomicAdd，如下所示：dim3 block (n, 1, 1);内核： atomicAddblockDim.y]

浏览 1提问于2012-04-01得票数 3

回答已采纳

1回答

计算阴影与Cuda之间的映射

、、、、

我试图了解计算机阴影和库达之间的区别，以及它们是如何运作的。我只使用过库达，据我所知：在基于着色器的计算中，着色器的数量等于像素的数量，而在Cuda中，我们可以使用内核线程操作多个‘像素-数据元素’。在中，我们有各种各样的内存类型，我们可以从中获取数据(全局的、共享

浏览 2提问于2014-01-10得票数 0

3回答

数据自动化系统共享的记忆和全球记忆有什么不同？

、、、

我对如何在CUDA中使用共享和全局内存感到困惑，特别是在以下方面：全局内存是否驻留在主机或设备上？在共享内存中存储变量是否与通过内核传递其地址相同？i_ptr)；} int mai

浏览 8提问于2012-12-30得票数 43

回答已采纳

1回答

块的数量可以同时调度。

这个问题也是从以下链接开始的：是否意味着当条件2和3的块数超过8时，只能调度8个块？它是否与任何条件无关，如cuda环境、gpu设备或算法?如果是的话，，这实际上意味着在某些情况下最好不要使用共享内存，这取决于此。然后，我们必须考虑如何判断哪个更好，使用还是不使用

浏览 6提问于2012-04-04得票数 0

回答已采纳

1回答

Unix系统是如何在进程fork()时跟踪共享内存的？

、、、、

进程A创建共享内存区域并与进程B共享它。然后进程A分叉并由此创建进程C。根据定义，C现在可以访问相同的共享内存区域。如果A死了，C和B仍然可以访问内存区域。只有当C和B也死亡时，物理内存才会再次释放。 Unix系统是如何实现这一点的？它们是否存储有关每个进程与谁共享哪个内存的

浏览 2提问于2014-11-12得票数 0

回答已采纳

1回答

如何将全局内存中的读取与short或char类型的元素正确地合并为共享内存(假设每个元素有一个线程)？

、、

我正在编写一个CUDA内核函数，它将T类型数组从全局内存读取到共享内存中，进行一些计算，然后将T类型数组写回全局内存。我使用共享内存，因为每个输出元素的计算实际上不仅取决于相应的输入元素，还取决于附近的输入元素。我只想加载每个输入元素一次，因此我希望在共享内存中缓存输入元素。我的计划是让每个线

浏览 0提问于2012-01-20得票数 3

回答已采纳

1回答

OpenCL是共享、分布式还是混合存储系统

、、

我很难理解OpenCL，特别是OpenCL 2.0+是一个共享的，分布式的还是分布式的共享内存架构，特别是在一台电脑上有许多OpenCL设备的情况下。特别是，我可以看到它是一个共享内存系统，因为它们都可以访问全局内存，但它们的计算单元具有类似网络的方面，这让我怀疑它是否可以经

浏览 2提问于2017-05-28得票数 0

1回答

除了__syncthreads()之外，是否有任何东西可以防止读后写入、内翘曲共享内存的危害？

、、、

我有一个偏差，它将一些数据写入共享内存--没有覆盖，并且在从共享内存读取之后不久。虽然我的块中可能有其他偏差，但它们不会触及共享内存的任何部分，也不会将我的兴趣偏差从任何地方写入。当块中的某些线程访问共享或全局内存中相同的地址时，这些内存访问中可能存在读后写、写后读或写后写的危险。通过同步这些访问之间的

浏览 3提问于2017-04-20得票数 1

回答已采纳

2回答

将共享库映射到物理内存

、

最近，我一直在读“计算机系统”。它说共享库作为进程之间的共享对象映射到物理内存的同一页，包括它的.data部分和.text部分。在一个进程中对共享对象的写操作也可以被另一个进程“共享”。问题是:在构建共享库时，数据部分以GOT开头，它包含全局变量的地址。动态加载器负责填充与共享库链接的

浏览 2提问于2018-11-05得票数 1

1回答

是否值得通过共享内存传递内核参数？

、、

至于其他变量，我看到了一些例子，它们不需要分配内存就可以传递一个整数，直接传递给内核函数。在我的例子中，这样的变量是a、b和c。现在有个问题，我对CUDA有点陌生，我不确定是否有可能将变量a、b和c的内存转移到每个块的共享内存中，而不让每个线程从全局内存中读取这些变量并将它们加载到共享内存中，因此最终全

浏览 3提问于2013-05-25得票数 7

回答已采纳

1回答

GPU中的L1缓存

、、

在阅读GPU的内存层次结构时，我看到了一些类似的术语，而且由于在过去的版本中有一些架构修改，我不知道它们是否可以一起使用，或者有不同的含义。该设备是M2000，它是计算兼容性5.2。顶层(最接近管道)是一个统一的L1/纹理缓存，它是每SM 24 SM。指令和数据也是统一的吗？下面是 L2 缓存，也称为共享内存，根据.在deviceQuery或nvprof度量中都没有关于

浏览 1提问于2019-04-18得票数 2

回答已采纳

1回答

持久GPU共享内存

、、、

我是CUDA编程的新手，由于性能原因，我主要使用每个块的共享内存。按照我现在的程序结构，我使用一个内核加载共享内存，使用另一个内核读取预先加载的共享内存。但是，据我所知，共享内存不能在两个不同的内核之间持久。第一个解决方案:我使用一个内核，

浏览 1提问于2012-06-22得票数 1

回答已采纳

1回答

涉及多个进程的矩阵乘法共享内存

、、、

我正试图通过共享内存来学习IPC。我不明白如何将共享内存分配给不同processes.For示例中的各种变量，在矩阵乘法中，我不想全局声明矩阵，而是通过共享内存声明矩阵。如何将内存附加到不同的矩阵，如：有人能帮我吗？另外，它是否可以被mmap()和shm_open()替换，或者仅仅是文件？如果是，怎么做？我找不到恰当的

浏览 5提问于2013-03-13得票数 0

点击加载更多