使用纹理缓存还是使用缓存命中率低的合并全局内存？

、、、

在优化和分析内核的过程中，我注意到它的L2和全局缓存命中率非常低(平均为1.2%)。我的内核通常每遍读取4条完整的缓存线，每个SM读3个块(所以4* 32 *2=每SM每遍256条缓存线，它有一个可变的通道数)。读取来自全局内存的不同区域，这显然很难缓存。为了补偿内核读取的巨大空间，我考虑使用

浏览 3提问于2017-08-14得票数 0

回答已采纳

1回答

如何避免CUDA GPU中的TLB错误(以及高的全局内存重放开销)？

、、、、

标题可能比我实际的问题更具体，尽管我相信回答这个问题会解决一个更普遍的问题，那就是:如何减少GPU中来自随机(但合并的)全局内存访问的的影响。一般来说，如果一个人用合并的负载访问全局内存(例如。我读取了128个连续字节)，但是在合并的访问之间有很大的距离(256 TLB 64 TLB)，可以获得较高的TLB(

浏览 2提问于2013-06-08得票数 3

1回答

CUDA:纹理内存对于加快计算功能2.x和更新的访问时间仍然有用吗？

我正在编写一个图像处理应用程序，在该应用程序中，我必须以非合并的方式获取像素数据。由于Comput1.x硬件没有缓存，因此每个SM的纹理内存6-8K提供了在

浏览 1提问于2013-10-30得票数 11

回答已采纳

2回答

cudaArray与设备指针

、、

我对设备指针和cudaArray结构的预期用途之间的区别感到困惑。有人能解释一下为什么我要用一个而不是另一个吗？我的基本问题是，在阅读了文档和"CUDA by Example“一书之后，我不理解API设计人员的意图。在我看来，cudaArray应该用于纹理，而指针应该用于直接访问内存。似乎3D纹理只能使用cudaArray创建。是否应该使用cudaArray分配所有纹理？许多例子似乎并非如此。另外，为什么

浏览 0提问于2013-01-22得票数 13

回答已采纳

1回答

低的Postgres缓存命中率-数据大小还是其他什么？

、、、、

按照指南，我检查了缓存命中率甚至低于我们的Kappa数据库(现在~57%，以前~69%)。我们的应用程序设计应该是体面的，因为我们以前见过~99%的缓存命中率。建议是数据集应该能够适应内存，这现在不应该是一个问题-我们的数据大小是1.27GB (至少大部分应该适合)。是由于数据大小导致缓存命中率低，还是我还可以查看其他内容？还是仅仅是数据库<e

浏览 7提问于2013-05-29得票数 12

1回答

键缓存对象能被移到堆外内存上吗？

、

从的第11页开始，Java允许在本机内存中保存memtables和密钥缓存对象，而不是Java堆。但我没有发现其他证据表明memtable_allocation_type可以改变密钥缓存的位置。我正在使用3.11.3，并且正在遭受低键缓存命中率的困扰。由于增加密钥缓存大小将导致长gc，是否有任何方法将密钥缓存移至离堆内存？

浏览 0提问于2018-10-08得票数 1

回答已采纳

1回答

合并访问模式对于CUDA中的纹理和表面记忆是否重要？

、、、

在我使用CUDA的经验中，我更喜欢带有CUDA数组引用的纹理内存，因为它具有2D/3D空间缓存机制，并且我的输入数据在大多数情况下可以被安排为2D纹理。我知道当使用常规全局内存时，合并访问模式是非常重要的；如果warp中的线程读取连续的地址，并且基址与64字节边界对齐，那么整个warp可以通过一次内存

浏览 0提问于2012-08-01得票数 4

回答已采纳

1回答

二维阵列使用纹理缓存/ Image2D的缺点？

、、、、

当访问全局内存中的2D数组时，使用纹理缓存有许多好处，比如过滤，而不必那么关心内存访问模式。“数据自动化系统程序编制指南”只指出了一个缺点：但是，在同一个内核调用中，纹理缓存与全局内存写入不保持一致，因此任何纹理获取到通过同一个内核调用中的全局写入写入的地址都会返回未定义的数据。如果我不需要这样做，因为我从来

浏览 2提问于2011-08-31得票数 3

1回答

CUDA将数据从全局内存中缓存到统一缓存中，以便将它们存储到共享内存中？

、、

据我所知，GPU按照以下步骤(全局内存-L2-L1-寄存器-共享内存)将数据存储到以前NVIDIA GPU体系结构的共享内存中。但是，maxwell gpu(GTX980)物理上分离了统一缓存和共享内存，我想知道这个体系结构也遵循相同的步骤将数据存储到共享内存中？还是支持全局内存和共享内存之间的直接通信？使用选项"-d

浏览 2提问于2016-04-20得票数 3

回答已采纳

1回答

ASP.NET缓存修整意识到应用程序池内存限制？

、、、

虽然没有抛出异常，但这些重新启动仍然会导致时态性能退化(缓存命中率低、aspx编译等)，因此我想尽量减少重新启动的次数。通过查看性能计数器，我可以看到ASP.NET缓存按照设计的方式工作(项目计数和缓存命中率在启动后增加，尽管一些项可能由于过期日期而被删除)，但缓存修整除外。例如，当使用750 MB时，我希望缓存修整会启动，其中一半是缓存。但这种情况从未发生过，在负载下，它继续分配

浏览 0提问于2010-08-27得票数 5

回答已采纳

1回答

如何用石墨分析记忆键命中率？

、、

我有一个Rails应用程序，它广泛使用缓存，我想知道应用程序中不同位置的缓存命中率。低命中率的地方显然需要注意。但是先量一下！为了获得真实的数据，我使用了石墨+ statsd组合体和使用的。现在我要展示所有的命中率。这是你的一个问题，石墨专家:有没有办法显示所有地方的命中率？我在文档中见过组功能，但它们把我搞

浏览 3提问于2014-07-23得票数 7

回答已采纳

2回答

不同之处是: DRAM吞吐量与全局内存吞吐量

、、、

由一个内核实现的实际吞吐量由CUDA分析器使用以下四个指标报告：CUDA C最佳实践指南将全局内存负载CUPTI用户指南定义：全局内存负载吞吐量为((128*global_load_hit) + (l2_subp0_read_requests + l2_subp1_read_requests) * 32将吞吐量读取为(fb_subp0_read + fb_su

浏览 5提问于2012-06-05得票数 7

2回答

在OpenCL/CUDA中，每种内存访问类型有多少个内存延迟周期？

、、、、

我查阅了编程指南和最佳实践指南，其中提到全局内存访问需要400-600个周期。我在其他内存类型上没有看到太多，比如纹理缓存，常量缓存，共享内存。寄存器的内存延迟为0。我认为如果所有线程在常量缓存中使用相同的地址，那么常量缓存就等同于寄存器。最坏的情况我不是很确定。只要没有存储体冲突，共享内存就和寄存器一样吗？如果有，那么延迟是

浏览 1提问于2010-11-04得票数 5

回答已采纳

2回答

DirectX/Cuda/OpenGL的总/纹理可访问内存

、、、、

有人能解释一下在Cuda上下文中使用的纹理内存与在DirectX上下文中使用的纹理内存的区别吗？假设一块显卡有512 MB的广告内存，它是如何划分为常量内存/纹理内存和全局内存的。例如，我有一张特斯拉显卡，根据cudaGetDeviceProperties的查询，它

浏览 2提问于2010-08-03得票数 3

回答已采纳

3回答

又一个CUDA纹理内存线程。(为什么纹理记忆在费米上会更快？)

、、

有相当多的堆栈溢出线程询问为什么使用纹理的内核比使用全局内存访问的内核更快。对我来说，答案和评论总是有点深奥。在白色上声明为黑色：费米架构通过为负载和存储实现一个统一的内存请求路径来解决这一挑战，为每个SM多处理器提供一个L1缓存，以及为所有操作(加载、存储和纹理)提供服务的统一L2缓存。那么，为什么人们应该期望在费米设备上使用</e

浏览 16提问于2014-09-13得票数 4

回答已采纳

1回答

在CUDA中，全局记忆和纹理有什么区别？

、、

在CUDA中，全局记忆和纹理有什么区别？为了加快内存从主机到设备的复制，哪一个更好？我要用它们进行图像处理。我看过双向过滤的样本。它使用纹理而不是全局内存。我想要一些人解释一下。谢谢。

浏览 4提问于2016-01-27得票数 2

回答已采纳

1回答

CUDA中的常量内存、纹理内存和全局内存

、、

我试图在CUDA中找出常量内存、纹理内存和全局内存之间的区别。这篇文章讨论了这三种方法的性能影响：

浏览 3提问于2011-11-29得票数 7

回答已采纳

2回答

使用nvprof在CUDA计算功能3.x上评测L2缓存

、、

我在计算能力为3.5的CUDA卡上分析L2缓存时遇到问题。在Kepler (3.x)中，来自全局内存的加载只缓存在L2中，而不会缓存在L1中。我的问题是如何使用nvprof (命令行分析器)来查找我的全局负载在L2缓存中达到的命中率？l2_utilization: The utilization level of the L2 cache re

浏览 58提问于2014-02-16得票数 1

1回答

对于大量的数据来说，缓存值得吗？

、、

假设我们有一个500TB的键值对数据。我们可以使用2.5TB内存来为将来的请求缓存这些对。这些要求是多么的随意。The probability of cache hit would be 2.5/500 = 0.5% 我知道，如果我们使用LFU驱逐，命中率可能会随着时间的推移而增加，因为随着时间的推移，键将更频繁地留在缓存中，增加缓存命中率。因此，如果从

浏览 1提问于2019-06-27得票数 0

3回答

CUDA Global Memory，它在哪里？

、、

我知道在CUDA的内存层次结构中，我们有共享内存、纹理内存、常量内存、寄存器，当然还有我们使用cudaMalloc()分配的全局内存。我一直在搜索我能找到的任何文档，但我还没有遇到任何明确解释什么是全局内存的文档。我相信分配的全局内存在显卡本身的GDDR上，而不是与CPU共享

浏览 4提问于2012-06-24得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何避免CUDA GPU中的TLB错误(以及高的全局内存重放开销)？

CUDA:纹理内存对于加快计算功能2.x和更新的访问时间仍然有用吗？

cudaArray与设备指针

低的Postgres缓存命中率-数据大小还是其他什么？

键缓存对象能被移到堆外内存上吗？

合并访问模式对于CUDA中的纹理和表面记忆是否重要？

二维阵列使用纹理缓存/ Image2D的缺点？

CUDA将数据从全局内存中缓存到统一缓存中，以便将它们存储到共享内存中？

ASP.NET缓存修整意识到应用程序池内存限制？

如何用石墨分析记忆键命中率？

不同之处是: DRAM吞吐量与全局内存吞吐量

在OpenCL/CUDA中，每种内存访问类型有多少个内存延迟周期？

DirectX/Cuda/OpenGL的总/纹理可访问内存

又一个CUDA纹理内存线程。(为什么纹理记忆在费米上会更快？)

在CUDA中，全局记忆和纹理有什么区别？

CUDA中的常量内存、纹理内存和全局内存

使用nvprof在CUDA计算功能3.x上评测L2缓存

对于大量的数据来说，缓存值得吗？

CUDA Global Memory，它在哪里？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐