缓存一致性在GPU中实现了吗？ - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

图形处理器L1缓存一致性

、

在OPENCL和CUDA中，有原语，即分别为L1数据缓存/共享内存强制一致性的屏障()和同步线程()。这是否意味着缓存本身是不一致的，即没有像L1缓存硬件中实现的缓存一致性协议那样的CPU？

浏览 7提问于2013-10-22得票数 1

2回答

Promela中的缓存模型

、、、、

我希望为多核处理器建立缓存模型，包括缓存一致性。这种PROMELA实现已经存在了吗？我试着去找，但是找不到。其次，如果我必须自己实现它，是否可以在PROMELA中声明非常大的数组来表示缓存结构？

浏览 6提问于2014-01-30得票数 3

回答已采纳

1回答

GPU核心如何相互通信？

、、、

GPU，当用于通用计算时，非常强调与SIMD和SIMT的细粒度并行.它们在具有高算术强度的常规编码工作负载上表现最好。这意味着GPU上的不同内核在执行不同的指令流后必须彼此同步。他们是怎么做到的？那么GPU核心采用什么方法

浏览 3提问于2020-11-15得票数 3

回答已采纳

1回答

CUDA原子操作和并发内核启动

、、

目前，我开发了一个基于GPU的程序，该程序使用多个通过使用多个流同时启动的内核。在我的应用程序中，多个内核需要访问一个队列/堆栈，我计划使用原子操作。但我不知道原子操作是否在同时启动的多个内核之间工作。请帮助我谁知道在GPU上的原子操作的确切机制或谁有这个问题的经验。

浏览 6提问于2013-12-23得票数 4

1回答

只是想知道我应该期望什么样的速度，我一直在尝试在全局内存和着色器之间进行基准测试，而不是依赖于GPU规格表。然而，我不能接近理论上的最大值。实际上，我的误差是50的1倍。在计算着色器中使用image_load_store可以工作，并提供与顶点着色器相同的速度(尽管我认为在glMemoryBarrier(GL_ALL_BARRIER_BITS)中使用glDispatchComputeglBufferData调用中变成了非常驻的，这些调用是用来检查输出是否被写入的。根据猜测，OpenGL随后

浏览 83提问于2015-06-30得票数 18

2回答

GPU上的相干内存是什么？

、、、

在“不连贯”和“连贯”的记忆中，我一次也没有失足。与图形编程有关，我一直在寻找一个简单而清晰的解释，但大部分找到了类型的“硬核心”文件。我很乐意收到外行人关于GPU体系结构上的相干内存实际上是什么，以及它与其他(可能不是相干的)内存类型的比较的风格答案。

浏览 4提问于2016-03-26得票数 24

回答已采纳

1回答

我可以绕过OpenCL中的缓存吗？

、、

实际上，我从来没有遇到过需要缓存我写入全局内存的值的情况。但是我没有办法阻止GPU污染缓存，就像我在CPU上使用非临时写入所做的那样。这是一个严重的问题，可能会使性能下降20%或更多。

浏览 2提问于2016-06-07得票数 1

2回答

可以在硬件(RTL)中实现像窥探一致性这样的缓存一致性协议吗？

、、、

高速缓存一致性协议如窥探一致性协议和MESI/MOESI能否在硬件(RTL)中实现？我正在为多核高速缓存环境设计一个RTL，需要实现缓存一致性工具，以便为所有处理器获取一致的数据。我有MSI的状态图，应该先实现FSM吗？我正在为可综合的verilog/systemverilog开发代码。对于每个缓存块，FSM应该是不同的，那么是否有一个mux连接到FSM状态机控

浏览 7提问于2016-10-22得票数 0

回答已采纳

2回答

GPU上的加密，安全与否？

我只是想知道在GPU上执行加密是否比在CPU上执行更安全，因为从内存和/或各种其他硬件攻击中读取加密密钥的难度更大。我知道有很多关于如何从软件加密实现中提取信息的文献，但是他们大多假设标准CPU正在运行代码。这样的攻击能扩展到GPU风格的硬件架构吗？做好了吗？这在一般用途的密钥管理中也很有用，在这种情况下，加密密钥必须在一段时间内保密。而不是将它放在内存中，它可以进入GPU内存(额外的是:它不能被分页到磁盘或缓存</

浏览 0提问于2012-04-11得票数 5

回答已采纳

1回答

内存模型-/缓存一致性协议: TSO如何与MESIF结合

、、、

具体来说，在查看x86时，我使用的是一个执行TSO内存模型的ISA，以及一个使用MESIF缓存一致性协议的CPU (在Intel的例子中)。然后，在结束缓存一致性之后，他继续使用内存模型，特别是TSO (我们已经在并行编程类中引入了线性化-/顺序一致性)。似乎我们“解决了”缓慢的顺序一致性问题，在缓存层次结构中引入了(

浏览 4提问于2019-12-15得票数 3

回答已采纳

1回答

为什么高速缓存一致性在多处理器系统中很重要？

、、、、

多处理器系统具有内置于其中的某种类型的高速缓存一致性协议，例如MSI、MESI等。高速缓存一致性重要的唯一情况是当在两个不同处理器中执行的指令试图写入/读取共享数据时。如果没有内存屏障，则无论底层处理器是否实现高速缓存一致性，共享数据都将是“错误的”。那么为什么需要硬件级别的缓存一致性机制呢？

浏览 27提问于2021-11-20得票数 0

2回答

主持人的一致性是如何工作的？

我相信缓冲区需要被驱动程序转移到GPU中，然后才能吸引它们，是吗？在这里，我从来不需要失效/刷新任何东西，因为内存是HOST_COHERENT。司机如何知道该更新/传送什么以及何时更新？

浏览 0提问于2018-04-13得票数 7

回答已采纳

3回答

如何在C++中利用抽象类指针向量实现缓存一致性？

、、、

我在C++做了个小游戏。我在StackExchange网站上找到了关于缓存一致性的答案，我想在我的游戏中使用它，但我使用的是抽象类实体的子类。我将所有实体存储在std：：that中，这样我就可以在循环中访问虚拟函数。实体：：update()是由PlayerEntity.等子类覆盖的实体的虚拟函数。在Game.hpp中-私有成员变量：PlayerEntity*

浏览 1提问于2014-06-11得票数 1

回答已采纳

1回答

如何从固定的(锁页) RAM读取，而不是从CPU缓存读取(通过GPU使用DMA零复制)？

、、、、

如果我在CUDA C++上使用内存的DMA <-> GPU，我如何确定内存将从固定的(锁页)内存中读取，而不是从CPU缓存中读取？据我所知，来自C+ +11的std :：memory_barier ()对直接存储器访问没有帮助，也不会从内存中读取，而只会导致缓存L1/L2/L3之间的一致性。此外，一般而言，没有解决CPU上的高速缓存和RAM之间的冲突的协议，而只是在NUMA中<

浏览 6提问于2012-08-19得票数 0

回答已采纳

2回答

当值可能相同时，避免写入的速度是否更快

、、

在SMP机器上，#2与#1相比是否具有性能优势：或我在想，管理CPU之间的缓存一致性的幕后开销可能会有一些成本。我疯了吗？

浏览 3提问于2012-05-19得票数 4

回答已采纳

1回答

通过Vulkan和vkInvalidateMappedMemoryRanges同步将内存从GPU传输到CPU？

在Vulkan中，当我想将一些内存GPU传输回CPU时，我认为最有效的方法是将数据写入带有标志VK_MEMORY_PROPERTY_HOST_VISIBLE_BIT | VK_MEMORY_PROPERTY_HOST_CACHED_BIT的内存中。(可用内存属性标志的完整列表可以在Vulkan的文档中找到) 为了获得最新的数据，我必须使用使内存失效，对吗？问题2:在vkInvalidateMappedMemoryRanges期间，引擎盖下发生了什么？这是来自某个内部缓存

浏览 1提问于2019-06-14得票数 5

回答已采纳

1回答

序列一致性中的RMW运算

、、、

在J.Sorin的“记忆一致性和缓存一致性的基础”一书中，我找到了下一个关于SC模型中RMW优化的副翼：更激进的RMWs实现利用了SC只需要显示所有请求的总顺序的洞察力。因此，一个原子RMW可以通过首先让一个核心在其缓存中获得处于状态M中的块来实现，如果该块还没有处于该状态。然后，内核只需要在其缓存中加载和存储块--不需要任何一致性消息或总线锁定--只要它等待为块的任何传入<em

浏览 3提问于2022-07-03得票数 3

1回答

微服务体系结构中的缓存

在API网关中，可以实现缓存功能，以减少访问时间和带宽使用。在微服务体系结构中，网关是否缓存已发现的服务描述？如果是的话，他如何保持缓存的一致性？

浏览 1提问于2018-02-19得票数 4

2回答

HOST_CACHED_BIT和HOST_COHERENT_BIT相互矛盾吗？

有两种类型的记忆在Vulkan嗡嗡我： VK_MEMORY_PROPERTY_HOST_COHERENT_BIT位表示不需要主机缓存管理命令vkFlushMappedMemoryRangesVK_MEMORY_PROPERTY_HOST_CACHED_BIT位表示以此类型分配的内存被缓存在主机上。对非缓存内存的访问比对缓存内存的访问慢，但是非缓存内存始终是主机相干的。根据我的理解，主机和设备都会立即看到对相干类型内存的修改，主机和/或设备可能不会立即看到对缓

浏览 1提问于2017-07-10得票数 4

回答已采纳

1回答

同一处理器上两个核之间的缓存一致性问题

、、、、

这两个核心具有不同的L1和L2缓存，同时共享公共的L3缓存。p1和p2都使用指针ptr (ptr位于共享内存中)。Process p1初始化ptr & p2应该简单地使用它。当p2最初将ptr视为'NULL‘时，它将面临崩溃(虽然在一段时间之后，可能是由于缓存一致性，ptr的正确值被p2看到了)。在共享总线/内存体系结构的情况下，不同的处理器(在不同的套接字上)通常遵循总线窥探协议，以实现缓存</e

浏览 4提问于2020-04-17得票数 0

回答已采纳

点击加载更多

图形处理器L1缓存一致性

Promela中的缓存模型

GPU核心如何相互通信？

CUDA原子操作和并发内核启动

如何测量OpenGL中的峰值内存带宽？

GPU上的相干内存是什么？

我可以绕过OpenCL中的缓存吗？

可以在硬件(RTL)中实现像窥探一致性这样的缓存一致性协议吗？

GPU上的加密，安全与否？

内存模型-/缓存一致性协议: TSO如何与MESIF结合

为什么高速缓存一致性在多处理器系统中很重要？

主持人的一致性是如何工作的？

如何在C++中利用抽象类指针向量实现缓存一致性？

如何从固定的(锁页) RAM读取，而不是从CPU缓存读取(通过GPU使用DMA零复制)？

当值可能相同时，避免写入的速度是否更快

通过Vulkan和vkInvalidateMappedMemoryRanges同步将内存从GPU传输到CPU？

序列一致性中的RMW运算

微服务体系结构中的缓存

HOST_CACHED_BIT和HOST_COHERENT_BIT相互矛盾吗？

同一处理器上两个核之间的缓存一致性问题

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐