在我的OpenCL/Cloo(C#)程序中，“零拷贝”比非零拷贝慢。

文章/答案/技术大牛

发布

1回答

、、

这可能只是.NET框架分配的内存对象没有正确地按页对齐的问题，但我不明白为什么零复制比非零复制慢。 public float[] M

浏览 30提问于2017-02-17得票数 1

1回答

从操作系统内核访问GPU内存

、、

目前，我们有一个用户模式模块，它使用OpenCL将数据复制到GPU内存和从GPU内存复制数据。我们更喜欢直接从Windows访问GPU内存的方法(从而减少引入的f.e的开销。通过上下文切换)。

浏览 4提问于2012-02-10得票数 0

1回答

在实现零拷贝时使用clEnqueueMapBuffer和clEnqueueUnmapMemObject的建议方法

我正在与opencl进行深度学习，张量的输出大小是固定的。它非常高效，因为它只在我的整个程序执行过程中被调用了一次。<

浏览 5提问于2019-09-28得票数 2

回答已采纳

1回答

为什么clEnequeMapBuffer不能映射到原始指针、OpenCL、Caffe

、

假设CPU指针(Cpu_ptr_)已经存在，然后我为gpu(cl_gpu_mem_)创建了一个缓冲区。"Device claims it supports zero copy"我根本不知道为什么会发生这个错误

浏览 18提问于2016-09-10得票数 1

回答已采纳

3回答

AMD的OpenCL是否提供与CUDA的GPUDirect类似的功能？

、、、、

我想知道AMD/ATI是否也有类似的概念？具体地说： 1)在与网卡接口时，AMD GPU是否避免了第二次内存传输。如果图形在某一时刻丢失，这里描述了GPUDirect对从一台机器上的图形处理器获取数据并通过网络接口传输的影响:使用GPUDirect，图形处理器内存进入主机内存，然后直接进入网络接口卡。在没有GPUDirect的情况下，GPU内存在一个地址空间中访问主机内存，然后CPU必须复制内存到另一个主机内存地址空间中，然后它才能访问网卡。如果图形在

浏览 8提问于2012-02-15得票数 12

回答已采纳

2回答

arm mali gpus上的零拷贝缓冲区分配？

、、、

我希望在arm、马里、midgard、gpus和arm clBuffer上的opencl buffers具有零拷贝行为，以便矢量的数据指针和cpus在其生命周期内指向相同的位置。我尝试过的一些事情。我为一个向量编写了一个自定义分配器(64字节对齐)，然后我尝试使用cl_arm_import_memory函数并将向量的指针传递给该函数。但问题是，当我查询设备扩展属

浏览 18提问于2019-10-21得票数 0

1回答

默认情况下，“零拷贝网络”是否在Linux上实现？

、

我看到这篇文章：零拷贝网络将在2.4.4.这个补丁由David、Alexey和其他人开发和测试了一段时间，并在2.4.2ac4中集成到了"ac“内核系列中。在某种程度上，在一个稳定的内核系列中看到这是一个令人惊讶的变化，因为它在网络代码中进行了根本性的更改。然而，从所有的报告来看，它

浏览 0提问于2013-08-20得票数 6

1回答

Linux下的AIO网络套接字和零拷贝

、、

我一直在尝试使用async Linux网络套接字(aio_read等人在aio.h/librt中)，我一直在尝试找出这些套接字是否是零拷贝的。到目前为止，我读到的几乎所有内容都讨论了文件I/O，而我感兴趣的是它的网络I/O。使用AIO有点麻烦，而且我怀疑它是不可移植的，所以我想知道坚持使用它是否值得。零</

浏览 0提问于2010-06-04得票数 7

回答已采纳

2回答

谷物和促进序列化使用零拷贝吗？

、、、、

我在几种序列化协议(包括FlatBuffers、Cap、Boost序列化和谷物)之间做了一些性能比较。所有的测试都是用C++编写的。我以为麦片和升级版没有使用零拷贝。但是，序列化时间(对于int和double)几乎为空，序列化对象的大小与Cap或Flatbuffe

浏览 7提问于2017-01-23得票数 19

回答已采纳

1回答

简单的快速读取过程

、、

我想在一个非常慢的设备上解压缩文件中的数据(读取速度=1mo/s)。解压缩算法至少可以执行这个速度的三倍。在C/C++中并行这些任务的最快方法是什么，这样读取过程就不会因为解压缩而变慢，从而使用最大的带宽。我已经用常规管道尝试了两个线程。但我不知道这是不是最好的解决方案。至少它不是一个零拷贝算法。我当前<e

浏览 2提问于2019-03-25得票数 1

4回答

“零拷贝网络”vs“内核旁路”？

、、、、

“零拷贝网络”和“内核旁路”的区别是什么？这两个短语的意思是相同的，还是不同的？内核旁路是“零拷贝网络”中使用的一种技术吗?这就是关系？

浏览 73提问于2013-08-21得票数 46

1回答

使用sendfile而不是sendto零拷贝udp套接字

、、

我正在实时环境中使用udp套接字。我目前使用的是标准套接字函数sendto()，这需要相当长的时间。我读到可以使用零拷贝，如果我理解得很好，就可以避免通过从用户/内核环境复制文件而增加额外的时间。但是，我看到只允许从一个文件描述符复制到另一个文件描述符。我不知道如何使用它来发送UDP数据包，在我的例子中，UDP数据包是

浏览 4提问于2017-04-06得票数 1

1回答

要使用的内容:零拷贝内存与固定内存

在我的设备功能中，我将一个值存储在主机的全局内存中(不管是固定的还是零拷贝的)数百万次。在我的主机函数中，循环一次从全局内存中迭代和读取一个值(s.t )。我可以看到从设备中产生的值，而不是等待产生所有的值)。为了更好的表演，我<

浏览 1提问于2018-09-17得票数 0

回答已采纳

1回答

修改CUDA上的设备内存仅一次

、、

我是CUDA的新手。我在设备上为浮动变量分配了内存。然后，我在内核函数中向它添加了许多计算值。现在我只想对这个变量做一个数学运算。为了做到这一点，我必须把它复制回主机吗？

浏览 0提问于2013-12-25得票数 0

回答已采纳

1回答

Cuda零拷贝性能

、、、

有没有人有利用零拷贝(此处参考：)内存模型分析CUDA应用程序性能的经验？我有一个使用零拷贝功能的内核，在使用NVVP时，我看到了以下内容：在平均问题大小上运行内核，我得到0.7%的指令重放开销，所以没什么大问题。所有这0.7%都是全局内存重放开销。当我真的增加了问题大小时，我得到了95.7%的指令重放开销，所有这些都是由于全

浏览 52提问于2012-12-14得票数 1

回答已采纳

2回答

套接字问题

、、、、

有几个套接字问题，没有找到明确的是或否，所以提前道歉，如果它是一个转发：)平台是Linux2.6.30，C++应用程序。对网络来说还是很新的，快到了。默认情况下，Linux中的</e

浏览 0提问于2012-04-30得票数 1

1回答

OpenCL中零拷贝的访问路径

我有点搞不懂零拷贝到底是怎么回事。2-这样做有什么好处？PCI-e仍然限制了所有带宽.或者，在上述情况下，我们可以避免复制c2 & c1/c3？

浏览 1提问于2012-10-07得票数 7

1回答

内存如何映射到gpu (opencl* Intel图形)*

我正在使用英特尔集成gpu来实现opencl。我正在实现一个零拷贝的程序，而不是将数据复制到gpu，而是共享公共内存(RAM)。if(id==0){ printf("Mem address: %p

浏览 0提问于2019-06-26得票数 2

回答已采纳

2回答

Linux套接字:零拷贝本地TCP/IP远程

、、

在我花大量时间试图进一步调查这个问题之前，我希望一些有帮助的人能帮助我回答一些问题：在任何情况下，我

浏览 0提问于2011-12-28得票数 4

回答已采纳

1回答

将Data.ByteString.Lazy转换为CStringLen的最有效方法

、、、、

我需要将一些数据编码为JSON，然后使用hsyslog将其推送到syslog。这两项相关职能的类型如下： -> IO () 转换Lazy.ByteString -> CStringLen最有效的方法我找到了，但它只适用于ByteString，

浏览 6提问于2020-02-15得票数 1

回答已采纳

点击加载更多