提高opencl的性能_OpenCL性能优化_提高cassandra的性能 - 腾讯云开发者社区

、、

当我们可以使用OpenGL获得良好的速度时，因为它使用了纹理内存和许多内置的图形功能(混合，mip map等)。为什么我们需要openCL (openCL buffers的慢信标)和OpenGL的互操作性，仅仅是因为我们可以将渲染和计算结合在一起，或者有任何好的优势，比如性能。我只想知道这一点的主要优势，有没有发表的论文表明，通过使用与OpenCL的OpenGL互操作性，它们<em

浏览 1提问于2012-03-29得票数 5

回答已采纳

1回答

提高opencl的性能

、、

我正在尝试用opencl实现一些图像处理算法。但正如我所看到的，当我使用opencl时，完成一个进程大约需要0.5ms，即一帧。有没有比只使用类对象声明初始化opencl参数一次，而不是只调用一个函数运行主内核的方法呢？我通过创建类来尝试这样做，但当我发现上下文时，设备不能单独声明和使用，并且每次都需要创建。Check OpenCL installation!"Check OpenCL installation!"

浏览 22提问于2020-01-09得票数 2

回答已采纳

1回答

GPU上的矢量编码

我使用OpenCL同时在不同的GPU和CPU上执行一个过程，以获得高性能的结果。英特尔的OpenCL总是显示一个信息，即内核没有矢量化，所以它只能在不同的内核上运行，而不会使用SIMD指令运行。我的问题是，如果我重写代码，使SIMD指令可以利用OpenCL代码，它是否也会提高GPU的性能？

浏览 2提问于2015-05-11得票数 3

回答已采纳

1回答

糟糕的OpenCL ImageSampling性能vs OpenGL TextureSampling

、、、、

我最近将我的volumeraycaster从OpenGL移植到了OpenCL，这降低了大约90 %的性能。我跟踪了OpenCL的图像采样函数的性能下降，它们比各自的OpenGL纹理采样函数慢得多。纹理格式(字节而不是浮点数)，不同的访问模式和不同的纹理大小:没有增加在CL内核中使用-Using缓冲器代替图像来存储数据，并使用自编写的三线性插值函数进行采样:将OpenCL<

浏览 0提问于2012-06-12得票数 55

4回答

AMD CPU与Intel CPU openCL的对比

、、、、

对于一些朋友，我们想使用openCL。为此，我们希望购买一台新电脑，但我们问我们最好的AMD和英特尔之间使用openCL。显卡将是英伟达，而我们在显卡上没有选择，所以我们开始想买英特尔cpu，但经过一些研究，我们发现可能是AMD cpu搭配openCL更好。我们没有找到比较两者的基准。那么，我们的问题是: AMD是否比拥有openCL的英特尔更好？为了提高openCL的性能，使用带

浏览 4提问于2011-06-18得票数 3

回答已采纳

2回答

Altera OpenCL的并行实现

、、、

我已经研究Altera有一段时间了，通过将计算部分转移到OpenCL来改进繁重的计算程序。我设法执行了Altera提供的向量加法示例，似乎工作得很好。我看过Altera OpenCL的文档，了解到OpenCL使用流水线并行来提高性能。我想知道是否有可能实现并行执行，类似于在VHDL语言中使用Altera OpenCL在FPGA中并行执行多个进程。比如在一个可以并行执行的设备上启动多个内核？有可能吗？如何检查是否支持

浏览 2提问于2015-07-08得票数 3

1回答

OpenCL在GTX泰坦上的速度是CUDA的两倍

、、、

我有一个在ArrayFire中实现的光束传输算法。我用的是OpenCL后端和我的GTX泰坦卡。使用OpenCL，它以每分钟25,000步的速度运行。然后我把它切换到CUDA后端，性能提高到每分钟50,000步左右。这有点令人惊讶，但我想它可能使用了OpenCL中没有的一些更高级的特性。然后我使用我的GTX 960卡运行了相同的测试。OpenCL的

浏览 1提问于2016-03-31得票数 0

回答已采纳

1回答

OpenCL -性能

、

我正在使用OpenCL，我使用一个矩阵来增加它的值，我需要尽可能低的应用时间。使用OpenCL提高性能的最佳方法是什么？我读过一些关于数据并行性和任务并行性的文章，但我并不十分了解它们。

浏览 1提问于2017-06-20得票数 1

回答已采纳

2回答

opencl矩阵库

、

我想用OpenCL将物理模拟算法移植到GPU上，以提高性能；我对OpenCL没有经验，我正在四处看看。计算主要是小稠密矩阵(3x3)和向量积、交叉积等。对于这样的基本操作，是否有一些“标准”/recommended库？我当然不想自己编码矩阵乘法和倒置(不是时间，而且是无效的)。由于OpenCL没有类、运算符重载等，我是否必须编写mmul(a,mtrans(b))而不是a*b.transpose()？是否有一些(计划中的) OpenCL

浏览 4提问于2011-09-05得票数 7

回答已采纳

2回答

对CUDA/openCL和C++ AMP的混淆

、、、

我读到微软正在与Nvidia密切合作，以提高AMP的性能。我还是很困惑..。

浏览 1提问于2012-04-25得票数 15

回答已采纳

1回答

如何在Emgu CV项目中利用OpenCL的优势

、、、

我是使用Emgu的新手，并且开始创建一些小的示例项目，例如人脸检测，眼睛检测，..etc。如果我能利用OpenCL的优势来使用图形处理器加速这个过程，那就太好了。否则，当我减少scaleFactor时，它会导致大量的cpu占用率。我该怎么做呢？谢谢。

浏览 1提问于2015-02-14得票数 3

2回答

Linux ICD加载器- Nvidia GPU，Intel CPU

、、、

为了实现负载平衡，我试图同时在英特尔CPU和Nvidia GPU上运行我的OpenCL应用程序。但我的问题是只有Nvidia Plattform被发现了。Arch 3.14.6-1-ARCH o

浏览 1提问于2014-06-12得票数 2

回答已采纳

2回答

链接到openCL内核程序内部的外部库

、、、

我编写了一段openCV代码，需要对其进行并行化以提高性能。我需要知道如何在openCL内核中调用openCV函数。干杯，帕拉斯

浏览 2提问于2012-01-19得票数 3

2回答

使用GPU并行处理和绘制数字

、、、、

(在OpenCL上)在同一个GPU上有效地共享？例如, 谢谢

浏览 3提问于2013-10-01得票数 0

1回答

AMD Polaris上特定大小的矩阵乘法性能下降

、、、

我有一个将2个矩阵(GEMM)与M=4096、N=4096和K=16相乘的OpenCL代码(即矩阵4096x16浮点数)。我在Polaris 560，16CU的GPU上运行它。代码：https://github.com/artyom-beilis/oclblas/blob/master/gemm/gemm.cl 我注意到这个大小的性能下降非常奇怪，这个大小的矩阵乘法有大约8-10 GFlops的</

浏览 30提问于2021-06-27得票数 4

回答已采纳

1回答

使用英特尔OpenCl解决PyOpenCl错误后的性能提升

、、、、

我现在有一些奇怪的性能问题，英特尔OpenCl与AMD应用程序相比。code将是用OpenCl C编写的内核。现在我得到了一个奇怪的行为。如果我通过更改函数Mandelbrot中的任何内容(例如，任何语法、参数)让程序以错误结束，在IPython控制台中运行此程序并获得错误消息，纠正错误并再次运行，

浏览 0提问于2015-03-20得票数 0

1回答

使用集成图形卡可以获得更高的处理速度吗？

、、

在我的一个项目中，我使用了低功耗的Athlon 5350 CPU (被AMD称为APU )。它有4个“正常”核心和128个“Radeon”核心。计算机运行基于文本的linux发行版。最重要的是，我运行我的应用程序，它执行一些计算(非常复杂的数学)。我想知道是否有可能通过将部分应用程序委托给OpenCL来提高应用程序的性能。这完全是假设的，因为我对OpenCL一无所知。我的

浏览 4提问于2016-10-15得票数 0

1回答

libGDX是否支持内置在LWJGL中的OpenCL包装器？

、、、、

我最近一直在编写卷积反向传播神经网络的程序，我主要使用Java运行程序，使用libGDX进行图形可视化。通过大量的研究，我发现要大幅提高性能和效率，我应该在显卡上执行矩阵计算，而不是在CPU上。在浏览了在线资源后，我发现在显卡上执行此类计算的主要方式是通过OpenCl。经过更多的研究，我发现我在Java上支持OpenCl的两个主要选择是通过LWJGL或JOCL。libGDX是建立在LWJGL上的，所以我的</

浏览 7提问于2017-02-02得票数 0

回答已采纳

1回答

OpenCL内存的排列

我有大约10个numpy数组的n项。具有全局id OpenCL i的i工作人员只查看每个数组的ith元素。我该如何安排记忆？我正在考虑将图形卡上的数组交织在一起，但我不确定这是否会提高性能，因为我不理解工作组内存访问模式。

浏览 3提问于2013-09-03得票数 0

回答已采纳

1回答

在Arm马里GPU中，点积比MAD (乘法和加法)指令更快吗？

、、

我发现点积与向量add、向量mul(每个核心每个ALU只有一个周期)是相同的周期，但不是mad。所以我很好奇mad指令有多少个周期。

浏览 7提问于2019-10-25得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

OpenCL与OpenGL互操作性的优势

提高opencl的性能

GPU上的矢量编码

糟糕的OpenCL ImageSampling性能vs OpenGL TextureSampling

AMD CPU与Intel CPU openCL的对比

Altera OpenCL的并行实现

OpenCL在GTX泰坦上的速度是CUDA的两倍

OpenCL -性能

opencl矩阵库

对CUDA/openCL和C++ AMP的混淆

如何在Emgu CV项目中利用OpenCL的优势

Linux ICD加载器- Nvidia GPU，Intel CPU

链接到openCL内核程序内部的外部库

使用GPU并行处理和绘制数字

AMD Polaris上特定大小的矩阵乘法性能下降

使用英特尔OpenCl解决PyOpenCl错误后的性能提升

使用集成图形卡可以获得更高的处理速度吗？

libGDX是否支持内置在LWJGL中的OpenCL包装器？

OpenCL内存的排列

在Arm马里GPU中，点积比MAD (乘法和加法)指令更快吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐