桌面i7-4770k @4 4GHz核的峰值GFLOPS为4 4GHz *8 (AVX) * (4 FMA) *4核= 512 GFLOPS。但最新的英特尔IGP (Iris Pro 5100/5200)的峰值超过800 GFLOPS。因此,一些算法在IGP上运行得更快。把核心和IGP结合在一起会更好。此外,IGP不断消耗更多的硅。Iris Pro 5100现在占据了硅的30%以上。英特尔桌面处理器的发展方向似乎很清楚。
然而,据我所见,Intel IGP除了OpenCL/OpenGL之外,大多被程序员忽略。我很想知道如何在没有OpenCL的情况下编写用于计算的Intel图形硬件(例如SGEMM)?
补充道:并不是英特尔对高清图形和OpenCL的支持。我找到了贝格网,它是开源的,它试图添加对Linux的支持,至少对常春藤桥高清图形是这样的。我还没试过。开发北网的人可能知道如何在没有OpenCL的情况下编写高清图形硬件。
发布于 2013-08-20 17:07:36
请记住,要将数据复制到视频卡和后面,必须考虑到这一点。AMD即将发布APU芯片,在相同的芯片上为CPU和GPU提供统一的内存,这将大大缓解这一问题。
在CUDA和OpenCL之前,GPU使用的方式是将要操作的内存表示为使用DirectX或OpenGL的纹理。谢天谢地我们不用再这么做了!
AMD确实在推动APU / OpenCL模式,所以更多的程序应该通过OpenCL来利用GPU --如果有性能权衡的话。目前,GPU计算是一个小众市场,它被降级为高性能的计算或数字处理,这只是网页浏览和文字处理所不需要的。
发布于 2013-12-21 23:42:51
像没有opencl的虹膜这样的协处理器编程,就像驾驶没有方向盘的汽车一样。
OpenCL的设计是为了暴露虹膜实现其理论性能所需的并行性。您不能只在上面生成1000多个线程或进程,并期望性能。让线程块在相同的内存地址上同时做相同的事情,是问题的关键所在。
也许您可以想出一个比opencl更好的范例来实现这个目标;但是,在您这样做之前,我建议您尝试学习一些opencl。如果您对python感兴趣,那么pyopencl是一个很好的起点。
https://stackoverflow.com/questions/18335702
复制相似问题