腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7638)
视频
沙龙
2
回答
如
何在
向量
处理器
SIMD
上
添加
opencl
中
的
所有
向量
元素
(
int16
)?
、
、
、
、
在
SIMD
上
做矩阵乘法时,我遇到了将
向量
的
所有
元素
相加
的
问题。 float16 sum = row * column; 现在,as sum是16值
的
向量
变量。我想要将矩阵乘法
的
所有
值相加。在
opencl
或使用mac单元中有内置函数吗? PS:点函数只适用于float4
浏览 35
提问于2020-09-18
得票数 0
1
回答
如果我们想为CPU和GPU编写一次优化
的
代码,我们应该使用
向量
类型吗?
、
、
、
、
众所周知,
OpenCL
矢量型float16 在GCN
的
上
,一个线程查看一个
SIMD
元素
,即映射在一个
SIMD
车道上
的
浏览 2
提问于2017-02-19
得票数 1
回答已采纳
1
回答
REP指令被认为是
向量
操作吗?
、
、
我试图理解
SIMD
和矢量指令
的
概念。如果我理解正确的话:REP指令对一个数据数组进行操作,因此看起来它们实际
上
是
SIMD
/
向量
指令。我没有看到任何文章将它们描述为
向
浏览 5
提问于2020-01-16
得票数 2
回答已采纳
1
回答
如
何在
OpenCL
中
充分利用
SIMD
?
、
、
、
在
中
由于Gen
上
两个可能
的
SIMD
车道是8或16,为了不浪费
SIMD
车道,我们需要遵循这个规则。在Gen7.5计算体系结构
上
,大多数SPMD编程模型使用这种风格
的
代码生成和EU
处理器
执行。实际
上
,每个SPMD内核实例似乎在其自己
的
SIMD
中
以串行和独立
的
方式执行。那么
OpenCL
编译器
浏览 3
提问于2015-10-31
得票数 8
3
回答
OpenCL
、TBB、OpenMP
、
、
、
我在OpenMP、TBB和
OpenCL
中
实现了一些普通
的
循环应用程序。在
所有
这些应用程序
中
,当我只在CPU
上
运行OpeCL而没有在内核中进行特定
的
优化时,它
的
性能也比其他应用程序好得多。OpenMP和TBB也提供了很好
的
性能,但远远不如
OpenCL
,这是什么原因呢?因为这两个都是CPU专用框架,应该至少提供与OpenMP/TBB相同
的
性能。我
的
第二个担忧是,当涉及到Ope
浏览 2
提问于2011-08-20
得票数 0
5
回答
自动矢量化
的
实际应用?
、
、
、
有没有人利用了gcc可以做
的
自动矢量化?在现实世界
中
(而不是示例代码)?是否需要对现有代码进行重构才能利用它?在任何生产代码
中
,是否有大量
的
案例可以通过这种方式进行矢量化?
浏览 1
提问于2009-01-03
得票数 4
回答已采纳
6
回答
如
何在
Java中使用Intel AVX?
、
、
如何使用来自Java
的
Intel AVX矢量指令集?这是一个简单
的
问题,但答案似乎很难找到。
浏览 9
提问于2014-12-27
得票数 21
回答已采纳
2
回答
是否可以保证WaveFront (
OpenCL
)
中
的
所有
线程总是同步
的
?
、
、
、
、
分支发散只在翘曲中发生;不同
的
翘曲独立执行,不管它们是执行公共
的
还是不相交
的
代码路径。 SIMT结构类似于
SIMD
(单指令,多数据)
向量
组织,因为一个指令控制多个处理
元素
。一个关键
的
区别是
SIMD
向量
组织向软件公开
SIMD
宽度,而SIMT指令指定单个线程
的
执行和分支行为。WaveFront (
OpenCL
)
中
的
线程是线程,它们总是并行执行,但不
浏览 1
提问于2017-02-15
得票数 2
回答已采纳
2
回答
CPU/Intel
OpenCL
性能问题,实现问题
、
、
、
、
出现这些问题是因为我有相同问题
的
OpenMP和
OpenCL
实现。
OpenCL
在GPU
上
运行得很好,但在CPU
上
运行时性能下降了50% (与OpenMP实现相比)。有一个帖子,但我想我
的
问题更笼统。 据我所知:
向量
化内核并不一定意味着编译
的
二进制文件
中
没有
向量
/
SIMD
指令。我检查了我
的
内核
的
装配代码,有一堆
SIMD
指令。
向量</
浏览 1
提问于2012-11-15
得票数 10
回答已采纳
1
回答
非图像基本结构
中
的
OpenCV float vs double
、
我理解为什么在OpenCV
的
大图像中选择使用浮点数而不是双精度,因为它减少了图像所需
的
内存。但是,对于摄影机矩阵、旋转矩阵、平移
向量
和2D/3D点等其他OpenCV对象,是否有理由优先使用float而不是double?我知道OpenCV倾向于抱怨你试图使用不同类型
的
矩阵和
向量
来执行数学运算(例如,执行涉及浮点图像
的
像素值及其在用双OpenCV结构表示
的
图像
中
的
相应位置
的
数学运算)这(对我来说很明显)使用fl
浏览 3
提问于2020-05-02
得票数 0
5
回答
在使用float4、
opencl
时加速
我有以下
opencl
内核函数来获取图像
的
列总和。我还使用float4重写了上面的内核,这样每个线程就可以从源映像中一次读取4个
元素
,如下所示。; dstIdx += (dstStep/4); }在这种情况下,理论
上
,我认为第二个内核处理图像所消耗
的
时间应该是第一个内核函数所消耗时间
的
四分之一。然而,无论图像有多大,这两个内核几乎消耗相同<e
浏览 1
提问于2013-04-28
得票数 4
5
回答
为什么许多编程语言缺乏标准
的
向量
类型?
、
许多语言,例如C,甚至是C++、C#或Java,都没有本机支持
的
向量
(
SIMD
)类型或功能。在这种语言中,必须使用非标准扩展或第三方库来访问
向量
类型/指令,或者在没有它们
的
情况下进行到期,只希望它们
的
编译器足够聪明,能够自动将代码
向量
化。我看不出如何:自
浏览 0
提问于2023-03-24
得票数 1
回答已采纳
1
回答
在WaveFront
中
,我们是否可以使用“霉运()”指令在项(线程)之间进行reg数据交换?
、
、
、
、
众所周知,WaveFront (AMD
OpenCL
)非常类似于WARP:。 还知道,AMD建议我们使用本地内存增加(减少)数字。(__m128i a, __m128i b);
SIMD
-车道上
的
x86_
浏览 6
提问于2017-02-15
得票数 5
回答已采纳
2
回答
当编写
openCL
代码时,它在没有图形
处理器
的
单核机器
上
的
性能如何?
、
、
、
大家好,我目前正在为一个研究项目将一个从FORTRAN 77移植到C语言
的
光线跟踪器移植到C。此外,代码将是GPLed,我们希望看到它被其他可能具有截然不同
的
硬件的人使用。因此,在没有GPU甚至多核系统
的
情况
浏览 0
提问于2011-01-31
得票数 4
回答已采纳
1
回答
microsoft.bcl.
simd
怎么了?
、
、
、
我清楚地记得关于C#
的
SSE增强
向量
的
公告,我知道我们在不久前对它们做了一些测试。现在,他们似乎从互联网上消失了。2014年
的
NuGet一揽子计划仍然存在,但已被除名: 这个项目是正式停止了,还是被合并成了其他项目?
浏览 2
提问于2015-11-25
得票数 6
回答已采纳
4
回答
GPGPU用于3d数学
、
、
、
我读了很多关于gpgpu
的
书,我现在正在学习OpenGL。现在我必须自己编写
所有
的数学(或者使用现有的第三方库),我有了使用gpu而不是cpu来创建我自己
的
数学库
的
想法。(矩阵、
向量
等)有什么特别的原因吗? 也许CPU在这些任务
上
做得更好?
浏览 0
提问于2012-12-19
得票数 0
回答已采纳
2
回答
数据自动化系统核心有矢量指令吗?
、
、
、
、
根据大多数NVidia文档,CUDA核心是标量
处理器
,应该只执行标量操作,这将被矢量化到32组件
的
SIMT翘曲。但是
OpenCL
有
向量
类型,例如,uchar8.It
的
大小与ulong (64位)相同,可以由单个标量核处理。如果我对一个uchar8
向量
进行操作(例如,组件级
的
加法),这也会映射到单个核
上
的
指令吗?编辑:我
的
问题是,在CUDA体系结构
上
(独立于
OpenCL
),是否有一些
浏览 3
提问于2018-01-19
得票数 3
回答已采纳
2
回答
OpenCL
与OpenMP性能
、
有没有研究比较
OpenCL
和OpenMP
的
性能?具体地说,我感兴趣
的
是使用
OpenCL
启动线程
的
开销成本,例如,如果将域分解为非常大量
的
单独工作项(每个工作项由一个执行小任务
的
线程运行),而在OpenMP
中
,较重
的
线程是将域分解为数量等于核心数量
的
子域似乎
OpenCL
编程模型更多地针对大规模并行芯片(例如GPU),而不是具有更少但更强大内核
的
CPU。
OpenCL
浏览 0
提问于2011-09-01
得票数 32
回答已采纳
1
回答
编译警告
OpenCL
矩阵乘法
、
、
、
、
__attribute__((num_
simd
_work_items(4)))__attribute__((reqd_work_group_size
浏览 1
提问于2019-12-16
得票数 3
回答已采纳
2
回答
SIMD
微体系结构
、
、
、
我正在尝试理解
向量
处理器
和
SIMD
架构之间
的
区别。我知道这两者在
向量
寄存器长度可配置性方面存在差异。然而,我不确定他们
的
微体系结构有什么不同?对于
SIMD
机器,我们需要拥有与每条指令操作
的
元素
数量一样多
的
处理单元吗?或者就像
向量
处理器
一样,我们可以拥有比
向量
寄存器
中
的
数据
元素
数量更少
的
处理单元
浏览 0
提问于2019-06-21
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券