腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
AVX-512
浮点
比较
和
掩码
、
、
、
、
现在我想用
AVX-512
实现一些旧的AVX代码。falseValue, trueValue, mask ); _mm256_store_ps( array + index, result ); } 现在我被困在
AVX
} 使用__m512 _mm512_and_ps (__m512 a, __m512 b)会很好,但是在
比较
之后只有__mask16变量,并且我没有发现任何像_mm256_cmp_ps这样的_mm512
浏览 106
提问于2021-01-09
得票数 1
回答已采纳
1
回答
什么是JKZD
和
JKNZD?
、
、
、
、
Z
和
NZ可能分别表示零,而不是零,J可能代表跳跃,但K
和
D表示 它声明(第75页) JKZD被编码为VEX.NDS.128.0F.W0 84 id。
浏览 5
提问于2020-08-23
得票数 1
回答已采纳
1
回答
如何使用
掩码
打包__m128i元素?
、
我有以下几点:int j1 = 191;int j3 = 193;__m256d rij = _mm256_set_pd(2.8, 1.8, 2.1, 3.4);__m256d mask = sij - rij;[X, X, 192, 191], X的意思是我们不关心价值是什
浏览 13
提问于2022-06-12
得票数 0
1
回答
AVX512与矢量相比不掩模
、
我错过了avx2中生成向量而不是
掩码
的
比较
指令。在avx512中完成相同事情的最有效方法是什么?它是_mm512_cmp_ps_mask后面的一个扩展吗?
浏览 4
提问于2021-07-09
得票数 3
回答已采纳
1
回答
AVX2
和
AVX-512
有什么不同?
、
、
、
、
在单指令多路复用
和
并行化方面,AVX2
和
AVX512有什么不同?它们是相同的还是不同的?我刚刚看到AVX512中使用了double8,而AVX2使用了double4?
浏览 21
提问于2019-12-03
得票数 2
1
回答
AVX-512
屏蔽内存访问的性能
、
、
、
掩蔽可以提高
AVX-512
内存操作的性能(加载/存储/收集/分散
和
不改组负载操作)吗?当蒙面元素不会触发内存错误时,人们会假设掩蔽在这些情况下有助于性能,但是,如果使用0
掩码
,那么下面的情况如何: 跨越直线边界的装载/存储-这会抑制背线交叉惩罚吗?这将是目前英特尔处理器的背景,但有趣的是,看看一个支持
AVX-512
的AMD处理器是如何处理这一问题的。
浏览 12
提问于2022-08-10
得票数 10
2
回答
如何用AVX内蕴在C语言中
比较
两种压缩双精度矢量
、
、
、
我想用_mm512_mask_cmple_pd_mask来
比较
两个打包的双精度矢量。我的问题是,结果是__mmask8类型.因此,我想我的问题是如何将这种
掩码
转换成整数向量,以便稍后使用
比较
的结果。 在我的特殊情况下,我需要知道多少是真,所以我需要做一些削减之后.但当时有一件事!
浏览 24
提问于2022-09-13
得票数 1
1
回答
X86兼容的加速器中是否有SIMD(SSE / AVX)指令?
、
、
、
、
在x86兼容的加速器中是否有SIMD(SSE / AVX)指令?
浏览 2
提问于2014-03-26
得票数 7
回答已采纳
1
回答
有办法用avx512自动替换为avx2吗?
、
我是否可以向编译器( gcc
和
msvc)指定一个标志,以便如果我正在使用的库试图从内部优化或编译器优化中使用avx512,那么所有avx2指令都会被拆分成成对的avx2指令吗?
浏览 5
提问于2021-03-20
得票数 0
回答已采纳
1
回答
AVX中绝对值的
浮点
比较
、
、
、
、
我想根据两个向量的绝对值进行
比较
。if (fabs(x) < fabs(y)) {} 有什么比只取每一方的并跟踪一个_mm256_cmp_pd更好的吗?感兴趣的所有AVX,AVX2,
和
AVX-512
口味.
浏览 3
提问于2020-07-10
得票数 4
1
回答
浮点
矩阵OpenCV中缺少的值
、
、
、
我希望在OpenCV中重建
浮点
矩阵中缺少的值。Mat包含最小值为0的浮动值。我试过这个: 现在,我有像素值在缺失的位置(上图),但这个
浏览 1
提问于2013-02-22
得票数 2
1
回答
骑士登陆CPU (Xeon )会加速字节/字整数编码吗?
、
、
、
、
英特尔Xeon“骑士登陆”处理器将是第一个支持
AVX-512
的处理器,但它只支持"F“(比如没有SSE2的SSE,或者没有AVX2的AVX ),所以
浮点
的东西主要支持。我正在编写的软件,操作字节
和
字(8-
和
16位),使用多达SSE4.1指令通过本质。我不知道
AVX-512
F中是否会有所有/大多数SSE4.1指令的EVEX编码版本,这是否意味着我的SSE代码可以自动获得EVEX扩展指令并映射到所有新寄存器。这些寄存器可以作为AVX扩展的256位YMM寄存器
和
流SIMD
浏览 4
提问于2016-06-08
得票数 6
1
回答
是否可以将ymm16 - ymm31用于AVX2 vpcmpeq{size}指令?
、
、
、
、
我想知道是否有可能采取以下行动:我试着
和
gcc一起做一个编译:这是不可能的,说,cmpeq唯一的EVEX前缀指令有一个
掩码
目的地,但可能有我遗漏的东西,或者直接用字节编码来实现这一点的方法。
浏览 0
提问于2021-03-31
得票数 4
回答已采纳
1
回答
SSE中
浮点
到uchar的转换问题
、
嗨,但是在获得输出后,我观察到我的输出是
浮点
型的,而我期望的输出是uchar。例如,我期望输出为8,输出以
浮点
格式8.0 ( 32位
浮点
格式) .After转换为1字节无符号的值,这与8大不相同。width; CT_image_2 += width; 所有的存储操作都是在float
和
_
浏览 0
提问于2014-10-16
得票数 0
1
回答
缺少
AVX-512
型口罩的本质?
、
、
、
、
英特尔的本质指南的
AVX-512
K*
掩码
指令,但似乎有一些缺失: 同样有趣的是,本质只处理__mmask
浏览 3
提问于2017-07-18
得票数 7
回答已采纳
1
回答
Numpy返回False,即使两个数组是相同的?
、
、
、
根据我对numpy的理解,np.equal([x, prod])命令逐个
比较
数组元素,如果每个元素相等,则返回True。但每次我执行该命令时,它都会在第一次
比较
时返回False。
浏览 14
提问于2020-03-13
得票数 0
回答已采纳
1
回答
AVX-512
中的压缩指令
和
展开指令有什么不同?
、
、
、
我当时正在研究的扩展
和
压缩操作。: 从a中加载连续的活动双精度(64位)
浮点
元素(那些在
掩码
k中设置了各自位的
浮点
元素),并使用写
掩码
k将结果存储在dst中(当未设置相应的
掩码
位时,从src复制元素)。对于__m128d _mm_mask_compress_pd (__m128d src, __mmask8 k, __m128d
浏览 2
提问于2018-07-09
得票数 9
回答已采纳
1
回答
为什么VDPPD / VDPPS没有更广泛的版本,比如512位?
、
、
、
、
我只能找到128位版本的Vector Dot Product AVX/SIMD指令 有512位版本吗? 如果不是(我找不到它们),有什么想法来解释原因吗?它似乎是一个相当重要的指令族,至少在我看来,对于各种应用来说,其中最重要的是对zmm的元素进行求和?向量。
浏览 39
提问于2021-02-23
得票数 2
回答已采纳
1
回答
SIMD优化小矩阵乘(16x16)x(16x1)
、
、
、
在
AVX-512
中,用(16x1)矢量M进行(16x16)
浮点
矩阵V乘法的最佳方法是什么?总共有16个fmadd调用
和
16个reduce_add调用。 然而,我的理解是,水平添加步骤相当慢。我们是否期望这种方法比天真的非向量化C++实现要快得多呢?有比这种方法更好地利用SIMD的方法吗?
浏览 4
提问于2020-07-17
得票数 0
回答已采纳
1
回答
_mm256_loadu_epi64,_mm256_storeu_epi64需要avx512vl?
、
、
、
、
无论是从原型还是从英特尔本质引用中获得的信息,我都不认为_mm256_loadu_epi64
和
_mm256_storeu_epi64是avx512函数。
浏览 2
提问于2021-03-18
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券