AVX-512浮点比较和掩码

文章/答案/技术大牛

发布

1回答

、、、、

现在我想用AVX-512实现一些旧的AVX代码。falseValue, trueValue, mask ); _mm256_store_ps( array + index, result ); } 现在我被困在AVX} 使用__m512 _mm512_and_ps (__m512 a, __m512 b)会很好，但是在比较之后只有__mask16变量，并且我没有发现任何像_mm256_cmp_ps这样的_mm512

浏览 106提问于2021-01-09得票数 1

回答已采纳

1回答

什么是JKZD和JKNZD？

、、、、

Z和NZ可能分别表示零，而不是零，J可能代表跳跃，但K和D表示它声明(第75页) JKZD被编码为VEX.NDS.128.0F.W0 84 id。

浏览 5提问于2020-08-23得票数 1

回答已采纳

1回答

如何使用掩码打包__m128i元素？

、

我有以下几点：int j1 = 191;int j3 = 193;__m256d rij = _mm256_set_pd(2.8, 1.8, 2.1, 3.4);__m256d mask = sij - rij;[X, X, 192, 191], X的意思是我们不关心价值是什

浏览 13提问于2022-06-12得票数 0

1回答

AVX512与矢量相比不掩模

、

我错过了avx2中生成向量而不是掩码的比较指令。在avx512中完成相同事情的最有效方法是什么？它是_mm512_cmp_ps_mask后面的一个扩展吗？

浏览 4提问于2021-07-09得票数 3

回答已采纳

1回答

AVX2和AVX-512有什么不同？

、、、、

在单指令多路复用和并行化方面，AVX2和AVX512有什么不同？它们是相同的还是不同的？我刚刚看到AVX512中使用了double8，而AVX2使用了double4？

浏览 21提问于2019-12-03得票数 2

1回答

AVX-512屏蔽内存访问的性能

、、、

掩蔽可以提高AVX-512内存操作的性能(加载/存储/收集/分散和不改组负载操作)吗？当蒙面元素不会触发内存错误时，人们会假设掩蔽在这些情况下有助于性能，但是，如果使用0掩码，那么下面的情况如何：跨越直线边界的装载/存储-这会抑制背线交叉惩罚吗？这将是目前英特尔处理器的背景，但有趣的是，看看一个支持AVX-512的AMD处理器是如何处理这一问题的。

浏览 12提问于2022-08-10得票数 10

2回答

如何用AVX内蕴在C语言中比较两种压缩双精度矢量

、、、

我想用_mm512_mask_cmple_pd_mask来比较两个打包的双精度矢量。我的问题是，结果是__mmask8类型.因此，我想我的问题是如何将这种掩码转换成整数向量，以便稍后使用比较的结果。在我的特殊情况下，我需要知道多少是真，所以我需要做一些削减之后.但当时有一件事！

浏览 24提问于2022-09-13得票数 1

1回答

X86兼容的加速器中是否有SIMD(SSE / AVX)指令？

、、、、

在x86兼容的加速器中是否有SIMD(SSE / AVX)指令？

浏览 2提问于2014-03-26得票数 7

回答已采纳

1回答

有办法用avx512自动替换为avx2吗？

、

我是否可以向编译器( gcc和msvc)指定一个标志，以便如果我正在使用的库试图从内部优化或编译器优化中使用avx512，那么所有avx2指令都会被拆分成成对的avx2指令吗？

浏览 5提问于2021-03-20得票数 0

回答已采纳

1回答

AVX中绝对值的浮点比较

、、、、

我想根据两个向量的绝对值进行比较。if (fabs(x) < fabs(y)) {} 有什么比只取每一方的并跟踪一个_mm256_cmp_pd更好的吗？感兴趣的所有AVX，AVX2，和AVX-512口味.

浏览 3提问于2020-07-10得票数 4

1回答

浮点矩阵OpenCV中缺少的值

、、、

我希望在OpenCV中重建浮点矩阵中缺少的值。Mat包含最小值为0的浮动值。我试过这个：现在，我有像素值在缺失的位置(上图)，但这个

浏览 1提问于2013-02-22得票数 2

1回答

骑士登陆CPU (Xeon )会加速字节/字整数编码吗？

、、、、

英特尔Xeon“骑士登陆”处理器将是第一个支持AVX-512的处理器，但它只支持"F“(比如没有SSE2的SSE，或者没有AVX2的AVX )，所以浮点的东西主要支持。我正在编写的软件，操作字节和字(8-和16位)，使用多达SSE4.1指令通过本质。我不知道AVX-512 F中是否会有所有/大多数SSE4.1指令的EVEX编码版本，这是否意味着我的SSE代码可以自动获得EVEX扩展指令并映射到所有新寄存器。这些寄存器可以作为AVX扩展的256位YMM寄存器和流SIMD

浏览 4提问于2016-06-08得票数 6

1回答

是否可以将ymm16 - ymm31用于AVX2 vpcmpeq{size}指令？

、、、、

我想知道是否有可能采取以下行动：我试着和gcc一起做一个编译：这是不可能的，说，cmpeq唯一的EVEX前缀指令有一个掩码目的地，但可能有我遗漏的东西，或者直接用字节编码来实现这一点的方法。

浏览 0提问于2021-03-31得票数 4

回答已采纳

1回答

SSE中浮点到uchar的转换问题

、

嗨,但是在获得输出后，我观察到我的输出是浮点型的，而我期望的输出是uchar。例如，我期望输出为8，输出以浮点格式8.0 ( 32位浮点格式) .After转换为1字节无符号的值，这与8大不相同。width; CT_image_2 += width; 所有的存储操作都是在float和_

浏览 0提问于2014-10-16得票数 0

1回答

缺少AVX-512型口罩的本质？

、、、、

英特尔的本质指南的AVX-512 K*掩码指令，但似乎有一些缺失：同样有趣的是，本质只处理__mmask

浏览 3提问于2017-07-18得票数 7

回答已采纳

1回答

Numpy返回False，即使两个数组是相同的？

、、、

根据我对numpy的理解，np.equal([x, prod])命令逐个比较数组元素，如果每个元素相等，则返回True。但每次我执行该命令时，它都会在第一次比较时返回False。

浏览 14提问于2020-03-13得票数 0

回答已采纳

1回答

AVX-512中的压缩指令和展开指令有什么不同？

、、、

我当时正在研究的扩展和压缩操作。：从a中加载连续的活动双精度(64位)浮点元素(那些在掩码k中设置了各自位的浮点元素)，并使用写掩码k将结果存储在dst中(当未设置相应的掩码位时，从src复制元素)。对于__m128d _mm_mask_compress_pd (__m128d src, __mmask8 k, __m128d

浏览 2提问于2018-07-09得票数 9

回答已采纳

1回答