明确告诉GCC 9.2取消切换循环以允许自动矢量化

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、、

我正在从事一个项目，需要自动向量化的大循环。编译时一定要用到GCC。很容易看出，控制流依赖于一个可以从内部循环检出的条件，但GCC并没有执行任何循环取消切换。循环取消切换可以手动完成，但请注意，这是问题的最小情况，实际循环有数百行，执行手动循环取消切换将导致大量代码冗余。我正在试图找到一种方法来迫使GCC为不同

浏览 18提问于2020-04-12得票数 0

1回答

我注意到微软的实验实现提到VC++编译器不支持矢量化，这让我感到惊讶--我认为现代C++编译器能够推理循环的向量化，但显然VC++编译器/优化器无法生成SIMD代码，即使被明确告知也是如此。似乎缺乏自动矢量化支持与Quora上的答案相矛盾，这意味着编译器将在可能的情况下进行矢量化。因此，我的问题是:如果没有明确要求，当前编译器是否会自动向量化我的代码？(为了使这个问题更加具体，让我们把范围缩小到支持SIMD的英特尔x86 CPU，以及最新版本

浏览 13提问于2017-06-03得票数 5

回答已采纳

2回答

GCC/CLang自动矢量化中对齐负载/存储的对齐属性

、、、

众所周知，GCC/CLang利用SIMD指令很好地实现了循环的自动矢量化.另外，已知存在标准C++属性，除其他用途外，该属性还允许对堆栈变量，例如，以下代码： #include <iostream> int main() {因此，我们可以理解，我们的64位阵列xor操作是由GCC自动矢量化使用AVX-512寄存器，循环也展开。我的问题是如何告诉</em

浏览 0提问于2021-11-20得票数 2

回答已采纳

2回答

具有全局变量的意外性能

、、、

dtime += omp_get_wtime(); return 0;如果char* buff是一个自动变量); return 0;如果我将buff更改为短指针，则性能很快，不取决于ncols是静态的还是ncols是自动的为什么buff是一个自动变量而不是全局或静态变量使代码更快？为什么当buf

浏览 4提问于2015-06-09得票数 7

回答已采纳

2回答

英特尔编译器自动矢量化中现有矢量化函数与现有标量函数的对应

、、、

一般说来，我想使用ICC循环自动矢量化。早些时候，我使用了显式向量化循环和函数。据我所知，英特尔编译器允许有标量和相应的矢量化功能，通过_declspec(vector_variant())功能。cc[1000] = { 0 }; cc[i] = plus(aa[i], bb[i]);我希望ICC使用矢量化的函数，用于自动矢量化

浏览 1提问于2018-02-05得票数 0

3回答

GCC暗示“矢量化”

、、

我想让GCC把下面的代码矢量化。-fopt-info告诉我GCC现在不是。我认为问题在于W的跨越式访问，或者可能是k的向后递增。Yp[(k+1)*width + j];123 Yp[k*width + i] *= DF(Ap[k*width + i]);125 }有什么好的方法让这个矢量化吗？你能给我提供进一步的信息吗？我的索引方法是个坏主意( k*wi

浏览 7提问于2016-01-18得票数 2

回答已采纳

1回答

编译器真的使用我的"omp声明simd“函数吗？

、、

看看我为4D点产品构建的：double dot(double x0, double y0, double z0, double w0, double x1, double y1, double z1, double w1) return x0 * x1 + y0 * y1 + z0 * z1 + w0 * w1;{ double y[SIMD]; double z[SIMD

浏览 2提问于2019-07-19得票数 0

回答已采纳

2回答

如何使clang矢量化一个简单的循环？

、、、、

我有以下循环：float* ap; s尽管启动了优化，但当我查看程序集输出时，clang (我使用的是Xcode)似乎没有将循环向量化：Ltmp353:Ltmp354:L

浏览 0提问于2019-04-06得票数 3

1回答

我怎样才能更好地与GCC进行矢量化？

、、、、

add_pd(tenth,_mm256_mul_pd(v,_mm256_add_pd(one,_mm256_mul_pd(half,v)))); } GCC4.7.2 (与-O3 -mavx一起)将循环版本矢量化，但对展开循环使用标量操作。三个版本的(规范化)次数分别为3.3次(循环，自动矢量化)，1.2次(展开，标量)，1次(手动avx)。展开版本和手动向量化函数之间的性能差异很小，但是我想强制矢量化<

浏览 6提问于2016-10-09得票数 4

4回答

朴素矩阵乘法的优化(ICC与GCC)

、、、、

代码是用-O3在GCC 4.4.6 (与-mtune=native)和IntelCompiler13.0.1上编译的，GCC上的速度要差得多(对于所使用的样本数据来说是2倍以上)。乍一看，看起来ICC在将计算矢量化方面做得更好，但我不能破译的更多。(这主要是为了学习，因为我不可能在生产中使用它！)c[i + n * j] += a[i + n * k] * b[k + n * j]; // Line 14 }} GCC-_Z2mmiPdS_S

浏览 6提问于2014-02-05得票数 6

回答已采纳

4回答

使用OpenMP停止GCC的自动矢量化

、、、

我一直在努力让我的代码能够被GCC自动矢量化，然而，当我包含-fopenmp标志时，它似乎停止了所有自动矢量化的尝试。我正在使用ftree-vectorize -ftree-vectorizer-verbose=5对其进行矢量化和监控。如果我不包括标志，它就会开始给我很多关于每个循环的信息，如果它是矢量化的，为什么不是。当我尝试使用omp_get_wtime()函数时，编译器会停止，因为它不能被链接。一旦包含了这个标志，它就会简单地列出每个函数，并<e

浏览 7提问于2013-02-14得票数 6

回答已采纳

5回答

允许struct字段溢出到下一个字段

、、、、

然而，在用-O2编译时(在gcc 4.9.4上，但也可能在其他版本上)，会发生一些有趣的事情。编译器标识代码可能溢出数组code，限制循环展开为1迭代。在这种情况下，有没有办法阻止gcc展开循环？我知道我可以完全防止循环展开，但是我仍然对其他情况下的循环展开感兴趣。我还怀疑编译器所做的分析可能会影响循环展开以外的传递。gcc假设我在访问数组时不会溢出，所以我真正想要的是告诉编译器不要接受这个假设(通过提供一些编译器选项)。我还知道将

浏览 7提问于2020-07-02得票数 10

5回答

现代编译器如何使用mmx/3dnow/sse指令？

、、、、

像gcc这样的通用编译器实际使用这些指令(或其子集)的频率是多少，还是主要用于手工编码的汇编器？编译器如何检测在哪里适合使用SIMD指令？

浏览 3提问于2009-05-18得票数 20

回答已采纳

5回答

自动矢量化的实际应用？

、、、

有没有人利用了gcc可以做的自动矢量化？在现实世界中(而不是示例代码)？是否需要对现有代码进行重构才能利用它？在任何生产代码中，是否有大量的案例可以通过这种方式进行矢量化？

浏览 1提问于2009-01-03得票数 4

回答已采纳

3回答

gcc内存对齐杂注

、、、、

gcc是否有内存对齐杂注，类似于英特尔编译器中的#pragma vector aligned？我想告诉编译器使用对齐的加载/存储指令来优化特定的循环。为了避免可能的混淆，这与结构打包无关。

浏览 1提问于2010-04-22得票数 8

回答已采纳

1回答

有人能帮我看一下这个GCC自动矢量化C循环的x64汇编代码吗？

、、、、

有人能告诉我组装代码是做什么的吗?为什么它使每件事都是16比4的因子？

浏览 12提问于2022-02-22得票数 1

2回答

如果-否则如何帮助优化冗余？

、、、、

我正在阅读Python的numpy库的源代码，并找到了以下代码片段。它似乎对向量(numpy.ndarray)执行元素级操作。例如，numpy.multiply([1,2,3],[4,5,6])将得到结果[4,10,18]。 UNARY_LOOP { \ tout * out = (tout *)op1; \ } #define UNARY_LOOP_FAST(tin, tout

浏览 4提问于2017-02-09得票数 4

回答已采纳

1回答

为什么gcc/clang不在可能的情况下将128位SIMD本质向量化为256位呢？

、、、、

int* b, size_t n) { a[i] = a[i] + b[i];} a[i] = _mm_add_epi32(a[i], b[i]);} 使用相同的CFLAGS，clang和gcc都拒绝将其矢量化为256位()。因此，天真代码(自动向量化)每次迭代处理的元素是手动向量化SSE2代码的

浏览 13提问于2022-07-23得票数 1

回答已采纳

1回答

如何确定我的服务器正在使用哪个asm

、、、、

int i = 4;} 21 .ident "GCC: (Ubuntu 4.8.4-2ubuntu1~14.04.1) 4.8.4" 22 .section .note.GNU-stack,"",@

浏览 1提问于2020-04-07得票数 1

回答已采纳

4回答

“虚”循环优化中的局部变量声明

、、、

here return 0;现在，my_arrays是临时数组，不是数据成员，只是用来填充类成员……显然，调用该函数的开销是不必要的……有没有办法(好吧，我尽量避免把它们作为类成员)告诉编译器

浏览 0提问于2011-05-08得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云