VST/VLD实际上是做什么的？

文章/答案/技术大牛

发布

1回答

、、

vst1.64 {d8, d9, d10, d11}, [r4:128]!vst1.64 {d12, d13, d14, d15}, [r4:128] 更一般地说，我想知道VST和VLD做了什么，因为中的文档并没有让我明白。

浏览 5提问于2016-07-15得票数 3

回答已采纳

1回答

这些aarch64本质有对齐需求吗？

、、

函数和是否有对齐的要求？文档中没有提到任何内容，但是文档也非常稀少，所以我想知道是否有一个没有文档化的文档。我不知道如何从ARM文档中找出是否存在这样的要求。

浏览 6提问于2022-08-27得票数 1

回答已采纳

1回答

在Microsoft ARM汇编程序中使用ARM霓虹灯指令的未知操作码

、、

我使用的是Visual Studio2008附带的Microsoft ARM Assembler v15.00.20720 (armasm.exe)。我正在尝试构建一个使用ARM Cortex-A8霓虹灯指令的汇编文件，但是我的处理器是TI OMAP3430，我得到了VLD1和VST1指令的“未知操作码”错误。我的命令行：例如： VLD1.64 {d0-d3}, [r1@128]!; unknown opcode <

浏览 1提问于2012-06-26得票数 1

回答已采纳

1回答

用于手臂乘法和存储的霓虹灯优化

、、、、

以下是一些参数：*输入是指向大小为40680的数组的指针，在完成循环之后，指针应该保持当前位置，并通过输入指针对下一个输入流执行相同的操作。(input++); //Neon version vst1q_f32这里是我的程序集实现相同。我往正确的方向走了吗？"Lloop2:\n" "\t cmp r4

浏览 0提问于2018-03-15得票数 1

回答已采纳

1回答

我收到了一条关于霓虹灯代码的错误消息

、、

uint16_t in[8] = {0, 1, 2, 3, 4, 5, 6, 7}; r = vld1q_u16(&in[0]);vld1q_u16工作正常，r的值也是正确的。但vst1q_u16不起作用。

浏览 4提问于2015-11-30得票数 0

回答已采纳

1回答

C++/SSE代码的高效NEON本质

、、、、

如何有效地将以下代码片段转换为NEON本质？int diff_scale, c0, c1;SSE__m128i c0 = _mm_load_si128((__m128i*)(cost));__m128i z = _mm_setzero_si128(); _mm_

浏览 2提问于2015-05-18得票数 0

回答已采纳

2回答

用ARM SIMD指令优化掩码函数

、、

int ixy; while (ixy--) }vld1q_u32//从s和m加载4个整数vst1q_u32 //将它们存储回然而，我不知道如何以最优的方式去做这件事。

浏览 8提问于2014-05-13得票数 1

1回答

如何使用arm霓虹灯将yuv444转换为yuyv422？

、、、

下面是我使用c编写的代码 unsigned int y1, y2, cb, cr, i_rows; const unsigned char

浏览 2提问于2015-01-27得票数 1

2回答

隔行YUYV到灰色的霓虹灯优化

、、、

我有以下C代码，它将交错的网络摄像头YUYV转换为灰色： int x, y; //get only Y component for grayscale from (Y1)(U1,2)(Y2)(V1,2) Y = src + (CAM_WIDTH * 2 * y); gray = dest + (CAM_WIDTH *

浏览 5提问于2013-10-28得票数 1

回答已采纳

1回答

利用霓虹灯优化Cortex-A8颜色转换

、、、、

\n\t" // d4:Y d5:U1 d6:Y d7:V1 lineEven += width*2; resultYEven += width;} 当我问oprofile什么是需要时间的时候1360 28.1690 770 44.5602 463 52.7936 : 2234: vld</em

浏览 0提问于2014-02-06得票数 5

1回答

霓虹灯在ARM中的实现

、、

我是霓虹灯的初学者，想要优化下面的代码，但当它编译并产生预期的相同输出时，我看不到任何改进。int32x4_t l_N = vld1q_s32mask_n=vcltq_s32(l_N,zero_N); vst1q_s32

浏览 3提问于2018-03-13得票数 0

1回答

高效解压重组手臂霓虹灯8条短裤

、、、

;uint16x8_t q4 = { 44, 44, 4, 4, 44, 44, 4, 4 };注意，我的示例代码将q1、q2、q3输出到某些内存，在实际代码中，在使用它们之前，我需要计算q1、q2、q3。

浏览 0提问于2018-04-17得票数 2

回答已采纳

3回答

RGBA到ABGR:用于iOS/Xcode的内联arm neon asm

、、、、

评论中的错误：uint32_t *dst; __asm__ volatile(vst1q_u32(dst, vreinterpretq_u32_u8(y));vld1.32 {d16, d17}, [r0]!vrev32.8 q8, q8 vst1.32 {d16, d17}, [r1]!所以我的代码现在看起来是</

浏览 3提问于2016-06-26得票数 3

回答已采纳

1回答

向量中的Neon交换元素

、、、、

dst[2] = src[0] src = src+3;}uint8x8x3_t src = vld3

浏览 0提问于2016-09-15得票数 1

回答已采纳

3回答

优化霓虹灯汇编函数

、、、、

因此，问题是:我可以做哪些更改来改进这些功能？ "vld1.32 {q1}, [%[src2]]!\n" "vst1.32\n" "<e

浏览 0提问于2015-10-30得票数 4

1回答

如何阻止GCC打破我的霓虹灯的本质？

、、、、

我需要为一个项目编写优化的霓虹灯代码，我非常乐意编写汇编语言，但为了可移植性/可维护性，我使用的是霓虹灯仪器。这段代码需要尽可能快，所以我使用我在ARM优化方面的经验来正确地交织指令并避免管道阻塞。下面是一个例子:我有一个简单的循环，用于否定和复制浮点值。它一次与4组4一起工作，以便为内存加载和执行指令留出一些时间。还剩下很多寄存器，所以没有理由让事情变得如此糟糕。; f32_2 = vld1q_f32(&s[x+8]);

浏览 2提问于2016-01-20得票数 9

回答已采纳

1回答

错误:操作数必须是[d0，d15]范围内的寄存器

、、、、

最近我在尝试优化卷积运算时遇到一些问题，错误是:操作数必须是range d0，d15 "vmla.s32 q8，q12，%f18 \n“中的寄存器。] \n" "vst1.s32 {d16-d1

浏览 30提问于2019-05-17得票数 -1

2回答

NEON内联程序集存储查询

、、、、

我遇到的问题是，我似乎无法将结果存储在我想要的地方。当我在输出列表中使用一个未使用的数组指针(r)时，我会得到一个错误“asm中的不可能约束”。\n" "vst1.32 d0,[%[result]]\n" //store the answer)；788: f422078f vld1.32 {d0}，r2 78c: f421178d vld<

浏览 4提问于2015-07-29得票数 0

1回答

ARM霓虹灯C:错误答案

、、

我是一个学习ARM neon C扩展的初学者，我正在尝试向量化下面给出的for循环 { }{ }我想我这样做<

浏览 1提问于2014-08-24得票数 1

1回答

利用ARM霓虹灯进行矢量矩阵乘法

、、、、

下面是我所写的向量矩阵乘法的一个工作示例：//float* mat_ptr - a pointer to matrix float32x4_t mat_val = vld1q_f32(mat_ptr); //get 4 elements from

浏览 0提问于2019-09-04得票数 0

回答已采纳

点击加载更多