腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
VST
/
VLD
实际上
是
做
什么的
?
、
、
vst
1.64 {d8, d9, d10, d11}, [r4:128]!
vst
1.64 {d12, d13, d14, d15}, [r4:128] 更一般地说,我想知道
VST
和
VLD
做了什么,因为中的文档并没有让我明白。
浏览 5
提问于2016-07-15
得票数 3
回答已采纳
1
回答
这些aarch64本质有对齐需求吗?
、
、
函数和是否有对齐的要求?文档中没有提到任何内容,但是文档也非常稀少,所以我想知道是否有一个没有文档化的文档。我不知道如何从ARM文档中找出是否存在这样的要求。
浏览 6
提问于2022-08-27
得票数 1
回答已采纳
1
回答
在Microsoft ARM汇编程序中使用ARM霓虹灯指令的未知操作码
、
、
我使用的
是
Visual Studio2008附带的Microsoft ARM Assembler v15.00.20720 (armasm.exe)。我正在尝试构建一个使用ARM Cortex-A8霓虹灯指令的汇编文件,但是我的处理器
是
TI OMAP3430,我得到了
VLD
1和
VST
1指令的“未知操作码”错误。我的命令行:例如:
VLD
1.64 {d0-d3}, [r1@128]!; unknown opcode <
浏览 1
提问于2012-06-26
得票数 1
回答已采纳
1
回答
用于手臂乘法和存储的霓虹灯优化
、
、
、
、
以下
是
一些参数:*输入
是
指向大小为40680的数组的指针,在完成循环之后,指针应该保持当前位置,并通过输入指针对下一个输入流执行相同的操作。(input++); //Neon version
vst
1q_f32这里
是
我的程序集实现相同。我往正确的方向走了吗?"Lloop2:\n" "\t cmp r4
浏览 0
提问于2018-03-15
得票数 1
回答已采纳
1
回答
我收到了一条关于霓虹灯代码的错误消息
、
、
uint16_t in[8] = {0, 1, 2, 3, 4, 5, 6, 7}; r =
vld
1q_u16(&in[0]);
vld
1q_u16工作正常,r的值也是正确的。 但
vst
1q_u16不起作用。
浏览 4
提问于2015-11-30
得票数 0
回答已采纳
1
回答
C++/SSE代码的高效NEON本质
、
、
、
、
如何有效地将以下代码片段转换为NEON本质?int diff_scale, c0, c1;SSE__m128i c0 = _mm_load_si128((__m128i*)(cost));__m128i z = _mm_setzero_si128(); _mm_
浏览 2
提问于2015-05-18
得票数 0
回答已采纳
2
回答
用ARM SIMD指令优化掩码函数
、
、
int ixy; while (ixy--) }
vld
1q_u32//从s和m加载4个整数
vst
1q_u32 //将它们存储回 然而,我不知道如何以最优的方式去做这件事。
浏览 8
提问于2014-05-13
得票数 1
1
回答
如何使用arm霓虹灯将yuv444转换为yuyv422?
、
、
、
下面
是
我使用c编写的代码 unsigned int y1, y2, cb, cr, i_rows; const unsigned char
浏览 2
提问于2015-01-27
得票数 1
2
回答
隔行YUYV到灰色的霓虹灯优化
、
、
、
我有以下C代码,它将交错的网络摄像头YUYV转换为灰色: int x, y; //get only Y component for grayscale from (Y1)(U1,2)(Y2)(V1,2) Y = src + (CAM_WIDTH * 2 * y); gray = dest + (CAM_WIDTH *
浏览 5
提问于2013-10-28
得票数 1
回答已采纳
1
回答
利用霓虹灯优化Cortex-A8颜色转换
、
、
、
、
\n\t" // d4:Y d5:U1 d6:Y d7:V1 lineEven += width*2; resultYEven += width;} 当我问oprofile什么
是
需要时间的时候1360 28.1690 770 44.5602 463 52.7936 : 2234:
vld</em
浏览 0
提问于2014-02-06
得票数 5
1
回答
霓虹灯在ARM中的实现
、
、
我
是
霓虹灯的初学者,想要优化下面的代码,但当它编译并产生预期的相同输出时,我看不到任何改进。int32x4_t l_N =
vld
1q_s32mask_n=vcltq_s32(l_N,zero_N);
vst
1q_s32
浏览 3
提问于2018-03-13
得票数 0
1
回答
高效解压重组手臂霓虹灯8条短裤
、
、
、
;uint16x8_t q4 = { 44, 44, 4, 4, 44, 44, 4, 4 };注意,我的示例代码将q1、q2、q3输出到某些内存,在实际代码中,在使用它们之前,我需要计算q1、q2、q3。
浏览 0
提问于2018-04-17
得票数 2
回答已采纳
3
回答
RGBA到ABGR:用于iOS/Xcode的内联arm neon asm
、
、
、
、
评论中的错误:uint32_t *dst; __asm__ volatile(
vst
1q_u32(dst, vreinterpretq_u32_u8(y));
vld
1.32 {d16, d17}, [r0]!vrev32.8 q8, q8
vst
1.32 {d16, d17}, [r1]!所以我的代码现在看起来
是</
浏览 3
提问于2016-06-26
得票数 3
回答已采纳
1
回答
向量中的Neon交换元素
、
、
、
、
dst[2] = src[0] src = src+3;}uint8x8x3_t src =
vld
3
浏览 0
提问于2016-09-15
得票数 1
回答已采纳
3
回答
优化霓虹灯汇编函数
、
、
、
、
因此,问题
是
:我可以
做
哪些更改来改进这些功能? "
vld
1.32 {q1}, [%[src2]]!\n" "
vst
1.32\n" "<e
浏览 0
提问于2015-10-30
得票数 4
1
回答
如何阻止GCC打破我的霓虹灯的本质?
、
、
、
、
我需要为一个项目编写优化的霓虹灯代码,我非常乐意编写汇编语言,但为了可移植性/可维护性,我使用的
是
霓虹灯仪器。这段代码需要尽可能快,所以我使用我在ARM优化方面的经验来正确地交织指令并避免管道阻塞。下面
是
一个例子:我有一个简单的循环,用于否定和复制浮点值。它一次与4组4一起工作,以便为内存加载和执行指令留出一些时间。还剩下很多寄存器,所以没有理由让事情变得如此糟糕。; f32_2 =
vld
1q_f32(&s[x+8]);
浏览 2
提问于2016-01-20
得票数 9
回答已采纳
1
回答
错误:操作数必须
是
[d0,d15]范围内的寄存器
、
、
、
、
最近我在尝试优化卷积运算时遇到一些问题,错误
是
:操作数必须
是
range d0,d15 "vmla.s32 q8,q12,%f18 \n“中的寄存器。] \n" "
vst
1.s32 {d16-d1
浏览 30
提问于2019-05-17
得票数 -1
2
回答
NEON内联程序集存储查询
、
、
、
、
我遇到的问题
是
,我似乎无法将结果存储在我想要的地方。当我在输出列表中使用一个未使用的数组指针(r)时,我会得到一个错误“asm中的不可能约束”。\n" "
vst
1.32 d0,[%[result]]\n" //store the answer);788: f422078f
vld
1.32 {d0},r2 78c: f421178d
vld<
浏览 4
提问于2015-07-29
得票数 0
1
回答
ARM霓虹灯C:错误答案
、
、
我
是
一个学习ARM neon C扩展的初学者,我正在尝试向量化下面给出的for循环 { }{ }我想我这样
做
<
浏览 1
提问于2014-08-24
得票数 1
1
回答
利用ARM霓虹灯进行矢量矩阵乘法
、
、
、
、
下面
是
我所写的向量矩阵乘法的一个工作示例://float* mat_ptr - a pointer to matrix float32x4_t mat_val =
vld
1q_f32(mat_ptr); //get 4 elements from
浏览 0
提问于2019-09-04
得票数 0
回答已采纳
点击加载更多
相关
资讯
周鸿祎不认同风口论:实际上是大家做马后炮
益购云商是做什么的?怎么样?怎么做?
电子厂是做什么的?厂里做普工怎么样?
电子厂是做什么的?进电子厂做普工一般从事什么工作?
对话 Rokid AR 创始人祝铭明:做 AR 硬件要有一颗软件之心
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
对象存储
活动推荐
运营活动
广告
关闭
领券