如何在ARM Cortex-a8中使用乘法和累加内在函数？

在ARM Cortex-A8架构中，使用乘法和累加内在函数可以通过以下方法实现：

乘法：

在ARM Cortex-A8架构中，可以使用SMULL指令来实现32位整数的乘法。SMULL指令将两个32位整数相乘，并将结果分为高32位和低32位存储在两个寄存器中。以下是SMULL指令的使用示例：

SMULL r0, r1, r2, r3

该指令将r2和r3相乘，并将结果的高32位存储在r0中，低32位存储在r1中。

累加：

在ARM Cortex-A8架构中，可以使用ADD指令来实现32位整数的累加。ADD指令将两个32位整数相加，并将结果存储在目标寄存器中。以下是ADD指令的使用示例：

ADD r0, r1, r2

该指令将r1和r2相加，并将结果存储在r0中。

内联函数：

内联函数是一种特殊的函数，它可以在编译时被替换为其函数体中的代码，以提高程序的执行效率。在ARM Cortex-A8架构中，可以使用__inline关键字来定义内联函数。以下是一个使用内联函数实现乘法和累加的示例：

__inline int32_t multiply_and_accumulate(int32_t a, int32_t b, int32_t c) {
    int32_t result;
    asm volatile (
        "smull %0, %1, %2, %3\n\t"
        "add %0, %0, %4\n\t"
        "add %1, %1, %4"
        : "=r"(result), "+r"(c)
        : "r"(a), "r"(b), "r"(c)
        : "cc"
    );
    return result;
}

该内联函数接受三个参数a、b和c，并使用SMULL指令将它们相乘，然后使用ADD指令将结果累加到c中。最后，函数返回累加后的结果。

需要注意的是，使用内联函数时需要谨慎，因为过多的内联函数可能会导致代码体积过大，影响程序的执行效率。

如何在ARM Cortex-a8中使用乘法和累加内部函数？

、、、、

如何使用GCC提供的乘法累加内联函数？float32x4_t vmlaq_f32 (float32x4_t , float32x4_t , float32x4_t);救命！

浏览 0提问于2010-07-14得票数 15

回答已采纳

1回答

哪些Android软件包可用于矢量、标量、矩阵和FP数学？

、

建议在Android平台上执行复杂的数学运算，如向量乘法、向量转换(int到FP)等。看起来java.lang.math不够结实。有人建议我研究一下NDK和一个好的c/c++ lib或siglib。

浏览 3提问于2012-09-10得票数 2

2回答

是否存在运行在AllWinner A10S cpu上的Linux发行版？

我刚买了一台迷你pc (一台T004 Auxtek)，但是我想在它上运行一个Linux发行版，这样我就可以用作迷你服务器Linux了。你知道这种微型PC是否存在AllWinner A10s发行版吗？

浏览 0提问于2014-02-13得票数 1

回答已采纳

5回答

我正在为Cortex-A8处理器编写软件，我必须编写一些ARM汇编代码来访问特定的寄存器。我正在使用GNU编译器和相关工具链；这些工具安装在带有Ubuntu的处理器板(Freescale i.MX515)上。我使用WinSCP和PuTTY终端从我的主机PC (Windows)连接到它。我用GCC编译了.c，汇编语言中的函数使用作为和链接<代码>E 213</code>生成的对象文件，再次使用<

浏览 6提问于2010-04-19得票数 5

1回答

如何在ubuntu12.04LTS上更新“/usr/arm* gnueabi/include/”库？*

、、

采用Ubuntu12.04 LTS平台，开发了ARM Corcor-A8硬件平台(beaglebone black)的嵌入式Linux软件。为了在目标设备上的I2C总线上进行通信，建议使用i2c_smbus_函数在I2C总线上进行通信。当i2c_smbus函数(如i2c_smbus_read_word_data )在针对目标ARM的软件中引用时，Cortex-A8处理器没有在此范围内声明“i2c_smbus_read_word_data/us

浏览 0提问于2014-08-06得票数 0

1回答

为什么ARM要区分SDIV和UDIV，而不区分ADD、SUB和MUL？

、、、、

正如标题中所述，为什么ARM指令集仅在除法时区分签名和未签名？ SDIV和UDIV是可用的，但添加、SUB和MUL的情况并非如此。

浏览 9提问于2015-04-16得票数 5

回答已采纳

1回答

VNNI指令的霓虹灯仿真

、、、、

我将它们集成到中以加速 (我的神经网络推理小框架)，并获得了显着的性能提升。实际上，我只使用了一个指令_mm512_dpbusd_epi32 (vpdpbusd)，它允许执行8位带符号和无符号整数的乘法，然后将它们累加到32位整数累加器中。这将是伟大的执行模拟优化霓虹灯(ARM平台)。有没有类似霓虹灯指令来模拟vpdpbusd？如果没有模拟，那么模拟指令的最佳方式是什么？下面有一个标量实现(为了更好地理解函数必须做

浏览 75提问于2020-03-10得票数 2

1回答

游程长度编码- SIMD

、、、、

我正在考虑在SIMD中实现它。我在算法上花了几个小时，但没能进行太多。值得一试吗？我正在研究霓虹灯。谢谢。

浏览 0提问于2013-02-16得票数 3

回答已采纳

1回答

__saturatef()内禀没有双重精度等效。

一些映射到设备指令，如融合乘法加法，不能用正常的语法表示.其他的近似则被认为比“标准”函数更快(尽管可能不那么精确)。然而，令我惊讶的是，__saturatef()内部的，它把它的论点夹在0和1之间，并没有一个双精度版本。如果我在简单的实现上使用__saturatef()内在特性，那么数据是否会有潜在的损失呢？如果是这样的话，有人知道这个

浏览 7提问于2017-10-14得票数 0

回答已采纳

2回答

ARM霓虹灯的最佳指令吞吐量

在ARM-NEON中编码的计算受限算法的最佳指令吞吐量是多少？我最初对Cortex-A8很感兴趣，但如果您也有不同处理器的数据，请注意差异。

浏览 2提问于2014-02-25得票数 3

2回答

ARM Cortex-M4C码中高效嵌入定点2x2矩阵乘法

、、

我试图在C代码中实现一个非常有效的2x2矩阵乘法，以便在ARM Cortex-M4中操作。该函数接受指向2x2数组的3个指针，用于将输入乘以2，并接受using函数传递的输出缓冲区。| a[1][1]<<16; c[1][1] = __SMUAD(a10a11, b01b11);基本上，我的策略是使用ARM Cortex-M4 __SMUAD()函数

浏览 3提问于2021-05-06得票数 2

回答已采纳

5回答

Iphone的MMX说明

、、

iphone处理器ARMV6支持MMX指令吗？

浏览 0提问于2009-04-26得票数 2

1回答

用QEMU模拟皮层-A8在gdb中不工作的断点

、、、、

我正在测试一些在ARM7TDMI中运行的简单代码，因为我还没有在QEMU上找到ARM7TDMI模拟器，所以我使用Cortex-a8 (我不确定这是否会导致错误，完全是新手)。我就是这样运行QEMU的： qemu-system-arm -machine realview-pb-a8 -cpu cortex-a8 -nographic -monitor null -serialnull -semihosting -kernel main.elf -gdb tcp::5123

浏览 7提问于2018-01-15得票数 0

回答已采纳

3回答

iPhone上的双精度和浮点数

、、、

我刚刚听说iphone本身不能做双倍的工作，因此比普通的浮动要慢得多。我对这个问题非常感兴趣，因为我的程序需要高精度的计算，而且我必须在速度上做出妥协。

浏览 1提问于2009-10-26得票数 47

回答已采纳

2回答

一个优雅的方法来检查块操作？

我正在编写自己的each和reduce函数。reduce函数接收累加器的初始值和应用于每个元素的块。然而，我必须通过的测试有断言，没有指定累加器，这意味着它必须在默认情况下设置。问题是，对于乘法，累加器的初始值必须等于'1‘，而对于加法，初始值必须等于'0’。acc * element } array.my_reduce(2, &func)array

浏览 22提问于2019-08-06得票数 0

回答已采纳

2回答

iOS BLAS加速框架矩阵乘法性能差

、、、、

我正在为iPhone实现一个基于切线距离的光学字符识别解决方案，它严重依赖于大小为253x7的浮点矩阵的快速乘法。在PoC表现良好之后，我决定通过结合的矩阵乘法(它可能使用SIMD和其他奇特的东西来完成繁重的任务……)进一步提高性能极限：我做错了什么？

浏览 0提问于2013-04-03得票数 1

回答已采纳

2回答

霓虹灯浮点乘法比预期的慢

、、、、

我需要将第一个选项卡中的元素乘以第二个选项卡中的相应元素，并将结果存储在第三个选项卡中。#include <stdlib.h>#include <arm_neon.h> const int n = 100; // table size

浏览 0提问于2012-09-14得票数 6

1回答

C中是否有附加进位的手臂内蕴？

、

对于ARM C编译器来说，是否存在内置的加载项操作，或者是否有必要使用汇编语言？在x86上，有_addcarry_u64进行加带进位.(也有新的_addcarryx_u64用于特殊用途。)

浏览 2提问于2016-05-09得票数 5

回答已采纳

2回答

在F#中将两个数乘以逐次和

、、

将m和n设为整数，我可以将它们乘以如下的连续和：因此，让我们考虑下面的伪代码： while (n > 0) Result = Result + m; } 如何在F#中实现这个算法，知道变量是不可变的？以另一种方式提出这个问题，如何在连续迭代过程中</em

浏览 4提问于2015-03-06得票数 1

回答已采纳

2回答

有多少个装配指令处于位移位操作中？

、、

我正在努力提高我的微控制器库的效率，而在这个库中调用最多的函数(每秒可以调用100万次)是我集中精力的地方。value = ((uint16_t) type) << 10作为替代方案，我正在考虑做这样的事情。程序库采用C语言和C++语言，目标微控制器体系结构为ARM和R

浏览 5提问于2022-02-22得票数 -1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在ARM Cortex-a8中使用乘法和累加内在函数？

相关·内容

如何在ARM Cortex-a8中使用乘法和累加内部函数？

哪些Android软件包可用于矢量、标量、矩阵和FP数学？

是否存在运行在AllWinner A10S cpu上的Linux发行版？

更多GCC链接时间问题:未定义的主引用

如何在ubuntu12.04LTS上更新“/usr/arm* gnueabi/include/”库？*

为什么ARM要区分SDIV和UDIV，而不区分ADD、SUB和MUL？

VNNI指令的霓虹灯仿真

游程长度编码- SIMD

__saturatef()内禀没有双重精度等效。

ARM霓虹灯的最佳指令吞吐量

ARM Cortex-M4C码中高效嵌入定点2x2矩阵乘法

Iphone的MMX说明

用QEMU模拟皮层-A8在gdb中不工作的断点

iPhone上的双精度和浮点数

一个优雅的方法来检查块操作？

iOS BLAS加速框架矩阵乘法性能差

霓虹灯浮点乘法比预期的慢

C中是否有附加进位的手臂内蕴？

在F#中将两个数乘以逐次和

有多少个装配指令处于位移位操作中？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐