本征霓虹灯后端是否进行了优化，以利用从ARM A76开始的2x128b霓虹灯执行单元？

文章/答案/技术大牛

发布

1回答

arm、eigen、simd、neon

翻阅特征文档，不清楚它是否在A76核心发布后进行了更新，以利用它包含的更宽的SIMD (2x128b与之前的128b)。我希望开发团队的某人(或专家用户)能帮助澄清这一点。

浏览 9提问于2020-09-02得票数 1

5回答

为什么ARM霓虹灯的速度不比普通的C++快？

c++、arm、simd、neon、cortex-a8

( register int i = 0; i < ARR_SIZE_TEST; ++i ) x[ i ] = x[ i ] + y[ i ];}我在Android NDK上用的是上一版的GCC。霓虹灯优化标志已打开。这是一个反汇编的C++版本：

浏览 4提问于2011-04-20得票数 31

回答已采纳

4回答

在FPGA上实现实时运行时编译器

compiler-construction、real-time、llvm、fpga

对于给定的系统，FPGA的一个或多或少的静态部分可能是LLVM后端，即。决定输出哪种类型的机器代码的部分，例如使用SSE4的x86-64。或手臂拇指-2与霓虹灯和VFP指令。更频繁的改变部分的FPGA将是前端，部分产生的LLVM IR从给定的语言: C，C++，Vala等。这个系统的好处是，代码总是被优化到当前系统中的

浏览 0提问于2011-06-05得票数 10

3回答

C、vDSP和霓虹灯--霓虹灯怎么会像C语言那样慢呢？

objective-c、assembly、arm、neon、vdsp

霓虹灯怎么会像C一样慢呢？ }} 这是<em

浏览 6提问于2013-02-18得票数 3

回答已采纳

7回答

手臂霓虹灯的编码:如何开始？

c++、arm、neon

我希望使用每次计算4或8个数组元素的NEON功能来优化C++代码(主要是用于循环)。是否有某种库或一组函数可以在C++环境中使用？-O3 -mcpu=cortex-a9 -ftree-vectorize -mfloat-abi=hard -mfpu=neon 请记住，该项目包括广泛的库，如开放框架、OpenCV和OpenNI，并且所有内容都是用这些标志编译的。为了编译ARM板，我们使用

浏览 4提问于2015-02-16得票数 22

3回答

基于本征函数的霓虹灯优化

arm、neon、cortex-a8

在学习ARM霓虹灯内部函数时，我对我编写的一个函数进行了计时，该函数在使用内部函数的array.The版本中将元素加倍，比普通的C版本的函数要花费更多的时间。/存储操作是否消耗了更多的时间，这抵消了并行加法的好处。更新:更多信息回应Igor的回复。从两个汇编清单中的(标签) L7部分，我看到霓虹灯</e

浏览 1提问于2011-04-19得票数 5

回答已采纳

2回答

用函数指针在游戏引擎数学库中使用SIMD ~一个好主意？

c++、function-pointers、game-engine、simd

从14岁起，我就一直在阅读游戏引擎书籍(当时我什么也不懂:P)，现在，很多年后，我想开始为我的游戏引擎编写数学基础。我一直在想如何设计这个“图书馆”。我至少想拥有以下属性：让它能够在运行时检查它是否有SIMD，如果有它就使用SIMD，如果没有它就使用普通的C++版本。(可能有一些调用开销，这值得吗？)如果我们在编译时已经知道了目标，那么它就可以为SIMD或普通的C++编译。调用可以内联并适合交叉优化，因为编译器知道是否使用SIMD或C++。所以我

浏览 7提问于2013-05-10得票数 3

7回答

OpenCV: C++和C的性能比较

c++、c、performance、opencv

幸运的是，有用于安卓的OpenCV，所以我只需将我的本机代码添加到示例安卓应用程序中。除了性能之外，一切都工作得很好。我对我的应用程序进行了基准测试，发现应用程序以4-5fps的速度工作，这实际上是不可接受的(我的设备有单核1 1ghz处理器)-我希望它以大约10fps的速度工作。在C上完全重写我的应用程序有意义吗？我知道使用像std::vector这样的东西对开发人员来说很舒服，

浏览 3提问于2012-07-07得票数 17

回答已采纳

1回答

如何影响安卓/ARM目标的Delphi XEx代码生成？

android、delphi、android-ndk、arm、llvm

如果有人可以用可信的例子演示他们如何能够从德尔菲XEx中产生优化的ARM代码，我很乐意接受这个答案。Embarcadero的Delphi编译器使用LLVM后端为Android设备生成本机ARM代码。当然，必须有一种方法将参数传递到LLVM端，或者以某种方式影响结果？通常，任何编译器都有许多影响代码编译和优化的选项，但是Delphi的ARM目标似乎只是“优化

浏览 3提问于2015-01-14得票数 270

4回答

如何测试密码库？

security、encryption、cryptography、openssl、benchmarking

什么是对密码库进行基准测试的好测试？有没有什么工具，程序……？感谢您的投入！

浏览 4提问于2011-03-24得票数 5

回答已采纳

3回答

RGBA到ABGR:用于iOS/Xcode的内联arm* neon asm*

ios、xcode、assembly、arm、neon

这段代码(非常类似的代码，还没有完全尝试过这段代码)使用Android编译，但没有使用Xcode/armv7 7+arm64/iOS。评论中的错误：uint32_t *dst; __asm__ volatile(uint8x16_t y = vrev32q_u8(x);拆卸

浏览 3提问于2016-06-26得票数 3

回答已采纳

6回答

Anaconda和升级到新的M1 Mac

python-3.x、macos、anaconda、conda

背景有没有人知道conda提供的python/numpy/scipy等的M1本地版本的状态？我假设我的python/numpy等

浏览 15提问于2021-01-01得票数 30

回答已采纳

9回答

如何开始优化我的程序？

java、optimization

我有一个用java写的web服务器程序，我的老板希望它运行得更快。我尝试了一个分析器，但它使我的计算机崩溃，结果证明是一个死开源项目。如果可能，一些指令或类似的简单指令将是很好的。但我真正想要的是对这个主题的基本介绍，这样我就可以对这个主题进行深入的研究，以获得最好的结果。我是一个完全的初学者，当涉及到优化代码和主题似乎

浏览 1提问于2011-08-31得票数 2

3回答

RTS游戏视距计算的快速算法

algorithm、optimization、big-o、math

我在做一个简单的RTS游戏。我希望它运行得非常快，因为它应该与数千个单位和8个球员一起工作。目前，我使用了一个相当天真的算法:对于每一个敌人单位，我检查我的任何单位是否看到他。是O(n^2) 因此，如果有8个玩家，每个玩家有3000个单位，这意味着在最坏的情况下，每个玩家都要进行3000*21000=63000000测试。这很慢。更多细节

浏览 4提问于2010-08-21得票数 7

回答已采纳

5回答

快速查找C数组中是否存在值？

c、optimization、assembly、embedded、arm

我有一个具有时间关键型ISR的嵌入式应用程序，它需要迭代大小为256的数组(最好是1024，但256是最小值)，并检查值是否与数组内容匹配。如果是这种情况，bool将被设置为true。微控制器采用恩智浦LPC4357，ARM Cortex M4内核，编译器为GCC。我已经组合了优化级别2 (3更慢)，并将函数放在RAM中而不是闪存中。我还使用了指针算法和一个for循环，它执行向下计数而不是向上计数(检查i!=0是否比检查i<256更快)。总而言之，我最终得到了12

浏览 43提问于2014-09-04得票数 127

回答已采纳

2回答

如何在ARMv6+上实现16位立体声混音？

c、audio、assembly、arm、inline-assembly

我需要在c中优化我的混合代码以获得更快的响应时间，所以我决定使用内联汇编将两个缓冲区混合成一个新的更大的缓冲区。基本上，我将左右声道分开，我想把它们放在一个缓冲区中。所以我需要从左通道放入两个字节，然后从右通道放入两个字节，依此类推。(我打算使用其他空闲寄存器来执行相同的过程，并通过流水线减少处理时间) 因此，我有两个带数据的寄存器R0和R1，需要将它们混合到R3和R4中，最终结果是R3 =R0HI(高部分)+R1H

浏览 1提问于2014-01-09得票数 2

6回答

怎样才能让这个循环运行得更快呢？

c、gcc、optimization、arm、neon

我正在使用这个代码来查找热像中的最高温度像素和该像素的坐标。这是在运行Linux的ARM A9处理器上执行的。000127f4 <_findMax>:

浏览 20提问于2020-11-05得票数 2

5回答

ARM架构与x86有何不同？

x86、arm

x86架构是否专门设计为使用键盘，而ARM则希望是移动的？两者之间的主要区别是什么？

浏览 2提问于2013-02-10得票数 239

回答已采纳

8回答

树莓派聚类、神经元网络和脑模拟

arm、cluster-computing、supercomputers、raspberry-pi

由于RBPI (树莓派)具有非常低的功耗和非常低的生产价格，这意味着一个人可以用这些构建一个非常大的集群。我不确定，但是100000个RBPI的集群需要很少的电力和空间。现在我认为它在FLOPS或其他类型的计算测量方面可能不如现有的超级计算机强大，但它能实现更好的神经元网络模拟吗？我不确定说“1CPU=1神经元”是否是一个合理的说法，但它似乎足够有效。那么，这是否意味着这样的集群将更有效地进行神经

浏览 0提问于2011-09-15得票数 14

回答已采纳

3回答

测试ARM* CPU仿真器*

c、assembly、arm、emulation

它有一个ARM7TDMI中央处理器，大部分的中央处理器仿真代码都是我写的。我的问题是，如何对其进行测试？在随机的GBA软件上测试它不会有很大的帮助-程序可能会因为与CPU无关的原因而崩溃，最好是逐段测试，而不是全部一起测试。有没有测试ARM中央处理器，特别是指令集的可用程序？我在源代码中查找了几个ARM模拟器，但没有找到我想要的东西。如果没有，我将编写自己的程序，但这将很难使测试

浏览 4提问于2013-01-28得票数 2

回答已采纳

点击加载更多