腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(254)
视频
沙龙
1
回答
本
征
霓虹灯
后端
是否
进行了
优化
,以
利用
从
ARM
A76
开始
的
2x128b
霓虹灯
执行
单元
?
、
、
、
翻阅特征文档,不清楚它
是否
在
A76
核心发布后
进行了
更新,以
利用
它包含
的
更宽
的
SIMD (
2x128b
与之前
的
128b)。我希望开发团队
的
某人(或专家用户)能帮助澄清这一点。
浏览 9
提问于2020-09-02
得票数 1
5
回答
为什么
ARM
霓虹灯
的
速度不比普通
的
C++快?
、
、
、
、
( register int i = 0; i < ARR_SIZE_TEST; ++i ) x[ i ] = x[ i ] + y[ i ];}我在Android NDK上用
的
是上一版
的
GCC。
霓虹灯
优化
标志已打开。这是一个反汇编
的
C++版本:
浏览 4
提问于2011-04-20
得票数 31
回答已采纳
4
回答
在FPGA上实现实时运行时编译器
、
、
、
对于给定
的
系统,FPGA
的
一个或多或少
的
静态部分可能是LLVM
后端
,即。决定输出哪种类型
的
机器代码
的
部分,例如使用SSE4
的
x86-64。或手臂拇指-2与
霓虹灯
和VFP指令。更频繁
的
改变部分
的
FPGA将是前端,部分产生
的
LLVM IR
从
给定
的
语言: C,C++,Vala等。 这个系统
的
好处是,代码总是被
优化
到当前系统中
的
浏览 0
提问于2011-06-05
得票数 10
3
回答
C、vDSP和
霓虹灯
--
霓虹灯
怎么会像C语言那样慢呢?
、
、
、
、
霓虹灯
怎么会像C一样慢呢? }} 这是<em
浏览 6
提问于2013-02-18
得票数 3
回答已采纳
7
回答
手臂
霓虹灯
的
编码:如何
开始
?
、
、
我希望使用每次计算4或8个数组元素
的
NEON功能来
优化
C++代码(主要是用于循环)。
是否
有某种库或一组函数可以在C++环境中使用?-O3 -mcpu=cortex-a9 -ftree-vectorize -mfloat-abi=hard -mfpu=neon 请记住,该项目包括广泛
的
库,如开放框架、OpenCV和OpenNI,并且所有内容都是用这些标志编译
的
。为了编译
ARM
板,我们使用
浏览 4
提问于2015-02-16
得票数 22
3
回答
基于本征函数
的
霓虹灯
优化
、
、
在学习
ARM
霓虹灯
内部函数时,我对我编写
的
一个函数
进行了
计时,该函数在使用内部函数
的
array.The版本中将元素加倍,比普通
的
C版本
的
函数要花费更多
的
时间。/存储操作
是否
消耗了更多
的
时间,这抵消了并行加法
的
好处。更新:更多信息回应Igor
的
回复。
从
两个汇编清单中
的
(标签) L7部分,我看到
霓虹灯</e
浏览 1
提问于2011-04-19
得票数 5
回答已采纳
2
回答
用函数指针在游戏引擎数学库中使用SIMD ~一个好主意?
、
、
、
从
14岁起,我就一直在阅读游戏引擎书籍(当时我什么也不懂:P),现在,很多年后,我想
开始
为我
的
游戏引擎编写数学基础。我一直在想如何设计这个“图书馆”。我至少想拥有以下属性: 让它能够在运行时检查它
是否
有SIMD,如果有它就使用SIMD,如果没有它就使用普通
的
C++版本。(可能有一些调用开销,这值得吗?)如果我们在编译时已经知道了目标,那么它就可以为SIMD或普通
的
C++编译。调用可以内联并适合交叉
优化
,因为编译器知道
是否
使用SIMD或C++。所以我
浏览 7
提问于2013-05-10
得票数 3
7
回答
OpenCV: C++和C
的
性能比较
、
、
、
幸运
的
是,有用于安卓
的
OpenCV,所以我只需将我
的
本机代码添加到示例安卓应用程序中。除了性能之外,一切都工作得很好。我对我
的
应用程序
进行了
基准测试,发现应用程序
以
4-5fps
的
速度工作,这实际上是不可接受
的
(我
的
设备有单核1 1ghz处理器)-我希望它以大约10fps
的
速度工作。在C上完全重写我
的
应用程序有意义吗?我知道使用像std::vector这样
的
东西对开发人员来说很舒服,
浏览 3
提问于2012-07-07
得票数 17
回答已采纳
1
回答
如何影响安卓/
ARM
目标的Delphi XEx代码生成?
、
、
、
、
如果有人可以用可信
的
例子演示他们如何能够
从
德尔菲XEx中产生
优化
的
ARM
代码,我很乐意接受这个答案。Embarcadero
的
Delphi编译器使用LLVM
后端
为Android设备生成本机
ARM
代码。当然,必须有一种方法将参数传递到LLVM端,或者
以
某种方式影响结果?通常,任何编译器都有许多影响代码编译和
优化
的
选项,但是Delphi
的
ARM
目标似乎只是“
优化
浏览 3
提问于2015-01-14
得票数 270
4
回答
如何测试密码库?
、
、
、
、
什么是对密码库进行基准测试
的
好测试?有没有什么工具,程序……?感谢您
的
投入!
浏览 4
提问于2011-03-24
得票数 5
回答已采纳
3
回答
RGBA到ABGR:用于iOS/Xcode
的
内联
arm
neon asm
、
、
、
、
这段代码(非常类似的代码,还没有完全尝试过这段代码)使用Android编译,但没有使用Xcode/armv7 7+
arm
64/iOS。评论中
的
错误:uint32_t *dst; __asm__ volatile(uint8x16_t y = vrev32q_u8(x);拆卸
浏览 3
提问于2016-06-26
得票数 3
回答已采纳
6
回答
Anaconda和升级到新
的
M1 Mac
、
、
、
背景 有没有人知道conda提供
的
python/numpy/scipy等
的
M1
本
地版本
的
状态?我假设我
的
python/numpy等
浏览 15
提问于2021-01-01
得票数 30
回答已采纳
9
回答
如何
开始
优化
我
的
程序?
、
我有一个用java写
的
web服务器程序,我
的
老板希望它运行得更快。我尝试了一个分析器,但它使我
的
计算机崩溃,结果证明是一个死开源项目。如果可能,一些指令或类似的简单指令将是很好
的
。 但我真正想要
的
是对这个主题
的
基本介绍,这样我就可以对这个主题进行深入
的
研究,
以
获得最好
的
结果。我是一个完全
的
初学者,当涉及到
优化
代码和主题似乎
浏览 1
提问于2011-08-31
得票数 2
3
回答
RTS游戏视距计算
的
快速算法
、
、
、
我在做一个简单
的
RTS游戏。我希望它运行得非常快,因为它应该与数千个单位和8个球员一起工作。目前,我使用了一个相当天真的算法:对于每一个敌人单位,我检查我
的
任何单位
是否
看到他。是O(n^2) 因此,如果有8个玩家,每个玩家有3000个单位,这意味着在最坏
的
情况下,每个玩家都要进行3000*21000=63000000测试。这很慢。更多细节
浏览 4
提问于2010-08-21
得票数 7
回答已采纳
5
回答
快速查找C数组中
是否
存在值?
、
、
、
、
我有一个具有时间关键型ISR
的
嵌入式应用程序,它需要迭代大小为256
的
数组(最好是1024,但256是最小值),并检查值
是否
与数组内容匹配。如果是这种情况,bool将被设置为true。微控制器采用恩智浦LPC4357,
ARM
Cortex M4内核,编译器为GCC。我已经组合了
优化
级别2 (3更慢),并将函数放在RAM中而不是闪存中。我还使用了指针算法和一个for循环,它
执行
向下计数而不是向上计数(检查i!=0
是否
比检查i<256更快)。总而言之,我最终得到了12
浏览 43
提问于2014-09-04
得票数 127
回答已采纳
2
回答
如何在ARMv6+上实现16位立体声混音?
、
、
、
、
我需要在c中
优化
我
的
混合代码
以
获得更快
的
响应时间,所以我决定使用内联汇编将两个缓冲区混合成一个新
的
更大
的
缓冲区。基本上,我将左右声道分开,我想把它们放在一个缓冲区中。所以我需要从左通道放入两个字节,然后
从
右通道放入两个字节,依此类推。(我打算使用其他空闲寄存器来
执行
相同
的
过程,并通过流水线减少处理时间) 因此,我有两个带数据
的
寄存器R0和R1,需要将它们混合到R3和R4中,最终结果是R3 =R0HI(高部分)+R1H
浏览 1
提问于2014-01-09
得票数 2
6
回答
怎样才能让这个循环运行得更快呢?
、
、
、
、
我正在使用这个代码来查找热像中
的
最高温度像素和该像素
的
坐标。这是在运行Linux
的
ARM
A9处理器上
执行
的
。000127f4 <_findMax>:
浏览 20
提问于2020-11-05
得票数 2
5
回答
ARM
架构与x86有何不同?
、
x86架构
是否
专门设计为使用键盘,而
ARM
则希望是移动
的
?两者之间
的
主要区别是什么?
浏览 2
提问于2013-02-10
得票数 239
回答已采纳
8
回答
树莓派聚类、神经元网络和脑模拟
、
、
、
由于RBPI (树莓派)具有非常低
的
功耗和非常低
的
生产价格,这意味着一个人可以用这些构建一个非常大
的
集群。我不确定,但是100000个RBPI
的
集群需要很少
的
电力和空间。现在我认为它在FLOPS或其他类型
的
计算测量方面可能不如现有的超级计算机强大,但它能实现更好
的
神经元网络模拟吗? 我不确定说“1CPU=1神经元”
是否
是一个合理
的
说法,但它似乎足够有效。那么,这
是否
意味着这样
的
集群将更有效地进行神经
浏览 0
提问于2011-09-15
得票数 14
回答已采纳
3
回答
测试
ARM
CPU仿真器
、
、
、
它有一个
ARM
7TDMI中央处理器,大部分
的
中央处理器仿真代码都是我写
的
。我
的
问题是,如何对其进行测试?在随机
的
GBA软件上测试它不会有很大
的
帮助-程序可能会因为与CPU无关
的
原因而崩溃,最好是逐段测试,而不是全部一起测试。 有没有测试
ARM
中央处理器,特别是指令集
的
可用程序?我在源代码中查找了几个
ARM
模拟器,但没有找到我想要
的
东西。如果没有,我将编写自己
的
程序,但这将很难使测试
浏览 4
提问于2013-01-28
得票数 2
回答已采纳
点击加载更多
相关
资讯
Arm中国“周易”人工智能平台可以降低算力成本!
汽车软件重构趋势:面向“同构多核”与“异构多核”“GGAI布道”
网易有道开源EMLL:高性能端侧机器学习计算库,大幅提高计算性能
RISC-V在AI计算的前景
Arm Ethos-U85 NPU:利用小语言模型在边缘侧实现生成式 AI
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
云直播
活动推荐
运营活动
广告
关闭
领券