开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Android:为什么在运算量增加的情况下，整数运算会比浮点运算慢很多？

在运算量增加的情况下，整数运算比浮点运算慢很多的原因主要有以下几点：

硬件支持：整数运算在大多数计算机体系结构中都有专门的硬件支持，例如整数寄存器、整数运算单元等。而浮点运算通常需要使用浮点处理器，这些处理器的设计和实现相对复杂，需要更多的硬件资源和指令集支持。
精度要求：浮点运算通常需要更高的精度，因为浮点数可以表示更广泛的数值范围和更小的数值间隔。为了满足这种精度要求，浮点运算需要更多的位数来表示和计算，这导致了更多的计算量和运算时间。
运算规则：浮点运算涉及到更复杂的运算规则，例如舍入、溢出、下溢等。这些规则需要更多的计算和判断，从而增加了运算的复杂性和时间消耗。
数据存储和传输：整数通常可以直接存储在计算机的寄存器或内存中，而浮点数通常需要使用特定的格式进行存储和传输，例如IEEE 754标准。这种格式转换和数据传输过程也会增加运算的时间消耗。

综上所述，整数运算比浮点运算慢很多的原因主要是因为硬件支持、精度要求、运算规则和数据存储传输等方面的差异。在实际应用中，根据具体的需求和场景，选择合适的数据类型和运算方式可以提高计算效率和性能。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Android硬件加速原理与实现简介

绘制过程经常需要进行逻辑较简单、但数据量庞大的浮点运算。...一次整型和逻辑运算一般需要1~3个机器周期，而浮点运算要转换成整数计算，一次运算可能消耗上百个机器周期。更简单的CPU甚至只有加法指令，减法用补码加法实现，乘法用累加实现，除法用减法循环实现。...如果数据量更大、级联的层级更大，则并行结构的优势更明显。由于电路的限制，不容易通过提高时钟频率、减小时钟周期的方式提高运算速度。并行结构通过增加电路规模、并行处理，来实现更快的运算。...GPU并行计算的方式简单粗暴，在资源允许的情况下，可以为每个像素开一个GPU线程，由其进行加1操作。数学运算量越大，这种并行方式性能优势越明显。 ?...Android中的硬件加速在Android中，大多数应用的界面都是利用常规的View来构建的（除了游戏、视频、图像等应用可能直接使用OpenGL ES）。

2.1K5 0

Android硬件加速介绍与实现

绘制过程经常需要进行逻辑较简单、但数据量庞大的浮点运算。...一次整型和逻辑运算一般需要1~3个机器周期，而浮点运算要转换成整数计算，一次运算可能消耗上百个机器周期。更简单的CPU甚至只有加法指令，减法用补码加法实现，乘法用累加实现，除法用减法循环实现。...如果数据量更大、级联的层级更大，则并行结构的优势更明显。由于电路的限制，不容易通过提高时钟频率、减小时钟周期的方式提高运算速度。并行结构通过增加电路规模、并行处理，来实现更快的运算。...GPU并行计算的方式简单粗暴，在资源允许的情况下，可以为每个像素开一个GPU线程，由其进行加1操作。数学运算量越大，这种并行方式性能优势越明显。 ?...Android中的硬件加速在Android中，大多数应用的界面都是利用常规的View来构建的（除了游戏、视频、图像等应用可能直接使用OpenGL ES）。

1.7K8 0

Android硬件加速介绍与实现

绘制过程经常需要进行逻辑较简单、但数据量庞大的浮点运算。...一次整型和逻辑运算一般需要1~3个机器周期，而浮点运算要转换成整数计算，一次运算可能消耗上百个机器周期。更简单的CPU甚至只有加法指令，减法用补码加法实现，乘法用累加实现，除法用减法循环实现。...如果数据量更大、级联的层级更大，则并行结构的优势更明显。由于电路的限制，不容易通过提高时钟频率、减小时钟周期的方式提高运算速度。并行结构通过增加电路规模、并行处理，来实现更快的运算。...GPU并行计算的方式简单粗暴，在资源允许的情况下，可以为每个像素开一个GPU线程，由其进行加1操作。数学运算量越大，这种并行方式性能优势越明显。 ?...Android中的硬件加速在Android中，大多数应用的界面都是利用常规的View来构建的（除了游戏、视频、图像等应用可能直接使用OpenGL ES）。

1.3K6 0

嵌入式开发既要代码小，又要速度快！程序该如何优化？

，有很多C 编译器都会生成2~3个字节的指令。...4、减少运算的强度可以使用运算量小但功能相同的表达式替换原来复杂的的表达式。...如下： (1) 求余运算 a = a % 8; 可以改为： a = a & 7; 说明：位操作只需一个指令周期即可完成，而大部分的C 编译器的“%”运算均是调用子程序来完成，代码长、执行速度慢。...在使用while 循环时也一样，使用自减指令控制循环会比使用自加指令控制循环生成的代码更少1~3 个字母。...6、查表在程序中一般不进行非常复杂的运算，如浮点数的乘除及开方等，以及一些复杂的数学模型的插补运算，对这些即消耗时间又消费资源的运算，应尽量使用查表的方式，并且将数据表置于程序存储区。

1.6K3 0

专栏 | 为模型减减肥：谈谈移动／嵌入式端的深度学习

为什么要为深度学习模型减肥随着深度学习的发展，神经网络模型也越来越复杂，常用的模型中 VGG 系列网络的计算量可以达到 30-40 GOP（1GOP=109 运算）。...Depthwise convolution 能大幅降低运算量，但是同时不同特征之间的权重参数变成线性相关。理论上减小了自由度，但是由于深度学习网络本身就存在冗余，因此实际测试中性能并没有降低很多。...大家都知道数据在计算机系统中以二进制形式表示，传统的全精度 32-bit 浮点数可以覆盖非常大的数字范围，但是也很占内存，同时运算时硬件资源开销也大。...实际上在深度学习运算中可能用不上这么高的精度，所以最简单直接的方法就是降低精度，把原来 32-bit 浮点数计算换成 16-bit 浮点数甚至 8-bit 定点数。...总结在移动／嵌入式端运行的深度学习网络模型必须考虑运行速度以及能效比，因此模型的运算量和模型尺寸大小都是越小越好。

1.1K8 0

深入理解计算机系统（2.7）------浮点数舍入以及运算

通常情况下我们采取的舍入规则是在原来的值是舍入值的中间值时，采取向偶数舍入，在二进制中，偶数我们认为是末尾为0的数。...2、浮点运算　　在IEEE标准中，制定了关于浮点数的运算规则，就是我们将把两个浮点数运算后的精确结果的舍入值，作为我们最终的运算结果。...正是因为有了这一个特殊点，就会造成浮点数当中，很多运算不满足我们平时熟知的一些运算特性。　　...= a * b + a * c 　　浮点数失去了很多运算方面的特性，因此也导致很多优化手段无法进行，比如我们试图优化下面这样一段程序。...然后扩展到整数的表示和运算，实数的表示和运算，在实际编程中，我们会经常和数打交道，如何避免一些错误，相信看完后会有个大概的了解了。那么接下来我们将学习第三章，这将是一个全新的世界——汇编语言。

2.8K6 0

骁龙855超越麒麟980？手机芯片AI性能最新评测基准出炉

的浮点运算性能相比骁龙 855 要低 10%，在整数运算速度上慢 20-60% 麒麟 970 的速度约比麒麟 980 慢 30-50% 谷歌 Pixel 的缺席：由于性能不足，Pixel Visual...过去几个月，AI Benchmark 的得分被用于很多事件和出版物中，引发了很多关于一些新推出的芯片组和手机性能的问题。下面是我们对 2019 年 2 月更新分数和结果的官方解释。...由于技术问题，麒麟的 NPU 无法通过 NNAPI 加速整数运算，它会转而使用 Arm NN 驱动进行基于 GPU 的加速，在这种情况下其性能会低于高通和联发科——从而导致基准测试分数较低。...还需要指出的是，三星还是有机会在 AI 性能上扳回一局的，Mali GPU 可以大幅加速浮点及量化神经网络，三星只需整合 Arm NN 就能实现加速，但在这种情况下，在下一代三星手机安卓 Q 固件发布（...看起来，Mate 20 Pro 在 16 位浮点数运算和内存方面占据优势。

1K3 0

算法优化——如何将人脸检测的速度做到极致

此外，在Haar特征的实现中，为了解决亮度归一化问题，需计算像素值的平方和（square sum），平方和需要64位整数来存储；还需要开方（sqrt）运算。...64位整数运算和开方运算，对很多嵌入式系统来讲，都是高计算量操作。 HOG特征是一个描述能力特别强的特征，也可以用在人脸检测上。HOG特征需要计算梯度的方向和长度。...而描述样本在高维特征空间的分布，应该是很多模式识别问题的核心问题。　　好，不谈理论谈经验。样本选择是一般人不提的重要事情。...定点化　　有些低功耗嵌入式系统不支持硬件浮点运算，特征提取和分类器设计应尽可能避免浮点运算。不可避免的浮点数可以转为定点数，当然这会损失精度。...Boosting算法中逻辑分支较多，也就是有不定长的for循环，有if-else判断；并行的时候每个运算单元运算量并不相同，有些运行时间长，有些运行时间短。运行时间短的要等运行时间长的。

2.9K6 0

干货！嵌入式C语言源代码优化方案

实际上，只要是乘以或除以一个整数，均可以用移位的方法得到结果，如： a = a*9 可以改为： a = (a << 3) + a 采用运算量更小的表达式替换原来的表达式，下面是一个经典例子: 旧代码...(8)提取公共的子表达式在某些情况下，C++编译器不能从浮点表达式中提出公共的子表达式，因为这意味着相当于对表达式重新排序。...在使用while循环时也一样，使用自减指令控制循环会比使用自加指令控制循环生成的代码更少1~3个字母。...很多高级语言，包括C++，并不对产生的浮点表达式重新排序，因为那是一个相当复杂的过程。需要注意的是，重排序的代码和原来的代码在代码上一致并不等价于计算结果一致，因为浮点操作缺乏精确度。...循环不变计算对于一些不需要循环变量参加运算的计算任务可以把它们放到循环外面，现在许多编译器还是能自己干这件事，不过对于中间使用了变量的算式它们就不敢动了，所以很多情况下你还得自己干。

2.6K4 0

Erlang 03 - Erlang缺陷

大部分情况下, 每个操作的成本都清晰可辨, 没有隐式调用的对象构造函数和析构函数, 没有运算符重载(因此+运算符局部可能偷偷摸摸的复制整个对象), 没有虚函数表带来的间接调用, 没有临界区, 也没有阻塞式的消息发送原语...数据类型内存占用量小整数 1个字大整数至少3个字(可按需增长) 浮点数在32位架构下占4个字, 在64位架构下占3个字原子 1个字(原子的名称字符串仅存在Erlang节点的原子表中) 二进制串或位串...二者之间唯一可感知的区别就是大整数运算会比小整数运算要来的慢. 在带有密集数值运算大紧凑循环中, 如果给定的输入会导致大量大数运算, 就会产生较为明显的性能差异....浮点数及其装箱形式 Erlang采用的是64位精度的浮点数, 一个字长容纳不下(即使在64位机器上也放不下, 和小整数的情景一样, BEAM会讲一些位用作类型标签)....例如, 在很多年前调用其他模块中的函数比调用本地函数要慢得多, 现如今, 二者已经差不多了.

1.6K3 0

阿里云面试：为什么建议使用 BigDecimal 进行浮点数运算？

浮点数的运算竟然还会有精度丢失的风险吗？确实会！...这个和计算机保存浮点数的机制有很大关系。我们知道计算机是二进制的，而且计算机在表示一个数字时，宽度是有限的，无限循环的小数存储在计算机时，只能被截断，所以就会导致小数精度发生损失的情况。...这也就是解释了为什么浮点数没有办法用二进制精确表示。...通常情况下，大部分需要浮点数精确运算结果的业务场景（比如涉及到钱的场景）都是通过 BigDecimal 来做的。...想要解决浮点数运算精度丢失这个问题，可以直接使用 BigDecimal 来定义浮点数的值，然后再进行浮点数的运算操作即可。

4431 0

armeabi-v7a架构(sv7a)

为什么调试模式和发行模式adobe会选择不同的文件夹？...因此armeabi通用性强，但速度慢，而v7a能充分发挥v7a CPU的能力，在AIR打包APK调试模式adobe选择的是通用性强的armeabi模式。...到了android2.0：增加了支持arm-vfp，armv6，armv6t2指令集。到了android2.2：增加支持armv7-a指令集。...v5 cpu，armeabi-v7a是针对有浮点运算或高级扩展功能的arm v7 cpu。...具有这种目标的浮点运算使用软件浮点运算。使用此 ABI 创建的二进制代码将可以在所有 ARM* 设备上运行。

1.2K1 0

两行代码统计模型参数量与FLOPs，这个PyTorch小工具值得一试

你的模型到底有多少参数，每秒的浮点运算到底有多少，这些你都知道吗？近日，GitHub 开源了一个小工具，它可以统计 PyTorch 模型的参数量与每秒浮点运算数（FLOPs）。...其实模型的参数量好算，但浮点运算数并不好确定，我们一般也就根据参数量直接估计计算量了。但是像卷积之类的运算，它的参数量比较小，但是运算量非常大，它是一种计算密集型的操作。...反观全连接结构，它的参数量非常多，但运算量并没有显得那么大。此外，机器学习还有很多结构没有参数但存在计算，例如和等。...最后输出的浮点运算数和参数量分别为如下所示，换算一下就能知道 DenseNet-121 的参数量约有 798 万，计算量约有 2.91 GFLOPs。...其实它的统计代码在项目中也非常可读，从代码上看，目前该工具主要统计了视觉方面的运算，包括各种卷积、激活函数、池化、批归一化等。

4.4K2 0

为什么说NVIDIA推出了史上最强的GPU？

可能增强的TensorCore 辅助新加入的RT Core，一起来完成Realtime的Ray-Tracing的。能将巨大的运算量完成实时渲染，这点实际上很伟大！...本次NV在这个新图灵架构上提供了能大量加速实时性计算(包括光线追踪, 以及, VR/AR)上面的增强特性.这带来了第(3)点:该运算性能增强是浮点的? 还是整数的?是否是谣传以久的FP8? ?...还有这里，目前NV的图里面给出的性能单位是10G Rays/Sec，不知道这个单位的意思。10G条光线每秒，不知道是指的折算到什么计算的情况下说的。...可以实现浮点运算和整数运算并发，等于两张卡了：一张整数卡，一张浮点卡。前者可以图像处理，后者科学计算。...突然想到国内的BTM/Tensority团队和比特大陆。以前有个BTC，大家都说挖矿是在浪费能源。很多人都骂这点，说是炒作，浪费国家电力。

1.2K4 0

估算卷积层与反卷积层运算量

那么对于给定一个卷积神经网络的模型定义，该如何估算其浮点数运算量。对卷积神经网络来说，卷积层的运算量是占网络总运算量的大头，而对于一些像素级别任务，反卷积层也要算上。...网上有很多介绍如何计算卷积网络运算量的文章，基本都是介绍卷积还有全连接等一些常用的层是如何计算的，但很少有介绍反卷积层的运算量如何计算。...Scala版本：https://github.com/Ldpe2G/DeepLearningForFun/tree/master/Mxnet-Scala/UsefulTools 普通卷积普通卷积层的运算量很多文章都已经讲过如何计算了...下面这个仓库的代码在计算运算量的时候也是只算了乘法: https://github.com/albanie/convnet-burden 卷积的反向和接下来要介绍和反卷积的前向是对应的，这里简单提一下卷积的反向过程...分组卷积分组卷积的运算量其实就是直接把卷积的运算量除以组数，比如分为g组，继续沿用上面卷积的运算量公式的话，那么分组卷积的运算量为： ? 加上偏置的话就是： ?

9302 0

两行代码统计模型参数量与FLOPs，这个PyTorch小工具值得一试

机器之心报道参与：思源你的模型到底有多少参数，每秒的浮点运算到底有多少，这些你都知道吗？...其实模型的参数量好算，但浮点运算数并不好确定，我们一般也就根据参数量直接估计计算量了。但是像卷积之类的运算，它的参数量比较小，但是运算量非常大，它是一种计算密集型的操作。...反观全连接结构，它的参数量非常多，但运算量并没有显得那么大。此外，机器学习还有很多结构没有参数但存在计算，例如最大池化和 Dropout 等。...最后输出的浮点运算数和参数量分别为如下所示，换算一下就能知道 DenseNet-121 的参数量约有 798 万，计算量约有 2.91 GFLOPs。...其实它的统计代码在项目中也非常可读，从代码上看，目前该工具主要统计了视觉方面的运算，包括各种卷积、激活函数、池化、批归一化等。

6.8K2 0

从奔腾I的VCD播放到AI区块链播放器——程序优化的魔法

如果算1个点，用一个标准的原始reference算法，需要做8个乘加运算，8个点的就64个乘加运算，这样非常慢；如果使用快速算法，快速算法用加法移位替换乘法，一般小于16个乘法，这样相当于每个点只做了2...很早以前也就是在Windows图形化窗口普及之前出现的一些3D游戏就要大量的浮点运算，即使做一个开方也无法避免。但这之中有几个奇迹般的开方函数，这个函数原理究竟是怎样的，我一直没有研究透彻。...这是一个很神奇的系数，其运算也很诡异，最后通过一个从整数到浮点的强制转换就可以使这个结果返回，相当于牛顿迭代法迭代了三次。...这使得运算量被大幅减小，同时预先生成的参数表体积小很多。这些改进带来的实际性能提升可达到3倍以上，可以说是巨大提升了。...这样做两次就会造成动态代码非常大的同时运算量少很多，这种情况下运算速度也会非常快。用这种方法处理完成后，基本上处理速度会有一倍左右的提升。 4、结果两次变化本身就比一次单个变换快。

4011 0

C语言代码优化方案

在其它条件不变的情况下，使用%f参数，会使生成的代码的数量增加很多，执行速度降低。...(2)求余运算 a=a%8; 可以改为： a=a&7; 说明：位操作只需一个指令周期即可完成，而大部分的C编译器的“%”运算均是调用子程序来完成，代码长、执行速度慢。...实际上，只要是乘以或除以一个整数，均可以用移位的方法得到结果，如： a=a*9 可以改为： a=(a<<3)+a 采用运算量更小的表达式替换原来的表达式，下面是一个经典例子: 旧代码: x = w %...(8)提取公共的子表达式在某些情况下，C++编译器不能从浮点表达式中提出公共的子表达式，因为这意味着相当于对表达式重新排序。...很多高级语言，包括C++，并不对产生的浮点表达式重新排序，因为那是一个相当复杂的过程。需要注意的是，重排序的代码和原来的代码在代码上一致并不等价于计算结果一致，因为浮点操作缺乏精确度。

6.8K10 8

模型运算量、显卡算力说明

关于深度学习的算力、计算量存在很多单位，本文记录相关内容。...概念算力指计算设备（GPU、CPU、NPU等）完成计算的能力大小，一般评价指标为在单位时间内完成的运算次数计算量指模型推断过程中需要的运算量，一般用来评价模型规模以及推断运行时间常用单位单位类型...对于描述模型算力的 TFLOPs 网络 运算量 AlexNet 对于AlexNet处理224*224的图像，需要1.4G FLOPS ResNet-152 对于224*224的图像，ResNet-152...10^15) 次的浮点运算 1 EFLOPS = 10^18 FLOPS 每秒一百京（=10^18）次的浮点运算。...1 ZFLOPS = 10^21 FLOPS 等于每秒十万京（=10^21）次的浮点运算。

8661 0

c语言中位运算符的用法_c语言中位运算符的优先级

1.左移运算符<< 运算规则：对运算符<<左边的运算量的每一位全部左移右边运算量表示的位数，右边空出的位补0。...乘法运算转化成位运算 (在不产生溢出的情况下) a * (2^n) 等价于 a<< n 2....右移运算符>> 运算规则：对运算符>>左边的运算量的每一位全部右移右边运算量表示的位数，右边低位被移出去舍弃掉，空出的高位补0还是补1，分两种情况： (1)对无符号数进行右移时，空出的高位补0。...除法运算转化成位运算 (在不产生溢出的情况下) a / (2^n) 等价于 a>> n 取模运算转化成位运算 (在不产生溢出的情况下) a % (2^n) 等价于 a & (2^n – 1) 循环移位的实现...如将一个无符号整数x的各位进行循环左移4位的运算，即把移出的高位填补在空出的低位处。可以用以下步骤实现：（1）将x左移4位，空出的低4位补0，可通过表达式x<<4实现。

7841 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭