开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么量化的Uint8 TF-lite模型的执行时间比F32版本慢？

量化的Uint8 TF-lite模型的执行时间比F32版本慢的原因主要有以下几点：

数据类型：Uint8和F32分别代表了无符号8位整数和32位浮点数。相比于F32，Uint8的数据类型更为简单，但也更为有限。在计算过程中，Uint8需要进行数据类型转换和量化操作，这会增加计算的复杂度和执行时间。
精度损失：Uint8模型使用更低的精度来表示数据，这意味着在计算过程中会有一定的精度损失。这种精度损失可能会导致模型的输出结果与F32版本有所差异，需要进行额外的后处理或修正，从而增加了执行时间。
内存占用：Uint8模型相比于F32模型具有更小的模型体积，这可以减少模型的存储空间和传输成本。然而，Uint8模型在执行过程中需要将数据类型转换为F32进行计算，这会增加内存的使用量，可能导致内存不足或频繁的数据读写操作，从而影响执行时间。
硬件支持：某些硬件设备可能对Uint8的计算支持不够完善，无法充分发挥其性能优势。相比之下，F32是一种常见的数据类型，得到了广泛的硬件支持和优化，因此在某些硬件平台上执行速度可能更快。

综上所述，Uint8 TF-lite模型的执行时间比F32版本慢的原因主要是由于数据类型转换、精度损失、内存占用和硬件支持等因素的影响。为了提高执行效率，可以考虑优化数据类型转换和量化操作、优化后处理或修正过程、合理管理内存使用，并选择适合硬件平台的优化策略。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

【云+社区年度征文】TinyML实践-2：How TinyML Works？

对于Tensorflow最大需求是能够在桌面系统中训练并运行模型，这种需求影响了很多设计决策，例如为了更低的延迟和更多的功能而增加可执行文件的大小。...简单的说，TFLite与TF最大的不同，它只关注推断。 TF-Lite for Microcontroller是TFLite在mcu移植的版本(子系统），复用TF-Lite的框架。...Interpreter TF-Lite使用“解释执行模型”（术语来自TinyML书，有机会展开描述，很有意思的实现），与之相对的是“模型生成代码”（code generation）。...Quantization为什么量化是必要的？想象一个使用ATmega328P微控制器的Arduino Uno，它使用8位算法。...通过量化模型，权重的存储大小减少了4倍（对于从32位到8位值的量化），并且精度通常会受到忽略的影响（通常约为1–3%）。

1.7K5 2

TinyML-5:TFLite Quantization背后的运行机制

引文上一篇文章描述了为什么quantization 量化的int8足够运行推理，以及Quantization量化对TinyML的重要性，但是没有深入说明Quantization的实现机制，本篇博文打算从...TF-Lite example： Optimize Options [tflite exmaple] 众所周知，使用TFLite转换TF model的Quantization量化技术可以缩小weights...望文生义，“FOR_SIZE"应该是着重优化模型的大小，"FOR_LATENCY"应该是优化推理的速度；那么问题来了，同样是QUANTIZATION，两个方向实现机制有什么不同？...在此，即使是梯度也针对量化的权重进行计算。通俗的说，训练过程在每层的输出进行量化，让网络习惯精度下降的训练，最终达到在推理部署时候获得更小的精度下降损失。本文着重讲PTQ，以后有机会再展开阐述。...size] decompress解压把模型保存的weights的int8转换回去float32，并将范围缩放回其原始值，然后执行标准的浮点乘法；获得的好处是压缩网络，模型的尺寸小了。

2.3K9 1

CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化

我这里使用的是零一万物开源的 YI-34B 的社区 finetune 微调训练的版本，通常情况下，社区可能有热门模型的量化版本，经常看到一些同学说“等个量化版本”。但其实自己动手，丰衣足食。...况且，即使是从社区下载量化版本，模型体积也很大，需要来来回回测试模型是否合适，重复下载也非常消耗时间和宽带成本，远不如自己量化来的方便。关于模型程序下载，方法很多。...量化使用的硬件而量化模型使用的硬件，需要 CPU 计算能力相对强一些的机器，如果你有 GPU，那么将会极大的提升模型量化速度，如果没有也没有关系。...一般来说，位数越高，需要的内存和显存就越多，运行起来越慢，但是效果和精度就越接近原始版本。反之，我们虽然得到了省资源的版本，但是效果会有明显的降低。...扔到显卡里的模型层数越多，推理速度越快。•“--model” 这个参数没有什么特别的，指定我们下载或者转换好的 GGML 模型文件就好。好啦，当这个命令执行后，我们就能够快乐的和模型一起玩耍啦。

8331 0

CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化

我这里使用的是零一万物开源的 YI-34B 的社区 finetune 微调训练的版本，通常情况下，社区可能有热门模型的量化版本，经常看到一些同学说“等个量化版本”。但其实自己动手，丰衣足食。...况且，即使是从社区下载量化版本，模型体积也很大，需要来来回回测试模型是否合适，重复下载也非常消耗时间和宽带成本，远不如自己量化来的方便。关于模型程序下载，方法很多。...量化使用的硬件而量化模型使用的硬件，需要 CPU 计算能力相对强一些的机器，如果你有 GPU，那么将会极大的提升模型量化速度，如果没有也没有关系。...一般来说，位数越高，需要的内存和显存就越多，运行起来越慢，但是效果和精度就越接近原始版本。反之，我们虽然得到了省资源的版本，但是效果会有明显的降低。...扔到显卡里的模型层数越多，推理速度越快。 “--model” 这个参数没有什么特别的，指定我们下载或者转换好的 GGML 模型文件就好。好啦，当这个命令执行后，我们就能够快乐的和模型一起玩耍啦。

1.2K2 0

TinyML-4：（Quantization）为什么int8足够用于ML

TF-Lite 量化（Quantization ）由来当神经网络最初被开发时，最大的挑战是使它们能够工作！这意味着训练期间的准确性和速度是重中之重。...量化（Quantization ）为什么能起作用神经网络通过随机梯度下降进行训练；在weights上施加许多微小的推动力。...这些小增量通常需要浮点精度才能起作用（尽管也有研究工作在这里使用量化表示形式），否则，可能会因为“vanishing gradients”而陷入困境。采用预先训练的模型并进行推理非常不同。...可以使用八位参数和中间缓冲区（而不是全精度的32位浮点值）运行许多神经网络，并且最终精度不会受到明显损失。有时可能会损失一些准确性，但是通常可以从性能延迟和内存带宽方面获得收益。 为什么要量化？...提取8位值仅需要浮点数的25％的内存带宽，因此您将更好地利用缓存并避免出现RAM访问瓶颈。您通常还可以使用硬件加速的单指令多数据（SIMD）操作，每个时钟周期执行更多操作。

1.8K5 1

构建能够使用 CPU 运行的 MetaAI LLaMA2 中文大模型

这个开源项目集成了模型量化方案，能够自动针对不同的平台进行优化，目前支持几十种不同的大模型项目。...本文使用的 LLaMA2 中文模型，基于 LinkSoul 团队出品的LinkSoul/Chinese-Llama-2-7b，感谢他们为中文开源模型做出的贡献 :D获取 GGML 模型构建镜像环境为了简单的转换...，模型量化操作就完成了。...从结果来看，CPU 执行效率还是非常惊人的。...我们想要使用 CPU 来运行模型，我们需要通过 GGML 将模型转换为 GGML 支持的格式，并且进行量化，降低运行资源要求。

1.1K10 0

模型杂谈：1.5G 显存就能运行的 RNN 14B 的开源模型（ChatRWKV）

如果你只好奇如何使用 1.5 G 显存来运行模型，可以仅阅读模型准备工作和 1.5 G 模型部分相关的内容。模型运行的准备工作这次的模型的准备工作只有两步：获取包含容器的项目代码，构建容器镜像。...你可以执行简单的一条命令，来创建一个“干净又卫生”的容器环境。...在聊 1.5G 的“极限挑战”之前，我们先使用相对充足的资源，快速将模型运行起来，体验下它的执行效率。...使用 Docker 快速运行 ChatRWKV如果你的显卡有 20G 或以上的显存，直接执行下面的命令即可启动一个带界面的 ChatRWKV 模型程序：docker run --gpus all --ipc...挑战 1.5G 小显存运行 ChatRWKV 模型想要使用小显存资源来运行模型，现阶段有一些相对靠谱的方法：将模型量化为8位或者4位，甚至是更低，降低模型文件尺寸的同时，将部分显存卸载到 CPU 使用的内存中

1.1K0 0

代码越“整洁”，性能越“拉胯”？

Result = (Accum0 + Accum1 + Accum2 + Accum3); return Result; } 在一个简单的测试工具中运行以上这两个例程，可以粗略地计算出执行该操作每个形状所需的循环总数...现在不仅代码的运行速度大幅提升，而且语义的复杂性也显著降低。标记更少、操作更少、代码更少。将数据模型与所需的操作融合到一起后，计算每个面积的循环数量减少到了 3.0～3.5 次。...10 倍的性能提升非常巨大，我甚至无法拿 iPhone 做类比，即便是 iPhone 6（现代基准测试中最古老的手机）也只比最新的iPhone 14 Pro Max 慢 3 倍左右。...这些目标本身没什么问题，然而因此提出的这些规则有待思考。下次，再谈论这些规则时，我希望加上一条备注：“遵循这些规则，你的代码运行速度会变得慢15倍。” “整洁”的代码和性能可否兼得？...这会执行数十亿行代码，但性能的根源是为什么操作员会一次性点击许多个链接。除了学校作业，我从来没有遇到过性能问题。

2993 0

“干净”的代码，贼差的性能

这些要求相当具体，听起来只要照着做了，就让编写出“干净”的代码。但问题是，这样的代码执行起来效果如何？为了更确切地测试“干净”代码的实际表现，我决定直接用相关文献里列出的示例代码。...Switch 语句的每种执行情况，都跟类层次结构中的相应虚拟函数有着相同的代码。...它涉及的 token 更少、操作更少、代码行数也更少。所以说，我们有必要把数据模型跟计算操作结合起来，而不是要求什么“忽略内部”。...最重要的是，我们完全可以在遵循第五条的同时保持合理的代码性能。结论所以我现在给出结论：在这五条原则里，只有最后一条值得遵循，前面四条可以统统无视。为什么？...大家可能注意到了，现在的软件运行起来真的越来越慢。跟现代硬件的真实性能相比，软件的运行表现太差了。要问为什么这么慢，那答案可就多了，而最核心的因素要视实际开发环境和编程方法而定。

5541 0

构建能够使用 CPU 运行的 MetaAI LLaMA2 中文大模型

这个开源项目集成了模型量化方案，能够自动针对不同的平台进行优化，目前支持几十种不同的大模型项目。...本文使用的 LLaMA2 中文模型，基于 LinkSoul 团队出品的LinkSoul/Chinese-Llama-2-7b[7]，感谢他们为中文开源模型做出的贡献 :D 获取 GGML 模型构建镜像环境...，模型量化操作就完成了。...从结果来看，CPU 执行效率还是非常惊人的。...我们想要使用 CPU 来运行模型，我们需要通过 GGML 将模型转换为 GGML 支持的格式，并且进行量化，降低运行资源要求。

8422 0

【推理引擎：核心原理】系列来啦！从入门到昇腾！

移动端的推理引擎应该挺多的了，google在2017年推出了TF-Lite，腾讯在2017年推出了ncnn，Apple在2017也推出了CoreML，阿里在2018年推出了MNN，华为2019年推出了MindSpsore-Lite...《轻量网络》在端侧推理引擎中，主要是执行轻量的模型结构。主要思想是针对神经网络模型设计更高效的网络计算方式，从而使神经网络模型的参数量减少的同时，不损失网络精度，并进一步提高模型的执行效率。...本节主要集中介绍模型小型化中需要注意的参数和指标，接着深入了解CNN经典的轻量化模型和Transformer结构的轻量化模型。...《模型压缩》模型压缩跟轻量化网络模型不同，压缩主要是对轻量化或者非轻量化模型执行剪枝、蒸馏、量化等压缩算法和手段，使得模型更加小、更加轻便、更加利于执行。...《Kernel优化》在上层应用或者 AI 网络模型中，看到的是算子；但是在推理引擎实际执行的是具体的 Kernel，而推理引擎中 CNN 占据了主要是得执行时间，因此其 Kernel 优化尤为重要。

7015 0

从零到一使用 Ollama、Dify 和 Docker 构建 Llama 3.1 模型服务

如果你需要将 Ollama 官方不支持的模型运行起来，或者将新版本 llama.cpp 转换的模型运行起来，并且想更轻松的使用 Dify 构建 AI 应用，那么本文或许会对你有所帮助。...本文中，我们以 Llama 最新发布的 3.1 版本原始模型为例，你可以参考这个方式，来转换你的本地微调好的模型，或者其他，Ollama 官方不支持的模型。下载模型先来聊聊下载模型。...、《CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化》三篇文章中，我分别提到过 Llama.cpp 的 CPU 程序编译、GPU 程序编译、通用模型格式的量化操作。...，对量化后的模型再次进行验证：# ....启动 Ollama 模型服务通常情况下，如果已经完成了模型的转换，我们可以结合上文中的命令进行调整，在命令后添加要执行的模型，来完成服务的启动：docker run -d --gpus=all -v `

7530 0

本地CPU上运行LLM，1毛钱都不想多花

使用c/c++的优势在于：无需任何额外依赖，相比 Python 代码对 PyTorch 等库的要求，C/C++ 直接编译出可执行文件，跳过不同硬件的繁杂准备；支持 Apple Silicon 芯片的...ARM NEON 加速，x86 平台则以 AVX2 替代；具有 F16 和 F32 的混合精度；支持 4-bit 量化；无需 GPU，可只用 CPU 运行； … 由于纯 C/C++ 实现，无其他依赖...它简化了接口，理解成本极低，可以让前端开发的同学，以最快的速度在nodejs上启动一个大模型项目。有了它，再配合langchain的js版本，就可以轻松搭建自己的知识库等Agent应用。...量化后的模型对硬件的要求降低，但是并不意味着随便一台垃圾机器也可以跑起来，如果我们有一台8G内存的大模型，我们可以尝试6B的量化模型。...最后，有人会问，失去精度后，大模型准确性降低，不就失去了意义吗？对于这个问题，我想说的是，我们应该根据自己的需求来选择，不然为什么所有厂商都会提供不同参数量级的模型呢？

3541 0

搞定语音识别，畅享高效处理 | 开源专题 No.78

其中代表性的 Paraformer-large 模型具有高准确性、高效率和便捷部署等优势，支持快速构建语音识别服务。同时提供方便的脚本和教程以及对预训练模型进行推理和微调的支持。...体系结构上的 AVX 指令集以及 POWER 体系结构上的 VSX 指令集混合 F16/F32 精度支持支持 4 位和 5 位整数量化低内存使用 (Flash Attention) 运行在 CPU...无论您需要什么样的应用场景，在这个项目中都能找到满足需求的模型。先进技术实现：AudioGPT 采用最先进的基础模型来实现其功能，如 FastSpeech，SyntaSpeech 等。...C++ 移植版本。...比 OpenAI 原始实现更快速支持混合 F16/F32 精度计算内置性能分析器来测量各个计算着色器执行时间低内存使用率此外还有其他特点包括支持多种音频格式、媒体处理基础设施以及易于使用 COM

2441 0

从零到一使用 Ollama、Dify 和 Docker 构建 Llama 3.1 模型服务

如果你需要将 Ollama 官方不支持的模型运行起来，或者将新版本 llama.cpp 转换的模型运行起来，并且想更轻松的使用 Dify 构建 AI 应用，那么本文或许会对你有所帮助。...本文中，我们以 Llama 最新发布的 3.1 版本原始模型为例，你可以参考这个方式，来转换你的本地微调好的模型，或者其他，Ollama 官方不支持的模型。下载模型先来聊聊下载模型。...”、《CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化[9]》三篇文章中，我分别提到过 Llama.cpp 的 CPU 程序编译、GPU 程序编译、通用模型格式的量化操作。...，对量化后的模型再次进行验证： # ....启动 Ollama 模型服务通常情况下，如果已经完成了模型的转换，我们可以结合上文中的命令进行调整，在命令后添加要执行的模型，来完成服务的启动： docker run -d --gpus=all -v

2001 0

【Rust与AI】LLM模型基本架构

Rust与LLaMA 终于来到了 Rust，之所以前面铺垫那么多，是因为如果我们完全不熟悉模型的基本结构和执行过程，这个代码看起来就会知其然而不知其所以然。...LLaMA 的 Rust 实现有很多个版本，本次选择的是来自 karpathy/llama2.c: Inference Llama 2 in one file of pure C 的 Rust 实现的版本中的...这也是为什么会有研究说不要位置编码语言模型也可以，但效果应该是不如加了位置编码的。模型创建好后，接下来就是加载参数和执行推理。...第一个是推理 Prompt（即第一次输入时的 Context），此时给定的 Context 是多个 Token 组成的，执行该过程目的是填充 KV Cache。...事实上，大部分框架都是这么做的，比如 Python 的 NumPy 、PyTorch等，当然 Rust 也有类似的框架，比如 NumPy 对应的 ndarray，以及 Rust 版本的深度学习框架。

6381 0

深度学习算法优化系列三 | Google CVPR2018 int8量化算法

背景模型量化仍然属于模型压缩的范畴，而模型压缩的目的是降低模型的内存大小，加快模型推理速度。在这之前，主要有两方面的研究用于减少模型的大小和前向推理的时间。...方法这篇论文提出了一种将float32量化为int8的方法，并给出了一个训练和推理框架，推理框架使得模型可以在能执行整型运算的计算设备上高效运行，训练框架和推理框架相辅相成，可以显著降低量化过程中的精度损失...2、输入量化的卷积核rhs_quantized_val, uint8类型, 偏移量 rhs_zero_point, int32类型。 3、转换uint8到int32类型。...12、之后量化激活层。 13、最后反量化到浮点数，即卷积层的输出。 14、进入下一层，循环执行1-13步骤。...将weights和input执行矩阵乘法后加上bias，公式表达为：得到了int32之后的结果后需要再次转换成int8类型(反量化)，之后再执行激活函数的操作。 4.

2.6K3 0

零一万物模型折腾笔记：官方 Yi-34B 模型基础使用

在之前文章里，我们使用的是来自社区的 finetune 和量化版本，这次，我们来陆续测试和使用下官方的模型吧。当然，本篇文章也会聊聊之前漏了的 GGUF 模型量化，希望对你有帮助。...尝试对模型进行几种不同的量化操作量化模型相比原版模型最直观的差别是“模型尺寸”会得到显著的减少、模型的运行速度通常会有明显的提升。...GGUF 是一种新的模型二进制文件，设计的目标是为了快速的加载和存储模型，并方便程序加载和使用。我们可以通过分发和执行这个独立的执行文件，来完成模型的部署，不需要之前的模型仓库里的一堆元信息文件。...GGUF 还支持多种不同的量化方式，并能够稳定的保存 4 位量化版本的模型程序。说了这么多，我们如何制作 Yi-34B 的量化模型呢？...切换工作目录到项目文件夹内 cd llama.cpp 进入目录后，手动执行下面的命令，等待程序运行完毕后，我们就能够得到“会轻微造成效果降低”的 8位量化的 GGUF模型啦。

7731 0

零一万物模型折腾笔记：官方 Yi-34B 模型基础使用

在之前文章里，我们使用的是来自社区的 finetune 和量化版本，这次，我们来陆续测试和使用下官方的模型吧。当然，本篇文章也会聊聊之前漏了的 GGUF 模型量化，希望对你有帮助。...尝试对模型进行几种不同的量化操作量化模型相比原版模型最直观的差别是“模型尺寸”会得到显著的减少、模型的运行速度通常会有明显的提升。...GGUF 是一种新的模型二进制文件，设计的目标是为了快速的加载和存储模型，并方便程序加载和使用。我们可以通过分发和执行这个独立的执行文件，来完成模型的部署，不需要之前的模型仓库里的一堆元信息文件。...GGUF 还支持多种不同的量化方式，并能够稳定的保存 4 位量化版本的模型程序。说了这么多，我们如何制作 Yi-34B 的量化模型呢？...切换工作目录到项目文件夹内 cd llama.cpp 进入目录后，手动执行下面的命令，等待程序运行完毕后，我们就能够得到“会轻微造成效果降低”的 8位量化的 GGUF模型啦。

6251 1

零一万物模型折腾笔记：官方 Yi-34B 模型基础使用

如果你对上面详细的模型的血缘关系和基础模型分类感兴趣，可以移步文章结尾中的“其他”小节。在之前文章里，我们使用的是来自社区的 finetune 和量化版本，这次，我们来陆续测试和使用下官方的模型吧。...尝试对模型进行几种不同的量化操作量化模型相比原版模型最直观的差别是“模型尺寸”会得到显著的减少、模型的运行速度通常会有明显的提升。...GGUF 是一种新的模型二进制文件，设计的目标是为了快速的加载和存储模型，并方便程序加载和使用。我们可以通过分发和执行这个独立的执行文件，来完成模型的部署，不需要之前的模型仓库里的一堆元信息文件。...GGUF 还支持多种不同的量化方式，并能够稳定的保存 4 位量化版本的模型程序。说了这么多，我们如何制作 Yi-34B 的量化模型呢？...cd llama.cpp进入目录后，手动执行下面的命令，等待程序运行完毕后，我们就能够得到“会轻微造成效果降低”的 8位量化的 GGUF模型啦。

1.7K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭