问为什么TensorFlow Lite模型在动态范围量化时在延迟上表现很好，而在全整数量化时表现很差？
EN

Stack Overflow用户

提问于 2021-02-04 14:54:01

回答 1查看 238关注 0票数 0

我目前正在测试与TensorFlow Lite转换的CNN推理的延迟时间。我正在测试两个具有相同架构的CNN(我正在用Windows操作系统在我的笔记本上测试它们)：

第一个模型:使用TensorFlow优化的TFLite模型及其权重量化(使用Python进行转换，用tensorflow.lite.Optimize.DEFAULT量化)。是动态范围量化。
第二个模型:使用TensorFlow优化的TFLite模型及其权重和激活，对进行量化(使用Python进行转换，用tensorflow.lite.Optimize.DEFAULT +进行量化，给出一个有代表性的数据集)。是全整数量化。

实际上，第一个模型(动态范围量化)在时间上给出了非常好的结果.然而，第二个模型(全整数量化)在时间上性能很差(大约比第一个模型慢10倍)。

为什么量化激活会使推理过程变得如此缓慢？

发布于 2021-02-12 23:15:10

在CNN中，有比重量更多的激活。不同层间的激活必须被重新量化。在第二种情况下，这两种情况都可能造成很长的时间。但是请记住，第二种情况应该给您提供更高的精度，以及更低的缓冲区内存需求，就像在嵌入式处理器中一样。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66048080

复制

相似问题

问为什么TensorFlow Lite模型在动态范围量化时在延迟上表现很好，而在全整数量化时表现很差？EN