我目前正在测试与TensorFlow Lite转换的CNN推理的延迟时间。我正在测试两个具有相同架构的CNN(我正在用Windows操作系统在我的笔记本上测试它们):
实际上,第一个模型(动态范围量化)在时间上给出了非常好的结果.然而,第二个模型(全整数量化)在时间上性能很差(大约比第一个模型慢10倍)。
为什么量化激活会使推理过程变得如此缓慢?
发布于 2021-02-12 23:15:10
在CNN中,有比重量更多的激活。不同层间的激活必须被重新量化。在第二种情况下,这两种情况都可能造成很长的时间。但是请记住,第二种情况应该给您提供更高的精度,以及更低的缓冲区内存需求,就像在嵌入式处理器中一样。
https://stackoverflow.com/questions/66048080
复制相似问题