有了经过训练的“.h5”Keras模型文件,我正在尝试优化推理时间:
探讨了两个备选方案:
此时,我可以将模型文件转换为TensorFlow protobuf '.pb‘格式,但作为一个侧面,它还包含几个层的自定义对象。
看到了一些关于TensorRT转换和TFLite转换的文章,但我似乎找不到一个可读的健壮实现。有人能解释一下如何做到这一点(TFLite/Keras量化或TensorRT)来使用相同的模型来进行更快的推理吗?
(打开以提高TensorFlow和Keras支持的推理速度的其他建议)
发布于 2019-07-07 18:35:00
这是关于如何在TF:https://docs.nvidia.com/deeplearning/frameworks/tf-trt-user-guide/index.html中使用https://docs.nvidia.com/deeplearning/frameworks/tf-trt-user-guide/index.html的用户指南。
本演讲解释了TensorRT如何在TF:https://developer.nvidia.com/gtc/2019/video/S9431中工作。
请注意,TensorRT还支持INT8-量化(在训练期间或训练后)。
这篇博文也有类似的内容:https://medium.com/tensorflow/high-performance-inference-with-tensorrt-integration-c4d78795fbfe
这个存储库有一堆示例,演示如何使用它:https://github.com/tensorflow/tensorrt
https://stackoverflow.com/questions/56911455
复制相似问题