我运行在以下场景中:
推理客户端所做的是从4个不同的摄像机(每个一个)获取图像,并将其传递给TF-用于推理,以便了解视频提要上所看到的内容。
我以前通过直接调用TensorFlow在推理客户机Pods中进行推理,但是在显卡的RAM中这不是很好。为了优化RAM,Tensorflow服务最近被引入到混合系统中,因为我们不将复制的模型加载到显卡中。
而且性能看起来不太好,对于1080 p的图片,它看起来如下:
直接TF: 20 TF用于输入张量创建,70 TF用于推理。TF-服务:80 TF用于GRPC序列化,700-800 TF用于推理。
TF-服务舱是唯一一个有机会进入GPU和它是唯一的绑定。其他一切都是在CPU上运行的。
我能做些什么表演上的调整吗?
我正在运行的模型是更快的running盗用V2从TF模型动物园。
事先非常感谢!
发布于 2021-01-06 17:55:35
请注意,虽然使用TensorFlow服务执行推理的平均延迟通常不低于直接使用TensorFlow,但对于许多查询多种不同模型的客户端,TensorFlow服务闪耀使尾部延迟保持较低,同时有效地利用底层硬件以最大限度地提高吞吐量。
根据我自己的经验,我发现TF在提供模型服务的抽象方面非常有用,这种抽象是一致的,而且不需要实现定制的服务功能。模型版本控制和多模型出来的盒子出来,节省了大量的时间和伟大的补充。
此外,如果您还没有这样做,我还会推荐批量处理您的请求。我还建议使用TENSORFLOW_INTER_OP_PARALLELISM、TENSORFLOW_INTRA_OP_PARALLELISM、OMP_NUM_THREADS等参数来提供TF服务。下面是对它们的解释
https://stackoverflow.com/questions/60997316
复制相似问题