文章/答案/技术大牛

发布

社区首页 >问答首页 >Tensorflow服务性能非常慢与直接推理

问Tensorflow服务性能非常慢与直接推理
EN

Stack Overflow用户

提问于 2020-04-02 17:17:32

回答 1查看 2.1K关注 0票数 6

我运行在以下场景中：

单节点Kubernetes集群(1xi7-8700K，1xRTX 2070，32 1x )
1只Tensorflow服务舱
4推理客户端Pods

推理客户端所做的是从4个不同的摄像机(每个一个)获取图像，并将其传递给TF-用于推理，以便了解视频提要上所看到的内容。

我以前通过直接调用TensorFlow在推理客户机Pods中进行推理，但是在显卡的RAM中这不是很好。为了优化RAM，Tensorflow服务最近被引入到混合系统中，因为我们不将复制的模型加载到显卡中。

而且性能看起来不太好，对于1080 p的图片，它看起来如下：

直接TF: 20 TF用于输入张量创建，70 TF用于推理。TF-服务:80 TF用于GRPC序列化，700-800 TF用于推理。

TF-服务舱是唯一一个有机会进入GPU和它是唯一的绑定。其他一切都是在CPU上运行的。

我能做些什么表演上的调整吗？

我正在运行的模型是更快的running盗用V2从TF模型动物园。

事先非常感谢！

tensorflow

kubernetes

tensorflow-serving

回答 1

Stack Overflow用户

发布于 2021-01-06 17:55:35

这是TF服务文档中的

请注意，虽然使用TensorFlow服务执行推理的平均延迟通常不低于直接使用TensorFlow，但对于许多查询多种不同模型的客户端，TensorFlow服务闪耀使尾部延迟保持较低，同时有效地利用底层硬件以最大限度地提高吞吐量。

根据我自己的经验，我发现TF在提供模型服务的抽象方面非常有用，这种抽象是一致的，而且不需要实现定制的服务功能。模型版本控制和多模型出来的盒子出来，节省了大量的时间和伟大的补充。

此外，如果您还没有这样做，我还会推荐批量处理您的请求。我还建议使用TENSORFLOW_INTER_OP_PARALLELISM、TENSORFLOW_INTRA_OP_PARALLELISM、OMP_NUM_THREADS等参数来提供TF服务。下面是对它们的解释

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60997316

复制

相似问题

问Tensorflow服务性能非常慢与直接推理
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Tensorflow服务性能非常慢与直接推理EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Tensorflow服务性能非常慢与直接推理
EN