首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Tensorflow服务性能非常慢与直接推理

Tensorflow服务性能非常慢与直接推理
EN

Stack Overflow用户
提问于 2020-04-02 17:17:32
回答 1查看 2.1K关注 0票数 6

我运行在以下场景中:

  • 单节点Kubernetes集群(1xi7-8700K,1xRTX 2070,32 1x )
  • 1只Tensorflow服务舱
  • 4推理客户端Pods

推理客户端所做的是从4个不同的摄像机(每个一个)获取图像,并将其传递给TF-用于推理,以便了解视频提要上所看到的内容。

我以前通过直接调用TensorFlow在推理客户机Pods中进行推理,但是在显卡的RAM中这不是很好。为了优化RAM,Tensorflow服务最近被引入到混合系统中,因为我们不将复制的模型加载到显卡中。

而且性能看起来不太好,对于1080 p的图片,它看起来如下:

直接TF: 20 TF用于输入张量创建,70 TF用于推理。TF-服务:80 TF用于GRPC序列化,700-800 TF用于推理。

TF-服务舱是唯一一个有机会进入GPU和它是唯一的绑定。其他一切都是在CPU上运行的。

我能做些什么表演上的调整吗?

我正在运行的模型是更快的running盗用V2从TF模型动物园。

事先非常感谢!

EN

回答 1

Stack Overflow用户

发布于 2021-01-06 17:55:35

这是TF服务文档中的

请注意,虽然使用TensorFlow服务执行推理的平均延迟通常不低于直接使用TensorFlow,但对于许多查询多种不同模型的客户端,TensorFlow服务闪耀使尾部延迟保持较低,同时有效地利用底层硬件以最大限度地提高吞吐量。

根据我自己的经验,我发现TF在提供模型服务的抽象方面非常有用,这种抽象是一致的,而且不需要实现定制的服务功能。模型版本控制和多模型出来的盒子出来,节省了大量的时间和伟大的补充。

此外,如果您还没有这样做,我还会推荐批量处理您的请求。我还建议使用TENSORFLOW_INTER_OP_PARALLELISMTENSORFLOW_INTRA_OP_PARALLELISMOMP_NUM_THREADS等参数来提供TF服务。下面是对它们的解释

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60997316

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档