首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【工程】深度学习模型部署的那些事儿

那这个TF-Serving是什么样的呢?...先来看看基于TF-Serving后最终整个流程是怎么工作的: 如图,在TF-Serving流程上一般会用到两台机器(或更多),其中一台作为TF-Serving的服务器,专门给模型用来部署并预测...不过TF-Serving一个很大的坑在于:数据预处理的部分需要交给应用服务做,TF-Serving只接收张量输入,如文本分类的模型,它就只接收序列的id,而非句子本身,并且输出返回的是id而非文本化的标签...每个对外服务调用模型需要配置专门的逻辑:从GPU服务器取Embedding,作为输入给TF-Serving,才能得到TF-Serving的输出。...这样,方案四既拥有了方案三速度最快的优点,也避免了TF-Serving需要做输出输出转换,以及在TF-Serving与GPU Embedding服务器中来回跑的缺点。

1.5K10
您找到你想要的搜索结果了吗?
是的
没有找到

美团视觉GPU推理服务部署架构优化实践

业界主流的部署框架有以下几种: TensorFlow Serving:TensorFlow Serving(简称TF-Serving)是Google发布用于机器学习模型部署的高性能开源框架,内部集成了TF-TRT...服务中多个模型可能采用不同训练框架,TF-Serving或Troch Serve推理框架只支持单一模型格式,无法满足部署需求。...图2 图像分类模型TF-TRT优化结构图 3.1.1 性能瓶颈 模型经过TF-TRT优化后使用TF-Serving框架部署,服务压测GPU利用率只有42%,QPS与Nvidia官方公布的数据差距较大。...其中检测和分类两个子模型是单独训练的,推理时合并成单个模型,部署框架采用TF-Serving,优化工具采用TF-TRT。...对比可以看出: 图9 优化结果性能对比 原始服务CPU增加到32核,GPU利用率提升到90%,但QPS提升只有36%; Triton Ensemble方式与原始TF-Serving服务相比性能差距不大

1.1K50

大众点评搜索相关性技术探索与实践

3.3.1 相关性模型计算流程性能优化 图8 相关性模型线上计算流程图 点评搜索相关性模型的线上计算流程如图8所示,通过缓存机制及TF-Serving模型预测加速来优化模型实时计算的性能。...相关性模型部署在TF-Serving上,在模型预测时,采用美团机器学习平台的模型优化工具ART框架(基于Faster-Transformer[15]改进)进行加速,在保证精度的同时极大地提高了模型预测速度...采用基于点击和人工标注数据的两阶段训练方案来有效利用大众点评的用户点击数据,并根据相关性计算的特点提出了基于多相似矩阵的深度交互结构,进一步提升相关性模型的效果;为缓解相关性模型的线上计算压力,在线上部署时引入缓存机制和TF-Serving

73310
领券