当我们千辛万苦完成了前面的数据获取、数据清洗、模型训练、模型评估等等步骤之后,终于等到老大说“上线”啦。想到辛苦训练出来的模型要被调用还有点小激动呢,可是真当下手的时候就有点懵了:模型要怎么部署?部署在哪里?有什么限制或要求?
git clone https://github.com/tensorflow/serving
面对在线推理服务使用的GPU资源不断增加、GPU利用率普遍较低的挑战,美团视觉研发团队决定通过模型结构拆分和微服务化进行优化,他们提出了一种通用高效的部署架构,来解决这种常见的性能瓶颈问题。
《机器学习实战:基于Scikit-Learn、Keras和TensorFlow》第二版
深度学习在 ctr 预估领域的应用越来越多,新的模型不断冒出。从 ctr 预估问题看看 f(x) 设计—DNN 篇(https://zhuanlan.zhihu.com/p/28202287)整理了各模型之间的联系之后,一直在琢磨这些东西如何在工业界落地。经过几个月的调研,发现目前存在的一些问题: 开源的实现基本都是学术界的人在搞,距离工业应用还有较大的鸿沟 模型实现大量调用底层 API,各版本实现千差万别,代码臃肿难懂,迁移成本较高 单机,放到工业场景下跑不动 针对存在的问题做了一些探索,摸索出一套
项目地址:https://github.com/shikanon/cloudnative-technical-manual
为了对kubeflow有个更直观深入的了解,对kubeflow的各组件进行简单的介绍,先从机器学习任务来看kubeflow的的实现。
随着深度学习技术的发展,语音合成技术也经历了从传统的基于参数合成(HTS)至基于深度神经网络的样本级合成(Parallel WaveNet)的变革。相比与传统方法,基于神经网络的新方法在语音的自然度与可理解性上都有了突破性的提升;然而,新方法的计算开销非常大。当微信AI需要将其应用于海量在线系统中,非常难以用于生产系统。
模型部署作为算法工程落地的最后一公里,其天然对算法团队而言具有较高的复杂性,不仅要考虑如何高效地部署、管理不同框架模型,还需要考虑分布式服务的负载均衡、故障容错、可扩展性、资源隔离、限流、核心指标监控等问题。这些都极大的依赖于工程团队的能力,不是算法团队的强项,如何解决这最后一公里,让焦点聚焦在模型开发上,是模型部署服务模块需要解决的问题。
用AI来鉴别黄色图片,已经不是什么新鲜的事情。然而能够训练出一个可用的图像识别模型,其中所需要的细节知识还是值得学习的。
Kubeflow 是在 K8S 集群上跑机器学习任务的工具集,提供了 Tensorflow, Pytorch 等等机器/深度学习的计算框架,同时构建容器工作流 Argo 的集成,称为 Pipeline。关于其部署,最新版本的本地部署有很多问题,Github 上的 issue 大多数都是与部署有关的,所以如果不是在 GCP 上部署,会可能碰到各种各样的问题。
摘要:本篇主要学习和分析BERT在美团搜索排序中的项目实践。首先介绍了业务背景,主要对比了美团搜索业务场景和我们的应用场景;然后讲了下计算query和doc相关性的方法,主要包括计算字面相关性和计算语义相关性,重点介绍了基于BERT的语义相关性内容;最后也是本篇的重点,分析了美团搜索排序项目实践以及对我们业务的思考,其中包括数据样本增强、BERT领域适配、模型轻量化、联合训练和排序服务架构优化等一系列眼花缭乱但是又极具工程价值的优化操作,对于我们有极大的工程借鉴价值。
**张量是所有深度学习框架中最核心的组件,因为后续的所有运算和优化算法都是基于张量进行的。**几何代数中定义的张量是基于向量和矩阵的推广,通俗一点理解的话,我们可以将标量视为零阶张量,矢量视为一阶张量,那么矩阵就是二阶张量。
经过5个月的公开Beta测试,深度学习框架Keras 3.0终于面向所有开发者推出。
这一章我们借着之前的NER的模型聊聊tensorflow serving,以及gRPC调用要注意的点。以下代码为了方便理解做了简化,完整代码详见Github-ChineseNER ,里面提供了训练好的包括bert_bilstm_crf, bilstm_crf_softlexcion,和CWS+NER多任务在内的4个模型,可以开箱即用。这里tensorflow模型用的是estimator框架,整个推理环节主要分成:模型export,warmup,serving, client request四步
版权声明:本文为博主原创文章,未经博主允许不得转载。有问题可以加微信:lp9628(注明CSDN)。 https://blog.csdn.net/u014365862/article/details/81009551
部署完docker后,如果是cpu环境,可以直接拉取tensorflow/serving,如果是GPU环境则麻烦点,具体参考前一篇,这里就不再赘述了。
在过去十年,机器学习在学术界取得了众多的突破,在工业界也有很多应用落地。美团很早就开始探索不同的机器学习模型在搜索场景下的应用,从最开始的线性模型、树模型,再到近两年的深度神经网络、BERT、DQN等,并在实践中也取得了良好的效果与产出。
AI 科技评论按:日前,TensorFlow 团队与 NVIDIA 携手合作,将 NVIDIA 用来实现高性能深度学习推理的平台——TensorRT 与 TensorFlow Serving 打通结合,使用户可以轻松地实现最佳性能的 GPU 推理。目前,TensorFlow Serving 1.13 已实现对 TF-TRT 的支持,而不久后 TensorFlow 2.0 也将支持 TF-TRT 的实现。 TensorFlow 在官方博客中对这项成果进行了发布,雷锋网 AI 科技评论编译如下。
TensorFlow训练好的模型以tensorflow原生方式保存成protobuf文件后可以用许多方式部署运行。
如何将机器学习(ML)模型部署上线至生产环境已成为经常性的热门话题。为此许多公司和框架提出了各种不同的解决方案。
本文属于介绍性文章,其中会介绍许多TensorFlow的新feature和summit上介绍的一些有意思的案例,文章比较长,可能会花费30分钟到一个小时
kubeflow 中采用了 tensorflow serving 作为官方的tensorflow模型接口, TensorFlow Serving是GOOGLE开源的一个服务系统,适用于部署机器学习模型,灵活、性能高、可用于生产环境。 TensorFlow Serving可以轻松部署新算法和实验,同时保持相同的服务器架构和API。
最近在测试一些通用模型+项目,包括:CLUE(tf+pytorch),bert4keras(keras), Kashgari(keras+tf)等。其中如果要部署的话,就有tensorflow-serving和flask的选择了。 这里刚好有一个非常好的实战例子,基于tensorflow 1.x的,比较全面。
怎样用TensorFlow Serving系统,结合英伟达的Tensor RT,实现高性能深度学习推理?
很多时候仅仅是线下跑一个模型,对特定一批数据进行预测并不够,需要随时来一个或几个样本都能输出结果。这时候就需要起一个服务,然后随时一个包含数据的请求过来,就返回相应的结果。架起这个服务的过程就称作“部署”。本文主要介绍通过tf.Serving+Docker来部署tensorflow模型的过程。
得益于更快的计算,更好的存储和易于使用的软件,基于深度学习的解决方案绝对可以看到从概念验证隧道进入现实世界的曙光!看到深度学习模型已广泛应用于该行业的各个领域,包括医疗保健,金融,零售,技术,物流,食品技术,农业等!考虑到深度学习模型需要大量资源并且经常需要大量计算的事实,因此我们需要暂停片刻,并考虑一下最终用户使用模型时的推断和服务时间。
这是当微信小程序遇上TensorFlow系列文章的第四篇文章,阅读本文,你将了解到:
TensorFlow Serving[1] 可以快速部署 Tensorflow 模型,上线 gRPC 或 REST API。
Tensorflow 服务是谷歌推荐用来部署 Tensorflow 模型的方法。如果你不具备一定的计算机工程知识背景,即使你对 Tensorflow 本身感觉很顺手,但是我觉得想要搞定 Tensorflow 服务也不是辣么容易的。以下三点是我总结的难点: (谷歌官方)教程含有 C++ 代码(我不会 C++) 教程里含有 kubernetes,gRPG,Bezel(其中一些我也是第一次见) 需要被编译出来。那个过程时间太长了,恐怕要用一个世纪吧! 这里介绍一种可能是最简单的方式——用 tensorflow 服
尝试过迁移学习的同学们都知道,Tensorflow的模型保存加载有不同格式,使用方法也不一样,新手会觉得乱七八糟,所以本文做一个梳理。从模型的保存到加载,再到使用,力求理清这个流程。
在了解如何利用TesnsorFlow构建和训练各种模型——从基本的机器学习模型到复杂的深度学习网络后,我们就要考虑如何将训练好的模型投入于产品,以使其能够为其他应用所用,本文对此将进行详细介绍。文章节选自《面向机器智能的TensorFlow实践》第7章。 本文将创建一个简单的Web App,使用户能够上传一幅图像,并对其运行Inception模型,实现图像的自动分类。 搭建TensorFlow服务开发环境 Docker镜像 TensorFlow服务是用于构建允许用户在产品中使用我们提供的模型的服务器的工具。
save ├── saved_model.pb └── variables ├── variables.data-00000-of-00001 └── variables.index
在用PMML实现机器学习模型的跨平台上线中,我们讨论了使用PMML文件来实现跨平台模型上线的方法,这个方法当然也适用于tensorflow生成的模型,但是由于tensorflow模型往往较大,使用无法优化的PMML文件大多数时候很笨拙,因此本文我们专门讨论下tensorflow机器学习模型的跨平台上线的方法。
> 正文共6912个字,4张图,预计阅读时间18分钟。 Wide & Deep 模型是谷歌在 2016 年发表的论文中所提到的模型。在论文中,谷歌将 LR 模型与 深度神经网络 结合在一起作为 Google Play 的推荐获得了一定的效果。在这篇论文后,Youtube,美团等公司也进行了相应的尝试并公开了他们的工作(相关链接请看本文底部) 官方提供的 Wide & Deep 模型的(简称,WD 模型)教程 都是使用 TensorFlow (简称,TF )自带的函数来做的特征工程,并且模型也进行了封装,
有了能做出惊人预测的模型之后,要做什么呢?当然是部署生产了。这只要用模型运行一批数据就成,可能需要写一个脚本让模型每夜都跑着。但是,现实通常会更复杂。系统基础组件都可能需要这个模型用于实时数据,这种情况需要将模型包装成网络服务:这样的话,任何组件都可以通过REST API询问模型。随着时间的推移,你需要用新数据重新训练模型,更新生产版本。必须处理好模型版本,平稳地过渡到新版本,碰到问题的话需要回滚,也许要并行运行多个版本做AB测试。如果产品很成功,你的服务可能每秒会有大量查询,系统必须提升负载能力。提升负载能力的方法之一,是使用TF Serving,通过自己的硬件或通过云服务,比如Google Cloud API平台。TF Serving能高效服务化模型,优雅处理模型过渡,等等。如果使用云平台,还能获得其它功能,比如强大的监督工具。
K_Means其实用sklearn即可,TensorFlow1.0早期版本支持K_Means,在2.0之后,由于很多api废弃,导致实现K_Means有很多坑。以下为踩坑记录。 完整代码路径:https://github.com/lilihongjava/leeblog_python/tree/master/tensorflow_kmeans
在这篇文章中,科赛网后端研发工程师高朋首先介绍了 Cluster Auto Scaler 的主要设计、功能和他们对 Cluster-Autoscaler 的一些改动,使得这个组件可以支持预测性伸缩。
创建服务 docker run -d --name serving_base tensorflow/serving Batchin_Parameters txt 文件 max_batch_size { value: 32 } batch_timeout_micros { value: 5000 } pad_variable_length_inputs: true 复制 SavedModel docker cp /home/Desktop/tf/models/my_model serving_base:/mo
随着深度学习在图像、语言、广告点击率预估等各个领域不断发展,很多团队开始探索深度学习技术在业务层面的实践与应用。而在广告CTR预估方面,新模型也是层出不穷:Wide and Deep[1]、DeepCross Network[2]、DeepFM[3]、xDeepFM[4],美团很多篇深度学习博客也做了详细的介绍。但是,当离线模型需要上线时,就会遇见各种新的问题:离线模型性能能否满足线上要求、模型预估如何镶入到原有工程系统等等。只有准确的理解深度学习框架,才能更好地将深度学习部署到线上,从而兼容原工程系统、满足线上性能要求。
TensorFlow服务,托管模型并提供远程访问。TensorFlow服务有一个很好的文档的架构和有用的教程。不幸的是,这个有点难用,你需要做较大改动来为自己的模型提供服务。
随着深度学习在图像、语言、广告点击率预估等各个领域不断发展,很多团队开始探索深度学习技术在业务层面的实践与应用。而在广告CTR预估方面,新模型也是层出不穷: Wide and Deep[1]、DeepCross Network[2]、DeepFM[3]、xDeepFM[4],美团很多篇深度学习博客也做了详细的介绍。但是,当离线模型需要上线时,就会遇见各种新的问题: 离线模型性能能否满足线上要求、模型预估如何镶入到原有工程系统等等。只有准确的理解深度学习框架,才能更好地将深度学习部署到线上,从而兼容原工程系统、满足线上性能要求。
当我们历尽千辛万苦,终于训练出来一个模型时,想不想将这个模型发布出去,让更多人的受益?
在 Tensorflow 给的官方例子中 Use TensorFlow Serving with Kubernetes,是将模型拷贝到镜像里的,这里是会有点不太灵活,因为更新模型就要重新构建镜像,并且再去更新对应的 Pod。
Real-world recommender systems are often composed of two stages:
最近需要将使用keras训练的模型移植到手机上使用, 因此需要转换到tensorflow的二进制模型。
2019 年 3 月 6 日,谷歌在 TensorFlow 开发者年度峰会上发布了最新版的 TensorFlow 框架 TensorFlow2.0 。新版本对 TensorFlow 的使用方式进行了重大改进,使其更加灵活和更具人性化。具体的改变和新增内容可以从 TensorFlow 的官网找到,本文将介绍如何使用 TensorFlow2.0 构建和部署端到端的图像分类器,以及新版本中的新增内容,包括:
选自Hive Blog 作者:Bowei 机器之心编译 参与:李亚洲、李泽南 本文将介绍一种将训练后的机器学习模型快速部署到生产种的方式。如果你已使用 TensorFlow 或 Caffe 等深度学习框架训练好了 ML 模型,该模型可以作为 demo。如果你更喜欢轻量级的解决方案,请阅读本文。 GitHub 地址:https://github.com/hiveml/simple-ml-serving 其中包含的条目有: 检查 TensorFlow 安装:https://github.com/hiveml/s
参考: https://tf.wiki/zh_hans/deployment/serving.html# https://tensorflow.google.cn/tfx/serving/docker
领取专属 10元无门槛券
手把手带您无忧上云