【业界】Booking.com如何使用Kubernetes进行机器学习

AiTechYun

编辑:nanan

在今年的QCon伦敦会议上,Booking.com的开发者Sahil Dua介绍了他们是如何使用Kubernetes为他们的客户推荐目的地和住宿的机器学习(ML)模型。他特别强调了Kubernetes如何避免容器的弹性和资源匮乏,帮助他们在计算(和数据)密集型且难以并行化的机器学习模型上运行。

Kubernetes隔离(过程不需要争夺资源)、弹性(基于资源消耗的自动扩展或缩减)、灵活性(能够快速尝试新的库或框架)和GPU支持(尽管Kubernetes支持NVIDIA GPU仍在α,它允许20到50倍的速度改进)是Booking.com在其规模上运行大量ML模型的关键(大约每天预订150万个房间和每月4亿个访问者)。指定一个pod而需要一个GPU资源,这告诉Kubernetes将其安排在具有GPU单元的节点上:

resources:
  limits:
    alpha.kubernetes.io/nvidia-gpu: 1

每个模型在容器内作为无状态应用程序运行。容器映像不包含模型本身,它是在启动时从Hadoop中进行检索。这样可以保持图像较小,避免每次有新模型时都需要创建新图像,从而加快部署速度。一旦部署完毕,模型将通过REST API公开,Kubernetes将开始探测容器,以便随时接收预测请求,直到最终流量开始指向新容器。

除了Kubernetes的自动缩放和负载平衡之外,Dua还透露了在Booking.com上使用的其他技术,用于优化模型的延迟,即将模型保存在容器的内存中,并在启动后对其进行预热(谷歌的ML框架—TensorFlow,发出初始请求的运行速度通常比其他运行速度慢)。但并不是所有的请求都来自实时系统,在某些情况下,预测可以预先计算并存储以便以后使用。对于后者来说,优化吞吐量(每单位时间完成的工作量)更为重要。Dua说,分批请求和并行处理异步请求可以减少网络开销并提高吞吐量。

ML模型需要接受预先选择的数据集进行训练,然后才能提供Booking.com所需的预测。该过程的训练部分也在Kubernetes基础设施上运行。容器中训练发生的基础图像仅包含所需的框架(如TensorFlow和Torch),并从Git存储库获取实际的训练代码。同样,这使得容器图像变小,避免了新版本代码的图像泛滥。训练数据是从Hadoop集群获取的,一旦模型准备就绪(训练工作量完成),它将被导出回Hadoop。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-04-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏嵌入式程序猿

温故而知新

做嵌入式开发控制系统,应该经常会用到PID(比例,积分,微分,proportional,integral,derivative)算法,PID 控制器以各种形...

42413
来自专栏Windows Community

Microsoft AI - Custom Vision

概述 前几天的 Windows Developer Day 正式发布了 Windows AI Platform,而作为 Windows AI Platform ...

42810
来自专栏新智元

强化学习练就18般武艺!伯克利开源DeepMimic

还记得今年4月伯克利BAIR实验室发布的那个会“18般武艺”的DeepMimic模型吗?他们使用强化学习技术,用动作捕捉片段训练模型,教会了AI智能体完成24种...

1751
来自专栏人工智能头条

DMLC深盟分布式深度机器学习开源平台解析

1976
来自专栏程序生活

PageRank算法原理与实现

假设一个由4个网页组成的群体:A,B,C和D。如果所有页面都只链接至A,那么A的PR(PageRank)值将是B,C及D的Pagerank总和。

993
来自专栏云时之间

机器学习资料合计(一)

最近在群里发现一些小伙伴在寻找资料的时候总是无处可找,网上出现很多收集免费资料再去打包收钱的人,我看不惯这样的人,所以把自己收集的文件分享给大家。百度云经常抽风...

3838
来自专栏潇涧技术专栏

Head First PageRank

PageRank算法是谷歌曾经独步天下的“倚天剑”,该算法由Larry Page和Sergey Brin在斯坦福大学读研时发明的,论文点击下载: The Pag...

1312
来自专栏程序你好

在云中部署机器学习模型

对于软件开发,有许多方法、模式和技术用于构建、部署和运行应用程序。DevOps是一种以软件开发和操作的整体观点来描述软件工程文化的艺术方法论。

1312
来自专栏新智元

【最大降40%】CPU漏洞补丁对机器学习和深度学习性能影响实测

来源:Medium 作者:Mikel Bober-Irizar 编译:刘小芹 【新智元导读】上周爆出的英特尔CPU漏洞门受到很大关注,Linux内核针对Me...

35910
来自专栏AI科技评论

开发 | 紧跟未来深度学习框架需求,TensorFlow推出Eager Execution

AI科技评论按:Google的TensorFlow是AI学习者中使用率最高、名气也最大的深度学习框架,但由于TensorFlow最早是基于Google的需求开发...

3496

扫码关注云+社区

领取腾讯云代金券