前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用集成GPU解决深度学习的算力难题

使用集成GPU解决深度学习的算力难题

作者头像
AiTechYun
发布2019-09-08 22:05:12
1.4K0
发布2019-09-08 22:05:12
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号

一直以来,如何用最低的成本来使人工智能(AI)、机器学习(ML)和深度学习(DL)应用程序以最高的性能运行都是一个难题。有很多基于云端的方法看起来是可行的,但是对于配置有内部基础设施或混合结构体系的负载任务它们又无能为力,就算是大型企业的许多数据科学家和专业的IT人员在开始他们的AI、ML、DL计划时,这个难题也让他们感到困惑不已。

这难题已经存在很长一段时间了,而且一直无法解决。但是现在我们可以通过使用集成图形处理单元(GPU)运行ML、DL工作负载来解决这个难题。在过去的几年当中,这项技术一步一步走向成熟,直到今天终于展示在公众面前。

但是想要在一个企业环境中运行大规模的ML和DL应用程序仍然不是一件简单的事情,所以科学家们选择把图形进行集成。

每一个数据科学家都知道,ML和DL预测模型的训练和推理是密集型的计算。使用硬件加速器(如GPU)是提供所需计算能力的关键,以便这些模型能够在合理的时间内做出预测。但是,在企业环境中使用GPU依然具有许多挑战性,例如:

1.它们需要一个复杂的软件,用来跨越可能难以安装和维护的操作系统、中间代码和应用程序库。

2.GPU不易共享。当它们被共享时,它们的利用效率会非常低,这很难准确地预测GPU和其他基础设施的计算能力。

3.在运行单个负载任务时,ML、DL应用程序对GPU的利用率会发生显著变化。这意味着即使GPU通过集成进行共享,它们也不会被充分利用,除非在应用程序运行时可以自由切换GPU!

为了解决这些挑战,我们需要大规模的集成,比如Kubernetes,它支持某种形式的GPU资源共享。然而,这种资源共享并不能完全解决上述问题。

现在有了一种新的解决方案,就是利用bluedata平台进行集成。但是需要新的功能,那就是根据需要,弹性地提供GPU资源,使集成化的ML、DL应用程序可以通过访问一个或多个GPU快速、轻松地运行。新的集成化环境可以按需配置,在不需要时取消配置(释放GPU)。这允许IT管理员监控使用情况,并在执行GPU特定代码时重新分配GPU。

现在,企业能够根据自己的特定需求配置和调整平台,以GPU为基础运行分布式ML、DL应用程序,同时将成本降至最低并确保性能达到最高。他们可以使用来自公共云提供商或本地数据中心的基础设施资源来设置这些环境,也可以在容器化计算节点之间动态地调配GPU资源,从而使运行的成本和时间达到最小化。

END

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档