使用GPU工作节点的Kubernetes上的Jupyterhub_Kubernetes :：在没有GPU的节点上运行POD_Kubernetes新工作节点的问题 - 腾讯云开发者社区

选自GitHub 机器之心编译 Kubeflow 是谷歌发布的一个机器学习工具库，致力于使运行在 Kubernetes 上的机器学习变的更轻松、便捷和可扩展；Kubeflow 的目标不是重建其他服务，而是提供一种简便的方式找到最好的 OSS 解决方案。 Kubeflow 项目旨在使 Kubernetes 上的机器学习变的轻松、便捷、可扩展，其目标不是重建其他服务，而是提供一种简便的方式找到最好的 OSS 解决方案。该库包含包含的清单用于创建：用于创建和管理交互式 Jupyter notebook 的 Ju

Cloudflare 的 ML 和 AI 之旅：MLOps 平台和最佳实践

Cloudflare 的博客介绍了他们的 MLOps 平台和大规模运行人工智能（AI）部署的最佳实践。包括 WAF 攻击评分、僵尸管理和全球威胁识别在内的 Cloudflare 的产品，都依赖于不断发展的机器学习（ML）模型。这些模型在增强客户保护和支持服务方面都发挥着关键的作用。Cloudflare 在公司全网中提供 ML 方面取得了无与伦比的规模，突出了稳健 ML 培训方法的重要性。

您找到你想要的搜索结果了吗？

是的

没有找到

只有想不到，「99」种扩展Jupyter功能的好方法

GitLab 12.1 发布合并Trains的并行执行策略

GitLab 12.1 已经发布，更新如下：合并训练的并行执行策略：加强了合并 TRAINS，以使用并行策略执行流水线，并行执行通过按顺序排列合并请求并启动受控的并行管道来加速验证。合并机密问题

具有 GPU 工作节点的托管 K8s 可加速 AI/ML 推理

拥有 GPU 工作节点对于提高 AI/ML 工作负载的效率至关重要。同时，采用托管的 Kubernetes 方式也会给 GPU 加速带来独特的好处。

教程 | 如何使用Kubernetes GPU集群自动训练和加速深度学习？

选自GitHub 机器之心编译参与：蒋思源、Smith、吴攀像 Docker 这样的容器格式和 Kubernetes 之类的容器管理平台正越来越受到人们的欢迎，这不仅仅是因为人们喜欢微服务，出于很多原因，公司的首席信息官和工程高管都乐于接受微服务，他们也会把容器视为他们的混合云战略的关键组成部分。这是因为容器空间（Docker、Kubernetes 和 DC / OS 等）的核心技术、生态系统是全面开源的，这为用户提供了抽象的虚拟化工具。近日，卡尔斯鲁厄理工学院（KIT）的计算机科学学生 Frederi

如何在非安全的CDH集群中部署多用户JupyterHub服务并集成Spark2

Fayson在前一篇文章《如何在非安全的CDH集群中部署Jupyter并集成Spark2》中介绍了Jupyter Notebook的部署与Spark2集成。Jupyter提供的类似单机版Web服务，不能供给多个用户使用，对于个人用户可以满足需求，对于企业用户则相对麻烦。本篇文章Fayson主要介绍如何使用JupyterHub部署支持多用户的Jupyter Notebook服务并与集群的Spark2集成。

【Jetson开发项目展示】使用 Jetson Nano构建一个支持gpu的Kubernets集群

你可能知道，Jetson Nano是一款低成本(99美元)的单板电脑，用于物联网类型的用例。在众多类似设备中，它的关键卖点是全功能GPU，与NVidia CUDA库兼容。

Kubernetes驱动3500个GPU的AI训练

Kubernetes让GPU集群管理变得更加高效，这是CoreWeave公司Peter Salanki在KubeCon大会上的观点

大模型与AI底层技术揭秘（24）从葫芦娃到植物大战僵尸

在很久以前，有一个老爷爷，种下了一棵葫芦，变成了七个各有绝学的葫芦娃。可惜葫芦变成的七个葫芦娃为了保卫和平，救出爷爷，逐一被蛇精和蝎子精抓到了。蛇精和蝎子精想把七个葫芦娃炼成七心丹，没想到七个葫芦娃合体成为了葫芦小金刚，踢碎了炼丹炉，经过艰苦的战斗，最后打败了各路妖魔鬼怪，让山谷恢复了往日的和平。

10月，TKE 节点滚动重装升级 kubernetes 版本内测发布

腾讯云容器服务支持节点升级，提供将一批集群的节点从较低版本升级到高版本的功能。通过节点滚动重装升级，能够帮助用户快速批量升级集群的节点。【适用场景】：适用于升级 kubernetes版本过低、集群内的节点未做相关自定义配置的集群，节点滚动重装升级后自定义的配置将会不生效。【解决痛点】：提供产品化升级集群的kubernetes版本的基本功能。

[译]将 Kubernetes 扩展至7500个节点

我们已经将 Kubernetes 集群扩展到了7500个节点，该集群主要是为 GPT-3、CLIP 和 DALL·E 等大型模型提供可扩展的基础设施，同时也为神经语言模型的缩放定律等快速的小规模迭代研究提供基础支持。将单个 Kubernetes 集群扩展到这种规模是很少见的，因而需要特别小心，但好处是一个简单的基础设施，使我们的机器学习研究团队能够更快地迁移和扩展，而不需要更改他们的代码。

基于Kubernetes的GPU类型调度实现

3 月 27 日，ACM 宣布深度学习的三位缔造者——Yoshua Bengio、Yann LeCun 及 Geoffrey Hinton 获得了 2018 年度的图灵奖。与学术界相对应的，在工业界，人工智能大潮也正汹涌奔来。除了冲击人们的衣食住行医，人工智能也将成为企业转型的颠覆性力量，是企业抓住下一轮创新发展的重要机遇。

基于 Kubernetes 的 GPU 类型调度实现

kubeflow系列(二)：kubeflow组件介绍

为了对kubeflow有个更直观深入的了解，对kubeflow的各组件进行简单的介绍，先从机器学习任务来看kubeflow的的实现。

OpenAI: Kubernetes集群近万节点的生产实践

OpenAI已经将Kubernetes集群规模扩展至7500个节点，为大型神经网络模型（如GPT-3，CLIP和DALL·E）及小型实验性研究提供了可扩展的基础架构。很少将单个Kubernetes集群扩展到如此规模，为此进行了一些必要的改进，但好处是单一的基础架构使我们的机器学习研究团队可以在不修改代码的前提下，快速扩展以缩短实验时间、加速研发进度。

腾讯云容器月报 | 一篇带你看完优秀上新，最飒的功能用起来

最新发布腾讯云容器服务公有云版本（TKE 公有云版） 1. TKE 公有云版上线节点池功能借助腾讯云容器服务节点池统一机型、统一标签和Taint、节点池动态扩缩容等功能，您可以方便快捷地创建、管理和销毁节点，以及实现节点的动态扩缩容。【适用场景】：推荐使用节点池进行节点管理，以提高集群节点管理的易用性。【解决痛点】：规范异构节点（机型配置不同）分组管理；降低集群频繁扩缩容操作成本；通过节点池标签快速制定业务调度规则，解决集群内应用程序调度规则复杂问题；便捷管理 Kubernetes 版本升级、Do

Volcano GPU共享特性设计和使用

Volcano 是基于 Kubernetes 的批处理系统，方便HPC、 AI、大数据、基因等诸多行业通用计算框架接入，提供高性能任务调度引擎，高性能异构芯片管理，高性能任务运行管理等能力。本文通过介绍Volcano提供的GPU Share调度功能来助力HPC作业在Kubernetes集群中落地。

揭秘 ChatGPT 背后的技术栈：OpenAI 如何将 Kubernetes 扩展到了 7500 个节点

作者 | OpenAI 译者 | Sambodhi 策划 | 褚杏娟在本文中，OpenAI 的工程师团队分享了他们在 Kubernetes 集群扩展过程中遇到的各种挑战和解决方案，以及他们取得的性能和效果。我们已经将 Kubernetes 集群扩展到 7500 个节点，为大型模型（如 GPT-3、 CLIP 和 DALL·E）创建了可扩展的基础设施，同时也为快速小规模迭代研究（如神经语言模型的缩放定律）创建了可扩展的基础设施。将单个 Kubernetes 集群扩展到这种规模很少见，但好

使用 Elastic GPU 管理 Kubernetes GPU 资源

徐蓓，腾讯云容器技术专家，腾讯云异构计算容器负责人，多年云计算一线架构设计与研发经验，长期深耕 Kubernetes、在离线混部与 GPU 容器化领域，Kubernetes KEP Memory QoS 作者，Kubernetes 积极贡献者。当前存在问题 GPU 具备大量核心和高速内存，擅长并行计算，非常适合训练和运行机器学习模型。由于近几年 AI 技术愈发成熟，落地场景越来越多，对 GPU 的需求呈井喷趋势。而在资源管理调度平台上，Kubernetes 已成为事实标准。所以很多客户选择在 Kubern

JupyterHub与OpenLDAP集成

Fayson在前面文章《如何在非安全的CDH集群中部署Jupyter并集成Spark2》及《如何在非安全的CDH集群中部署多用户JupyterHub服务并集成Spark2》中介绍了Jupyter与JupyterHub的部署与Spark2集成。JupyterHub的用户默认是基于OS系统用户，对于用户的管理和维护都需要在服务器上进行操作不便于管理。本篇文章Fayson主要介绍在JupyterHub中如何与OpenLDAP服务集成。

Kubenetes NUMA拓扑感知功能介绍

最近的工作内容中涉及到了 NUMA 感知相关的功能，之前没有特意去看过 kubelet 相关部分的实现，也是趁此机会把落下的补补。在看代码的过程中，NUMA 感知部分的逻辑尤其涉及到一些位操作的部分，看的让人头疼，于是从网上搜了搜有关原理的介绍，恰好在官网找到一篇 blog，看完之后再去看代码就会豁然开朗。此篇是对原文的翻译，想阅读原文的可以直接到这里。

另一种开源：OpenAI 介绍深度学习基础设施

【新智元导读】OpenAI 昨天在博客发文，结合实例，介绍了 OpenAI 进行深度学习研究时采用的基础设施配置，并且提供了相关开源代码。文章激起了很多反响，其中也有负面评论，比如有用户在 Hacker News 指出，OpenAI 博文只提供了“训练”部分的细节，称不“深度学习基础设施”。不过，相对于软硬件开源，OpenAI 从另一个侧面，对深度学习模型的实际部署提供了帮助。下文是对 OpenAI 官方博文的编译。深度学习是一门实践科学，而拥有好的基础设施对项目进展有着事半功倍的效果。所幸，如今的开源生

云原生AI平台的加速与实践

前言：12月19日，在 Cloud Native Days China -云原生AI大数据专场,腾讯技术事业群高级工程师薛磊发表了《云原生AI平台的加速与实践》主题演讲。

【业界】Booking.com如何使用Kubernetes进行机器学习

AiTechYun 编辑：nanan 在今年的QCon伦敦会议上，Booking.com的开发者Sahil Dua介绍了他们是如何使用Kubernetes为他们的客户推荐目的地和住宿的机器学习(ML)

DCGM:监控Kubernetes集群的GPU资源

<Kubelet从入门到放弃>系列将对Kubelet组件由基础知识到源码进行深入梳理。因上篇文章Kubelet从入门到放弃系列:GPU加持中介绍了Nvidia系列GPU如何加持Kubernetes，我们除了关注GPU资源的使用，也关注GPU资源的管理，因此本文推出 Kubernetes集群中如何监控GPU资源。

新增应用商店、支持GPU，KubeOperator V2.3发布

1月19日，开源容器集群管理平台KubeOperator发布V2.3版本。KubeOperatorV2.3版本新增了Kubeapps的定制版本——Kubeapps Plus应用商店，并且增加对NVIDIA GPU和Local Persistent Volumes的支持。

TKE qGPU 通过 CRD 管理集群 GPU 卡资源

刘旭，腾讯云高级工程师，专注容器云原生领域，有多年大规模 Kubernetes 集群管理经验，现负责腾讯云 GPU 容器的研发工作。背景目前 TKE 已提供基于 qGPU 的算力/显存强隔离的共享 GPU 调度隔离方案，但是部分用户反馈缺乏 GPU 资源的可观测性，例如无法获取单个 GPU 设备的剩余资源，不利于 GPU 资源的运维和管理。在这种背景下，我们希望提供一种方案，可以让用户在 Kubernetes 集群中直观地统计和查询 GPU 资源的使用情况。目标在目前 TKE 共享 GPU 调度方案

JupyterLab 的搭建与运维

Jupyter，想必大家对这个项目都耳熟能详吧。因为能够实时交互、支持异构计算、部署简单、几乎无运维成本，所以得到了很多人的青睐。笔者的身边也有很多从事科学研究的人选择了 Jupyter 作为编写 Python 的工具，当然也有一部分人选择了 PyCharm。不过笔者还是比较喜欢 VS Code，简单的纯文本编辑功能，利用丰富的插件市场来添加各种想要的功能，无缝支持远程开发，简直就是理想中的编辑器了。但是，今天还是要来考虑一下 Jupyter，毕竟 JupyterLab 的服务功能也是非常强大的。

Kubelet从人门到放弃：拓扑管理（上）

《Kubelet从入门到放弃系列》将对Kubelet组件由Linux基础知识到源码进行深入梳理。上一篇zouyee带各位看了Kubelet从入门到放弃:识透CPU管理，其中提及拓扑管理，本文将对此进行深入剖析，拓扑管理在Kubernetes 1.18时提升为Beta。TopologyManager功能可实现CPU、内存和外围设备(例如SR-IOV和GPU)的NUMA对齐，从而满足低延迟需求。

（译）Kubernetes 1.10 的秘宝

Kubernetes 发布了 1.10 版本。这是各位贡献者和发布团队的的又一次胜利。

KubeVirt上的虚拟化GPU工作负载

在这段2019年北美KubeCon视频中，Red Hat的David Vossel和NVIDIA的Vishesh Tanksale探索了KubeVirt背后的架构，以及NVIDIA如何利用该架构为Kubernetes上的GPU工作负载提供动力。以NVIDIA的GPU工作负载为例进行研究，它们提供了一个重点视图，以了解主机设备透传是如何通过KubeVirt完成的，并提供了一些性能指标，将KubeVirt与独立KVM进行比较。

为应用设计集群规模

在帮助企业进行基于私有环境的云原生转型的过程中，帮客户把存量应用迁移到 Kubenrnetes 上，是个常规任务。通常说来，在解决了初步的技术可行性之后，接下来要解决的就是资源分配的问题，我们已经讨论过，在近乎同样的资源总量情况下，少量大节点构成的集群和大量小节点构成的集群的一些差异，然而这里还是缺少一个完整的方法——如何把现有应用的需求转换为资源设计呢？

在 Kubernetes 上调度 GPU 资源

Kubernetes 实现了 Device Plugins[1] 以允许 Pod 访问类似 GPU 这类特殊的硬件功能特性。作为运维管理人员，你要在节点上安装来自对应硬件厂商的 GPU 驱动程序，并运行来自 GPU 厂商的对应的设备插件。

使用 MicroK8s 和 OpenEBS 扩展 Kubernetes 存储

OpenEBS 由 CloudByte 研发，这是一家专业做容器化存储的公司，OpenEBS 是其一款开源产品，CloudByte 将其在企业级容器存储的经验付诸到该项目中。这个项目的愿景也很简单，就是让需要持久化存储的工作负载中的存储服务能够直接集成在环境中，存储服务可以自动管理，将存储的细节隐藏起来，就像存储系统是另一套基础架构一样。

Jupyter在美团民宿的应用实践

做算法的同学对于Kaggle应该都不陌生，除了举办算法挑战赛以外，它还提供了一个学习、练习数据分析和算法开发的平台。Kaggle提供了Kaggle Kernels，方便用户进行数据分析以及经验分享。在Kaggle Kernels中，你可以Fork别人分享的结果进行复现或者进一步分析，也可以新建一个Kernel进行数据分析和算法开发。Kaggle Kernels还提供了一个配置好的环境，以及比赛的数据集，帮你从配置本地环境中解放出来。Kaggle Kernels提供给你的是一个运行在浏览器中的Jupyter，你可以在上面进行交互式的执行代码、探索数据、训练模型等等。更多关于Kaggle Kernels的使用方法可以参考 Introduction to Kaggle Kernels，这里不再多做阐述。

从YARN迁移到k8s，滴滴机器学习平台二次开发是这样做的

2019 AI开发者大会是由中国IT社区 CSDN 主办的 AI 技术与产业年度盛会，2019 年 9 月 6-7 日，近百位中美顶尖 AI 专家、知名企业代表以及千余名 AI 开发者齐聚北京，进行技术解读和产业论证。

合理管理规划TKE，成为一个日理万机的人！

我在2018年中的时候开始接触 kubernetes ，并主导过传统应用向容器化方向的转换工作。

019

小报温馨提示：您的弹性容器服务正在配送

2019年匆匆而去，留下的是我们每一个人所有的努力，在新的一年里，它们将陪伴着我们继续新的征程，见证新的里程。年初是奋斗的季节，年末是收获的时刻，2019年的最后两个月，我们为您准备了这些“年货”：

OpenStack发布Queens版本，扩展对GPU和容器支持

OpenStack本周发布了第17个代码版本Queens，该版本包含一些重大的更新，例如软件定义存储功能、GPU兼容性以及容器工作负载的跟踪等。Queens不仅有利于具有关键任务负载的企业，而且有利于

Taint命令入门

Kubernetes是一个开源的容器编排平台，可以帮助开发者更好地管理和部署容器化应用程序。在Kubernetes中，节点是运行容器的主机，Taint（污点）是节点上的一个标记，用于限制哪些Pod可以在该节点上运行。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐