gpu服务器集群 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

使用SSH进行X11转发时，呈现在何处执行？

opengl、ssh、x11、x11-forwarding

当ssh‘入到远程系统(例如具有大量计算能力和/或图形恶意程序的集群)时，X11转发(例如，使用ssh -X或-Y)在哪里完成图形呈现？如何运行图形密集型工作负载，使其能够利用集群的图形硬件？在集群上运行VM中的程序是否会使问题复杂化？

浏览 5提问于2014-07-04得票数 13

回答已采纳

2回答

针对昂贵资源的kubernetes调度

docker、kubernetes、gpu、resource-scheduling

我们有一个Kubernetes集群。现在我们想用GPU节点来扩展它(因此这将是Kubernetes集群中唯一拥有GPU的节点)。配备GPU的服务器可能非常昂贵(例如，Nvidia DGX每台服务器可能高达150美元/k)。如果我们只是将DGX节点添加到Kubernetes集群中，那么Kubernetes也会在那里调度非GPU工作负载，这将是对资源的浪费(例如，其他调度较晚并且确实需要GPU的作业，可能会在

浏览 24提问于2018-12-20得票数 1

回答已采纳

2回答

Kubernetes GPU吊舱/Kubeflow

kubernetes

我有两个服务器与4个特斯拉K40图形处理器。我已经成功地创建了一个kubernetes集群，安装了kubeflow 1.0，它可以正常工作所需的一切。我可以成功地创建一个带有4个GPU的木星笔记本服务器，并在其上使用keras模型，一切都很好。我可以使用8 gpu (4来自一台服务器，4来自另一台服务器)来创建jupyter笔记本服务器或运行任何gpupod，或者只有4对于一个gpupod是可以为我？当我尝试使用8个GPU时，我得到

浏览 0提问于2020-04-10得票数 0

回答已采纳

1回答

是否可以使用google cloud run来实现TTS接收http请求和发送语音数据响应的功能？

google-cloud-platform、cloud、google-cloud-run

我想创建一个函数，它接收文本数据的http请求，并发送语音数据的响应。具体地说，我希望在云上的以下url上运行名为tacotron2的TTS，并接收结果语音。https://github.com/NVIDIA/tacotron2 是否可以使用google cloud run运行机器学习模型并接收二进制音频数据？

浏览 10提问于2020-09-06得票数 1

回答已采纳

3回答

Google节点带宽

google-cloud-platform、gpu、google-kubernetes-engine、bandwidth

我正在服务上部署我的集群。它已经有几个节点了。另外，我需要使用Google中的GPU的服务器来使它与我的集群一起工作。GPU实例不断地处理传入流量(带宽应该达到1Gb/s)，并在集群节点上发送结果(带宽应该比传入带宽还要多)。在这个项目中，对我来说最关键的事情是：2)节点与GPU服务器之间的带宽；4)节点与世界之间的带宽。但是，在技术规范中，

浏览 5提问于2019-08-01得票数 4

回答已采纳

1回答

多节点Spark集群上的分布式Tensorflow训练

apache-spark、tensorflow、cluster-computing、distributed

我目前有一个本地spark集群3.0，它由3台机器组成。两台机器有2个NVIDIA GPU，一台机器是没有NVIDIA GPU的spark客户端主服务器。当我创建spark集群时，我看到它将GPU识别为仪表板上的资源。我正在尝试运行为发布的示例。pyspark.SparkContext(master = "spark://192.168.1.113:7077", appName="Spa

浏览 0提问于2020-09-22得票数 0

1回答

使用Nvidia GPU节点在Kubernetes上运行一个例子

tensorflow、kubernetes、nvidia-docker

我正在尝试用Nvidia GPU节点/奴隶来设置Kubernetes。我遵循了的指南，并且能够让节点加入集群。我尝试了下面的kubeadm示例pod：kind: Pod name: gpu-pod containers: extendedResources: resources:

浏览 3提问于2018-08-07得票数 1

回答已采纳

2回答

类似于Amazon Web Services集群GPU实例的私有云GPU虚拟化

amazon-web-services、cuda、cloud、gpgpu、openstack

我正在寻找支持动态基于云的NVIDIA GPU虚拟化的选项，类似于亚马逊网络服务为分配GPU的方式。南加州大学似乎正在开发来支持这一点，但它还没有准备好。这正是我正在寻找的，如果它在OpenStack中具有完整的功能。似乎只支持将GPU分配给，这是严格意义上的远程桌面GPU虚拟化。如果我错了，VGX确实从虚拟机/实例启用了服务器端CUDA计算，请让我

浏览 6提问于2013-01-25得票数 15

回答已采纳

1回答

通过嵌套SSH连接查询slurm作业

bash、ssh、slurm

我经常在几个不同的集群上运行作业，并希望使用一个小的bash脚本检查SLURM和SGE作业的状态。对于大多数集群，我都可以这样做 printf "\n Jobs on Cluster X \n \n"squeue -u user 17255 gpu CL21E5 user R 4:34:46 1 gpu<

浏览 29提问于2019-05-07得票数 1

回答已采纳

1回答

库伯奈特斯:我怎样才能得到哪个吊舱时间表GPU？

kubernetes、gpu

我的集群中有三个Nvidia GPU，在我的集群中运行着这么多的吊舱。我怎样才能找到这些吊舱中的哪一个调度GPU，以及它们调度了多少GPU？我使用此链接为Nvidia GPU启用集群中的GPU计划。

浏览 0提问于2021-08-22得票数 3

回答已采纳

1回答

Apache Spark 3 GPU集群

apache-spark、gpu、cluster-computing、nvidia

在我尝试Dask、Ray和Horovod之前，它们可以很容易地创建图形处理器集群。我目前使用的是Apache Spark 3.0 (它添加了NVIDIA GPU支持)，但在创建GPU集群时遇到了问题。我尝试按如下方式配置spark-defaults.conf： spark.executor.resource.gpu.amount 1#spark.executor.resource.gpu.disc

浏览 30提问于2020-07-19得票数 0

回答已采纳

1回答

带有GPU工作进程错误的ML-Engine

google-cloud-ml-engine

您好，我正在使用ML Engine和一个自定义层，该层由一个parameter组成，四个工人，每个工人都有一个complex_m和一个complex_m作为参数服务器。我没有在任何地方使用tf.Device()函数，在云中，我认为如果有可用的图形处理器，设备就会自动设置。

浏览 18提问于2017-06-28得票数 0

1回答

seq2seq嵌入大小太大，无法进行分布式训练。

tensorflow

我有3个服务器，每个服务器有32个cpu和8个泰坦X gpu。当我用单服务器和单gpu训练该模型时，它连续使用gpu 50~60%。步长时间也比较合理(0.2~0.3秒).然而，当我用集群(1参数服务器，2名异步工作人员)训练相同的模型时，他们不能利用gpu，步骤时间增加(3秒，比单个版本慢10倍)。我发现参数服务器的参数大小为220 of，网络使用率为2Gbit/秒。我认为有降低参数更新频率的方法，但我

浏览 6提问于2017-03-31得票数 1

回答已采纳

1回答

分布式任务调度程序节点是否需要与工作节点相同的环境？

dask、dask-distributed

使用基本CLI方法(即dask-scheduler、dask- worker )设置分布式dask集群时，dask调度器节点是否也需要与worker节点相同的环境(例如包)？我有一个docker集群，使用NVIDIA Jetson AGX (Arm64v8 + GPU)单元作为工作程序，使用Intelx86-64服务器作为调度器(没有GPU)，因此不容易(如果不可能)拥有相同的环境

浏览 0提问于2020-11-16得票数 0

1回答

在分布式tensorflow中，参数服务器和主服务器的比例是多少？

tensorflow、distributed

假设我有10台机器，每台机器都有2个GPU，我想运行一个分布式TensorFlow集群。VS master应该分配多少个参数服务器？

浏览 1提问于2017-09-06得票数 6

1回答

带有GPU集群的CI/CD

continuous-integration、cloud

对于典型的连续集成环境，您可以配置一个能够执行编译和测试批处理的环境(代理、从.)由调度器(主机、服务器.)协调但是，如果您的“客户端”环境是用于在不同配置下执行模型培训的图形处理单元( GraphicsProcessing Unit，GPU)集群呢？或者您是否只是让head集群节点合并一个Jenkins从节点？(或竹子代理商等)

浏览 0提问于2017-09-14得票数 4

1回答

带有GPU的GCP kubernetes节点过早被抢占

kubernetes、google-cloud-platform、google-kubernetes-engine、kubeflow

我在us-central1-a上有一个kubeflow k8s集群，带有自定义的GPU驱动的可抢占节点池：我在这些GPU节点上运行kubeflow笔记本服务器。

浏览 17提问于2019-11-06得票数 0

3回答

如何在TensorFlow中使用分布式神经网络训练？

python、parallel-processing、deep-learning、tensorflow

我一直在查看代码，在代码或API中没有看到任何关于在GPU服务器集群中进行培训的内容。它有分布的培训功能吗？

浏览 3提问于2015-11-09得票数 14

回答已采纳

1回答

尽管我们的工作已经完成，Kubernet部署仍未完成：“状态未就绪的容器：[main]”

kubernetes、deployment、google-kubernetes-engine

test"], "brand_A")\ .set_memory_limit('23G')\ .set_memory_request('20G')\ .set_gp

浏览 21提问于2021-10-26得票数 0

1回答

GPU对Dataproc上先期工作者VM的支持

google-cloud-platform、google-cloud-dataproc

可抢占的工人VM是否支持GPU？声称：在使用‑‑master-accelerator、‑‑worker-accelerator和‑‑preemptible-accelerator标志创建集群时，将GPU附加到Dataproc集群中的主

浏览 7提问于2020-02-03得票数 4

点击加载更多

使用SSH进行X11转发时，呈现在何处执行？

针对昂贵资源的kubernetes调度

Kubernetes GPU吊舱/Kubeflow

是否可以使用google cloud run来实现TTS接收http请求和发送语音数据响应的功能？

Google节点带宽

多节点Spark集群上的分布式Tensorflow训练

使用Nvidia GPU节点在Kubernetes上运行一个例子

类似于Amazon Web Services集群GPU实例的私有云GPU虚拟化

通过嵌套SSH连接查询slurm作业

库伯奈特斯:我怎样才能得到哪个吊舱时间表GPU？

Apache Spark 3 GPU集群

带有GPU工作进程错误的ML-Engine

seq2seq嵌入大小太大，无法进行分布式训练。

分布式任务调度程序节点是否需要与工作节点相同的环境？

在分布式tensorflow中，参数服务器和主服务器的比例是多少？

带有GPU集群的CI/CD

带有GPU的GCP kubernetes节点过早被抢占

如何在TensorFlow中使用分布式神经网络训练？

尽管我们的工作已经完成，Kubernet部署仍未完成：“状态未就绪的容器：[main]”

GPU对Dataproc上先期工作者VM的支持

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐