我刚开始学习使用google,对TPU实例(或TPU资源/TPU)和VM实例感到困惑。
我遵循谷歌云指南并创建了tpu,在这里我克隆了我的github,创建了一个conda环境,并安装了另外需要的培训包。
正如我认为我已经准备好了安装一样,我看到了各种教程,讨论如何创建VM实例,并在这个VM实例中链接创建的TPU实例。但是我在google云文档中找不到更多关于它的细节。
如果有人能向我解释:我们应该如何一起或单独使用TPU和VM实例,那就太好了。这两者之间有什么联系(从工作流的角度来看)?
背景信息,如果需要的话:我将在TPU上使用XLA运行pytorch代码。
非常感谢!
发布于 2022-08-01 19:47:13
创建用户VM只需要TPU节点体系结构。TPU架构附带了自己的VM,您作为用户,可以SSH进入并运行您的ML工作负载。
TPU VM和TPU节点架构的不同之处在于:https://cloud.google.com/tpu/docs/system-architecture-tpu-vm#tpu-arch。
如果使用TPU架构,请遵循特定于Cloud的指南和教程,如下所示:https://cloud.google.com/tpu/docs/run-calculation-pytorch
https://stackoverflow.com/questions/73198672
复制相似问题