首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何修复AI平台GPU分布式培训作业中找不到的教练员包

如何修复AI平台GPU分布式培训作业中找不到的教练员包
EN

Stack Overflow用户
提问于 2019-06-07 00:21:25
回答 1查看 62关注 0票数 0

我试着在人工智能平台上训练一个Tensorflow估计器。该模型对本地的训练非常好,尽管速度非常慢,但是当我尝试运行分布式GPU时,在AI平台上的GPU培训遇到了以下错误:

代码语言:javascript
运行
复制
CommandException: No URLs matched: gs://path/.../trainer-0.1.tar.gz

按照Google平台的推荐,我的代码与trainer模块一起打包。任何帮助都将不胜感激!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-06-11 23:03:29

实际上,我能够解决我的问题:如果我没有设置一个分期桶,那么存储检查点的模型dir将覆盖培训器包,然后员工副本才能下载培训器!当工作副本还没有全部下载培训器时,我不知道检查点是如何开始存储的,但是添加与我的模型dir不同的暂存桶就解决了这个问题。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56486585

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档