我试着在人工智能平台上训练一个Tensorflow估计器。该模型对本地的训练非常好,尽管速度非常慢,但是当我尝试运行分布式GPU时,在AI平台上的GPU培训遇到了以下错误:
CommandException: No URLs matched: gs://path/.../trainer-0.1.tar.gz
按照Google平台的推荐,我的代码与trainer
模块一起打包。任何帮助都将不胜感激!
发布于 2019-06-11 23:03:29
实际上,我能够解决我的问题:如果我没有设置一个分期桶,那么存储检查点的模型dir将覆盖培训器包,然后员工副本才能下载培训器!当工作副本还没有全部下载培训器时,我不知道检查点是如何开始存储的,但是添加与我的模型dir不同的暂存桶就解决了这个问题。
https://stackoverflow.com/questions/56486585
复制相似问题