文章/答案/技术大牛

发布

社区首页 >问答首页 >在谷歌AI平台引擎上提交tensorflow2作业时出现内存不足问题

问在谷歌AI平台引擎上提交tensorflow2作业时出现内存不足问题
EN

Stack Overflow用户

提问于 2020-10-08 23:38:57

回答 1查看 136关注 0票数 0

我正在尝试提交一个在谷歌AI平台引擎上使用gcloud的Tensorflow2培训工作(微调对象检测模型)。我的数据集并不大(raccoon数据集，大约是10M )。我尝试了许多配置，但每次都得到相同的错误：

The replica master 0 ran out-of-memory and exited with a non-zero status of 9(SIGKILL)

我的命令：

gcloud ai-platform jobs submit training OD_ssd_fpn_large \
--job-dir=gs://${MODEL_DIR} \
--package-path ./object_detection \
--module-name object_detection.model_main_tf2 \
--region us-east1 \
--config cloud.yml \
--  \
--model_dir=gs://${MODEL_DIR} \
--pipeline_config_path=gs://${PIPELINE_CONFIG_PATH}

我对cloud.yml文件的最后一次尝试涉及到大型模型：

trainingInput:
runtimeVersion: "2.2"
pythonVersion: "3.7"
scaleTier: CUSTOM
masterType: large_model
workerCount: 5
workerType: large_model
parameterServerCount: 3
parameterServerType: large_model

但总是出现相同的错误。非常感谢您的任何提示或帮助

tensorflow2.0

gcloud

object-detection-api

out-of-memory

回答 1

Stack Overflow用户

发布于 2020-11-05 15:55:40

读取所有数据都会消耗RAM，因此内存即将耗尽。您需要获取更大的实例类型(large_model或complex_model_l；有关机器类型的更多详细信息，请参阅此documentation )。

trainingInput:
  scaleTier: CUSTOM
  masterType: n1-highcpu-16
  workerType: n1-highcpu-16
  parameterServerType: n1-highmem-8
  evaluatorType: n1-highcpu-16
  workerCount: 9
  parameterServerCount: 3
  evaluatorCount: 1

或者你需要减少你的数据集。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64265986

复制

相似问题

问在谷歌AI平台引擎上提交tensorflow2作业时出现内存不足问题
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在谷歌AI平台引擎上提交tensorflow2作业时出现内存不足问题EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在谷歌AI平台引擎上提交tensorflow2作业时出现内存不足问题
EN