使用TensorFlow 1.9时，CloudML作业不会终止

、

当使用TF 1.9 (即)时，我们的CloudML训练任务不会在训练完成后终止。工作就这样无限期地坐在那里。有趣的是，在TF 1.8上运行的CloudML作业没有问题。典型的日志(使用TF <=1.8时)为：I Finished tearing down training program.master-replica-0 I master-replica-0 SavedModel written

浏览 14提问于2018-08-15得票数 0

回答已采纳

2回答

打开配置文件时进程会死掉

、、

我想在CloudML上分析Tensorflow模型。当我使用tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE)，时，我的进程会以非零的退出代码结束，而不会详细说明发生了什么。终止原因:错误。要了解更多关于作业退出的原因，请检查日志。” 我如何诊断和解决这个问题？

浏览 0提问于2017-05-01得票数 1

回答已采纳

1回答

Tensorflow在google cloud上进行训练时无法打开CUDA库libcuti.so.8.0

、、

我正在尝试在Google Cloud ml-engine上使用Tensorflow训练一个模型。tensorflow似乎无法访问云计算机器上的libcupti文件，因为LD_LIBRARY_PATH没有指向正确的目录，如下面的日志条目所暗示的： message:LD_LIBRARY_PATH: /usr/local/cuda/lib64" pathname: "ten

浏览 0提问于2017-04-02得票数 1

1回答

Google计算引擎与机器学习

、、、、

有人知道使用与Google引擎中的虚拟机实例相比有什么不同吗？我在Python3中使用Keras，感觉GML更受限制(使用python2.7，旧版本的TensorFlow，必须遵循给定的结构.)。我想它们是在GCE中的VM上使用GML的好处，但是我想知道它们是什么。

浏览 2提问于2017-06-01得票数 15

1回答

在cloud ml上导入tf转换时出现问题

、、、

每当我尝试在mlengine作业上导入tensorflow-transform时，我都会遇到以下问题：File "/usr/libin run_globals15, in from tensorflow.co

浏览 1提问于2018-02-21得票数 1

1回答

Tensorflow file_io.read_file_to_string表示意外的关键字参数binary_mode

、、、

我刚刚开始使用google cloud ml引擎训练我的模型，然而，当我试图加载数据时，我总是遇到一个问题:我的数据文件是压缩的.npz(数字存档)格式。但是，当我尝试在CloudML上运行作业时，它显示 TypeError(N, len(magic)), 1) # back-up我研究了将数

浏览 1提问于2017-12-24得票数 2

1回答

gcloud作业无法访问我的文件，无论它们在GCS中还是在我的云shell中

我正在使用谷歌CloudML中的tensorflow运行机器学习代码。然而，提交的作业似乎无法访问我在云shell或GCS中的文件。即使它在我的本地机器上运行良好，但当我使用来自云shell的命令gcloud提交作业时，我会得到以下错误： ERROR 2017-12-19 13:52:28 +0100 service为了检查我使用gcloud提交的作业在哪里运行，我在python代码培训器/task.py的开头添加了print

浏览 2提问于2017-12-19得票数 0

回答已采纳

1回答

Tensorflow和带扭矩的分布式跑步训练

、

我编写了一个与tensorflow分布式训练指南相一致的神经网络：如果集群我想运行关于使用torque进行作业调度和分发的培训，这如何与tensorflow相适应，以及它如何在集群上分配培训？我是在torque中的一个节点上设置训练，然后让tensorflow从那里分发它，还是会与torque的功能发生冲突。如果tensorflow能够处理分布，扭矩是否是必需的？

浏览 1提问于2017-10-02得票数 1

回答已采纳

1回答

tensorflow conda环境下的运行扭矩作业

、、

我有一个带有torque的集群来分配作业。我想用tensorflow代码运行一个作业，而且我在tensorflow没有被识别时遇到了问题。我使用anaconda在LDAP用户上安装了tensorflow，因此我可以在任何节点中输入tensorflow环境并手动运行我的代码。我的问题是，torque作业在运行时不会打开conda环境，所以我得到了"ImportError: No模块名为tensorflow“，

浏览 4提问于2017-10-06得票数 0

回答已采纳

1回答

Amazon批处理作业不会终止

、、

我有两个亚马逊批处理作业卡在运行状态，由于坏的code.The作业将不会终止。我已经尝试使用开发人员控制台上的terminate按钮，也使用了命令行界面。这是我使用的命令：该命令不会抛出任何错误，但作业仍在cloud watch中运行。我可以做些什么来强制

浏览 9提问于2017-08-25得票数 4

3回答

向Google提交Keras培训工作

、、、

我正在将文件(使用建议的文件夹结构)上载到云存储桶(基本上是存储的根)，然后在云终端中尝试以下命令： --module-namejob-dir=gs://mykerasstorage --config=gs://mykerasstorage/trainer/cloudml-gpu.yaml但是我得到了错误，首先找不到cl

浏览 10提问于2020-01-21得票数 0

回答已采纳

1回答

google ml引擎规模层在远程分布式培训中不运行

、、、、

使用远程分布式命令运行tensorflow时:在指定"scale-tier STANDARD_1“之后。批处理失败了..。现在，我只能使用简单的单节点"scale-tier=BASIC“运行。162623 --module-name trainer.task --package-path trainer/ --gs://cloudml-public/census/data/

浏览 5提问于2017-10-05得票数 4

1回答

Azure DevOps生成:运行命令"OnCancel“

、、

我使用Azure DevOps在Azure Batch AI上调度作业。启动作业效果很好，我有做同样事情的python代码。因此，在构建中是否有一种"OnCancel“事件可供挂接以运行命令(这将是用于终止所有作业的python代码)？

浏览 0提问于2018-11-07得票数 1

3回答

Boto:如何在完成/失败后保持EMR作业流运行？

、、

如何使用boto将步骤添加到正在等待的Amazon EMR作业流，而作业流在完成后不会终止？我已经在Amazon的Elastic Map Reduce上创建了一个交互式作业流，并加载了一些表。当我使用Boto的emr_conn.add_jobflow_steps(...)向作业流传递新步骤时，作业流在完成或失败后终止。我知道可以使用带有keep_alive参数的run_jobflow使用<

浏览 6提问于2011-11-01得票数 1

回答已采纳

1回答

如何在spyder的ipython中释放keras中的GPU资源？

、、、、

当我通常从命令行运行python脚本时，例如python test.py，GPU内存将在脚本完成后立即释放。在这个test.py脚本中，我只是加载了一个keras构建的模型来评估和预测一些数据。其中没有训练过程。但是，如果我打开我的'spyder'，并在‘spyder’中运行此脚本，结果会出现在'ipython‘部分，但随后我在命令行输入nvidia-smi，GPU内存并未释放。因此，我尝试的是关闭这个'ipython‘内核并启动一个新内核。但是我所有的其他变量都会丢失。有没有一个合适的方法来释放model.evaluate(x, y)之后的图形处理器内存从&#

浏览 12提问于2017-08-25得票数 1

1回答

引擎错误429内存不足

、、

我将我的模型上传到ML-engine，当我试图进行预测时，我会收到以下错误： "code": 429, "status": "RESOURCE_EX

浏览 1提问于2018-03-15得票数 2

回答已采纳

1回答

文件在Spark作业中保持.avro.tmp状态？

、、、

我有一个Spark作业，它从HDFS读取数百万条记录，处理它们，然后以AVRO格式写回HDFS。观察到许多文件(已写入)仍处于.avro.tmp状态。我正在使用Kite SDK来写入AVRO格式的数据。环境为CDH 5.5。会不会是因为Spark作业在读取记录并将其发送给executors (实际执行写入)后立即终止？如果是这种情况，如何确保作业在所有.tmp都转换为.avro之前不会终止？或者还有什么原因呢？

浏览 3提问于2016-02-04得票数 1

1回答

打印qsub作业的墙时间

、

目前，我正在使用qsub在集群上运行作业，并对这些作业设置了10小时的墙时间。有时工作超过这一时间，因此被终止，有时由于其他原因而终止工作。无论哪种方式，我都希望在qsub日志文件的底部有一个脚注，它将指示作业何时终止(可选地使用状态代码指示它是成功完成还是被中断)和总壁时间。放置类似于：command here在qsub文件中，由于最后一个date将不会被执行，如果作业持续了一段时间，它就无

浏览 0提问于2014-08-12得票数 1

回答已采纳

2回答

退出时bash是如何处理作业的？

、、

当用户从bash注销时，如果用户不使用nohup或不承认，则由用户启动的所有后台作业都将自动终止。/test.sh &之后，我退出了测试，并关闭了下一个选项卡中的选项卡，我将ps作为root退出，并发现该作业仍然在运行。这是怎么回事？

浏览 1提问于2010-11-28得票数 20

1回答

Jupyter Notebook GPU内存训练后发布模型

、、、、

在使用Jupyter notebook完成深度学习模型训练后，我们如何清理GPU内存。问题是，无论我使用哪种框架(tensorflow，pytorch)，存储在GPU中的内存都不会被释放，除非我手动终止进程或终止内核并重新启动Jupyter。

浏览 28提问于2021-05-09得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

打开配置文件时进程会死掉

Tensorflow在google cloud上进行训练时无法打开CUDA库libcuti.so.8.0

Google计算引擎与机器学习

在cloud ml上导入tf转换时出现问题

Tensorflow file_io.read_file_to_string表示意外的关键字参数binary_mode

gcloud作业无法访问我的文件，无论它们在GCS中还是在我的云shell中

Tensorflow和带扭矩的分布式跑步训练

tensorflow conda环境下的运行扭矩作业

Amazon批处理作业不会终止

向Google提交Keras培训工作

google ml引擎规模层在远程分布式培训中不运行

Azure DevOps生成:运行命令"OnCancel“

Boto:如何在完成/失败后保持EMR作业流运行？

如何在spyder的ipython中释放keras中的GPU资源？

引擎错误429内存不足

文件在Spark作业中保持.avro.tmp状态？

打印qsub作业的墙时间

退出时bash是如何处理作业的？

Jupyter Notebook GPU内存训练后发布模型

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐