腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1787)
视频
沙龙
1
回答
使用
TensorFlow
1.9时,
CloudML
作业
不会
终止
、
当
使用
TF 1.9 (即)时,我们的
CloudML
训练任务
不会
在训练完成后
终止
。工作就这样无限期地坐在那里。有趣的是,在TF 1.8上运行的
CloudML
作业
没有问题。典型的日志(
使用
TF <=1.8时)为:I Finished tearing down training program.master-replica-0 I master-replica-0 SavedModel written
浏览 14
提问于2018-08-15
得票数 0
回答已采纳
2
回答
打开配置文件时进程会死掉
、
、
我想在
CloudML
上分析
Tensorflow
模型。当我
使用
tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE),时,我的进程会以非零的退出代码结束,而
不会
详细说明发生了什么。
终止
原因:错误。要了解更多关于
作业
退出的原因,请检查日志。” 我如何诊断和解决这个问题?
浏览 0
提问于2017-05-01
得票数 1
回答已采纳
1
回答
Tensorflow
在google cloud上进行训练时无法打开CUDA库libcuti.so.8.0
、
、
我正在尝试在Google Cloud ml-engine上
使用
Tensorflow
训练一个模型。
tensorflow
似乎无法访问云计算机器上的libcupti文件,因为LD_LIBRARY_PATH没有指向正确的目录,如下面的日志条目所暗示的: message:LD_LIBRARY_PATH: /usr/local/cuda/lib64" pathname: "
ten
浏览 0
提问于2017-04-02
得票数 1
1
回答
Google计算引擎与机器学习
、
、
、
、
有人知道
使用
与Google引擎中的虚拟机实例相比有什么不同吗? 我在Python3中
使用
Keras,感觉GML更受限制(
使用
python2.7,旧版本的
TensorFlow
,必须遵循给定的结构.)。我想它们是在GCE中的VM上
使用
GML的好处,但是我想知道它们是什么。
浏览 2
提问于2017-06-01
得票数 15
1
回答
在cloud ml上导入tf转换时出现问题
、
、
、
每当我尝试在mlengine
作业
上导入
tensorflow
-transform时,我都会遇到以下问题:File "/usr/libin run_globals15, in from
tensorflow
.co
浏览 1
提问于2018-02-21
得票数 1
1
回答
Tensorflow
file_io.read_file_to_string表示意外的关键字参数binary_mode
、
、
、
我刚刚开始
使用
google cloud ml引擎训练我的模型,然而,当我试图加载数据时,我总是遇到一个问题:我的数据文件是压缩的.npz(数字存档)格式。但是,当我尝试在
CloudML
上运行
作业
时,它显示 TypeError(N, len(magic)), 1) # back-up我研究了将数
浏览 1
提问于2017-12-24
得票数 2
1
回答
gcloud
作业
无法访问我的文件,无论它们在GCS中还是在我的云shell中
我正在
使用
谷歌
CloudML
中的
tensorflow
运行机器学习代码。然而,提交的
作业
似乎无法访问我在云shell或GCS中的文件。即使它在我的本地机器上运行良好,但当我
使用
来自云shell的命令gcloud提交
作业
时,我会得到以下错误: ERROR 2017-12-19 13:52:28 +0100 service为了检查我
使用
gcloud提交的
作业
在哪里运行,我在python代码培训器/task.py的开头添加了print
浏览 2
提问于2017-12-19
得票数 0
回答已采纳
1
回答
Tensorflow
和带扭矩的分布式跑步训练
、
我编写了一个与
tensorflow
分布式训练指南相一致的神经网络: 如果集群我想运行关于
使用
torque进行
作业
调度和分发的培训,这如何与
tensorflow
相适应,以及它如何在集群上分配培训?我是在torque中的一个节点上设置训练,然后让
tensorflow
从那里分发它,还是会与torque的功能发生冲突。如果
tensorflow
能够处理分布,扭矩是否是必需的?
浏览 1
提问于2017-10-02
得票数 1
回答已采纳
1
回答
tensorflow
conda环境下的运行扭矩
作业
、
、
我有一个带有torque的集群来分配
作业
。我想用
tensorflow
代码运行一个
作业
,而且我在
tensorflow
没有被识别时遇到了问题。我
使用
anaconda在LDAP用户上安装了
tensorflow
,因此我可以在任何节点中输入
tensorflow
环境并手动运行我的代码。我的问题是,torque
作业
在运行时
不会
打开conda环境,所以我得到了"ImportError: No模块名为
tensorflow
“,
浏览 4
提问于2017-10-06
得票数 0
回答已采纳
1
回答
Amazon批处理
作业
不会
终止
、
、
我有两个亚马逊批处理
作业
卡在运行状态,由于坏的code.The
作业
将
不会
终止
。我已经尝试
使用
开发人员控制台上的terminate按钮,也
使用
了命令行界面。这是我
使用
的命令:该命令
不会
抛出任何错误,但
作业
仍在cloud watch中运行。我可以做些什么来强制
浏览 9
提问于2017-08-25
得票数 4
3
回答
向Google提交Keras培训工作
、
、
、
我正在将文件(
使用
建议的文件夹结构)上载到云存储桶(基本上是存储的根),然后在云终端中尝试以下命令: --module-namejob-dir=gs://mykerasstorage --config=gs://mykerasstorage/trainer/
cloudml
-gpu.yaml但是我得到了错误,首先找不到
cl
浏览 10
提问于2020-01-21
得票数 0
回答已采纳
1
回答
google ml引擎规模层在远程分布式培训中不运行
、
、
、
、
使用
远程分布式命令运行
tensorflow
时:在指定"scale-tier STANDARD_1“之后。批处理失败了..。现在,我只能
使用
简单的单节点"scale-tier=BASIC“运行。162623 --module-name trainer.task --package-path trainer/ --gs://
cloudml
-public/census/data/
浏览 5
提问于2017-10-05
得票数 4
1
回答
Azure DevOps生成:运行命令"OnCancel“
、
、
我
使用
Azure DevOps在Azure Batch AI上调度
作业
。启动
作业
效果很好,我有做同样事情的python代码。因此,在构建中是否有一种"OnCancel“事件可供挂接以运行命令(这将是用于
终止
所有
作业
的python代码)?
浏览 0
提问于2018-11-07
得票数 1
3
回答
Boto:如何在完成/失败后保持EMR
作业
流运行?
、
、
如何
使用
boto将步骤添加到正在等待的Amazon EMR
作业
流,而
作业
流在完成后
不会
终止
? 我已经在Amazon的Elastic Map Reduce上创建了一个交互式
作业
流,并加载了一些表。当我
使用
Boto的emr_conn.add_jobflow_steps(...)向
作业
流传递新步骤时,
作业
流在完成或失败后
终止
。我知道可以
使用
带有keep_alive参数的run_jobflow
使用<
浏览 6
提问于2011-11-01
得票数 1
回答已采纳
1
回答
如何在spyder的ipython中释放keras中的GPU资源?
、
、
、
、
当我通常从命令行运行python脚本时,例如python test.py,GPU内存将在脚本完成后立即释放。在这个test.py脚本中,我只是加载了一个keras构建的模型来评估和预测一些数据。其中没有训练过程。但是,如果我打开我的'spyder',并在‘spyder’中运行此脚本,结果会出现在'ipython‘部分,但随后我在命令行输入nvidia-smi,GPU内存并未释放。因此,我尝试的是关闭这个'ipython‘内核并启动一个新内核。但是我所有的其他变量都会丢失。有没有一个合适的方法来释放model.evaluate(x, y)之后的图形处理器内存从
浏览 12
提问于2017-08-25
得票数 1
1
回答
引擎错误429内存不足
、
、
我将我的模型上传到ML-engine,当我试图进行预测时,我会收到以下错误: "code": 429, "status": "RESOURCE_EX
浏览 1
提问于2018-03-15
得票数 2
回答已采纳
1
回答
文件在Spark
作业
中保持.avro.tmp状态?
、
、
、
我有一个Spark
作业
,它从HDFS读取数百万条记录,处理它们,然后以AVRO格式写回HDFS。观察到许多文件(已写入)仍处于.avro.tmp状态。我正在
使用
Kite SDK来写入AVRO格式的数据。环境为CDH 5.5。 会
不会
是因为Spark
作业
在读取记录并将其发送给executors (实际执行写入)后立即
终止
?如果是这种情况,如何确保
作业
在所有.tmp都转换为.avro之前
不会
终止
?或者还有什么原因呢?
浏览 3
提问于2016-02-04
得票数 1
1
回答
打印qsub
作业
的墙时间
、
目前,我正在
使用
qsub在集群上运行
作业
,并对这些
作业
设置了10小时的墙时间。有时工作超过这一时间,因此被
终止
,有时由于其他原因而
终止
工作。无论哪种方式,我都希望在qsub日志文件的底部有一个脚注,它将指示
作业
何时
终止
(可选地
使用
状态代码指示它是成功完成还是被中断)和总壁时间。放置类似于:command here在qsub文件中,由于最后一个date将
不会
被执行,如果
作业
持续了一段时间,它就无
浏览 0
提问于2014-08-12
得票数 1
回答已采纳
2
回答
退出时bash是如何处理
作业
的?
、
、
当用户从bash注销时,如果用户不
使用
nohup或不承认,则由用户启动的所有后台
作业
都将自动
终止
。/test.sh &之后,我退出了测试,并关闭了下一个选项卡中的选项卡,我将ps作为root退出,并发现该
作业
仍然在运行。 这是怎么回事?
浏览 1
提问于2010-11-28
得票数 20
1
回答
Jupyter Notebook GPU内存训练后发布模型
、
、
、
、
在
使用
Jupyter notebook完成深度学习模型训练后,我们如何清理GPU内存。问题是,无论我
使用
哪种框架(
tensorflow
,pytorch),存储在GPU中的内存都
不会
被释放,除非我手动
终止
进程或
终止
内核并重新启动Jupyter。
浏览 28
提问于2021-05-09
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
RStudio发布新接口,在R语言中使用TensorFlow
TensorFlow行业应用沙龙
线程和队列概述
作业怎么控制Jobs?
奇虎360开源深度学习调度平台XLearning
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券