从保存的检查点重建训练路径

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、

我正在用batchnorm训练一个简单的完全卷积网络。我在初始化后保存了一个检查点。然后，我恢复它并再次运行训练(使用相同的超参数)。然而，我从两个训练过程中得到了不同的结果。在两次运行开始时，我的所有种子(python、numpy和tf)都被设置为相等。不匹配的原因可能是什么？

浏览 26提问于2020-04-18得票数 0

1回答

如何/在何处加载检查点文件

、、

我正在运行tensorflow object_detection模型的model_main.py。我想知道哪个.py文件包含代码，模型在哪里检查'mode_dir‘中的现有检查点，以及模型如何知道从保存的最新检查点加载/启动。我检查了model_lib.py，但还不能弄清楚。

浏览 13提问于2019-06-15得票数 0

1回答

我正在尝试使用tensorflow高级API来开发一个模型，我在训练和可视化阶段发现了一个问题：对于相同的model_fn()，每次我尝试调用estimator.train()方法时，global_step将从我上次训练的步骤增加。例如，如果上次运行estimator.train()方法到global_step = 2000，那么这一次当我开始训练模型时，它将从2000,2001,2002开始累加。我的问题是:出于某种原因，我每次都想从头开始训练一个模型。也就是说，当

浏览 0提问于2018-05-03得票数 1

1回答

如何在Tensorflow检查点中用常规relu替换relu6操作？

、

简单的问题真的，我需要将Tensorflow模型转换成不支持relu6的格式，只是常规的relu。我的模型是3个ckpt (检查点)文件(数据、索引和元文件)的形式。我需要能够在转换relu层后训练模型。谁能给我指个正确的方向，告诉我该怎么做。谢谢!

浏览 0提问于2018-03-28得票数 1

1回答

在tensorflow中保存检查点和恢复训练

、

我在玩保存检查点和从保存的检查点恢复训练的游戏。为了简单起见，我遵循了in - 中给出的例子，我没有使用任何“真正”的网络训练。我只是执行了一个简单的减法操作，每个检查点在相同的张量上一次又一次地保存相同的操作。下面的ipython notebook - 提供了一个最小的示例在第一阶段，我将

浏览 2提问于2016-04-20得票数 3

1回答

/model.ckpt-5 :不成功的TensorSliceReader构造函数未能找到任何匹配的TensorSliceReader文件

、、

/model.ckpt-5 :不成功的TensorSliceReader构造函数:未能找到任何匹配的TensorSliceReader文件从检查点或Tensorflow/workspace/models/model.ckpt-5:不成功的SavedModel构造函数还原时出错:未能找到任何匹配的Tensorflow/workspace/models/my_ssd_mobnet/./model.ck

浏览 25提问于2022-12-04得票数 0

2回答

从保存的检查点恢复培训的TF2对象检测API问题

、、

我面临着TF2对象检测API的一个问题，这个问题似乎是在一夜之间发生的。我正在尝试从保存的检查点恢复训练，并且和往常一样，在恢复培训之前，我会将配置文件中的路径更改为检查点所在的位置。由于某些原因，检查点dir和模型dir不能相同。现在，最大的问题是，如果我改变模型dir，它重新开始训练从零，而不是从上一个时代，所以我被困住了。

浏览 6提问于2021-05-07得票数 3

1回答

“此”函数与CNTK中从检查点恢复的函数不等效(同构)

、、

“此”函数与从检查点恢复的函数不等效(同构)。我的恢复代码如下。它们与创建训练器和通过trainer.dnn保存trainer.save_checkpoint("trainer.dnn")的结构相同，如所提到的。

浏览 0提问于2017-01-21得票数 1

1回答

如何使用Node.js (tfjs-node)从Tensorflow.js中的检查点重新启动模型训练？

、、、、

我正在训练模型，需要创建训练模型的检查点，并使用检查点从保存的级别重新启动模型训练。tfjs-node可以做到这一点吗？如果有，请指点一下..

浏览 7提问于2019-01-24得票数 0

回答已采纳

2回答

如何控制tensorflow估计器保留的检查点数量？

、

我注意到，新的Estimator API在训练期间自动保存检查点，并在训练中断时自动从最后一个检查点重新启动。不幸的是，它似乎只保留了最后5个检查点。您知道如何控制培训期间保留的检查点的数量吗？

浏览 10提问于2017-12-30得票数 4

回答已采纳

1回答

分批培训还是多次培训？

、、

我有一个关于神经网络批量学习的问题。神经网络在每一次迭代中分批学习并修改权值。问:如果我在一批之后保存检查点，然后稍后装载重量，然后用新的一批进行训练，这与一次训练两批不同吗？如果我的批次大小为100，训练数据为1000分。那么，在输出的检查点文件中，如果我一次训练9批(900个数据点) ->保存检查点->负载检查点第二天->

浏览 0提问于2019-04-26得票数 0

1回答

在我自己的数据集中运行Tensorflow对象检测训练作业的问题

、、

我可能遗漏了一些显而易见的东西，但是在遵循自述的步骤之后，我无法成功地提交EC2 V100实例中的火车作业。到目前为止，我完成了以下步骤：但是，我确实在模型目录中填充了这些文件(train和

浏览 0提问于2019-05-06得票数 1

1回答

Tensorflow-GPU在训练期间遇到保存检查点的问题-也没有使用整个GPU，不确定原因

、

Python版本: 3.5CUDA: 10模型: Faster-RCNN-Inception-V2信息:tensorflow:全局步骤864:损失= 0.4430 (0.996秒&#

浏览 0提问于2019-11-26得票数 1

1回答

“output_dir”在transformers.TrainingArguments中是什么意思？

、、、

在huggingface文档中，它写着“模型预测和检查点将被写入的输出目录”。我不太明白这是什么意思。我必须为此创建任何文件吗？

浏览 26提问于2021-04-19得票数 1

回答已采纳

1回答

如何使用会话的权重来初始化新会话的权重？

、、

我有一个关于tensorflow的问题；我的网络结构是固定的，但我想用许多不同的案例来训练它，因为每个案例的一些局部特征；由于输入(不同的案例)是“相似的”，我想使用前一个的训练结果来初始化这个新的学习我尝试了以下(我简化了我的代码)，有谁有更好的想法来实现它吗？

浏览 18提问于2019-06-12得票数 1

回答已采纳

2回答

如何使用aws Sagemaker python SDK保存培训作业的未压缩输出？

、、

我正在尝试以非压缩的方式将训练作业工件上传到S3。我熟悉可以提供给sagemaker估计器的输出，然后将保存在/opt/ml/ output_dir下的所有内容压缩上载到S3输出目录。我希望可以选择访问特定的工件，而不必每次都解压缩输出。有没有一种干净利落的方法？如果脑海中没有任何变通方法？我感兴趣的工件是较小的元数据文件.txt或.csv，而在我的例子中，其余的工件

浏览 26提问于2020-12-23得票数 1

回答已采纳

1回答

使用tensorflow对象检测api的迁移学习

、

我正在尝试使用预先训练好的faster_rcnn_inception_v2_coco来训练模型。

浏览 10提问于2019-07-18得票数 0

1回答

我的检查点艾伯特文件在训练时不会改变

、、、、

我训练艾伯特回答问题的模型。我有20万对问答，我使用一个保存的2gb检查点文件。我在我的GPU GeForce 2070 RTX上训练它，每次用1000步来保存检查点，在训练检查点时，model.ckpt-96000.data-00000-of-00001文件只是保持135MB的大小而不增加我不明白为什么在像1500个问答对这样的更小的数据集中，

浏览 1提问于2020-10-07得票数 0

回答已采纳

1回答

Tensorflow 2x:在tensorflow.keras.save_model中，参数include_optimizer到底会影响什么

、、、、

我一直在浏览tensorflow.keras.save_model()应用程序接口的文档，我遇到了参数include_optimizer，我想知道不包括优化器有什么好处，或者如果优化器不与模型一起保存会出现什么问题为了给我的特定用例提供更多的上下文，我想保存一个模型，然后将生成的.pb文件与Tensorflow一起使用。我是否需要保存优化器状态，而不是保存它会减少结果文件的整体大小？如果我不保存，模型会不会在TF服务

浏览 51提问于2021-04-30得票数 1

回答已采纳

1回答

Huggingface Transformer - GPT2从保存的检查点恢复训练

、、、、

恢复从run_clm.py实现的GPT2微调 GPT2 huggingface是否具有从保存的检查点恢复训练的参数，而不是从头开始再次训练？假设python笔记本在训练时崩溃，检查点将被保存，但当我再次训练模型时，它仍然从头开始训练。来源：here 微调代码： !num_train_epochs=1 \ --block_size=200

浏览 98提问于2021-01-01得票数 1

回答已采纳

点击加载更多