在训练自定义BERT模型时，create_pretraining_data.py正在向tf_examples.tfrecord写入0条记录

。

这个问题涉及到自然语言处理（NLP）和BERT模型的训练。BERT（Bidirectional Encoder Representations from Transformers）是一种预训练的语言模型，它在NLP任务中取得了很好的效果。

create_pretraining_data.py是BERT模型中的一个脚本，用于将原始文本数据转换为适合BERT模型训练的tfrecord格式。tf_examples.tfrecord是存储转换后数据的文件。

在这个问题中，脚本正在向tf_examples.tfrecord写入0条记录，这可能意味着没有正确配置输入数据或者输入数据为空。需要检查以下几个方面：

输入数据：确保提供了正确的输入数据，并且数据格式符合脚本的要求。通常，输入数据应该是一个或多个文本文件，每行包含一个句子或段落。
文件路径：检查文件路径是否正确，并且脚本有权限读取和写入文件。
数据处理：查看脚本中的数据处理部分，确保数据被正确处理和转换为tfrecord格式。可能需要调整脚本中的参数或配置，以适应特定的数据格式和需求。
依赖项：确保脚本所需的依赖项已正确安装，并且版本兼容。例如，TensorFlow和相关的NLP库。

对于自定义BERT模型的训练，可以使用腾讯云的相关产品和服务。腾讯云提供了强大的云计算和人工智能平台，适用于各种开发和训练需求。以下是一些相关产品和服务的介绍链接：

腾讯云自然语言处理（NLP）：https://cloud.tencent.com/product/nlp
腾讯云机器学习平台（MLPaaS）：https://cloud.tencent.com/product/mlpaas
腾讯云深度学习平台（DLaaS）：https://cloud.tencent.com/product/dlaas
腾讯云GPU云服务器：https://cloud.tencent.com/product/cvm/gpu
腾讯云容器服务（TKE）：https://cloud.tencent.com/product/tke

请注意，以上链接仅供参考，具体的产品选择和配置应根据实际需求和情况进行。

页面内容是否对你有帮助？

有帮助

没帮助

在训练自定义BERT模型时，create_pretraining_data.py正在向tf_examples.tfrecord写入0条记录

、、、

我正在自己的语料库上编写一个自定义的BERT模型，我使用BertWordPieceTokenizer生成了corpus文件，然后运行以下代码 !python create_pretraining_data.py --input_file=/content/drive/My Drive/internet_archive_scifi_v3.txt--output_file=/content/sample_data/tf_exampl

浏览 33提问于2020-09-14得票数 0

1回答

用Keras和Python创建NER模型

、、

我做了一个Keras模型来检测字符串值是Address，Company还是Date。我只使用了不同的公司名称，不同的日期共振峰和不同的街道地址进行培训。Default is to drop untransformed columns 这是我的模型是否可以使用该模型来检测字符串(地址、公司或日期)在较大文本中的位置？我认为这种模型被称为NER模型(命名实体识别)。我的<e

浏览 4提问于2021-03-27得票数 3

1回答

如何提高BERT* keras hub层输入的秩(ndim)以进行学习排名*

、、、、

我正在尝试使用tensorflow集线器上提供的预训练BERT来实现一个学习排名模型。我使用的是ListNet损失函数的一个变体，它要求每个训练实例都是与查询相关的几个排序文档的列表。我需要模型能够接受形状(batch_size，list_size，sentence_length)中的数据，其中模型在每个训练实例的'list_size‘轴上循环，返回排名并将它们传递给损失函数。在一个只包含密集层的简单<em

浏览 31提问于2021-05-16得票数 1

1回答

确定NER任务的迁移学习策略

、、、

我在一个迁移学习项目中工作，在这个项目中我创建了一个训练数据集(标记)，我使用了一个预先训练好的BERT模型并对其进行了微调。这个项目是一个NLP项目，我在其中执行了自定义的命名实体识别。我现在正在记录这项工作，所以我必须详细说明我使用了哪种迁移学习策略。

浏览 18提问于2021-06-25得票数 0

1回答

BERT域自适应

、、、、

我正在使用transformers.BertForMaskedLM对我的自定义数据集上的伯特模型进行进一步的预训练.首先，通过用空格分隔单词，将所有文本序列化为.txt文件。然后，我使用transformers.TextDataset加载序列化数据，其中包含一个作为tokenizer参数的BERT令牌程序。然后，我使用BertForMaskedLM.from_pretrained()加载经过预先训练的模型(这是transformers库提供的)。然后，我使用transf

浏览 4提问于2021-12-02得票数 1

回答已采纳

1回答

内部错误:尝试在没有Tensorflow句柄数据的情况下获取变量的梯度(或类似值)

、、、、

我正在使用Tensorflow为一个二进制情感分析类调整BERT。我想使用自定义训练循环/损失函数。然而，当我训练模型时，我得到了以下错误：ValueError: Internal error: Tried to take gradients (or similar) of a variable without然而，在运行这个简化的训练循环时，我得到了与上面相同的错误，并且我不确定是什么导致了它。注意:我使用的是tensor

浏览 27提问于2021-08-17得票数 0

1回答

在google colab上运行Flask :服务器端页面加载问题

、、、

我正在尝试训练一个nlp模型，然后在Google Colab python笔记本中使用Python和Flask显示结果。在第一步中，我使用了基于Bert神经网络的金融模型FinBert。当我试图在'0.0.0.0:5000‘端口上显示输出时，问题就出在这里，它无法工作。顺便说一下，我在“google colab”上运行我的代码。timeimport sy

浏览 1提问于2020-09-06得票数 0

3回答

运行评估问题- Tensorflow对象检测应用编程接口(EfficentDet)

、、

在测试数据上运行评估，我得到以下错误： TypeError: 'NoneType' object is not iterable 而这可能是问题所在？annotations-00018-of-00025" } } 下面是我运行评估时的完整输出

浏览 76提问于2021-02-08得票数 1

1回答

正则化是否包括在损失历史记录，Keras返回？

、

现在，我正在测试正则化以及如何使用它们。在我看来，在有和没有正则化的训练课上，损失历史的结果似乎增加了正则化的术语，对吗？当我的模型没有正则化项时，损失值从小于1开始，但是当我用正则化(L1L2)对模型进行再训练时，相同问题的损失值从500开始。我得到的唯一合乎逻辑的解释是，Keras在增加正则化项之后报告了损失值。

浏览 0提问于2018-08-12得票数 2

回答已采纳

1回答

Google ML引擎-Scikit-学习模型

、

查看ML Engine的文档，似乎他们接受了Scikit学习模型的培训和预测服务。是否可以训练与Mixins包装在一起的非Scikit学习模型，以转换为Scikit学习界面？

浏览 11提问于2018-08-10得票数 0

回答已采纳

3回答

加载保存的BertClassifer模型

、、、

我使用了这个colab笔记本中的以下示例：KeyError: 'name'有人可以建议我做错了什么，或者我是否应该做一些其他的事情来加载这个模型？谢谢!

浏览 7提问于2020-06-17得票数 1

1回答

我不能用别人的模型来产生输入到我的，在发电机。我该怎么解决这个问题？

、、

我试图在SQuAD v1.1数据集上使用经过预先训练的BERT模型来训练一个神经网络。有人建议我先获取BERT模型的输出，然后将它们作为输入输入到我的神经网络中。print(v) 当我向它提供测试数据时，这是可行的： yield batch_feat

浏览 0提问于2019-08-29得票数 3

1回答

使用不同的数据重新训练H2ORandomForestEstimator，同时保持超参数

、

我已经使用h2o.save_model() (python API)保存了一个优化的H2ORandomForestEstimator模型。我现在想加载这个模型，并用我的数据的不同变体重新训练它，同时保持优化的超参数(例如，ntree，max_depth)。但是，当我通过在加载的模型上调用train()来执行此操作时，所有的超参数似乎都被重置为其默认值。实现这一目标的推荐方法是什么？

浏览 0提问于2019-06-10得票数 0

2回答

有没有办法在Weka中更新经过训练的机器学习模型，同时对新数据进行预测(Java)？

、、、、

我想将训练好的模型部署到RasberryPi上进行测试。我希望训练好的模型在每次接收到新数据并进行预测时都会更新。有没有办法用weka Java做到这一点?？你能分享一下你的想法吗？提前感谢

浏览 0提问于2017-11-15得票数 0

3回答

Java :我想获取输出流在文件中写入数据的行的行号

我正在尝试使用Buffered Writer将一些数据写入文件。我有要求创建一个索引文件与一些时间戳和行号。为此，我需要输出流写入的行号。你能推荐一些方法来实现这一点吗？

浏览 0提问于2011-09-15得票数 1

3回答

比较一个文档和一个单词的向量

、、、

看起来Word2vec和BERT能很好地处理长文本，BERT能处理单个单词。但是如何将长文本与一个单词进行比较呢？

浏览 3提问于2019-03-11得票数 1

1回答

在Rails 3应用程序中使用memcache

、

我已经在我的生产环境和Rails.cache.write('color', 'red')中添加了config.cache_store = :dalli_store。我没有对我的模型、视图或控制器做任何修改。当我创建和保存一个对象时，例如user.name = 'John Doe'user.save 它直接进入数据库有没有关于重写模型以使用Rails.ca

浏览 0提问于2011-04-27得票数 1

回答已采纳

2回答

日志记录前清理请求和响应的数据注释

、、、

我正在寻找一个可靠的解决方案，以记录对控制器的请求和响应的详细信息。但是，一些传递的数据包含不应该写入日志的敏感信息。在控制器中，入站请求被绑定到来自请求主体的单个模型，并且在响应请求时，向Ok()结果传递一个模型(非常简化)：[Route("Some/Route")] ResponseType responseObj =

浏览 2提问于2016-06-14得票数 1

回答已采纳

1回答

Keras和AutoGraph

、、、

在阅读this和this answer时，我了解到在TensorFlow2.0上使用非动态模型时，Keras将使用AutoGraph。但是现在编写一个回调来获取训练期间变量的历史记录， class TrainHistory(tf.keras.callbacks.Callback): def on_train_begin(self在TensorFlow-2.0中使用Keras时，是否正在执行急切的代码？Here

浏览 36提问于2019-06-19得票数 5

1回答

如何使用AllenNLP设置完全禁用模型/权重序列化？

我希望通过使用AllenNLP配置文件禁用标准jsonnet模型培训中的所有模型/状态权重序列化。除了我上面设置的选项之外，是否有任何默认的训练器或检查指针选项来禁用模型权重的所有序列化？我检查了API文档和网页，但是找不到。如果我需要自己定义这样一个选项的功能，那么应该在模型

浏览 3提问于2020-10-12得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在训练自定义BERT模型时，create_pretraining_data.py正在向tf_examples.tfrecord写入0条记录

相关·内容

在训练自定义BERT模型时，create_pretraining_data.py正在向tf_examples.tfrecord写入0条记录

用Keras和Python创建NER模型

如何提高BERT* keras hub层输入的秩(ndim)以进行学习排名*

确定NER任务的迁移学习策略

BERT域自适应

内部错误:尝试在没有Tensorflow句柄数据的情况下获取变量的梯度(或类似值)

在google colab上运行Flask :服务器端页面加载问题

运行评估问题- Tensorflow对象检测应用编程接口(EfficentDet)

正则化是否包括在损失历史记录，Keras返回？

Google ML引擎-Scikit-学习模型

加载保存的BertClassifer模型

我不能用别人的模型来产生输入到我的，在发电机。我该怎么解决这个问题？

使用不同的数据重新训练H2ORandomForestEstimator，同时保持超参数

有没有办法在Weka中更新经过训练的机器学习模型，同时对新数据进行预测(Java)？

Java :我想获取输出流在文件中写入数据的行的行号

比较一个文档和一个单词的向量

在Rails 3应用程序中使用memcache

日志记录前清理请求和响应的数据注释

Keras和AutoGraph

如何使用AllenNLP设置完全禁用模型/权重序列化？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐