将两个评估数据集传递给HuggingFace Trainer对象

文章/答案/技术大牛

发布

2回答

有没有什么方法可以将两个评估数据集传递给HuggingFace训练器对象，以便在训练期间可以在两个不同的集合(例如分布内和分布外)上对训练的模型进行评估？下面是该对象的实例化，它只接受一个eval_dataset trainer = Trainer( args, train_dataset=train_dataset

浏览 34提问于2021-08-02得票数 2

2回答

如何有效地将一个大型并行语料库转换成一个集合数据集来训练一个EncoderDecoderModel？

、、、、

在预编码数据集上工作的典型EncoderDecoderModelfrom transformers import EncoderDecoderModel当使用wmt14数据集时，可以使用预处理/编码数据集来训练模型： train_data = datasets.load_dataset("wmt14", "de-en"的并

浏览 33提问于2022-10-20得票数 0

回答已采纳

1回答

HuggingFace的“培训”能为课程学习定制吗？

、、、、

我一直在寻找HuggingFace转换器Trainer对象(特别是Seq2SeqTrainer)中的某些特性，并想知道它们是否存在，如果存在，如何实现它们，或者我是否需要编写自己的培训循环来启用它们。我希望将课程学习应用到我的培训策略中，并定期评估该模式，因此，我希望能够做到以下几点选择模型在每个时期查看训练样本的顺序(似乎传递给train_dataset参数的数据会被一些内部代码自动调整)，即使我设法阻止了这一点，我仍然需要在不同的时期传递不同的有序数据</

浏览 17提问于2022-08-26得票数 0

1回答

产品描述中的文本分类问题

、、

我刚开始机器学习，我有一个包含4000到5000项的数据集，它们都是产品描述，结果，我想训练一个模型来将它们分类为1或0，我能用这种文本来训练它吗？

浏览 5提问于2022-10-09得票数 -1

1回答

Pybrain中的交叉验证

、、

我在网上找到了以下两个版本的代码：validator = CrossValidator(trainer=trainer, dataset=trainer.ds, n_folds=5, valfuncmodval = ModuleValidator() trainer.trainEpochs(1) trainer.trainOnDa

浏览 1提问于2015-03-11得票数 1

1回答

cntk中的eval和test_minibatch

、、

我们创建了两个方法，eval_metric和calc_error，如下所示： predictions =

浏览 1提问于2017-08-19得票数 1

回答已采纳

1回答

我如何知道与预先训练的托卡器一起使用哪些参数？

、、

我想在HuggingFace中使用经过预先训练的模型：tokenizer = AutoTokenizer.from_pretrained(transformer_name) 现在我有了我的模型和标记器，我需要标记我的数据集我的理解是，我总是需要截断我的数据，让max_length留

浏览 17提问于2022-12-02得票数 1

1回答

huggingface transformer models: BERT模型训练开始时的KeyError：'input_ids‘消息

、、

使用Huggingface转换库，当我为掩蔽语言建模任务微调BERT语言模型时，我在最后一步遇到了一个bug。我希望微调它在一个领域的金融语料库，该模型尚未培训。首先，我从一个pandas数据帧创建了一个dataset对象，该数据帧又是从一个包含一列多行文本的csv文件中创建的： unlabelled_dataset = Dataset.from_pandas(unlabelled) 其次，我使用以下代码对数据集进行了标记： tokenizerBERT = BertTokeniz

浏览 117提问于2020-11-19得票数 1

1回答

使用tf.data.Dataset评估性能的最佳方法

我训练了一个模型，现在想在测试集上评估它的性能。测试集被加载为tf.data.TFRecordDataset对象(来自多个TFRecords，每个对象中都有多个示例)，该对象由大约百万个元组(图像，标签)形式的示例组成，数据被批量处理。然后将原始标签映射到模型需要预测的目标整数(one-hot编码)。我知道我可以将Dataset对象作为输入传递给model.predict()，它将输出datase

浏览 33提问于2020-09-08得票数 0

1回答

HuggingFace的教练会自动忽略模型不需要的功能吗？

、、、

具体来说，我的原始数据集包含两个列，名为“text”和“label”。在标记“text”之后，dataset对象现在又有三个列，名为“input_ids”、“token_type_ids”和“attention_mask”。我知道这三列是BERT模型所必需的，但是当我将数据集提供给训练器API时，我没有删除原始的“text”列。DatasetDict({ tr

浏览 22提问于2022-06-30得票数 0

回答已采纳

1回答

使用WCF数据服务和实体框架控制每个实体实例的字段可见性

、、、

四个字段将公开可见，其余六个字段将需要授权订阅(例如，两个用户被标记为好友)。有谁有什么想法可以做吗？或者甚至是一个不同的框架来满足我的需求？

浏览 0提问于2012-01-13得票数 0

2回答

`train.py`和`model_main.py`在Tensorflow对象检测API中的区别

、

我通常只是使用train.py来训练使用Tensorflow对象检测API。

浏览 0提问于2019-01-08得票数 6

1回答

PyTorch-YOLOv3精度度量

、、

我正在使用现有的PyTorch-YOLOv3 3体系结构，并通过google对其进行培训，以识别自定义数据集作为研究手稿。基本上，我想使用对象检测算法来计算图像中两个类的对象数。有人告诉我，为了我的目的，我应该为模型生成验证/训练曲线，并创建一个混淆矩阵来评估训练模型的分类器元素。我有一个想法，修改培训脚本，以便在培训期间将培训指标输出到csv文件中，但我不熟悉如何创建一个混淆矩阵来评估经过培训的模型。此外，在计算机视觉领域，应该为手稿生成

浏览 0提问于2019-12-10得票数 0

回答已采纳

1回答

传递多个数据源/集的方法？以RDLC报表为业务对象

根据我所读到的，我可以将业务对象传递给我的报表来填充它们。我有一个具有嵌套属性的业务对象，其中有些是类实例。访问它们没有问题，因为我几乎可以将类作为字段拖动，然后将表达式编辑为类似于value.Name的内容。问题是业务对象中的“我的集合”没有显示在报表数据资源管理器中。在从对象中添加新数据集时，我可以看到我的原始业务对象被列出了3倍如下 MainWindowViewModel

浏览 0提问于2014-06-22得票数 0

1回答

将数据集拆分为训练、验证和测试的正确方法是什么？

、、、、

classB folder //test再次，我了解了如何使用python库拆分文件夹，该文件夹将数据拆分为以下结构folder classC foldermodel.evaluate(test_generator,batch_size=32) 在这

浏览 1提问于2022-08-09得票数 1

回答已采纳

1回答

PIGLatin是否支持带Parquet文件的谓词下推

、、

我正在评估基于Hadoop的数据集存储选项。当前的设置如下所示：我遇到了RC，ORC和Parquet。我看到了，但是

浏览 4提问于2015-10-27得票数 0

1回答

我们能在Javascript文件中使用空手道的匹配函数吗？

我试图在Karate中编写一个通用的JS函数，它将从数据库中提取结果并将其存储在Json对象中，并将其与外部json文件进行比较。我希望比较JS函数本身中的这两个对象，而不是将对象传递给被调用的空手道脚本。然而，当我试图在JS函数中比较模糊匹配字符串时，它不会被评估。(当我将Json对象返回到空手道并使用空手道的“匹配”函数时，它就能工作了)。有什么方法可以在JS文件中调用空手道的匹配函数吗？

浏览 2提问于2018-04-18得票数 1

回答已采纳

1回答

如何捕获导入脚本函数的打印

、、、

我有一个神经网络的数据处理机函数，它定义了一个生成器对象，所以我可以很容易地将它传递给在tensorflow中实现的训练和测试功能。我目前正在为我的小项目编写一个评估脚本，能够捕获数据采集器的打印(我从评估脚本中调用了它)将非常方便，以便知道我目前正在评估的数据集--进一步的演示代码。train_data, gt = next(train_gen) current_dataset = ***print of Data

浏览 11提问于2022-05-04得票数 0

回答已采纳

1回答

如何设置适当的回调来检索数据

我有以下情况，我有两个班级。我通过回调函数将类1的实例传递给类2的实例。最终的目标是连接到某个东西(比如sql server)并检索一些数据集，可能每隔x分钟检索一次。我如何修改下面的代码，以便在将类1的对象传递给类2的对象之后，我可以以某种方式让对象1完成所有的工作。实际上，我需要实现连接到SQl并将数据放在类foo的work()函数中。更重要的是，我如何在main()中将结果集

浏览 2提问于2014-09-15得票数 3

1回答

SAS对象列表

、、、

在SAS中，我希望将数字和字符类型以及不同维度的变量数传递给用户定义的模块。这可以通过创建对象列表并将列表传递给模块来实现。例如，在R中，这种数据类型被称为"list“。如何在SAS IML中创建任意对象的列表？亚历克斯可选参数的概念在长期内受到限制，因为我需要传递两个或更多的参数，而不是15个或更少的参数。names = {A, B, C}; 在一个循环中，我将根据名称创建临时数据</em

浏览 2提问于2014-12-15得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云