问如何在将转换器数据集传递给培训师时使用切片？
EN

Stack Overflow用户

提问于 2021-12-23 22:17:02

回答 2查看 518关注 0票数 0

参考这个colab笔记本 (来自Huggingface 这里)，如果我运行

tokenized_datasets["train"][:8]

dtype是dict而不是Dataset，切片将返回一些数据。如果我在这里传递切片，我会得到一个关键错误，我认为这与我不再传递数据集有关。

from transformers import Trainer

trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"][:8],
    eval_dataset=tokenized_datasets["validation"],
    #data_collator=data_collator,
    tokenizer=tokenizer,
)



trainer.train()
***** Running training *****
  Num examples = 7
  Num Epochs = 3
  Instantaneous batch size per device = 8
  Total train batch size (w. parallel, distributed & accumulation) = 8
  Gradient Accumulation steps = 1
  Total optimization steps = 3
---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-20-3435b262f1ae> in <module>()
----> 1 trainer.train()

是否有一种简单的方法只传递数据集行的子集以进行培训或验证？

python

pytorch

huggingface-transformers

Stack Overflow用户

发布于 2021-12-23 22:20:41

您可以尝试使用torch，例如：

from torch.utils.data import Subset
train_dataset = Subset(tokenized_datasets["train"], list(range(8)))
...  # init trainer

这将为您提供数据集的子集，因此仍然满足接口要求。(如果HuggingFace的变压器也这么做的话，我认为他们也会这么做。)

票数 1

查看全部 2 条回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70467910

复制

相似问题

问如何在将转换器数据集传递给培训师时使用切片？
EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在将转换器数据集传递给培训师时使用切片？EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在将转换器数据集传递给培训师时使用切片？
EN