首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >NonMatchingSplitsSizesError加载拥抱面BookCorpus

NonMatchingSplitsSizesError加载拥抱面BookCorpus
EN

Stack Overflow用户
提问于 2021-11-03 13:09:19
回答 1查看 294关注 0票数 0

我想像这样加载bookcorpus

代码语言:javascript
运行
复制
train_ds, test_ds = load_dataset('bookcorpus', split=['train', 'test']),

但是,得到以下错误:

代码语言:javascript
运行
复制
Traceback (most recent call last):             
  File "<stdin>", line 1, in <module>
  File "/home/marcelbraasch/.local/lib/python3.8/site-packages/datasets/load.py", line 1627, in load_dataset
    builder_instance.download_and_prepare(
  File "/home/marcelbraasch/.local/lib/python3.8/site-packages/datasets/builder.py", line 607, in download_and_prepare
    self._download_and_prepare(
  File "/home/marcelbraasch/.local/lib/python3.8/site-packages/datasets/builder.py", line 709, in _download_and_prepare
    verify_splits(self.info.splits, split_dict)
  File "/home/marcelbraasch/.local/lib/python3.8/site-packages/datasets/utils/info_utils.py", line 74, in verify_splits
    raise NonMatchingSplitsSizesError(str(bad_splits))
datasets.utils.info_utils.NonMatchingSplitsSizesError: [{'expected': SplitInfo(name='train', num_bytes=4853859824, num_examples=74004228, dataset_name='bookcorpus'), 'recorded': SplitInfo(name='train', num_bytes=2982081448, num_examples=45726619, dataset_name='bookcorpus')}]

我想继续保存到磁盘,因为我不想下载这个每次我使用它。是什么导致了这个错误?

EN

Stack Overflow用户

回答已采纳

发布于 2021-12-02 20:55:32

BookCorpus不再公开。

以下是一项有关以下内容的工作:

https://github.com/soskek/bookcorpus

票数 0
EN
查看全部 1 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69825418

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档