文章/答案/技术大牛

发布

社区首页 >问答首页 >无法在colab中使用数据流下载c4数据集

问无法在colab中使用数据流下载c4数据集
EN

Stack Overflow用户

提问于 2020-03-31 10:27:29

回答 2查看 366关注 0票数 1

我想下载c4数据集。根据说明页面：https://www.tensorflow.org/datasets/catalog/c4，建议使用数据流。我按照这里描述的步骤操作: google colab中的https://www.tensorflow.org/datasets/beam_datasets。

包：

!pip install -q tensorflow-datasets
!pip install -q apache-beam[gcp]

这就是我要在colab中运行的细胞

%env DATASET_NAME=c4/en
%env GCP_PROJECT=......
%env GCS_BUCKET=gs://c4-dump
%env DATAFLOW_JOB_NAME=c4-en-gen

!echo "tensorflow_datasets[$DATASET_NAME]" > /tmp/beam_requirements.txt

!python -m tensorflow_datasets.scripts.download_and_prepare \
  --datasets=$DATASET_NAME
  --data_dir=$GCS_BUCKET \
  --beam_pipeline_options="runner=DataflowRunner,project=$GCP_PROJECT,job_name=$DATAFLOW_JOB_NAME,staging_location=$GCS_BUCKET/binaries,temp_location=$GCS_BUCKET/temp,requirements_file=/tmp/beam_requirements.txt"

它与本教程中的代码基本相同。但是在dataflow选项卡中没有创建数据流作业，而且看起来它正在本地下载。请参阅输出日志：

env: DATASET_NAME=c4/en
env: GCP_PROJECT=ai-vs-covid19
env: GCS_BUCKET=gs://c4-dump
env: DATAFLOW_JOB_NAME=c4-en-gen
2020-03-31 02:18:46.297213: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Successfully opened dynamic library libcudart.so.10.1
I0331 02:18:49.098738 139869050173312 download_and_prepare.py:180] Running download_and_prepare for datasets:
c4/en
I0331 02:18:49.099436 139869050173312 download_and_prepare.py:181] Version: "None"
I0331 02:18:50.353859 139869050173312 dataset_builder.py:202] Load pre-computed datasetinfo (eg: splits) from bucket.
I0331 02:18:50.468347 139869050173312 dataset_info.py:431] Loading info from GCS for c4/en/2.2.1
I0331 02:18:50.522799 139869050173312 download_and_prepare.py:130] download_and_prepare for dataset c4/en/2.2.1...
I0331 02:18:50.560583 139869050173312 driver.py:124] Generating grammar tables from /usr/lib/python3.6/lib2to3/Grammar.txt
I0331 02:18:50.683776 139869050173312 driver.py:124] Generating grammar tables from /usr/lib/python3.6/lib2to3/PatternGrammar.txt
I0331 02:18:51.189772 139869050173312 dataset_builder.py:310] Generating dataset c4 (gs://c4-dump/c4/en/2.2.1)
Downloading and preparing dataset c4/en/2.2.1 (download: 6.96 TiB, generated: 816.78 GiB, total: 7.76 TiB) to gs://c4-dump/c4/en/2.2.1...

然后是一堆

Dl Completed...:   0% 0/18 [00:38<?, ? url/s]
Dl Completed...:   0% 0/18 [00:38<?, ? url/s]
Dl Completed...:   0% 0/18 [00:39<?, ? url/s]I0331 02:19:33.506697 139869050173312 download_manager.py:256] Downloading https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2019-18/segments/1555578517558.8/wet/CC-MAIN-20190418101243-20190418123243-00326.warc.wet.gz into gs://c4-dump/downloads/comm.s3_craw-data_CC-MAIN-2019-18_segm_1555iQS7Yn3hZ3JmwClTiCNY5qtVgGfQQAObrCqx7cMloOg.gz.tmp.1bbeb83abada465287dcecabb0e4f4b0...

我是否遗漏了什么，或者这只是一个准备阶段？我主要担心的是我看不到数据流作业正在运行。

谢谢!

更新:使用计算实例尝试了相同的方法-相同的结果。

tensorflow-datasets

dataflow

google-colaboratory

apache-beam

回答 2

Stack Overflow用户

发布于 2020-04-01 03:10:32

我刚刚更新了tfds-nightly包，因此原始文件将被下载到DataFlow工作器上，而不是管理器上。请尝试2.1.0.dev202003312203版本，如果有任何问题请告诉我。

票数 0

Stack Overflow用户

发布于 2021-03-17 05:31:19

从今天起，您不必自己进行处理。我们将数据集上传到Google Cloud中的存储桶中，并创建了一个JSON版本。更多细节请访问https://github.com/allenai/allennlp/discussions/5056。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60942519

复制

相似问题

问无法在colab中使用数据流下载c4数据集
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无法在colab中使用数据流下载c4数据集EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无法在colab中使用数据流下载c4数据集
EN