我试图使用拥抱脸multi_nli来训练一个文本多分类的ai在谷歌云中。我想打电话从一个消防基地的网络应用程序的人工智能最终。但是当我在colab中尝试这段代码时:
!pip install datasets
from datasets import load_dataset
# Load only train set
dataset = load_dataset(path="multi_nli", split="train")
它说它在/root/.cache/huggingface/datasets/multi_nli/default/0.0.0/591f72e...中保存了但是我找不到这个文件,只有一个可变版本,所以我不能把它移到google。下载工作缺少什么?还有其他解决办法让它去谷歌云吗?
发布于 2022-05-02 21:03:51
使用Dataset.save_to_disk
方法和包gcsfs
的帮助很容易。您首先需要安装gcsfs
pip install gcsfs
然后,您可以使用Dataset.save_to_disk
和Dataset.load_from_disk
方法从保存和加载数据集。为了拯救它:
from datasets import load_dataset
from gcsfs import GCSFileSystem
fs = GCSFileSystem()
dataset = load_dataset(path="multi_nli", split="train")
dataset.save_to_disk("gs://YOUR_BUCKET_NAME_HERE/multi_nli/train", fs=fs)
这将在BUCKET_NAME_HERE
中创建一个包含数据集内容的目录。然后,要加载它,只需执行以下操作:
from datasets import Dataset
from gcsfs import GCSFileSystem
fs = GCSFileSystem()
dataset = Dataset.load_from_disk("gs://YOUR_BUCKET_NAME_HERE/multi_nli/train", fs=fs)
欲了解更多信息,请参阅:
https://stackoverflow.com/questions/72044656
复制相似问题