首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何将数据集从Huggingface移动到Google?

如何将数据集从Huggingface移动到Google?
EN

Stack Overflow用户
提问于 2022-04-28 13:35:16
回答 1查看 296关注 0票数 0

我试图使用拥抱脸multi_nli来训练一个文本多分类的ai在谷歌云中。我想打电话从一个消防基地的网络应用程序的人工智能最终。但是当我在colab中尝试这段代码时:

代码语言:javascript
运行
复制
!pip install datasets
from datasets import load_dataset



# Load only train set
dataset = load_dataset(path="multi_nli", split="train")

它说它在/root/.cache/huggingface/datasets/multi_nli/default/0.0.0/591f72e...中保存了但是我找不到这个文件,只有一个可变版本,所以我不能把它移到google。下载工作缺少什么?还有其他解决办法让它去谷歌云吗?

EN

回答 1

Stack Overflow用户

发布于 2022-05-02 21:03:51

使用Dataset.save_to_disk方法和包gcsfs的帮助很容易。您首先需要安装gcsfs

代码语言:javascript
运行
复制
pip install gcsfs

然后,您可以使用Dataset.save_to_diskDataset.load_from_disk方法从保存和加载数据集。为了拯救它:

代码语言:javascript
运行
复制
from datasets import load_dataset
from gcsfs import GCSFileSystem

fs = GCSFileSystem()

dataset = load_dataset(path="multi_nli", split="train")

dataset.save_to_disk("gs://YOUR_BUCKET_NAME_HERE/multi_nli/train", fs=fs)

这将在BUCKET_NAME_HERE中创建一个包含数据集内容的目录。然后,要加载它,只需执行以下操作:

代码语言:javascript
运行
复制
from datasets import Dataset
from gcsfs import GCSFileSystem

fs = GCSFileSystem()

dataset = Dataset.load_from_disk("gs://YOUR_BUCKET_NAME_HERE/multi_nli/train", fs=fs)

欲了解更多信息,请参阅:

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72044656

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档