前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MindSpore加载图数据集

MindSpore加载图数据集

作者头像
孙小北
发布2024-01-30 16:02:26
1300
发布2024-01-30 16:02:26
举报

MindSpore加载图数据集

MindSpore加载图数据集

MindSpore提供的mindspore.dataset模块可以帮助用户构建数据集对象,分批次地读取文本数据。

图的概念

通常一个图(graph) G是由一系列的节点(vertices) V以及边(eage)E组成的,每条边都连接着图中的两个节点,用公式可表述为:G = F(V, E),简单的图如下所示。

basic_graph.png
basic_graph.png

图中包含节点V = {a, b, c, d},和边E = {(a, b), (b, c), (c, d), (d, b)},针对图中的连接关系通常需借助数学的方式进行描述,如常用的基于邻接矩阵的方式,用于描述上述图连接关系的矩阵C如下,其中a、 b、c、d对应为第1、2、 3、4个节点。

image-20220428202020762.png
image-20220428202020762.png

数据集下载和转换

(1) 数据集介绍

常用的图数据集包含**Cora、Citeseer、PubMed**等

原始数据集可以从[ucsc网站](https://linqs-data.soe.ucsc.edu/public/lbc/cora.tgz)进行下载,

github提供的预处理后的数据集,GCN等公开使用

Cora数据集主体部分(`cora.content`) 2708条样本(节点),每条样本描述1篇科学论文的信息,论文都属于7个类别中的一个。每条样本数据包含三部分,依次为论文编号、论文的词向量(一个1433位的二进制)、论文的类别; 引用数据集部分(`cora.cites`)包含5429行(边),每行包含两个论文编号,表示第二篇论文对第一篇论文进行了引用。

image-20220428210948701.png
image-20220428210948701.png

(2)数据集下载

以下示例代码将cora数据集下载并解压到指定位置。

image-20220428212257872.png
image-20220428212257872.png

(3)数据集格式转换

数据集格式转换:将数据集转换为MindRecord格式,可借助models仓库提供的转换脚本进行转换,生成的MindRecord文件在`./cora_mindrecord`路径下。

image-20220428212932617.png
image-20220428212932617.png

加载数据集

MindSpore目前支持加载文本领域常用的经典数据集和多种数据存储格式下的数据集,用户也可以通过构建自定义数据集类实现自定义方式的数据加载。

下面演示使用`MindSpore.dataset`模块中的`MindDataset`类加载上述已转换成mindrecord格式的cora数据集。

image-20220428213334804.png
image-20220428213334804.png

数据处理

MindSpore目前支持的数据处理算子及其详细使用方法。下面构建pipeline,对节点进行采样等操作。

image-20220428213904511.png
image-20220428213904511.png
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2023-12-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • MindSpore加载图数据集
    • 图的概念
      • 数据集下载和转换
        • 加载数据集
          • 数据处理
          相关产品与服务
          图数据库 KonisGraph
          图数据库 KonisGraph(TencentDB for KonisGraph)是一种云端图数据库服务,基于腾讯在海量图数据上的实践经验,提供一站式海量图数据存储、管理、实时查询、计算、可视化分析能力;KonisGraph 支持属性图模型和 TinkerPop Gremlin 查询语言,能够帮助用户快速完成对图数据的建模、查询和可视化分析。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档