通识 | 数据结构图如何利用大数据框架存

Spark学习技巧

发布于 2019-11-07 15:12:34

8900

文章被收录于专栏：Spark学习技巧Spark学习技巧

很久没写过文章了，今天就分享一下大数据中的图数据库Janusgraph的存储模型。希望对想做大数据图存储的粉丝有一定的帮助吧。由于没时间画图，所以图片来源于网络和Janusgraph官网，感谢各位作者的贡献。

图的存储结构

什么是图？图基本描述有定点，边，属性三种组成，常见的结构如下：

这奇奇怪怪的网络结构组成的图形就是图。

那么计算机中都是如何存储图的呢？学过数据结构的应该都知道图的基本存储结构有以下几种：

邻接矩阵
邻接表
十字链表
邻接多重表
边集数组

至于这几种图的存储模型具体数据结构描述，建议大家可以百度或者去找本数据结构的书看看。

大数据常用的图数据库Janusgraph底层是采用的邻接表的形式存储图的。邻接表的存储结构如下：

图中顶点用一个一维数组存储，对于顶点数组中，每个数据元素还需要存储指向第一个邻接点的指针，以便于查找该顶点的边信息
图中每个顶点Vi的所有邻接点构成一个线性表，由于邻接点的个数不定，所以用单链表存储，无向图称为顶点Vi的边表，有向图则称为顶点Vi作为弧尾的出边表

这种存储结构用大数据的框架去存，大家会不会首先想到hbase？hbase的存储结构就如下图所示：

hbase的表结构就是由 rowkey+列簇，每个列簇有没有限制的列（cell）组成。当然列不可能没有限制，列过大不便于查询，遍历效率低下。

与邻接表对比思考一下，hbase是不是很符合图的存储结构邻接表的表述：

rowkey就是类似于定点数组，一个列簇类似一个链表，存储相邻顶点集。由于一个顶点相邻顶点个数不定，而hbase对列簇里的列数有没有强制的数量限制，就刚刚好表述图的邻接表的存储模型。

下面是一个人际关系的简单的图，图中顶点标签是人，边标签是同事，还有各种属性，比如name，sinceYear。

可以见图存储的对象主要是顶点，边，属性。整理之后应该如下：

顶点存储的时候可以以一定的格式设计存储为rowkey，格式下面贴图，就不细讲了，在Janusgraph里面顶点id就是64bit。然后属性和边都视为一种存储结构，就是对应hbase的cell也即是一个列。属性也可以绑定到固定的边上。然后结构就是下面的样子

边和属性的内部存储结构也基本类似的，如下：

Edge和Property在cell中都是由column（列）和value（值）组成。

Edge中column由labelid（边标签id）+direction（边的方向，相对于节点的出边或者入边）+sort key（用于边排序的key）+adjacent vertex id（临近顶点的id）+edge id（边id）组成，value由signature key（签名密匙）+other properties（边的其他属性）组成。

Property中column由key id（属性的键id）组成，value由属性id+属性值组成。

顶点的结构如下：