现在随便哪个关系网络的数据规模都非常庞大,如https://snap.stanford.edu/data/上面公开的数据集,动不动都是几万个节点,十几万个边的。
然而这种大图数据背后的一些规律挖掘更突显了大数据发现价值的本质。
本篇博客在承接上次社团发现的问题,继续在大规模关系网络挖掘上进行分析测试。
主要实验数据集采用了三个:
(1) https://snap.stanford.edu/data/com-DBLP.html
com-DBLP | Undirected, Communities | 317,080 | 1,049,866 | 13,477 | DBLP collaboration network |
---|
对30多万个节点,100多万个边的测试,速度还是超快的,只需要
(2) https://snap.stanford.edu/data/com-Youtube.html
com-Youtube | Undirected, Communities | 1,134,890 | 2,987,624 | 8,385 | Youtube online social network |
---|
对110多万个节点,300万条边的测试
(3) 然而对于下面这个数据集,边数超过1000万,就发现内存不够的现象,这种现象简直是无解,普通PC还是胜任不了超大规模图的计算。当然要计算,得进行数据的预处理操作。
cit-Patents | Directed, Temporal, Labeled | 3,774,768 | 16,518,948 | Citation network among US Patents |
---|