面向大规模社会关系网络数据的层次数据发现

sparkexpert

发布于 2022-05-07 14:06:35

2030

发布于 2022-05-07 14:06:35

文章被收录于专栏：大数据智能实战

现在随便哪个关系网络的数据规模都非常庞大，如https://snap.stanford.edu/data/上面公开的数据集，动不动都是几万个节点，十几万个边的。

然而这种大图数据背后的一些规律挖掘更突显了大数据发现价值的本质。

本篇博客在承接上次社团发现的问题，继续在大规模关系网络挖掘上进行分析测试。

主要实验数据集采用了三个：

(1) https://snap.stanford.edu/data/com-DBLP.html

com-DBLP	Undirected, Communities	317,080	1,049,866	13,477	DBLP collaboration network

对30多万个节点，100多万个边的测试，速度还是超快的，只需要

(2) https://snap.stanford.edu/data/com-Youtube.html

com-Youtube	Undirected, Communities	1,134,890	2,987,624	8,385	Youtube online social network

对110多万个节点，300万条边的测试

(3) 然而对于下面这个数据集，边数超过1000万，就发现内存不够的现象，这种现象简直是无解，普通PC还是胜任不了超大规模图的计算。当然要计算，得进行数据的预处理操作。

cit-Patents	Directed, Temporal, Labeled	3,774,768	16,518,948	Citation network among US Patents

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2015-12-25，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度