前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >微博特定群体用户关系网络可视化

微博特定群体用户关系网络可视化

作者头像
月小水长
发布2021-10-14 17:00:03
8060
发布2021-10-14 17:00:03
举报
文章被收录于专栏:月小水长月小水长

本篇可以说是给微博爬虫系列开了一个小方向,抓取微博特定用户的关注信息,并做了一定的可视化工作。下面以抓取明星关注为例,阐述从抓取数据,到关系网络的构造,最后使用 gephi 可视化的全流程。

第一步,以一个给定的明星 uid 为起点,爬取它的关注,接着爬关注的关注...从形式上看是一个递归的网络,所以设计了一个递归的爬虫,可以指定抓取指定的层数,断网或其他出错可以从上次爬到的地方继续;一般来说 3 层就非常多,以一个明星关注 100 个明星为例,第一层只有起点明星,第二层有 100 个明星,第三层就有 10000 个明星了,我使用杨幂的 uid 为起点,抓取 3 层网络,实测抓到了 2w+ 明星,20w+ 对明星关注关系,最后随机抽了 5000 条关注关系,2000 余明星。

第二步,根据上一步得到的数据构造关系矩阵,方便 gephi 可视化输入。这个关系矩阵需要两个 csv 文件表示,一个节点 nodes.csv 文件,另一个边表 edges.csv 文件。如下图所示。

节点表

边表

nodes.csv 四个字段,Id 即该明星的微博 UserId,Weight 是在关系网络中被关注的次数,class 是 louvain 聚类的结果。

edges.csv 三个字段,边的起点、终点、权重。

第三步,把数据导入 gephi,一顿点点点的操作后,可视化图形就出来了。

全景图

局部放大图

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-10-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 本篇可以说是给微博爬虫系列开了一个小方向,抓取微博特定用户的关注信息,并做了一定的可视化工作。下面以抓取明星关注为例,阐述从抓取数据,到关系网络的构造,最后使用 gephi 可视化的全流程。
相关产品与服务
文件存储
文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档