前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >任意关键词(如淄博烧烤)微博数据抓取及可视化

任意关键词(如淄博烧烤)微博数据抓取及可视化

作者头像
月小水长
发布2023-07-03 14:32:54
4260
发布2023-07-03 14:32:54
举报
文章被收录于专栏:月小水长月小水长

利用在上一期【推送】中微博关键词爬虫,爬取了超过 4000 条微博数据,每条数据 18 个字段,这一期,我们来看看对这份数据的数据分析。包含常规可视化复杂网络建模两部分,也许值得一个收藏、转发。

常规可视化

这一步,选择本号之前开发过的微博话题可视化工具直接完成,工具地址为:

https://weibo-crawl-visual.buyixiao.xyz/topic-weibo-visual

只需要上传爬虫爬到的 csv 文件,就能立刻完成各种常规可视化任务。需要特别说明的是,为了符合数据格式要求,需要将爬到的 csv 文件中的 text 列名改成 content 列,把 status_city 列名改成 location

先来看下淄博烧烤关键词下的微博发布趋势可以选择按照月、天、小时、分四个维度查看趋势,这里选择按天查看。

搜索查得,淄博烧烤是从 3.8 开始火起来的,从图可见,3.9 就有相关的热门微博了,然后接下来的每个周末都有一个小波峰,看来周末打个高铁去淄博吃烧烤渐成潮流。

无论是从每天的情感分析均值来看,貌似不太积极,波动较大,推测可能是样本量太小,单条极性微博很容易影响均值,下面的总体情感分析也佐证了总体消极这个结论,但置信度存疑。

如果怀疑有水军成分,可以使用我之前训练过的 spammer 模型检测工具,几乎不会漏判。

spammer 模型在线使用地址为:

https://weibo-crawl-visual.buyixiao.xyz/weibo-spammer-evaluator

再来看下微博发布的 ip 属地城市分布情况。

从分布图上来看,最多发布来源于淄博当地,其次是北京,上海这些超级都市,同时,和淄博同省的烟台、潍坊、济南、青岛等山东其他地级市也有不少网友参与了话题讨论,总体来看,讨论淄博烧烤的大部分还是北方的城市。下面这个图很好的展示了 ip 属地的省份分布情况。

最后来看下词云图

需要过滤的停用词太多,就不一一添加了,正确的做法应该是本地对这个 csv 文件的 content 做 html 标签清洗

更多的常规可视化,比如流量桑基图:

可以去下面这个页面生成:

https://tools.buyixiao.xyz/advanced-chart

复杂网络建模

简言之就是抽取微博文本中相互引用的话题和相互艾特的好友,分别构造话题之间和好友之间的 gephi 文件和关系矩阵文件,详细解释可以参考 复杂网络 | 社交媒体话题和人物共现,工具地址在:

https://weibo-crawl-visual.buyixiao.xyz/weibo-topic-user-matrix-extractor

只需要上传爬取到的结果 csv 文件即可~,稍等就可下载结果 zip 文件。

zip 文件解压后有 user 和 topic 两个文件夹,每个文件夹里面都是各自的处理结果文件。

nodes.csv 和 edges.csv 和网页上展示的 demo 数据格式一致,我们打开 topic html 可视化文件,看看淄博烧烤这个话题,衍生出了哪些相关话题。

今天的分享就到这里,记得别在收藏夹吃灰。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-05-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 常规可视化
  • 复杂网络建模
相关产品与服务
检测工具
域名服务检测工具(Detection Tools)提供了全面的智能化域名诊断,包括Whois、DNS生效等特性检测,同时提供SSL证书相关特性检测,保障您的域名和网站健康。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档