前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一次性搞定微博,苏生不惑又写了个脚本

一次性搞定微博,苏生不惑又写了个脚本

作者头像
苏生不惑
发布2023-11-16 14:57:59
5590
发布2023-11-16 14:57:59
举报
文章被收录于专栏:苏生不惑苏生不惑

苏生不惑第461 篇原创文章,将本公众号设为星标,第一时间看最新文章。

之前分享过很多微博相关的脚本和工具一键批量下微博内容/图片/视频,获取博主最受欢迎微博,图片查找微博博主,今天再整理下,一次性搞定微博。

还是以李健的微博为例https://weibo.com/u/1744395855 ,抓取2010-2023年所有的微博数据excel,包含微博链接,微博内容,发布时间,点赞数,转发数,评论数,话题等。

每个月的微博转评赞总数曲线,2015年是高峰。

微博原创与转发量曲线,2013年大量转发。

平常主要用iPad和网页版发微博。

微博内容生成的词云图效果:

抓取微博评论以这条微博为例 https://m.weibo.cn/status/4957540158537800 有些人是真的狗

这条微博下5000多条评论微博图床又搞事情不能用了,盘它,我顺便写了个微博图片/视频/内容/文章批量下载工具 ,大家都在义愤填膺的声讨狗主人。

来自广东的评论最多:

还有抓取微博转发,以这条微博为例https://m.weibo.cn/detail/4949167974650596 ,抓取的4000多条转发微博excel数据,包含微博昵称,微博uid,转发时间,转发地区,转发来源,转发内容,点赞数,转发数,评论数等。

来自江苏的转发最多:

用iPhone客户端转发的微博最多:

转发微博生成的词云图:

然后再说导出微博内容pdf, https://github.com/meterscao/Speechless 这个浏览器扩展可以将新浪微博的所有内容导出PDF ,打开https://weibo.com/musiclijian ,点击右上角开始拉取该用户可见的微博内容,然后用 Chrome浏览器 的导出 PDF功能合成pdf。

可以设置时间范围和内容类型(全部微博,原创微博)。

效果:

抓取完后保存为pdf。

最后生成的pdf文件:

除了这个chrome扩展还可以用这个油猴脚本导出微博内容 https://github.com/Chilfish/Weibo-archiver,安装油猴脚本后设置时间范围,是否下载原图,是否包含评论,是否包含转发微博,设置获取的评论数,不过只能获取公开可见的微博,获取数据不要刷新或关闭网页,否则重新获取。

开始备份:

抓取后直接导出pdf,效果:

备份微博收藏可以用这个油猴脚本,它能备份微博收藏,发布和点赞,备份以页为单位,每页20条,可以在输入框设置自已需要备份的页面范围,默认会下载全部数据,为防止保存文件过大,对备份数据分文件保存,默认10页存一个文件,备份图片清晰度分为3个等级,等级越大图片越大越清晰,备份完成后,数据自动保存到本地,下载格式为包含html文件和图片资源的 zip 压缩包,解压后使用谷歌浏览器打开。

导出的微博html效果:

备份他人微博需要输入对方的用户id,比如李健的id为1744395855 。

效果如图:

顺便再说下新浪博客下载https://github.com/junyiz/dature ,以古天乐的新浪博客为例,没想到他居然是日更博客 https://blog.sina.com.cn/louiskoo2008,从2008年一直更新到2023年,近6000条博客。

打开命令行执行 dature.cmd -u 1191258123 -c "cookie"

导出的效果如图,左侧为文章标题,右侧为文章内容:

再说下微博无水印图,最近微博图片加了防盗链,直接打开微博图片地址会显示403 Forbidden,很多用微博当图床的网站都挂了。

解决方法很简单,安装这个chrome扩展就可以继续用了https://chrome.google.com/webstore/detail/header-editor/eningockdidmgiojffjmkdblpjocbhgh/ ,它可以管理浏览器请求,包括修改请求头和响应头、重定向请求、取消请求,修改请求头、响应头、重定向请求、取消请求,安装后点击扩展进入管理界面,右下角点添加。

规则类型选择修改请求头,匹配类型选正则表达式 ,规则为.*\.sinaimg.cn,头名称为referer,头内容为https://weibo.com

然后在浏览器输入图片网址就可以访问了https://wx1.sinaimg.cn/oslarge/001U3j31ly1gnynq1xvcqj634022oqv502.jpg,除了编辑还可以导入规则,详情见 https://github.com/FirefoxBar/HeaderEditor

修改微博图片地址就能查看无水印图片,比如李健这张微博图片,地址 https://wx1.sinaimg.cn/mw690/001U3j31ly1gnynq1xvcqj634022oqv502.jpg

把mw690换成oslarge 就行了 https://wx1.sinaimg.cn/oslarge/001U3j31ly1gnynq1xvcqj634022oqv502.jpg

对于半年可见的微博是看不到的,不过如果微博博主有百家号的话,百家号会同步所有微博,所以半年前的微博也可以看了,比如胡歌的这条微博 https://author.baidu.com/home/71

微博最近还上线了访客记录 ,如果你是SVIP或VVIP会员,点进去可以看到昨日来访用户,也可以在我的访问页面管理自己的访问记录。

最新原创文章:

正式介绍下我的知识星球

2023 更新版:苏生不惑开发过的那些原创工具和脚本

再次更新:2023批量下载公众号文章内容/话题/图片/封面/视频/音频,导出文章pdf,文章数据含阅读数/点赞数/在看数/留言数

微博图床又搞事情不能用了,盘它,我顺便写了个微博图片/视频/内容/文章批量下载工具

2023 年数字图书馆 zlibrary 复活,新推出客户端人人可用

批量下载抖音视频,小红书视频,抓取抖音视频数据导出excel

如果文章对你有帮助还请 点赞/在看/分享 三连支持下, 感谢各位!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-11-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 苏生不惑 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档