前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >增量微博备份工具:指定时段,单博主可备份十万条微博文本、高清图片和 HD 视频

增量微博备份工具:指定时段,单博主可备份十万条微博文本、高清图片和 HD 视频

作者头像
月小水长
发布2023-04-27 18:21:20
6580
发布2023-04-27 18:21:20
举报
文章被收录于专栏:月小水长月小水长

如果有备份微博的需求,可以参考前面发布的 开源 | 微博备份和相册下载 ,但恰好我又是个运营产品小白,而且不想搭建本地 Python 环境,我特别想要一款云端爬虫,PC 和手机都能备份,网页点点点就能完事,而且可以增量指定用户爬取大量的微博。

比如有个博主有 10w 条博文,如果手动备份,估计备份到后年去,调研发现现有微博备份工具在备份数据量、备份速度和数据丰富度上很难同时让人满意,于是就就开发了这个工具,它具有以下功能。

1、可以备份自己或者他人的微博数据。可以是任意公开微博和粉丝可见的微博(需要先关注目标博主)。微博保存的 csv 文件字段多达十余个:用户主页、用户认证类型、微博链接、微博正文文本、图片链接、视频链接、转评赞数

2、增量更新,本月备份后,下月底备份只会备份下月更新的微博。但是下载结果是增量后全部的微博。

3、断点续传,由于某些原因备份中断后,下次备份同一个博主时,会从出错的地方继续备份

4、指定年份,默认选择的是最近两年,可多选,每次指定年份开始抓取后是累计已经抓取过的年份的所有微博

5、如果不是原创微博,会自动带上转发理由转发原文

6、可选下载高清原图和HD视频(比不下载耗时较多)。

如果下载所有的图片或者视频,最多的博主可能有多达几十 G 的磁盘占用,为了防止网站负荷过载,作出一些限制:

1、单个博主单次抓取限制 10 张图片、2 个视频。

2、每个视频限制最大为 10 M,单张照片无限制。

当然,所有的博文文本是没有任何限制的,只对多媒体资源下载限制,但是仍然可以在下载微博文本 csv 后,根据 csv 文件里面的图片或者视频链接在本地进行下载。

图片和视频下载的 Python 代码都贴在了网站上。

网站备份需要输入微博用户的数字 uid,备份结束后网站左下方会显示下载按钮,下载结果是一个 zip 文件,里面包括 weibo、image、video 3 个子文件夹(后面 2 个勾选了同时下载才有)。分别是博文 csv 文件夹(包括分月的微博 CSV 和总的微博 CSV)、图片和视频文件夹,zip 文件名就是 {uid}.zip。

迭代过 M 个版本,且熬过 N 个黑夜,才终于没 bug,上线了,更多详情操作请移步网站,地址为:

代码语言:javascript
复制
https://weibo-crawl-visual.buyixiao.xyz/weibo-user-backup
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-03-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 如果有备份微博的需求,可以参考前面发布的 开源 | 微博备份和相册下载 ,但恰好我又是个运营产品小白,而且不想搭建本地 Python 环境,我特别想要一款云端爬虫,PC 和手机都能备份,网页点点点就能完事,而且可以增量指定用户爬取大量的微博。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档