如何用代码控制浏览器下载知乎大v的粉丝数据?

这个是答应了群友好久的一篇教程。 在之前也有几篇文章是解答公众号订阅用户的相关问题而写的,例如:

回到本文,群友问:如何在浏览器简便地爬取数据,并下载成 json 格式的文件到本地电脑。本文以下载知乎大v的粉丝数据为例,介绍4个知识点,爬虫相关的 html 获取与解析,模拟鼠标点击,缓存数据至本地,自动下载文件至本地。接下来我们一步步来:

1

选定目标页面

爬取知乎大 v 的粉丝数据,比如拿李开复老师的知乎开刀:

2

编写爬取函数

浏览器打开后,在 console 面板注入以下代码:

3

开始自动获取数据

开启一个定时任务,再输入:

4

保存数据至本地文件

等待爬取完成后,再输入:

停止定时任务,或者直接刷新下浏览器暴力停止下哈。然后输入:

执行下:

这样李开复老师的粉丝数据就都获取到了,接下来想怎么分析就怎么分析吧~例如,我们可以找出粉丝中的斜杆青年:

"WEB前端工程师/Ui设计师。",

"前端开发/设计爱好者",

"Web 前端 / 像素字体设计师",

"设计师,人工智能编程",

"设计师加前端工程师",

"懂设计的前端小白",

"前端开发&ui设计尸",

"设计师 前端 代码 UI 网页 广告",

"设计师/WEB前端工程师/自媒体人",

"不会前端的设计师不是好产品经理",

"前端攻城狮,略懂一点设计,饮四季茶,写八九行代码,十全大补书中达",

"产品经理/前端开发/交互设计/游戏原画",

"不想编程的伪码农不是好设计师",

"会编程的交互设计师",

"望着设计,想着编程,做着文员",

"交互设计/产品设计/数据可视化/网络开发/前端设计",

"景观设计/平面设计爱好者/前端自学中/猫/伪乐观的悲观主义者",

"不想当设计师的产品经理不是好前端",

"业余家装设计/插画/编程/篮球/电子商务",

"懵懂编程,专注设计",

"前端控/设计控"

ps:本文仅供学习研究技术之用。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180421G1CEHK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券