【爬虫军火库】Chrome F12使用Network分析异步请求

不二小段

发布于 2018-04-08 12:00:33

2.5K0

发布于 2018-04-08 12:00:33

文章被收录于专栏：不二小段

昨天在知乎收到一条邀答（https://www.zhihu.com/question/263298910）：

我想做一个web scrape，用requests和beautifulSoup，代码如下：

url_to_scrape = 'http://finance.sina.com.cn/data/index.html#stock-schq-hsgs-xlhy'
r = requests.get(url_to_scrape,'html.parser')
r.encoding = 'gb2312'
soup = BeautifulSoup(r.content,'html.parser')

我想抓取该页面下“新浪行业板块”表格的数据，可是上面的代码print（soup）看不到该表格内容。我查了一下，好像是javascript的表格，需要点击“新浪行业板块”这个按钮才能获得该内容，请问该怎么用代码实现啊？我搜了下，有的说用selenium，有的说打开浏览器看“network”下点击该按钮后的请求过程。不太明白怎么弄，请大侠指点下，谢谢。

今天就来讲讲 打开浏览器看“network”下点击该按钮后的请求过程。

大家都知道，写爬虫无非是请求、解析、存取几步。相应地，我们就需要首先能够找到一个正确的入口（URL），成功请求到数据（避开一些反爬限制，比如UA、IP访问频率），弄懂对方的页面结构（parse HTML结构），提取出目标数据并保存（extract&save）。

也有一句话叫做，理论上讲，只要我们能从浏览器里看到的，都是可以抓取的数据。这也就导致，很多人一接到爬虫任务，想也不想就去浏览器右键-查看网页源代码，一顿分析以后就直接请求数据，一顿正则（或者BeautifulSoup）以后发现匹配为None……最后一看，目标数据根本不在返回值里。

这样就是今天的朋友遇到的这个问题了。浏览器查看到的网页源代码，是完成了所有的请求、执行完相应JavaScript脚本的结果，而我们的目标数据，不一定都在对URL的那次请求里。

说白了！爬虫的第一步不应该是查看页面源代码，而是应该去查看Network请求过程，只有这样，才能获取到正确的入口，而非缘木求鱼。

需要说明的是，有些时候，异步请求数据对爬虫而言不一定是坏事，很可能会直接获取到数据结构更简洁的API。

Network从哪儿看？有些人喜欢用Firefox的Friebug插件，有些人喜欢用Chrome自带的开发者工具，其实都是一个意思。