前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫进阶(四)

爬虫进阶(四)

作者头像
张俊红
发布2018-04-11 14:59:13
7830
发布2018-04-11 14:59:13
举报
文章被收录于专栏:张俊红张俊红

总第71篇

01|背景:

前段时间给人填报志愿,无意间发现这个网站的:http://gkcx.eol.cn/soudaxue/queryschoolgufen.html,这个网站整体不错,会根据生源地、高考分数、和文理科来推荐一些可以报考的学校,但是使用不是很方便,不可以设置多个条件(比如我想把东三省的学校挑出来),只能一个省份一个去点击。再比如我想要录取概率在50%以上的学校,同样也做不到,要是能下载excel中的话可以多条件筛选的,平日里学的爬虫终于派上用场了。

但是在爬取的过程中发现了一个问题在审查元素中存在的内容但在网页源代码中不存在,所以通过request请求得到的response内容中也不存在,导致我们最后在用find_all查找的时候结果为空,于是乎就各种百度终于找到了解决方案,原来是因为我们要查找的数据是通过AJAX来加载的。关于js数据的获取,发现一篇前人写的很不错的文章,现在贴出来:https://sanwen8.cn/p/46fgV6R.html

在之前也写过一篇关于AJAX加载的数据,上次那一篇是直接通过查找XHR中来获取js数据:爬虫进阶(一),这次我们用selenium来获取js数据。

02|明确爬虫目的:

我想要爬取该网站的学校名字、学校类别、报该学校的风险大小以及录取概率。

03|获取目标url:

该网站的网页构成还是相对简单,由基础的网页域名+一些参数就是目标url。这里有一个重点内容是将字符串转化为url参数,需要利用urlencode.

代码语言:javascript
复制
base="http://gkcx.eol.cn/soudaxue/queryschoolgufen.html"for i in range(1,10):  #这里的10根据结果页数来调整
    data={        
        "mark":450,
        "fsxxxS":"山西",        
        "examineeType":"理科",       
        "page":i
    }
    dated=urllib.parse.urlencode(data)
    url=base+"?"+dated

这里的mark(分数)、fsxxxs(生源地)、examineeType(文科or理科)均可以修改。

04|请求目标url:

这里因为我们需要的数据是通过AJAX加载的,利用request请求不能够直接得到我们想要的内容(我们想要的数据未加载出来),这里我们利用selenium模拟浏览器让网页数据全部加载完成(包括我们想要的数据)。

代码语言:javascript
复制
browser = webdriver.Chrome()#创建一个浏览器对象
browser.get(url)
html=browser.page_source#将selenium加载出来的网页内容传递给html

05|解析selenium所获得的内容:

这里我们还是借助Beautifulsoup库来进行解析。

代码语言:javascript
复制
soup = BeautifulSoup(html,'lxml')

06|获取我们需要的内容:

这里我们利用正则表达式来获取我们所需要的内容。需要注意的是re.search的被匹配内容需要是字符串,所以用str将soup列表中的内容转化。

代码语言:javascript
复制
soup1=soup.find_all("tr")
for m in range(1,len(soup1),2):
‍    result=re.search("<a.*?title=.*?>(\S+)</a>.*?<span>(\S+)</span>.*?<span class=.*?>(\S+)</span>(\S+)</td>",str(soup1[m]))
    school.append(result.group(1))
    category.append(result.group(2))
    risk.append(result.group(3))
    probability.append(result.group(4))‍

school、category、risk、probability是用来存放对应值而建立的空列表。最后将这些列表利用pandas进行合并导出为excel即可。可以参考下文:

房天下数据爬取及简单数据分析

07|本篇的一些重点:

1)将字符串urlencode成url参数。 2)利用selenium对js数据进行加载。 3)利用正则表达式取出想要的多个内容。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-07-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 俊红的数据分析之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01|背景:
  • 02|明确爬虫目的:
  • 03|获取目标url:
  • 这里的mark(分数)、fsxxxs(生源地)、examineeType(文科or理科)均可以修改。
  • 04|请求目标url:
  • 05|解析selenium所获得的内容:
  • 06|获取我们需要的内容:
  • 07|本篇的一些重点:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档