前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >实战讲解四种不同爬虫解析数据方法,必须掌握!

实战讲解四种不同爬虫解析数据方法,必须掌握!

作者头像
Python研究者
发布2021-05-13 16:04:38
3730
发布2021-05-13 16:04:38
举报
文章被收录于专栏:Python研究者

1

前言

爬虫解析数据有很多种,爬取不同的数据,返回的数据类型不一样,有htmljsonxml文本字符串)等多种格式!

掌握这四种解析数据的方式,无论什么样的数据格式都可以轻松应对处理。

这四种方式分别是:1.xpath2.bs43.json4.正则。

下面以实战方式讲解这四种技术如何使用!!!

2

Xpath

1.请求数据

请求链接如下,以小说网站:新笔趣阁,为案例进行讲解

代码语言:javascript
复制
http://www.xbiquge.la/xuanhuanxiaoshuo/

导入相应的库

代码语言:javascript
复制
import requests
from lxml import etree

开始请求数据

代码语言:javascript
复制
headers = {
            'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36',
        }
url="http://www.xbiquge.la/xuanhuanxiaoshuo/"
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text

2.解析数据

比如我们要获取下面这些数据(小说名称)

分析网页标签

数据在class="l"-> ul ->li标签中

代码语言:javascript
复制
selector = etree.HTML(text)
list = selector.xpath('//*[@class="l"]/ul/li')

解析li中数据

可以看到,数据在li->span->a 标签中

代码语言:javascript
复制
for i in list:
    title = i.xpath('.//span/a/text()')
    href = i.xpath('.//span/a/@href')
    print(title)
    print(href)
    print("--------")

3

Bs4

1.请求数据

请求链接如下,同样以小说网站:新笔趣阁,为案例进行讲解

代码语言:javascript
复制
http://www.xbiquge.la/xuanhuanxiaoshuo/

导入相应的库

代码语言:javascript
复制
import requests
from bs4 import BeautifulSoup

开始请求数据

代码语言:javascript
复制
headers = {
            'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36',
        }
url="http://www.xbiquge.la/xuanhuanxiaoshuo/"
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text

2.解析数据

比如我们要获取下面这些数据(小说名称)

分析网页标签

可以看到,数据在span中(class="s2") 标签中

法一

代码语言:javascript
复制
###法一
list = soup.find_all(attrs={'class':'s2'})
for i in list:
    print(i.a.get_text())
    print(i.a.get("href"))
    print("--------")
print(len(list))

法二

代码语言:javascript
复制
####法二
# 获取所有的链接
all_link = [(link.a['href'], link.a.get_text()) for link in soup.find_all('li')]
for i in all_link:
   print(i)

4

json

1.请求数据

请求链接如下,获取ip定位,为案例进行讲解

代码语言:javascript
复制
https://restapi.amap.com/v3/ip?key=0113a13c88697dcea6a445584d535837&ip=123.123.123.123

导入相应的库

代码语言:javascript
复制
import requests
import json

开始请求数据

代码语言:javascript
复制
ip = "123.123.123.123"
url="https://restapi.amap.com/v3/ip?key=0113a13c88697dcea6a445584d535837&ip="+str(ip)
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text

2.解析数据

比如我们要获取下面这些数据(省份和城市

代码语言:javascript
复制
text = res.text
print(text)
##text不是json类型的话,则转为json类型
text = json.loads(text)
print("省份="+text['province']+",城市="+text['city'])

5

正则表达式

1.请求数据

请求链接如下,以小说网站:新笔趣阁,为案例进行讲解

代码语言:javascript
复制
http://www.xbiquge.la/xuanhuanxiaoshuo/

导入相应的库

代码语言:javascript
复制
import requests
import re

开始请求数据

代码语言:javascript
复制
headers = {
            'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36',
        }
url="http://www.xbiquge.la/xuanhuanxiaoshuo/"
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text

2.解析数据

比如我们要获取下面这些数据(小说名称)

分析网页html

可以看到,数据在li->span->a 标签中,a标签前有“《”,后有“》”

代码语言:javascript
复制
pattern = re.compile('《.*?》')
items = re.findall(pattern, text)

for i in items:
    print(i)

6

总结

1.以实战方式讲解了四种不同解析数据的方式

2.讲解过程一步一步截图说明,方便小白入门学习!

3.本文干货满满,推荐收藏!收藏!收藏!

如果大家对本文代码源码感兴趣,扫码关注『Python爬虫数据分析挖掘』后台回复:四种解析 ,获取完整代码!

最后说一声:原创不易,求给个赞

、在看

、评论

------------- 推荐阅读 -------------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python研究者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.请求数据
  • 2.解析数据
  • 1.请求数据
  • 2.解析数据
    • 法一
      • 法二
      • 1.请求数据
      • 2.解析数据
      • 1.请求数据
      • 2.解析数据
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档