前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >超级牛逼的Python库,漂亮的打印,爬虫爱好者最喜欢!

超级牛逼的Python库,漂亮的打印,爬虫爱好者最喜欢!

作者头像
快学Python
发布2021-08-09 14:35:02
5460
发布2021-08-09 14:35:02
举报
文章被收录于专栏:快学Python

遇到的问题

在学习爬虫的时候,大家肯定碰到过返回的结果是json字符串格式的数据。

对于这种数据我们通常使用的是json模块,将json字符串,转化为字典格式的数据,然后采用 “键值对” 方式,获取我们想要的数据。

但是存在一个问题:

  • 往往网页获取到的json数据转化为字典后,嵌套太多,一层接着一层,看起来一团糟的感觉,往往不知道哪个节点是哪个节点的下一级。

今天我们就是告诉大家一个好用的Python库——pprint,这可算是一个超实用的爬虫技巧,大家赶紧拿出你的小本本,记录下来。

引入案例

下面我们以爬取腾讯新闻为例,看看最终爬取下来的是个什么玩意儿。

代码语言:javascript
复制
import requests
import json

china_url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}

response = requests.get(url = china_url,headers = headers).json()
data = json.loads(response["data"])
print(type(data))
print(data)

结果如下:

我们利用json()方法,直接将json字符串,转换为了dict格式的数据。扫描一下数据,我的妈!一大堆,我该怎么解析?

pprint模块的妙用

那么,有没有一种好的办法,能够快速帮助我们理清字典嵌套之间的关系呢?pprint模块是一个很好的选择。

这是一个第三方库,在使用之前,我们需要pip安装。

代码语言:javascript
复制
pip install pprint  

安装后,直接导入即可。

代码语言:javascript
复制
from pprint import pprint  

接着,对于上述案例,我们使用pprint()函数,打印一下,看看会有什么好的效果呢?

代码语言:javascript
复制
from pprint import pprint  
  
pprint(data)  

结果如下:

从图中可以看出,这个嵌套关系,一目了然,清清楚楚,明明白白,这样应该很好解析了吧。

下面在用一个简单的案例,带大家感受一下。

代码语言:javascript
复制
dic = { 'main': {'temp': 44, 'feels\_like': 40.42, 'temp\_min': 44,   
'temp\_max': 44, 'pressure': 1002, 'humidity': 11},   
'visibility': 6000, 'wind': {'speed': 4.1, 'deg': 290,   
'gust': 9.3}, 'clouds': {'all': 30}, 'dt': 1590398990,   
'sys': {'type': 1, 'id': 9165, 'country': 'IN',   
'sunrise': 1590364538, 'sunset': 1590414050},   
'timezone': 19800, 'id': 1273294, 'name': 'Delhi',   
'cod': 200}

有这样一个嵌套字典,如果想要获sys标签下面的id数据,应该怎么办呢?

代码语言:javascript
复制
pprint(dic)  

结果如下:

对于上面这个数据,我想大家应该没问题了吧,如果想要获取sys标签下的id数据,你应该知道怎么做吧?

代码语言:javascript
复制
dic['sys']['id']

结果如下:

网页源代码的结果,基本是一致的,因此你清楚了这中结构关系,只需要一个for循环,就可以很简单的拿到你想要的数据。

好了,今天的讲解就到这里,后面带大家讲述一下本文开头提到的json数据。

人生苦短,快学Python

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 快学Python 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引入案例
  • pprint模块的妙用
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档