网页信息解析方法简述

文章来源：企鹅号 - 数据挖掘及分析

在之前的两篇文章中，小编介绍了通过Python中的第三方库requests库来获取url页面中的网页信息，那么获取成功后就要对网页信息进行解析了，其实就是筛选网页中我们需要的信息数据并提取出来。其实爬取网页的总的流程就是：获取网页解析网页、筛选、提取目标数据信息保存数据信息到本地。

今天说的内容就是针对第二个环节------解析网页、筛选、提取目标数据信息，针对这一环节，小编主要介绍两种方法：一是利用第三方库BeautifulSoup库来处理；二是利用正则表达式来处理，这两种方法一旦熟悉，处理以上要求是非常容易的，今天不过多阐述技术实现，而是更多向大家说明第二环节中的解析网页、筛选、提取信息是怎么回事，先明白 "是什么" 的问题，在之后 "怎么做" 就非常容易了。

首先说说解析网页，需要注意的是整个第二环节的工作都是在目标网页的源代码中完成的，我们需要做的就是查看想要爬取的网页的源代码，明确了解一下网页的整体架构，确定所要爬取的信息的存放位置，信息是包含在什么标签中，完成这些工作就为下一步的提取做好了准备

其次筛选和提取，在网页源代码中，你会发现有很多相同的标签，但是这些相同的标签包含的信息并不都是我们需要的，这个时候可以通过增加一些限定条件来筛选提取信息，还可以选择不同的方法来筛选提取信息。筛选和提取往往是同步进行的，筛选同时也就是确定筛选条件表达式，相当于是一些规则，比如BeautifulSoup库是通过相对路径来进行提取的，而正则表达式更多的是通过表达式规则来来进行的。这一块内容是最重要的，它决定着你能不能按照你的要求爬取数据。

最后就是把数据保存到本地了，这一块相对来说是比较简单的，前提是保证筛选和提取的正确性。

以上主要是对网页信息的解析与提取简单说一下，以便利于后期的实战操作

由于正则表达式库是Python的标准库，所以不需另行安装

下面说一下BeautifulSoup库的安装，Python的第三方库都可以通过pip命令来完成，可以参照之前文章对requests库的安装

下面操作是基于Windows操作系统的，运行cmd，键入pip install beautifulsoup4,按下enter键即可

然后可在IDE中输入import bs4 ,（bs4是python默认的beautifulsoup4的简写）按下回车键，若不出现错误，则安装成功。

以上是今天的主要内容，对于以上内容的讲解将在接下来的文章中进行详细说明，敬请期待

发表于: 2017-12-182017-12-18 22:08:45
原文链接：http://kuaibao.qq.com/s/20171218G0WHW100?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

网页信息解析方法简述

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐