python爬虫案例——百度贴吧数据采集

文章来源：企鹅号 - Python开发

Linux编程

点击右侧关注，免费入门到精通！

作者丨数据架构师

通过python实现百度贴吧页面的内容采集是相对来说比较容易的，因为百度贴吧不需要登陆，不需要cookie，不需要设置http的MIME头

本案例使用python实现百度贴吧数据采集，获取百度贴吧的文章内容，楼层

百度贴吧网址比如：http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1，这是一个关于NBA50大的盘点，分析一下这个地址。

所以我们可以把URL分为两部分，一部分为基础部分，一部分为参数部分。

例如，上面的URL我们划分基础部分是

http://tieba.baidu.com/p/3138733512

参数部分是 ?see_lz=1&pn=1

爬虫过程比较简单，基本还是围绕：请求、正则解析、打印存储

注意：python3.4以后中，将urllib2、urlparse、robotparser并入了urllib模块，并且修改了urllib模块，其中包含了5个子模块，每个子模块中的常用方法如下：

python2.7下

python3.6下

推荐↓↓↓

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货