简单python爬虫案例

文章来源：企鹅号 - 四月阳光w

技术选型

下载器是Requests

解析使用的是正则表达式

效果图:

准备好各个包

开始编写代码,new一个py文件

1.requests下载页面

这里需要注意编码的问题;

就像下面这样：

这样返回的就是一个string类型的数据

2.except RequestException:捕捉异常

为了代码更加健壮，我们在可能发生异常的地方做异常捕获

更多异常介绍官网

http://www.python-requests.org/en/master/_modules/requests/exceptions/#RequestException

到这里，我们就可以编写main方法进行调用程序了

代码如下:

这样就可以把页面下载下来了

接着,就是解析页面

3.正则表达式介绍

re.compile()方法:编译正则表达式

通过一个正则表达式字符串编译生成一个字符串对象

re.findall(pattern,html)方法:找到所有匹配的内容

完整代码:

保存解析后的数据到本地文件

4.保存文件操作

代码如下:

5.爬取所有页面并以多进程方式

分析页面,会发现,需要爬取的页面如下

我们需要构造这种格式的页面

url = 'https://coding.imooc.com/?page='+str(page)

主函数可以类似这样:

for i in range(4):

main(i+1)

完整代码:

到这里,我们就能够把慕课网上面的全部实战课程的信息爬取下来,拿到这些数据,你就可以做自己喜爱的分析了

相关快讯