简单python爬虫案例

文章来源：企鹅号 - 四月阳光w

技术选型

下载器是Requests

解析使用的是正则表达式

效果图:

准备好各个包

开始编写代码,new一个py文件

1.requests下载页面

这里需要注意编码的问题;

就像下面这样：

这样返回的就是一个string类型的数据

2.except RequestException:捕捉异常

为了代码更加健壮，我们在可能发生异常的地方做异常捕获

更多异常介绍官网

http://www.python-requests.org/en/master/_modules/requests/exceptions/#RequestException

到这里，我们就可以编写main方法进行调用程序了

代码如下:

这样就可以把页面下载下来了

接着,就是解析页面

3.正则表达式介绍

re.compile()方法:编译正则表达式

通过一个正则表达式字符串编译生成一个字符串对象

re.findall(pattern,html)方法:找到所有匹配的内容

完整代码:

保存解析后的数据到本地文件

4.保存文件操作

代码如下:

5.爬取所有页面并以多进程方式

分析页面,会发现,需要爬取的页面如下

我们需要构造这种格式的页面

url = 'https://coding.imooc.com/?page='+str(page)

主函数可以类似这样:

for i in range(4):

main(i+1)

完整代码:

到这里,我们就能够把慕课网上面的全部实战课程的信息爬取下来,拿到这些数据,你就可以做自己喜爱的分析了

发表于: 2018-08-062018-08-06 19:26:50
原文链接：https://kuaibao.qq.com/s/20180806G1LB1G00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

简单python爬虫案例

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐