技术选型
下载器是Requests
解析使用的是正则表达式
效果图:
准备好各个包
开始编写代码,new一个py文件
1.requests下载页面
这里需要注意编码的问题;
就像下面这样:
这样返回的就是一个string类型的数据
2.except RequestException:捕捉异常
为了代码更加健壮,我们在可能发生异常的地方做异常捕获
更多异常介绍官网
http://www.python-requests.org/en/master/_modules/requests/exceptions/#RequestException
到这里,我们就可以编写main方法进行调用程序了
代码如下:
这样就可以把页面下载下来了
接着,就是解析页面
3.正则表达式介绍
re.compile()方法:编译正则表达式
通过一个正则表达式字符串 编译生成 一个字符串对象
re.findall(pattern,html)方法:找到所有匹配的内容
完整代码:
保存解析后的数据到本地文件
4.保存文件操作
代码如下:
5.爬取所有页面并以多进程方式
分析页面,会发现,需要爬取的页面如下
我们需要构造这种格式的页面
url = 'https://coding.imooc.com/?page='+str(page)
主函数可以类似这样:
for i in range(4):
main(i+1)
完整代码:
到这里,我们就能够把慕课网上面的全部实战课程的信息爬取下来,拿到这些数据,你就可以做自己喜爱的分析了
领取专属 10元无门槛券
私享最新 技术干货