python爬虫——猫眼电影top100

文章来源：企鹅号 - 机器学习深度学习分享

# python爬虫

爬虫四部曲

1. 向服务器发生request（post/get）2.服务器响应，返回response3.从response中解析出我们需要的内容4.将解析的内容保存到文件/数据库

python中的库是很方便用于处理请求和响应的库。同时库又能让我们很好的处理正则表达式。

今天实现了一个爬去猫眼电影top100榜单，总体上还是很简单的，通过代码重温一下实现过程。

request & response

首先，通过get函数发送一个get请求，headers是请求头，在这里，如果没加请求头，服务器会拒绝我们的访问。然后，我们读取到response中的text内容，也就是网页的html代码，它是一个str类型的。当然，这里需要try-catch一下，涉及网络部分异常经常需要处理，这个 RequestException是一个异常父类。

正则表达式匹配

以下为猫眼电影每个电影块的html框架，我们很容易可以根据这个去获取到我们想要的电影信息，当然也就是靠正则去匹配了。

解析html源代码

保存爬取到的信息到文件/数据库

根据猫眼电影排行榜的网址，我们很容易发现就是我们需要改变的一个偏移量。OK,剩下代码如下。

python中的Pool()函数支持多线程，爬取的速度明显比单线程快，但是多线程不能保证爬取到的电影信息正好是按照rank排列的吧。所以，我个人觉得还是单线程吧。 :-)

发表于: 2018-04-222018-04-22 22:42:09
原文链接：http://kuaibao.qq.com/s/20180422G1BN5400?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

python爬虫——猫眼电影top100

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐