首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python爬虫——猫眼电影top100

# python爬虫

爬虫四部曲

1. 向服务器发生request(post/get)2.服务器响应,返回response3.从response中解析出我们需要的内容4.将解析的内容保存到文件/数据库

python中的 库是很方便用于处理请求和响应的库。同时 库又能让我们很好的处理正则表达式。

今天实现了一个爬去猫眼电影top100榜单,总体上还是很简单的,通过代码重温一下实现过程。

request & response

首先,通过get函数发送一个get请求,headers是请求头,在这里,如果没加请求头,服务器会拒绝我们的访问。然后,我们读取到response中的text内容,也就是网页的html代码,它是一个str类型的。当然,这里需要try-catch一下,涉及网络部分异常经常需要处理,这个 RequestException是一个异常父类。

正则表达式匹配

以下为猫眼电影每个电影块的html框架,我们很容易可以根据这个去获取到我们想要的电影信息,当然也就是靠正则去匹配了。

解析html源代码

保存爬取到的信息到文件/数据库

根据猫眼电影排行榜的网址 ,我们很容易发现 就是我们需要改变的一个偏移量。OK,剩下代码如下。

python中的Pool()函数支持多线程,爬取的速度明显比单线程快,但是多线程不能保证爬取到的电影信息正好是按照rank排列的吧。所以,我个人觉得还是单线程吧。 :-)

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180422G1BN5400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券