专栏首页Python爬虫实战Python爬虫之三:抓取猫眼电影TOP100

Python爬虫之三:抓取猫眼电影TOP100

今天我要利用requests库和正则表达式抓取猫眼电影Top100榜单。

运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具:Chrome浏览器

1. 抓取单页内容

浏览器打开猫眼电影首页,点击“榜单”,然后再点击"TOP100榜",就能看到想要的了。

接下来通过代码来获取网页的HTML代码。

运行结果如下:

2. 正则表达式提取有用信息

在上图中,已经标注出我们将要提取的内容,下面用代码实现:

运行结果如下:

3. 保存信息

获取电影信息之后,要保存起来留用。要保存的有文本信息和电影封面。

下面为保存结果:

4.下载TOP100所有电影信息

通过点击标签页发现只是URL变化了:

修改main函数以动态改变URL:

到此我们已经将TOP100的电影信息和封面全部得到了。

5.多线程抓取

此次抓取的数据不算多,但是为了学习,使用多进程进行抓取,以应对以后大量的数据抓取。

下面为普通抓取和多进程抓取的时间对比:


以下为完整代码:


本文分享自微信公众号 - C与Python实战(CPythonPractice)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-01-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python爬虫:爬取在线教程转成pdf

    1、网站介绍2、准备工作2.1 软件安装2.2 库安装3、爬取内容3.1 获取教程名称3.2 获取目录及对应网址3.3 获取章节内容3.4 保存pdf3.5 合...

    王强
  • Google Python风格规范(上)

    好的代码风格,给人舒服的感觉,今天介绍一下谷歌的Python风格规范,由于规范比较多,将分为两次介绍。

    王强
  • 算法:括号匹配问题

    还记得有一次笔试题,有一道括号匹配的算法题,当时没有学习数据结构和算法,思路很模糊,后来了解一些数据结构之后就有思路了,今天将解法写出来。

    王强
  • 学界 | CoRL 2018最佳系统论文:如此鸡贼的机器手,确定不是人在控制?

    与物体进行交互的操作是机器人技术中最大的开放问题之一:在开放的世界环境中智能地与以前没有见过的物体进行交互需要可以泛化的感知、基于视觉的闭环控制和灵巧的操作。强...

    机器之心
  • 学界 | UC伯克利AI实验室发干货:用于训练神经网络抓取机器人的Dex-Net 2.0数据集

    AI科技评论按:伯克利AI实验室最新发文公布了用于机器人抓取的Dexterity Network (Dex-Net) 2.0数据集,这些数据集可以用来训练根据实...

    AI科技评论
  • 「docker实战篇」python的docker-抖音视频抓取-总结(下)(26)

    IT故事会
  • Python爬虫,抓取淘宝商品评论内容

    作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫!

    云飞
  • JS一些表单验证常用的正则表达式收集

    落叶大大
  • 一文读懂如何在 Kubernetes 上轻松实现自动化部署 Prometheus

    Prometheus 是当下火热的监控解决方案,尤其是容器微服务架构,Kubernetes 的首选监控方案。关于为什么要用 Prometheus,我这里就不多讲...

    iMike
  • 一文读懂如何在 Kubernetes 上轻松实现自动化部署 Prometheus

    Prometheus 是当下火热的监控解决方案,尤其是容器微服务架构,Kubernetes 的首选监控方案。关于为什么要用 Prometheus,我这里就不多讲...

    kubernetes中文社区

扫码关注云+社区

领取腾讯云代金券