新手也能做爬虫!一起来爬电影信息吧

第二篇练手的东西来了,当然这里的电影信息并不是那些评论或者评分什么的,今天咱们来试试直接爬电影链接!

老规矩,先选定目标,然后分析。

这里我们选择电影天堂网,毕竟都是高清的。url='https://www.dy2018.com/'

那么多的分类,我们先试试最新电影,点击更多,然后就打开了电影列表

一页有25篇电影,包括影片名字和简介,点击进去后就是每一篇影片的具体说明,下方有下载地址,这就好办了,不多说,开始写代码吧,这里小编用的是Python3.6版本。

这次我们用Python的xpath来抓取我们需要的内容,先导入模块:requests。因为xpath是lxml库的一个方法,所以需要用“from lxml import etree"来导入,没有安装的小伙伴可以用'pip install lxml'来安装。

我们先定义一个函数,用requests来获取网页源代码,同时把头部信息加入:

注意网页用的编码格式是gb2312,不写会出乱码哦。

找到url,并查看url的翻页方式,这里就不在源码里查找翻页了,直接拉下面。

然后写入循环,开始查找每一个电影的页面url,直接上代码:

结果如下:

然后再次循环,并拼接网址:

就得到了每页电影的url,结果如下:

然后解析网址,开始查找我们需要的内容,标题、下载地址,代码如下:

结果如下:

标题是唯一的,所以取出列表后,直接取第一个元素。下载地址一般是有2个,需要分别取出,然后分别写入txt文件,代码如下:

结果:

ok~完工!可以直接把喜欢的电影的url复制到其他软件下载了,当然这里也可以继续找到简介、评分、主演等等内容爬下来保存,就交给小伙伴自己研究吧。完全代码截图:

喜欢就关注一波呗(^_^),想和小编一起学习Python的,或者想要源代码的,都可以来小编的群里哦,大家一起学习进步。

原文发布于微信公众号 - 云飞学python(P542110741)

原文发表时间:2018-02-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏架构师小秘圈

你所不知道的库存超限做法

作者:程序诗人,来自:cnblogs.com/scy251147 零,题记 在互联网企业中,限购的做法,多种多样,有的别出心裁,有的因循守旧,但是种种做法皆想达...

35060
来自专栏架构师之路

58龙哥教你“如何做系统性能优化”(纯干货)

如何做系统性能优化 性能优化的目标是什么?不外乎两个: 时间性能:减小系统执行的时间 空间性能:减小系统占用的空间 一、代码优化 做代码优化前,先了解下硬件Ca...

34240
来自专栏精讲JAVA

怎样编写高质量的Java代码

代码质量概述 怎样辨别一个项目代码写得好还是坏?优秀的代码和腐化的代码区别在哪里?怎么让自己写的代码既漂亮又有生命力?接下来将对代码质量的问题进行一些粗略的介绍...

456100
来自专栏java学习

学习java需要会哪些知识才能够去应聘工作?

按照我去培训机构的学习经历,给初学还有自学Java 的同学一个基本的学习脉络,希望对大家有帮助。 不建议找到一本书死啃,没啥用,不要有这一页看不明白我就不往下看...

335100
来自专栏哲学驱动设计

使用Repository模式支持产品的客户化

    本篇博客简单描述了Repository模式在OEA中的应用。 不使用Repository时的问题     OEA框架中使用了DDD的思想,面向领域对象进...

21250
来自专栏云加头条

Redis 设计思路学习与总结

下半年利用空余时间研究和分析了部分Redis源码,本文从网络模型、数据结构和内存管理、持久化和多机协作四个角度对redis的设计思路进行了分析,若有不正确之处,...

11K60
来自专栏python小白到大牛

有轻功:用3行代码让Python数据处理脚本获得4倍提速

Python是一门非常适合处理数据和自动化完成重复性工作的编程语言,我们在用数据训练机器学习模型之前,通常都需要对数据进行预处理,而Python就非常适合完成这...

18030
来自专栏测试驿栈

Jmeter(九)_获取JDBC响应做接口关联

http://www.cnblogs.com/Zfc-Cjk/p/8295495.html

17340
来自专栏编程

一行 Python 代码实现并行

译者:caspar 译文:https://segmentfault.com/a/1190000000414339 原文:https://medium.com/b...

29490
来自专栏平凡文摘

怎样编写高质量的Java代码

17930

扫码关注云+社区

领取腾讯云代金券