首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深

Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深

作者头像
云飞
发布2018-08-24 16:16:06
7570
发布2018-08-24 16:16:06
举报
文章被收录于专栏:云飞学编程云飞学编程

综述

根据网站结构及数据类型,做出头条视频的爬虫,重点说明数据在网站的位置以及抓取办法

并介绍一个类似的网站,简单说明数据抓取办法

使用工具: python3.6 + pycharm + requests库 + re 库

目标情况

这次我们的目标网站,是ajax加载的数据,首先,打开网页后,直接用浏览器(火狐)自带的开发者工具,点击网络,然后下滑网页,点击xhr,找到json数据,可以看到大概有100条内容

里面有每一个视频的相关信息,我们只需要取出每一个视频的url即可!然后在去看看详情页的情况

非常简单的就找到了视频的真实地址!复制地址重新打开一个网页去验证一下,确认地址无误,那么就去源代码中看看,该地址是否存在吧

很明显,这个网站并不是静态的网站,而且数据应该存放在js文件中,那么我们怎么得到它呢~?需要分析js文件还是用selenium呢?不要着急,偶然的情况下,发现了这个

有没有发现,在url中的关键字,是存在于网页源代码中的,虽然不是完全一样,但是我们可以和前面的那个标签中内容,对比下

可以判定,这里的值就是网页渲染后出现在html标签中的值,而且在源代码中它存在2个不同格式的视频地址!,这就很简单了,我们来写代码吧!

代码实现

简单写了一下,直接用requests请求内容,然后用re匹配,取出目标url

类似网站

其实还有一个网站和这种情况很像,那就是秒拍视频,但是如果你想看更多的视频的话,还是需要打开客户端,所以我们就简单的以一个视频为例,抓出它的真实地址!具体过程就不一一说明了,就直接看结果吧,先看目标网页

用关键字在源代码中查找

最终代码

验证结果

上述文章如有错误欢迎在留言区指出,如果这篇文章对你有用,点个赞,转个发如何?

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-08-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云飞学python 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 综述
  • 目标情况
  • 代码实现
  • 类似网站
相关产品与服务
云开发 CLI 工具
云开发 CLI 工具(Cloudbase CLI Devtools,CCLID)是云开发官方指定的 CLI 工具,可以帮助开发者快速构建 Serverless 应用。CLI 工具提供能力包括文件储存的管理、云函数的部署、模板项目的创建、HTTP Service、静态网站托管等,您可以专注于编码,无需在平台中切换各类配置。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档