前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >敲代码累了怎么办,快用python爬小姐姐视频吧

敲代码累了怎么办,快用python爬小姐姐视频吧

作者头像
小王不头秃
发布2024-06-19 16:42:09
1240
发布2024-06-19 16:42:09
举报

前言

天天敲代码,看着逐渐光滑的头顶,那么有啥可以让我的心灵得到稍稍的安慰吗

这时一位大爷给了我们答案

那来吧,开整。

分析页面

来到主页界面看一下

首先第一步要拿到视频封面链接的视频页面地址,然后顺着这个地址点进去,就来到了视频播放页面

来到这个页面之后,我们抓取一下请求,发现居然没有视频的请求,这就说明很有可能视频链接就在页面的源代码中,凭借着多年的初级爬虫经验,我们在源代码中搜索一下“play”

快看,不就隔这呢 那么整个流程欧克了,就可以开始写爬虫代码了

具体代码

拿取视频播放页面的url

这里利用xpath的方式来拿取url,这样的方式相对于正则表达式来说更加简单,正好这里推荐一个插件xpath helper,测试xpath非常好用

下面借助这个插件先测试下我写的xpath

这不就全出来了

实现代码

代码语言:javascript
复制
 html = requests.get(url)
    html.encoding = 'utf-8'
    htmltext = str(html.text)
    dom_tree = etree.HTML(htmltext)
    htmlurls = dom_tree.xpath('//span[@class="cover"]/a/@href')

拿取视频的src

这里就要使用正则表达式了 使用到的正则表达式如下

代码语言:javascript
复制
# 拿取视频的url
videolink = re.compile(r'id="play-video" src="(.*?)"', re.S)

这样视频链接就拿到了,就可以开始下载了

成果

这一波可以看好久了

总结

最后还是那一句话

仅供学习,侵权立删

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021-08-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 分析页面
  • 具体代码
    • 拿取视频播放页面的url
      • 拿取视频的src
      • 成果
      • 总结
      相关产品与服务
      腾讯云服务器利旧
      云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档