前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python爬取小视频

python爬取小视频

作者头像
py3study
发布2020-01-07 11:22:11
9700
发布2020-01-07 11:22:11
举报
文章被收录于专栏:python3python3

python爬取小视频记录

学习python简单爬虫小程序,记录代码和学习过程

环境信息

python 2.7.12

分析与步骤

  1. 要分析网站信息 http://www.budejie.com/video/
  2. 查看网页不同页面的信息: http://www.budejie.com/video/2 http://www.budejie.com/video/3 http://www.budejie.com/video/4 可以知道,不同页面的URL规则,直接在后面输入数字查看跳转到不同页
  3. 分析视频内容特点 如图:
这里写图片描述
这里写图片描述

查看网页代码:

这里写图片描述
这里写图片描述

通过这段代码,我们可以考虑分析。在python代码中用一段存放描述内容,一段存放视频所在的url 对于每个url地址,通过urllib所提供的urlretrieve下载

  1. 具体代码实现
代码语言:javascript
复制
# -*- encoding:utf8 -*-
import re
import sys
import urllib2
import urllib
import os


reload(sys)
sys.setdefaultencoding("utf-8")

#a = 1
url_name = []
def get(pageindex):
    url = 'http://www.budejie.com/video/' + str(pageindex)
    # var1.set('已经获取到第%s页的视频视频'%(a))
    print url
    html = urllib.urlopen(url).read()
    url_reg = r'data-mp4="(.*?)"'
    url_items = re.findall(url_reg, html)
    name_reg = re.compile('<div class="j-r-list-c-desc".*?<a href=".*?>(.*?)</a>.*?</div>', re.S)
    name_items = re.findall(name_reg, html)
    for i, k in zip(name_items, url_items):
        url_name.append([i, k])

#传入文件名和video地址
def saveVideo(filename,videoUrl):
    print 'Saving : %s ...'%filename
    urllib.urlretrieve(videoUrl,'D:\\video\\%s.mp4'%filename)


####main exec ####
for pageindex in range(1,3):
    get(pageindex)

for index,item in enumerate(url_name):
    saveVideo(index,item[1])
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-09-17 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • python爬取小视频记录
  • 环境信息
  • 分析与步骤
相关产品与服务
云开发 CloudBase
云开发(Tencent CloudBase,TCB)是腾讯云提供的云原生一体化开发环境和工具平台,为200万+企业和开发者提供高可用、自动弹性扩缩的后端云服务,可用于云端一体化开发多种端应用(小程序、公众号、Web 应用等),避免了应用开发过程中繁琐的服务器搭建及运维,开发者可以专注于业务逻辑的实现,开发门槛更低,效率更高。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档