前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >用python带你爬取小视频,看完“身体一天不如一天”

用python带你爬取小视频,看完“身体一天不如一天”

原创
作者头像
诸葛青云
修改2019-06-27 10:02:51
7210
修改2019-06-27 10:02:51
举报
文章被收录于专栏:诸葛青云的专栏

Python现在非常火,语法简单而且功能强大,很多同学都想学Python!

python爬取小视频记录

学习python简单爬虫小程序,记录代码和学习过程

环境信息

python 2.7.12

分析与步骤

1. 要分析网站信息 http://www.budejie.com/video/

2. 查看网页不同页面的信息

http://www.budejie.com/video/2

http://www.budejie.com/video/3

http://www.budejie.com/video/4

可以知道,不同页面的URL规则,直接在后面输入数字查看跳转到不同页

3. 分析视频内容特点

如图:

另外,关于python编程学习,小编给大家提供一个学习交流裙,欢迎到访:六一 一,五三零,一零一

查看网页代码:

通过这段代码,我们可以考虑分析。在python代码中用一段存放描述内容,一段存放视频所在的url

对于每个url地址,通过urllib所提供的urlretrieve下载

4. 具体代码实现

# -*- encoding:utf8 -*-

import re

import sys

import urllib2

import urllib

import os

reload(sys)

sys.setdefaultencoding("utf-8")

#a = 1

url_name = []

def get(pageindex):

url = 'http://www.budejie.com/video/' + str(pageindex)

# var1.set('已经获取到第%s页的视频视频'%(a))

print url

html = urllib.urlopen(url).read()

url_reg = r'data-mp4="(.*?)"'

url_items = re.findall(url_reg, html)

name_reg = re.compile('<div class="j-r-list-c-desc".*?<a href=".*?>(.*?)</a>.*?</div>', re.S)

name_items = re.findall(name_reg, html)

for i, k in zip(name_items, url_items):

url_name.append([i, k])

#传入文件名和video地址

def saveVideo(filename,videoUrl):

print 'Saving : %s ...'%filename

urllib.urlretrieve(videoUrl,'D:\video\%s.mp4'%filename)

####main exec ####

for pageindex in range(1,3):

get(pageindex)

for index,item in enumerate(url_name):

saveVideo(index,item[1])

如果觉得有帮助,记得关注、转发、收藏哟~

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云开发 CloudBase
云开发(Tencent CloudBase,TCB)是腾讯云提供的云原生一体化开发环境和工具平台,为200万+企业和开发者提供高可用、自动弹性扩缩的后端云服务,可用于云端一体化开发多种端应用(小程序、公众号、Web 应用等),避免了应用开发过程中繁琐的服务器搭建及运维,开发者可以专注于业务逻辑的实现,开发门槛更低,效率更高。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档