(原创)python爬取慕课网视频

前段时间安装了一个慕课网app,发现不用注册就可以在线看其中的视频,就有了想爬取其中的视频,用来在电脑上学习。
决定花两天时间用学了一段时间的python做一做。

我使用的是pycharm进行开发,使用BeautifulSoup模块解析html,整个代码进行了比较详细的注释。
整个工程结构:
----entity

--------__init__.py

--------fileinfor.py用来描述视频文件信息

----filedeal

--------__init__.py

--------file_downloader.py用于视频文件的下载

----spider 爬虫的核心内容
--------__init__.py

--------html_downloader.py html下载器

--------html_parser.py  html解析器

--------spiderman.py  爬虫核心逻辑

----test test文件夹主要是用来测试一些用例,不参与整个程序运行

----conf.py 一些全局变量

----index.py 程序启动入口

运行环境:
python 2.7.X
需要安装的支持模块:
BeautifulSoup (pip install或者下载源代码包setup.py),
下载链接:https://pypi.python.org/pypi/beautifulsoup4/4.3.2

运行:在windows上直接双击start.bat,linux上没试

现在将程序运行起来,双击start.bat:

输入课程号,选择视频品质:

等到显示100%时,会将视频下载到当前目录下

源代码在我的github上:https://github.com/qiyeboy/spider_smooc

欢迎大家指教学习

如果你觉得我的这篇原创给力的话,记得打赏呦!!!老板么么哒!!!

原文发布于微信公众号 - 七夜安全博客(qiye_safe)

原文发表时间:2016-03-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Golang语言社区

Go的单元测试技巧

本文为社区粉丝原创投稿,再次感谢作者DrmagicE的分享,欢迎大家在评论区留言和作者讨论,同时也欢迎大家踊跃投稿,分享您的golang语言学习经验!投稿邮箱地...

1053
来自专栏从零开始学 Web 前端

代码阅读——十个C开源项目

Webbench是一个在linux下使用的非常简单的网站压测工具。它使用fork()模拟多个客户端同时访问我们设定的URL,测试网站在压力下工作的性能,最多可以...

2453
来自专栏程序员互动联盟

【盟友分享】如何快速获取Chromium源码和编译

感谢盟友:我为之狂的热心分享!同时也希望盟友们多多分享自己写的不错的文章哦; 正文: 最近准备研究下Chromium源码,但在获取Chromium源码以及编译...

4468
来自专栏pangguoming

使用JAVA开发微信公众平台(一)——环境搭建与开发接入

一、 初始微信公众平台 微信公众平台,即我们平时所说的“公众号”,曾用名“官方平台”、“媒体平台”,但最终命名为“公众平台”。从微信的命名我可以发现,公众平台不...

5216
来自专栏极客生活

七种武器之一口箱子Redis

江湖传言「在任何规模、任何类型的服务器项目中,都存在一些最适合用Redis存储的数据。」

802
来自专栏happyJared

Linux私房菜:回头去学

说来惭愧,从学编程到现在写代码,算是用过不少东西,不过很多只停留在半解半知的状态,包括Linux在内,一直以来还没有较为系统的从基础开始学起。最近逼着自己回头看...

752
来自专栏Java技术

Redis有哪些开发设计规范值得我们注意的!

redis不是垃圾桶也不是 SUPER MAN,能力和资源都有限,不合理的使用会降低它的健康度,严重时甚至会引起redis抖动、阻塞等进而导致服务不可用,每一个...

1361
来自专栏张戈的专栏

WordPress发布文章主动推送到百度,加快收录保护原创

工作实在太忙,也没时间打理网站。最近公司额外交待了一些网站 SEO 方面的优化任务让我关注(这就是啥都要会、啥都要做的苦逼运维的真实写照了...)。 于是抽空看...

2966
来自专栏移动端周边技术扩展

移动端常用数据库

2304
来自专栏xdecode

图解高内聚与低耦合

模块就是从逻辑上将系统分解为更细微的部分, 分而治之, 复杂问题拆解为若干简单问题, 逐个解决.

1041

扫码关注云+社区