python小伙自制模板之家查询和下载文件的脚本

通过python的requests和lxml库,完成对模板之家免费模板的查询和下载功能(保存本地)

目标网站: www.cssmoban.com

工具:python3.6 requesst、lxml库

以上2个库都可以通过pip安装,在cmd下输入命令:pip install requests(lxml),然后等待安装完成即可(如果报错,也可以网上搜索whl文件,下载到本地安装)

整体思路:

@查找目标网站的分类和相应的url,写入字典待查

@等待用户输入查询分类,返回对应的url

@找到分类的最大页码,做入循环

@找到每个模板url,进入后查找下载地址url

@ 建立用户输入分类文件夹,保存模版至文件夹

大致如此,接下来我们分析网页

入口页面:www.cssmoban.com

最大页码查找

下载地址所在

分类函数,传入名字,返回url:

完整代码和运行结果如下(头部信息请自行输入):

最后

这个网站很简单,不需要登录验证码,不需要cookies,爬虫也没有写的太暴力,注意加上间隔时间,别对人家服务器造成压力最好。

喜欢就关注下呗!喜欢和需要源码的小伙伴可以私信我,回复"资料"就可以哦!

或者点击链接加入群【python┮】:https://jq.qq.com/?_wv=1027&k=59NCLH6

原文发布于微信公众号 - 云飞学python(P542110741)

原文发表时间:2018-02-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏烂笔头

Django 1.10中文文档-第一个应用Part6-静态文件

目录[-] 本教程上接Part5 。前面已经建立一个网页投票应用并且测试通过,现在主要讲述如何添加样式表和图片。 除由服务器生成的HTML文件外,网页应用一...

3027
来自专栏向治洪

ngnix服务器搭建

 1.  到nginx官网上下载相应的安装包,http://nginx.org/en/download.html;下载进行解压,将解压后的文件放到自己心仪的目...

2339
来自专栏清晨我上码

第一节 netty概述

612
来自专栏linux驱动个人学习

Git的gc功能

Git的底层并没有采用 CVS、SVN 底层所采用的那套增量式文件系统,而是采用一套自行维护的存储文件系统。当文件变动发生提交时,该文件系统存储的不是文件的差异...

3395
来自专栏游戏杂谈

Flash Builder 4安装SVN插件

flash builder与eclipse类似,装插件的方法也差不多。唯一要注意的时候是选择包的问题,如下图所示:

1243
来自专栏nummy

Tornado入门(八)【运行和部署】

由于Tornado自身提供了HTTPServer, 所以它的运行和部署与其他Python Web 框架不一样。我们可以直接写一个main()方法来启动一个服务器...

1112
来自专栏杨建荣的学习笔记

vi的补充学习(r4笔记第25天)

今天突然发现vi虽然用了些日子了,但是常用的一些命令之外,还是有些命令比较生疏,简单总结了一下,然后自己在vi里面编辑了一把,效果还不错。 对于大家比较熟悉且常...

33510
来自专栏张伟博客

SVN的备份及恢复

1074
来自专栏学海无涯

Java Web之Nginx+Tomcat+Memcached配置

1、配置多个Tomcat 复制本机上的Tomcat,分别为apache-tomcat-8.0.26-1,apache-tomcat-8.0.26-2,apach...

2926
来自专栏bboysoul

fedora安装pyenv实现python的版本管理

curl -L https://raw.githubusercontent.com/pyenv/pyenv-installer/master/bin/pyenv...

922

扫码关注云+社区