超轻量级爬虫框架:looter

作者:半载流殇,Pythonistia && Otaku,努力转行中的一位测绘人员です

主页:zhihu.com/people/ban-zai-liu-shang

爬虫总共就三大步骤:发起请求——解析数据——存储数据,这样就足以写出最基本的爬虫了。诸如像Scrapy这样的框架,可以说是集成了爬虫的一切,但是新人可能会用的不怎么顺手,看教程可能还会踩各种各样的坑,而且Scrapy本身体积也有点大。因此,本人决定亲手写一个轻量级的爬虫框架——looter,里面集成了调试和爬虫模板这两个核心功能,利用looter,你就能迅速地写出一个高效的爬虫。另外,本项目的函数文档也相当完整,如果有不明白的地方可以自行阅读源码。

安装

$ pip install looter

仅支持Python3.6及以上版本。

快速开始

让我们先来撸一个非常简单的图片爬虫:首先,用shell获取网站

$ looter shell konachan.com/post

然后用2行代码就可以将图片抓取到本地

>>> imgs = tree.cssselect('a.directlink')
>>> save_imgs(imgs)

或者只用1行也行:d

>>> save_imgs(links(res, search='jpg'))

工作流

如果你想迅速撸出一个爬虫,那么你可以用looter提供的模板来自动生成一个

$ looter genspider <name> <tmpl> [--async]

在这行代码中,tmpl是模板,分为data和image两种模板。

async是一个备用的选项,它使得生成的爬虫核心用asyncio而非线程池。

在生成的模板中,你可以自定义domain和tasklist这两个变量。

什么是tasklist?实际上它就是你想要抓取的页面的所有链接。

以http://konachan.com为例,你可以使用列表推导式来创建自己的tasklist:

domain = 'https://konachan.com'
tasklist = [f'{domain}/post?page={i}' for i in range(1, 9777)]

然后你就要定制你的crawl函数,这是爬虫的核心部分。

def crawl(url):
    tree = lt.fetch(url)
    items = tree.cssselect('ul li')
    for item in items:
        data = dict()
        # data[...] = item.cssselect(...)
        pprint(data)

在大多数情况下,你所要抓取的内容是一个列表(也就是HTML中的ul或ol标签),可以用css选择器将它们保存为items变量。

然后,你只需使用for循环来迭代它们,并抽取你想要的数据,将它们存储到dict中。

但是,在你写完这个爬虫之前,最好用looter提供的shell来调试一下你的cssselect代码是否正确。

>>> items = tree.cssselect('ul li')
>>> item = items[0]
>>> item.cssselect(anything you want to crawl)
# 注意代码的输出是否正确!

调试完成后,你的爬虫自然也就完成了。怎么样,是不是很简单:)

当然,本人也编写了好几个爬虫例子,可供参考。

函数

looter为用户提供了很多实用的函数。

view

在爬取页面前,你最好确认一下页面的渲染是否是你想要的

>>> view(url)

save_imgs

当你获取了一堆图片链接时,用它可以直接将它们保存到本地

>>> img_urls = [...]
>>> save_imgs(img_urls)

alexa_rank

可以获取网站的reach和popularity指数(人气度),此函数返回一个元组(url, reachrank, popularityrank)

>>> alexa_rank(url)

links

获取网页的所有链接

>>> links(res)                  # 获取所有链接
>>> links(res, absolute=True)   # 获取绝对链接
>>> links(res, search='text')   # 查找指定链接

同样地,你也可以用正则表达式来获取匹配的链接

>>> re_links(res, r'regex_pattern')

saveasjson

将所得结果保存为json文件,支持按键值排序

>>> total = [...]
>>> save_as_json(total, name='text', sort_by='key')

parse_robots

用于爬取网站robots.txt上的所有链接。这个在做全站爬虫或者递归式url爬虫时颇为有效

>>> parse_robots(url)

login

有一些网站必须要先登录才能爬取,于是就有了login函数,本质其实就是建立session会话向服务器发送带有data的POST请求。 但是,每个网站的登录规则都各不相同,想要找到合适的postdata还是要费一番功夫的,而且更有甚者还要你构造param或header参数。 不过幸运的是在github上已经有人整理好了各大网站的模拟登录方法——fuck-login,本人很是佩服。 总之考验各位抓包的能力了,以下为模拟登录网易126邮箱(要求参数:postdata和param)

>>> params = {'df': 'mail126_letter', 'from': 'web', 'funcid': 'loginone', 'iframe': '1', 'language': '-1', 'passtype': '1', 'product': 'mail126',
 'verifycookie': '-1', 'net': 'failed', 'style': '-1', 'race': '-2_-2_-2_db', 'uid': 'webscraping123@126.com', 'hid': '10010102'}
>>> postdata = {'username': 你的用户名, 'savelogin': '1', 'url2': 'http://mail.126.com/errorpage/error126.htm', 'password': 你的密码}
>>> url = "https://mail.126.com/entry/cgi/ntesdoor?"
>>> res, ses = login(url, postdata, params=params) # res为post请求后的页面,ses为请求会话
>>> index_url = re.findall(r'href = "(.*?)"', res.text)[0] # 在res中获取重定向主页的链接
>>> index = ses.get(index_url) # 用ses会话访问重定向链接,想确认成功的话print下即可

Python网络爬虫学习系列课程共9节,提供课件和所有小节课程源代码。课程由《从零开始学Python网络爬虫》图书作者、简书知名博主、Python网络爬虫专家罗攀负责主讲。

第1讲:Python零基础语法入门

  1. 环境安装
  2. 变量与字符串
  3. 流程控制
  4. 数据结构
  5. 文件操作

第2讲:正则表达式爬虫

  1. 网络连接
  2. 爬虫原理
  3. Chrome浏览器安装和使用
  4. Request库使用
  5. 正则表达式
  6. csv文件存储

第3讲:Lxml库与xpath语法

  1. Excel存储
  2. lxml库
  3. Xpath语法

第4讲:API爬虫

  1. API概念
  2. 百度地图API调用
  3. JSON数据解析
  4. 图片爬虫

第5讲:异步加载

  1. MySQL数据库安装
  2. MySQL数据库简单使用
  3. Python操作数据库
  4. 异步加载
  5. 逆向工程
  6. 综合案例

第6讲:表单交互与模拟登陆

  1. post请求
  2. 逆向工程
  3. 提交cookie
  4. 综合案例

第7讲:Selenium模拟浏览器

  1. Selenium
  2. PhantomJS
  3. 异步加载处理
  4. 网页操作处理
  5. 综合案例

第8讲:Scrapy入门

  1. Scrapy安装
  2. 创建项目
  3. 各组件介绍
  4. 综合案例

第9讲:Scrapy精进

  1. 跨页面爬虫
  2. 存储数据库

原文发布于微信公众号 - Python中文社区(python-china)

原文发表时间:2018-08-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏北京马哥教育

让“懒惰” Linux 运维工程师事半功倍的 10 个关键技巧!

好的Linux运维工程师区分在效率上。如果一位高效的Linux运维工程师能在 10 分钟内完成一件他人需要 2 个小时才能完成的任务,那么他应该受到奖励(得到更...

41860
来自专栏惨绿少年

HTTP服务简介

第1章 HTTP服务介绍 1.1 简述用户访网站流程 a 进行域名信息的DNS解析 dig +trace 获得www.oldboyedu.com  ip地址信息...

32200
来自专栏Golang语言社区

游戏服务器之数据存档(应用数据引擎redis)

游戏服务器之数据存档:把逻辑服务器的角色数据存档到mysql和redis,分析的是较早前的一个游戏项目的存档处理。有些设计缺点,会提出优化方式。 设计上: 逻辑...

50070
来自专栏ChaMd5安全团队

iOS 11.1.2越狱尝鲜

最近盘古公开了一些漏洞细节,然后大家都在做各种越狱工具,在大佬解决Cydia前,我先分享下自己的吧。 常用的命令行工具基本都备齐...

34550
来自专栏吴伟祥

web服务器集群(多台web服务器)后session如何同步和共享

在访问量上去以后,很多人会采用web集群的方式在满足逐渐增长的用户量。这时候就不得不面对一个问题,那就是在多个服务器下,每次请求都会因为负载均衡而分配到不同的服...

27530
来自专栏开源优测

你离测试开发还有多远?

你可能差20000行代码的积累,但你写了200行的hello world来告诉自己不行

10430
来自专栏北京马哥教育

Linux磁盘监控工具说明

43330
来自专栏DeveWork

WordPress免插件仅代码实现文章浏览次数的方法(1)

在WordPress中为每一篇文章提供个“浏览次数”计数,一来可以间接地给访客一种文章有价值的暗示,二来方便自己获取相关数据(访客的内容偏好等等),三貌似想不到...

24350
来自专栏carven

前端模块化开发

其实对前端模块化开发的接触时间并不多,很多见解都是别人的,或者是偏的, 还是乐意记录下来,谁让我一天一个念头 说到前端模块化开发,其实是说 javascript...

13900
来自专栏北京马哥教育

一篇了解爬虫技术方方面面

传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬...

22340

扫码关注云+社区

领取腾讯云代金券