走近代码之Python-爬虫框架Portia

文章来源：企鹅号

一个迟到很久的新年快乐……3.8节都要到了，然而今天的更新依然是枯燥的知识分享。然而更新总归是好的开始吧！

Portia--基于Scrapy的可视化数据采集框架

框架特性

基于 scrapy 内核

可视化爬取内容，不需要任何开发专业知识

动态匹配相同模板的内容

安装

Windows 推荐使用 Docker 安装

安装 Docker ToolBox

启动

是 protia 项目的路径，如果没有项目，可以随便输入一个绝对路径，docker 会自动创建

在浏览器中输入地址

是文件中配置的

可能遇到的问题

Docker 下载安装镜像的过程可能会很慢，可以使用代理，或者使用国内的 DaoCloud 镜像市场。

根据文档描述，在绑定了 9001 端口以后，可以使用地址访问，但是在 windows 系统下却显示链接无法访问。

原因是：Docker 是运行在 Linux 上的，在 Windows 中运行 docker，实际上还是在 Windows 下先安装了一个 Linux 环境，然后在这个系统中运行的 docker。也就是说，服务中使用的 localhost 指的是这个 Linux 环境的地址，而不是我们的宿主环境 Windows，所以必须使用 Windows 分配给虚拟的 Linux 环境的访问。

Demo

官方 portia 管理平台：https://portia.scrapinghub.com/

爬取数据的工作流程主要分为两步，完全没有编程知识的人都可以操作：

1 Follow Links

2 Extracts data:

3 可以在右侧看到当前页面所有提取的数据:

运行爬虫

1：Portia 提供导出为 Scrapy 的功能，导出以后，可以使用 Scrapy 来运行爬虫

2：可以使用 Portia 的命令来运行

3：在 ScrapingHub 点击运行，可以在 web 页面上可视化的查看结果，导出数据

架构

slyd：为创建爬虫工程提供可视化的编辑器

slybot：真正可视化和爬取的核心

Scrapy：基于 Scrapy 爬虫框架实现，其中使用了 scrapy-splash 第三方中间件来提供JS渲染服务。

Splash：是一个 Javascript 渲染服务。它是一个实现了 HTTP API 的轻量级浏览器，Splash 是用 Python 实现的，同时使用 Twisted 和 QT。Twisted（QT）用来让服务具有异步处理能力，以发挥webkit的并发能力。

Scrapely ：是从HTML页面提取结构化数据的库。

源码分析

Portia 的爬虫核心就是使用了 scrapy，源码分析可以参考

部署

Portia 只能可视化的创建一个 scrapy 爬虫，并不能在网页可视化的部署运行。如果需要 web 端可视化管理爬虫有两种方法

需要 Scrapinghub 的Scrapy Cloud，深度使用需要收费。

或者使用scrapyd和scrapyd-client来部署和管理 scrapy 爬虫.

查看 jobs：

框架总结

Portia 只是一个可视化编辑爬取规则编辑器，最终创建出来的是一个 scrapy 爬虫项目。如果想要对爬虫进行部署，管理，还是需要学习 scrapy 相关知识。

只能爬取扁平化、结构单一的网站，对于爬取层次较深的网站比较难编写爬取规则。

因为可以匹配相同结构的模板，所以擅长爬取列表页的数据

Docker 在 Windows 上部署比较麻烦，推荐在 Linux 环境下部署 Portia。

发表于: 2018-03-062018-03-06 11:26:01
原文链接：http://kuaibao.qq.com/s/20180306G0H97Z00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

走近代码之Python-爬虫框架Portia

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐