java语言实现的WEB爬虫平台

概 述

爬虫平台

一个java语言实现的WEB爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫。

  1. 主要功能

功能特性

1、支持css选择器、正则提取

2、支持JSON/XML格式

3、支持Xpath/JsonPath提取

4、支持多数据源、SQL select/insert/update/delete

5、支持爬取JS动态渲染的页面

6、支持代理

7、支持二进制格式

8、支持保存/读取文件(csv、xls、jpg等)

9、常用字符串、日期、文件、加解密、随机等函数

10、支持流程嵌套

11、支持插件扩展(自定义执行器,自定义函数、自定义Controller、类型扩展等)

12、支持HTTP接口

  1. 安装部署

一、准备环境

1、安装JDK

2、安装MYSQl数据库服务器,建议使用5.7版本

3、安装maven3.0服务

二、运行项目

1、前往码云下载页面(https://gitee.com/jmxd/spider-flow)下载解压到工作目录

2、设置Eclipse仓库,菜单Window->Preferences->Maven->User Settings->User Settings 后边的Browse,然后导入自己的Maven目录的conf目录下的settings.xml文件,然后点Apply,在点OK

3、导入到Eclipse,菜单file->Import,然后选择Maven->Existing Maven Projects,点击Next>按钮,选择工作目录,然后点击Finish按钮,即可导入成功

4、导入数据库,基础表:spider-flow/db/spiderflow.sql

5、打开并运行org.spiderflow.SpiderApplication.java

6、打开浏览器,输入(http://localhost:8088/)

三、引入插件

1、首先把需要的插件下载到本地并导入到工作空间或安装到maven库

2、在spider-flow/spider-flow-web/pom.xml中引入插件

  1. 下载地址

网盘地址

https://pan.baidu.com/s/1STAAis6o6qvJZimLzKRRuA

提取码:n6yv

原文发布于微信公众号 - 程序源代码(itcode)

原文发表时间:2019-10-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券