前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >java语言实现的WEB爬虫平台

java语言实现的WEB爬虫平台

作者头像
程序源代码
发布2019-10-11 12:16:01
1.3K1
发布2019-10-11 12:16:01
举报
文章被收录于专栏:程序源代码程序源代码
概 述

爬虫平台

一个java语言实现的WEB爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫。

  1. 主要功能

功能特性

1、支持css选择器、正则提取

2、支持JSON/XML格式

3、支持Xpath/JsonPath提取

4、支持多数据源、SQL select/insert/update/delete

5、支持爬取JS动态渲染的页面

6、支持代理

7、支持二进制格式

8、支持保存/读取文件(csv、xls、jpg等)

9、常用字符串、日期、文件、加解密、随机等函数

10、支持流程嵌套

11、支持插件扩展(自定义执行器,自定义函数、自定义Controller、类型扩展等)

12、支持HTTP接口

  1. 安装部署

一、准备环境

1、安装JDK

2、安装MYSQl数据库服务器,建议使用5.7版本

3、安装maven3.0服务

二、运行项目

1、前往码云下载页面(https://gitee.com/jmxd/spider-flow)下载解压到工作目录

2、设置Eclipse仓库,菜单Window->Preferences->Maven->User Settings->User Settings 后边的Browse,然后导入自己的Maven目录的conf目录下的settings.xml文件,然后点Apply,在点OK

3、导入到Eclipse,菜单file->Import,然后选择Maven->Existing Maven Projects,点击Next>按钮,选择工作目录,然后点击Finish按钮,即可导入成功

4、导入数据库,基础表:spider-flow/db/spiderflow.sql

5、打开并运行org.spiderflow.SpiderApplication.java

6、打开浏览器,输入(http://localhost:8088/)

三、引入插件

1、首先把需要的插件下载到本地并导入到工作空间或安装到maven库

2、在spider-flow/spider-flow-web/pom.xml中引入插件

  1. 下载地址

网盘地址

https://pan.baidu.com/s/1STAAis6o6qvJZimLzKRRuA

提取码:n6yv

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-10-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序源代码 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 三、引入插件
  • 1、首先把需要的插件下载到本地并导入到工作空间或安装到maven库
  • 2、在spider-flow/spider-flow-web/pom.xml中引入插件
相关产品与服务
数据库专家服务
数据库专家服务(Database Expert Service,DBexpert)为您提供专业化的数据库服务。仅需提交您的具体问题和需求,即可获得腾讯云数据库专家的专业支持,助您解决各类专业化问题。腾讯云数据库专家服务团队均有10年以上的 DBA 经验,拥有亿级用户产品的数据库管理经验,以及丰富的服务经验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档