前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >强!6.1K Star!推荐一款开源的无代码网页数据提取工具!

强!6.1K Star!推荐一款开源的无代码网页数据提取工具!

作者头像
测试开发技术
发布2025-01-07 08:33:24
发布2025-01-07 08:33:24
24700
代码可运行
举报
文章被收录于专栏:测试开发技术
运行总次数:0
代码可运行

在当今数字化时代,数据已成为企业和开发者极为宝贵的资源。从网页中提取数据常常是众多项目中的关键环节,但传统的编写代码进行数据提取的方式,往往需要耗费大量的时间和精力,并且要求开发者具备较高的编程技能。

今天,要给大家推荐一款开源无代码网页数据提取工具 ——maxun,它在 GitHub 上已经斩获了 6.1K Star,足见其受欢迎程度和实用性。

一、项目亮点

1、轻松创建提取机器人

maxun 最大的特色之一就是能够让用户在短短几分钟内将普通网站转换为强大的 API 和电子表格数据源,而这一切无需编写一行代码。用户只需通过简单的操作训练机器人,即可实现数据的自动提取。无论是捕获网页中的列表数据、特定文本内容,还是截取屏幕截图,maxun 都能应对自如。例如,对于一个电商网站,用户可以轻松训练机器人提取商品名称、价格、描述等信息,快速构建自己的商品数据库。并且支持多种数据提取方式,如捕获列表、捕获文本或捕获屏幕截图等。

2、智能处理分页与滚动

在面对具有分页或需要滚动加载数据的网页时,maxun 展现出了其智能的一面。它能够自动识别并处理这些情况,确保完整地提取所需数据。这意味着用户无需担心数据提取不完整的问题,无论是长列表数据还是分布在多个页面的数据,maxun 都能精准地抓取。

3、灵活的运行调度

该工具还支持按照特定的时间表运行机器人。这对于需要定期更新数据的场景非常实用,比如新闻网站的数据采集、股票价格数据的定时获取等。用户可以根据自己的需求设置机器人在每天的特定时间或者每周的特定日期运行,保证数据的及时性和准确性。

一句话小结:

maxun可以在几分钟内将网站转换为 API 和电子表格,无需编写代码。用户能够训练机器人自动从网页提取数据,支持多种数据提取方式,且具备处理分页和滚动的能力,还能按照特定的时间表运行机器人。提供了一些集成功能,目前有 Google Sheet 集成。未来还计划支持更多功能,如适应网站布局变化、提取登录后的数据(并支持双因素认证)等。

二、安装与使用

1、使用 Docker Compose 安装

1、首先,在项目根文件夹创建一个名为.env 的文件。可以参考项目提供的示例文件,将其中的内容复制到.env 文件中,这个文件主要用于设置各种环境变量,如数据库连接信息、端口号等。

2、接着,复制粘贴 docker-compose.yml 文件,然后在命令行中运行

代码语言:javascript
代码运行次数:0
复制
docker-compose up -d 

这一过程会自动拉取所需的镜像并启动容器。

3、安装完成后,就可以通过 http://localhost:5173/ 访问 maxun 的前端界面,在这里进行机器人的训练和数据提取任务的设置;通过 http://localhost:8080/ 访问后端,进行一些更高级的配置和管理操作。

以下是一些关键的环境变量及其说明:

  • BACKEND_PORT、FRONTEND_PORT等端口相关变量,用于指定后端和前端运行的端口,默认值分别为8080和5173。
  • 数据库相关变量如DB_NAME、DB_USER、DB_PASSWORD、DB_HOST、DB_PORT等,用于连接 PostgreSQL 数据库,这些变量必须设置正确,否则数据库连接会失败。
  • 还有用于认证的JWT_SECRET,加密敏感数据的ENCRYPTION_KEY,连接 MinIO 存储的相关变量以及用于 Google OAuth 的变量(可选)等。

2、不使用 Docker 安装

若不想使用 Docker,需要确保系统中已经安装了 Node.jsPostgreSQLMinIORedis 这些依赖项。

首先克隆 maxun 项目,然后进入项目目录,运行相关命令安装依赖项,如 npm install 等。之后还需要初始化 Playwright,最后运行 npm run start 命令启动项目。同样,可以通过上述指定的前端和后端端口进行访问和操作。

具体操作如下:

代码语言:javascript
代码运行次数:0
复制
git clone https://github.com/getmaxun/maxun

# change directory to the project root
cd maxun

# install dependencies
npm install

# change directory to maxun-core to install dependencies
cd maxun-core 
npm install

# get back to the root directory
cd ..

# make sure playwright is properly initialized
npx playwright install
npx playwright install-deps

# get back to the root directory
cd ..

# start frontend and backend together
npm run start

同样可以通过http://localhost:5173/访问前端,通过http://localhost:8080/访问后端。

三、小结

maxun项目目前处于测试版(In Beta),仍在早期开发阶段,且maxun 采用 AGPL - 3.0 许可证。这意味着如果您在自己的项目中使用了 maxun,并且对其进行了修改和分发,那么您的修改也需要遵循 AGPL - 3.0 许可证的要求进行开源。这种许可证有助于促进开源社区的发展,鼓励更多的开发者参与到项目的改进和完善中来。

总之,maxun 作为一款开源的无代码网页数据提取工具,以其强大的功能、便捷的安装使用方式以及积极的开发态势,为广大开发者和数据处理人员提供了一个高效的数据提取解决方案。无论是小型个人项目还是大型企业级的数据采集需求,maxun 都值得一试。

项目开源地址:https://github.com/getmaxun/maxun

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 测试开发技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、项目亮点
  • 二、安装与使用
    • 1、使用 Docker Compose 安装
    • 2、不使用 Docker 安装
  • 三、小结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档