在当今数字化时代,数据已成为企业和开发者极为宝贵的资源。从网页中提取数据常常是众多项目中的关键环节,但传统的编写代码进行数据提取的方式,往往需要耗费大量的时间和精力,并且要求开发者具备较高的编程技能。
今天,要给大家推荐一款开源无代码网页数据提取工具 ——maxun,它在 GitHub 上已经斩获了 6.1K Star,足见其受欢迎程度和实用性。
1、轻松创建提取机器人
maxun 最大的特色之一就是能够让用户在短短几分钟内将普通网站转换为强大的 API 和电子表格数据源,而这一切无需编写一行代码。用户只需通过简单的操作训练机器人,即可实现数据的自动提取。无论是捕获网页中的列表数据、特定文本内容,还是截取屏幕截图,maxun 都能应对自如。例如,对于一个电商网站,用户可以轻松训练机器人提取商品名称、价格、描述等信息,快速构建自己的商品数据库。并且支持多种数据提取方式,如捕获列表、捕获文本或捕获屏幕截图等。
2、智能处理分页与滚动
在面对具有分页或需要滚动加载数据的网页时,maxun 展现出了其智能的一面。它能够自动识别并处理这些情况,确保完整地提取所需数据。这意味着用户无需担心数据提取不完整的问题,无论是长列表数据还是分布在多个页面的数据,maxun 都能精准地抓取。
3、灵活的运行调度
该工具还支持按照特定的时间表运行机器人。这对于需要定期更新数据的场景非常实用,比如新闻网站的数据采集、股票价格数据的定时获取等。用户可以根据自己的需求设置机器人在每天的特定时间或者每周的特定日期运行,保证数据的及时性和准确性。
一句话小结:
maxun
可以在几分钟内将网站转换为 API 和电子表格,无需编写代码。用户能够训练机器人自动从网页提取数据,支持多种数据提取方式,且具备处理分页和滚动的能力,还能按照特定的时间表运行机器人。提供了一些集成功能,目前有 Google Sheet 集成。未来还计划支持更多功能,如适应网站布局变化、提取登录后的数据(并支持双因素认证)等。
1、首先,在项目根文件夹创建一个名为.env 的文件。可以参考项目提供的示例文件,将其中的内容复制到.env 文件中,这个文件主要用于设置各种环境变量,如数据库连接信息、端口号等。
2、接着,复制粘贴 docker-compose.yml 文件,然后在命令行中运行
docker-compose up -d
这一过程会自动拉取所需的镜像并启动容器。
3、安装完成后,就可以通过 http://localhost:5173/
访问 maxun 的前端界面,在这里进行机器人的训练和数据提取任务的设置;通过 http://localhost:8080/
访问后端,进行一些更高级的配置和管理操作。
以下是一些关键的环境变量及其说明:
若不想使用 Docker,需要确保系统中已经安装了 Node.js
、PostgreSQL
、MinIO
和 Redis
这些依赖项。
首先克隆 maxun 项目,然后进入项目目录,运行相关命令安装依赖项,如 npm install
等。之后还需要初始化 Playwright,最后运行 npm run start
命令启动项目。同样,可以通过上述指定的前端和后端端口进行访问和操作。
具体操作如下:
git clone https://github.com/getmaxun/maxun
# change directory to the project root
cd maxun
# install dependencies
npm install
# change directory to maxun-core to install dependencies
cd maxun-core
npm install
# get back to the root directory
cd ..
# make sure playwright is properly initialized
npx playwright install
npx playwright install-deps
# get back to the root directory
cd ..
# start frontend and backend together
npm run start
同样可以通过http://localhost:5173/
访问前端,通过http://localhost:8080/
访问后端。
maxun
项目目前处于测试版(In Beta),仍在早期开发阶段,且maxun 采用 AGPL - 3.0
许可证。这意味着如果您在自己的项目中使用了 maxun,并且对其进行了修改和分发,那么您的修改也需要遵循 AGPL - 3.0 许可证的要求进行开源。这种许可证有助于促进开源社区的发展,鼓励更多的开发者参与到项目的改进和完善中来。
总之,maxun 作为一款开源的无代码网页数据提取工具,以其强大的功能、便捷的安装使用方式以及积极的开发态势,为广大开发者和数据处理人员提供了一个高效的数据提取解决方案。无论是小型个人项目还是大型企业级的数据采集需求,maxun 都值得一试。
项目开源地址:https://github.com/getmaxun/maxun