首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

推荐一个.Net Core开发的蜘蛛爬虫开源项目

如果我们需要抓取网络上的数据,这时候我们就要写爬虫,这里面就涉及到网页的抓取、以及网页分析与数据提取、抓取的性能等知识,今天就给大家推荐一个开源项目,它可以很好解决你的问题,让你更专注业务的开发。

项目简介

这是一个基于.Net Core开发的、Web爬虫开源项目,一个轻量级、高性能、简便的框架;框架集成了爬取、数据分析提取、代理等功能,可以帮助我们快速的完成爬取的功能。

技术架构

1、跨平台:基于.NetCore开发,支持Windows、Mono、Liunx、Windows Azure、Docker。

2、支持 .NetCore 2.2+。

3、数据库:MySql。

4、组件:RabbitMQ。

框架功能

1、基础功能:网页Http数据爬取、解析网页数据(text、json、html)、存储解析的数据至数据库。

2、采集调度:采集的去重,以及采集顺序的控制,支持广度优先与深度优先的模式。

3、分部署部署:可以同时部署多个下载服务器;

4、下载代理器注册服务:负责下载代理器的注册、心跳;单机模式默认启动一个内置的注册服务;

5、统计:统计各个爬虫、服务中心的状态,比如爬虫的请求数量、成功数量、失败数量等;

6、请求配置:比如添加签名配置;

7、数据流:可以支持多个规则解析器,按照顺序解析;

8、并发:支持消息队列,预先缓存请求数据,提高采集性能。

项目结构

使用例子

简单爬虫例子

Html数据解析

配置解析

项目地址

https://github.com/dotnetcore/DotnetSpider

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230218A05ZR700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券