用C跑爬虫

文章来源：企鹅号 - 华科小丁

爬虫自指定的URL地址开始下载网络资源，直到该地址和所有子地址的指定资源都下载完毕为止。

下面开始逐步分析爬虫的实现。

1. 待下载集合与已下载集合

为了保存需要下载的URL，同时防止重复下载，我们需要分别用了两个集合来存放将要下载的URL和已经下载的URL。

因为在保存URL的同时需要保存与URL相关的一些其他信息，如深度，所以这里我采用了Dictionary来存放这些URL。

具体类型是Dictionary 其中string是Url字符串，int是该Url相对于基URL的深度。

每次开始时都检查未下载的集合，如果已经为空，说明已经下载完毕；如果还有URL，那么就取出第一个URL加入到已下载的集合中，并且下载这个URL的资源。

2. HTTP请求和响应

C#已经有封装好的HTTP请求和响应的类HttpWebRequest和HttpWebResponse，所以实现起来方便不少。

为了提高下载的效率，我们可以用多个请求并发的方式同时下载多个URL的资源，一种简单的做法是采用异步请求的方法。

控制并发的数量可以用如下方法实现

```c

private void DispatchWork()

{

if (_stop) //判断是否中止下载

{

return;

}

for (int i = 0; i < _reqcount; i++)>

{

if (!_reqsBusy[i]) //判断此编号的工作实例是否空闲

{

RequestResource(i); //让此工作实例请求资源

}

```

由于没有显式开新线程，所以用一个工作实例来表示一个逻辑工作线程

```c

private bool[] _reqsBusy = null; //每个元素代表一个工作实例是否正在工作

private int _reqCount = 4; //工作实例的数量

```

每次一个工作实例完成工作，相应的_reqsBusy就设为false，并调用DispatchWork，那么DispatchWork就能给空闲的实例分配新任务了。

接下来是发送请求每次一个工作实例完成工作，相应的_reqsBusy就设为false，并调用DispatchWork，那么DispatchWork就能给空闲的实例分配新任务了。

接下来是发送请求

```c

private void RequestResource(int index)

{

int depth;

string url = "";

try

{

lock (_locker)

{

if (_urlsUnload.Count

发表于: 2023-03-172023-03-17 09:51:04
原文链接：https://kuaibao.qq.com/s/20230317A01VE700?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

用C跑爬虫

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐