前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谁说爬虫只能Python?看我用C#快速简单实现爬虫开发和演示!

谁说爬虫只能Python?看我用C#快速简单实现爬虫开发和演示!

作者头像
Wesky
发布2024-08-13 19:16:21
1350
发布2024-08-13 19:16:21
举报
文章被收录于专栏:Dotnet Dancer

前言:说到爬虫,基本上清一色的都知道用Python,但是对于一些没玩过或者不想玩Python的来说,却比较头大一点。所以以下我站在C# 的角度,来写一个简单的Demo,用来演示C# 实现的简单小爬虫。大家感兴趣可以自己拓展出更加丰富的爬虫功能。

前提:引用包HtmlAgilityPack

先来个爬取文本。

新建一个文本处理的方法,用于处理爬取的文本数据,并写入到指定文件夹内的text.txt文件内

代码语言:javascript
复制
static async Task ProcessText(HtmlDocument doc, string textDir)
{
    var textNodes = doc.DocumentNode.SelectNodes("//*[text()]");
    if (textNodes != null)
    {
        StringBuilder allText = new StringBuilder();
        foreach (HtmlNode node in textNodes.Where(node => !string.IsNullOrWhiteSpace(node.InnerText)))
        {
            string textContent = WebUtility.HtmlDecode(node.InnerText.Trim());
            if (!string.IsNullOrWhiteSpace(textContent))
            {
                allText.AppendLine(textContent);
            }
        }

        string filePath = Path.Combine(textDir, "text.txt");
        await File.WriteAllTextAsync(filePath, allText.ToString());
    }
}

新增一个网页处理方法,用于传入网址进行抓取网页数据,并传给以上的文本处理方法进行解析文本数据,保存到当前根目录下的Texts文件夹内

以我两天前写的博客内容为例,进行抓取。博客地址为:https://www.cnblogs.com/weskynet/p/18213135

Main里面调用有关方法,进行爬取。

说明:添加 User-Agent 头部信息可以帮助模拟常规的浏览器请求,避免被目标服务器拒绝。

看下我当前的根目录:

运行完毕,多出Texts文件夹

文件夹内多出程序里面写定的text.txt文件

打开文本文件,可以看到文章全部内容,以及所有文本都被抓取下来了。

同文本处理,咱再新增一个图片处理方法:

代码语言:javascript
复制
static async Task ProcessImages(HtmlDocument doc, string baseUrl, string imagesDir)
{
    var imageNodes = doc.DocumentNode.SelectNodes("//img[@src]");
    if (imageNodes != null)
    {
        foreach (HtmlNode imageNode in imageNodes)
        {
            string imageUrl = imageNode.GetAttributeValue("src", null);
            imageUrl = EnsureAbsoluteUrl(baseUrl, imageUrl);
            string fileName = Path.GetFileName(new Uri(imageUrl).LocalPath);
            string localPath = Path.Combine(imagesDir, fileName);

            byte[] imageBytes = await client.GetByteArrayAsync(imageUrl);
            await File.WriteAllBytesAsync(localPath, imageBytes);
        }
    }
}

网页爬取方法里面把文本有关改成图片

以下是一个辅助方法,辅助方法用于处理相对URL,确保所有请求的URL是绝对的,防止资源加载失败。

代码语言:javascript
复制
static string EnsureAbsoluteUrl(string baseUrl, string url)
  {
      return Uri.IsWellFormedUriString(url, UriKind.Absolute) ? url : new Uri(new Uri(baseUrl), url).AbsoluteUri;
  }

执行程序,执行完毕,根目录下新增Images文件夹

文件夹内会看到该网址的所有图片文件。

图片文件格式都会被抓取,可以根据自己需要进行过滤。如果是整个站点,可以根据循环进行获取每个页面的数据。

最后再提供一个视频爬取的代码,由于没找到可以爬取的站点,此处演示就不演示了,仅供代码出来给大家学习和技术分享使用。感兴趣的大佬可以自行尝试。

代码语言:javascript
复制
static async Task ProcessVideos(HtmlDocument doc, string baseUrl, string videosDir)
{
    var videoNodes = doc.DocumentNode.SelectNodes("//video/source[@src]");
    if (videoNodes != null)
    {
        foreach (HtmlNode videoNode in videoNodes)
        {
            string videoUrl = videoNode.GetAttributeValue("src", null);
            videoUrl = EnsureAbsoluteUrl(baseUrl, videoUrl);
            string videoName = Path.GetFileName(new Uri(videoUrl).LocalPath);
            string videoPath = Path.Combine(videosDir, videoName);

            byte[] videoBytes = await client.GetByteArrayAsync(videoUrl);
            await File.WriteAllBytesAsync(videoPath, videoBytes);
        }
    }
}

如果以上代码还不能满足你的好奇心,想要我本地测试的源码demo,可以在我的公众号【Dotnet Dancer】后台回复:【爬虫】 即可获取我的本地demo源码自行调试和把玩。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Dotnet Dancer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图片处理
图片处理(Image Processing,IP)是由腾讯云数据万象提供的丰富的图片处理服务,广泛应用于腾讯内部各产品。支持对腾讯云对象存储 COS 或第三方源的图片进行处理,提供基础处理能力(图片裁剪、转格式、缩放、打水印等)、图片瘦身能力(Guetzli 压缩、AVIF 转码压缩)、盲水印版权保护能力,同时支持先进的图像 AI 功能(图像增强、图像标签、图像评分、图像修复、商品抠图等),满足多种业务场景下的图片处理需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档