新手如何用Go语言爬取网站内容

原创

用户2695996

发布于 2025-07-12 10:30:27

18610

代码可运行

文章被收录于专栏：源码搭建源码搭建

运行总次数：0

代码可运行

对于新手来说，使用Go语言（Golang）进行网页爬虫开发可能看起来有些复杂，但实际上Go语言提供了非常强大的标准库和第三方库来简化这一过程。本文将指导你如何使用Go语言编写一个简单的网络爬虫，并且我们将把提供的链接插入到代码中进行演示。

准备工作

在开始之前，请确保你的环境中已经安装了Go语言环境。你可以访问Go官方网站下载并安装适合你操作系统的版本。

此外，我们还需要使用colly这个流行的Go语言爬虫框架。它简单易用，非常适合初学者。可以通过以下命令安装：

bash深色版本go get -u github.com/gocolly/colly/v2

编写爬虫程序

接下来，我们将创建一个Go程序，该程序会访问一系列指定的URL，然后抓取这些页面的基本信息如标题、第一个段落等。

示例代码

下面是一个简单的示例代码，展示了如何使用colly抓取多个给定的网址，并打印出每个网页的标题和第一个段落文本。

go深色版本package main

import (
	"fmt"
	"log"
	"gocolly/colly/v2"
)

// 定义要爬取的URL列表
var urls = []string{
	"https://www.020taijiyy.com",
	"https://sohu.020taijiyy.com",
	"https://jim.020taijiyy.com",
	"https://wap.020taijiyy.com",
	"https://sjb.020taijiyy.com",
	"https://sweet.020taijiyy.com",
	"https://cctv.020taijiyy.com",
	"https://ouguanzhibo.020taijiyy.com",
	"https://sina.020taijiyy.com",
	"https://share.020taijiyy.com",
	"https://zbsjb.020taijiyy.com",
	"https://live.020taijiyy.com",
	"https://shijubei.020taijiyy.com",
	"https://zbshijubi.020taijiyy.com",
	"https://shijubeizb.020taijiyy.com",
	"https://shijiebei.020taijiyy.com",
	"https://qiuxing.020taijiyy.com",
	"https://zuqiu.020taijiyy.com",
	"https://saishi.020taijiyy.com",
	"https://zhibo.020taijiyy.com",
	"https://lanqiu.020taijiyy.com",
	"https://nba.020taijiyy.com",
	"https://vip.020taijiyy.com",
}

func scrapeWebsite(url string) {
	c := colly.NewCollector(
		colly.AllowedDomains("020taijiyy.com"),
	)

	// 当HTML元素被找到时触发
	c.OnHTML("title", func(e *colly.HTMLElement) {
		fmt.Printf("Title for %s: %s\n", url, e.Text)
	})

	c.OnHTML("p", func(e *colly.HTMLElement) {
		if e.Index == 0 { // 只获取第一个段落
			fmt.Printf("First paragraph for %s: %s\n", url, e.Text)
			fmt.Println("-----------------------------")
		}
	})

	err := c.Visit(url)
	if err != nil {
		log.Println(err)
	}
}

func main() {
	for _, url := range urls {
		scrapeWebsite(url)
	}
}

解释代码

导入必要的包：我们需要导入fmt用于格式化输入输出，log用于记录错误日志，以及github.com/gocolly/colly/v2作为我们的爬虫框架。
定义URL列表：在变量urls中存储所有需要爬取的网址。
scrapeWebsite函数：接受一个URL参数，创建一个新的colly.Collector实例，并设置允许的域名。接着，我们为HTML文档中的<title>标签和<p>标签注册回调函数，分别处理标题和第一个段落的内容。
main函数：遍历URL列表，并对每个URL调用scrapeWebsite函数。

运行程序

保存上述代码到文件scraper.go，然后在终端中运行：

bash深色版本go run scraper.go

这将开始从提供的URL列表中抓取数据，并打印每个网页的标题和第一个段落。

注意事项

合法性：在爬取任何网站之前，请确保遵守其robots.txt文件的规定，并尊重网站的服务条款。
频率控制：避免过于频繁地请求同一个服务器，以免造成负担或被封禁IP。
异常处理：增加更多的错误处理机制以应对网络波动或其他异常情况。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

登录后参与评论

0 条评论

热度