用go语言爬取珍爱网

我们来用go语言爬取“珍爱网”用户信息。

首先分析到请求url为:

接下来用go请求该url,代码如下:

运行后会发现返回体里有很多乱码:

在返回体里可以找到 即编码为gbk,而go默认编码为utf-8,所以就会出现乱码。接下来用第三方库将其编码格式转为utf-8。

由于访问golang.org/x/text需要梯子,不然报错:

所以在github上下载:

然后将gbk编码转换为utf-8,需要修改代码如下:

考虑到通用性,返回的编码格式不一定是gbk,所以需要对实际编码做判断,然后将判断结果转为utf-8,需要用到第三方库golang.org/x/net/html,同样的在github上下载:

那么代码就变成这样:

运行后就看不到乱码了:

今天先爬到这里,明天将提取返回体中的地址URL和城市,下一节见。

END

本文由“壹伴编辑器”提供技术支持由“壹伴编辑器”提供技术支持

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180615G1ZVVR00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券