爬虫实战之爬取某宝商品信息

今日分享:淘宝某商品信息信息爬取

通过之前分享的两个爬虫项目,想必大家对简单爬虫的框架及代码编写已有所熟悉,今天依旧分享一个爬虫项目,爬取某宝上的特定商品信息,小编示例爬取的是书包这一物件,并对其价格及详细信息提取,相比之前增加的内容就是进行网页多次翻页爬取。难点在于代码量稍微增加,但是框架依然不变。

下面看一下代码,不知道你们看烦没,小编已经不想再解释了,框架真是万年不变,下面会挑一些重点进行解释,简单的就不再说啦 ^_^

导入库

获取网页信息

解析网页 提取数据

该段代码中,用到了正则匹配,其实没多少,只是对变化的主要信息进行了编写,小编也是尽量保持原文本信息,以方便大家理解,在自行操作的过程中,可以尝试编写复杂的正则表达式;上面也涉及到了一个陌生的函数,已经进行注释说明了。

打印输出

爬取结果也是打印输出显示在交互界面上。

主函数

由于对多个页面进行爬取,需要设置爬取深度depth,其是对爬取网页数量的限制,这一数字可以自行设置;代码中的商品 书包 是爬取商品的关键字,由于淘宝每页只展现44件商品的信息,所以代码中也需要进行相应信息设定,可以看下图的链接信息。

需要注意的是:在每一个涉及到翻页爬取的爬虫中,都需要按照实际的信息进行代码的编写。

以上完整代码已上传至交流学习群,请自行获取

您的点赞与转发是我们前进的最大动力!

扫码进交流学习群

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180103G0Z5V100?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券