前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python批量爬取淘宝商品评价信息

Python批量爬取淘宝商品评价信息

作者头像
你像时光唯美i
发布2022-08-26 13:54:10
1.4K0
发布2022-08-26 13:54:10
举报
文章被收录于专栏:python开发教程python开发教程

因为最近接到一位小朋友的订单,说需要爬取淘宝商品婴幼儿奶粉的评价信息制作词云图,所以做了一个爬虫小教程希望对大家有所帮助。

本次开发所用工具:Pycharm,谷歌浏览器

因为谷歌浏览器的抓包比较方便,所以推荐大家在爬虫过程中使用谷歌浏览器,Pycharm就不多解释了,个人认为是python开发最实用的工具之一了。

首先,基本爬虫过程分为三个步骤:1.分析目标网址;2.模拟浏览器发送请求,获取响应内容;3.解析响应内容并保存,提取数据。

  1. 分析目标网址 首先,我们打开谷歌浏览器,进入淘宝网,搜索婴幼儿奶粉,找到第一个商品,进入商品详情页,进入评论区,等页面完全加载完,鼠标右击检查。点击评论下一页,发现加载出来很多包,其中有一个list_detail_rate.htm包存放着评论信息,找到目标网址。接下来开始抓取评论。
  1. 模拟浏览器发送请求,获取响应内容 导入相关包

构造请求头

使用requests库获取网页内容并对网页进行处理

3.解析响应内容并保存

使用json库对网页文本进行解析,并使用for循环得到评价时间和评价内容

最后将这些数据保存到csv文件中,得到完整评价信息

这就是婴幼儿奶粉一页的评论信息,如果想获取多页评论信息,可以使用for循环遍历页数就可以了,建议速度不要太快,以免对服务器造成压力。大家有什么问题私聊我就可以了。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-04-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 python开发教程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档