前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python批量采集美团网餐饮商家评论信息

python批量采集美团网餐饮商家评论信息

作者头像
你像时光唯美i
发布2022-08-26 14:08:10
5200
发布2022-08-26 14:08:10
举报
文章被收录于专栏:python开发教程python开发教程

最近有私信询问可不可以批量采集美团餐饮的商家评论信息,今天晚上刚好有时间就做一个爬虫小教程供大家参考。

爬虫的教程我们做了好几篇文章,流程可以参考之前的文章,今天就直接开始正题。

1.分析目标网址

首先使用谷歌浏览器打开美团网,搜索商家牛教官潮汕牛肉火锅店,这是我随机搜索的商家,大家可以选择自己需要的商家。

可以看到网页url为:https://www.meituan.com/meishi/179300254/

后面的那一串数字为商家的id,这个很重要,后面会用到。

翻到下面评论,点击第二页发现网址并没有发生变化,所以评论数据是动态加载的,所以需要谷歌浏览器进行抓包,之前抓包已经详细的讲过,这边就不多讲解,需要的可以翻之前的网址。

通过抓包抓到的网址url如下图:

url:https://www.meituan.com/meishi/api/poi/getMerchantComment?uuid=4d71c16218e44fbea5d9.1620288299.1.0.0&platform=1&partner=126&originUrl=https%3A%2F%2Fwww.meituan.com%2Fmeishi%2F179300254%2F&riskLevel=1&optimusCode=10&id=179300254&userId=95514115&offset=10&pageSize=10&sortType=1

其中uuid值可以固定,我观测了一下,6个小时换一次应该就可以,这个id值为商家的id,需要不同的商家只需要更换不同的id值就可以,userid是用户id,这个不用管,offset值为翻页值,第二页是10,所以第三页就是20,后面页数以此类推,pagesize为每页的数据量,sortType是排序方式,1为默认排序。可以直接打开url发现数据包为json数据。如下:

这就是分析目标网址的过程,接下来我们开始抓取数据。

2. 模拟浏览器发送请求,获取响应内容

导入相关包

import requests,csv,time,random

构造请求头

使用requests库获取网页内容

response = requests.get(url=url,headers=headers).json()

3.解析响应内容并保存

代码语言:javascript
复制
comments = response['data']['comments']
for comment in comments:
    #print(comment)
    #name = comment['userName']
    commentdata = comment['comment']
    commentdata1 = "".join(commentdata).strip("").replace('\n', ',').replace(',', ',')
print(commentdata1)

4.保存网页响应内容

代码语言:javascript
复制
with open('restrantcomment1.csv', mode='a', newline="") as csvfile:
    csv_writer = csv.writer(csvfile, delimiter=',')
    csv_writer.writerow([commentdata1])

如果想获取多页可以在代码前加for循环。

for i in range(0,100,10):

使用format函数把offset值改为i值就可以了。

效果图如下:

大家注意采集数据过程中注意请求频次,不要太快给服务器

造成压力,可以简单的使用time.sleep函数来进行操作,这就

是所有的内容了,大家有什么问题可以在后台私信我就行。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-05-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 python开发教程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档