前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python批量采集云南携程酒店信息

Python批量采集云南携程酒店信息

作者头像
你像时光唯美i
发布2022-08-26 13:54:50
1.7K1
发布2022-08-26 13:54:50
举报
文章被收录于专栏:python开发教程

昨天收到一个订单需求需要爬取携程云南酒店的名称,价格,评分,点评数,道路特点和地址信息1000条用来做酒店数据分析的工作,虽然1000条数据量不是很大,但是复制粘贴也需要花费很长的时间而且数据也不好整理,所以我们今天使用python来完成这件事情。开发工具我们还是选择pycharm和谷歌浏览器,python我用的是3.6版本。本次数据采集总共有四个步骤:1.分析目标网址;2.获取网站响应内容;3.解析网站响应内容;4.保存响应内容。目前大部分都会将数据保存至csv文件中,因为csv文件以逗号分开,可以在wps中直接转为excel文件,比较方便。当然我们也可以根据不同的需求保存到不同的文件类型。接下来我们将按照步骤依次来完成爬虫工作:

1.分析目标网址

打开谷歌浏览器,进入携程酒店网,城市选择大理,下拉酒店发现网址并没有发生变化,说明这些数据是动态加载的。右击鼠标打开检查,下拉页面搜索搜索更多酒店,会发现出现两个包,其中下面那个包就是酒店信息的包,我们会发现请求为POST,这样就顺利就抓到酒店信息的包了。我们打开headers发现请求地址,请求方式,请求状态码,请求头信息,cookie信息,refer信息都在,往下翻还有Requst playroad,打开searchCondition,发现入住日期,离开日期,入住人数,城市,页数,酒店数量都在这个字典中,后期我们只需要更换页码就可以拿到更多页的酒店信息,更换日期就可以拿到不同时间段的酒店信息,更换城市姓名和城市id就可以拿到更多城市的信息。

2.获取响应内容

导入相关库

构造请求头

构造POST响应体

发送POST请求

3.解析响应内容

4.保存响应内容

至此,便完成了大理携程酒店的1000条数据,总共用时10分钟,是不是很赞,大家需要源码可以后台私聊我。需要爬取多页只需要加上for循环遍历页数就可以啦。

本文仅供参考。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 python开发教程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文件存储
文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档