前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【技术创作101训练营】教你一招另辟蹊径抓取美团火锅数据

【技术创作101训练营】教你一招另辟蹊径抓取美团火锅数据

原创
作者头像
前端皮皮
修改2021-01-20 18:12:20
6492
修改2021-01-20 18:12:20
举报
文章被收录于专栏:前端进阶学习交流
教你一招另辟蹊径抓取美团火锅数据.pptx

演讲文稿:

开场

我叫大家好,我是前端皮皮,其实我一点都不皮,乖的很哪~

今天借腾讯云+社区这个机会,给大家简单分享下美团数据的简易获取教程,希望小小白们也可以学会这招,下次再有人找你要数据的时候,你就可以拍腿板跟她说,让我来!

本次分享的内容主要可分为四块:

  • 背景
  • 具体实现
  • 效果展示
  • 总结

背景

最近有个小伙伴在群里问美团数据怎么获取,而且她只要火锅数据,她在上海,只要求抓上海美团火锅的数据,而且要求也不高,只要100条,想做个简单的分析,相关的字段要的也比较少,只需要店铺名、星级、评分、地址、价格、评论数量。

乍一看,这个问题还真的是蛮难的,毕竟美团也不是那么好抓,什么验证码,模拟登陆等一大堆拂面而来,吓得小伙伴都倒地了。神仙常规操作,通过F12查看,抓包,分析URL,找规律,等等操作,发现都非常难顶!

不过白慌,今天小编给大家介绍一个小技巧,另辟蹊径去搞定美团的数据,这里需要用到抓包工具Fiddler。讲道理,之前我开始接触网络爬虫的时候也没有听过这个东东,后来就慢慢知道了,而且它真的蛮实用的,建议大家都能学会用它。这个工具专门用于抓包,而且其安装包也非常小,直接百度下载安装即可。

具体实现

在Fiddler的左侧会显示大家的浏览器网站信息,避免抓包过多,这里建议大家只打开美团这一个网页即可,以免眼花缭乱。在茫茫抓包链接中找到meituan网站的链接,链接里边会有meituan关键字,找起来应该不太难。链接的左边返回的response(响应)的文件类型,可以看到是JSON文件,尔后双击这一行链接。

在WebView中可以看到返回的数据,与网页中的内容对应一致。

不过需要注意的是美团网限制一页最多显示32条火锅信息,不用慌,看我表演。如果我想获取100条信息的话,那得前后找4页,才能够满足要求。有没有办法让其一次性多显示一些数据呢?答案是可以的,操作方法如下。

在左侧找到对应的美团网链接,然后点击右键一次选择CopyàJustUrl。将得到的URL放到浏览器中去进行访问,可以看到limit=32,即代表可以获取到32条相关的火锅信息,并且返回的内容和Fiddler抓包工具返回的信息是一致的。

此时,我们直接在浏览器中将limit=32这个参数改为limit=100,也就是说将32更改为100,让其一次性返回100条火锅数据,天助我也,竟然可以一次性访问到,如下图所示。就这样,轻轻松松的拿到了一百条数据。奈斯不?

效果展示

接下来,可以将浏览器返回的数据进行Ctrl+A全部选中,放到一个本地文件中去,存为txt格式,在sublime中打开,发现乱糟糟的,真让人头大。其实乍一看觉得很乱,其实它就是一个JSON文件,剩下的工作就是对这个JSON文件做字符串的提取,写个Python代码,提取我们的目标信息,包括店门、星级、评论数、关键词、地址、人均消费等。运行程序之后,我们会得到一个txt文件,列与列之间以制表符分开。在txt文件中看上去很是费劲,将其导入到Excel文件中去,就清晰多了,是不是觉得很棒棒呢?接下来就可以很方便的对数据做分析什么的了,数据可视化,词云等等,都可~

总结

抓取美团火锅数据的简易方法就介绍到这里了,希望小伙伴们都可以学会,以后抓取类似的数据就不用找他人帮你写程序啦!

经过一番讲解,你是不是发现其实获取数据并没有想的那么难了呢?

以上就是本次为大家分享的内容了,感谢大家的耐心聆听,觉得不错,记得点个赞噢,皮皮会继续给大家带来更多分享内容滴!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 演讲文稿:
    • 开场
      • 背景
        • 具体实现
          • 效果展示
            • 总结
            相关产品与服务
            验证码
            腾讯云新一代行为验证码(Captcha),基于十道安全栅栏, 为网页、App、小程序开发者打造立体、全面的人机验证。最大程度保护注册登录、活动秒杀、点赞发帖、数据保护等各大场景下业务安全的同时,提供更精细化的用户体验。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档